GPU 显卡概述

本节从架构指标、显存/带宽与算力、典型机型差异(A100显卡RTX3090显卡RTX4090显卡)以及训练/推理的工程权衡出发,构建理解 GPU 性能画像的“最小必需集”。

1. 关键硬件指标

  • TFLOPs/FP16/BF16/TF32:不同精度的理论算力;
  • 显存(VRAM)容量与带宽(HBM/GDDR):决定可容纳的 batch/序列长度与参数规模;
  • 访存与算子:内存访存瓶颈常主导大模型推理;
  • 编码器/解码器负载:训练与推理的算子画像不同,注意计算/带宽占比。

2. 典型机型

  • A100显卡:HBM2e 高带宽、NVLink 支持,数据中心训练主力;
  • RTX3090显卡:较大显存、性价比高,适合单机开发;
  • RTX4090显卡:强单卡算力,适合推理/开发;
  • 选择策略:结合成本、能耗、主板供电与散热设计。

3. 框架与算力利用

  • 混合精度与张量核:发挥矩阵乘单元优势;
  • 算子融合与图编译:减少访存与 kernel 启动开销;
  • 并发与流水:多流重叠、核外算子优化。

4. 训练与推理权衡

  • 训练:关注吞吐与收敛稳定;
  • 推理:关注时延与并发;KV Cache、序列并行与 GGUF模型量化 提升效率。

5. 参考链接

链接