GPU 显卡概述
本节从架构指标、显存/带宽与算力、典型机型差异(A100显卡、RTX3090显卡、RTX4090显卡)以及训练/推理的工程权衡出发,构建理解 GPU 性能画像的“最小必需集”。
1. 关键硬件指标
- TFLOPs/FP16/BF16/TF32:不同精度的理论算力;
- 显存(VRAM)容量与带宽(HBM/GDDR):决定可容纳的 batch/序列长度与参数规模;
- 访存与算子:内存访存瓶颈常主导大模型推理;
- 编码器/解码器负载:训练与推理的算子画像不同,注意计算/带宽占比。
2. 典型机型
- A100显卡:HBM2e 高带宽、NVLink 支持,数据中心训练主力;
- RTX3090显卡:较大显存、性价比高,适合单机开发;
- RTX4090显卡:强单卡算力,适合推理/开发;
- 选择策略:结合成本、能耗、主板供电与散热设计。
3. 框架与算力利用
- 混合精度与张量核:发挥矩阵乘单元优势;
- 算子融合与图编译:减少访存与 kernel 启动开销;
- 并发与流水:多流重叠、核外算子优化。
4. 训练与推理权衡
- 训练:关注吞吐与收敛稳定;
- 推理:关注时延与并发;KV Cache、序列并行与 GGUF模型量化 提升效率。
5. 参考链接
- NVIDIA Developer: https://developer.nvidia.com
- TensorRT: https://developer.nvidia.com/tensorrt
- 名词卡:英伟达、计算、A100显卡、RTX3090显卡、RTX4090显卡