VoltIQ Docs

❯

05 高性能计算硬件与并行处理

❯

GPU显卡概述

GPU显卡概述

Sep 07, 20252 min read

GPU 显卡概述

本节从架构指标、显存/带宽与算力、典型机型差异（A100显卡、RTX3090显卡、RTX4090显卡）以及训练/推理的工程权衡出发，构建理解 GPU 性能画像的“最小必需集”。

1. 关键硬件指标

TFLOPs/FP16/BF16/TF32：不同精度的理论算力；
显存（VRAM）容量与带宽（HBM/GDDR）：决定可容纳的 batch/序列长度与参数规模；
访存与算子：内存访存瓶颈常主导大模型推理；
编码器/解码器负载：训练与推理的算子画像不同，注意计算/带宽占比。

2. 典型机型

A100显卡：HBM2e 高带宽、NVLink 支持，数据中心训练主力；
RTX3090显卡：较大显存、性价比高，适合单机开发；
RTX4090显卡：强单卡算力，适合推理/开发；
选择策略：结合成本、能耗、主板供电与散热设计。

3. 框架与算力利用

混合精度与张量核：发挥矩阵乘单元优势；
算子融合与图编译：减少访存与 kernel 启动开销；
并发与流水：多流重叠、核外算子优化。

4. 训练与推理权衡

训练：关注吞吐与收敛稳定；
推理：关注时延与并发；KV Cache、序列并行与 GGUF模型量化提升效率。

5. 参考链接

NVIDIA Developer: https://developer.nvidia.com
TensorRT: https://developer.nvidia.com/tensorrt
名词卡：英伟达、计算、A100显卡、RTX3090显卡、RTX4090显卡

链接

Index
GPU互联与接口
并行处理策略
计算模式

Graph View

GPU 显卡概述
1. 关键硬件指标
2. 典型机型
3. 框架与算力利用
4. 训练与推理权衡
5. 参考链接
链接

Backlinks

GPU互联与接口
并行处理策略
计算模式
Welcome

Created with Quartz v4.5.1 © 2025