VoltIQ Docs

❯

03 深度学习模型训练与优化

❯

❯

指令微调

Sep 07, 20251 min read

指令微调（Instruction Tuning）

定义

通过指令—响应格式的数据对大模型进行监督微调，使模型学会遵循自然语言指令、对齐人类偏好与任务通用性。

数据与目标

数据来源：人工标注、合成数据（自指令/自我提升）、开源集合；
目标：最小化指令到期望响应的监督损失；可结合偏好对齐（RLHF/RLAIF）。

工程实践

数据清洗：去重、格式标准化、指令多样性；
训练：与 LoRA微调神经网络训练、ZeRO微调神经网络训练结合；
评测：遵循性、稳健性、拒答率、无害性与事实性（RAG 下配合检索）。

Graph View

Backlinks

变形神经网络 Transformer
微调技术
模型训练策略

Created with Quartz v4.5.1 © 2025