指令微调(Instruction Tuning)
定义
- 通过指令—响应格式的数据对大模型进行监督微调,使模型学会遵循自然语言指令、对齐人类偏好与任务通用性。
数据与目标
- 数据来源:人工标注、合成数据(自指令/自我提升)、开源集合;
- 目标:最小化指令到期望响应的监督损失;可结合偏好对齐(RLHF/RLAIF)。
工程实践
- 数据清洗:去重、格式标准化、指令多样性;
- 训练:与 LoRA微调神经网络训练、ZeRO微调神经网络训练 结合;
- 评测:遵循性、稳健性、拒答率、无害性与事实性(RAG 下配合检索)。