03-微调与对齐

以下是对您提供的《第七章指令微调》内容的总结，涵盖了指令微调的定义、数据构建方法、训练策略、参数高效微调方法以及代码实践与分析的主要要点：

第7章：指令微调

1. 指令微调概述

定义：指令微调（Instruction Tuning）是用自然语言形式的指令数据对预训练大语言模型进行参数微调的过程，旨在增强模型的指令遵循能力和零样本学习能力。术语由谷歌研究员于2022年ICLR论文正式提出。
别称：有监督微调（Supervised Fine-tuning）或多任务提示训练（Multitask Prompted Training）。
目标：通过微调使模型能够理解并执行多样化的下游任务指令。

2. 指令数据的构建（7.1节）

指令数据通常包括任务描述（指令）、输入-输出对及可选示例。构建方法包括以下三种：

2.1 基于现有NLP任务数据集

来源：利用开源NLP数据集（如翻译、摘要、分类），添加任务描述（如“请翻译成英文”）将其转化为指令格式。
工具：PromptSource平台支持任务描述的创建与验证。
扩展：可通过翻转输入-输出对生成新任务（如基于答案生成问题）。
代表性数据集：FLAN、P3、Super-Natural Instructions等，FLAN v2混合约20M条实例。

2.2 基于日常对话数据

来源：用户真实查询（如InstructGPT中的OpenAI API数据）或人工标注的对话任务（如开放式生成、问答）。
特点：贴近真实场景，适合提升指令遵循能力。
开源数据集：Dolly、OpenAssistant、ShareGPT（多轮对话数据）。

2.3 基于合成数据

方法：利用大语言模型生成指令数据，减少人工标注成本。
代表性技术：
- Self-Instruct：以少量人工实例为种子，迭代生成52K条数据（如Alpaca-52K）。
- Evol-Instruct：通过深度（复杂化）和广度（多样性）演化提升指令质量。
- Self-Align：基于人类对齐原则过滤高质量数据。
- 指令回译：从现有文本逆向生成指令。
优势：高效、可扩展；挑战：需过滤低质或重复数据。

2.4 提升方法

指令格式：任务描述设计和示例数量影响性能，混合零样本与少样本提示效果更佳。
数量扩展：适量高质量指令（52K条可媲美text-davinci-003）比大规模低质数据更重要。
重写与筛选：如Evol-Instruct复杂化、YuLan-Chat-3主题多样化、Alpagasus筛选高质指令。

2.5 作用

性能改进：提升模型在多任务上的表现，小模型甚至超越未微调大模型。
任务求解：增强零样本任务能力，缓解预训练问题（如重复生成）。
领域适配：通过特定领域数据微调（如Med-PaLM医学模型）适配专业任务。

3. 训练策略（7.2节）

3.1 优化设置

目标函数：序列到序列损失，仅计算输出部分损失。
批次与学习率：较小批次和学习率（如InstructGPT 8/5.03×10⁻⁶，Alpaca 128/2×10⁻⁵）。
多轮对话：通过损失掩码一次性输入多轮内容，提高效率。

3.2 数据组织

平衡分布：混合NLP任务、对话和合成数据，设置最大采样容量避免单一数据集主导。
多阶段微调：先用NLP数据，后用对话和合成数据，逐步增加复杂性。
结合预训练：微调中加入少量预训练数据正则化，或预训练中引入指令任务。

4. 参数高效微调（7.3节）

针对大模型全参数微调成本高的问题，提出参数高效微调方法：

4.1 LoRA（低秩适配）

原理：冻结预训练权重，通过低秩分解矩阵（A、B）更新参数，减少训练量。
显存节省：从16P降至2P+16P_LoRA（如LLaMA 7B从108GB降至14GB）。
变种：
- AdaLoRA：动态调整秩，优化性能。
- QLoRA：4比特量化预训练参数，进一步降至0.5P显存。
应用：广泛用于LLaMA、BLOOM等模型的多语言、多领域微调。

4.2 其他方法

适配器微调：在Transformer层插入瓶颈网络，仅训练适配器参数。
前缀微调：在注意力层添加可训练前缀向量。
提示微调：在输入层加入连续提示向量，依赖底层模型能力。

5. 代码实践与分析（7.4节）

5.1 指令微调代码

实现：基于Transformers库，使用SFTDataset处理指令数据，DataCollator计算序列损失。
资源需求：LLaMA 7B-65B全量微调需2-16张A800 GPU，时间3-11小时。

5.2 实验分析

数据集：FLAN v2（NLP任务）、ShareGPT（对话）、Alpaca（合成）。
改进策略：Evol-Instruct复杂化、YuLan-Chat-3多样化。
结果：
- FLAN v2擅NLP任务，ShareGPT擅对话，Alpaca介于两者。
- 复杂性与多样性提升对话能力，接近ShareGPT。
- 大模型（13B）比小模型（7B）更强。

5.3 LoRA实践

代码：扩展nn.Linear实现LoRA，使用PEFT库集成。
资源：LLaMA 7B-65B需1-2张A800 GPU，时间2.3-26小时，显存大幅降低。

总结

指令微调通过多样化的数据构建和高效训练策略显著提升大语言模型的指令遵循能力。参数高效方法如LoRA在降低资源需求的同时保持性能，成为实际应用的关键技术。实验表明，指令质量优于数量，模型规模和数据类型匹配下游任务是性能提升的关键。

以下是对您提供的《第八章人类对齐》内容的总结，涵盖主要概念、技术方法和讨论要点，力求简洁清晰地概括核心内容：

第八章人类对齐

概述

大语言模型（LLM）通过海量文本数据学习，行为受数据质量和来源影响。经过预训练和指令微调后，模型具备通用能力和指令遵循能力，但可能生成有偏见、冒犯或错误的文本。为确保模型行为与人类价值观、社会伦理一致，人类对齐（Human Alignment）成为关键研究问题。本章探讨对齐背景、标准及技术方法。

8.1 人类对齐的背景与标准

背景：尽管LLM在下游任务表现出色，但可能生成错误或有害内容，因预训练和微调未充分考虑人类价值观。人类对齐旨在通过引入新标准（如有用性、诚实性、无害性）确保模型与人类期望一致。例8.1展示了未经对齐的模型易受误导逻辑影响，而对齐后能识别错误并提供合理输出。
对齐标准：
- 有用性：提供准确、有创造性的信息，理解上下文并主动澄清歧义。
- 诚实性：输出真实客观，避免误导并表达不确定性。
- 无害性：避免有害、冒犯性内容，拒绝恶意请求。
- 其他细化标准包括行为对齐、意图对齐和道德对齐，主观性强，难以形式化建模。

8.2 基于人类反馈的强化学习（RLHF）

概述：RLHF通过人类反馈指导LLM对齐，包含三步骤：监督微调、奖励模型训练和强化学习（如PPO）。目标是优化模型在有用性、诚实性、无害性上的表现。
人类反馈收集：
- 选择高素质标注员（如母语者、高学历），通过一致性筛选确保可靠性。
- 反馈形式：评分（直接打分）和排序（Elo评分系统，两两比较）。
奖励模型训练：
- 用人类偏好数据训练模型预测评分，方法包括打分式（MSE损失）、对比式（正负例分数差）和排序式（全局排序）。
- 优化策略：目标函数加正则项、选用大模型作为基座、针对多标准训练多个奖励模型。
强化学习训练：
- 将文本生成视为决策过程，LLM为策略模型，优化目标是最大化奖励。
- PPO算法通过优势估计、重要性采样和梯度裁剪/KL散度惩罚提升稳定性。
代表性工作：
- InstructGPT：通过SFT、奖励模型和PPO对齐GPT-3，小模型（1.3B）性能超大模型（175B）。
- LLaMA-2：结合拒绝采样和PPO，迭代优化安全性与有用性。
进阶RLHF：
- 过程监督：对生成步骤逐一评估（如PRM800K数据集），提升细粒度对齐。
- AI反馈（RLAIF）：用对齐模型（如Constitutional AI）或自我反馈替代人类反馈，降低成本。

8.3 非强化学习的对齐方法

局限性与替代：RLHF复杂且不稳定，非强化学习方法通过监督微调（SFT）直接对齐，依赖高质量数据集和算法。
对齐数据收集：
- 基于奖励模型：用已训练奖励模型评分或排序输出。
- 基于LLM：利用对齐模型（如ChatGPT）自我评价和修正生成数据。
DPO算法：
- 通过偏好数据直接优化策略模型，避免奖励建模，目标函数基于正负例概率差。
- 优点：资源占用少、稳定性高，性能媲美RLHF。
其他监督对齐：
- 质量提示：为输出加前缀（如“好的回复”）区分质量。
- 质量对比：用对比学习优化正负例概率，增强匹配性。

8.4 SFT与RLHF的比较

总体比较：
- SFT：模仿学习，通过词元级损失优化，简单高效。
- RLHF：强化学习，通过文本级奖励优化，探索性强。
SFT优缺点：
- 优点：提升性能、泛化能力和专业性。
- 缺点：易产生幻觉、受数据质量和一致性影响。
RLHF优缺点：
- 优点：增强能力、减少有害输出和幻觉，偏好标注一致性高。
- 缺点：样本效率低、不稳定，依赖SFT初始化。
讨论：SFT解锁能力，RLHF优化对齐，未来需结合二者优点并探索超级对齐。

总结

人类对齐是LLM发展中的核心挑战，RLHF通过人类反馈和强化学习实现对齐，DPO等非强化方法则提供高效替代。SFT和RLHF各有优劣，实际应用需根据任务需求权衡，未来研究方向包括更有效的对齐技术和超级智能监管。

希望这个总结对您理解内容有所帮助！如需进一步讨论或补充，请随时告知。