RLHF 对比 DPO 对比 IPO 对比 KTO：你应该使用哪种对齐方法

你有一个基础模型，比如 Llama 3.2 8B，它可以以任何格律写诗，并通过律师资格考试。它也能生成合成受管制物质的指令，扮演具有操纵性的治疗师，并充满爱意地详细解释为什么你的拉取请求是对良好品味的冒犯。你需要对其进行对齐——在保留能力的同时去除有害输出。你的导师说“使用 RLHF”。你信息流中的一篇论文称 DPO 更简单。你的同事极力推崇 KTO，因为他们只有来自生产环境的点赞/点踩日志数据。你该从哪里开始？

选择对齐方法不是一个理论辩论。这是一个实际决策，取决于你的数据、计算预算以及你试图避免的失败模式。本文将并排比较这四种主流方法，包括实际的数学原理、数据需求以及你在生产环境中会遇到的棘手问题。

为什么这很重要

你选择的对齐方法决定了直接影响发布 timelines 的三件事：

数据需求。 有些方法需要成对偏好（A 优于 B）。其他方法则适用于每个样本的二元评分。如果你有生产日志，你可能已经拥有后者。如果你有人工标注流水线，你可以收集前者——但需要付出成本。
计算预算。 RLHF 需要训练一个与你的策略模型规模相当的独立奖励模型，然后运行 PPO，而 PPO 以样本效率低下和对超参数敏感而闻名。DPO、IPO 和 KTO 将该过程简化为在静态数据上的单个训练循环。
稳定性和鲁棒性。 PPO 可能导致你的策略不稳定甚至崩溃。DPO 可能会过拟合偏好噪声。IPO 添加了一个正则化项来缓解这一问题。KTO 处理那些根本没有严格成对比较的场景。

理解这些权衡因素，决定了对齐模型是在两周内发布，还是对齐项目拖沓三个月。

RLHF、DPO、IPO 和 KTO：每种方法的工作原理

所有四种方法都从相同的地方开始：一个监督微调（SFT）模型和一个捕捉人类偏好的数据集。它们使用这些数据的方式根本不同。

RLHF（基于人类反馈的强化学习）

由 OpenAI 的 InstructGPT 论文（欧阳龙等人，2022 年）普及的经典方法是一个三阶段流水线：

收集人类偏好 —— 标注人员对一组提示词下的模型输出进行排名，产生成对偏好（选中 vs 拒绝）。
训练奖励模型 —— 训练一个独立的模型（通常与策略模型架构相同），以根据给定输出预测人类偏好分数。它学习一个标量奖励函数，以近似人类判断。
使用 PPO 优化策略 —— 策略模型生成输出，奖励模型对其进行评分，PPO（近端策略优化）更新策略以增加预期奖励。KL 散度惩罚防止策略偏离 SFT 模型太远。

# 简化的 PPO 更新（概念性）
# reward = reward_model.generate(policy_output) - beta * kl_divergence(policy || ref_policy)
# policy_loss = -ppo_clip(reward, old_logprobs, new_logprobs)

这个三阶段流水线非常昂贵——每个阶段都需要自己的训练运行、自己的 GPU 预算和自己的超参数搜索。奖励模型可能会学会利用虚假的相关性

免责声明：本文内容来自互联网，该文观点不代表本站观点。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，请到页面底部单击反馈，一经查实，本站将立刻删除。

基于人类反馈的强化学习、直接偏好优化、身份偏好优化与卡尼曼-特沃斯基优化：应选择哪种对齐方法

RLHF 对比 DPO 对比 IPO 对比 KTO：你应该使用哪种对齐方法

为什么这很重要

RLHF、DPO、IPO 和 KTO：每种方法的工作原理

RLHF（基于人类反馈的强化学习）