基于人类反馈的强化学习、直接偏好优化、身份偏好优化与卡尼曼-特沃斯基优化:应选择哪种对齐方法

发布日期:2026-06-16 10:02:51   浏览量 :9
发布日期:2026-06-16 10:02:51  
9

RLHF 对比 DPO 对比 IPO 对比 KTO:你应该使用哪种对齐方法

你有一个基础模型,比如 Llama 3.2 8B,它可以以任何格律写诗,并通过律师资格考试。它也能生成合成受管制物质的指令,扮演具有操纵性的治疗师,并充满爱意地详细解释为什么你的拉取请求是对良好品味的冒犯。你需要对其进行对齐——在保留能力的同时去除有害输出。你的导师说“使用 RLHF”。你信息流中的一篇论文称 DPO 更简单。你的同事极力推崇 KTO,因为他们只有来自生产环境的点赞/点踩日志数据。你该从哪里开始?

选择对齐方法不是一个理论辩论。这是一个实际决策,取决于你的数据、计算预算以及你试图避免的失败模式。本文将并排比较这四种主流方法,包括实际的数学原理、数据需求以及你在生产环境中会遇到的棘手问题。

为什么这很重要

你选择的对齐方法决定了直接影响发布 timelines 的三件事:

  1. 数据需求。 有些方法需要成对偏好(A 优于 B)。其他方法则适用于每个样本的二元评分。如果你有生产日志,你可能已经拥有后者。如果你有人工标注流水线,你可以收集前者——但需要付出成本。
  2. 计算预算。 RLHF 需要训练一个与你的策略模型规模相当的独立奖励模型,然后运行 PPO,而 PPO 以样本效率低下和对超参数敏感而闻名。DPO、IPO 和 KTO 将该过程简化为在静态数据上的单个训练循环。
  3. 稳定性和鲁棒性。 PPO 可能导致你的策略不稳定甚至崩溃。DPO 可能会过拟合偏好噪声。IPO 添加了一个正则化项来缓解这一问题。KTO 处理那些根本没有严格成对比较的场景。

理解这些权衡因素,决定了对齐模型是在两周内发布,还是对齐项目拖沓三个月。

RLHF、DPO、IPO 和 KTO:每种方法的工作原理

所有四种方法都从相同的地方开始:一个监督微调(SFT)模型和一个捕捉人类偏好的数据集。它们使用这些数据的方式根本不同。

RLHF(基于人类反馈的强化学习)

由 OpenAI 的 InstructGPT 论文(欧阳龙等人,2022 年)普及的经典方法是一个三阶段流水线:

  1. 收集人类偏好 —— 标注人员对一组提示词下的模型输出进行排名,产生成对偏好(选中 vs 拒绝)。
  2. 训练奖励模型 —— 训练一个独立的模型(通常与策略模型架构相同),以根据给定输出预测人类偏好分数。它学习一个标量奖励函数,以近似人类判断。
  3. 使用 PPO 优化策略 —— 策略模型生成输出,奖励模型对其进行评分,PPO(近端策略优化)更新策略以增加预期奖励。KL 散度惩罚防止策略偏离 SFT 模型太远。
# 简化的 PPO 更新(概念性)
# reward = reward_model.generate(policy_output) - beta * kl_divergence(policy || ref_policy)
# policy_loss = -ppo_clip(reward, old_logprobs, new_logprobs)

这个三阶段流水线非常昂贵——每个阶段都需要自己的训练运行、自己的 GPU 预算和自己的超参数搜索。奖励模型可能会学会利用虚假的相关性

免责声明:本文内容来自互联网,该文观点不代表本站观点。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请到页面底部单击反馈,一经查实,本站将立刻删除。

关于我们
热门推荐
合作伙伴
免责声明:本站部分资讯来源于网络,如有侵权请及时联系客服,我们将尽快处理
Copyright © 2025-2027 ToB产业网址导航 公安备案 浙公网安备33010602013138号 浙ICP备16025413号-9
支持 反馈 订阅 数据