PPO总有了reward model 为何还要有critic model?
可以简单的理解:Reward Model 是“期末最终考试”,Critic Model 是“平时成绩测试”。
通俗讲就是期末考试成绩很重要,但是平时的成绩其实也是你知识掌握程度的一个体现,如果你想精准地改进每一个步骤(Token),你需要一个“平时成绩的测试单”来告诉你:这一步做得是不是比预期的更好?
Reward Model(奖励模型),只在整个回答结束时给出一个标量分数,他评估的是完整 response 的质量(比如:这个回答有多好?得分 0.8),并且你获得的是稀疏信号,也就是一个完整序列只有一个 reward 值,而无法告诉我们生成序列中每一步的价值。
Critic Model(价值网络)是为每个时间步估计未来累积奖励的期望值(Value function),他提供密集信号,也就是每生成一个 token,都能估计"从这个状态开始,最终能获得多少 reward",而且可以用于计算 Advantage:
为什么需要 Critic的一个最简单的回答就是:
假设生成一个 100 token 答,reward model 只在最后给出分数 0.8。问题来了:
哪些 token 的选择导致了高分?哪些 token 应该被强化,哪些应该被抑制?
Critic 通过估计每个状态的价值,把最终的一个分数分配到每个 token 上,而且可以提供即时反馈,不需要等到序列结束就知道当前状态的好坏。
下面已经有答主说了
最后之所以能收敛到PPO路线,一个很大的原因就是引入的优势估计GAE非常好使。
所以我再多说两句,Critic 正是为 GAE提供了必须的信息,没有 Critic,GAE 根本跑不起来。
你的问题“如果 reward model 可以对 response 做出评价?那这个评价如何对应到 token level loss 上?”
GAE 就是那个负责把最后的总分(Reward)拆解成每一个 Token 评价(Advantage)的公式。而这个拆解过程,必须依赖 Critic。
请看 GAE 中计算每一步Token 级别的信号的核心算式是这个
在文本生成的大部分时间里,中间的 Rt 都是 0(因为还没写完,RM 不给分)。 所以对于中间的 Token(比如第 5 个词),它的评价来自于:Critic 觉得第 6 步比第 5 步好多少?如果没有 Critic中间所有的 δt 都会变成 0 或者只能等待最后的总分回传,有了 Critic,哪怕 RM 还没给分Critic 也能通过对比st和st+1来获得结果。
需要 Critic Model是因为通过 GAE 算法计算 Token Level Loss 时,Critic 的预测值 (V) 是公式里必不可少的变量。没有 Critic,就没有 V;没有 V,GAE 就退化成了单纯的蒙特卡洛采样(等同于没有 Token Level 的精细反馈),模型就会因为方差过大而学不会。
目录
最新
- 如何评价DeepSeek发布梁文锋署名论文,提出「条件记忆」及Engram记忆检索架构?有哪些亮点?
- 构建自己的AI编程助手:基于RAG的上下文感知实现方案
- rope最早是为了解决llm外展问题提出的么?
- 深度研究Agent架构解析:4种Agent架构介绍及实用Prompt模板
- AR+diffusion的一类工作是怎么做的,相比DDPM式的diffusion工作有什么优势?
- 在构建多轮工具调用的开放域research agent时,SFT和RL流程应该如何设计和优化?
- 别再往一个智能体里塞功能了:6种多智能体模式技术解析与选型指南
- Anthropic 发布 AIAgent 评估体系完整指南,对 AIAgent 发展有何意义?