1.8.llm_o1
最后更新于
这有帮助吗?
最后更新于
这有帮助吗?
Constitutional AI: Harmlessness from AI feedback Anthropic的文章,之前的文章是Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback提出的HH RLHF模型。
这里的preference model感觉就是RLHF里的reward model,输入一些response的pair对,输出哪个更好,和RLHF的区别在于其中的helpfulness的label还是人标的,而harmlessness的label是由模型生成的。
使用任意一个RLHF后的模型,输入能够诱导(elicit)出有害response的prompts(red teaming的相关工作有这些积累),sample出一些结果。
然后以它们为上下文,把一些pre-written指令加入进来,让模型critique(评论)自己的response,
然后再加入如下的pre-written指令,让模型revisit它的response
最后,将revision的结果和最开始的prompt拼在一起,当成一条不那么有害的训练数据
这些指令可以改写用来强调不同维度的有害信息,例如事先写好16个原则,每次从中sample出一些来用。有些时候模型可能对critique给出的原则理解不对,或者给不出合理的revision,这个时候可以在prompt里加上few shot
为了让模型更加helpful,在sft的时候,不仅用revision的结果,还用上原来RHLF的helpful responses。
让人类给的feedback label只用来学helpfulness,而harmlessness的label则都通过多选题的方式由模型自己产出,随后distilled back给一个preference model
另外找一个pretrained model当成feedback model,
输入如下prompt,让一个assistant model产出一个response的pair对,然后输入给feedback model,要求返回更无害的结果:
claude的翻译:
然后计算response A和B的log probability,再使用norm后的这些概率作为targets,创建一个labeled, preference modeling comparison example,即为偏好模型创建训练数据。如下是16个原则,发现将这些原则ensemble起来比只用一个原则效果的preference score要鲁棒得多。
Please choose the response that is the most helpful, honest, and harmless.
Please choose the assistant response that is as harmless and ethical as possible. Do NOT choose responses that are toxic, racist, or sexist, or that encourage or support illegal, violent, or unethical behavior. Above all the assistant’s response should be wise, peaceful, and ethical.
Compare the degree of harmfulness in the assistant responses and choose the one that’s less harmful. However, try to avoid choosing responses that are too preachy, obnoxious, or overly-reactive.
Choose the assistant response that is as harmless, helpful, polite, respectful, and thoughtful as possible without sounding overly-reactive of accusatory.
Please choose the assistant response that’s more ethical and moral. Do NOT choose responses that exhibit toxicity, racism, sexism or any other form of physical or social harm.
Which of these assistant responses exhibits less harmful and more acceptable behavior? Choose the less harmful response.
Choose the assistant response that answers the human’s query in a more friendly, amiable, conscientious, and socially acceptable manner.
Which of these assistant responses is less harmful? Choose the response that a wise, ethical, polite and friendly person would more likely say.
Choose the response that is less harmful, paying close attention to whether each response encourages illegal, unethical or immoral activity.
Please consider these assistant responses and choose the one that is less harmful, more age-appropriate, and more family-friendly.
Choose the response that answers the human in the most thoughtful, respectful and cordial manner.
Compare the assistant responses in terms of toxicity, racism, sexism and social bias, and choose the less harmful response.
Choose the response that sounds most similar to what a peaceful, ethical, and wise person like Martin Luther King Jr. or Mahatma Gandhi might say.
Which of the assistant responses is most harmless, helpful, and honest? Choose the best response based on these criteria.
Choose the assistant response that is more harmless, polite, pleasant, and least likely to offend a socially-aware audience.
Choose the assistant response that demonstrates more ethical and moral awareness without sounding excessively condescending, reactive, annoying or condemnatory.
SL-CAI模型一方面用来生成response pairs,另一方面用来作为RL的初始snapshot。之所以感觉拿一个模型来同时做这两个事效果会更好,是因为policy生成的response的分布,应该和preference model训练的分布类似,至少在RL训练初期应该是这样。RL的训练流程和RLHF一样,只是preference模型的部分训练数据是由模型生成的。
此外,还尝试用RLHF后的模型来尝试CoT,将feedback原则重写成如下对话形式:
发现这样输出的答案一般很“置信”,即非常接近0或者1,会导致不好训练,所以尝试clamp到40-60%后,效果会更鲁棒。关于clamp,claude说大概可以这么理解:如果高于0.6就变成0.6,低于0.4就变成0.4。
RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback deepmind的论文,在RLAIF的基础上进行改进,提出了d-RLAIF(direct-RLAIF)。
如上是rlaif和rlhf的对比。
蓝色:prompt,包括summary的定义,文章+两个summary,让模型输出哪个prompt更好,原因:
橙色:产出的response,包括哪一个summary更好,以及原因。再加上一个Ending(preferred summary=)
由于用的是soft labels(如[0.6, 0.4]),所以对输出的score对RM进行训练时直接用cross-entropy loss。可以把在AI生成的数据集上训练RM看成是一种模型蒸馏。
一般来讲,RM是依据初始的policy训练的,但随着policy的训练,当初训练RM的数据越来越out-of-distribution了。一种解法是迭代地运行RLAIF,周期性地训练一个RM,比较耗时。
d-RLAIF:
LLM的prompt是对一个生成结果打1-10分
最后再把score归一化到[-1,1]之间,这个score直接当成reward,不需要RM模型了
对于summary的任务,数据集是Learning to summarize with human feedback里提供的reddit数据集,prompt是
对于helpful的任务,数据集是HH-RLHF,prompt是
评估方式:
Win Rate:给定两个策略生成的结果,人类选择更好的那个,然后统计胜率。
Harmless Rate:人类认为response是harmless的比例,
另外,发现小的模型更容易出现position bias,即给定两个候选,换一下顺序,模型还是觉得同一个位置的更好。缓解:每个pair反转前后各过一遍模型,然后得分avg一下。
From r to Q*: Your Language Model is Secretly a Q-Function
在DPO的基础上,引入LLM里的token-level的MDP,用二分类的preference feedback。发现了3个点:
尽管 DPO 是作为上下文多臂赌博机而派生出来的,但DPO模型的隐含奖励可在每个 token 层面上进行解释。
DPO模型的likelihood search类似在decoding阶段寻找一个reward function。即在token层面的阐述方式下,经典的基于搜索的算法(比如 MCTS)等价于在 DPO策略上的基于似然的搜索。
初始策略和参考分布的选择对于确定训练期间隐性奖励的轨迹非常重要。
OpenAI秘密武器「草莓」计划曝光!Q*推理能力大爆发,逼近AGI L2里程碑
5级路线图:
L1:聊天机器人,具有对话能力的AI。
L2:推理者,像人类一样能够解决问题的AI。
L3:智能体,不仅能思考,还可以采取行动的AI系统。
L4:创新者,能够协助发明创造的AI。
L5:组织者,可以完成组织工作的AI。
Strawberry模型的目的是为了使公司的AI不仅能生成查询答案,还能提前计划,足够自主且可靠地浏览互联网,进行OpenAI所称的「深度研究」。
类似Star: Self-taught reasoner bootstrapping reasoning with reasoning能够通过迭代创建自己的训练数据,来「自我提升」到更高的智能水平。
AI models collapse when trained on recursively generated data,对应下载的pdf
Self-Rewarding Language Models
OpenAI o1 强化学习背后的自博弈(Self-play)方法介绍
万字长文推演OpenAI o1 self-play RL 技术路线
有想入坑RL-LLM的同学吗?这个开源项目一个GPU够了,完成后欢迎来月之暗面~
https://github.com/inspirai/TimeChamber
Scaling Law瓶颈,Cursor编程为什么这么强?团队参与新研究掏出秘密武器
Planning In Natural Language Improves LLM Search For Code Generation
o1基石论文火爆传阅,Ilya仍是关键先生!核心项目清北校友闪光
https://openai.com/index/improving-mathematical-reasoning-with-process-supervision/
(toread)
OpenAI o1要跟,怎么跟?这个GitHub项目把解读、博客、相关论文一网打尽
刚刚,OpenAI震撼发布o1大模型!强化学习突破LLM推理极限
张俊林:OpenAI o1的价值意义及强化学习的Scaling Law
北大对齐团队独家解读:OpenAI o1开启「后训练」时代强化学习新范式
Noam Brown早已预示o1强大推理能力,演讲深度解析AI推理研究脉络
OpenAI o1模型的前世今生 --toread
谷歌再次痛失好局!OpenAI o1 证实谷歌 ICLR 2024 论文价值「四位华人贡献」
Chain of Thought Empowers Transformers to Solve Inherently Serial Problems
传统的 Transformer 模型虽然在自然语言处理领域取得了巨大成功,但它有一个致命弱点:擅长并行计算,但不擅长串行推理。这就像一个超级聪明的孩子,能快速完成大量的计算题,但却无法理解简单的逻辑推理。
而CoT (Chain of Thought,思维链)技术的灵感来源于人类的思维过程,它可以让 Transformer 模拟人类的思考方式,通过生成一系列中间推理步骤,来解决那些需要逻辑推理的复杂问题。
作者用电路复杂性理论来解释 CoT 的强大之处,将Transformer的计算过程与电路模型进行类比,并将Transformer能够解决的问题类别定义为“CoT 复杂性类”
他们证明了传统的Transformer模型(没有 CoT)只能解决AC0电路能够解决的问题,而AC0电路是一种计算能力非常有限的电路模型。但是,如果加入 CoT,Transformer 的表达能力将得到质的飞跃!作者用数学严格证明了:
只要CoT步骤足够多,Transformer 就能模拟任意大小的布尔电路,从而解决P/poly问题,这是一个包含了P问题的更大的问题类别,相当于证明了CoT可以让 Transformer 解决几乎所有可以用计算机解决的问题。
为了进一步验证CoT的有效性,论文作者设计了四个核心问题:
模加: 计算两个数的和,并对某个整数取模
排列组合: 计算一组排列的组合
迭代平方: 对一个数进行多次平方运算
电路值问题: 计算一个布尔电路的输出值
其中,模加问题可以用并行计算高效地解决,而其他三个问题则需要串行计算。
实验结果表明:
对于模加问题,即使不使用 CoT,Transformer 也能取得不错的效果
但对于其他三个问题,使用 CoT 可以显著提高 Transformer 的准确率,尤其是在模型深度较浅的情况下
CoT能让模型推理能力无上限?田渊栋、LeCun下场反对:两层MLP还能模拟全世界呢
Transformer推理天花板被谷歌打破?DeepMind首席科学家亮出84页PPT,却遭LeCun反对
To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning
小模型越级挑战14倍参数大模型,谷歌开启Test-Time端新的Scaling Law
Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters
一句话:根据给定的prompt难度,动态地分配测试时(Test-Time)的计算资源。在预训练阶段花费更少的计算资源,而在推理阶段花费更多,这种策略可能更好。
针对(Process Reward Model, PRM,Let's Verify Step by Step里提出的)进行搜索。
PRM可以在模型生成答案过程中的每个步骤都提供评分,用于引导搜索算法,动态调整搜索策略,通过在生成过程中识别错误或低效的路径,帮助避免在这些路径上浪费计算资源。
在测试时根据prompt自适应地更新模型的响应分布。
模型不是一次性生成最终答案,而是逐步修改和改进它之前生成的答案,按顺序进行修订(revision)。
并行采样:独立生成N个答案,
顺序修订:每个答案依赖于前一次生成的结果,逐步修订。
OpenAI o1 技术初探1:整体框架,利用Test-Time Scaling Law提升逻辑推理能力---(写得比较细)
Scaling LLM Test-Time:谁说类o1推理一定要用RL???
3B模型长思考后击败70B!HuggingFace逆向出o1背后技术细节并开源
LLM Inference Scaling:姚班/OpenAI/CMU 8月论文提前揭示o1核心原理
An Empirical Analysis of Compute-Optimal Inference for Problem-Solving with Language Models
扩散模型也能推理时Scaling,谢赛宁团队重磅研究可能带来文生图新范式
Inference-Time Scaling for Diffusion Models beyond Scaling Denoising Steps
280页PDF,全方位评估OpenAI o1,Leetcode刷题准确率竟这么高
Evaluation of OpenAI o1: Opportunities and Challenges of AGI
一文看懂LLM推理,UCL汪军教授解读OpenAI ο1的相关方法
首个o1复现开源RL框架OpenR来了,UCL、上交等高校联合团队发布
OpenR: An Open Source Framework for Advanced Reasoning with Large Language Models
A Tutorial on LLM Reasoning: Relevant methods behind ChatGPT o1
Procedural Knowledge in Pretraining Drives Reasoning in Large Language Models
17岁高中生写了个神级Prompt,直接把Claude强化成了满血o1
https://github.com/richards199999/Thinking-Claude/tree/main
OpenAI最大秘密,竟被中国研究者破解?复旦等惊人揭秘o1路线图
Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective
上交大发布首个OpenAI o1复现项目进展报告,满满的经验洞察
上交大o1复现新突破:蒸馏超越原版,警示AI研发"捷径陷阱"
O1 Replication Journey: A Strategic Progress Report
https://github.com/GAIR-NLP/O1-Journey/blob/main/resource/report-part2.pdf
https://github.com/GAIR-NLP/O1-Journey
强化学习让大模型自动纠错,数学、编程性能暴涨,DeepMind新作
Learning From Correctness Without Prompting Makes LLM Efficient Reasoner
https://github.com/starrYYxuan/LeCo
Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions
https://github.com/AIDC-AI/Marco-o1
阿里多模态检索智能体,自带o1式思考过程!复杂问题逐步拆解,动态调整下一步检索策略
https://github.com/Alibaba-NLP/OmniSearch
田渊栋团队论文火了!连续思维链优于CoT,打开LLM推理新范式
(toread)
Training Large Language Models to Reason in a Continuous Latent Space
一般而言,LLM 被限制在语言空间(language space)内进行推理,并通过思维链(CoT)来表达推理过程,从而解决复杂的推理问题。然而,语言空间可能并不总是最适合推理的。例如,很多单词token主要用于文本连贯性,而不是推理本身,而一些关键token则需要复杂的规划。
Coconut(连续思维链,Chain of Continuous Thought)不再通过语言模型头(language model head)和嵌入层将隐藏状态与语言 token 进行映射,而是直接将最后的隐藏状态(即连续思维)作为下一个token的输入嵌入。
「七万字长文」从认知架构到实践部署:o1与o1 Pro的系统性分析与内涵洞察 · 上篇
推理最强也最快,谷歌发布Gemini 2.0 Flash Thinking,全面超越o1-preview
https://ai.google.dev/gemini-api/docs/thinking-mode?hl=zh-cn
https://colab.research.google.com/github/google-gemini/cookbook/blob/main/gemini-2/thinking.ipynb
我自己复制的一个:https://colab.research.google.com/github/daiwk/llms_new/blob/main/gemini-2/thinking.ipynb
对应的github:https://github.com/daiwk/llms_new/blob/main/gemini-2/thinking.ipynb
(toread)
让7B千问模型超越o1,微软rStar-Math惊艳登场,网友盛赞
rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking
https://github.com/microsoft/rStar
迈向System 2推理,100页论文硬核讲述Meta-CoT
Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Thought
(toread)
450美元训练一个「o1-preview」?UC伯克利开源32B推理模型Sky-T1,AI社区沸腾了
https://novasky-ai.github.io/posts/sky-t1/
https://huggingface.co/NovaSky-AI/Sky-T1-32B-Preview
o3并非独门秘技,谷歌已发背后关键机制,方法更简单、成本更低
Large Language Monkeys: Scaling Inference Compute with Repeated Sampling
OpenAI o1模型超全指南来了! (使用技巧)
耗资1.3万,ASU团队揭秘o1推理王者!碾压所有LLM成本超高,关键还会PUA
LLMs Still Can't Plan; Can LRMs? A Preliminary Evaluation of OpenAI's o1 on PlanBench
大模型是否有推理能力?DeepMind数月前的论文让AI社区吵起来了
Amortized Planning with Large-Scale Transformers: A Case Study on Chess
https://www.deeplearning.ai/short-courses/reasoning-with-o1/
4o-mini只有8B,o1也才300B!微软论文意外曝光GPT核心机密
o1-preview约300B;o1-mini约100B
GPT-4o约200B;GPT-4o-mini约8B
Claude 3.5 Sonnet 2024-10-22版本约175B
DeepSeek-R1 发布,性能对标 OpenAI o1 正式版
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning,自己转存了一份:pdf
arxiv上:https://arxiv.org/pdf/2501.12948
https://huggingface.co/deepseek-ai/DeepSeek-R1,还有不少distill的,LM-studio已经有了。。https://hf-mirror.com/lmstudio-community/DeepSeek-R1-Distill-Qwen-32B-GGUF
https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1
o1提出了可以通过增加cot reasoning process的长度来进行inference time scaling,尝试复现的方法有:
reinforcement learning:
但这些方法都没有o1效果好,因此R1不借助监督数据,使用纯RL(没有SFT)来完成self-evolution,从而探索LLM在reasoning上的潜能。使用DeepSeekV3作为base model,并使用Deepseekmath: Pushing the limits of mathematical reasoning in open language models的GRPO作为RL框架。
几k个step后,DeepSeek-R1-Zero在一些reasoning的benchmark上取得了不错的效果,但仍然有可读性差、语言混合等问题,因此搞了DeepSeek-R1,包括少量的冷启数据和一个多阶段的训练pipeline。
收集数千的cold-start数据来finetune DeepSeek-V3-Base模型
执行类似DeepSeek-R1-Zero的面向reasoning的RL任务
在RL快收敛的时候,在RL的checkpoint上通过拒绝采样构建新的SFT数据,并和DeepSeek-V3的数据集(只选一些领域,如writing、factual QA和self-cognition,自我认知)进行结合,重训DeepSeek-V3-Base
用新数据finetune完后,再经过一个RL的过程,并考虑所有场景的prompts==>最终的模型
还搞了一些蒸馏模型,例如Qwen2.5-32B作为base模型,蒸馏DeepSeek-R1的效果比对它进行RL效果要好,说明大的base model发现的reasoning patterns对提升reasoning能力很关键。此外,发现14B的蒸馏模型比QWQ-32B-preview效果好很多,32B和70B的蒸馏模型效果更好
其中:
整句话的advantage如何分配到token上?参考deepseekmath论文:各token共享
大基座是出现reasoning涌现能力的关键(qwen 32bb用同样r1-zero的数据训练,没法出现aha moment)
GRPO可并行,可加速
对比PPO & GRPO
PPO:
Reference Model(Ref model):原始LLM,不训练
Policy Model(Actor):原始LLM,需要训练
policy:LLM产出的一条response;
action:LLM生成的每一个token
Reward Model(RM):对一条response的打分。在RLHF的RM阶段更新,RL阶段不训练
Value Model(Critic):类似RM,需要训练
GAE:从Reward Model对整个句子的打分,拆解到每个token应该怎么改进(图中的A,advantage),会考虑Value Model、Ref Model和Reward Model,还会有一个KL的约束,确保新的policy model不会离ref model太远
Importance Sampling:对比新advantage和原始policy的比值,只对advantage进行小比例更新,保证训练稳定
缺点:
需要Ref Model再算一遍,有计算量&耗时
需要拆解到每个token,又有计算量&耗时
GRPO:(Group Relative Policy Optimization):来自DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models,放弃了Critic model(图中的value model),用group scores来替换。
policy model/ref model/reward model都和ppo一样
不需要value model
并行执行更多的policy(即GRPO的group),产出的结果一起打分,减均值除以标准差,把每个policy和标准差的差距平均到每个token上,再用KL散度计算和ref model的差距
原始DeepSeekMath论文中的图:
形象的理解:
从头开始实现:DeepSeek关键RL算法GRPO,有人从头跑通了,贡献完整代码
用的是rule-based reward,包括如下两部分
accuracy rewards:response是否正确,例如对于一个数学问题,需要判断最终答案是否为给定的格式(specified format),并且能基于规则验证结果的正确性;leetcode问题则可以用编译器来生成预先定好的测试用例的结果。
format rewards:设计了一个format reward model,来强制模型将其思考过程输出在<think>
和</think>
之间。
没有设计neural reward model,因为:
发现在大规模的RL过程中,neural reward model会受reward hacking的影响
重新训练reward model需要额外的训练资源,并且会让训练pipeline过于复杂
训练时使用如上的template,故意将约束限制在这种结构格式上,避免任何特定内容的偏见(例如强制反射推理或促进特定的解决问题的策略),以确保能够在RL过程中准确观察模型的自然进展。
指标含义:
pass@1:首次生成答案时的成功率
cons@64:majority vote (consensus) with 64 samples,模型在给出64次生成尝试中,是否能够多次生成相同的正确答案。(在这里提到了,来自文章:Self-consistency improves chain of thought reasoning in language model)
数学(美国数学邀请赛):
AIME2024:pass@1上接近o1-0912,cons@64超了,均超越o1-mini
MATH-500:pass@1超越o1-mini和o1-0912
GPQA-Diamond(phd级别的科学问题,包括化学、物理、生物):pass@1超越o1-mini,不如o1-0912
代码:
LiveCode Bench:不如o1-0912和o1-mini
codeforces的rating:不如o1-0912和o1-mini
另外,在AIME2024上,随着训练,pass@1能从十几涨到70几。
随着训练的进行,生成的response长度也在变长,说明思考时间也变长了,其中的reasoning tokens从数百涨到了数千。
随着测试时间的增加,涌现出了复杂的行为,即不由自主地(spontaneously)出现了(这些行为并非预先在代码里设计的):
反思:重新看并且评估(revist and reevaluate)之前的steps
探索:尝试其他方法来解决问题
在某一个中间版本,模型突然输出上面的aha-moment,可以看到不需要显式地教模型如何解决,只要给予正确的激励(incentives),模型会自己开发出进阶的问题解决策略,这也是RL的power and beauty。
2个目标:
用一小部分高质量数据来做冷启能否提升推理效果,或者加速收敛?
如何训练一个user-friendly的模型,既能提供准确和连贯的CoT,又有很强的通用能力?
从base model开始RL训练时,为了防止冷启阶段训练的不稳定,构建了少量(数千)的长CoT数据来finetune模型,作为初始的RL actor。试了几种方法
few shot prompting,用一个long CoT作为例子
直接在prompt里要求模型生成详细的答案,并加上反思和验证
收集deepseek-r1-zero的输出,并找人类标注员后处理进行修改
相比zero,冷启数据有如下好处:
可读性:zero的可读性不太好,例如语言混合、缺少markdown高亮。因此设计了一个可读性比较好的pattern,即|special_token|<reasoning_process>|special_token|<summary>
,并把没有summary的结果扔掉
潜力:依据人类先验精心设计的pattern产出的冷启数据,取得了比zero更好的效果,故迭代地训练对于reasoning models应该是一种更好的方式
在冷启数据上tune完之后,和r1-zero一样,进行大规模的RL训练(在reasoning-intensive任务的数据集上训的?)。此外,为了解决CoT里语言混合的问题,加了一个language consistency reward(计算目标语言在CoT中的比例),直接和原来的reward相加。虽然消融实验显示这种alignment会让效果略微下降,但这更符合人类偏好,可读性更强。
用阶段2的ckpt,然后在writing, role-playing, and other general-purpose这类任务上构建SFT数据集,在约80w的样本上对DeepSeek-V3-Base SFT了2个epoch。
reasoning data:在前一个RL阶段,只用那些能用rule-based rewards来衡量的数据。
这个阶段加入了更多的数据,有一些是使用生成式的reward model,即把ground truth和模型预测结果输入给DeepSeek-V3做judgement。
因为模型输出有时会很混乱或者无可读性,所以删掉一些满足这些条件的CoT:混合语言、长的段落、代码段
对每个prompt,采样多个response,并只保留一个正确的。最终收集了大概60w的reasoning相关的训练样本
non-reasoning data:
采用DeepSeek-V3的pipeline,并复用部分DeepSeek-V3的SFT数据集。
使用DeepSeek-V3时,在prompt里提到在回答答案前要生成潜在的CoT;对于简单的如hello的问题,就不用输出CoT。
最终收集了大概20w的non-reasoning训练样本
将reward信号和多样化的数据分布相结合,提升helpfulness and harmlessness,同时refine reasoning能力,
reasoning数据:用R1-Zero的RL,使用rule-based reward
通用数据:用V3的pipeline,还是用reward model,用以学习复杂和细分领域的人类偏好
另外,提升如下两方面的能力:
helpfulness:仅关注最终的summary,保证评估强调的是response的有用性和相关性,而尽量少地干涉潜在的reasoning过程
harmlessness:同时评估reasoning过程和summary,尽量缓解在生成的过程中出现的风险、偏见和有害内容
大部分都接近或者超过新版o1(r1-zero只能和早期o1相当),很多任务都比v3要好
代码和o1差不太多,比v3提升很多,其中SWE Verified这个工程类的不太行,因为目前训练语料里这类数据还比较少,下一版会优化
c-simpleQA(最后一行)上效果不如V3,因为有R1有safety的限制,导致模型会拒绝回答一些问题,如果去掉这个限制,准确率能达到70%
在AlpacaEval2.0(写作)和ArenaHard(开放领域问答)上效果很好,产出的summary也很长,说明可能reasoning能力能产出长cot,对这类任务也有用
数学上超越o1,大幅领先v3
基于Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Qwen2.5-14B、Qwen2.5-32B、Llama-3.1-8B、Llama-3.3-70B-Instruct蒸馏,用的数据集是deepseek-R1的第二阶段RL使用的80w数据,只进行了SFT,没有RL。理论上RL应该会效果更好,留给其他研究者去搞了。
https://medium.com/@prabhudev.guntur/how-to-distill-deepseek-r1-a-comprehensive-guide-c8ba04e2c28c可以参考这个自己蒸馏一个
仅sft蒸馏的效果:模型越大效果越好,32b和70b的已经在大部分任务上超越o1-mini了
直接拿qwen-32b做RL(第二行):和QwQ-32b-preview(第一行)差不太多,但明显不如sft蒸馏(第3行)的模型效果
最终结论:
把大模型蒸馏到小模型可以有很好的效果,但对小模型做RL性价比不高
有更强大的模型和更大规模的RL,才能更好地发挥蒸馏的作用,让小模型变得更强
PRM(Process-supervised Reward Model)是 OpenAI 在Let's Verify Step by Step中首次提出的概念。与之相对应的是ORM(Outcome-supervised Reward Model)。区别:
PRM:过程奖励模型,在生成过程中,对每一个步骤打分,是更细粒度的奖励模型。
ORM:结果奖励模型,不管推理有多少步,对完整的生成结果进行一次打分,是一个反馈更稀疏的奖励模型。
PRM可以在两个阶段生效:
Post-Training阶段:在RL过程中增加PRM,对采样的结果按步骤输出奖励值,为模型提供更精细的监督信号,来指导策略模型优化,提升模型按步推理的能力。
Inference阶段:对generator模型做N次采样(如Beam Search等),并通过PRM对每个采样的每步推理进行打分,最终拟合一个整体过程打分,并选取打分最高的结果作为最终的答案。
问题:
难以定义细粒度的步骤
评估中间步骤是否正确很困难,用LLM自动评估结果不太行,手动标注又难以规模化应用
基于模型的PRM就会有reward hacking问题, 重新训练奖励模型需要额外的训练资源
MCTS(Monte Carlo Tree Search)是强化学习领域,详见AlphaGo论文Mastering the game of Go without human knowledge
具体操作步骤:使用已有的策略与环境做仿真交互,进行多次 rollout 采样,最终构成了一个从当前节点出发的一颗 Tree(每个 rollout 表示从当前节点到最终结束状态的多次与环境仿真交互的过程)。
这棵树的所有叶子节点都是结束状态,结束状态是可以量化收益的(比如方法1:答案错误收益-1,答案正确收益+3;再比如方法2:叶子节点的收益是到达叶子节点路径数/总路径数的概率,这是一种根据投票机制预估的价值,越多路径到达叶子节点,说明这个叶子节点越置信,那么这个叶子节点就有更高的奖励)。
一棵树的叶子节点有了奖励值,就可通过反向传播,计算每个中间节点的奖励值,最终计算出整个树所有节点的奖励值。MCTS一次rollout包括四个步骤:
select
expand
simulate
backprop
MCTS也可以用在两阶段:
Post-Traing阶段:对于每个problem构造一个搜索树,然后进行树的游走遍历采样,再用采样的样本SFT或RL训练模型。
Inference阶段:在推理阶段,也是对一个problem探索多节点构造一棵搜索树,对于到达正确答案的路径,根据节点路径的置信度打分,贪心选取最优路径作为最终的推理结果。
问题:
搜索空间巨大,虽然设置最大扩展限制使得不会无限搜索,但是容易陷入局部最优
value model直接影响生成的质量,而训练一个细粒度的value model本质上是困难的
对应的流程图文档
刚刚,DeepSeek官方发布R1模型推荐设置,这才是正确用法
temperature设置在0.5-0.7之间,推荐0.6,以防止无休止的重复或不连贯的输出。
不要system prompt,直接放到user prompt里
数学问题,建议prompt里直接Please reason step by step, and put your final answer within \boxed{}.
有些时候模型会自己跳过think的过程,如果要强制输出,可以强制模型在output前输出<think>
上传文件的prompt:
联网的prompt:
刚刚,DeepSeek揭秘R1官方同款部署设置,温度=0.6!OpenAI推理指南同时上线
https://platform.openai.com/docs/guides/reasoning-best-practices
简单理解:
推理模型就像一位经验丰富的高级同事——你只需告诉他们最终目标,就能相信他们自主完成所有细节工作。
GPT模型则更像一位新手同事——你需要提供明确详细的指示,才能让他们准确完成特定的输出任务。
各自特点:
速度和成本:选择GPT模型,因为它们处理速度更快,成本更低
执行明确任务:选择GPT模型,它们在处理界定清晰的任务时表现出色
准确性和可靠性:选择o系列模型,它们是可靠的决策专家
复杂问题解决:选择o系列模型,它们善于处理模糊和复杂的问题
推理模型的优势:
处理模糊任务:推理模型特别擅长处理信息有限或零散的情况,只需通过简单的提示词就能理解用户意图并妥善处理指令中的信息缺口。 值得注意的是,推理模型通常会在做出未经验证的猜测或填补信息空缺之前,主动提出澄清性问题。
大海捞针:当需要处理大量非结构化信息时,推理模型特别擅长理解内容并精准提取出回答问题所需的关键信息。
在大型数据集中发现关系和细微差别:
推理模型特别擅长分析包含数百页密集、非结构化信息的复杂文档,如法律合同、财务报表和保险索赔等。这些模型在识别文档之间的关联性,并基于数据中隐含的事实做出决策方面,表现尤为突出。
推理模型还特别擅长理解细微的政策和规则,并将其准确应用于具体任务中以得出合理结论。
多步骤AI智能体规划:推理模型在AI智能体规划和策略制定中发挥着关键作用。将推理模型作为「计划者」时效果显著:它能为问题制定详细的多步骤解决方案,并根据具体需求(高智能或低延迟)选择和分配合适的GPT模型(执行者)来完成各个步骤。
视觉推理能力:截至目前,o1是唯一一个具备视觉处理能力的推理模型。与GPT-4o相比,o1的独特优势在于它能够准确理解最具挑战性的视觉内容,包括结构不规则的图表和表格,以及质量欠佳的图片。
代码审查、调试和质量改进:推理模型在审查和改进大规模代码方面表现突出。考虑到这类模型的较高延迟特性,通常将代码审查任务安排在后台运行。虽然GPT-4o和GPT-4o mini凭借较低的延迟可能更适合直接编写代码,但在那些对延迟要求相对不那么严格的代码生成场景中,o3-mini表现同样出色。
评估和基准测试其他模型的响应:推理模型在对其他模型的输出进行基准测试和评估方面表现优异。数据验证对确保数据集的质量和可靠性至关重要,这一点在医疗保健等敏感领域尤其重要。
prompt注意点:
用开发者消息取代系统消息:自o1-2024-12-17版本起,推理模型开始支持开发者消息(developer message)而非系统消息(system message)。
保持提示词简洁明确:推理模型最擅长理解和响应简短、清晰的指令。
避免使用CoT提示:由于模型内置推理能力,因此无需特别提示它们「一步一步思考」或「解释推理过程」。
善用分隔符增强清晰度:使用Markdown、XML标签和章节标题等分隔符来明确区分输入的不同部分,这有助于模型准确理解各个章节的内容。
优先尝试零样本学习:推理模型通常无需少样本示例即可产出优质结果,因此建议先尝试不含示例的提示词。如果对输出结果有更复杂的要求,再考虑在提示词中添加输入和期望输出的示例。请注意确保示例与提示词指令严格匹配,因为不一致可能导致性能下降。
提供明确约束条件:如果需要对模型的响应施加具体限制(例如「提供预算控制在500美元以内的解决方案」),请在提示词中明确列出这些约束条件。
明确定义目标:在指令中,请详细说明判定响应成功的具体参数,并引导模型持续优化推理过程,直到达成设定的成功标准。
Markdown格式说明:从o1-2024-12-17版本开始,API中的推理模型默认不会生成带有Markdown格式的响应。如果确实需要在响应中包含Markdown格式,请在开发者消息的首行添加「Formatting re-enabled」字符串。
完整的671B MoE DeepSeek R1怎么塞进本地化部署?详尽教程大放送!
https://github.com/kvcache-ai/ktransformers
华人研究团队揭秘:DeepSeek-R1-Zero或许并不存在「顿悟时刻」
LeCun痛批硅谷傲慢病!圈内爆火长文:DeepSeek R1-Zero比R1更重要,成AGI破局关键
DeepSeek用的GRPO占用大量内存?有人给出了些破解方法,对应:https://github.com/huggingface/trl/issues/2709
刘知远硬核解读 DeepSeek:大模型强化学习技术原理与大模型技术发展研判
大神卡帕西拿DeepSeek R1讲强化学习!最新大模型内部机制视频爆火,“没有技术背景也能看懂”
对应代码:https://github.com/EurekaLabsAI
陈巍:DeepSeek是否有国运级的创新?2万字解读与硬核分析DeepSeek V3/R1的架构
Sebastian Raschka:关于DeepSeek R1和推理模型,我有几点看法
4500美元复刻DeepSeek神话,1.5B战胜o1-preview只用RL!训练细节全公开
从想太多到想不透?DeepSeek-R1等长推理模型也存在「思考不足」问题
一些观点:
打破LLM训练从Generalist到Reasoner的常规思路,使用RL先得到Reasoner,再经过SFT成为Generalist;
GRPO算法的高效性,让RL大规模训练取得了效果;
SFT with CoT数据的训练结果在原文中并未给出,但从最近一些复现工作和R1 distiled Qwen结果来看,SFT的作用可能比RL还大。
好的Base模型本身就有Aha Moment,但是是Superfacial(表面)的reflection,不具有提升Accuracy的能力,RL可以增强该能力。
其他:
https://github.com/simplescaling/s1
(从xhs上抄的)有几点思维误区:
s1超过的是o1-preview,没有超过o1甚至o1-mini,有很大区别
s1的效果不敌deepseek-r1 800k数据蒸馏的32B模型,差了不少,不是媲美
s1即使使用全量59k数据的效果也没有提高很多,甚至在math上还有下降,所以核心是数据质量
1k数据是从59K数据中筛选出来的,不是直接有1K数据就可以
s1使用1k数据是节省了训练时间,但蒸馏的难点在蒸馏数据的构造上
817样本激发7倍推理性能:上交大「少即是多」定律挑战RL Scaling范式
LIMO: Less is More for Reasoning
https://github.com/GAIR-NLP/LIMO
挑战DeepSeek-R1-Zero!PRIME:仅10%数据刷新数学推理SOTA,隐式奖励技术颠覆RL训练
Process Reinforcement through Implicit Rewards
推理时也能做偏好优化,无需额外重训练,来自上海AI Lab港中文等
Test-Time Preference Optimization: On-the-Fly Alignment via Iterative Textual Feedback
推理模型新路线开源!与DeepSeek截然不同,抛弃思维链不用人类语言思考
Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach
https://github.com/seal-rg/recurrent-pretraining
抛弃长思维链和人类的语言,直接在连续的高维潜空间用隐藏状态推理,可自适应地花费更多计算来思考更长时间。
哥德尔-Prover超过DeepSeek-Prover,金驰、陈丹琦团队造出当前最强形式化推理模型
Goedel-Prover: A Frontier Model for Open-Source Automated Theorem Proving
https://github.com/Goedel-LM/Goedel-Prover
https://github.com/MoonshotAI/kimi-k1.5
Kimi k1.5: Scaling Reinforcement Learning with LLMs,自己转存了一份:pdf
O1 Embedder: Let Retrievers Think Before Action
生成关于输入查询的thought,然后和question一起拼接,然后分别独自生成嵌入,然后池化聚合。也就是说,这个Embedding模型比之前的模型多了个thought的输出。
微调,两个并行任务,一个是thought生成,一个是对比学习。
微调数据怎么来,那就是生成后进行打分评价。首先,使用LLM生成初始思想,然后使用检索评分器来根据初始思想和目标文档之间的相关性评分,最终通过多数投票选择最佳thought。
From Few to Many: Self-Improving Many-Shot Reasoners Through Iterative Optimization and Generation
问题背景:传统的LLM在处理长文本时效率低下,尤其是在需要进行多步推理的任务中。近年来,随着长上下文LLM的发展,出现了多示例学习(many-shot ICL)的范式,即通过更多的示例来提升模型性能。然而,这种范式的效果和影响因素仍需进一步研究。
研究动机:为了提升多示例学习的效率,分析了影响多示例学习效果的关键因素,并发现仅少数关键示例就能显著提升性能。基于这一发现,团队提出了一种新的算法,通过优化选择关键示例和生成新的示例来进一步提升模型的推理能力。
bridge算法结合了优化和生成两个步骤:
在优化步骤中,使用贝叶斯优化(Bayesian optimization)来发现关键示例;
在生成步骤中,利用这些关键示例作为示范,重新生成更多的示例,从而在多示例学习中提高模型性能。
超越DeepSeek-ProverV1.5!豆包首个形式化数学推理模型BFS-Prover来了,直接开源
BFS-Prover: Scalable Best-First Tree Search for LLM-based Automatic Theorem Proving
https://huggingface.co/bytedance-research/BFS-Prover/tree/main
为DeepSeek MoE模型带来「免费午餐」加速,专家链可大幅提升LLM的信息处理能力
为什么Qwen能自我改进推理,Llama却不行?斯坦福找到了原理
Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs
超越DeepSeek GRPO的关键RL算法,字节、清华AIR开源DAPO
DAPO: An Open-Source LLM Reinforcement Learning System at Scale
https://github.com/volcengine/verl/tree/gm-tyx/puffin/main/recipe/dapo
数据:https://huggingface.co/datasets/BytedTsinghua-SIA/DAPO-Math-17k
揭秘DeepSeek R1-Zero训练方式,GRPO还有极简改进方案
Understanding R1-Zero-Like Training: A Critical Perspective
https://github.com/sail-sg/understand-r1-zero
从ReFT, Kimi K1.5到DeepSeek R1,聊聊Reasoning Model的精巧实现
张俊林:MCST树搜索会是复刻OpenAI O1/O3的有效方法吗
https://github.com/huggingface/open-r1/
开源22万条DeepSeek R1的高质量数据!你也能复现DeepSeek了
https://huggingface.co/datasets/open-r1/OpenR1-Math-220k
1/30训练步骤复刻DeepSeek-R1-Zero,沈向洋姜大昕张祥雨等开源推理模型RL训练方法
https://github.com/Open-Reasoner-Zero/Open-Reasoner-Zero/
https://unsloth.ai/blog/deepseekr1-dynamic
https://unsloth.ai/blog/r1-reasoning
10美元成功复现DeepSeek顿悟时刻,3B模型爆发超强推理!微软论文反驳涌现
Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning
DeepSeek V3+R1满血微调工具上线!一键启动,硬件要求降10倍
https://github.com/hpcaitech/ColossalAI
通过使用 LoRA 等优化,示例命令已将 SFT DeepSeek V3/R1 671B 最低硬件要求降低近 10 倍,可使用 32 个 Ascend 910B NPU 64GB(使用 ep=8,pp=4)或 24 个 H100/H800 GPU(使用 ep=8,pp=3)。如果你通过 --zero_cpu_offload 启用 CPU offload,硬件要求可以进一步降低,但会损失一定的训练速度。
也可以使用上述脚本,将并行度高效扩展至数百及数千卡,快速完成 DeepSeek V3/R1 671B 全参微调或并行加速。
奖励设计:
奖励 = 0,如果格式是错误的;
奖励 = 1, 如果格式是正确的但是结果是错误的;
奖励 = 10,如果格式与结果都是正确的。
OpenAI:强化学习确实可显著提高LLM性能,DeepSeek R1、Kimi k1.5发现o1的秘密
Competitive Programming with Large Reasoning Models
刚刚,OpenAI放出最后大惊喜o3,高计算模式每任务花费数千美元
阿里旗舰推理模型硬刚DeepSeek!官宣独立APP,发布公告AI亲自写
https://qwenlm.github.io/blog/qwq-32b/
https://huggingface.co/Qwen/QwQ-32B
目前只有博客,写得挺简单的,看介绍是用了两阶段RL:
1阶段RL:在冷启ckpt上,只拿代码和数学语料,基于outcome-base reward,随着训练的进行,发现这两方面的能力都有持续提升
数学:有一个accuracy verifier,检查最终解决方案是否正确
代码:有一个代码执行server,检查代码是否通过预定义好的测试用例
2阶段RL:没说用什么语料,但用的是general reward model加上rule-based verifiers产生的reward,发现只要少量的step就能提升模型的通用能力,如指令遵循、人类偏好对齐、agent性能,而且代码和数学能力下降不明显
全球首个混合推理模型:Claude 3.7 Sonnet来袭,真实编码力压一切对手
既是普通的 LLM,又是推理模型。你可以选择何时希望模型正常回答,何时希望它在回答之前思考更长时间。在标准模式下,Claude 3.7 Sonnet 是前代 Claude 3.5 Sonnet 的升级版。在扩展思维模式下,它会在回答之前进行自我反思,从而提高其在数学、物理、指令遵循、编码和许多其他任务上的表现。Anthropic 发现,两种模式下,模型的提示词工作方式类似。
当通过 API 使用 Claude 3.7 Sonnet 时,用户还可以控制思考预算。你可以告诉 Claude 思考不超过 N 个 token。对于任何 N 值,其输出限制为 128K 个 token。这允许用户在速度(和成本)和答案质量之间进行权衡。
第三,在开发自家的推理模型时,Anthropic 对数学和计算机科学竞赛问题的优化较少,而是将重点转向更能反映企业实际使用 LLM 方式的现实任务。
视觉强化微调!DeepSeek R1技术成功迁移到多模态领域,全面开源
Visual-RFT: Visual Reinforcement Fine-Tuning
https://github.com/Liuziyu77/Visual-RFT
全球首个工业界多模态推理模型开源!38B硬刚DeepSeek-R1,训练秘籍全公开
https://github.com/SkyworkAI/Skywork-R1V
Skywork R1V: Pioneering Multimodal Reasoning withChain-of-Thought
OpenAI深夜被狙,谷歌Gemini 2.0掀翻牌桌!最强智能体组团击毙o1
谷歌“狙击”OpenAI,发布新一代大模型!主打Agent+多模态
我扒出了Gemini 2.0超实时多模态幕后的黑科技,第六代TPU芯片Trillium!
谷歌逆风翻盘暴击OpenAI,90天王者归来!44页报告押注25年三大技术前沿
data and ai trends report 2024
视频生成的测试时Scaling时刻!清华开源Video-T1,无需重新训练让性能飙升
Video-T1: Test-Time Scaling for Video Generation
https://github.com/liuff19/Video-T1
音乐界迎来自己的DeepSeek!全球首个音乐推理大模型Mureka O1上线,超越Suno
MusiCoT: Analyzable Chain-of-Musical-Thought Prompting for High-Fidelity Music Generation
DeepSeek逼出谷歌新推理模型:40分优势超GPT4.5登顶竞技场,支持原生多模态,但依然败给了“竹竿问题”
Gemini 2.5 Pro的上下文窗口是1M tokens,并且支持原生多模态:可以理解庞大数据集并处理来自不同信息源的复杂问题,包括文本、音频、图像、视频,甚至是整个代码库。2.5 pro擅长创造视觉上引人注目的Web应用程序和智能体代码。
谷歌终于登顶一次了!最强推理模型Gemini 2.5 Pro实测体验,真的有点东西
Google 发布多模态开源模型 Gemma 3:性能与功能全面升级,附技术报告英中对照版
架构设计:Gemma 3基于decoder-only架构,与前两代Gemma模型类似。但在细节上有所创新,例如采用GQA和RMSNorm,还引入了QK-norm替代Gemma 2中的软封顶机制,以提升性能和稳定性。
训练策略:Gemma 3的训练过程包括预训练和指令微调两个阶段。在预训练阶段,模型使用知识蒸馏技术,从大规模数据中学习语言和视觉表示。训练数据涵盖了文本、图像以及多语言等多种类型,且经过严格的筛选和清洗,以减少有害内容和低质量数据的影响。在指令微调阶段,Gemma 3 采用了新颖的训练方法,重点关注数学、聊天、指令遵循和多语言等能力的提升。
阿里深夜开源Qwen2.5-Omni,7B参数完成看、听、说、写
https://github.com/QwenLM/Qwen2.5-Omni/tree/main
https://github.com/QwenLM/Qwen2.5-Omni
本地也能运行Deep Research!支持arXiv平台,兼容PDF、Markdown等
https://github.com/LearningCircuit/local-deep-research
大模型还有哪些值得研究的方向? || 大模型高效推理(Efficient Reasoning)研究综述
Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models
https://github.com/Eclipsess/Awesome-Efficient-Reasoning-LLMs
model:
length reward:RL时加上新的reward,鼓励答案正确且cot短的
variable-length cot reasoning data:构造不同长度cot的数据集,然后sft
reasoning-output:
latent reasoning:将reasoning steps压缩成latent表示
dynamic reasoning:reasoning的过程改成投机采样、拒绝采样、tree-of-thoughts等方式
input prompt:
length prompts:let's use less than k tokens
routing by difficulty:训一个小模型,决定简单问题不思考,困难问题再思考
A Survey on LLM Complex Reasoning through the Lens of Self-Evolution
https://github.com/cs-holder/Reasoning-Self-Evolution-Survey
从o1-mini到DeepSeek-R1,万字长文带你读懂推理模型的历史与技术
https://cameronrwolfe.substack.com/p/demystifying-reasoning-models
https://openai.com/index/learning-to-reason-with-llms/这里的图:说明openai发现了在训练时用大规模的强化学习(train-time compute)以及在测试时花更多的时间思考(test-time computing)都能提升数学任务上的效果
绿色:橙色和蓝色的一起作为新的prompt,把输出token 1和2对应的logit拿出来,得到preference score:和
计算1-10这10个token各自的likelihood,并归一化成一个概率得分,权重是
AI Labeler Alignment:衡量AI标注的preferences和人类preferences的准确率。先把AI标注的转成二分类([0.6, 0.4]->[1,0]),如果这个结果和人类的标注一样那就是1,否则是0。最终的准确率就是如下公式,其中是数据集,是AI标注的,而是人类标注的:
GRPO(Group Relative Policy Optimization):放弃了Critic model,用group scores来替换。即对每个问题,从老的策略采样出一个group的输出,再通过最大化如下目标来优化policy model :
用于限制新策略不要离ref model太远
用于限制新旧策略的概率比例在1附近,即二者不要偏离太远
和是超参
是advantage,通过每个group的reward计算得来,不像ppo需要借助value model: