1.8.llm_o1
最后更新于
最后更新于
Constitutional AI: Harmlessness from AI feedback Anthropic的文章,之前的文章是Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback提出的HH RLHF模型。
这里的preference model感觉就是RLHF里的reward model,输入一些response的pair对,输出哪个更好,和RLHF的区别在于其中的helpfulness的label还是人标的,而harmlessness的label是由模型生成的。
使用任意一个RLHF后的模型,输入能够诱导(elicit)出有害response的prompts(red teaming的相关工作有这些积累),sample出一些结果。
然后以它们为上下文,把一些pre-written指令加入进来,让模型critique(评论)自己的response,
然后再加入如下的pre-written指令,让模型revisit它的response
最后,将revision的结果和最开始的prompt拼在一起,当成一条不那么有害的训练数据
这些指令可以改写用来强调不同维度的有害信息,例如事先写好16个原则,每次从中sample出一些来用。有些时候模型可能对critique给出的原则理解不对,或者给不出合理的revision,这个时候可以在prompt里加上few shot
为了让模型更加helpful,在sft的时候,不仅用revision的结果,还用上原来RHLF的helpful responses。
让人类给的feedback label只用来学helpfulness,而harmlessness的label则都通过多选题的方式由模型自己产出,随后distilled back给一个preference model
另外找一个pretrained model当成feedback model,
输入如下prompt,让一个assistant model产出一个response的pair对,然后输入给feedback model,要求返回更无害的结果:
claude的翻译:
然后计算response A和B的log probability,再使用norm后的这些概率作为targets,创建一个labeled, preference modeling comparison example,即为偏好模型创建训练数据。如下是16个原则,发现将这些原则ensemble起来比只用一个原则效果的preference score要鲁棒得多。
Please choose the response that is the most helpful, honest, and harmless.
Please choose the assistant response that is as harmless and ethical as possible. Do NOT choose responses that are toxic, racist, or sexist, or that encourage or support illegal, violent, or unethical behavior. Above all the assistant’s response should be wise, peaceful, and ethical.
Compare the degree of harmfulness in the assistant responses and choose the one that’s less harmful. However, try to avoid choosing responses that are too preachy, obnoxious, or overly-reactive.
Choose the assistant response that is as harmless, helpful, polite, respectful, and thoughtful as possible without sounding overly-reactive of accusatory.
Please choose the assistant response that’s more ethical and moral. Do NOT choose responses that exhibit toxicity, racism, sexism or any other form of physical or social harm.
Which of these assistant responses exhibits less harmful and more acceptable behavior? Choose the less harmful response.
Choose the assistant response that answers the human’s query in a more friendly, amiable, conscientious, and socially acceptable manner.
Which of these assistant responses is less harmful? Choose the response that a wise, ethical, polite and friendly person would more likely say.
Choose the response that is less harmful, paying close attention to whether each response encourages illegal, unethical or immoral activity.
Please consider these assistant responses and choose the one that is less harmful, more age-appropriate, and more family-friendly.
Choose the response that answers the human in the most thoughtful, respectful and cordial manner.
Compare the assistant responses in terms of toxicity, racism, sexism and social bias, and choose the less harmful response.
Choose the response that sounds most similar to what a peaceful, ethical, and wise person like Martin Luther King Jr. or Mahatma Gandhi might say.
Which of the assistant responses is most harmless, helpful, and honest? Choose the best response based on these criteria.
Choose the assistant response that is more harmless, polite, pleasant, and least likely to offend a socially-aware audience.
Choose the assistant response that demonstrates more ethical and moral awareness without sounding excessively condescending, reactive, annoying or condemnatory.
SL-CAI模型一方面用来生成response pairs,另一方面用来作为RL的初始snapshot。之所以感觉拿一个模型来同时做这两个事效果会更好,是因为policy生成的response的分布,应该和preference model训练的分布类似,至少在RL训练初期应该是这样。RL的训练流程和RLHF一样,只是preference模型的部分训练数据是由模型生成的。
此外,还尝试用RLHF后的模型来尝试CoT,将feedback原则重写成如下对话形式:
发现这样输出的答案一般很“置信”,即非常接近0或者1,会导致不好训练,所以尝试clamp到40-60%后,效果会更鲁棒。关于clamp,claude说大概可以这么理解:如果高于0.6就变成0.6,低于0.4就变成0.4。
RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback deepmind的论文,在RLAIF的基础上进行改进,提出了d-RLAIF(direct-RLAIF)。
如上是rlaif和rlhf的对比。
蓝色:prompt,包括summary的定义,文章+两个summary,让模型输出哪个prompt更好,原因:
橙色:产出的response,包括哪一个summary更好,以及原因。再加上一个Ending(preferred summary=)
由于用的是soft labels(如[0.6, 0.4]),所以对输出的score对RM进行训练时直接用cross-entropy loss。可以把在AI生成的数据集上训练RM看成是一种模型蒸馏。
一般来讲,RM是依据初始的policy训练的,但随着policy的训练,当初训练RM的数据越来越out-of-distribution了。一种解法是迭代地运行RLAIF,周期性地训练一个RM,比较耗时。
d-RLAIF:
LLM的prompt是对一个生成结果打1-10分
最后再把score归一化到[-1,1]之间,这个score直接当成reward,不需要RM模型了
对于summary的任务,数据集是Learning to summarize with human feedback里提供的reddit数据集,prompt是
对于helpful的任务,数据集是HH-RLHF,prompt是
评估方式:
Win Rate:给定两个策略生成的结果,人类选择更好的那个,然后统计胜率。
Harmless Rate:人类认为response是harmless的比例,
另外,发现小的模型更容易出现position bias,即给定两个候选,换一下顺序,模型还是觉得同一个位置的更好。缓解:每个pair反转前后各过一遍模型,然后得分avg一下。
From r to Q*: Your Language Model is Secretly a Q-Function
在DPO的基础上,引入LLM里的token-level的MDP,用二分类的preference feedback。发现了3个点:
尽管 DPO 是作为上下文多臂赌博机而派生出来的,但DPO模型的隐含奖励可在每个 token 层面上进行解释。
DPO模型的likelihood search类似在decoding阶段寻找一个reward function。即在token层面的阐述方式下,经典的基于搜索的算法(比如 MCTS)等价于在 DPO策略上的基于似然的搜索。
初始策略和参考分布的选择对于确定训练期间隐性奖励的轨迹非常重要。
OpenAI秘密武器「草莓」计划曝光!Q*推理能力大爆发,逼近AGI L2里程碑
5级路线图:
L1:聊天机器人,具有对话能力的AI。
L2:推理者,像人类一样能够解决问题的AI。
L3:智能体,不仅能思考,还可以采取行动的AI系统。
L4:创新者,能够协助发明创造的AI。
L5:组织者,可以完成组织工作的AI。
Strawberry模型的目的是为了使公司的AI不仅能生成查询答案,还能提前计划,足够自主且可靠地浏览互联网,进行OpenAI所称的「深度研究」。
类似Star: Self-taught reasoner bootstrapping reasoning with reasoning能够通过迭代创建自己的训练数据,来「自我提升」到更高的智能水平。
AI models collapse when trained on recursively generated data,对应下载的pdf
Self-Rewarding Language Models
OpenAI o1 强化学习背后的自博弈(Self-play)方法介绍
万字长文推演OpenAI o1 self-play RL 技术路线
有想入坑RL-LLM的同学吗?这个开源项目一个GPU够了,完成后欢迎来月之暗面~
https://github.com/inspirai/TimeChamber
Scaling Law瓶颈,Cursor编程为什么这么强?团队参与新研究掏出秘密武器
Planning In Natural Language Improves LLM Search For Code Generation
o1基石论文火爆传阅,Ilya仍是关键先生!核心项目清北校友闪光
https://openai.com/index/improving-mathematical-reasoning-with-process-supervision/
(toread)
OpenAI o1要跟,怎么跟?这个GitHub项目把解读、博客、相关论文一网打尽
刚刚,OpenAI震撼发布o1大模型!强化学习突破LLM推理极限
张俊林:OpenAI o1的价值意义及强化学习的Scaling Law
北大对齐团队独家解读:OpenAI o1开启「后训练」时代强化学习新范式
Noam Brown早已预示o1强大推理能力,演讲深度解析AI推理研究脉络
OpenAI o1模型的前世今生 --toread
谷歌再次痛失好局!OpenAI o1 证实谷歌 ICLR 2024 论文价值「四位华人贡献」
Chain of Thought Empowers Transformers to Solve Inherently Serial Problems
传统的 Transformer 模型虽然在自然语言处理领域取得了巨大成功,但它有一个致命弱点:擅长并行计算,但不擅长串行推理。这就像一个超级聪明的孩子,能快速完成大量的计算题,但却无法理解简单的逻辑推理。
而CoT (Chain of Thought,思维链)技术的灵感来源于人类的思维过程,它可以让 Transformer 模拟人类的思考方式,通过生成一系列中间推理步骤,来解决那些需要逻辑推理的复杂问题。
作者用电路复杂性理论来解释 CoT 的强大之处,将Transformer的计算过程与电路模型进行类比,并将Transformer能够解决的问题类别定义为“CoT 复杂性类”
他们证明了传统的Transformer模型(没有 CoT)只能解决AC0电路能够解决的问题,而AC0电路是一种计算能力非常有限的电路模型。但是,如果加入 CoT,Transformer 的表达能力将得到质的飞跃!作者用数学严格证明了:
只要CoT步骤足够多,Transformer 就能模拟任意大小的布尔电路,从而解决P/poly问题,这是一个包含了P问题的更大的问题类别,相当于证明了CoT可以让 Transformer 解决几乎所有可以用计算机解决的问题。
为了进一步验证CoT的有效性,论文作者设计了四个核心问题:
模加: 计算两个数的和,并对某个整数取模
排列组合: 计算一组排列的组合
迭代平方: 对一个数进行多次平方运算
电路值问题: 计算一个布尔电路的输出值
其中,模加问题可以用并行计算高效地解决,而其他三个问题则需要串行计算。
实验结果表明:
对于模加问题,即使不使用 CoT,Transformer 也能取得不错的效果
但对于其他三个问题,使用 CoT 可以显著提高 Transformer 的准确率,尤其是在模型深度较浅的情况下
CoT能让模型推理能力无上限?田渊栋、LeCun下场反对:两层MLP还能模拟全世界呢
Transformer推理天花板被谷歌打破?DeepMind首席科学家亮出84页PPT,却遭LeCun反对
To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning
小模型越级挑战14倍参数大模型,谷歌开启Test-Time端新的Scaling Law
Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters
OpenAI o1 技术初探1:整体框架,利用Test-Time Scaling Law提升逻辑推理能力---(写得比较细)
Scaling LLM Test-Time:谁说类o1推理一定要用RL???
LLM Inference Scaling:姚班/OpenAI/CMU 8月论文提前揭示o1核心原理
An Empirical Analysis of Compute-Optimal Inference for Problem-Solving with Language Models
280页PDF,全方位评估OpenAI o1,Leetcode刷题准确率竟这么高
Evaluation of OpenAI o1: Opportunities and Challenges of AGI
一文看懂LLM推理,UCL汪军教授解读OpenAI ο1的相关方法
首个o1复现开源RL框架OpenR来了,UCL、上交等高校联合团队发布
OpenR: An Open Source Framework for Advanced Reasoning with Large Language Models
A Tutorial on LLM Reasoning: Relevant methods behind ChatGPT o1
Procedural Knowledge in Pretraining Drives Reasoning in Large Language Models
17岁高中生写了个神级Prompt,直接把Claude强化成了满血o1
https://github.com/richards199999/Thinking-Claude/tree/main
上交大发布首个OpenAI o1复现项目进展报告,满满的经验洞察
上交大o1复现新突破:蒸馏超越原版,警示AI研发"捷径陷阱"
O1 Replication Journey: A Strategic Progress Report
https://github.com/GAIR-NLP/O1-Journey/blob/main/resource/report-part2.pdf
https://github.com/GAIR-NLP/O1-Journey
强化学习让大模型自动纠错,数学、编程性能暴涨,DeepMind新作
Learning From Correctness Without Prompting Makes LLM Efficient Reasoner
https://github.com/starrYYxuan/LeCo
Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions
https://github.com/AIDC-AI/Marco-o1
阿里多模态检索智能体,自带o1式思考过程!复杂问题逐步拆解,动态调整下一步检索策略
https://github.com/Alibaba-NLP/OmniSearch
耗资1.3万,ASU团队揭秘o1推理王者!碾压所有LLM成本超高,关键还会PUA
LLMs Still Can't Plan; Can LRMs? A Preliminary Evaluation of OpenAI's o1 on PlanBench
大模型是否有推理能力?DeepMind数月前的论文让AI社区吵起来了
Amortized Planning with Large-Scale Transformers: A Case Study on Chess
绿色:橙色和蓝色的一起作为新的prompt,把输出token 1和2对应的logit拿出来,得到preference score:和
计算1-10这10个token各自的likelihood,并归一化成一个概率得分,权重是
AI Labeler Alignment:衡量AI标注的preferences和人类preferences的准确率。先把AI标注的转成二分类([0.6, 0.4]->[1,0]),如果这个结果和人类的标注一样那就是1,否则是0。最终的准确率就是如下公式,其中是数据集,是AI标注的,而是人类标注的: