5.llm_agentic
prompt engineering
万字长文总结提示词技巧!新加坡首届GPT-4提示工程大赛冠军最新分享 提出了CO-STAR框架
https://github.com/NirDiamant/Prompt_Engineering
Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case Study in Medicine
让gpt4生成cot和答案的模板


看着是借助GPT4+COT+RAG+投票
拿一坨question得到他们的向量,并按照上图的模板让gpt生成COT和答案,人工判断,对的存进知识库里
预测阶段:
拿测试question的向量从知识库里查出5个最像(cos距离)的(q, cot, answer)作为context
循环5次: shuffle测试question的答案选项,让LLM回答
对生成的答案投票,选票数最多的
APE
https://github.com/marshmellow77/automated-prompt-engineering-from-scratch
PAS
PAS: Data-Efficient Plug-and-Play Prompt Augmentation System
ell
OpenAI前研究者发布提示词工程框架ell,升级版LangChain,支持版本控制和多模态
https://github.com/MadcowD/ell
一些实践
多智能体
《综述:全新大语言模型驱动的Agent》——4.5万字详细解读复旦NLP和米哈游最新Agent Survey
Agent > GPT5?吴恩达最新演讲:四种 Agent 设计范式(通俗易懂版)
JAT
Jack of All Trades, Master of Some, a Multi-Purpose Transformer Agent
https://github.com/huggingface/jat
https://huggingface.co/datasets/jat-project/jat-dataset

输入的序列元素是observations, actions, 和rewards的交替组合:
依据不同输入的数据类型,使用不同网络处理:
图像:用CNN。
连续向量:用线性层
离散值:用线性投影层
预测任务:根据所有先前的观察和动作嵌入来预测下一个动作嵌入。
序列的构造方法:
和文本相关的任务:用 GPT-2 的分词策略,将文本转换为一个整数序列,然后emb lookup映射到一个嵌入向量序列。
和图像有关的任务:用ViT,将图像切割成小块后,通过线性层转换为嵌入向量序列。
最终再将图像和文本的向量序列拼接在一起,形成一个统一的序列,输入到 Transformer 中。
ReadAgent
「有效上下文」提升20倍!DeepMind发布ReadAgent框架
多模态agent
一文详解多模态智能体(LMAs)最新进展(核心组件/分类/评估/应用)
Large Multimodal Agents: A Survey
https://github.com/jun0wanan/awesome-large-multimodal-agents
OpenDevin
OpenDevin: An Open Platform for AI Software Developers as Generalist Agents
autogpt
GitHub星标超16万,爆火AutoGPT进阶版来了:定制节点、多智能体协同
https://github.com/Significant-Gravitas/AutoGPT
DAAG
Diffusion Augmented Agents: A Framework for Efficient Exploration and Transfer Learning
VARP
GPT-4o能玩《黑神话》!精英怪胜率超人类,无强化学习纯大模型方案
Can VLMs Play Action Role-Playing Games? Take Black Myth Wukong as a Study Case
MARL
Efficient and scalable reinforcement learning for large-scale network control
MMRole
与「李白」赏图赋诗,同「猴哥」直面天命,人大高瓴提出MMRole多模态角色扮演
MMRole: A Comprehensive Framework for Developing and Evaluating Multimodal Role-Playing Agents
https://github.com/YanqiDai/MMRole
Swarm
https://github.com/openai/swarm
agent-as-a-judge
卷起来!让智能体评估智能体,Meta发布Agent-as-a-Judge
Agent-as-a-Judge: Evaluate Agents with Agents
https://github.com/metauto-ai/agent-as-a-judge
Hammer
Hammer: Robust Function-Calling for On-Device Language Models via Function Masking
https://huggingface.co/MadeAgents
https://github.com/MadeAgents/Hammer
AgentOccam
不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用,成为网络任务智能体新SOTA
AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents
苏格拉底学习
DeepMind用语言游戏让大模型学AlphaGo自我博弈,数据限制不存在了
Boundless Socratic Learning with Language Games
从个人模拟到社会模拟
MetaGPT
ICLR2024
4w+的stars了
https://github.com/geekan/MetaGPT
insight-V
Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models
https://github.com/dongyh20/Insight-V
世界经济论坛的agent报告
Navigating the AI Frontier: A Primer on the Evolution and Impact of AI Agents
Claude: building effective agents(MCP)
Claude 官方发布《Agent 构建指南》,附 PDF 下载
https://www.anthropic.com/research/building-effective-agents
Agent 系统分为两大类:
工作流 (Workflows) :
特点:通过预定义的代码路径来编排 LLM 和工具的系统。更像是一个精心设计的流程,每一步都清晰可控。
场景:当任务非常明确,而且可以分解成一系列固定的步骤时,就像流水线上的工作一样,用“工作流程”就足够了。
智能体 (Agents):
特点:由 LLM 动态地指导自身流程和工具使用的系统。更像是一个自主的决策者,能够根据环境反馈灵活调整行动。
场景:当任务需要很大的灵活性,而且需要模型自己做决策时,就像一个需要随机应变的指挥官,这时候“智能体”就更适合。
现有的框架:
LangGraph(LangChain 的工具):就像一套功能强大的乐高套件,可以用来搭建各种复杂的 Agent 系统。https://langchain-ai.github.io/langgraph/
Amazon Bedrock 的 AI Agent 框架:就像一个专业的工具箱,提供了各种构建 Agent 系统的工具和组件。https://aws.amazon.com/cn/bedrock/agents/
Rivet(拖放式 GUI LLM 工作流构建器):就像一个可视化编辑器,可以通过拖拽的方式来构建 LLM 的工作流程,非常方便。https://rivet.ironcladapp.com/
Vellum(复杂工作流的构建和测试工具):就像一个高级的实验室,可以用来构建和测试复杂的工作流程。https://www.vellum.ai/
基石:augmented LLM

通过检索、工具和记忆等机制扩展大语言模型的能力,这样大语言模型能够主动运用这些能力来生成自己的搜索查询、选择合适的工具,并决定保留哪些信息。
Anthropic有一个上下文协议(Model Context Protocol,MCP),允许开发者通过简单的客户端实现与不断增长的第三方工具生态系统集成,参考https://www.anthropic.com/news/model-context-protocol
workflow
prompt chaining:将一个任务分解成一系列步骤,其中的每个LLM的调用都会处理前一个调用的输出,可以在任何中间步骤中添加程序化的检查(见图中的“门控 Gate”),以确保流程仍在正轨上,即有一个失败就exit

Routing:将不同类型的客户服务查询(一般问题、退款请求、技术支持)导向不同的下游流程、提示和工具,例如将简单/常见的问题路由到较小的模型(如Claude 3.5 Haiku),将困难/不常见的问题路由到功能更强大的模型(如Claude 3.5 Sonnet),以优化成本和速度。

Parallelization:同时执行多个任务,并通过程序化方式整合结果。适用:
分段处理:
构建安全防护机制,一个模型实例负责处理用户查询,而另一个模型实例负责筛选不当内容或请求。
自动化评估模型性能,每个模型调用负责评估模型在给定提示下的不同性能指标。
多重投票:
对代码进行漏洞审查,多个不同的提示分别审查代码,并在发现问题时进行标记。
评估内容是否不当,多个提示从不同角度进行评估,或采用不同的投票阈值来平衡误报和漏报。

Orchestrator-workers(协调者-工作者模式):一个中央LLM会动态地分解任务,并将这些子任务分配给不同的工作者模型,最后再整合所有工作者的结果。适用:
需要对多个文件进行复杂修改的编码产品。
需要从多个来源收集并分析信息以寻找相关内容的搜索任务。

Evaluator-optimizer:一个LLM负责调用生成响应,而另一个LLM调用则在一个循环中提供评估和反馈。适用:
文学翻译,比如翻译模型最初可能无法捕捉到的细微差别,但评估器模型可以提供有用的评审意见。
需要进行多轮搜索和分析以收集全面信息的复杂搜索任务,评估器可以用来决定是否需要进一步搜索。

Agents
** 当LLM在理解复杂输入、推理规划、可靠使用工具和从错误中恢复等关键能力上成熟时,智能体可以处理开放式问题,无需预先定义步骤,并能根据环境反馈自主决策。在特定节点或遇到困难时暂停的功能,以便引入人工干预或反馈。

google ai agents白皮书
https://github.com/daiwk/collections/blob/master/assets/google-ai-agents-whitepaper.pdf
stanford的agent综述
Agent AI: Surveying the Horizons of Multimodal Interaction
李宏毅的agent课
https://www.youtube.com/watch?v=M2Yg1kwPpts
google的A2A
最新:Google 牵头搞了个 A2A,以后不同家的 AI 都能“加好友”了
5000字长文带你看懂,Agent世界里的A2A、MCP协议到底是个啥。
A2A协议是对 Anthropic 公司模型上下文协议 (MCP) 的补充,后者为智能体提供了有用的工具和上下文。A2A则更侧重于智能体之间的交互与协作
A2A促进了客户端 (client)智能体和远程 (remote)智能体之间的通信。客户端智能体负责制定和传达任务,远程智能体则负责执行这些任务以提供信息或采取行动。
这个交互过程包含几个关键能力:
能力发现 (Capability discovery): 智能体可以通过JSON格式的Agent Card来宣告自身能力。这使得客户端智能体能找到最适合执行某项任务的远程智能体,并发起A2A通信。
任务管理 (Task management): 通信围绕任务完成进行。协议定义了具有生命周期的任务 (task)对象。任务可以是即时完成的,也可以是长时运行的。任务的输出被称为工件 (artifact)
协作 (Collaboration): 智能体之间可以发送消息,以沟通上下文、回复、工件或用户指令
用户体验协商 (User experience negotiation): 每条消息包含parts,即完整的内容片段(如生成的图像)。每个部分都有指定的内容类型,允许客户端和远程智能体协商所需格式,并明确协商用户的UI能力(例如是否支持iframe、视频、Web表单等)。
字节的DeerFlow
https://github.com/bytedance/deer-flow
MASLab
MASLab: A Unified and Comprehensive Codebase for LLM-based Multi-Agent Systems
https://github.com/MASWorks/MASLab
WebSailor
开源Agent新标杆:通义WebSailor多榜夺魁,挑战OpenAI高难度Agent基准BrowseComp
WebSailor: Navigating Super-human Reasoning for Web Agent
https://github.com/Alibaba-NLP/WebAgent
WebShaper
通义实验室大火的 WebAgent 续作:全开源模型方案超过GPT4.1 , 收获开源SOTA
WebShaper: Agentically Data Synthesizing via Information-Seeking Formalization
Reflection和Reflexion
从零构建能自我优化的AI Agent:Reflection和Reflexion机制对比详解与实现
RAG
Retrieval-Augmented Generation for Large Language Models: A Survey
Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks
Meta提出全新文档级嵌入框架,利用LLM来增强信息检索能力
LLM-Augmented Retrieval: Enhancing Retrieval Models Through Language Models and Doc-Level Embedding
RankRAG
RAG微调Llama 3竟超越GPT-4!英伟达GaTech华人学者提出RankRAG框架
RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs
graphRAG
微软开源的GraphRAG爆火,Github Star量破万,生成式AI进入知识图谱时代?
https://github.com/microsoft/graphrag
From Local to Global: A Graph RAG Approach to Query-Focused Summarization
RAGChecker
给RAG系统做一次全面「体检」,亚马逊开源RAGChecker诊断工具
RAGCHECKER: A Fine-grained Framework for Diagnosing Retrieval-Augmented Generation
https://github.com/amazon-science/RAGChecker
TAG
Storm
斯坦福开源学术研究神器STORM再进化,AI智能体像人一样进行圆桌讨论
https://github.com/stanford-oval/storm
https://storm.genie.stanford.edu/
Block-atttention RAG
Block-Attention for Efficient RAG
2024 rags
RAG的知识冲突
Knowledge Conflicts for LLMs: A Survey
myscaledb
长文本杀不死RAG:SQL+向量驱动大模型和大数据新范式,MyScale AI数据库正式开源
https://github.com/myscale/myscaledb
多模态RAG
agentic AI
Agentic概述
AI Agents vs. Agentic AI: A Conceptual Taxonomy, Applications and Challenges
定义:AI Agents是执行特定任务的自主软件程序,而Agentic AI是多个AI代理协作以实现复杂目标的系统。
自主性水平:AI Agents在其特定任务内具有高自主性,而Agentic AI具有更高的自主性,能够管理多步骤、复杂的任务。
任务复杂性:AI Agents通常处理单一、特定的任务,而Agentic AI处理需要协作的复杂、多步骤任务。
协作:AI Agents独立运行,而Agentic AI涉及多智能体协作和信息共享。
学习和适应能力:AI Agents在特定领域内学习和适应,而Agentic AI在更广泛的范围和环境中学习和适应。
agent memory
自我进化系列:AlphaEvolve
LSTM之父22年前构想将成真?一周内AI「自我进化」论文集中发布,新趋势涌现?
打破56年数学铁律!谷歌AlphaEvolve自我进化实现算法效率狂飙,堪比AlphaGo“神之一手”
AlphaEvolve: A coding agent for scientific and algorithmic discovery
自我进化系列:Darwin Gödel Machine
Darwin Gödel Machine: Open-Ended Evolution of Self-Improving Agents
哥德尔机:Jürgen Schmidhuber数十年前提出的构想,让AI通过重写自身代码(包括负责学习的代码)来实现自我改进。当它在数学上证明存在更优策略时,它会通过递归地重写自身代码来优化问题解决方案,因此成为元学习(即「学会学习」)领域的核心概念。虽然理论上的哥德尔机能确保可证明的良性自我修改,但其实现依赖于一个不切实际的假设:AI必须能在数学上证明代码修改会带来净效益才会实施变更。
DGM利用达尔文进化等开放式算法的原理,逐步构建起一个不断扩增的智能体库。该系统通过交替执行自我修改与下游任务评估的方式,持续创建新智能体并对其进行评分。
自我进化系列:SRT
Can Large Reasoning Models Self-Train?
https://github.com/tajwarfahim/srt
自我奖励训练(Self-Rewarded Training,SRT)。该方法在强化学习训练期间,通过模型生成的多个解决方案之间的一致性来评估正确性,从而在没有标注数据的情况下提供自监督信号。
自我进化系列:MM-UPT
Unsupervised Post-Training for Multi-Modal LLM Reasoning via GRPO
https://github.com/waltonfuture/MM-UPT
在完全无监督场景下,通过强化学习框架 GRPO 实现多模态大模型的持续自我改进。无需任何外部监督信号或真实答案,使得模型可以基于自身的「共识」行为进行强化学习,从而实现持续的性能提升。
强化学习中的GRPO提供了稳定高效的在线策略优化能力;
多数投票可以在无标签数据上为模型输出生成伪标签,驱动自我优化。
流程:
给定一张图片和一个问题,模型生成多个候选回答;
使用多数投票选出出现频率最高的回答,作为当前输入的「伪标签」;
使用这个「伪标签」来计算 reward,引导模型根据 GRPO 策略更新;
自我进化系列:SEAL
LLM已能自我更新权重,自适应、知识整合能力大幅提升,AI醒了?
https://github.com/Continual-Intelligence/SEAL
一个包含两个嵌套循环的算法:
外部RL循环:生成候选的自编辑(self edit, SE)
内部更新循环:使用生成的自编辑通过梯度下降更新模型
ReasoningBank
「微调已死」再添筹码,谷歌扩展AI自我进化范式,成功经验与失败教训双向学习
ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory
用于智能体系统的创新记忆框架,从智能体自身判断的成功和失败经验中提炼并组织记忆项,无需真实标签。
Agentic Context Engineering
微调已死?Agentic上下文工程登场,无需微调实现模型进化
Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models
Early Experience
Agent Learning via Early Experience
deep research
local-deep-research
本地也能运行Deep Research!支持arXiv平台,兼容PDF、Markdown等
https://github.com/LearningCircuit/local-deep-research
CycleResearcher
ICLR 2025 | 真正「Deep」的「Research」,通过强化学习实现可自主进化的科研智能体来了!
CycleResearcher: Improving Automated Research via Automated Review
https://github.com/zhu-minjun/Researcher
Anthropic的research
https://www.anthropic.com/engineering/built-multi-agent-research-system
Kimi-Researcher
月之暗面「调教」出最强Agent,在「人类最后一场考试」拿下最新 SOTA
https://moonshotai.github.io/Kimi-Researcher/
传统agent开发存在如下问题:
基于工作流的系统(例如anthropic的link):流程固定,依赖于特定的llm版本,可扩展性和灵活性有限。
基于SFT的模仿学习(Imitation Learning):数据标注方面很难,尤其是在具有长时间跨度、动态环境中的智能体任务中。此外,SFT数据集通常与特定工具版本强耦合,即工具变了,泛化能力会下降。
端到端的智能体强化学习(agentic RL)训练的是能够整体性解决问题的单一模型:给定一个query,智能体会探索大量可能的策略,通过获得正确解答的奖励进行学习,并从整个决策轨迹中总结经验。挑战如下:
动态环境:即使面对相同的query,环境结果也可能随时间发生变化,智能体必须具备适应不断变化条件的能力。
长程任务:Kimi–Researcher每条轨迹可执行超过70次搜索查询,使用的上下文窗口长度甚至达数十万token。
数据稀缺:高质量的用于智能体问答的强化学习数据集非常稀缺,通过自动合成训练数据的方式解决这一问题。
执行效率:多轮推理和频繁工具调用可能导致训练效率低下,GPU资源利用不足,需要优化rollout效率。
Kimi–Researcher是一个自主的智能体与思维模型,旨在通过多步规划、推理和工具使用来解决复杂问题。它利用了三个主要工具:
并行的实时内部搜索工具
用于交互式网页任务的基于文本的浏览器工具
用于自动执行代码的编码工具
训练数据
将工具依赖性融入任务设计中:将任务提示刻意构造为必须调用特定工具才能解决。让智能体学会何时调用工具,以及在复杂的现实环境中如何高效协同使用多种工具。
整合了一批以推理为核心的任务:强化智能体的核心认知能力,以及其将推理与工具使用结合的能力:
数学与代码推理:逻辑推理、算法问题求解和序列计算。需要使用思维链+工具集一起解决。
高难度搜索:在上下文限制下进行多轮搜索、信息整合与推理,最终得出有效答案。
因此,做了如下几点:
开发了一条全自动数据生成与验证流程,可在极少人工干预下生成大量问答对,同时保证数据的多样性与准确性。
设计了GT(ground truth)提取方法,以尽可能确保每个问题都配有可靠的答案。
还设计了严格的过滤流程,以剔除歧义、不严谨或无效的问答对。包括引入Pass@N检查机制,确保仅保留具有挑战性的问题。
RL训练
用REINFORCE方法,
on-policy:训练时关闭了LLM的engine机制(例如强制toolcall格式等),保证每个序列都是llm自己根据其概率分布产出的
负采样控制:负样本会降低token概率,从而在训练rl的时候有entropy崩塌的风险。因此策略性地丢弃部分负样本,使模型能够在更长的训练周期中持续提升表现。
训练时用的是outcome rewards:
format reward:惩罚非法工具调用或者上下文超过最大限制的情况
correctness reward:比较模型答案和ground truth
还引入了gamma-decay,即第个step的reward是,其中是step数,。可以鼓励模型做出更高效更短的探索。即当两个序列都会有相同的最终reward时,更短的那个在开始时就能拿到更高reward。
context management
如果不做memory management,对于那种很长的research来讲,很容易在10轮内就超过最大长度限制。设计了一个context-management mechanism,让模型能够保留重要的信息,丢掉没什么用的文档,从而可以扩大到50轮。
大规模agent RL架构

Fully asynchronous rollout:实现了一个可扩展的类Gym接口的全异步rollout系统。server-base的架构能够高效并行地协调(orchestrate)智能体的轨迹生成、环境交互与奖励计算。相比同步系统消除了资源idle时间。
Turn-level Partial Rollout:在Agent RL训练中,大多数任务可在早期阶段完成,但仍有一小部分任务需要大量迭代。为解决这一长尾问题,超出时间预算的任务将被保存至 replay buffer,在后续迭代中以更新后的模型权重继续执行剩余部分。
鲁棒的沙盒环境:构建了统一的沙盒架构,在保持任务隔离性的同时,消除了容器间通信开销。基于Kubernetes的混合云架构实现了零停机调度(zero-downtime scheduling)与动态资源分配。Agent与工具之间通过MCP进行通信,支持有状态会话与断线重连功能。支持多副本部署,确保在生产环境中具备容错能力与高可用性。
智能体能力涌现
出现了一些值得关注的能力涌现
面对多来源信息冲突时,能通过迭代假设修正与自我纠错机制(hypothesis refinement and self-correction)来消除矛盾,逐步推导出一致且合理的结论。
展现出谨慎与严谨的行为模式:即便面对看似简单的问题,也会主动进行额外搜索,并交叉验证信息后再作答。
Tongyi-DeepResearch
通义DeepResearch震撼发布!性能比肩OpenAI,模型、框架、方案完全开源
https://github.com/Alibaba-NLP/DeepResearch
https://huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B
数据策略
增量预训练(CPT, continual pre-training)数据:
数据重组和问题构建:基于广泛收集和增量更新的文档、公开的爬虫数据、知识图谱、后训练产生的轨迹数据和工具调用返回结果(如搜索结果和网页访问记录)等,构建了一个以实体为锚定的开放世界知识记忆。然后,基于采样的实体和相关知识构造多风格的(问题,答案)对,以尽可能涵盖智能体所面临的真实场景。
动作合成:基于多风格问题和历史轨迹数据,构建了三种类型的动作数据:规划、推理和决策。能够在离线环境下大规模、全面地探索潜在的reasoning-action空间,从而消除了对额外商业工具API调用的需求。特别地,对于决策动作合成,该研究将轨迹重构为多步骤决策过程,以增强模型的决策能力。

后训练数据:
全自动的合成数据生成方案:从早期从点击流进行逆向工程的QA pair对的WebWalker(WebWalker: Benchmarking LLMs in Web Traversal),到更系统的基于图的合成的WebSailor(WebSailor: Navigating Super-human Reasoning for Web Agent和WebSailor-V2: Bridging the Chasm to Proprietary Agents via Synthetic Data and Scalable Reinforcement Learning),再到形式化的任务建模的WebShaper(WebShaper: Agentically Data Synthesizing via Information-Seeking Formalization),旨在全自动化生成超越人工标注质量的数据集,以挑战模型的能力极限。
生成能应对复杂问题的问答数据:
通过知识图谱随机游走和表格数据融合等方式,从真实网站数据中提取信息,保证数据结构的真实性。
再通过策略性地模糊或隐藏问题中的信息来增加难度。将问答难度建模为一系列可控的 “原子操作”,这样就可以系统性地提升问题的复杂度。
减少推理捷径:基于集合论对信息搜索问题进行了形式化建模,开发了能够以可控方式扩展问题的智能体,并最大限度地减少了推理捷径和结构冗余,进一步提升了问答系统的质量。
自动化数据引擎:
推理模式
训练
Universal Deep Research
Universal Deep Research: Bring Your Own Model and Strategy
https://github.com/NVlabs/UniversalDeepResearch
传统的deep research tool

Universal Deep Research,输入有strategy和prompt

context engineering
概述
季逸超亲述Manus构建之谜,一文读懂AI智能体的上下文工程
最后更新于
这有帮助吗?