github编辑

1.9.llm_others

泄露的系统提示词

https://github.com/asgeirtj/system_prompts_leaks/blob/main/OpenAI/gpt-5-thinking.mdarrow-up-right

语言物理学

(toread)

大模型边推理边纠错,有可能做到吗?这是ICML爆火的演讲arrow-up-right

https://www.bilibili.com/video/BV1Yw4m1k7nHarrow-up-right

蒸馏

ABKD

ICML Spotlight 2025丨追求概率质量的帕累托最优:基于广义α-β散度引导的知识蒸馏框架ABKDarrow-up-right

ABKD: Pursuing a Proper Allocation of the Probability Massin Knowledge Distillation via α-β-Divergencearrow-up-right

https://github.com/ghwang-s/abkdarrow-up-right

现有问题:

  • 前向KL:概率分配过于“佛系”,学生“雨露均沾”,难专注目标类

  • 反向KL:概率分配过于“内卷”,学生“死磕”高置信度类,忽略教师全局信息

ABKD引入α-β散度,统一前向/反向KL,并推广到此前未探索的海灵格距离和β-散度等。

LLM常见难题

LLM as a judge

A Survey on LLM-as-a-Judgearrow-up-right

Learning to Plan & Reason for Evaluation with Thinking-LLM-as-a-Judgearrow-up-right,meta的2025年1月的

重复生成

https://www.zhihu.com/question/616130636arrow-up-right

https://mp.weixin.qq.com/s/cSwWapqFhxu9zafzPUeVEwarrow-up-right

Interpreting the Repeated Token Phenomenon in Large Language Modelsarrow-up-right

deepmind的文章,发现和attention sink(初始token会有很高的attn score)有关,初始注意力层负责标记序列中的第一个单词,而后期的一些特定神经元则会放大这些标记单词的隐藏状态值。当处理重复单词时,这一机制会失效,导致模型行为异常。

https://github.com/yossigandelsman/attn_sinkholearrow-up-right

幻觉

综述

OpenAI Lilian Weng万字长文解读LLM幻觉:从理解到克服arrow-up-right

https://lilianweng.github.io/posts/2024-07-07-hallucination/arrow-up-right

语义熵

语义熵识破LLM幻觉!牛津大学新研究登Naturearrow-up-right

Detecting hallucinations in large language models using semantic entropyarrow-up-right

Zilliz

向量数据库的中场战事:长期主义者Zilliz如何全球突围arrow-up-right

记忆能力

Localizing Paragraph Memorization in Language Modelsarrow-up-right

对应代码:https://github.com/googleinterns/localizing-paragraph-memorizationarrow-up-right

我们能否定位出语言模型中用于记忆其训练数据中整段文字的权重和机制?

  • 尽管记忆现象分布在模型的多个层级和组件中,但记忆段落的梯度在空间上有可辨别的模式,即在较低模型层级的梯度比非记忆example的梯度大

  • 通过仅微调高梯度的权重,可以使模型遗忘记忆的example

  • 定位了一个特别参与段落记忆的低层注意力头,它主要关注在语料库级单词频率分布中最不频繁出现的独特、罕见的token

  • 总的来说,相较非记忆的续写,记忆续写不仅更难以遗忘,也更难以损坏

reasoning

Reasoning or Reciting? Exploring the Capabilities and Limitations of Language Models Through Counterfactual Tasksarrow-up-right MIT的

Do Large Language Models Latently Perform Multi-Hop Reasoning?arrow-up-right deepmind的

How do Language Models Bind Entities in Context?arrow-up-right UC berkeley的,ICLR2024

memorizing

Knowledge Neurons in Pretrained Transformersarrow-up-right ACL 2022

Language Modeling Is Compressionarrow-up-right ICLR 2024 deepmind

Memorization Without Overfitting: Analyzing the Training Dynamics of Large Language Modelsarrow-up-right meta NeurIPS 2022

越狱

长文本之罪:Claude团队新越狱技术,Llama 2到GPT-4无一幸免arrow-up-right

LLM compiler

开发者狂喜!Meta最新发布的LLM Compiler,实现77%自动调优效率arrow-up-right

Meta Large Language Model Compiler: Foundation Models of Compiler Optimizationarrow-up-right

ProLong

2024 年了,你的长文本训练数据真的够长吗?arrow-up-right

Long Context is Not Long at All: A Prospector of Long-Dependency Data for Large Language Modelsarrow-up-right

https://github.com/October2001/ProLongarrow-up-right

白化

在 transformer 领域里,“白化”(whitening)主要是指一种对句子嵌入进行后处理的方法,通过将句子向量的均值变为0,并将协方差矩阵变为单位矩阵,从而解决句子嵌入中的各向异性问题。这种技术能够提高句子嵌入在语义相似性任务中的表现,并且加快检索速度。

Whitening Sentence Representations for Better Semantics and Faster Retrievalarrow-up-right

代码:https://github.com/bojone/BERT-whiteningarrow-up-right

Transformer Scale Gate for Semantic Segmentationarrow-up-right

蒸馏

Revisiting Knowledge Distillation for Autoregressive Language Modelsarrow-up-right

Meta开发System 2蒸馏技术,Llama 2对话模型任务准确率接近100%arrow-up-right

Distilling System 2 into System 1arrow-up-right

证明者-验证者博弈

OpenAI超级对齐团队遗作:两个大模型博弈一番,输出更好懂了arrow-up-right

Prover-Verifier Games improve legibility of LLM outputsarrow-up-right

参考:Learning to Give Checkable Answers with Prover-Verifier Gamesarrow-up-right

道德风险

GPT-4o模仿人类声音,诡异尖叫引OpenAI研究员恐慌!32页技术报告出炉arrow-up-right

openai的报告:GPT-4o System Cardarrow-up-right

之前deepmind也有一个报告The Ethics of Advanced AI Assistantsarrow-up-right

选择性偏差

ACL2024|大模型选择偏差在腾讯广告特征评测上的优化及应用arrow-up-right

Strengthened Symbol Binding Makes Large Language Models Reliable Multiple-Choice Selectorsarrow-up-right

给定一个问题(question)及其对应的选项内容(options),大模型无法把选项内容(option content)和对应的选项标识符(symbol,特指选项标识A/B/C/D)关联到一起。例如,当把正确答案"the president"放到选项B时,模型能够正确选择出答案;当我们把正确答案放到C时,模型依然选择"B",即模型偏向于选"B"或者第二个答案,而忽略了正确答案的内容。

lost in the middle

Lost in the Middle: How Language Models Use Long Contextsarrow-up-right

reasoning boundary

NeurIPS 2024 (Oral) | 如何量化与提升思维链的推理能力边界?arrow-up-right

Unlocking the Capabilities of Thought: A Reasoning Boundary Framework to Quantify and Optimize Chain-of-Thoughtarrow-up-right

https://github.com/LightChen233/reasoning-boundaryarrow-up-right

语言≠思维

语言≠思维,大模型学不了推理:一篇Nature让AI社区炸锅了arrow-up-right

https://www.nature.com/articles/s41586-024-07522-warrow-up-right

一些其他比较重要的工作

几篇出现频率比较高的论文

Scaling instruction-finetuned language modelsarrow-up-right 引用数800+

How can we know what language models know?arrow-up-right 引用数800+

Chain of thought prompting elicits reasoning in large language modelsarrow-up-right引用1800+

Anthropic的一些工作

Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedbackarrow-up-right

Studying Large Language Model Generalization with Influence Functionsarrow-up-right

Measuring Faithfulness in Chain-of-Thought Reasoningarrow-up-right

从Claude 3中提取数百万特征,首次详细理解大模型的「思维」arrow-up-right

Scaling Dictionary Learning to Claude 3 Sonnetarrow-up-right

LLM惊现篡改代码获得奖励,欺骗人类无法根除逆转!Anthropic新作揭露惊人真相arrow-up-right

SYCOPHANCY TO SUBTERFUGE: INVESTIGATING REWARD TAMPERING IN LANGUAGE MODELSarrow-up-right

个性化搜索

随便找一篇Denoising Attention for Query-aware User Modeling in Personalized Searcharrow-up-right,来看看它的参考文献:

学术界:

工业界:

q-i双塔的改进

引入location+social

Embedding-based Retrieval in Facebook Searcharrow-up-right,KDD20

q-d双塔结构,在两个塔的最底层均加入:

  • location:用户所处地理位置,如城市

  • social:facebook是社交网络,通过另一个基于graph的模型训练得到的user和item emb,直接加进来

引入用户行为序列

Encoding History with Context-aware Representation Learning for Personalized Searcharrow-up-right,sigir20,人大,提出HTPS

htps-disambiguate-query

把用户历史的q-d pair对和当前query一起,过短期transformer和长期transformer得到输出qlq^l

htps-predict-intent

qlq^l加上[mask],过transoformer得到预估的intent qpq^p

然后将qlq^lqpq^p通过gate nn融合得到最终的context-aware的query表示qfq^f

最终doc和query的打分包括两部分,通过ϕ\phi(一个MLP,激活是tanh)进行融合:

p(dq,H)=ϕ(p(d,q),p(d,qH))p(d \mid q, H)=\phi\left(p(d, q), p\left(d, q^H\right)\right)
  • p(d,q)p(d, q):q和d的语义相似度,可以用正常的nlp模型得到

  • p(d,qH)p\left(d, q^H\right):q和d的个性化得分,公式如下,其中sRs^R是cos:

p(d,qH)=ϕ(sR(qs,dw),sR(ql,dw),sR(qp,dw),sR(qf,dw))p\left(d, q^H\right)=\phi\left(s^R\left(q^s, d^w\right), s^R\left(q^l, d^w\right), s^R\left(q^p, d^w\right), s^R\left(q^f, d^w\right)\right)

有两个loss:

  • pred loss:预估intent,即下一个query,拿qpq^p与下一个query中各个词向量的avg算cos

  • rank loss:依据p(dq,H)p(d \mid q, H)算lambda rank的pairwise loss

三塔+gnn邻居+mtl

A GNN-based Multi-task Learning Framework for Personalized Video Searcharrow-up-right,WSDM22,百度,提出MGNN-PVS

现有的PSM(g personalized search methods)大多使用用户反馈(如点击)进行训练,缺点:

  • 反馈信号大部分表达的是吸引力而非相关性

  • 用户的历史信号比较稀疏,很难学好PSM

两张二部图:u-q和q-d

gnn-personalized-video-search

3个塔:

  • user:

    • user自己

    • 一跳邻居(u->q)的q

    • 二跳邻居(u->q->u)的u

  • query:

    • query自己

    • 一跳邻居(q->d)的doc

    • 二跳邻居(q->d->q)的query

  • doc:

    • doc自己的title向量(训练query-正title-负title的triplet loss)和video向量(训练video-正query-负query的triplet loss)

    • 二跳邻居(d->q->d)的doc

两个task:

  • ctr预估:u和q拼一起过nn得到个性化的q,再和d过nn得到的向量算内积,得到预估值,用交叉熵

  • 相关性预估:q过另一个nn,d过另一个nn,内积,用mse

LLM模型融合

https://github.com/arcee-ai/mergekitarrow-up-right

SOLAR 10.7B: Scaling Large Language Models with Simple yet Effective Depth Up-Scalingarrow-up-right

LLM 合并新思路:进化算法+零训练->新任务arrow-up-right

Evolutionary Optimization of Model Merging Recipesarrow-up-right

https://github.com/SakanaAI/evolutionary-model-mergearrow-up-right

LLM auto-ml

LLaMA-NAS

用神经架构搜索给LLM瘦身,模型变小,准确度有时反而更高arrow-up-right

LLaMA-NAS: Efficient Neural Architecture Search for Large Language Modelsarrow-up-right

SELA

MetaGPT开源SELA,用AI设计AI,效果超越OpenAI使用的AIDEarrow-up-right

SELA: Tree-Search Enhanced LLM Agents for Automated Machine Learningarrow-up-right

https://github.com/geekan/MetaGPT/tree/main/metagpt/ext/selaarrow-up-right

可解释AI

XAI有什么用?探索LLM时代利用可解释性的10种策略arrow-up-right

Usable XAI: 10 Strategies Towards Exploiting Explainability in the LLM Eraarrow-up-right

https://github.com/JacksonWuxs/UsableXAI_LLMarrow-up-right

综述

可解释性终极追问,什么才是第一性解释?20篇CCF-A+ICLR论文给你答案arrow-up-right

TransformerLens

Neel Nanda(deepmind)的项目

https://transformerlensorg.github.io/TransformerLens/arrow-up-right

ecco

https://www.eccox.io/arrow-up-right

https://jalammar.github.io/explaining-transformers/arrow-up-right

https://jalammar.github.io/hidden-states/arrow-up-right

interpretability in the wild

Interpretability in the Wild: a Circuit for Indirect Object Identification in GPT-2 smallarrow-up-right

https://github.com/redwoodresearch/Easy-Transformerarrow-up-right

activation engineering

Activation Addition: Steering Language Models Without Optimizationarrow-up-right

representation engineering

Representation Engineering: A Top-Down Approach to AI Transparencyarrow-up-right

transformer-debugger

https://github.com/openai/transformer-debugger/tree/mainarrow-up-right

painter

八问八答搞懂Transformer内部运作原理arrow-up-right

Transformer Layers as Paintersarrow-up-right

transformer explainer

黑匣子被打开了!能玩的Transformer可视化解释工具,本地运行GPT-2、还可实时推理arrow-up-right

TRANSFORMER EXPLAINER: Interactive Learning of Text-Generative Modelsarrow-up-right

http://poloclub.github.io/transformer-explainer/arrow-up-right

https://bbycroft.net/llmarrow-up-right

superposition

Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnetarrow-up-right

3Blue1Brown

用最直观的动画,讲解LLM如何存储事实,3Blue1Brown的这个视频又火了arrow-up-right

https://www.youtube.com/watch?v=9-Jl0dxWQs8arrow-up-right

Monitor

他们掰开神经元,终于让大模型9.8大于9.11了:神秘创业公司,开源AI「洗脑」工具arrow-up-right

https://transluce.org/observability-interfacearrow-up-right

https://monitor.transluce.org/dashboard/chatarrow-up-right

llm反思

ACL 2025|自我怀疑还是自我纠正?清华团队揭示LLMs反思技术的暗面arrow-up-right

Understanding the Dark Side of LLMs’ Intrinsic Self-Correctionarrow-up-right

反思失败的原因:

  • 内部答案波动:在多轮问答任务上,「你确定吗?请思考后再回答」的提示语会让LLMs反复更改答案。说明反思技术会造成LLMs内部答案的波动,表现出「自我怀疑」的倾向,最终可能导致回答出错

  • prompt偏差:LLMs在反思失败时会过度关注提示语「你确定吗?想一想再回答。」,而忽略问题本身;当反思失败时,LLMs在76.1%的情况下会更关注反思指令,而当坚持正确答案时,LLMs对反思指令和问题本身的关注度非常相近,分别为50.8%和49.2%。

  • 认知偏差:

    • 过度思考:过度制定策略而不采取行动

    • 认知过载:在长文本的反思中忽略关键信息

    • 完美主义偏差:为了追求高效性而忽略环境限制

反思失败的缓解方法:

  • 问题重复:在反思prompt的最后附上初始问题以引导LLMs维持对初始问题的关注。

  • 少样本微调:不引入知识的少样本(4-10 个样本)微调可纠正反思失败的异常行为。

sparse circuits

OpenAI新论文拆解语言模型内部机制:用「稀疏电路」解释模型行为arrow-up-right

OpenAI又Open了一下:发布可解释性新研究,作者来自Ilya超级对齐团队arrow-up-right

Weight-sparse transformers have interpretable circuitsarrow-up-right

自省

LLM 比之前预想的更像人类,竟也能「三省吾身」arrow-up-right

Looking Inward: Language Models Can Learn About Themselves by Introspectionarrow-up-right

LLM+芯片设计

登上Nature的AI芯片设计屡遭质疑,谷歌发文反击,Jeff Dean:质疑者连预训练都没做arrow-up-right

That Chip Has Sailed: A Critique of Unfounded Skepticism Around AI for Chip Designarrow-up-right

其他

安全性

Anthropic安全负责人:在超级AI「毁灭」人类之前,我们可以做这些准备arrow-up-right

OpenAI最新53页论文:ChatGPT看人下菜碟,对“小美”比“小帅”更友好arrow-up-right

First-Person Fairness in Chatbotsarrow-up-right

翁荔B站分享原文:AI安全与“培养”之道arrow-up-right

time-LLM

谁说大象不能起舞! 重编程大语言模型实现跨模态交互的时序预测 | ICLR 2024arrow-up-right

Time-LLM: Time Series Forecasting by Reprogramming Large Language Modelsarrow-up-right

https://github.com/KimMeen/Time-LLMarrow-up-right

时序预测任务转换成一个可以由 LLMs 有效解决的语言任务,成功激活了llm做高精度时序推理的能力。

  • 时序输入重编程

  • 提示做前缀

长尾

A Systematic Review on Long-Tailed Learningarrow-up-right

文本匹配效果还行的模型

大多是基于sentence-bert的,m3e-base在电商语料上试过,效果不错

https://huggingface.co/moka-ai/m3e-basearrow-up-right

https://huggingface.co/shibing624/text2vec-base-chinesearrow-up-right

本地知识库

https://github.com/chatchat-space/Langchain-Chatchatarrow-up-right

llm应用合辑

swiftsage

大语言模型在开放世界中的推理能力探索实践arrow-up-right

SwiftSage: A Generative Agent with Fast and Slow Thinking for Complex Interactive Tasksarrow-up-right

达摩院大模型技术交流

https://developer.aliyun.com/live/248332arrow-up-right

ppt:链接arrow-up-right 密码:5yyf

回译

通过单语数据提升 NMT 模型最高效的方法之一是回译(back-translation)。如果我们的目标是训练一个英语到德语的翻译模型,那么可以首先训练一个从德语到英语的翻译模型,并利用该模型翻译所有的单语德语数据。然后基于原始的英语到德语数据,再加上新生成的数据,我们就能训练一个英语到德语的最终模型。

Understanding Back-Translation at Scalearrow-up-right

nan问题

解决pytorch半精度amp训练nan问题arrow-up-right

时间序列

LLM用于时序预测真的不行,连推理能力都没用到arrow-up-right

Are Language Models Actually Useful for Time Series Forecasting?arrow-up-right

人脑

MIT大牛新作震惊学界!AI「长脑子」了?LLM惊现「人类脑叶」结构并有数学代码分区arrow-up-right

The Geometry of Concepts: Sparse Autoencoder Feature Structurearrow-up-right

LLM for 算法设计

调研180多篇论文,这篇综述终于把大模型做算法设计理清了arrow-up-right

A Systematic Survey on Large Language Models for Algorithm Designarrow-up-right

深度生成模型课程

教授何恺明在MIT的第二门课——《深度生成模型》,讲座PPT陆续已出arrow-up-right

https://mit-6s978.github.io/schedule.htmlarrow-up-right

https://mit-6s978.github.io/assets/pdfs/lec1_intro.pdfarrow-up-right

https://mit-6s978.github.io/assets/pdfs/lec2_vae.pdfarrow-up-right

https://mit-6s978.github.io/assets/pdfs/lec3_ar.pdfarrow-up-right

https://mit-6s978.github.io/assets/pdfs/lec4_gan.pdfarrow-up-right

https://mit-6s978.github.io/assets/pdfs/lec5_diffusion.pdfarrow-up-right

时序db

influxdb

https://github.com/influxdata/influxdbarrow-up-right

https://jasper-zhang1.gitbooks.io/influxdb/content/Introduction/getting_start.htmlarrow-up-right

其他

原来,这些顶级大模型都是蒸馏的arrow-up-right

Distillation Quantification for Large Language Modelsarrow-up-right

小模型性能饱和、表现不佳,根源是因为Softmax?arrow-up-right

Why do small language models underperform? Studying LM Saturation via the Softmax Bottleneckarrow-up-right

Ilya Sutskever的推荐清单arrow-up-right

传说中Ilya Sutskever精选论文清单:AI领域40大论文完整版「破解」完成arrow-up-right

2024年大模型LLM还有哪些可研究的方向?arrow-up-right

Hinton万字访谈:用更大模型「预测下一个词」值得全力以赴arrow-up-right

ChatGPT如何「思考」?心理学和神经科学破解AI大模型,Nature发文arrow-up-right

适应多形态多任务,最强开源机器人学习系统「八爪鱼」诞生arrow-up-right

Octo: An Open-Source Generalist Robot Policyarrow-up-right

LeCun新作:神经网络在实践中的灵活性到底有多大?arrow-up-right

Just How Flexible are Neural Networks in Practice?arrow-up-right

清华包揽最佳论文+时间检验奖,山大获荣誉提名,SIGIR 2024奖项出炉arrow-up-right

https://zhuanlan.zhihu.com/p/654910335arrow-up-right

一些记录

打印模型参数量

https://stackoverflow.com/questions/49201236/check-the-total-number-of-parameters-in-a-pytorch-modelarrow-up-right

往现有tokenizer里加一些特殊token

https://stackoverflow.com/questions/69191305/how-to-add-new-special-token-to-the-tokenizerarrow-up-right

示例

python的读写锁

一个写,多个并行读:https://pypi.org/project/readerwriterlock/arrow-up-right

pytorch的显存泄露

https://github.com/pytorch/pytorch/issues/13246#issuecomment-445770039arrow-up-right

torch profiling

https://pytorch.org/tutorials/recipes/recipes/profiler_recipe.htmlarrow-up-right

可以拿这个来可视化:https://ui.perfetto.dev/arrow-up-right

  • 点击open trace file上传json文件

  • timeline中有两个python进程,点击cuda kernel会出现箭头,方便找到是哪个op调用了该kernel

    • 靠上的python进程是host侧进程(主要是用户代码中调用的一些API/pytorch op,能比较方便能和训练代码对应上)

    • 靠下的python进程是device(gpu)侧进程(记录实际cuda kernel 的执行和一些性能相关的数据)

device timeline比较稀疏的情况下训练性能较差,GPU利用率较低,可能需要排查下训练代码是否有问题

显存泄露排查

https://pytorch.ac.cn/docs/stable/torch_cuda_memory.htmlarrow-up-right

https://pytorch.org/blog/understanding-gpu-memory-1/arrow-up-right

https://pytorch.org/blog/understanding-gpu-memory-2/arrow-up-right

检查显存

同时profile cpu和显存

各型号gpu对比

https://zhuanlan.zhihu.com/p/441153412arrow-up-right

查看python的栈

打出来:

国内的huggingface模型下载地址

https://hf-mirror.com/arrow-up-right

一些报错的解法

flash-attention2

https://github.com/Dao-AILab/flash-attention/issues/451arrow-up-right

GPU机型对比

一些问题和经验

坍缩(稳定召回那k个item),attention score太集中了,低秩特征(泛化特征)容易导致这个问题

看attention score的分布,如果第一层偏向target item,但第二层可能就很平均了,这种可能就释放不出收益,应该是没学好

auc离线有收益,在线没收益:

  • reload正确性,warmup有没有报错

  • nn的分发效率,20min降到x min,压缩、解压耗时

  • 学习充分性:发现ab开得更久的时候,就看到收益了。。

    • 累积梯度太小的 不充分

    • 历史样本变多

    • 多epoch(参考快手 阿里的一些做法,例如reset emb等)

    • 加一些辅助loss,例如生成式、蒸馏

  • 出nan:bf16转化等问题,加一些grad clip,norm等

最后更新于