github编辑

1.6.llm_multimodal

多模态(基础)

扩散模型总结

近500页史上最全扩散模型修炼宝典,宋飏等人一书覆盖三大主流视角arrow-up-right

The Principles of Diffusion Models: From Origins to Advancesarrow-up-right

VLM导论

视觉语言模型导论:这篇论文能成为你进军VLM的第一步arrow-up-right

An Introduction to Vision-Language Modelingarrow-up-right

vilbert

ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasksarrow-up-right

研究人员提出了一种名为 ViLBERT(图文 BERT)模型。这是一个可以学习任务未知的、图像内容和自然语言联合表征的模型。研究人员将流行的 BERT 架构扩展成一个 multi-modal two-stream 模型上。在这个模型上,模型用两个分开的流处理图像和文本输入,但他们彼此用联合注意力层交互。研究人员在两个代理任务上,使用 Conceptual Captions 数据集(数据集很大,而且是自动收集的数据)预训练这个模型,然后将模型秦阿姨到多个建立好的图像-文本任务上。这些任务包括图像问答、图像常识推理、引述表达、指称成分,以及基于捕捉的图像提取。这些只需要在基本架构上进行微小的补充。研究人员观察到,相比现有的针对任务的特定模型,新模型在这些任务上都有了相助的性能提升——在每个任务上都取得了 SOTA。

VLbert

Visual-Linguistic BERT,简称 VL-BERT

微软亚研提出VL-BERT:通用的视觉-语言预训练模型arrow-up-right

此预训练过程可以显著提高下游的视觉-语言任务的效果,包含视觉常识推理、视觉问答与引用表达式理解等。值得一提的是,在视觉常识推理排行榜中,VL-BERT 取得了当前单模型的最好效果。

VL-BERT: Pre-training of Generic Visual-Linguistic Representationsarrow-up-right

之前的视觉-语言模型分别使用计算机视觉或自然语言处理领域中的预训练模型进行初始化,但如果目标任务数据量不足,模型容易过拟合从而损失性能。并且对于不同的视觉-语言任务,其网络架构一般是经过特殊设计的,由此很难通过视觉-语言联合预训练的过程帮助下游任务。

VL-BERT 的主干网络使用 TransformerAttention 模块,并将视觉与语言嵌入特征作为输入,其中输入的每个元素是来自句子中的单词、或图像中的感兴趣区域(Region of Interests,简称 RoIs)。在模型训练的过程中,每个元素均可以根据其内容、位置、类别等信息自适应地聚合来自所有其他元素的信息。在堆叠多层 TransformerAttention 模块后,其特征表示即具有更为丰富的聚合与对齐视觉和语言线索的能力。

为了更好地建模通用的视觉-语言表示,作者在大规模视觉-语言语料库中对 VL-BERT 进行了预训练。采用的预训练数据集为图像标题生成数据集,Conceptual Captions,其中包含了大约 330 万个图像标题对。

VL-BERT 的预训练主要采用三个任务:

  • 屏蔽语言模型(Masked Language Modeling),即随机屏蔽掉语句中的一些词,并预测当前位置的词是什么;

  • 屏蔽 RoI 分类(MaskedRoIClassification),即随机屏蔽掉视觉输入中的一些 RoIs,并预测此空间位置对应 RoI 的所属类别;

  • 图像标题关联预测(Sentence-Image Relationship Prediction),即预测图像与标题是否属于同一对。

在预训练结束后,使用微调来进行下游任务的训练。本文中主要在三个视觉-语言下游任务中进行微调,即视觉常识推理(VisualCommonsenseReasoning)、视觉问答(VisualQuestionAnswering)与引用表达式理解(ReferringExpressionComprehension),下面将分别介绍。

视觉常识推理任务即给定图片与相关问题,机器不仅需要回答问题,还需要提供理由来证明答案的正确性。此任务(Q->AR)被分解为两个子任务,即视觉问答(Q->A,给定图片与问题,输出正确答案),以及视觉推理(QA->R,给定图片、问题与答案,输出正确的理由)。

CLIP系列

cn-clip

Chinese CLIP: Contrastive Vision-Language Pretraining in Chinesearrow-up-right

https://github.com/OFA-Sys/Chinese-CLIParrow-up-right

BEiT系列

BEiT

BEIT: BERT Pre-Training of Image Transformersarrow-up-right

BEiT v2

BEIT V2: Masked Image Modeling with Vector-Quantized Visual Tokenizersarrow-up-right

BEiT v3

Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasksarrow-up-right

ViT&Swin-Transformer

SwinTransformer与Vit细节总结arrow-up-right

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scalearrow-up-right

对于一张224×224×3224\times 224\times 3的图像,假设每个patch是16×1616\times 16,那就分成224×22416×16=196\frac{224\times 224}{16\times 16}=196个patch(即seq_length=196seq\_length=196),每个patch的维度是16×16×3=76816\times 16\times 3=768,最后加上[CLS]这个token,就是seq_length=197seq\_length=197

像素tokenizer

Meta新研究挑战CV领域基操:ViT根本不用patch,用像素做token效果更佳arrow-up-right

An Image is Worth More Than 16x16 Patches: Exploring Transformers on Individual Pixelsarrow-up-right

stable diffusion

High-Resolution Image Synthesis with Latent Diffusion Modelsarrow-up-right

stable-diffusion
  • 输入图像,经过编码器得到z,z通过前向扩散不断加噪声得到zTz_T(正向扩散)

  • 输入条件,经过条件编码器(原文是BERT,到了DALL-E2就改成CLIP了)得到τθ\tau_\theta

  • zTz_Tτθ\tau_\theta的指导下不断去噪(反向扩散),得到新的zz,再通过解码器得到最终生成的图像

其中的正向扩散和反向扩散一般用U-Net

代码库:https://github.com/CompVis/latent-diffusion/tree/mainarrow-up-right

粗略看了下代码,带condition的训练原理大概是训练语料中有图+文本(例如imagenet的class_label,这里可以映射到一个classid也可以直接拿明文),然后condition和图片一起作为输入去训练auto-eocnder和ldm

/latent-diffusion/ldm/data/imagenet.py这个代码里,把class_label加进来了

stable diffusion 3

Stable Diffusion 3论文终于发布,架构细节大揭秘,对复现Sora有帮助?arrow-up-right

DALL-E系列

DALL-E3:

Improving Image Generation with Better Captionsarrow-up-right

现有的文本->图像模型面临的一个基本问题是:训练数据集中的文本-图像pair对中的文本质量较差

  • 学习一个图像文本生成器,可以生成详细、准确的图像描述

  • 将此文本生成器应用到数据集以生成更详细的文本

  • 在改进的数据集上训练文本 - 图像模型

videobert

通过未标记视频进行跨模态时间表征学习arrow-up-right

VideoBERT: A Joint Model for Video and Language Representation Learningarrow-up-right,VideoBert模型。

video caption

Tarsier: Recipes for Training and Evaluating Large Video Description Modelsarrow-up-right

tarsier

视频tokenizer方法

先看vq的改进版:

Finite Scalar Quantization: VQ-VAE Made Simplearrow-up-right提出了fsq,码本大小是C=Ld|C|=L^d

magvit-v2提出了LFQ,也优化了vq-vae

BSQ:Image and Video Tokenization with Binary Spherical Quantizationarrow-up-right

bsq-vq-lfq
bsq-fsq-lfq

claude-2-100k的回答。。

  • MAGVIT: Masked Generative Video Transformerarrow-up-right:使用了3D向量量化(3D VQ)自动编码器来将视频量化为离散token

    • 设视频VVTT帧,其形状为T×H×W×3T \times H \times W \times 3

    • 3D VQ编码器fTf_T会把视频量化为一个token序列zz,其中zZTz\in Z^T,ZZ是码本,TT是token序列长度。

    • 3D VQ解码器fT1f^{-1}_T则可以从latent token zz重构回视频像素。

  • Genie: Generative Interactive Environmentsarrow-up-right:使用了2D向量量化(2D VQ)方法

    • 每一帧图像I先通过一个2D VQ编码器f编码为一个token序列zz,其中zZNz\in Z^N,ZZ是2D码本。

    • 然后,对时间序列上的token z1,z2,...,zTz_1, z_2,..., z_T应用一个1D卷积网络,以捕获时间信息。

    • 再通过2D VQ解码器f1f^{-1}解码回每一帧图像。

  • Vivit: A video vision transformerarrow-up-right:使用tubelet-embedding

    • 均匀地在时间轴上抽样ntn_t个帧,然后把每帧处理成nh×nwn_h \times n_w个patch,最终把所有patch连接起来

SAM系列

可以看这个demo,https://github.com/facebookresearch/segment-anything/blob/main/notebooks/predictor_example.ipynbarrow-up-right,输入的可以是一个或者多个点(以及每个点是0还是1,即是否mask),也可以是一个或者多个box。例如输入的点在车窗里,那输出的mask就是当前这个车窗(置信度最高),多个车窗(置信度次之)、整辆车(置信度更低);例如输入两个点,一个在车窗里(label是1),一个是车门(label是0),那输出的mask就是整个车窗,没有车门。

RAE

VAE时代终结?谢赛宁团队「RAE」登场,表征自编码器或成DiT训练新基石arrow-up-right

Diffusion Transformers with Representation Autoencodersarrow-up-right

https://github.com/bytetriper/RAEarrow-up-right

挑战了一个普遍的假设,即像DINOv2和SigLIP2这类预训练表征编码器不适合重建任务,因为它们“强调高层语义,而忽略了底层细节” 。

该研究证明,只要解码器训练得当,冻结的表征编码器实际上可以作为扩散潜在空间的强大编码器。RAE将冻结的预训练表征编码器与一个基于ViT的解码器配对,其重建效果与SD-VAE相当甚至更优。

原来的SD-VAE把256×256256\times 256的图像压缩到32×32×432\times 32\times 4的潜在表征,限制了重建的保真度,也限制了表征的质量。

假设输入图片是3×H×W3\times H\times W,patch大小为pep_e,隐层大小为dd,那就是把原图像转成N=HW/pe2N=HW/p_{e}^2个token,每个token有dd个通道,先过一个预训练好的freeze的编码器,然后过DiT,输出再过一个解码器,patch大小为pdp_d,变回3×Hpdpe×Wpdpe3 \times H \frac{p_d}{p_e} \times W \frac{p_d}{p_e},一般设置pd=pep_d=p_e,让输出和原图分辨率匹配

只训练解码器,loss和vae一样:

z=E(x),x^=D(z)Lrec (x)=ωLLPIPS(x^,x)+L1(x^,x)+ωGλGAN(x^,x)\begin{gathered} z=E(x), \hat{x}=D(z) \\ \mathcal{L}_{\text {rec }}(x)=\omega_L \operatorname{LPIPS}(\hat{x}, x)+\mathrm{L} 1(\hat{x}, x)+\omega_G \lambda \operatorname{GAN}(\hat{x}, x) \end{gathered}

多模态(图像)

【IEEE Fellow何晓东&邓力】多模态智能论文综述:表示学习,信息融合与应用,259篇文献带你了解AI热点技arrow-up-right

Multimodal Intelligence: Representation Learning, Information Fusion, and Applicationsarrow-up-right

BERT在多模态领域中的应用arrow-up-right

PALM-E

PaLM-E: An Embodied Multimodal Language Modelarrow-up-right

InstantID

InstantID: Zero-shot Identity-Preserving Generation in Secondsarrow-up-right

https://github.com/InstantID/InstantIDarrow-up-right

小红书开源「InstantID」效果炸裂,迅速蹿上Github热榜arrow-up-right

用户只需上传一张照片,就能轻松定制出多种风格的 AI 写真

InstantID

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源arrow-up-right

InstantStyle: Free Lunch towards Style-Preserving in Text-to-Image Generationarrow-up-right

https://github.com/InstantStyle/InstantStylearrow-up-right

VAR

GPT超越扩散、视觉生成Scaling Law时刻!北大&字节提出VAR范式arrow-up-right

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Predictionarrow-up-right

https://github.com/FoundationVision/VARarrow-up-right

cobra

首个基于Mamba的MLLM来了!模型权重、训练代码等已全部开源arrow-up-right

Cobra: Extending Mamba to Multi-Modal Large Language Model for Efficient Inferencearrow-up-right

https://github.com/h-zhao1997/cobraarrow-up-right

Hyper-SD

加速扩散模型,最快1步生成SOTA级图片,字节Hyper-SD开源了arrow-up-right

Hyper-SD: Trajectory Segmented Consistency Model for Efficient Image Synthesisarrow-up-right

TextSquare

8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquarearrow-up-right

TextSquare: Scaling up Text-Centric Visual Instruction Tuningarrow-up-right

neural network diffusion

用扩散模型生成网络参数,LeCun点赞尤洋团队新研究arrow-up-right

Neural Network Diffusionarrow-up-right

https://github.com/NUS-HPC-AI-Lab/Neural-Network-Diffusionarrow-up-right

hunyuan-dit

首个中文原生DiT架构!腾讯混元文生图大模型全面开源,免费商用arrow-up-right

lumina-t2x

DiT架构大一统:一个框架集成图像、视频、音频和3D生成,可编辑、能试玩arrow-up-right

Lumina-T2X: Transforming Text into Any Modality, Resolution, and Duration via Flow-based Large Diffusion Transformersarrow-up-right

https://github.com/Alpha-VLLM/Lumina-T2Xarrow-up-right

https://huggingface.co/Alpha-VLLM/Lumina-T2I/tree/mainarrow-up-right

Vision-LSTM

原作者带队,LSTM卷土重来之Vision-LSTM出世arrow-up-right

Vision-LSTM: xLSTM as Generic Vision Backbonearrow-up-right

https://nx-ai.github.io/vision-lstm/arrow-up-right

CSR

零成本突破多模态大模型瓶颈!多所美国顶尖高校华人团队,联合推出自增强技术CSRarrow-up-right

Calibrated Self-Rewarding Vision Language Modelsarrow-up-right

https://github.com/YiyangZhou/CSRarrow-up-right

ManyICL

吴恩达团队新作:多模态多样本上下文学习,无需微调快速适应新任务arrow-up-right

Many-Shot In-Context Learning in Multimodal Foundation Modelsarrow-up-right

MAR

何恺明新作再战AI生成:入职MIT后首次带队,奥赛双料金牌得主邓明扬参与arrow-up-right

Autoregressive Image Generation without Vector Quantizationarrow-up-right

VCR

Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点arrow-up-right

VCR: Visual Caption Restorationarrow-up-right

https://github.com/tianyu-z/VCRarrow-up-right

EVE

抛弃视觉编码器,这个「原生版」多模态大模型也能媲美主流方法arrow-up-right

Unveiling Encoder-Free Vision-Language Modelsarrow-up-right

https://github.com/baaivision/EVEarrow-up-right

LC-Mis

AI画家的「滑铁卢」:为什么冰可乐不愿意住进茶杯里?arrow-up-right

Lost in Translation: Latent Concept Misalignment in Text-to-Image Diffusion Modelsarrow-up-right

多模态cot

ACL 2024 Oral|我们离真正的多模态思维链推理还有多远?arrow-up-right

Imagen 3

Imagen 3arrow-up-right

Imagen 3支持人物生成,人人可用!谷歌Gemini AI重大升级来了arrow-up-right

https://deepmind.google/technologies/imagen-3/arrow-up-right

Chameleon

下面3个工作都在这里有介绍:生成-理解大一统:一文浅谈多模态大模型最新研究进展arrow-up-right

Meta首发「变色龙」挑战GPT-4o,34B参数引领多模态革命!10万亿token训练刷新SOTAarrow-up-right

Chameleon: Mixed-Modal Early-Fusion Foundation Modelsarrow-up-right

Show-o

Show-o: One Single Transformer to Unify Multimodal Understanding and Generationarrow-up-right

Transfusion

(toread)

统一transformer与diffusion!Meta融合新方法剑指下一代多模态王者arrow-up-right

Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Modelarrow-up-right

一般来说,多模态生成模型需要能够感知、处理和生成离散元素(如文本或代码)和连续元素(如图像、音频和视频数据)。

  • 离散模态领域:以预测下一个词为目标的语言模型占据主导地位

  • 连续模态方面:扩散模型及其泛化形式则是当前最先进技术

研究者一直试图将语言模型与扩散模型结合:

  • 方法一:直接扩展语言模型,使其能够利用扩散模型作为一个工具,或者将一个预训练的扩散模型嫁接到语言模型上。

  • 方法二:是对连续模态进行量化处理,然后在离散的token上训练一个标准的语言模型,虽然简化了模型架构,但也会造成信息的丢失。

本文通过训练单个模型来预测离散文本 token 和扩散连续图像,从而实现两种模态的完全集成,且不会丢失任何信息。引入了一个训练模型的新方法 Transfusion,能够无缝地生成离散和连续的模态,将语言模型损失函数与扩散相结合,在混合模态序列上训练单个transformer。

该研究还在文本和图像数据混合基础上从头开始预训练多个 Transfusion 模型,最多可达到 7B 参数量,并针对各种单模态和跨模态基准建立扩展定律。

ControlNeXt

视频生成控制提升几十倍,新一代轻量级ControlNeXt火了,贾佳亚团队正挑战Scaling Lawarrow-up-right

ControlNeXt: Powerful and Efficient Control for Image and Video Generationarrow-up-right

https://github.com/dvlab-research/ControlNeXtarrow-up-right

GNN+Graph Transformer综述

TPAMI 2024 | 计算机视觉中基于图神经网络和图Transformers的方法和最新进展arrow-up-right

Survey on Graph Neural Networks and Graph Transformers in Computer Vision: A Task-Oriented Perspectivearrow-up-right

Llip

ICML 2024 | 直面CLIP内在缺陷,Meta提出全新latent对比预训练框架Lliparrow-up-right

Modeling Caption Diversity in Contrastive Vision-Language Pretrainingarrow-up-right

基于对比视觉-语言预训练技术的大型多模态模型目前已成为人工智能领域研究的热点课题。但这一预训练技术仍然以经典的CLIP模型为基础,缺乏进一步的发展。此外,鉴于CLIP模型通过将图像及其caption映射到单个向量这样的底层机制,可以认为限制了对比预训练模型描述图像各种其他方面的能力。

提出了一种名为Llip的架构(Latent Language Image Pretraining),以图像字幕生成(Image Caption)任务作为出发点,用来模拟自然场景中与单张图像进行匹配caption的多样性。Llip仍然采用双塔特征提取模式,其视觉编码器可以对给定图像输出一组视觉特征,这些特征可以总结与当前图像匹配的多样式captions中的文本信息,来得到最终的表示。

longllava

首个Mamba+Transformer混合架构多模态大模型来了,实现单卡千图推理arrow-up-right

LongLLaVA: Scaling Multi-modal LLMs to 1000 Images Efficiently via Hybrid Architecturearrow-up-right

https://github.com/FreedomIntelligence/LongLLaVAarrow-up-right

Molmo

号称击败Claude 3.5 Sonnet,媲美GPT-4o,开源多模态模型Molmo挑战Scaling lawarrow-up-right

Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Modelsarrow-up-right

Playground

文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类arrow-up-right

Playground v3: Improving Text-to-Image Alignment with Deep-Fusion Large Language Modelsarrow-up-right

REPA

扩散模型训练方法一直错了!谢赛宁:Representation mattersarrow-up-right

Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Thinkarrow-up-right

https://github.com/sihyun-yu/REPAarrow-up-right

LLaVA-Critic

Evaluation is All You Need!首个开源多模态大模型通用评测器LLaVA-Criticarrow-up-right

LLaVA-Critic: Learning to Evaluate Multimodal Modelsarrow-up-right

MM1.5

苹果多模态模型大升级!文本密集、多图理解,全能小钢炮arrow-up-right

MM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-tuningarrow-up-right

SCMs

OpenAI攻克扩散模型短板,清华校友路橙、宋飏合作最新论文arrow-up-right

刚刚,OpenAI发布sCM提升50倍效率,扩散模型重大技术突破!arrow-up-right

比扩散模型快50倍!OpenAI发布多模态模型实时生成进展,作者还是清华校友,把休假总裁Greg都炸出来了arrow-up-right

Simplifying, Stabilizing & Scaling Continuous-Time Consistency Modelsarrow-up-right

Janus

DeepSeek新作Janus:解耦视觉编码,引领多模态理解与生成统一新范式arrow-up-right

Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generationarrow-up-right

https://github.com/deepseek-ai/Janusarrow-up-right

https://huggingface.co/spaces/deepseek-ai/Janus-1.3Barrow-up-right

OmniGen

新扩散模型OmniGen一统图像生成,架构还高度简化、易用arrow-up-right

OmniGen: Unified Image Generationarrow-up-right

https://github.com/VectorSpaceLab/OmniGenarrow-up-right

LLM2CLIP

跨模态大升级!少量数据高效微调,LLM教会CLIP玩转复杂文本arrow-up-right

LLM2CLIP: POWERFUL LANGUAGE MODEL UNLOCKS RICHER VISUAL REPRESENTATIONarrow-up-right

https://github.com/microsoft/LLM2CLIParrow-up-right

TFG

NeurIPS Spotlight|从分类到生成:无训练的可控扩散生成arrow-up-right

TFG: Unified Training-Free Guidance for Diffusion Modelsarrow-up-right

https://github.com/YWolfeee/Training-Free-Guidancearrow-up-right

Deepseek-VL2

久等了,DeepSeek-VL2arrow-up-right

https://github.com/deepseek-ai/DeepSeek-VL2arrow-up-right

DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understandingarrow-up-right

  • 数据:比一代 DeepSeek-VL 多一倍优质训练数据,引入梗图理解、视觉定位、视觉故事生成等新能力

  • 架构:视觉部分使用切图策略支持动态分辨率图像,语言部分采用MoE架构低成本高性能

  • 训练:继承DeepSeek-VL的三阶段训练流程,同时通过负载均衡适配图像切片数量不定的困难,对图像和文本数据使用不同流水并行策略,对MoE语言模型引入专家并行,实现高效训练

Florence-VL

Florence-VL来了!使用生成式视觉编码器,重新定义多模态大语言模型视觉信息arrow-up-right

Florence-VL: Enhancing Vision-Language Models with Generative Vision Encoder and Depth-Breadth Fusionarrow-up-right

https://github.com/JiuhaiChen/Florence-VLarrow-up-right

metamorph

统一视觉理解与生成,MetaMorph模型问世,LeCun、谢赛宁、刘壮等参与arrow-up-right

MetaMorph: Multimodal Understanding and Generation via Instruction Tuningarrow-up-right

seedream2.0

豆包文生图技术报告发布!数据处理、预训练、RLHF全流程公开arrow-up-right

Seedream 2.0: A Native Chinese-English Bilingual Image Generation Foundation Modelarrow-up-right

多模态推荐系统

多模态推荐系统新突破,一文读懂前沿进展!arrow-up-right

Multimodal Recommender Systems: A Surveyarrow-up-right

https://github.com/Applied-Machine-Learning-Lab/Awesome-Multimodal-Recommender-Systemsarrow-up-right

BM3:Bootstrap Latent Representations for Multi-modal Recommendationarrow-up-right

EM3:End-to-end training of Multimodal Model and ranking Modelarrow-up-right

Multimodal Pretraining, Adaptation, and Generation for Recommendation: A Surveyarrow-up-right.. KDD24

gpt4o生图

刚刚,GPT-4o原生图像生成上线,P图、生图也就一嘴的事arrow-up-right

Addendum to GPT-4o System Card: Native image generationarrow-up-right

GPT-4o图像生成的秘密,OpenAI 没说,网友已经拼出真相?arrow-up-right

Web-SSL

CLIP被淘汰了?LeCun谢赛宁新作,多模态训练无需语言监督更强!arrow-up-right

Scaling Language-Free Visual Representation Learningarrow-up-right

https://github.com/dfan/websslarrow-up-right

UNO

字节开源新生图模型:一个模型统一所有生图任务,多主体融合效果SOTA​arrow-up-right

Less-to-More Generalization: Unlocking More Controllability by In-Context Generationarrow-up-right

https://github.com/bytedance/UNOarrow-up-right

https://bytedance.github.io/UNO/arrow-up-right

Seedream

Mogao=Seedream 3.0?霸榜数天,神秘文生图模型曝光(附技术报告)arrow-up-right

Seedream 3.0 Technical Reportarrow-up-right

Seed-1.5 embedding

向量检索能力SOTA,字节Seed1.5-Embedding模型训练细节公开arrow-up-right。。没开源

  • 设计两阶段对比学习训练流程并精心构造训练数据,充分强化模型的通用表征能力;

  • 从预训练和后训练语料中,构造出推理密集型检索数据(需要深度理解查询和文档的匹配关系,而非简单的字面匹配或语义匹配),并用其优化模型;

  • 使用MoE模型作为基座,并通过MRL训练支持多个向量维度,实现较高的运行速度和灵活的存储开销。

其他

​近期必看的多模态大模型进展:从Qwen2-VL到Pixtralarrow-up-right

多模态(视频)

SORA

OpenAI首个AI视频模型炸裂登场,彻底端掉行业饭碗!60秒一镜到底惊人,世界模型真来了?arrow-up-right

https://openai.com/soraarrow-up-right

https://openai.com/research/video-generation-models-as-world-simulatorsarrow-up-right

一锤降维!解密OpenAI超级视频模型Sora技术报告,虚拟世界涌现了arrow-up-right

Sora爆火48小时:杨立昆揭秘论文,参数量或仅30亿arrow-up-right

微软37页论文逆向工程Sora,得到了哪些结论?arrow-up-right

攻陷短视频后,Sora将需要72万块H100 GPUarrow-up-right

Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Modelsarrow-up-right

Sora之后,OpenAI Lilian Weng亲自撰文教你从头设计视频生成扩散模型arrow-up-right

https://lilianweng.github.io/posts/2024-04-12-diffusion-video/arrow-up-right

整体感觉:

  • latent diffusion的隐空间

  • vit和swin transformer的patch

现有方法

现有的视频生成方法大多只能用于少数分类的视频、比较短的视频,或者固定长度的视频。

前两类太古老了,sora把后面两个(autogressive transformers和diffusion models)结合在一起了,而且能同时处理不同时长、分辨率的视频和图像

将视频转成spacetime latent patches

Vivit

Vivit: A video vision transformerarrow-up-right

整体受ViT的启发

vivit

先分patch,再分别过时间的transformer(temporal transformer)和空间的transformer(spatial transformer)

tubelet-embedding

具体的分patch方式如上图

latent空间上的patch

spacetime-patches

参考stable-diffusion,即High-Resolution Image Synthesis with Latent Diffusion Modelsarrow-up-right,把patch切分改成在latent空间上进行

  • 将视频映射成隐空间(latent space)的表示

  • 把隐空间的表示切分成spacetime patches

预估时,可以通过在一个合适大小的grid里排列随机初始化的patches(we can control the size of generated videos by arranging randomly-initialized patches in an appropriately-sized grid.)来控制生成视频的大小。估计是参考了下面这篇:

论文参考了这个Patch n'Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolutionarrow-up-right,可以使下面提到的DiT适应各种分辨率/持续时间/宽高比。

Diffusion Transformer

Scalable diffusion models with transformersarrow-up-right提出了DiT,替换stable diffusion中的u-net

Dit

DiT=VAE编码器+ ViT + DDPM + VAE解码器

sora是一个扩散模型,输入加了噪声的patches,还可以加上一些如text prompt的条件,预测原本『干净』的patches。

之前的做法大多将视频全裁成相同长度和大小的,例如4s的256×256256\times 256,sora可以直接用原始视频

语言理解

参考DALL-E3 (Improving Image Generation with Better Captionsarrow-up-right),训练了一个highly descriptive的视频描述生成器,拿这个生成器给训练集中的所有视频重新生成描述,再拿来训练。

此外,还用上了GPT,将用户输入的短的prompt改写成更长更详细的视频描述用于生成。

使用图像/视频作为prompt

  • 图像转动画:可以让静止的图像动起来

  • 扩展视频:可以对视频进行扩展(extend),在时间轴上向前或者向后进行延展(比如同样是一个石头落地,能生成4个视频,每个视频里的石头从不同的地方飞过来,落在同一个地面上)

  • 编辑视频:输入视频和一个文本prompt,能够对视频进行编辑,例如把场景从沙漠替换成树林,类似Sdedit: Guided image synthesis and editing with stochastic differential equationsarrow-up-right

  • 连接视频:输入两个看似毫不相关的视频,能通过很自然的方式把这两个视频衔接在一起

生成图像

图像就是一帧的视频,可以通过在时间范围为一帧的空间grid中排列高斯噪声patches(arranging patches of Gaussian noise in a spatial grid with a temporal extent of one frame)来生成图像,同样能生成不同分辨率的图像,最多2048×20482048\times 2048

涌现的模拟能力

  • 3D一致性:随着镜头的移动,视频中的人物或物体在3d空间中能在移动中保持一致

  • Long-range coherence and object permanence(远程连贯性和物体持久性):sora能对短期和长期依赖关系进行建模,例如:

    • 可以保留人物体,即使它们被遮挡或离开当前帧。

    • 可以在单个样本中生成同一角色的多个镜头,并在整个视频中保持其外观的不变

  • 与世界交互:例如画家可以在画布上留下新的笔触,并随着时间的推移而持续存在,人吃东西能留下齿痕

  • 模拟数字世界:可以同时通过基本策略控制《我的世界》中的玩家,同时以高保真度渲染世界及其动态,只需要在prompt里提到“我的世界”的标题就可以实现。

存在的问题

  • 不能准确地模拟许多基本相互作用的物理过程,例如玻璃破碎。

  • 其他交互(例如吃食物)并不总是会产生对象状态的正确变化,例如长时间样本中出现的不连贯性或对象的自发出现。

open-sora(Colossal-AI)

没等来OpenAI,等来了Open-Sora全面开源arrow-up-right

Open-Sora全面开源升级:支持16s视频生成和720p分辨率arrow-up-right

模型架构

v1版本:https://github.com/hpcaitech/Open-Sora/blob/main/docs/report_v1.mdarrow-up-right

v2版本:https://github.com/hpcaitech/Open-Sora/blob/main/docs/report_02.mdarrow-up-right

VAE部分

sora用了spatial-temporal VAE来降低temporal的维度,但并没有开源且高质量的spatial-temporal VAE:

因此,使用https://huggingface.co/stabilityai/sd-vae-ft-mse-originalarrow-up-right的2D VAE

对于24fps的1min视频,有24×60=144024\times 60=1440帧,用4倍的VAE下采样和2倍的patch size下采样,有大约1440×1.5M1440\times \approx 1.5M的token。对这些token算全部的attention的计算开销很大,所以参考Latte: Latent Diffusion Transformer for Video Generationarrow-up-right(代码https://github.com/Vchitect/Lattearrow-up-right)的方案,使用spatial-temporal attention来减小计算量。

以下是latte的4个变种

latte

STDiT(sequential)和latte的变种3类似,STDiT(parallel)和latte的变种4类似,在16×256×25616\times 256\times 256的视频上,发现效果如下,最终采用了STDiT(sequential)。

DiT(full)>STDiT(Sequential)>STDiT(Parallel)LatteDiT (full) > STDiT (Sequential) > STDiT (Parallel) \approx Latte
stdit

生成部分

PixArt-α: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesisarrow-up-right使用T5作为条件DiT结构,能生成高质量的图像。用PixArt-α对模型初始化,并对插入的temperal attentioin用0初始化,能够让模型一开始就保留图片生成的能力。插入的attention让参数量从580M涨到了724M。

pixart-alpha-temperal

训练

参考PixArt-α和Stable Video Diffusioin(Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasetsarrow-up-right),采用了progressive的训练策略:

  • 大规模图像预训练:前面提到的,直接使用https://huggingface.co/stabilityai/sd-vae-ft-mse-originalarrow-up-right的2D VAE

  • 大规模视频预训练:在质量相对差的366K的预训练数据集(HD-VG-130M数据集)上训练16×256×25616\times 256\times 256,这里的16指的是16帧

  • 高质量视频数据微调:在高质量的20K的数据集(Pexels数据集)上训练16×256×25616\times 256\times 25616×512×51216\times 512\times 51264×512×51264\times 512\times 512

由于使用了scaled position embedding,这个策略极大地减少了训练消耗。此外,对于16帧的训练,每3帧降采样一次,对于64帧的训练每2帧降采样一次。

数据标注方法:抽取3帧,然后设计prompt,用LLaVA生成高质量的标题:

llava-caption
  • 学习率:1e-4太大了,改成了2e-5

  • batchsize比较大的时候,fp16比bf16更不稳定,而且可能导致生成错误,所以对于64×512×51264\times 512\times 512使用bf16

提供了便捷的视频数据预处理脚本,可以轻松地在自己的数据集上快速生成训练所需的视频 / 文本对,包括公开视频数据集下载,长视频根据镜头连续性分割为短视频片段,使用开源LLaVA生成精细的提示词。

open-sora(北大版)

超10秒高分辨率,北大Open Sora视频生成更强了,还支持华为芯片arrow-up-right

MORA

Sora不开源,微软给你开源!全球最接近Sora视频模型诞生,12秒生成效果逼真炸裂arrow-up-right

复刻Sora的通用视频生成能力,开源多智能体框架Mora来了arrow-up-right

Mora: Enabling Generalist Video Generation via A Multi-Agent Frameworkarrow-up-right

minigpt4-video

AI视频理解天花板,全新MiniGPT4-Video刷爆SOTA!宝格丽宣传片配文一绝arrow-up-right

mini-gemini

刷爆多模态任务榜单!贾佳亚团队Mini-Gemini登热榜,代码、模型、数据全部开源arrow-up-right

模型地址:https://huggingface.co/collections/YanweiLi/mini-gemini-6603c50b9b43d044171d0854arrow-up-right 数据地址:https://huggingface.co/collections/YanweiLi/mini-gemini-data-660463ea895a01d8f367624earrow-up-right

Mini-Gemini: Mining the Potential of Multi-modalityVision Language Modelsarrow-up-right

VLM(vision lm)虽然有很多,但和gemini、gpt-4等的差距还是比较大,作者认为主要原因是高分辨率视觉标记不够vision推理数据质量不高

mini-gemini

作者利用额外的视觉编码器进行高分辨率细化,构建了一个高质量的数据集。构建了一个Mini-Gemini架构,支持一系列从2B到34B的密集和MoE LLM,在zero-shot测试集上超过了私有模型。

https://github.com/dvlab-research/MiniGeminiarrow-up-right

Vidu

当前最强国产Sora!清华团队突破16秒长视频,懂多镜头语言,会模拟物理规律arrow-up-right

采用了和 Sora 完全一致的 Diffusion 和 Transformer 融合的架构,底层基于All are Worth Words: A ViT Backbone for Diffusion Modelsarrow-up-right的 U-ViT 架构。

基于 U-ViT 架构,2023 年 3 月,团队在开源的大规模图文数据集 LAION-5B 上训练了 10 亿参数量的多模态模型 ——UniDiffuser,并将其开源(参见清华朱军团队开源首个基于 Transformer 的多模态扩散大模型,文图互生、改写全拿下arrow-up-right)。

UniDiffuser 主要擅长图文任务,能支持图文模态间的任意生成和转换。UniDiffuser 的实现有一项重要的价值 —— 首次验证了融合架构在大规模训练任务中的可扩展性(Scaling Law),相当于将 U-ViT 架构在大规模训练任务中的所有环节流程都跑通。

这些在图文任务中积累的工程经验为视频模型的研发打下了基础。因为视频本质上是图像的流,相当于是图像在时间轴上做了一个扩增。因此,在图文任务上取得的成果往往能够在视频任务中得到复用。Sora 就是这么做的:它采用了 DALL-E 3 的重标注技术,通过为视觉训练数据生成详细的描述,使模型能够更加准确地遵循用户的文本指令生成视频。这种效应也必然会发生在「Vidu」上面。

根据此前的消息推测,「Vidu」也复用了生数科技在图文任务的很多经验,包括训练加速、并行化训练、低显存训练等等,从而快速跑通了训练流程。据悉,他们通过视频数据压缩技术降低输入数据的序列维度,同时采用自研的分布式训练框架,在保证计算精度的同时,通信效率提升 1 倍,显存开销降低 80%,训练速度累计提升 40 倍。

Vidu 1.5

视觉模型学会LLM独门秘籍「上下文记忆」,迎来智能涌现的大爆发!arrow-up-right

gen-3

Runway版Sora发布:高保真、超强一致性,Gen-3 Alpha震撼到网友了arrow-up-right

可灵

快手「可灵」爆火:海外AI圈巨震,中国版Sora一号难求arrow-up-right

快手可灵凭什么频繁刷屏?揭秘背后三项重要研究arrow-up-right

可灵视频生成可控性为什么这么好?快手又公开了四篇研究arrow-up-right

长视频LongVA

7B最强长视频模型! LongVA视频理解超千帧,霸榜多个榜单arrow-up-right

Long Context Transfer from Language to Visionarrow-up-right

LONGVILA

支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频arrow-up-right

LONGVILA: SCALING LONG-CONTEXT VISUAL LANGUAGE MODELS FOR LONG VIDEOSarrow-up-right

https://github.com/NVlabs/VILA/blob/main/LongVILA.mdarrow-up-right

liveportrait

快手开源LivePortrait,GitHub 6.6K Star,实现表情姿态极速迁移arrow-up-right

LivePortrait: Efficient Portrait Animation with Stitching and Retargeting Controlarrow-up-right

https://github.com/KwaiVGI/LivePortraitarrow-up-right

diffusion forcing

无限生成视频,还能规划决策,扩散强制整合下一token预测与全序列扩散arrow-up-right

Diffusion Forcing:Next-token Prediction Meets Full-Sequence Diffusionarrow-up-right

https://github.com/buoyancy99/diffusion-forcingarrow-up-right

VideoSys

视频生成要有自己的系统!尤洋团队历时半年开源VideoSysarrow-up-right

https://github.com/NUS-HPC-AI-Lab/VideoSysarrow-up-right

Pyramid Attention Broadcast (PAB)

Real-Time Video Generation with Pyramid Attention Broadcastarrow-up-right

https://github.com/NUS-HPC-AI-Lab/VideoSys/blob/master/docs/pab.mdarrow-up-right

Dyanmic Sequence Parallelism(DSP)

DSP: Dynamic Sequence Parallelism for Multi-Dimensional Transformersarrow-up-right

https://github.com/NUS-HPC-AI-Lab/VideoSys/blob/master/docs/dsp.mdarrow-up-right

GameNGen

扩散模型做游戏引擎,单TPU 20 FPS模拟毁灭战士,谷歌最新GameNGen太博眼球了arrow-up-right

Firefly

厉害了!Adobe新出Firefly视频模型,2分钟速成高清大片arrow-up-right

https://blog.adobe.com/en/publish/2024/09/11/bringing-gen-ai-to-video-adobe-firefly-video-model-coming-soonarrow-up-right

MovieGen

Meta又给OpenAI一记重击,视频生成Movie Gen震撼登场,甚至可以配音、编辑arrow-up-right

Meta版Sora无预警来袭!抛弃扩散损失,音视频生成/画面编辑全包,92页论文无保留公开arrow-up-right

MovieGen: A Cast of Media Foundation Modelsarrow-up-right

EMOVA

mini-GPT4o来了? 能看、能听、会说,还情感丰富的多模态全能助手EMOVAarrow-up-right

EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotionarrow-up-right

LLaVA-Video

突破视频多模态大模型瓶颈!「合成数据」立大功,项目已开源arrow-up-right

VIDEO INSTRUCTION TUNING WITH SYNTHETIC DATAarrow-up-right

Emu3

视频、图像、文本,只需基于下一个Token预测:智源Emu3发布,验证多模态模型新范式arrow-up-right

https://github.com/baaivision/Emu3arrow-up-right

Emu3: Next-Token Prediction is All You Needarrow-up-right

https://huggingface.co/collections/BAAI/emu3-66f4e64f70850ff358a2e60farrow-up-right

hunyuan-video

腾讯版Sora发布即开源!130亿参数,模型权重、推理代码全开放arrow-up-right

HunyuanVideo: A Systematic Framework For Large Video Generative Modelsarrow-up-right

https://github.com/Tencent/HunyuanVideoarrow-up-right

STIV

(toread)

Sora之后,苹果发布视频生成大模型STIV,87亿参数一统T2V、TI2V任务arrow-up-right

STIV: Scalable Text and Image Conditioned Video Generationarrow-up-right

Veo 2

谷歌版Sora升级4K高清!一句话控制镜头运动,跑分叫板可灵海螺arrow-up-right

https://deepmind.google/technologies/veo/veo-2/arrow-up-right

Veo 3

谷歌Veo 3论文竟无一作者来自美国!揭秘零样本「看懂」世界arrow-up-right

Video models are zero-shot learners and reasonersarrow-up-right

..就是个评测而已,提到了chain-of-frames(CoF),相关的工作可以看CoT 之后,CoF 如何让帧间逻辑从「隐式对齐」变成「显式思考」?arrow-up-right

通义万相

通义万相视频生成重磅升级,成功登顶VBench,运镜、质感直达专业级arrow-up-right

https://tongyi.aliyun.com/wanxiang/arrow-up-right

开源的风吹到视频生成:阿里开源登顶VBench的万相大模型,一手实测来了!arrow-up-right

万相,开源!arrow-up-right

阿里开源全能视频模型!生成编辑都精通,1.3B版本消费级显卡可跑arrow-up-right

https://github.com/Wan-Videoarrow-up-right

https://huggingface.co/Wan-AIarrow-up-right

完整示例代码

阿里开源电影级AI视频模型!MoE架构,5B版本消费级显卡可跑arrow-up-right

https://github.com/Wan-Video/Wan2.2arrow-up-right

Tarsier2

年末惊喜!ByteDance Research视频理解大模型「眼镜猴」正式发布arrow-up-right

Tarsier2: Advancing Large Vision-Language Models from Detailed Video Description to Comprehensive Video Understandingarrow-up-right

VideoWorld

Seed Research | 视频生成模型最新成果,可仅靠视觉认知世界!现已开源arrow-up-right

VideoWorld: Exploring Knowledge Learning from Unlabeled Videosarrow-up-right

https://github.com/bytedance/VideoWorldarrow-up-right

Sky-Reels

中国首个AI短剧模型开源,4090秒生好莱坞级大片!人人拍短剧时代来临arrow-up-right

SkyReels-A1: Expressive Portrait Animation in Video Diffusion Transformersarrow-up-right

https://github.com/SkyworkAI/SkyReels-V1arrow-up-right

https://github.com/SkyworkAI/SkyReels-A1arrow-up-right

Seaweed-7B

Seaweed-7B: Cost-Effective Training of Video Generation Foundation Modelarrow-up-right

DAM

英伟达开源「描述一切」模型,拿下7个基准SOTAarrow-up-right

Describe Anything: Detailed Localized Image and Video Captioningarrow-up-right

DAM(Describe Anything Model)多模态大语言模型,可以生成图像或视频中特定区域的详细描述。用户可以使用点、框、涂鸦或蒙版来指定区域,DAM将提供这些区域丰富的上下文描述。

Sparse VideoGen

ICML 2025 | 视频生成模型无损加速两倍,秘诀竟然是「抓住attention的时空稀疏性」arrow-up-right

Sparse VideoGen: Accelerating Video Diffusion Transformers with Spatial-Temporal Sparsityarrow-up-right

https://github.com/svg-project/Sparse-VideoGenarrow-up-right

完全无需重新训练模型的视频生成加速方法。通过挖掘注意力机制中的空间与时间稀疏性,配合自适应稀疏选择与算子优化,成功将推理时间减半。

AdaCM2

CVPR 2025 Highlight|AdaCM2:首个面向超长视频理解的跨模态自适应记忆压缩框架arrow-up-right

AdaCM2: On Understanding Extremely Long-Term Video with Adaptive Cross-Modality Memory Reductionarrow-up-right

Seedance

Seedance 1.0 视频生成模型技术报告公开arrow-up-right

https://seed.bytedance.com/seedancearrow-up-right

Seedance 1.0: Exploring the Boundaries of Video Generation Modelsarrow-up-right

百度商业化视频生成

百度商业视频生成大模型工程优化实践arrow-up-right

其他

扩散模型与文生视频arrow-up-right

多模态大模型不够灵活,谷歌DeepMind创新架构Zipper:分开训练再「压缩」arrow-up-right

Zipper: A Multi-Tower Decoder Architecture for Fusing Modalitiesarrow-up-right

多模态(语音)

Mini-Omni

让大模型能听会说,国内机构开源全球首个端到端语音对话模型Mini-Omniarrow-up-right

Mini-Omni: Language Models Can Hear, Talk While Thinking in Streamingarrow-up-right

https://github.com/gpt-omni/mini-omniarrow-up-right

Illuminate

任意论文一键变播客,谷歌正式发布Illuminate,它能重构研究者的学习方式吗?arrow-up-right

https://illuminate.google.com/homearrow-up-right

V2A

杀疯了!谷歌卷视频到语音,逼真音效让AI视频告别无声!arrow-up-right

https://deepmind.google/discover/blog/generating-audio-for-video/arrow-up-right

Speech-02

超越OpenAI、ElevenLabs,MiniMax新一代语音模型屠榜!人格化语音时代来了arrow-up-right

全模态

综述

多模态与生成正迈向终极大一统!阿里最新3万字长文梳理统一的多模态理解和生成模型arrow-up-right

Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunitiesarrow-up-right

https://github.com/AIDC-AI/Awesome-Unified-Multimodal-Modelsarrow-up-right

seed-1.5-VL

Seed1.5-VL Technical Reportarrow-up-right

Seed VLM 技术报告首次公开:图像、视频、GUI、Game 完全体arrow-up-right

字节最强多模态模型登陆火山引擎!Seed1.5-VL靠20B激活参数狂揽38项SOTAarrow-up-right

DanceGRPO

DanceGRPO:首个统一视觉生成的强化学习框架arrow-up-right

DanceGRPO: Unleashing GRPO on Visual Generationarrow-up-right

MMaDA

比Gemini Diffusion更全能!首个多模态扩散大语言模型MMaDA发布,同时实现强推理与高可控性arrow-up-right

MMaDA: Multimodal Large Diffusion Language Modelsarrow-up-right

https://github.com/Gen-Verse/MMaDAarrow-up-right

https://huggingface.co/Gen-Verse/MMaDA-8B-Basearrow-up-right

BAGEL

Seed Research|理解与生成统一模型 BAGEL 开源,All-in-One Model!arrow-up-right

https://github.com/bytedance-seed/BAGELarrow-up-right

Emerging Properties in Unified Multimodal Pretrainingarrow-up-right

https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoTarrow-up-right

Kwai Keye-VL

快手开源多模态大模型Kwai Keye-VL,引领视频理解新纪元arrow-up-right

https://github.com/Kwai-Keye/Keyearrow-up-right

Kling-Foley

音画同步,AI视频也能有完美「原声音」,可灵AI刚上线的!arrow-up-right

Kling-Foley: Multimodal Diffusion Transformer for High-Quality Video-to-Audio Generationarrow-up-right

https://github.com/klingfoley/Kling-Foleyarrow-up-right

Stream-Omni

Stream-Omni:同时支持各种模态组合交互的文本-视觉-语音多模态大模型arrow-up-right

Stream-Omni: Simultaneous Multimodal Interactions with Large Language-Vision-Speech Modelarrow-up-right

https://github.com/ictnlp/Stream-Omniarrow-up-right

https://huggingface.co/ICTNLP/stream-omni-8barrow-up-right

ThinkDiff

ICML 2025|多模态理解与生成最新进展:港科联合SnapResearch发布ThinkDiff,为扩散模型装上大脑arrow-up-right

I Think, Therefore I Diffuse: Enabling Multimodal In-Context Reasoning in Diffusion Modelsarrow-up-right

不过这是2月的论文,现在代码还没放出来:https://github.com/MiZhenxing/ThinkDiffarrow-up-right

将现有VLM的推理能力迁移给扩散模型,使得最终的模型能够真正理解图像与文本提示之间的逻辑关系,以此为基础进行高质量的图像生成。

之前的工作,如pixart-alpha等,其实都是拿一个encoder-decoder的llm(例如T5),把encoder拿出来,freeze住,然后拿来训练diffusion的decoder

之前的reconstruction-based diffusion finetuning:

  • 训练+推理:拿text的encoder,还有图像的encoder过一个可训练的aligner,加在一起过diffusion decoder,去根据diffusion的loss来训练diffusion decoder和aligner

ThinkDiff的vision-language training:

  • 训练:输入图像和文本经过VLM输入aligner,然后走llm的decoder生成文本,去算文本loss(如image caption类的任务)

  • 推理:同样输入图像和文本经过VLM输入tune过的aligner,然后改成接diffusion的decoder,直接生成图像

  • Thinkdiff-LVLM:

    • 训练:同上的训练部分,不过这里是拿结果的一部分(girl with)作为输入,并mask掉后面的(pearl earring),通过llm decoder来预估被mask掉的部分

    • 推理:同上的推理部分,改下prompt

  • Thinkdiff-CLIP:

    • 训练:同上,把VLM改成CLIP抽取图像emb,llm encoder抽取文本emb,输入改成结果的一部分(girl with),同样预测pearl earring

    • 推理:同上

aligner看着是一个类似ffn的结构,即norm(mlp(gelu(mlp)))

残差的影响

LLM为什么能看懂图?秘密不在Projector,残差结构才是跨模态理解的关键arrow-up-right

Cambrian-1

寒武纪1号诞生:谢赛宁Yann LeCun团队发布最强开源多模态LLMarrow-up-right

Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMsarrow-up-right

https://github.com/cambrian-mllm/cambrianarrow-up-right

https://huggingface.co/nyu-visionx/arrow-up-right

https://huggingface.co/datasets/nyu-visionx/CV-Bencharrow-up-right

https://github.com/cambrian-mllm/cambrianarrow-up-right

当前多模态学习研究的两个潜在问题:

  • 过度且过早地依赖语言,这是一个捷径,能弥补学习有效视觉表征的不足之处

  • 现有基准可能无法为真实世界场景提供足够的指导 —— 视觉定基对于稳健的多模态理解至关重要

Cambrian-S

Cambrian-S: Towards Spatial Supersensing in Videoarrow-up-right

空间超感知(Spatial Supersensing)包括以下4步:

  1. 纯语言理解: 无感官能力,仅基于文本推理,早期MLLMs,当前模型仍有残留偏差

  2. 语义感知:将像素解析为物体、属性和关系(“看图说话”) 现有 MLLMs 具备较强能力

  3. 流式事件认知:处理无界实时流,整合记忆并主动响应部分研究探索,但非模型原生能力

  4. 隐式3D空间认知:理解视频为3D世界的投影,推理物体位置/关系,现有视频模型能力有限

  5. 预测性世界建模:基于先验预测latent世界状态,用“惊喜”引导注意力/记忆,当前多模态系统完全缺失

最后更新于