
这项由美国Meta人工智能研究院与沙特阿卜杜拉国王科技大学(KAUST)联合完成的研究,以预印本形式发布于2026年4月,论文编号为arXiv:2604.08120,有兴趣深入探索的读者可以通过该编号查阅完整原文。
一、 从"看完整部电影"说起
假设你是一位助理,老板让你看完一部时长两小时的纪录片,然后回答一个问题:"第73分钟那个场景里,桌上放了几个绿色马克杯?"你会怎么做?大多数人不会死记硬背每一秒的画面,而是会快速扫描,在觉得"这段可能有关"的地方放慢速度仔细看,在明显无关的部分飞速跳过。
这种人类直觉正是这篇论文试图赋予人工智能系统的能力。
当前最先进的多模态大语言模型(可以把它们理解为"既能看图又能对话的超级AI"),在处理短视频或图片时表现出色,但一旦面对一小时以上的长视频,就会陷入严重困境。根本原因在于这类模型有一个硬性限制:它们一次性能够"记在脑子里"的信息量是有上限的,就像一张纸只能写这么多字一样。一部两小时的电影,如果按照正常密度将每一帧画面都转换成AI能理解的"词汇单元"(在这个领域叫做"视觉token"),数量会多到把这张纸塞得满满当当,根本没有空间再写下问题和答案。
更糟糕的是,当信息塞得太满时,模型会出现一种被研究者称为"中段遗忘"的现象——就像你一口气背了太多东西,中间那部分往往记不住一样。塞进去的视频内容越多,答题时反而越容易出错。
现有的解决方案无非两条路。第一条是"跳着看",即每隔若干秒才取一帧画面,这样虽然省空间,但那个关键的绿色马克杯偏偏出现在被跳过的帧里,问题就永远答不对了。第二条是"均匀压缩",即把所有帧都塞进去但每一帧只保留很少的信息,结果是画面糊成一团,细节全部丢失。
这两种方案有一个共同的致命缺陷:它们在处理视频时完全不知道用户想问什么。无论是挑帧还是压缩,都是在"不看题目先交卷",当然会出错。
研究团队给出的答案叫做Tempo——一个像交响乐指挥一样,能够根据乐曲的"节拍"灵活分配演奏力度的系统。名字本身就隐含着这个核心比喻:tempo在音乐中意为"节奏",而这套系统正是通过动态调节视频处理的"节奏"来实现高效理解的。
二、 Tempo的两个核心角色:小压缩工与大理解者
理解Tempo的工作方式,可以把整个系统想象成一个精心设计的两人接力流水线。
第一棒是一个"小而精"的视觉语言模型,论文中称之为SVLM(小型视觉语言模型)。在Tempo的具体实现里,这个角色由Qwen3-VL-2B担任,是一个约20亿参数规模的模型。把它想象成一位眼疾手快的速记员,他的工作是把视频的每一个片段快速浏览一遍,然后把关键信息压缩成一份精简的"备忘录"。关键在于,这位速记员在工作之前就已经知道老板想问什么——用户的问题会提前告诉他,让他在记录时有所侧重,只记下真正有用的内容。
第二棒是一个较大的语言模型,论文中称之为全局解码器,由Qwen3-LM-4B(约40亿参数)担任。把它想象成真正在回答问题的主管,他没有时间从头看完整部视频,只能依赖那位速记员提交的所有"备忘录"来综合判断,最终给出答案。
两者合起来,整个Tempo系统约60亿参数,是一个在当今模型规模普遍以千亿计的时代里相当"苗条"的架构。
速记员是如何压缩信息的呢?他处理的单位是视频的"片段"——每次处理连续的若干帧画面。处理方式在技术上叫做"因果注意力下的记忆token蒸馏",但用日常语言来说,相当于:速记员先看完这段视频,再对照问题,把最关键的内容"凝练"到一组固定数量的笔记条目里(最多128条)。这些笔记条目在论文中叫做"记忆token",它们是可以学习的——经过大量训练之后,速记员越来越擅长判断什么值得记、什么可以略去。
最巧妙的地方在于,这套系统是端对端训练的,也就是说,速记员和主管是一起被训练出来的。训练时不需要人为规定"这段要记多少字",而是直接让系统尝试回答问题,答错了就从错误中调整,最终速记员自然学会了把对回答问题最有用的信息优先压缩进备忘录里。这种方式被研究者称为"早期跨模态语义蒸馏",本质上是让压缩过程本身就带有理解的色彩,而不是纯粹的机械式缩减。
三、 ATA:那位懂得"按需分配"的调度员
仅靠聪明的速记员还不够,还有一个实际难题需要解决:当一部两小时的电影被切成数百个片段之后,即便每段只保留128条笔记,累积起来的总笔记量仍然可能超过主管的阅读上限。
研究团队为此设计了一套叫做"自适应token分配"(ATA)的调度机制。用日常语言描述,这位调度员的职责是:在不超过总预算的前提下,决定每个片段的备忘录应该保留多少条笔记——与问题高度相关的片段可以保留多达128条,而那些与问题毫无关系的片段只需要保留4条"时间锚点"。
时间锚点这个概念非常关键。研究者选择保留4条而非直接删掉整段,是因为完全删除会破坏视频的时间连贯性——主管在阅读备忘录时需要知道"前半段大概发生了什么",哪怕只是一个模糊的轮廓,否则故事线就断了,对理解后续内容反而有害。这个设计被研究者称为"因果连续性保护"。
调度员如何知道哪个片段和问题相关呢?这里用到了速记员的一个"额外技能"。在开始正式压缩之前,调度员会截取速记员内部的一个中间状态,用来计算一个相关性分数——本质上是问速记员:"你觉得这段视频和问题有关吗?"由于速记员在处理这段视频时已经同时看过了画面和问题,它对这个问题的判断相当准确,而且不需要额外做任何计算,只是"顺手"从已有的处理过程中截取一个数值。
相关性分数的计算方式非常巧妙:提取速记员在即将回答"是"或"否"之前的内部状态,然后用语言模型词表中"是"和"否"两个词对应的权重向量做一次简单的内积运算,再经过一个Sigmoid函数(把任意数值压缩到0到1之间的函数),就得到了一个0到1之间的连续分数。分数越高,说明这段视频越可能与问题相关。这一切发生在同一次前向传播(即速记员处理视频的那一次运算)之中,几乎不增加任何额外时间成本。
得到所有片段的相关性分数之后,调度员按照以下逻辑分配笔记条数:先把所有分数做归一化处理,再用分数比例决定在超出最低保障(每段4条)之外的剩余预算如何分配。如果所有片段"理想分配"的总量不超过预算上限,就直接采用理想分配;若超过了,就等比例压缩,确保总量严格不超标。整个过程不需要额外的神经网络,不需要额外训练,只需要简单的数学运算,论文中用O(1)来描述其复杂度,意思是"不管视频有多长,这个调度本身的计算量都保持恒定,极快"。
还有一个锦上添花的发现值得单独说明。研究者在实验中注意到,速记员生成的128条备忘录并非质量均等——靠前的几条往往包含了这段视频最关键的信息,越往后信息密度越低。这个现象被称为"语义前置",原因在于速记员采用的是从左到右的因果注意力机制,后面生成的内容可以参考前面已有的内容,导致关键信息自然而然地集中到了最前面。正因如此,当调度员决定某个片段只保留k条笔记时,只需要直接截取前k条,就像把一叠纸的后半段扔掉一样简单,不需要做任何额外的筛选或排序操作,速度极快且没有精度损失。
四、 四阶段训练:让速记员和主管逐步成长的学习计划
Tempo不是一次性训练好的,而是经历了一个循序渐进的四阶段课程,就像让一个孩子先学认字,再学造句,再学写短文,最后才学写长篇报告一样。
最开始的第零阶段专注于让速记员和主管之间建立基本的"语言对齐"。此阶段只训练中间的线性转换层(负责把速记员的笔记格式翻译成主管能看懂的格式),其他部分保持冻结不动,使用的是一个约55万张图片的标准数据集。可以把这个阶段理解为:让翻译官先熟悉双方的语言,不急于让两人一起工作。
第一阶段是预训练,解冻整个系统,用约200万张图片、138万段视频和14万条纯文本进行广泛学习。视频处理比较轻量,只取每段视频的8帧画面。这个阶段的目标是让模型获得基础的时间感知能力,相当于让学生广泛涉猎打好基础,而不是深入研究任何特定课题。
第二阶段是宽泛的监督微调,数据量同样庞大(约93万张图片、225万段视频和7万条文本),视频的最大帧数提升到128帧。这个阶段重点训练模型的指令跟随能力和时序推理能力——简而言之,让模型学会"好好回答问题",而不只是"泛泛地理解内容"。
第四阶段,即最后的长上下文监督微调阶段,是最重要也最特殊的一步。此阶段冻结了速记员、记忆token和转换层,只更新主管(全局语言模型),最大帧数进一步扩展到384帧,模型的上下文窗口从8192个token扩展到16384个token。研究者的逻辑是:这个阶段的核心挑战是让主管学会处理超长的信息序列,而速记员已经训练好了,不需要再动他;反之,如果此时继续更新速记员,反而可能干扰已经建立好的压缩能力。这个选择性冻结的策略是整个训练方案中颇为精妙的一笔。
整个系统在64块NVIDIA H100 GPU上训练,采用了全分片数据并行(FSDP)和梯度检查点技术来应对大规模训练的内存压力,所有训练数据均来自公开可访问的数据集,确保可复现性。
五、 成绩单:小身材,大表现
测试Tempo的基准包括四个在业内公认的长视频理解评测集,难度依次递增。LongVideoBench平均视频长度约473秒,MLVU约651秒,Video-MME约1010秒,而LVBench是其中最极端的,平均视频长度超过4101秒,也就是将近70分钟,被研究者称为"极长视频理解的压力测试"。
在LVBench这个最难的测试集上,Tempo在严格的4096个视觉token预算限制下取得了52.7分,在8192个token预算下取得了52.3分。相比之下,专门面向长视频设计的VideoChat-Flash(7B参数)得分48.2,而更令人印象深刻的对比是与闭源商业模型:GPT-4o得分30.8,Gemini 1.5 Pro得分33.1,Tempo以近20分的差距将这两个产品级商业模型远远甩在后面。
这个结果颇为反直觉,因为GPT-4o和Gemini 1.5 Pro背后的计算资源远远大于Tempo,而且它们的上下文窗口理论上也更大。这恰恰说明了研究者的核心论点:对于超长视频理解,不是上下文越大越好,而是信息越精准越好。把一小时的视频原封不动地塞进一个巨大的上下文窗口,反而会导致模型注意力涣散、关键细节淹没在噪音里;而经过查询感知压缩之后的精华版,反而让模型能够集中精力找到真正有用的信息。
在其他测试集上,Tempo同样表现出色。Video-MME整体得分67.8(4K预算),超越VideoChat-Flash的65.3;MLVU得分75.6,同样领先同类方法;LongVideoBench在8K预算下得到65.1。考虑到Tempo只有60亿参数,而许多对比模型有70亿甚至130亿参数,且Tempo的实际token消耗远低于理论上限,这个性价比令人注目。
一个特别有意思的"更少反而更好"现象值得单独说明。在LVBench上,4K预算(52.7分)比8K预算(52.3分)表现反而更好。这看起来违反常识,但背后逻辑很清楚:更紧的预算迫使ATA做出更激进的筛选,把更多噪音过滤掉,留下的信息密度更高,主管反而更容易从中找到正确答案。这类似于考试时如果答题纸只够你写核心要点,你会比有无限纸张时答得更准——因为无限纸张会诱使你堆砌无用的废话。
研究者还统计了模型在各测试集上的实际平均token使用量,发现远低于理论上限。以LVBench 4K预算为例,理论上限是每帧4个token,但ATA实际分配的平均只有每帧2.9个token。这说明模型自发地判断大多数片段与问题无关,主动将它们压缩到了最低水平,而不是机械地把预算用满。
六、 消融实验:逐一拆解每个设计决策
为了证明每个设计选择都是必要的而非随意的,研究者做了大量对照实验,逐一替换或删除系统中的各个组成部分,观察性能如何变化。
在训练阶段的必要性上,不做第三阶段(长上下文微调)时,LVBench得分从52.3大幅下滑到47.3,说明专门的长序列学习至关重要。有意思的是,在有第三阶段但不用ATA、只是给足16K预算让模型自己处理的情况下,得分是51.1,反而比使用ATA的8K预算(52.3)更低——这再次印证了"信息质量比信息数量更重要"的核心论点。
在片段级别的token分配策略对比中,研究者测试了多种替代方案:均匀子采样(每个片段分配相同token数)、随机丢弃片段、对抗性路由(专门保留评分最低的片段)以及硬性Top-K路由(只保留评分最高的片段,其余全部删除)。对抗性路由的结果最为极端——LongVideoBench得分从65.1暴跌到50.7,这直接证明了ATA的相关性分数是真实有效的,而非随机噪音。硬性Top-K路由虽然比均匀分配更好,但仍然不如ATA,原因是它完全删除了低分片段,破坏了时间连贯性,而ATA通过保留4个时间锚点维护了整体故事线。
在片段内部的token减少方式上,研究者对比了头部截取(保留前k个token)与尾部截取(保留后k个token),以及Token合并(将多个token合并为一个)。无论是固定64个token还是动态分配的k个token,头部截取都一致优于尾部截取,正面验证了"语义前置"现象的真实性。Token合并在LVBench上略高于头部截取(53.0对52.3),但在Video-MME上明显更差(66.3对67.7),且引入了O(N?)的计算开销,综合来看不如头部截取划算。
在相关性评分来源的对比上,研究者测试了四种方案:直接用Qwen3-VL-2B基础模型的输出、用Tempo训练后的SVLM输出、用外部稠密检索模型(Qwen3-VL Reranker)打分,以及是否使用显式的二元路由指令。结果显示,Tempo的SVLM在使用标准指令时(无显式路由问题)就能达到67.2的Video-MME得分,加上显式路由指令后提升到67.7。基础模型加上显式指令甚至能达到67.6,说明Qwen3-VL系列模型天然具有较强的视觉-文本语义对齐能力。外部检索模型得分最低(67.2),且需要额外的前向传播,综合效率最差。
七、 规模化实验:什么时候需要更大的上下文?
随着最大帧数从128逐步扩大到2048,在不同预算下模型的表现如何变化,这一部分揭示了Tempo实际应用时的最优配置策略。
对于Video-MME(Long子集,平均约2386秒)这样的"标准长视频"任务,4K预算是"甜蜜点"——在最大帧数为1024时达到最高性能,再增加帧数或预算反而会引入噪音,性能出现微幅下滑。原因在于这类视频相对不那么极端,问题所需的视觉证据不需要太多上下文就能找到,紧缩的预算反而起到了去噪效果。
而对于LVBench这样的极长视频(平均约4101秒),情况完全不同:2K和4K预算在高帧数下明显达到天花板,不再能随帧数增加而继续进步;但8K和12K预算下,性能随最大帧数的增加而持续单调上升,在fmax=2048、Bmax=12K的配置下达到53.7的峰值。这说明,对于真正的小时级视频,更大的上下文容量是必要的,"节约资源"的策略在这里会带来实质性的性能损失。
这个差异化的规律有重要的实际意义:部署Tempo时并非用一个配置走天下,而应根据目标应用场景的视频时长动态选择预算。这也提醒研究社区,评测长视频模型时应区分"中等长度"和"极长"两种场景,因为它们对算力的需求规律截然不同。
八、 还能怎么更好?研究者看到的未来方向
研究团队在论文末尾坦诚地讨论了Tempo当前的局限性和可能的改进方向。
ATA目前依赖的是SVLM的零样本(无需额外训练)相关性判断能力,这种能力已经相当有效,但在理论上并非最优。一个自然的改进思路是通过强化学习来专门训练这种路由判断能力——不是用人工标注的"哪段相关"标签来监督,而是用最终答题正确率来反向优化。这样SVLM的路由判断就能真正以"能不能答对问题"为优化目标,而非仅凭预训练积累的通用语义感知能力。
当前每个片段生成固定数量(128个)记忆token的设计虽然高效,但也是一种折衷。一个更理想的方案是让速记员像人类理解内容时一样,根据内容的复杂程度动态决定需要多少笔记——复杂的关键场景多记一些,简单的背景画面少记几条,甚至自动停止。实现这个功能需要自回归生成机制,但如何在不大幅增加推理延迟的前提下实现这一点,是一个尚待解决的工程难题。
在多轮对话场景中,当用户持续追问同一段视频时,Tempo目前需要对每个新问题重新从头压缩整个视频,这显然是一种浪费。研究者设想的改进是建立一个"永久的全局上下文骨架"加上"按需深度提取"的两层架构——主管在处理后续问题时,能够识别哪些历史片段需要再次深入分析,并按需调用速记员重新处理那些特定片段,而不是对整个视频做全面扫描。这种分层按需蒸馏的思路,与人类在长谈中回忆细节的方式颇为相似。
归根结底,Tempo这项研究最有价值的地方,不仅仅在于它在几个测试集上取得了更高的分数,而在于它为整个长视频理解领域提供了一套清晰的思路:与其想办法塞进更多信息,不如想办法用更聪明的方式选择哪些信息值得保留。两小时的电影里,真正帮你回答问题的内容可能只有十几秒,而那十几秒,值得用128条笔记仔细记录;其余的背景,用4条就够了。
这个洞见,在某种意义上,只是在用人工智能重新发现了人类早就知道的一件事:精读与略读,是阅读效率的永恒秘诀。
Q&A
Q1:Tempo与VideoChat-Flash、GPT-4o相比,在长视频理解上差距有多大?
A:在LVBench这个平均视频时长接近70分钟的极长视频测试集上,Tempo在4K token预算下得分52.7,VideoChat-Flash(7B参数)得分48.2,两者相差约4.5分。而GPT-4o得分30.8,Gemini 1.5 Pro得分33.1,Tempo以将近20分的优势超越这两个商业模型。值得注意的是Tempo只有60亿参数,且实际用到的token数远低于预算上限。
Q2:ATA自适应token分配机制是怎么判断哪段视频和问题相关的?
A:ATA利用的是处理视频时"顺手"产生的一个内部信号。速记员(SVLM)在压缩某段视频之前,系统会截取它内部的一个中间状态,用"是"和"否"两个词的权重向量做简单运算,得到一个0到1之间的相关性分数。这个过程不需要额外的神经网络也不需要额外的前向传播,几乎没有时间成本。分数高的片段分配更多token,分数低的片段只保留4个最低限度的时间锚点。
Q3:为什么Tempo在4K token预算下的表现有时比8K预算更好?
A:这是论文中提到的"越少反而越好"现象。更紧的4K预算迫使ATA进行更激进的筛选,把更多与问题无关的背景内容压缩到最低,留下的信息密度更高。主管在阅读这份高密度备忘录时,注意力不会被无关内容分散,反而更容易找到正确答案。这类似于考试限制字数反而能促使人写出更精准的答案,而非堆砌冗余信息。
鑫恒盈配资提示:文章来自网络,不代表本站观点。