用多模态大模型做视频理解:从可能到可靠的距离

AI多模态视频理解广告技术

当我们尝试让 AI “看懂”一支广告视频时,发现问题远比”调一个 API”复杂得多。

AI 分析视频广告创意的概念图:视频画面与语义分析层之间的数据流

为什么要用大模型来分析视频?

在广告行业里,有一个长期未被解决的问题:创意与效果之间的因果关系几乎是个黑箱

我们知道一支广告花了多少钱、带来了多少转化,但很难回答”为什么这支广告比那支好”。是开头的钩子更吸引人?还是 CTA 的措辞恰好击中了用户?传统方法依赖人工标注,成本高、主观性强、难以规模化。

多模态大模型的出现,第一次让我们看到了自动化、结构化地理解视频创意的可能。

但”可能”和”可靠”之间,还有很长的路。

模型的能力边界

以当前最新的多模态模型为例,它们已经可以直接接收视频文件、理解时序叙事、做跨模态推理(画面 + 文字 + 声音),甚至按照结构化 schema 输出 JSON。这些能力放在两年前不可想象。

但在实际工程中,我们发现了几个根本性的张力:

精确性与语义性的矛盾。 模型擅长语义——它能告诉你”视频中段有产品特写”,但很难精确到具体的时间区间。它对时间的感知是叙述性的,不是帧级精确的。这意味着你不能让模型同时承担”分割”和”理解”两个角色。

全局与细节的权衡。 当你把一个 30 秒视频和几十个分析字段一起扔给模型,它会”抓大放小”——视频级别的判断不错,但具体到每个镜头里的细节,准确率就开始下降。一次性要求太多,模型的注意力会分散。

概率输出与确定性需求的冲突。 大模型本质是概率性的。即使 temperature 设为 0,同一视频两次分析的结果在某些字段上可能不一致。它不真正”理解”你的 schema 约束——它只是在做概率上的最佳猜测。它会自信地给出错误答案,也不一定在不确定时说”我不知道”。

这些不是 bug,是大模型这种技术范式的内在特征。你可以等模型更强来缩小差距,但不能指望这些张力完全消失。

分层架构:传统算法、大模型、规则引擎、人类判断各司其职

工程设计比模型选择更重要

认清这些边界之后,真正的问题变成了:如何在一个概率性的、会犯错的能力之上,构建一个需要确定性和一致性的系统?

我们逐渐形成了几个设计原则:

让每一层做自己擅长的事。 传统算法做精确分割,大模型做语义理解,规则引擎做约束验证,人类做语义定义和质量标准设定。每层在自己的能力范围内工作,通过清晰的接口组合起来。这比指望一个万能模型端到端解决所有问题要务实得多。

分治优于一次性。 与其把全部信息一次性塞给模型,不如先全局后局部——第一遍做整体判断和规划,第二遍针对每个局部做细节提取。每一步有独立的职责边界和约束。这种分治策略显著提高了细节准确性。

Schema 是产品合约,不是配置文件。 如果你的分析结果要被下游消费(做建模、做报表、做决策),schema 的稳定性和一致性就是核心竞争力。每次 schema 变更都需要同步更新 prompt 指导和验证规则——这三者是一个整体,只改其中一个,系统就会出现不一致。

Prompt 是代码,不是注释。 在我们的系统里,prompt 的行数超过了很多核心模块。它不是”给模型的一段说明”,而是系统行为规范的一部分——定义了模型应该怎么思考、怎么区分相似概念、怎么处理不确定性。如果你把 prompt 当成可以随便改的配置文件,系统输出质量会迅速退化。Prompt 应该被版本控制、被 review、被当作一等公民。

对”理解”本身的思考

当我们说模型”理解了”一段视频,我们到底在说什么?

模型能识别出”一个人在对着镜头说话”,但不一定能可靠判断这个人的表演风格是 UGC 感还是品牌感。它能看到画面上有文字,但”这段文字是免责声明还是用户评价”的判断有时会出错。

多模态模型目前提供的是一种中等粒度的语义理解——比关键词匹配深,比人类专家浅。认清这一点很重要,因为它决定了你应该怎么设计系统:不要指望模型做所有事,而是把它放在一个有约束、有验证、有兜底的框架里。

你需要重新思考”正确性”的定义——对关键字段设严格约束,对模糊字段允许合理波动,用后置验证而非前置假设来保证质量。这不是妥协,而是对问题本质的尊重。

写在最后

多模态大模型让很多之前不可能的事情变成了可能,但”可能”和”可靠”之间还有很长的路。

在这条路上,工程设计的价值不会因为模型能力的提升而消失——恰恰相反,模型越强大,围绕它的工程架构就越关键。因为你需要把一个概率性的、会犯错的、不完全可控的能力,嵌入到一个需要确定性、一致性和可追溯性的业务系统里。

这可能是当下 AI 工程最有趣的挑战之一。