引入AlphaGo搜索,MCTS视频时长超Sora

引入AlphaGo搜索,MCTS视频时长超Sora

# 🧠 AI 视频生成迎来「AlphaGo 时刻」:蒙特卡洛树搜索跨界打造 20 秒连贯长视频

## 一场来自推理阶段的变革

长视频生成长期面临一个「死穴」:视频越长,画面越容易「跑偏」——物体莫名消失、场景前后矛盾、语义逐渐漂移。传统方法要么分块拼接,要么一次生成到底,结果往往是越往后越离谱。

现在,一组来自滑铁卢大学、布朗大学等机构的研究人员,在 **ICLR 2026** 提交的论文中,给出了一种截然不同的解法。

他们提出的 **Planning at Inference** 框架,将长视频生成重新定义为「顺序决策问题」,并首次将 **AlphaGo 的蒙特卡洛树搜索(MCTS)** 跨界引入视频生成领域。系统在推理阶段不再「一条路走到黑」,而是通过**前瞻性回溯(look-ahead rollouts)** 与 **反向传播奖励机制**,在多个可能的视频延续片段中评估择优,从根本上抑制了语义漂移与误差累积。

## 🔍 多树搜索:在连续空间中「广撒网」

要在连续的视频生成空间中高效探索,研究团队设计了一种 **Multi-Tree MCTS(多树蒙特卡洛树搜索)** 变体。

与传统的单搜索树不同,多树架构在固定算力预算下,能以更合理的剪枝与分支系数,在连续状态空间中展开更广泛的搜索。这不仅大幅提升了探索效率,也让系统能在更少的计算浪费下找到更优的生成路径。

更关键的是,**Planning at Inference 是完全即插即用的推理时优化方案**——开发人员无需对底层大模型做任何重新训练或微调,即可直接部署到现有视频生成底座上。

## 🎬 实测:超越 Sora 与 Kling

研究团队以英伟达开源的视频预测模型 **Cosmos-Predict2** 为底座进行实验,结果令人瞩目:

– ✅ 成功生成了 **超过 20 秒** 的高质量连贯视频
– ✅ 在 **物体持久性、时间连贯性、文本-视频对齐度** 等核心指标上,MCTS 搜索生成质量大幅超越贪婪搜索(Greedy Search)、束搜索(Beam Search)和 Best-of-N 等传统基线方法
– ✅ 生成视频时长比 **Sora 长 18%**,比 **Kling 长 47%**,同时在画面精细度与视觉保真度上保持同等水平

## ⚖️ 算力与画质的博弈:现实挑战与未来路径

当然,没有免费的午餐。搜索机制带来的优异画面连贯性,也伴随着高昂的算力开销。

研究人员坦言,当前框架在生成速度上明显慢于传统的自回归直接生成,这在现阶段限制了实时部署的可能。但他们的思路很明确:**以计算成本换取画面质量**。

随着底层视频生成底座的效率演进与计算硬件算力的持续增长,这种「推理时缩放」路线,有望在大模型基础能力突破特定门槛之后,成为长视频生成走向工程实用的**关键技术路径**。

> 当 AlphaGo 的「大脑」开始思考视频的下一帧,长视频生成的故事,才刚刚开始。

原创文章,作者:admin,如若转载,请注明出处:https://www.23btc.com/182633/

(0)
上一篇 8小时前
下一篇 8小时前

相关推荐