AI Navigator 2026

视频与动态

让 AI 拍视频比画图难一个量级——不仅每一帧要好看,前后帧还得连贯,不能上一秒是猫下一秒变狗。这条路花了 10 年,从"逐帧变形"走到了"AI 心里装着物理引擎"。

从"逐帧拼接"到"模拟物理世界"

视频生成是计算机视觉的"圣杯"——比静态图像难一个数量级,因为它要同时管控空间一致性和时间一致性。

【2014 起步 · 视频预测】最早研究者只想做一件事:给 AI 几帧画面,让它预测下一帧。即使是 MIT 那种顶级实验室,也只能预测出几帧模糊的运动,看起来像鬼画符。

【2017-2019 · GAN 视频时代】配合 GAN,研究者尝试做"视频版 StyleGAN"。MoCoGAN、TGAN 能生成 1-2 秒的低分辨率视频,但角色一秒一变形,完全没有商用可能。

【2022 · 文生视频起步】Make-A-Video (Meta)、Imagen Video (Google)、Phenaki 相继发布。它们把成熟的扩散模型从图像扩展到视频——但生成的视频几乎都是 4 秒、240p 模糊度,主角时不时多长一只手或者瞬间瞬移。

【2023 · Runway Gen 系列开启商用】Runway Gen-2 是第一个真正能用的商业产品。普通用户输入一句话或一张图,能生成 4 秒能看的视频。但运动幅度小、长镜头一致性差。

【2024.02 · Sora 的范式转换】OpenAI 发布 Sora 演示。它不再"逐帧"生成,而是直接学习物理世界——重力、碰撞、光线、布料褶皱都符合常识。它把视频拆成"时空 patch",用 DiT (Diffusion Transformer) 在时间和空间两个维度同时建模。Sora 一夜把行业基准推到分钟级原生时长。

【2024-2025 · 群雄并起】Runway Gen-3、快手 Kling 可灵、字节 Seedance、阿里 Wan、腾讯 Hunyuan、智谱 CogVideoX 等相继爆发。中国厂商在中文提示和人体动作交互上展现出极强竞争力。

【今天】AI 视频已经从"几秒钟会变形的玩具"成长为影视工业流水线。一个普通自媒体团队,可以用 AI 在一个下午做出过去需要十人剧组一周的内容。

AI 厂商图谱

OpenAI Sora

硅谷巨头

  • Sora:物理世界模拟器,闭源

快手 可灵 (Kling)

短视频巨头

  • Kling 1.5:高维视频架构,闭源

字节 Seedance

大厂发力

  • PixelDance / Seaweed:多模态视频大模型,闭源

MiniMax 海螺

国产新锐

  • Hailuo Video:高质量视频生成,闭源

Runway

专业引擎

  • Gen-3 Alpha:高保真动作模型,闭源

腾讯 混元

国产巨头

  • HunyuanVideo:开源视频天花板,开源

智谱 CogVideoX

国产学术派

  • CogVideoX:开源 3D VAE 架构,开源

阿里 Wan

国产大厂

  • Wan 2.1:全栈开源视频模型,开源

Luma AI

3D 视觉先驱

  • Dream Machine:3D 感知视频模型,闭源

Google Veo

搜索巨头

  • Veo:电影级生成模型,闭源

技术演进时间线

  1. 2014-2016 视频预测的萌芽:研究者只能做"给几帧预测下一帧"的实验。MIT、Google 的早期工作生成的视频如同梦呓——模糊、变形、几帧就崩。
  2. 2017-2019 GAN 视频探索:MoCoGAN、TGAN 等用 GAN 生成 1-2 秒低分辨率视频。角色一秒一变形,完全无法商用。但学界证明了"内容 + 运动"分离建模的有效性。
  3. 2022 Make-A-Video / Imagen Video:Meta 和 Google 把成熟的扩散模型从图像扩展到视频。视频时长 4 秒、分辨率 240p、主角偶尔多长一只手——但已经是巨大进步。
  4. 2023 Runway Gen-2 商用突破:Runway Gen-2 是第一个普通用户能直接用的商业产品。输入文字或图片即可生成 4 秒可用视频,自媒体行业开始关注 AI 视频。
  5. 2024.02 Sora 范式转换:OpenAI 发布 Sora 演示视频。它不再"逐帧生成",而是把视频拆成"时空 patch"用 Diffusion Transformer 联合建模。物理一致性、长时长、角色稳定全面碾压前作,震惊好莱坞。
  6. 2024.06 中国大厂卷入战局:快手发布 Kling 可灵。它在中文提示理解、人体互动、微表情还原上明显优于国外模型。同期 Luma Dream Machine 主打 3D 一致性,Runway 推出 Gen-3。
  7. 2024.12 Sora 上线与国产开源:OpenAI 终于把 Sora 放入 ChatGPT。同期腾讯发布并全面开源 HunyuanVideo,阿里开源 Wan,中国开源视频模型震撼全球开发者。
  8. 2025 可控运镜与笔刷重绘:六轴镜头控制、参考图驱动、局部运动笔刷成为各大模型标配。AI 视频正式进入工业流水线,影视前期分镜成本暴跌。
  9. 2026 实时互动视频:AI 视频不再是"生成完就定型"——通过语音和手柄实时输入即可改变正在生成的剧情。游戏、直播、教育领域开始大规模重构。