AI Navigator 2026

视频与动态

让 AI 拍视频比画图难一个量级——不仅每一帧要好看，前后帧还得连贯，不能上一秒是猫下一秒变狗。这条路花了 10 年，从"逐帧变形"走到了"AI 心里装着物理引擎"。

从"逐帧拼接"到"模拟物理世界"

视频生成是计算机视觉的"圣杯"——比静态图像难一个数量级，因为它要同时管控空间一致性和时间一致性。

【2014 起步 · 视频预测】最早研究者只想做一件事：给 AI 几帧画面，让它预测下一帧。即使是 MIT 那种顶级实验室，也只能预测出几帧模糊的运动，看起来像鬼画符。

【2017-2019 · GAN 视频时代】配合 GAN，研究者尝试做"视频版 StyleGAN"。MoCoGAN、TGAN 能生成 1-2 秒的低分辨率视频，但角色一秒一变形，完全没有商用可能。

【2022 · 文生视频起步】Make-A-Video (Meta)、Imagen Video (Google)、Phenaki 相继发布。它们把成熟的扩散模型从图像扩展到视频——但生成的视频几乎都是 4 秒、240p 模糊度，主角时不时多长一只手或者瞬间瞬移。

【2023 · Runway Gen 系列开启商用】Runway Gen-2 是第一个真正能用的商业产品。普通用户输入一句话或一张图，能生成 4 秒能看的视频。但运动幅度小、长镜头一致性差。

【2024.02 · Sora 的范式转换】OpenAI 发布 Sora 演示。它不再"逐帧"生成，而是直接学习物理世界——重力、碰撞、光线、布料褶皱都符合常识。它把视频拆成"时空 patch"，用 DiT (Diffusion Transformer) 在时间和空间两个维度同时建模。Sora 一夜把行业基准推到分钟级原生时长。

【2024-2025 · 群雄并起】Runway Gen-3、快手 Kling 可灵、字节 Seedance、阿里 Wan、腾讯 Hunyuan、智谱 CogVideoX 等相继爆发。中国厂商在中文提示和人体动作交互上展现出极强竞争力。

【今天】AI 视频已经从"几秒钟会变形的玩具"成长为影视工业流水线。一个普通自媒体团队，可以用 AI 在一个下午做出过去需要十人剧组一周的内容。

AI 厂商图谱

OpenAI Sora

硅谷巨头

Sora：物理世界模拟器，闭源

快手可灵 (Kling)

短视频巨头

Kling 1.5：高维视频架构，闭源

字节 Seedance

大厂发力

PixelDance / Seaweed：多模态视频大模型，闭源

MiniMax 海螺

国产新锐

Hailuo Video：高质量视频生成，闭源

Runway

专业引擎

Gen-3 Alpha：高保真动作模型，闭源

腾讯混元

国产巨头

HunyuanVideo：开源视频天花板，开源

智谱 CogVideoX

国产学术派

CogVideoX：开源 3D VAE 架构，开源

阿里 Wan

国产大厂

Wan 2.1：全栈开源视频模型，开源

Luma AI

3D 视觉先驱

Dream Machine：3D 感知视频模型，闭源

Google Veo

搜索巨头

Veo：电影级生成模型，闭源

技术演进时间线

2014-2016 视频预测的萌芽：研究者只能做"给几帧预测下一帧"的实验。MIT、Google 的早期工作生成的视频如同梦呓——模糊、变形、几帧就崩。
2017-2019 GAN 视频探索：MoCoGAN、TGAN 等用 GAN 生成 1-2 秒低分辨率视频。角色一秒一变形，完全无法商用。但学界证明了"内容 + 运动"分离建模的有效性。
2022 Make-A-Video / Imagen Video：Meta 和 Google 把成熟的扩散模型从图像扩展到视频。视频时长 4 秒、分辨率 240p、主角偶尔多长一只手——但已经是巨大进步。
2023 Runway Gen-2 商用突破：Runway Gen-2 是第一个普通用户能直接用的商业产品。输入文字或图片即可生成 4 秒可用视频，自媒体行业开始关注 AI 视频。
2024.02 Sora 范式转换：OpenAI 发布 Sora 演示视频。它不再"逐帧生成"，而是把视频拆成"时空 patch"用 Diffusion Transformer 联合建模。物理一致性、长时长、角色稳定全面碾压前作，震惊好莱坞。
2024.06 中国大厂卷入战局：快手发布 Kling 可灵。它在中文提示理解、人体互动、微表情还原上明显优于国外模型。同期 Luma Dream Machine 主打 3D 一致性，Runway 推出 Gen-3。
2024.12 Sora 上线与国产开源：OpenAI 终于把 Sora 放入 ChatGPT。同期腾讯发布并全面开源 HunyuanVideo，阿里开源 Wan，中国开源视频模型震撼全球开发者。
2025 可控运镜与笔刷重绘：六轴镜头控制、参考图驱动、局部运动笔刷成为各大模型标配。AI 视频正式进入工业流水线，影视前期分镜成本暴跌。
2026 实时互动视频：AI 视频不再是"生成完就定型"——通过语音和手柄实时输入即可改变正在生成的剧情。游戏、直播、教育领域开始大规模重构。