让 AI 拍视频比画图难一个量级——不仅每一帧要好看,前后帧还得连贯,不能上一秒是猫下一秒变狗。这条路花了 10 年,从"逐帧变形"走到了"AI 心里装着物理引擎"。
从"逐帧拼接"到"模拟物理世界"
视频生成是计算机视觉的"圣杯"——比静态图像难一个数量级,因为它要同时管控空间一致性和时间一致性。
【2014 起步 · 视频预测】最早研究者只想做一件事:给 AI 几帧画面,让它预测下一帧。即使是 MIT 那种顶级实验室,也只能预测出几帧模糊的运动,看起来像鬼画符。
【2017-2019 · GAN 视频时代】配合 GAN,研究者尝试做"视频版 StyleGAN"。MoCoGAN、TGAN 能生成 1-2 秒的低分辨率视频,但角色一秒一变形,完全没有商用可能。
【2022 · 文生视频起步】Make-A-Video (Meta)、Imagen Video (Google)、Phenaki 相继发布。它们把成熟的扩散模型从图像扩展到视频——但生成的视频几乎都是 4 秒、240p 模糊度,主角时不时多长一只手或者瞬间瞬移。
【2023 · Runway Gen 系列开启商用】Runway Gen-2 是第一个真正能用的商业产品。普通用户输入一句话或一张图,能生成 4 秒能看的视频。但运动幅度小、长镜头一致性差。
【2024.02 · Sora 的范式转换】OpenAI 发布 Sora 演示。它不再"逐帧"生成,而是直接学习物理世界——重力、碰撞、光线、布料褶皱都符合常识。它把视频拆成"时空 patch",用 DiT (Diffusion Transformer) 在时间和空间两个维度同时建模。Sora 一夜把行业基准推到分钟级原生时长。