AI Navigator 2026
视觉与多模态
AI "看图"和"画图"本质是一回事:理解像素背后的世界。从 2012 年学会识别猫,到 2014 年靠两个网络互相打架学会画图,再到 2022 年扩散模型横扫一切——这是从"看懂世界"到"重塑世界"的转变。
从"识别像素"到"创造像素"
让机器"看懂"和"画出"图像是计算机视觉的两大终极目标,而这两条路在 2020 年代意外汇合了。
【1990s-2010 · 手工特征时代】最早做图像识别要靠人手设计特征——边缘检测、颜色直方图、SIFT/HOG 算法。识别一只猫,工程师得告诉机器"猫有两只尖耳朵、有胡须"。准确率低、泛化差。
【2012 · CNN 革命】Hinton 团队的 AlexNet 在 ImageNet 比赛上以碾压成绩夺冠,把错误率从 26% 砍到 15%。它用的卷积神经网络 (CNN) 让机器自己从海量图片中学习什么是猫——AI 视觉时代正式开启。后续的 VGG、ResNet 把识别准确率推到超越人类。
【2014 · GAN 诞生:让 AI "画"图】Ian Goodfellow 提出生成对抗网络 (GAN):一个网络负责"画",一个网络负责"鉴别真伪",两者互相博弈。2017 年的 StyleGAN 已经能生成几乎以假乱真的人脸——但 GAN 训练极不稳定、画面种类单一。
【2015-2020 · 扩散模型潜伏期】学界提出了一个新思路:先把图加噪声变成雪花,再训练 AI 一步步把雪花"还原"回清晰图。这就是 Diffusion 扩散模型,但当时算力跟不上,被 GAN 压制了好几年。
【2021-2022 · CLIP 与 Diffusion 大爆发】OpenAI 的 CLIP 学会了把"文字"和"图像"放进同一个语义空间——AI 第一次能"理解"一句描述对应什么画面。配合扩散模型,DALL-E 2、Stable Diffusion、Midjourney 在 2022 年同年爆发,AI 绘画从此飞入寻常百姓家。
【2023 · 可控性革命】ControlNet 让用户能用线稿、深度图精确控制画面构图,AI 绘画从"碰运气抽卡"变成"精确指挥"。
【2024-2026 · DiT 架构与文字渲染】SD3、FLUX 把扩散模型的 U-Net 换成 Transformer (DiT),远景一致性和文字渲染获得质的飞跃——AI 终于能在画里把字写对了。同时端侧推理速度突破,鼠标涂鸦实时变成照片级图像成为常态。
【今天】AI 视觉已经从"识别像素"演化到"模拟物理世界"。3D 一致性、光影计算、毫秒级实时重绘,让数字内容的生产成本从小时级压到秒级。
AI 厂商图谱
Midjourney
独立实验室
Stability AI
开源先驱
- Stable Diffusion 3.5:可控生成基座,开源
FLUX (Black Forest)
开源黑马
Recraft
专业设计平台
Ideogram
创意新锐
Krea AI
实时渲染新锐
- Krea Real-time:超低延迟视觉引擎,闭源
Leonardo AI
游戏资产引擎
- Leonardo Phoenix:生产力管线,闭源
Adobe Firefly
设计软件霸主
- Firefly Image 3:商用级安全引擎,闭源
腾讯 混元
国产巨头
字节跳动 豆包
大厂流量王
技术演进时间线
- 1998 LeNet 与卷积启蒙:Yann LeCun 提出 LeNet-5,用卷积神经网络识别手写数字。这是深度视觉的最初雏形,但因算力不足沉寂十多年。
- 2012 AlexNet 横扫 ImageNet:Hinton 团队的 AlexNet 用 GPU 训练,在 ImageNet 比赛上以 15.3% 的错误率碾压第二名 (26%)。深度学习视觉时代正式开启,CNN 成为核心架构。
- 2014 GAN 诞生:AI 学会画画:Ian Goodfellow 提出生成对抗网络。一个网络画图、一个网络鉴别真伪,两者互相博弈。AI 第一次有了"创造"图像的能力。
- 2015-2017 StyleGAN 与照片级人脸:NVIDIA 的 StyleGAN 系列让生成的人脸几乎以假乱真。但 GAN 训练极不稳定、生成种类单一,难以推广到通用文生图。
- 2020-2021 CLIP 与扩散模型相遇:OpenAI 的 CLIP 把文本和图像放进同一个语义空间——AI 第一次"看懂"一句描述对应什么画面。同时扩散模型 (DDPM) 在算力支撑下被重新发掘。
- 2022 AI 绘画三大爆发:DALL-E 2、Midjourney V3、Stable Diffusion 1.5 同年问世。AI 出图从"诡异抽象"突变到"看起来还行",设计圈第一次震动。Stable Diffusion 开源更让全球开发者疯狂涌入。
- 2023 ControlNet:从抽卡到指挥:张吕敏发表 ControlNet 论文,让用户能用线稿、深度图、姿势骨架精确控制 AI 画面。AI 绘画从"碰运气"变成"精确指挥"。
- 2024 DiT 架构与文字渲染:SD3 与 FLUX 把扩散模型的 U-Net 换成 Transformer (DiT)。AI 终于能在画里把英文/中文字写对——这点之前所有模型都做不到。
- 2025 实时流式生成:推理速度突破,端侧 GPU 上鼠标涂鸦实时变成照片级图像成为常态。Krea、Photoshop AI 让设计工作流彻底改写。
- 2026 3D 隐空间打通:从单张图片到 3D 网格、法线贴图、多视角一致性的一键生成成为可能。游戏资产工业的生产成本被压到原来的几十分之一。