AI Navigator 2026

视觉与多模态

AI "看图"和"画图"本质是一回事：理解像素背后的世界。从 2012 年学会识别猫，到 2014 年靠两个网络互相打架学会画图，再到 2022 年扩散模型横扫一切——这是从"看懂世界"到"重塑世界"的转变。

从"识别像素"到"创造像素"

让机器"看懂"和"画出"图像是计算机视觉的两大终极目标，而这两条路在 2020 年代意外汇合了。

【1990s-2010 · 手工特征时代】最早做图像识别要靠人手设计特征——边缘检测、颜色直方图、SIFT/HOG 算法。识别一只猫，工程师得告诉机器"猫有两只尖耳朵、有胡须"。准确率低、泛化差。

【2012 · CNN 革命】Hinton 团队的 AlexNet 在 ImageNet 比赛上以碾压成绩夺冠，把错误率从 26% 砍到 15%。它用的卷积神经网络 (CNN) 让机器自己从海量图片中学习什么是猫——AI 视觉时代正式开启。后续的 VGG、ResNet 把识别准确率推到超越人类。

【2014 · GAN 诞生：让 AI "画"图】Ian Goodfellow 提出生成对抗网络 (GAN)：一个网络负责"画"，一个网络负责"鉴别真伪"，两者互相博弈。2017 年的 StyleGAN 已经能生成几乎以假乱真的人脸——但 GAN 训练极不稳定、画面种类单一。

【2015-2020 · 扩散模型潜伏期】学界提出了一个新思路：先把图加噪声变成雪花，再训练 AI 一步步把雪花"还原"回清晰图。这就是 Diffusion 扩散模型，但当时算力跟不上，被 GAN 压制了好几年。

【2021-2022 · CLIP 与 Diffusion 大爆发】OpenAI 的 CLIP 学会了把"文字"和"图像"放进同一个语义空间——AI 第一次能"理解"一句描述对应什么画面。配合扩散模型，DALL-E 2、Stable Diffusion、Midjourney 在 2022 年同年爆发，AI 绘画从此飞入寻常百姓家。

【2023 · 可控性革命】ControlNet 让用户能用线稿、深度图精确控制画面构图，AI 绘画从"碰运气抽卡"变成"精确指挥"。

【2024-2026 · DiT 架构与文字渲染】SD3、FLUX 把扩散模型的 U-Net 换成 Transformer (DiT)，远景一致性和文字渲染获得质的飞跃——AI 终于能在画里把字写对了。同时端侧推理速度突破，鼠标涂鸦实时变成照片级图像成为常态。

【今天】AI 视觉已经从"识别像素"演化到"模拟物理世界"。3D 一致性、光影计算、毫秒级实时重绘，让数字内容的生产成本从小时级压到秒级。

AI 厂商图谱

Midjourney

独立实验室

Midjourney V6：商业美学模型，闭源

Stability AI

开源先驱

Stable Diffusion 3.5：可控生成基座，开源

FLUX (Black Forest)

开源黑马

FLUX.1：下一代开源基座，开源

Recraft

专业设计平台

Recraft V3：矢量/栅格设计引擎，闭源

Ideogram

创意新锐

Ideogram 2.0：文字排版特化模型，闭源

Krea AI

实时渲染新锐

Krea Real-time：超低延迟视觉引擎，闭源

Leonardo AI

游戏资产引擎

Leonardo Phoenix：生产力管线，闭源

Adobe Firefly

设计软件霸主

Firefly Image 3：商用级安全引擎，闭源

腾讯混元

国产巨头

Hunyuan-DiT：中文原生视觉基座，开源

字节跳动豆包

大厂流量王

Doubao Image：通用视觉模型，闭源

技术演进时间线

1998 LeNet 与卷积启蒙：Yann LeCun 提出 LeNet-5，用卷积神经网络识别手写数字。这是深度视觉的最初雏形，但因算力不足沉寂十多年。
2012 AlexNet 横扫 ImageNet：Hinton 团队的 AlexNet 用 GPU 训练，在 ImageNet 比赛上以 15.3% 的错误率碾压第二名 (26%)。深度学习视觉时代正式开启，CNN 成为核心架构。
2014 GAN 诞生：AI 学会画画：Ian Goodfellow 提出生成对抗网络。一个网络画图、一个网络鉴别真伪，两者互相博弈。AI 第一次有了"创造"图像的能力。
2015-2017 StyleGAN 与照片级人脸：NVIDIA 的 StyleGAN 系列让生成的人脸几乎以假乱真。但 GAN 训练极不稳定、生成种类单一，难以推广到通用文生图。
2020-2021 CLIP 与扩散模型相遇：OpenAI 的 CLIP 把文本和图像放进同一个语义空间——AI 第一次"看懂"一句描述对应什么画面。同时扩散模型 (DDPM) 在算力支撑下被重新发掘。
2022 AI 绘画三大爆发：DALL-E 2、Midjourney V3、Stable Diffusion 1.5 同年问世。AI 出图从"诡异抽象"突变到"看起来还行"，设计圈第一次震动。Stable Diffusion 开源更让全球开发者疯狂涌入。
2023 ControlNet：从抽卡到指挥：张吕敏发表 ControlNet 论文，让用户能用线稿、深度图、姿势骨架精确控制 AI 画面。AI 绘画从"碰运气"变成"精确指挥"。
2024 DiT 架构与文字渲染：SD3 与 FLUX 把扩散模型的 U-Net 换成 Transformer (DiT)。AI 终于能在画里把英文/中文字写对——这点之前所有模型都做不到。
2025 实时流式生成：推理速度突破，端侧 GPU 上鼠标涂鸦实时变成照片级图像成为常态。Krea、Photoshop AI 让设计工作流彻底改写。
2026 3D 隐空间打通：从单张图片到 3D 网格、法线贴图、多视角一致性的一键生成成为可能。游戏资产工业的生产成本被压到原来的几十分之一。