ElevenLabs
语音巨头
- Eleven v3:情感语音合成,闭源
让机器开口说话比想象中难——人耳对声音异常敏感,差一点就出戏。从 80 年代的拼接合成、到 2016 年 WaveNet 神经音频、再到 2023 年 ElevenLabs 让 AI 能哭能笑——这条路花了四十年,最后一公里却走得飞快。
让机器"说话"和"作曲"是 AI 最早起步、却最晚突破的领域。原因很简单:人耳对自然语言的瑕疵异常敏感,差一点就让人觉得"不对劲"。
【1980s · 拼接式合成 (Concatenative TTS)】最早的方案是把真人的声音录下来,按音节切碎,再像拼图一样按需拼接。诺基亚手机的"短信送达"、Windows XP 的辅助朗读都是这条路。优点是音质还行,缺点是机械感扑面而来——一听就是机器。
【1990s-2010s · 参数式合成 (Parametric TTS)】改用统计模型预测声音参数,HMM、SPSS 让合成成本下降,但音色更"塑料",更像电话客服。
【2016 · WaveNet 革命】DeepMind 发布 WaveNet,第一次用神经网络直接生成原始波形——每秒 16000 个采样点都由 AI 预测。音质突然达到接近真人水平,但生成速度极慢,一句话要算几分钟。
【2018-2020 · Tacotron 与 FastSpeech】Google Tacotron、微软 FastSpeech 把"文字 → 频谱图 → 波形"流水线打通,速度暴增到实时。但情感表达仍然平淡,缺少"温度"。
【2023 · ElevenLabs 一战封神】ElevenLabs 用流匹配 (Flow Matching) 架构,让 AI 第一次能精准表达笑声、哽咽、愤怒、撒娇等复杂情感。零样本克隆——给它 3 秒你的声音,它就能用你的音色读任何文字。从此有声书、播客、视频解说全面 AI 化。
【2023-2024 · Suno 与 Udio:全民音乐人】音乐生成走的是另一条路。Suno V3 让完全不懂乐理的人输入两句歌词就能"造"出一首流行乐,包含人声、配器、混音。Udio 紧随其后主打更高音质。
【2024-2025 · 全双工低延迟】GPT-4o、豆包语音、阶跃星辰等让语音延迟降到百毫秒级,"AI 边听边说、随时打断"成为可能。智能硬件、车机、客服全面切换原生语音 AI。
【今天】AI 声音已经从"塑料感的棒读"变成几乎完全无法用人耳分辨真伪,从说话到唱歌无所不能。
语音巨头
硅谷巨头
音乐生成
音乐生成
大厂流量王
语音起家新锐
国产新锐
情感 AI 独角兽
开源之光