实时语音 - AI话题 - AI快开门

2025-12-05

巨头模型密集上新

OpenAI、谷歌、英伟达、火山引擎等两周内集中发布新一代大模型或框架：GPT-5.1-Codex-Max、Gemini 3 Pro/Deep Think、VibeVoice-Realtime、豆包语音识别2.0等，性能与性价比双升，标志基座模型竞争进入“毫秒级实时+多模态+低价”阶段，直接重塑下游应用成本与体验基准。

大模型发布实时语音多模态性价比巨头竞争

2025-11-13

AI语音实时交互升级

谷歌Gemini Live新增语速/口音调节，ElevenLabs推出150毫秒延迟的Scribe v2实时语音转文本并上线名人声音市场，OpenAI GPT-5.1内置6种人格语音模式，语音大模型在延迟、情感、多语言上集体突破，推动实时翻译、直播、虚拟人场景快速普及。

实时语音 Gemini Live ElevenLabs 语音转文本情感语音

2025-08-29

语音/多模态大模型突破

OpenAI、微软、MiniMax等密集发布原生语音或多模态模型，支持实时对话、图像输入、长语音生成，交互体验逼近人类水平，为AI助手、播客、视频创作打开增量市场，标志生成式AI从文本向“全能模态”跃迁。

实时语音多模态长语音生成交互体验

2024-10-31

实时语音交互爆发

谷歌2分钟语音3秒克隆、OpenAI高级语音登陆桌面并降价50%，Cartesia推保留语气转换模型，声网RTE技术受追捧，实时多模态交互成为AI应用新入口，将重塑客服、翻译、直播、社交场景。

实时语音 OpenAI 谷歌 Cartesia 声网

2024-05-15

OpenAI GPT-4o 全能模型发布

OpenAI 发布原生多模态旗舰模型 GPT-4o，实现文本/视觉/音频端到端实时交互，API 成本更低、速度更快，并免费开放给所有 ChatGPT 用户，被视为语音助手与通用 AI 体验的新里程碑。

GPT-4o 多模态实时语音 OpenAI ChatGPT

2024-05-14

GPT-4o多模态实时交互

OpenAI发布GPT-4o，实现文本、语音、视觉端到端实时交互，免费向全体用户开放，刷新大模型体验天花板，引爆“Her”式语音助手竞争，谷歌、苹果紧急跟进。

GPT-4o 多模态实时语音 OpenAI 免费