2025-12-05
巨头模型密集上新
OpenAI、谷歌、英伟达、火山引擎等两周内集中发布新一代大模型或框架:GPT-5.1-Codex-Max、Gemini 3 Pro/Deep Think、VibeVoice-Realtime、豆包语音识别2.0等,性能与性价比双升,标志基座模型竞争进入“毫秒级实时+多模态+低价”阶段,直接重塑下游应用成本与体验基准。
2025-11-13
AI语音实时交互升级
谷歌Gemini Live新增语速/口音调节,ElevenLabs推出150毫秒延迟的Scribe v2实时语音转文本并上线名人声音市场,OpenAI GPT-5.1内置6种人格语音模式,语音大模型在延迟、情感、多语言上集体突破,推动实时翻译、直播、虚拟人场景快速普及。
2025-08-29
语音/多模态大模型突破
OpenAI、微软、MiniMax等密集发布原生语音或多模态模型,支持实时对话、图像输入、长语音生成,交互体验逼近人类水平,为AI助手、播客、视频创作打开增量市场,标志生成式AI从文本向“全能模态”跃迁。
2024-10-31
实时语音交互爆发
谷歌2分钟语音3秒克隆、OpenAI高级语音登陆桌面并降价50%,Cartesia推保留语气转换模型,声网RTE技术受追捧,实时多模态交互成为AI应用新入口,将重塑客服、翻译、直播、社交场景。
2024-05-15
OpenAI GPT-4o 全能模型发布
OpenAI 发布原生多模态旗舰模型 GPT-4o,实现文本/视觉/音频端到端实时交互,API 成本更低、速度更快,并免费开放给所有 ChatGPT 用户,被视为语音助手与通用 AI 体验的新里程碑。