语音合成 - AI话题

2025-12-11

多模态大模型竞速

阿里Qwen3-Omni-Flash、谷歌Gemini TTS 2.5、Meta Avocado等全模态/语音/图像模型密集发布，OpenAI GPT-5.2与GPT Image 2同步内测，巨头围绕“实时交互+情绪级语音+太空训练”展开技术军备赛，标志生成式AI进入全感官时代，直接决定2026年模型格局与云边端部署标准。

全模态语音合成图像生成模型迭代太空训练

2025-10-30

边缘与语音模型革新

IBM Granite4.0Nano瞄准边缘AI开源小型化；MiniMax Speech 2.6实现250ms超低延迟与任意音色一键复刻；高通AI200/250云端芯片首秀，挑战英伟达垄断，边缘-云协同算力格局生变。

边缘AI 语音合成高通 IBM 算力

2025-06-08

AI4Science与产业应用落地

清华与智源联合推出DrugCLIP，虚拟筛选速度提升百万倍，打通AlphaFold到新药发现；同时AI修图3.0、Eleven v3情感TTS、ComfyMind一站式视觉生成等工具密集升级，显示AI在科研、创意、内容生产全线进入可用级。

AI4Science 药物发现视觉生成语音合成产业落地

2025-05-15

语音模型人格化浪潮

MiniMax新一代语音模型横扫OpenAI、ElevenLabs登顶，Stability AI开源341M超轻TTS可在手机8秒出音频，讯飞AI耳机三年调用破千亿次，人格化、低延迟、端侧部署成为语音赛道新门槛。

语音合成 MiniMax TTS 端侧人格化

2025-04-02

语音&音乐AI新场景落地

MiniMax Speech-02支持20万字符超长语音合成，ElevenLabs推出“Text To Bark”犬类语音模型，百度跨模态端到端交互成本降90%，Reply举办AI音乐大赛，语音生成从“能听”走向“好用”并切入情感陪伴与创意生产。

语音合成 TTS 多模态交互 AI音乐 MiniMax

2025-03-01

多模态小模型突破

微软发布56亿参数Phi-4-multimodal，在读图推理上超越GPT-4o；港科大等验证语音合成Scaling Law，小参数模型实现高性能，边缘部署前景广阔。

Phi-4 多模态语音合成 Scaling Law 小模型

2024-12-04

生成式AI颠覆创意产业

谷歌、亚马逊、Hailuo等密集发布Imagen 3、Veo、Nova、I2V-01-Live等文生图/视频模型，ElevenLabs推对话式语音平台，静态插画秒变动态、单图生成3D世界，创意工作流面临全面重塑，音乐、设计、视频等行业收入结构将剧烈调整。

文生视频 3D生成创意工作流音乐收入语音合成

2024-10-24

多模态生成加速

OpenAI sCM将图像生成提速50倍，0.1秒出图；OmniGen统一图像生成与编辑，ElevenLabs Voice Design文字秒变个性化语音，多模态内容生产进入“实时”阶段，降低创作门槛，冲击设计、影视、配音行业。

多模态实时生成 sCM OmniGen 语音合成

2024-06-28

数字人与AI语音商业化加速

硅基智能开源Duix平台、ToucanTTS支持7000种语言、Instagram与Meta推出AI Studio，让个人与企业可低成本打造数字分身与合成语音，虚拟主播、客服、社交陪伴场景快速落地。

数字人 Duix ToucanTTS AIStudio 语音合成

AI快开门

发现最好的AI工具

# 语音合成