2025-12-11
多模态大模型竞速
阿里Qwen3-Omni-Flash、谷歌Gemini TTS 2.5、Meta Avocado等全模态/语音/图像模型密集发布,OpenAI GPT-5.2与GPT Image 2同步内测,巨头围绕“实时交互+情绪级语音+太空训练”展开技术军备赛,标志生成式AI进入全感官时代,直接决定2026年模型格局与云边端部署标准。
2025-10-30
边缘与语音模型革新
IBM Granite4.0Nano瞄准边缘AI开源小型化;MiniMax Speech 2.6实现250ms超低延迟与任意音色一键复刻;高通AI200/250云端芯片首秀,挑战英伟达垄断,边缘-云协同算力格局生变。
2025-06-08
AI4Science与产业应用落地
清华与智源联合推出DrugCLIP,虚拟筛选速度提升百万倍,打通AlphaFold到新药发现;同时AI修图3.0、Eleven v3情感TTS、ComfyMind一站式视觉生成等工具密集升级,显示AI在科研、创意、内容生产全线进入可用级。
2025-05-15
语音模型人格化浪潮
MiniMax新一代语音模型横扫OpenAI、ElevenLabs登顶,Stability AI开源341M超轻TTS可在手机8秒出音频,讯飞AI耳机三年调用破千亿次,人格化、低延迟、端侧部署成为语音赛道新门槛。
2025-04-02
语音&音乐AI新场景落地
MiniMax Speech-02支持20万字符超长语音合成,ElevenLabs推出“Text To Bark”犬类语音模型,百度跨模态端到端交互成本降90%,Reply举办AI音乐大赛,语音生成从“能听”走向“好用”并切入情感陪伴与创意生产。
2025-03-01
多模态小模型突破
微软发布56亿参数Phi-4-multimodal,在读图推理上超越GPT-4o;港科大等验证语音合成Scaling Law,小参数模型实现高性能,边缘部署前景广阔。
2024-12-04
生成式AI颠覆创意产业
谷歌、亚马逊、Hailuo等密集发布Imagen 3、Veo、Nova、I2V-01-Live等文生图/视频模型,ElevenLabs推对话式语音平台,静态插画秒变动态、单图生成3D世界,创意工作流面临全面重塑,音乐、设计、视频等行业收入结构将剧烈调整。
2024-10-24
多模态生成加速
OpenAI sCM将图像生成提速50倍,0.1秒出图;OmniGen统一图像生成与编辑,ElevenLabs Voice Design文字秒变个性化语音,多模态内容生产进入“实时”阶段,降低创作门槛,冲击设计、影视、配音行业。