AI快开门

发现最好的AI工具

2025-10-18

多模态大模型与视频生成突破

Google AI Studio统一Playground、百度分钟级长视频与蒸汽机模型、北大-牛津CVM一致性挑战赛等,显示多模态生成正从“能生成”走向“高一致、可商用”。视频时长、角色一致、端侧推理速度等核心痛点被集中攻克,为广告、影视、UGC平台带来即刻落地的新产能。
2025-08-26

超长语音与视频生成突破

微软开源VibeVoice系列TTS模型,支持90分钟多人对话级中文合成;谷歌Imagen 4登陆Gemini API;港大&可灵提出“记忆检索”实现长视频一致性;GPT-5视频Agent一句话生成商业广告,多模态生成进入“长时高清”新阶段。
2024-11-13

多模态生成突破

斯坦福“场景语言”一句话生成3D、生数Vidu 1.5解决多主体一致性、YouTube AI音乐重混、PlayDialog语音播客等密集上线,多模态生成从实验室走向消费级应用,内容创作门槛再降,版权与监管挑战加剧。