2025-12-01
多模态大模型爆发
Step-Audio-R1、Vidi2、Kling Omni等音视频/视频大模型密集发布,Gemini-3、GPT-5.1同步升级,多模态能力从“可用”跃升为“好用”,直接冲击影视、短视频、广告等内容生产链条,开启“零门槛创作”时代。
2025-11-06
多模态基础模型井喷
谷歌Gemini 3 Pro支持百万上下文,北大字节Open-o3 Video实现时空推理透明化,英伟达OmniVinci全模态开源。视频、3D、语音一体化生成与理解成为新SOTA,拉开“通用感知”序幕。
2025-08-11
多模态生成与3D/视频模型爆发
谷歌Genie 3、阿里Wan2.1-I2V-Flash、虚拟试穿Voost、图生视频SkyReels-A3等密集发布,实现秒级交互式3D世界、高保真纹理还原及语音对口型,显示多模态生成正从“可用”走向“好用”,重塑电商、影视、UGC内容生产链。
2025-07-17
多模态内容生成升级
ChatGPT新增音频转录与录音模式,MidJourney将开企业API,VEO 3、Gemma 3集中亮相,上海AI Lab推出电影镜头理解模型ShotVL,显示文本、图像、视频、语音一体化生成进入可用级阶段。
2025-05-16
多模态生成与3D内容创作
阿里开源 Wan2.1-VACE 全能视频模型,阶跃星辰发布 Step1X-3D 引擎并开源训练链路,腾讯混元图像 2.0 实现毫秒级实时生图,Manus 推出图像生成 Agent,显示国内在多模态与 3D AIGC 领域的集群式突破。
2024-12-20
多模态生成大爆发
Stable Diffusion 3.5、UniReal、MagicDriveDiT、Krea AI等图像/视频生成模型升级,支持中间帧控制、秒级产品合成、自动驾驶街景等场景,降低内容创作与数据生产成本,推动营销、影视、自动驾驶仿真快速落地。
2024-11-29
多模态大模型爆发
文本-图像-视频一体化生成成为新战场:Stability AI升级SD3.5L ControlNet,Rhymes AI推出Allegro-TI2V,腾讯发布“最懂镜头”的Sora级模型;vivo与港中文把3B多模态模型塞进手机。生成式AI正从“能说话”走向“能拍片”,内容创作门槛将被进一步抹平,影视、广告、社交等行业面临重塑。
2024-11-26
多模态大模型与内容生成
Runway、Luma、NVIDIA、阿里等密集发布图像/视频/音频/3D生成模型,支持文本到多模态一键创作,降低专业门槛,重塑影视、广告、社交内容生产链,标志AIGC进入可商用高产阶段。
2024-10-18
多模态大模型爆发
Meta、复旦-百度、英伟达-MIT-清华等密集发布视频/图像/语音多模态模型,4K超长视频、0.37秒手机出图、情绪语音成为新标杆,标志生成式AI进入高分辨率、实时化、多感官时代,将重塑内容生产与交互体验。
2024-10-16
多模态生成技术井喷
Adobe Firefly视频、Llama 3.2视觉、Animate-X动画、TANGO全身视频等模型集中发布,文本/音频/图像一键生成高保真视频成为行业标配,降低创作门槛并重塑内容生产流程。