视频模型 - AI话题

2025-12-01

多模态大模型爆发

Step-Audio-R1、Vidi2、Kling Omni等音视频/视频大模型密集发布，Gemini-3、GPT-5.1同步升级，多模态能力从“可用”跃升为“好用”，直接冲击影视、短视频、广告等内容生产链条，开启“零门槛创作”时代。

多模态视频模型音频模型 GPT-5 Gemini-3

2025-11-06

多模态基础模型井喷

谷歌Gemini 3 Pro支持百万上下文，北大字节Open-o3 Video实现时空推理透明化，英伟达OmniVinci全模态开源。视频、3D、语音一体化生成与理解成为新SOTA，拉开“通用感知”序幕。

多模态视频模型全模态 Gemini OmniVinci

2025-08-11

多模态生成与3D/视频模型爆发

谷歌Genie 3、阿里Wan2.1-I2V-Flash、虚拟试穿Voost、图生视频SkyReels-A3等密集发布，实现秒级交互式3D世界、高保真纹理还原及语音对口型，显示多模态生成正从“可用”走向“好用”，重塑电商、影视、UGC内容生产链。

多模态 3D生成视频模型虚拟试穿 Genie3

2025-07-17

多模态内容生成升级

ChatGPT新增音频转录与录音模式，MidJourney将开企业API，VEO 3、Gemma 3集中亮相，上海AI Lab推出电影镜头理解模型ShotVL，显示文本、图像、视频、语音一体化生成进入可用级阶段。

多模态内容生成音频转录视频模型 ShotVL

2025-05-16

多模态生成与3D内容创作

阿里开源 Wan2.1-VACE 全能视频模型，阶跃星辰发布 Step1X-3D 引擎并开源训练链路，腾讯混元图像 2.0 实现毫秒级实时生图，Manus 推出图像生成 Agent，显示国内在多模态与 3D AIGC 领域的集群式突破。

多模态生成 3D内容视频模型实时生图开源

2024-12-20

多模态生成大爆发

Stable Diffusion 3.5、UniReal、MagicDriveDiT、Krea AI等图像/视频生成模型升级，支持中间帧控制、秒级产品合成、自动驾驶街景等场景，降低内容创作与数据生产成本，推动营销、影视、自动驾驶仿真快速落地。

多模态生成视频模型 StableDiffusion 自动驾驶内容创作

2024-11-29

多模态大模型爆发

文本-图像-视频一体化生成成为新战场：Stability AI升级SD3.5L ControlNet，Rhymes AI推出Allegro-TI2V，腾讯发布“最懂镜头”的Sora级模型；vivo与港中文把3B多模态模型塞进手机。生成式AI正从“能说话”走向“能拍片”，内容创作门槛将被进一步抹平，影视、广告、社交等行业面临重塑。

多模态生成视频模型 StableDiffusion Allegro-TI2V 手机端大模型

2024-11-26

多模态大模型与内容生成

Runway、Luma、NVIDIA、阿里等密集发布图像/视频/音频/3D生成模型，支持文本到多模态一键创作，降低专业门槛，重塑影视、广告、社交内容生产链，标志AIGC进入可商用高产阶段。

多模态生成视频模型音频合成 AIGC

2024-10-18

多模态大模型爆发

Meta、复旦-百度、英伟达-MIT-清华等密集发布视频/图像/语音多模态模型，4K超长视频、0.37秒手机出图、情绪语音成为新标杆，标志生成式AI进入高分辨率、实时化、多感官时代，将重塑内容生产与交互体验。

多模态生成视频模型图像模型实时交互

2024-10-16

多模态生成技术井喷

Adobe Firefly视频、Llama 3.2视觉、Animate-X动画、TANGO全身视频等模型集中发布，文本/音频/图像一键生成高保真视频成为行业标配，降低创作门槛并重塑内容生产流程。

多模态生成视频模型 Adobe Firefly Animate-X TANGO

2024-06-30

多模态生成模型爆发

Figma AI一句话生成UI、Diffusion4D一句话生成4D视频、Luma Dream Machine关键帧视频、NUS实时DiT视频生成等密集发布，显示多模态生成正从“可用”走向“实时、可控、开源”，将重塑设计、影视、XR内容生产流程。

多模态生成视频模型实时推理开源数据集内容创作

AI快开门

发现最好的AI工具

# 视频模型

多模态大模型爆发

多模态基础模型井喷

多模态生成与3D/视频模型爆发

多模态内容生成升级

多模态生成与3D内容创作

多模态生成大爆发

多模态大模型爆发

多模态大模型与内容生成

多模态大模型爆发

多模态生成技术井喷

多模态生成模型爆发