视频 - AI话题 - AI快开门

2026-01-14

AI创作工具爆发

Vidu推出一键生成MV功能，可灵AI年化收入达2.4亿美元，快手视频生成模型商业化成功；谷歌Veo3.1支持原生竖屏视频，PixVerse R1发布实时世界模型。AI视频创作工具正从概念走向大规模商业应用。

AI视频内容创作可灵 Vidu 商业化

2026-01-07

开源追赶闭源差距缩小

黄仁勋称开源大模型与闭源顶流仅差6个月，DeepSeek、Qwen、Kimi等中国模型在CES被老黄“点名验货”；Lightricks开源LTX-2可本地生成20秒4K同步音视频，开源生态加速缩小性能与体验差距。

开源模型 DeepSeek 中英竞争视频生成技术追赶

2025-12-29

多模态与视频生成创新

字节开源StoryMem框架以“视觉记忆”实现多镜头一分钟叙事视频，角色场景一致不“变脸”；Insta360推出全景深度模型DAP，200万360°数据刷新空间智能；NVIDIA发布游戏基础模型NitroGen，视频-动作多模态应用持续拓宽内容创作与交互边界。

视频生成 StoryMem 全景深度 NitroGen 多模态

2025-12-26

多模态内容生成与交互体验升级

ChatGPT新增富文本块、小红书开源InstanceAssemble精准排版、快看AI互动漫画上线、TurboDiffusion单卡2秒出视频，显示多模态生成正从“能出图”走向“可控、可交互、可商用”的新阶段。

多模态生成富文本图像排版互动漫画视频生成

2025-12-25

AI视频生成提速200倍

清华与生数科技开源TurboDiffusion框架，通过稀疏注意力与SageAttention把扩散模型推理提速100-200倍，消费级显卡即可秒级生成高分辨率视频，成本与门槛骤降，有望引爆短视频、广告、游戏等UGC内容生态。

视频生成 TurboDiffusion 清华开源实时推理

2025-12-24

AI for Science与视频生成效率革命

深势科技8亿融资、TurboDiffusion 200倍加速、VTP视觉分词器开源等进展，显示AI在科学计算与视频生成两大高算力场景实现“低成本秒级”跃迁，科研与创意内容生产门槛被快速抹平，AI正从“可用”走向“好用、敢用”。

AI4S 视频生成科学计算加速开源

2025-12-21

多模态与生成控制新范式

浙大ContextGen、CineCtrl、DualCamCtrl等研究实现布局-身份一致、相机运镜精准控制，把“生成”推向“可控工业级”，降低视频、图像创作门槛，支撑下一代内容生产管线。

多模态生成布局控制相机运镜视频生成工业级

2025-12-18

多模态视频生成升级

阿里通义万相2.6、字节Seedance 1.5 Pro等模型新增音画同步、多镜头叙事、角色一致性等功能，国产视频生成综合体验超越Sora 2，推动AIGC内容工业化生产。

视频生成通义万相 Seedance 音画同步 AIGC

2025-12-16

AI视频与IP内容生态

OpenAI与迪士尼达成“股权换IP”独家合作，Sora获200+经典角色授权；阿里万相2.6升级角色扮演与多分镜15秒生成；谷歌Gemini深度研究助手上线，AI视频、角色生成进入好莱坞级工业流程，重塑内容生产与版权规则。

Sora 迪士尼IP AI视频万相2.6 Gemini深度研究

2025-12-14

世界模型与多模态生成

Runway发布通用世界模型GWM系列，可同步模拟环境、人物与机器人操作；谷歌升级Gen-4.5，SIGGRAPH Asia亦展示30→200FPS的4D重建方案。生成式AI正从“出图”走向“出世界”，为影视、机器人和元宇宙提供可交互的物理一致场景，重新定义内容生产管线。

世界模型视频生成 4D重建 Runway 多模态

2025-12-12

视频/3D生成与多模态应用

Runway发布通用世界模型GWM-1，智谱开源视频生成核心技术，港大ViMax实现AI自编自导自演，谷歌升级虚拟试穿，Medeo AI推视频Agent一键改剧本，多模态生成从2D图像迈向可推理、可交互的3D世界，内容生产门槛进一步降低。

视频生成世界模型多模态 3D 虚拟试穿

2025-12-08

多模态内容生成突破

苹果STARFlow-V、可灵AI主体库、阿里Qwen3-TTS、美团LongCat-Image等集中发布，实现30秒稳定视频、角色一致记忆、49种音色及中文图文编辑SOTA，多模态AIGC进入可用级时代。

视频生成 TTS 图像编辑多模态 AIGC

2025-12-07

Scaling终结与架构革新

Ilya、LeCun等顶尖学者公开宣告“纯靠堆参数”的Scaling Law进入收益递减期，行业开始转向原生多模态、视频推理、酶设计等新架构。NEO、Sora2、RFdiffusion2等模型验证“小算力+聪明结构”可超越传统大模型，标志AI研发范式从“越大越好”迈入“越巧越好”的新阶段，对芯片需求、创业路径和投资逻辑产生连锁冲击。

Scaling Law 原生多模态视频推理酶设计架构革新

2025-12-03

AI视频生成进入有声电影时代

Runway Gen-4.5、快手可灵O1、Kling 2.6等模型实现物理光影、重量感、多主体参考及原生音频同步生成，Elo评分登顶Video Arena，标志着AI视频从“无声短片”跃迁至可商用影视级制作，冲击传统内容工业。

AI视频生成 Runway Gen-4.5 可灵O1 Kling 有声视频

2025-12-02

AI视频生成升级战

Runway Gen-4.5、PixVerse V5.5、可灵O1、爱诗科技等模型在光影物理、导演级分镜、音画同步上集体突破，120人团队盲测夺冠，宣告“秒级出片”进入工业可用阶段，冲击影视广告传统流程。

视频生成导演级分镜音画同步工业可用 Runway

2025-12-01

多模态大模型爆发

Step-Audio-R1、Vidi2、Kling Omni等音视频/视频大模型密集发布，Gemini-3、GPT-5.1同步升级，多模态能力从“可用”跃升为“好用”，直接冲击影视、短视频、广告等内容生产链条，开启“零门槛创作”时代。

多模态视频模型音频模型 GPT-5 Gemini-3

2025-11-19

视频/3D 生成进入实时时代

AI 视频生成提速 30% 并支持细节随手编辑，字节 Seed 发布单 Transformer 任意视角 3D 重建模型 DA3，影眸 Rodin 获头部游戏大单，30 秒即可输出可交互 3D 资产，UGC 二创与粉丝经济迎来全新内容供给范式。

AI视频 3D生成实时编辑字节Seed Rodin

2025-11-17

多模态生成新范式

Google Flow、Gemini Veo 3.1、DeepEyesV2等实现一键抠图、多图合成视频、轻量超大规模模型，多模态生成进入“秒级可用”阶段，内容创作门槛被进一步抹平。

多模态视频生成一键抠图 DeepEyes 内容创作

2025-11-15

AI Coding工具链竞速

Cursor再获23亿美元D轮，估值破160亿元，谷歌英伟达同时加码；字节Infinit论文挑战DiT视频生成，AI编程与内容生成工具在效率、成本、商业化三线激战，成为生成式AI最快变现场景。

AI编程 Cursor 视频生成 Infinit DiT

2025-11-13

空间智能与世界模型商用化

李飞飞World Labs发布首款3D世界模型Marble并开放免费版，可灵2.5Turbo上线“首尾帧”可控视频生成，宇树G1-D工作站实现人形机器人采集-训练-部署闭环，显示AI正从语言空间走向三维物理世界，空间智能进入可商用落地拐点。

空间智能世界模型 3D生成人形机器人可控视频

# 视频