实时 - AI话题 - AI快开门

2025-12-25

AI视频生成提速200倍

清华与生数科技开源TurboDiffusion框架，通过稀疏注意力与SageAttention把扩散模型推理提速100-200倍，消费级显卡即可秒级生成高分辨率视频，成本与门槛骤降，有望引爆短视频、广告、游戏等UGC内容生态。

视频生成 TurboDiffusion 清华开源实时推理

2025-12-22

多模态大模型技术突破

谷歌A2UI、阿里Qwen-Image-Layered、快手Kling 2.6等让AI实时生成界面、PS级图层与语音驱动视频，多模态能力进入“可用+可商用”阶段，直接降低内容创作与交互设计门槛。

多模态 A2UI 图层编辑 Kling 实时界面

2025-12-05

巨头模型密集上新

OpenAI、谷歌、英伟达、火山引擎等两周内集中发布新一代大模型或框架：GPT-5.1-Codex-Max、Gemini 3 Pro/Deep Think、VibeVoice-Realtime、豆包语音识别2.0等，性能与性价比双升，标志基座模型竞争进入“毫秒级实时+多模态+低价”阶段，直接重塑下游应用成本与体验基准。

大模型发布实时语音多模态性价比巨头竞争

2025-11-19

视频/3D 生成进入实时时代

AI 视频生成提速 30% 并支持细节随手编辑，字节 Seed 发布单 Transformer 任意视角 3D 重建模型 DA3，影眸 Rodin 获头部游戏大单，30 秒即可输出可交互 3D 资产，UGC 二创与粉丝经济迎来全新内容供给范式。

AI视频 3D生成实时编辑字节Seed Rodin

2025-11-13

AI语音实时交互升级

谷歌Gemini Live新增语速/口音调节，ElevenLabs推出150毫秒延迟的Scribe v2实时语音转文本并上线名人声音市场，OpenAI GPT-5.1内置6种人格语音模式，语音大模型在延迟、情感、多语言上集体突破，推动实时翻译、直播、虚拟人场景快速普及。

实时语音 Gemini Live ElevenLabs 语音转文本情感语音

2025-10-19

视频生成进入实时高清时代

英伟达联合MIT推出SANA-Video与LongLive，35秒生成1分钟27FPS高清视频，并开源交互式长视频框架，训练成本降99%，视频AI创作门槛被彻底击穿。

SANA-Video 实时生成 LongLive 英伟达

2025-10-18

AI产品交互与开发者体验

Figma创始人称“AI仍处MS-DOS时代”，Google AI Studio整合Playground、百度健康推出7×24 AI管家，显示“交互创新”正成为AI产品新战场。从对话窗口到地图实时 grounding，开发者与终端用户均要求更自然、低成本的交互范式，催生设计驱动型创业机会。

AI交互开发者体验实时grounding 产品设计 Figma

2025-10-17

多模态大模型突破

李飞飞团队RTFM实现单卡实时3D世界生成，谷歌Gemini 3.0 Pro、百度PaddleOCR-VL等刷新OCR与推理纪录，开源LLaVA-OneVision-1.5登顶多模态榜单，显示视觉-语言-动作统一模型正快速走向实用化，为下一代交互与内容生产奠定基础。

多模态实时3D OCR 开源视觉语言模型

2025-08-29

语音/多模态大模型突破

OpenAI、微软、MiniMax等密集发布原生语音或多模态模型，支持实时对话、图像输入、长语音生成，交互体验逼近人类水平，为AI助手、播客、视频创作打开增量市场，标志生成式AI从文本向“全能模态”跃迁。

实时语音多模态长语音生成交互体验

2025-08-01

多模态与实时生成新热点

Poe 全面开放 API 并兼容 OpenAI 接口，聚合文本、图像、视频模型；Grok 上线 6 秒 AI 视频生成；阿里 Wan2.1 开源全球首个 MoE 视频模型，消费级显卡可跑电影级效果；美图、Krea 等推出图像/视频超清与美学控制，多模态生成进入实时可用阶段。

多模态生成 AI视频 Poe Wan2.1 实时生成

2025-07-20

实时视频生成与交互新体验

Decart发布零延迟、无限时长视频生成模型MirageLSD，支持直播场景即时风格转换与沉浸式交互，为实时内容创作、游戏及元宇宙应用打开新空间。

实时视频生成零延迟 MirageLSD 直播交互

2025-07-19

实时扩散视频生成革命

Karpathy站台投资的“实时、无限时长”扩散视频模型首次亮相，可实现直播零延迟转换，被视为AIGC走向实时媒体生产的关键节点，有望重塑短视频、直播与元宇宙内容生态。

实时视频扩散模型 Karpathy AIGC 零延迟

2025-07-18

视频生成大提速

LTX-Video、Google Veo3、MirageLSD等模型将高清/实时视频生成速度提升10-30倍，成本降至数百美元，开源与商用同步推进，短视频、广告、游戏内容生产面临重塑。

LTX-Video Veo3 视频生成开源实时

2025-07-14

视频/多模态生成技术突破

Meta发布单GPU实时视频生成框架StreamDiT，PixVerse上线多关键帧生成功能，Gemini图片转视频正式可用。生成式AI正向“实时、可控、多模态”演进，降低创作门槛的同时，为短视频、广告、影视工业带来全新工作流。

视频生成 StreamDiT PixVerse 多模态实时生成

2025-07-04

多模态生成进入实时时代

谷歌Veo 3全球上线，Gemini原生多模态架构细节曝光，OmniGen 2.0统一图像生成再升级，Mirage引擎一句话实时生成GTA级游戏，显示视频、图像、游戏内容可“秒级”生成，多模态大模型正从实验走向消费级实时应用。

视频生成多模态实时交互内容创作

2025-06-10

端侧与高效小模型崛起

“小模型+高效推理”成为新赛道：清华&面壁0.5B模型端侧SOTA，4090可跑；Adobe单卡4090实现实时视频生成；港科大-快手进化搜索让小模型作画媲美大模型；Prot42仅依赖序列即可8k长程建模蛋白质。低算力需求+本地部署，将加速AI在移动、IoT、生物设计等场景渗透。

端侧模型小模型实时生成蛋白质设计算力优化

2025-05-29

AI 视频生成实时化

MotionPro 40ms 一帧精准控制，Odyssey 交互视频 40 毫秒生成可玩世界，AKOOL 实时摄像头秒变数字人，可灵 2.1 降价 65% 性能反升，视频 AIGC 进入“实时+可控”阶段，影视、游戏、直播管线面临重构。

实时视频 MotionPro Odyssey 可灵2.1

2025-05-27

多模态交互体验升级

豆包视频通话实时读时钟、Veo 3逼真脱口秀破恐怖谷、GPT-4o上线唱歌模式，显示多模态模型在时序一致性、情感表达、实时交互等维度逼近人类水平；谷歌Chrome实时屏幕感知、阿里AR眼镜全彩光波导落地，则让“所见即所得”的AI体验走向消费级。

多模态视频通话实时交互 AR眼镜情感表达

2025-05-17

统一多模态模型突破

BLIP3-o、混元图像2.0等模型用“先理解后生成”或实时交互，刷新图文双SOTA，端掉VAE，显示扩散+自回归融合路线已成熟，加速视觉内容生产与编辑平民化。

多模态 BLIP3-o 扩散模型实时生图 CLIP

2025-05-16

多模态生成与3D内容创作

阿里开源 Wan2.1-VACE 全能视频模型，阶跃星辰发布 Step1X-3D 引擎并开源训练链路，腾讯混元图像 2.0 实现毫秒级实时生图，Manus 推出图像生成 Agent，显示国内在多模态与 3D AIGC 领域的集群式突破。

多模态生成 3D内容视频模型实时生图开源

# 实时