多模态 - AI话题 - AI快开门

2026-01-15

多模态生成进入4K竖屏时代

谷歌Veo 3.1原生支持竖屏4K，苹果Manzano打通“看懂+绘制”，国产PixVerse P1迈向通用级，视频、图像、语音一体化生成质量跃升，短视频、广告、教育等内容产业迎来零门槛AIGC。

2026-01-14

国产多模态大模型突破

智谱-华为开源首个全流程国产芯片训练的SOTA多模态模型GLM-Image，采用自回归+扩散解码器混合架构，在国产昇腾芯片上完成训练，实现图像生成与语言模型深度融合，标志着国产算力与算法协同的重大进展，对打破国外技术垄断具有重要意义。

国产芯片多模态模型 GLM-Image 昇腾技术自主

2026-01-12

多模态 AI 终端生态爆发

阿里云通义大模型驱动 1500+ 智能硬件深圳集体亮相；GPT-5.2、通义千问 Qwen 多模态版迭代推高 A 股相关概念股涨停；CES 发布全球首份穿戴舒适度白皮书，AI 从云端算法走向耳机、电视、手办等各类终端，交互体验标准化启动。

多模态智能终端通义大模型 CES 交互标准

2026-01-11

多模态AI进军医疗影像

微软、华盛顿大学与Providence团队在《Cell》提出生成式多模态模型，可低成本模拟多重免疫荧光图像，构建肿瘤免疫微环境图谱，为癌症研究和伴随诊断提供高通量、低门槛的新工具，预示AI+病理进入可规模化时代。

多模态AI 肿瘤免疫病理影像 Cell 降本增效

2026-01-08

端侧AI与硬件生态

Rokid 38.5g无屏AI眼镜仅299美元直挑Meta；阿里云推多模态开发套件；联想发布个人超级智能体Qira。轻量级交互、开放SDK与多端协同成为端侧AI落地三要素，预示“AI硬件平民化”时代开启。

AI眼镜端侧AI 多模态套件个人智能体平民化

2026-01-04

国产大模型开源突破

九坤IQuest-Coder、月之暗面Kimi K2、元象XVERSE-Ent等国产大模型密集开源，在代码、多模态、娱乐场景实现SOTA性能，彰显中国模型创新力并降低落地门槛。

国产开源大模型代码生成多模态

2026-01-02

多模态安全与评测

港科大联合牛津等发布首个音频越狱基准Jailbreak-AudioBench，揭示语调、语速即可攻破大音频模型；VGent架构在视觉定位任务F1暴涨20分并保持恒定推理速度。多模态能力扩张同时，安全与评测体系同步升级。

多模态安全音频越狱视觉定位评测基准鲁棒性

2025-12-31

多模态大模型竞速

谷歌Gemini-3-Pro在SuperCLUE-VLM榜单断层领先，国产商汤、豆包、Qwen3-VL紧随其后；阿里开源Qwen-Image、腾讯开源HY-Motion1.0文生3D动作模型，显示中美在视觉-语言-动作一体化赛道进入密集迭代期，直接决定下一代交互与内容生成标准。

多模态 Gemini 国产大模型视觉语言模型 3D生成

2025-12-29

多模态与视频生成创新

字节开源StoryMem框架以“视觉记忆”实现多镜头一分钟叙事视频，角色场景一致不“变脸”；Insta360推出全景深度模型DAP，200万360°数据刷新空间智能；NVIDIA发布游戏基础模型NitroGen，视频-动作多模态应用持续拓宽内容创作与交互边界。

视频生成 StoryMem 全景深度 NitroGen 多模态

2025-12-26

国产大模型开源与性能突破

通义千问、混元、Seed等国产大模型密集开源或升级：Qwen-Image-Edit解决图像漂移，混元T1-Vis上线，Seed Prover 1.5 IMO夺金，2.6B小参数LFM2在边缘端比肩百亿模型，显示国产模型正快速缩小与国际差距并探索差异化优势。

国产大模型开源多模态数学推理边缘AI

2025-12-26

多模态内容生成与交互体验升级

ChatGPT新增富文本块、小红书开源InstanceAssemble精准排版、快看AI互动漫画上线、TurboDiffusion单卡2秒出视频，显示多模态生成正从“能出图”走向“可控、可交互、可商用”的新阶段。

多模态生成富文本图像排版互动漫画视频生成

2025-12-24

国产大模型技术突破与开源狂飙

MiniMax M2.1、智谱GLM-4.7、阿里Fun-Audio-Chat-8B、Seed Prover1.5等国产模型在代码、语音、数学推理、多模态任务上刷新SOTA，并全面开源，形成对GPT-4o、Gemini 3Pro的正面追赶，显示国内模型在参数效率与垂直能力上已具备全球竞争力。

国产大模型开源 SOTA 代码生成多模态

2025-12-22

多模态大模型技术突破

谷歌A2UI、阿里Qwen-Image-Layered、快手Kling 2.6等让AI实时生成界面、PS级图层与语音驱动视频，多模态能力进入“可用+可商用”阶段，直接降低内容创作与交互设计门槛。

多模态 A2UI 图层编辑 Kling 实时界面

2025-12-21

多模态与生成控制新范式

浙大ContextGen、CineCtrl、DualCamCtrl等研究实现布局-身份一致、相机运镜精准控制，把“生成”推向“可控工业级”，降低视频、图像创作门槛，支撑下一代内容生产管线。

多模态生成布局控制相机运镜视频生成工业级

2025-12-19

多模态大模型爆发

2025年底，GPT-5.2-Codex、Gemini 3 Flash、苹果UniGen 1.5、字节Seedance 1.5 Pro等旗舰模型密集发布，统一支持文本、图像、视频、音频、代码的多模态理解与生成，推理速度、上下文长度及工具调用能力再破上限，标志着通用人工智能进入“原生多模态”时代，为下一代应用奠定新基座。

多模态 GPT-5.2 Gemini 3 UniGen Seedance

2025-12-17

多模态生成与编辑新范式

OpenAI连发GPT Image 1.5、ChatGPT Images，速度提升4倍，主打精准编辑与视觉一致性；字节Seedance 1.5 Pro实现100%音画同步；Canvas-to-Image统一画布支持多条件组合生成；Meta开源SAM Audio分割一切声音。生成式AI进入“所见即所得、所听即所得”的细粒度操控阶段。

多模态生成图像编辑音画同步 Canvas-to-Image SAM Audio

2025-12-15

国产多模态大模型突破

商汤Seko2.0、阿里“百聆”等国产模型在视频、语音、多剧集生成等方向实现全链路打通，并首次完成与寒武纪等国产AI芯片的深度适配，标志着国产算力+多模态AIGC进入可用、好用阶段，对降低行业成本、保障供应链安全具有里程碑意义。

国产芯片多模态AIGC Seko2.0 寒武纪短剧生成

2025-12-14

世界模型与多模态生成

Runway发布通用世界模型GWM系列，可同步模拟环境、人物与机器人操作；谷歌升级Gen-4.5，SIGGRAPH Asia亦展示30→200FPS的4D重建方案。生成式AI正从“出图”走向“出世界”，为影视、机器人和元宇宙提供可交互的物理一致场景，重新定义内容生产管线。

世界模型视频生成 4D重建 Runway 多模态

2025-12-14

生物AI与医疗突破

GerNA-Bind几何深度模型攻克RNA-小分子结合预测，Exai-1多模态cfRNA模型提升液体活检精度，AAAI 2026入选的AdaMCoT让大模型动态选择思维语言。AI正深入RNA药物、无创诊断与个性化治疗，缩短靶点发现到临床验证周期，重塑生物医药研发范式。

RNA药物液体活检几何深度模型多模态生物AI

2025-12-13

多模态小模型与端侧AI

Jina-VLM、AutoGLM、GLM-4.6V等轻量多模态模型相继开源，可在笔记本甚至手机端运行，兼顾视觉理解、语音交互与自动操作，降低高分辨率推理成本。端侧AI走向实用，预示“AI手机”与本地智能体生态将加速普及。

多模态端侧AI AutoGLM Jina-VLM 开源

# 多模态

多模态生成进入4K竖屏时代

国产多模态大模型突破

多模态 AI 终端生态爆发

多模态AI进军医疗影像

端侧AI与硬件生态

国产大模型开源突破

多模态安全与评测

多模态大模型竞速

多模态与视频生成创新

国产大模型开源与性能突破

多模态内容生成与交互体验升级

国产大模型技术突破与开源狂飙

多模态大模型技术突破

多模态与生成控制新范式

多模态大模型爆发

多模态生成与编辑新范式

国产多模态大模型突破

世界模型与多模态生成

生物AI与医疗突破

多模态小模型与端侧AI