2026-01-15
多模态生成进入4K竖屏时代
谷歌Veo 3.1原生支持竖屏4K,苹果Manzano打通“看懂+绘制”,国产PixVerse P1迈向通用级,视频、图像、语音一体化生成质量跃升,短视频、广告、教育等内容产业迎来零门槛AIGC。
2026-01-14
国产多模态大模型突破
智谱-华为开源首个全流程国产芯片训练的SOTA多模态模型GLM-Image,采用自回归+扩散解码器混合架构,在国产昇腾芯片上完成训练,实现图像生成与语言模型深度融合,标志着国产算力与算法协同的重大进展,对打破国外技术垄断具有重要意义。
2026-01-12
多模态 AI 终端生态爆发
阿里云通义大模型驱动 1500+ 智能硬件深圳集体亮相;GPT-5.2、通义千问 Qwen 多模态版迭代推高 A 股相关概念股涨停;CES 发布全球首份穿戴舒适度白皮书,AI 从云端算法走向耳机、电视、手办等各类终端,交互体验标准化启动。
2026-01-11
多模态AI进军医疗影像
微软、华盛顿大学与Providence团队在《Cell》提出生成式多模态模型,可低成本模拟多重免疫荧光图像,构建肿瘤免疫微环境图谱,为癌症研究和伴随诊断提供高通量、低门槛的新工具,预示AI+病理进入可规模化时代。
2026-01-08
端侧AI与硬件生态
Rokid 38.5g无屏AI眼镜仅299美元直挑Meta;阿里云推多模态开发套件;联想发布个人超级智能体Qira。轻量级交互、开放SDK与多端协同成为端侧AI落地三要素,预示“AI硬件平民化”时代开启。
2026-01-04
国产大模型开源突破
九坤IQuest-Coder、月之暗面Kimi K2、元象XVERSE-Ent等国产大模型密集开源,在代码、多模态、娱乐场景实现SOTA性能,彰显中国模型创新力并降低落地门槛。
2026-01-02
多模态安全与评测
港科大联合牛津等发布首个音频越狱基准Jailbreak-AudioBench,揭示语调、语速即可攻破大音频模型;VGent架构在视觉定位任务F1暴涨20分并保持恒定推理速度。多模态能力扩张同时,安全与评测体系同步升级。
2025-12-31
多模态大模型竞速
谷歌Gemini-3-Pro在SuperCLUE-VLM榜单断层领先,国产商汤、豆包、Qwen3-VL紧随其后;阿里开源Qwen-Image、腾讯开源HY-Motion1.0文生3D动作模型,显示中美在视觉-语言-动作一体化赛道进入密集迭代期,直接决定下一代交互与内容生成标准。
2025-12-29
多模态与视频生成创新
字节开源StoryMem框架以“视觉记忆”实现多镜头一分钟叙事视频,角色场景一致不“变脸”;Insta360推出全景深度模型DAP,200万360°数据刷新空间智能;NVIDIA发布游戏基础模型NitroGen,视频-动作多模态应用持续拓宽内容创作与交互边界。
2025-12-26
国产大模型开源与性能突破
通义千问、混元、Seed等国产大模型密集开源或升级:Qwen-Image-Edit解决图像漂移,混元T1-Vis上线,Seed Prover 1.5 IMO夺金,2.6B小参数LFM2在边缘端比肩百亿模型,显示国产模型正快速缩小与国际差距并探索差异化优势。
2025-12-26
多模态内容生成与交互体验升级
ChatGPT新增富文本块、小红书开源InstanceAssemble精准排版、快看AI互动漫画上线、TurboDiffusion单卡2秒出视频,显示多模态生成正从“能出图”走向“可控、可交互、可商用”的新阶段。
2025-12-24
国产大模型技术突破与开源狂飙
MiniMax M2.1、智谱GLM-4.7、阿里Fun-Audio-Chat-8B、Seed Prover1.5等国产模型在代码、语音、数学推理、多模态任务上刷新SOTA,并全面开源,形成对GPT-4o、Gemini 3Pro的正面追赶,显示国内模型在参数效率与垂直能力上已具备全球竞争力。
2025-12-22
多模态大模型技术突破
谷歌A2UI、阿里Qwen-Image-Layered、快手Kling 2.6等让AI实时生成界面、PS级图层与语音驱动视频,多模态能力进入“可用+可商用”阶段,直接降低内容创作与交互设计门槛。
2025-12-21
多模态与生成控制新范式
浙大ContextGen、CineCtrl、DualCamCtrl等研究实现布局-身份一致、相机运镜精准控制,把“生成”推向“可控工业级”,降低视频、图像创作门槛,支撑下一代内容生产管线。
2025-12-19
多模态大模型爆发
2025年底,GPT-5.2-Codex、Gemini 3 Flash、苹果UniGen 1.5、字节Seedance 1.5 Pro等旗舰模型密集发布,统一支持文本、图像、视频、音频、代码的多模态理解与生成,推理速度、上下文长度及工具调用能力再破上限,标志着通用人工智能进入“原生多模态”时代,为下一代应用奠定新基座。
2025-12-17
多模态生成与编辑新范式
OpenAI连发GPT Image 1.5、ChatGPT Images,速度提升4倍,主打精准编辑与视觉一致性;字节Seedance 1.5 Pro实现100%音画同步;Canvas-to-Image统一画布支持多条件组合生成;Meta开源SAM Audio分割一切声音。生成式AI进入“所见即所得、所听即所得”的细粒度操控阶段。
2025-12-15
国产多模态大模型突破
商汤Seko2.0、阿里“百聆”等国产模型在视频、语音、多剧集生成等方向实现全链路打通,并首次完成与寒武纪等国产AI芯片的深度适配,标志着国产算力+多模态AIGC进入可用、好用阶段,对降低行业成本、保障供应链安全具有里程碑意义。
2025-12-14
世界模型与多模态生成
Runway发布通用世界模型GWM系列,可同步模拟环境、人物与机器人操作;谷歌升级Gen-4.5,SIGGRAPH Asia亦展示30→200FPS的4D重建方案。生成式AI正从“出图”走向“出世界”,为影视、机器人和元宇宙提供可交互的物理一致场景,重新定义内容生产管线。
2025-12-14
生物AI与医疗突破
GerNA-Bind几何深度模型攻克RNA-小分子结合预测,Exai-1多模态cfRNA模型提升液体活检精度,AAAI 2026入选的AdaMCoT让大模型动态选择思维语言。AI正深入RNA药物、无创诊断与个性化治疗,缩短靶点发现到临床验证周期,重塑生物医药研发范式。