文生图 - AI话题 - AI快开门

2025-11-11

多模态生成再突破

Nano Banana 2、ERNIE-4.5-VL、UltraHR-100K等新一代多模态模型接连亮相，实现“11:15满杯红酒”级精确定位、超长上下文256K+、超高分辨率文生图与公式可视化，刷新设计、电商、影视及教育内容生产流程，显示高质量可控生成正从实验室走向设计师级商用。

2025-10-06

多模态大模型升级战

OpenAI、阿里、腾讯、字节等头部厂商密集发布新一代多模态模型：OpenAI Codex Alpha强化编程，阿里Qwen-VL-30B-3B提升数学与视频理解，腾讯混元图像3.0登顶LMArena文生图榜首，字节AI生视频突破4分钟时长，显示多模态能力正成为大模型竞争主战场。

多模态文生图视频生成编程模型模型升级

2025-10-05

国产文生图模型登顶

腾讯混元图像3.0开源仅一周即击败谷歌Nano-Banana，登顶全球文生图榜单，显示国产大模型在多模态生成赛道首次实现领先。

混元图像3.0 文生图开源模型腾讯多模态生成

2025-09-08

多模态创作工具爆发

字节Seedream 4.0、即梦图片4.0、PixVerse V5、Snapchat AI滤镜等密集上线，文生图、图生视频、语音合成一站式打通，创作者门槛骤降，内容生态迎来AI原生爆款潮。

多模态内容创作文生图图生视频 TTS

2025-05-09

多模态生成与视频编辑突破

谷歌Gemini图像生成升级支持实时编辑，港中文MMLab发布文生图T2I-R1，腾讯混元开源一致性视频编辑工具HunyuanCustom，PixVerse v4上线Replicate再提速，AI视频生成进入“DeepSeek时刻”，13B模型提速30倍、成本低于1500美元即可产出好莱坞级特效，为内容创作带来变革。

多模态视频编辑文生图生成速度内容创作

2025-03-04

国产开源模型爆发

智谱CogView4、MiniMax Image-01、豆包SuperGPQA、Wan2.1 GP等国产模型密集开源，覆盖文生图、视频、多模态推理，成本降至1/10，中文原生支持成为亮点，显著降低开发者门槛并加速应用落地。

开源国产模型文生图成本骤降

2025-01-04

自回归图像生成突破

字节开源Infinity模型，以无矢量量化、无限词表自回归方式刷新文生图SOTA，标志扩散模型之后的新范式可能确立，对AIGC工具链、算力需求及商业落地有深远影响。

Infinity 自回归文生图扩散模型 SOTA

2025-01-03

国产多模态大模型突破

字节Infinity、VAR及北大空间智能模型在文生图、3D场景代码生成等任务上刷新SOTA，显示国产模型正从跟随转向并行领跑，为AIGC、元宇宙及机器人导航提供核心能力。

Infinity VAR 空间智能文生图多模态

2024-12-29

多模态AI医疗落地

上海科大等团队构建乳腺X光+超声多模态AI，在真实临床流程中验证，显著提升乳腺癌早筛精度；腾讯优图DynamicControl同步升级文生图可控性，跨模态大模型正成为医疗与创作的新基建。

多模态AI 乳腺癌诊断文生图 DynamicControl 临床验证

2024-12-09

终端AI与消费应用

Google Photos年度AI回顾、UCLA首门AI生成教材课程、Grok向全体X用户免费开放生图、马斯克xAI“赛博皮卡”文生图模型闪现，表明AI正快速渗透日常消费、教育、社交场景，C端体验门槛持续降低。

消费AI 教育 Google Photos Grok 文生图

2024-12-01

文生图独角兽崛起与AIGC商业化

Black Forest Labs以5个月、2亿美元融资、10亿美元估值刷新文生图赛道纪录；可口可乐采用可灵AI拍广告，腾讯元宝2.0实测图文视频全搞定。资本与品牌齐入场，AIGC从“好玩”进入“好用”阶段，商业闭环雏形显现。

文生图独角兽可灵 AIGC广告商业闭环

2024-11-07

生成式AI模型爆发

Stable Diffusion 3.5、FLUX 1.1 Pro Ultra、字节X-Portrait 2等新一代文生图、图生视频模型密集发布，在4兆像素超清、10秒级生成、单图驱动动画等维度刷新SOTA，标志AIGC进入高分辨率、低成本、多模态并行时代，将重塑设计、影视、电商内容管线。

Stable Diffusion FLUX 文生图图生视频 AIGC

2024-10-19

多模态与数学难题突破

Meta、清华等团队用Transformer解决132年三体稳定性判定，提出Symbolic Transformer发现全新李雅普诺夫函数；同时IterComp框架融合Flux、SD等模型优势，推出超越Flux的文生图系统，显示基础模型在数学证明与跨模态生成上的双重跃迁。

Symbolic Transformer 李雅普诺夫函数文生图 IterComp 数学证明

2024-10-10

谷歌Imagen 3全球开放

谷歌将最强文生图模型Imagen 3面向所有Gemini用户开放，生成质量与安全性显著提升，但免费层禁用人像，凸显巨头在版权与合规上的谨慎，加速AIGC应用竞争。

Imagen3 Gemini 文生图 AIGC 谷歌

2024-10-09

多模态大模型技术突破

GPT-4o升级GPT-auto、字节GR-2机器人大模型、Playground v3 240亿参数文生图模型等密集发布，显示多模态、高参数、场景泛化成为大模型竞争新高地。

多模态大模型 GPT-4o GR-2 文生图

2024-09-30

国产大模型价格战升级

智谱AI国庆推出“1折调用+1亿免费tokens”，清言会员低至19元，打响国产大模型新低价。同期字节跳动开源视频生成模型PixelDance/Seaweed，CogView3文生图速度比SDXL快10倍，显示国产模型在性能与成本两侧同时施压，加速应用落地。

智谱AI 价格战视频生成文生图国产模型

2024-06-13

Stable Diffusion 3正式开源

Stability AI开源SD3-M，新MMDiT架构在排版、多主体、文本渲染上显著优于SDXL，2B参数单机可跑，首次出现开源文生图模型性能碾压闭源，引爆开发者生态与商业落地。

Stable Diffusion 3 开源文生图 MMDiT

2024-03-22

Stable Diffusion核心团队解散

Stability AI内部动荡，Stable Diffusion原班论文作者集体离职，开源文生图模型后续维护与迭代存疑，社区担忧技术路线分裂，凸显明星开源项目可持续治理难题。

Stable Diffusion 开源治理团队离职文生图

2024-03-06

Stable Diffusion 3与Sora技术揭秘

Stability AI发布Stable Diffusion 3技术报告，采用DiT架构刷新文生图SOTA；同期OpenAI Sora论文合集流出，同款DiT结构成复现关键，推动多模态生成进入视频时代。

Stable Diffusion 3 Sora DiT 文生图视频生成

2024-02-28

多模态大模型突破

OpenAI、谷歌、字节等密集发布新一代嵌入、文生图及世界生成模型：text-embedding-3、SDXL-Lightning、Genie在速度、分辨率与交互可控性上刷新SOTA，标志多模态生成进入实用化阶段，为RAG、游戏、广告等内容产业打开落地空间。

多模态生成嵌入模型文生图世界模型速度突破

# 文生图