2025-11-12
多模态与长文本理解突破
MMCTAgent支持小时级视频推理,清华&智谱Glyph压缩图像文本,DeepSeek-OCR极致Token效率,多模态RAG框架UltraRAG 2.1用YAML即可搭系统,长上下文战争进入“视觉+结构化”阶段。
2025-11-04
国产多模态与长文本大模型突破
蚂蚁数科多语种视觉大模型、月之暗面Kimi Linear长上下文提速2.9倍、字节Seed团队循环语言模型Ouro、百度文心魔法漫画等集中发布,显示国产模型在视觉-语言一体化、长文本效率、创意生成等方向进入世界第一梯队,降低落地成本。
2025-11-02
长文本高效处理突破
南理工等高校联合提出VIST框架,用“视觉中心化”思路把长文本当图像压缩,内存占用降50%、token用量减56%,在NeurIPS 2025获选。该方法为长文档理解、法律/医疗文本处理等高价值场景提供可扩展、低成本的全新技术路线。
2025-10-28
垂直模型与产业渗透
Tahoe-x1专注“生命语言”癌症研究,MIT BoltzGen跨分子类型设计蛋白结合物,华中科大GraphPep精准预测蛋白-肽复合物,美团、蚂蚁相继开源长文本与视频模型,显示AI正从通用对话下沉到医药、材料、物流等细分场景,形成“小参数+深领域”的高壁垒路线。
2025-10-22
长文本与推理效率突破
DeepSeek-OCR用视觉压缩颠覆分词器,北大华为LouisKV将长序列推理提速4.7倍,复旦Game-RL用游戏数据增强VLM推理,长上下文与推理成本难题出现新解法。
2025-09-14
开源大模型降本提效
Qwen3-Next、openPangu-DeepDiver等开源模型通过稀疏激活、多Agent协作等创新,训练成本砍至1/10,长文本推理提速10倍,打破“闭源越大越强”神话,重塑全球大模型竞争格局。
2025-08-13
GPT-5发布与多模态突破
OpenAI正式推出GPT-5系列(含GPT-5、mini、nano、Pro),号称“最智能、最快、最实用”,同步升级多模态与推理能力;Claude Sonnet 4将上下文上限扩至100万词元,标志大模型进入长文本与多模态并行爆发阶段,直接拉升行业性能基线。
2025-07-08
模型架构与训练效率革新
清华SageAttention3实现5倍注意力提速,循环模型500步突破256k长度泛化,基于能量Transformer提升35%性能,后训练与量化技术成为缓解算力瓶颈的关键路径。
2025-05-27
国产大模型技术突破
阿里、字节、美团等国内厂商在长文本推理、多模态融合、低成本量化等方向集中发布新模型或技术,性能对标GPT-4o/Claude-3.7,并率先通过医学职称考试、高考志愿生成等严苛场景验证,标志着国产大模型从“可用”走向“好用”,为行业落地和生态自主奠定新基线。
2025-03-14
大模型架构革新
何恺明、LeCun等团队提出无归一化Transformer,用9行代码替代LayerNorm,性能不降反升;同时出现SCoT动态推理链、TokenSwift长文本3×加速等底层创新,标志着大模型效率与泛化能力进入新阶段。
2025-02-01
智能体生态爆发
19岁华人团队获百万美元押注AI Agent,谷歌CoA实现长文本性能翻倍,UIUC-阿里开源手机多能体,框架、应用与资本同步涌入,2025被业内视为“智能体元年”。
2025-01-29
阿里Qwen视觉升级
除夕夜阿里云通义开源Qwen2.5-VL系列与Qwen2.5-Max,3B/7B/72B多尺寸模型在视觉理解、长视频解析等任务上超越GPT-4o-mini与Claude 3.5,巩固国产开源大模型领先地位。
2025-01-27
长文本模型竞速
阿里云开源Qwen2.5-1M,上下文长度首次达100万Tokens,推理速度提升近7倍,性能超越GPT-4o-mini;通义实验室同步发布推理框架,降低长文本训练和部署门槛。长上下文已成为国产大模型差异化竞争核心赛道,预计2025年百万级Tokens将成主流标配。
2024-11-20
国产多模态长文本跃进
Qwen2.5-Turbo将上下文拉到百万token,价格降至0.3元/百万tokens,刷新全球性价比;阿里、Mistral同步开源多模态大模型,Pixtral Large、XiYan-SQL等工具让“看图+写代码+SQL”一站式完成,国产模型在性能与易用性上双杀海外闭源。
2024-11-05
开源大模型持续迭代
腾讯 Hunyuan-Large、上海 AI Lab Llama-o1、清华 RDT 双臂机器人扩散模型等相继开源,长文本、数理推理、具身智能多线并进,降低研发门槛,加速行业应用落地。
2024-09-03
大模型推理与生成突破
谷歌DeepMind推出GenRM方法显著提升AI推理准确率;清华&智谱发布LongWriter-glm4-9b,实现1分钟生成万字长文;北大李戈团队提出单测生成新方法,提高代码测试覆盖率。这些突破标志着大模型在逻辑推理、长文本生成和代码智能领域的实质性进展。
2024-08-24
大模型长文本生成突破
清华开源LongWriter-6k数据集,首次把模型单次输出扩展到10k+字,为报告、小说、学术写作等场景扫清长度瓶颈,标志着大模型从“读长”到“写长”的关键跃迁。
2024-08-16
多模态生成大爆发
Runway Gen-3 Turbo、谷歌Imagen 3、开源FLUX.1、清华LongWriter、Llama 3.1 405B微调等模型集中发布,视频、图像、长文本生成在速度、成本、质量上同时跃升,标志AIGC进入“可用+低价”阶段,将重塑内容产业生产流程与商业模式。
2024-08-13
超长文本与注意力架构突破
树注意力、多-LoRA、非Transformer等新架构将500万token级长文本推理提速8倍,并降低118倍训练成本,标志着大模型基础设施进入“长上下文+低成本”时代,为行业应用打开天花板。