长文本 - AI话题 - AI快开门

2025-11-12

多模态与长文本理解突破

MMCTAgent支持小时级视频推理，清华&智谱Glyph压缩图像文本，DeepSeek-OCR极致Token效率，多模态RAG框架UltraRAG 2.1用YAML即可搭系统，长上下文战争进入“视觉+结构化”阶段。

多模态长文本 RAG 视频理解 OCR

2025-11-04

国产多模态与长文本大模型突破

蚂蚁数科多语种视觉大模型、月之暗面Kimi Linear长上下文提速2.9倍、字节Seed团队循环语言模型Ouro、百度文心魔法漫画等集中发布，显示国产模型在视觉-语言一体化、长文本效率、创意生成等方向进入世界第一梯队，降低落地成本。

多模态长文本国产大模型视觉语言创意生成

2025-11-02

长文本高效处理突破

南理工等高校联合提出VIST框架，用“视觉中心化”思路把长文本当图像压缩，内存占用降50%、token用量减56%，在NeurIPS 2025获选。该方法为长文档理解、法律/医疗文本处理等高价值场景提供可扩展、低成本的全新技术路线。

长文本视觉压缩 token效率 NeurIPS 低成本推理

2025-10-28

垂直模型与产业渗透

Tahoe-x1专注“生命语言”癌症研究，MIT BoltzGen跨分子类型设计蛋白结合物，华中科大GraphPep精准预测蛋白-肽复合物，美团、蚂蚁相继开源长文本与视频模型，显示AI正从通用对话下沉到医药、材料、物流等细分场景，形成“小参数+深领域”的高壁垒路线。

垂直模型生物计算药物设计长文本开源

2025-10-22

长文本与推理效率突破

DeepSeek-OCR用视觉压缩颠覆分词器，北大华为LouisKV将长序列推理提速4.7倍，复旦Game-RL用游戏数据增强VLM推理，长上下文与推理成本难题出现新解法。

长文本视觉压缩 LouisKV 推理加速 Game-RL

2025-09-14

开源大模型降本提效

Qwen3-Next、openPangu-DeepDiver等开源模型通过稀疏激活、多Agent协作等创新，训练成本砍至1/10，长文本推理提速10倍，打破“闭源越大越强”神话，重塑全球大模型竞争格局。

Qwen3-Next 开源稀疏激活训练成本长文本推理

2025-08-13

GPT-5发布与多模态突破

OpenAI正式推出GPT-5系列（含GPT-5、mini、nano、Pro），号称“最智能、最快、最实用”，同步升级多模态与推理能力；Claude Sonnet 4将上下文上限扩至100万词元，标志大模型进入长文本与多模态并行爆发阶段，直接拉升行业性能基线。

GPT-5 多模态长文本 Claude OpenAI

2025-07-08

模型架构与训练效率革新

清华SageAttention3实现5倍注意力提速，循环模型500步突破256k长度泛化，基于能量Transformer提升35%性能，后训练与量化技术成为缓解算力瓶颈的关键路径。

注意力机制循环模型量化长文本训练效率

2025-05-27

国产大模型技术突破

阿里、字节、美团等国内厂商在长文本推理、多模态融合、低成本量化等方向集中发布新模型或技术，性能对标GPT-4o/Claude-3.7，并率先通过医学职称考试、高考志愿生成等严苛场景验证，标志着国产大模型从“可用”走向“好用”，为行业落地和生态自主奠定新基线。

国产大模型长文本推理多模态医学考试低成本量化

2025-03-14

大模型架构革新

何恺明、LeCun等团队提出无归一化Transformer，用9行代码替代LayerNorm，性能不降反升；同时出现SCoT动态推理链、TokenSwift长文本3×加速等底层创新，标志着大模型效率与泛化能力进入新阶段。

无归一化Transformer 动态推理链长文本加速架构革新

2025-02-01

智能体生态爆发

19岁华人团队获百万美元押注AI Agent，谷歌CoA实现长文本性能翻倍，UIUC-阿里开源手机多能体，框架、应用与资本同步涌入，2025被业内视为“智能体元年”。

AI Agent 多智能体手机助手创业融资长文本

2025-01-29

阿里Qwen视觉升级

除夕夜阿里云通义开源Qwen2.5-VL系列与Qwen2.5-Max，3B/7B/72B多尺寸模型在视觉理解、长视频解析等任务上超越GPT-4o-mini与Claude 3.5，巩固国产开源大模型领先地位。

Qwen2.5-VL 开源视觉理解阿里长文本

2025-01-27

长文本模型竞速

阿里云开源Qwen2.5-1M，上下文长度首次达100万Tokens，推理速度提升近7倍，性能超越GPT-4o-mini；通义实验室同步发布推理框架，降低长文本训练和部署门槛。长上下文已成为国产大模型差异化竞争核心赛道，预计2025年百万级Tokens将成主流标配。

长文本 Qwen2.5 百万Tokens 阿里云推理框架

2024-11-20

国产多模态长文本跃进

Qwen2.5-Turbo将上下文拉到百万token，价格降至0.3元/百万tokens，刷新全球性价比；阿里、Mistral同步开源多模态大模型，Pixtral Large、XiYan-SQL等工具让“看图+写代码+SQL”一站式完成，国产模型在性能与易用性上双杀海外闭源。

长文本多模态开源国产大模型

2024-11-05

开源大模型持续迭代

腾讯 Hunyuan-Large、上海 AI Lab Llama-o1、清华 RDT 双臂机器人扩散模型等相继开源，长文本、数理推理、具身智能多线并进，降低研发门槛，加速行业应用落地。

开源大模型长文本推理具身智能 Llama-o1

2024-09-03

大模型推理与生成突破

谷歌DeepMind推出GenRM方法显著提升AI推理准确率；清华&智谱发布LongWriter-glm4-9b，实现1分钟生成万字长文；北大李戈团队提出单测生成新方法，提高代码测试覆盖率。这些突破标志着大模型在逻辑推理、长文本生成和代码智能领域的实质性进展。

大模型推理长文本生成代码测试

2024-08-24

大模型长文本生成突破

清华开源LongWriter-6k数据集，首次把模型单次输出扩展到10k+字，为报告、小说、学术写作等场景扫清长度瓶颈，标志着大模型从“读长”到“写长”的关键跃迁。

长文本生成 LongWriter 数据集 10k+字清华

2024-08-16

多模态生成大爆发

Runway Gen-3 Turbo、谷歌Imagen 3、开源FLUX.1、清华LongWriter、Llama 3.1 405B微调等模型集中发布，视频、图像、长文本生成在速度、成本、质量上同时跃升，标志AIGC进入“可用+低价”阶段，将重塑内容产业生产流程与商业模式。

视频生成图像生成长文本开源模型 AIGC

2024-08-13

超长文本与注意力架构突破

树注意力、多-LoRA、非Transformer等新架构将500万token级长文本推理提速8倍，并降低118倍训练成本，标志着大模型基础设施进入“长上下文+低成本”时代，为行业应用打开天花板。

树注意力长文本非Transformer 多-LoRA 成本优化

2024-08-08

AI安全与治理

英国搁置1.7亿AI基金、苹果后台提示词泄露、北大LooGLE长文本基准揭示模型缺陷、MIT乳腺癌早筛模型登Science，反映政策、隐私、幻觉、伦理等治理议题与技术创新同步升温，成为行业可持续发展的关键变量。

AI治理模型幻觉长文本伦理政策风险

# 长文本