长上下文 - AI话题 - AI快开门

2025-11-01

Transformer架构再突破

月之暗面开源Kimi Linear注意力，首次在同等训练下超越全注意力，长文KV缓存降75%、推理加速6倍；上海AI Lab混合扩散语言模型SDAR突破6600 tgs。新机制冲击传统Transformer垄断，为长上下文、实时交互与端侧部署打开全新可能。

Linear Attention Transformer 推理加速长上下文扩散模型

2025-10-16

多模态大模型军备赛

谷歌Veo 3.1、字节豆包1.6、OpenAI Sora2、通义千问记忆版集中升级，视频生成时长、音频同步、上下文记忆成为竞速焦点，标志生成式AI进入“长时长+多模态+个性化”新阶段，直接决定流量入口与商业变现场景的重新洗牌。

视频生成多模态长上下文记忆机制 Token规模

2025-09-08

超大规模模型突破

阿里Qwen3-Max-Preview突破万亿参数，微软14B小模型以强化学习逼近671B巨模型，Meta、字节等同步刷新长上下文与多模态极限，标志大模型进入“参数+算法”双轨竞争，算力效率与智能密度同步跃升。

万亿参数强化学习长上下文模型效率多模态

2025-08-21

超长上下文开源模型大战

字节跳动开源Seed-OSS-36B，512K上下文长度刷新纪录，性能对标DeepSeek；MIT提出TIM架构理论上实现“无限”推理长度，国产Avengers-Pro路由系统以19%成本逼近Gemini-2.5-Pro。超长上下文与高效推理成为开源社区新赛点，直接降低开发者门槛，加速长文档、代码、多模态应用落地。

Seed-OSS-36B 超长上下文 TIM架构开源模型低成本高性能

2025-07-20

长上下文与Agent工程实践

MiniMax闭门会强调“长上下文是Agent的Game Changer”，Manus分享基于前沿模型构建上下文工程的经验，显示利用大模型上下文学习快速搭建智能体已成为行业新范式。

长上下文 AI Agent 上下文工程 MiniMax Manus

2025-07-01

超大模型新王争霸

Gemini 2.5 Pro、百度文心4.5系列等旗舰模型密集开源或升级，百万级长上下文、MoE架构与多模态能力成为竞逐焦点，直接重塑开发范式与商业落地门槛。

Gemini 2.5 Pro 文心4.5 长上下文 MoE 开源

2025-06-17

开源代码大模型爆发

月之暗面Kimi-Dev-72B、MiniMax-M1等国产大模型相继开源，在代码修复、超长上下文推理等基准刷新SOTA，低成本（53万美元）与1M token窗口成为亮点，标志国内开源力量跻身全球第一梯队，加速开发者生态与行业落地。

开源代码模型 Kimi MiniMax 长上下文

2025-05-02

超长上下文与高效推理突破

英伟达与UIUC把Llama上下文扩至400万token创SOTA；微软Phi-4系列以小参数量逼近GPT-4o推理表现；LoRA冗余研究称可剪枝95%参数不降性能，推动端侧与低成本部署。

超长上下文 Phi-4 LoRA剪枝高效推理端侧部署

2025-04-15

GPT-4.1系列模型发布

OpenAI正式推出GPT-4.1/4.1-mini/4.1-nano，上下文长度统一扩展到1M tokens，编码与多模态能力全面超越GPT-4o，价格更低，已被Cursor、Windsurf等主流工具第一时间集成，并配套发布官方提示工程指南，标志着大模型进入“长上下文+高性价比”新阶段。

GPT-4.1 长上下文编码能力 OpenAI 开发者生态

2025-01-21

多模态长上下文技术突破

谷歌Titans、月之暗面k1.5、清华VideoChat-Flash等模型将上下文推至200万Token，长视频处理提速100倍，多模态统一架构逼近Next-Token Prediction终极范式。

长上下文多模态 Titans VideoChat-Flash Next Token

2025-01-18

国产大模型技术突破

MiniMax-01、书生·浦语3.0、DeepSeek-V3等国产大模型通过线性注意力、数据框架优化、MoE等创新，实现长上下文、高效训练与性能对标国际顶尖模型，标志着国产大模型进入第一梯队。

国产大模型线性注意力 MoE 长上下文高效训练

2025-01-16

国产大模型技术突破

阿里、MiniMax、智谱、讯飞等密集发布数学推理、长上下文、多模态新模型，7B量级即可对标GPT-4o，显示国产大模型在数据效率、架构创新与国产算力适配上的集体跃升，为自主生态奠定技术底座。

国产大模型数学推理长上下文国产算力技术自主

2025-01-15

多模态长上下文突破

谷歌Titans、清华&港大团队、MiniMax-01等先后打破Transformer记忆瓶颈，实现百万级Token视觉理解与语音处理；商汤“日日新”原生融合模型统一图文视频，推动世界模型新方向。

长上下文多模态世界模型 Transformer

2024-11-19

国产大模型提速长文本

阿里云Qwen2.5-Turbo将上下文扩至百万级、推理加速4.3倍；北大团队开源多模态LLaVA-o1，实现“慢思考”视觉推理，标志国产大模型在长文本与多模态方向双双逼近GPT-4o水平，RAG架构或被重新定义。

长上下文多模态国产大模型 Qwen LLaVA

2024-11-10

超长上下文技术突破

清华、厦大等提出LLMxMapReduce框架，让Llama、Qwen等主流模型实现“无限长”上下文，百万token大海捞针全召回，为长文档理解、法律、金融等场景扫清记忆瓶颈。

长上下文 LLMxMapReduce 大海捞针并行推理

2024-11-09

超长上下文与法律推理大模型

清华等提出“无限长上下文”技术让Llama/Qwen百万token全绿；港科大&北大发布全球首个法律o1大模型，开启慢思考专业领域模型新范式，显著拓展大模型应用边界。

长上下文法律大模型慢思考 System2 Llama

2024-07-31

多模态大模型升级潮

书生·浦语灵笔2.5、GPT-4o长输出、清华video-SALMONN等密集发布，上下文长度、视频理解、语音交互全面跃升，标志着国产与海外顶尖模型在多模态维度正式对标GPT-4V，开启“长文本+视听”一体化应用新阶段。

多模态长上下文 GPT-4o video-SALMONN 书生·浦语

2024-07-09

长上下文与记忆机制创新

Memory3、EAGLE-2、Samba等通过外挂记忆、无损加速及混合状态空间方法，实现更长上下文、更低成本推理，为端侧和无限长度应用打开新路径。

Memory3 EAGLE Samba 长上下文推理加速

2024-05-15

AI 搜索与 Agent 生态爆发

OpenAI、谷歌、国内初创密集升级或内测 AI 搜索、Agent 构建平台，结合长上下文、多模态与插件生态，争夺下一代流量入口，预示“搜索即服务”向“Agent 即入口”演进。

AI搜索 Agent平台谷歌Gemini OpenAI搜索长上下文

2024-05-07

大模型轻量化与端侧落地

Phi-3-mini、Llama-3 1M上下文、量化压缩等突破，让百亿级模型在手机、PC端实时运行，端侧AI进入可用时代，将重塑应用生态与成本结构。

端侧大模型模型量化长上下文 Phi-3 Llama-3