2025-05-03 AI话题 - AI快开门

数学与科学推理突破

DeepSeek-Prover-V2在普特南测试一举解答49题，7B小模型竟自学出671B巨模型未掌握的定理技巧；北大PHYBench同时揭示大模型物理推理短板，推动“学思结合”新训练范式。两项进展标志AI正向严谨科学领域深度渗透，为自主发现新知识奠定算法基础。

Llama4被曝在发布前私下测试27个版本并只公布最佳成绩，引发对行业榜单公信力的新一轮质疑；美国版权局首次批量注册AI增强作品，则把“模型输出能否受保护”推向立法焦点。两件事共同揭示：当技术迭代速度远超标准与法规，排行榜与知识产权规则亟需透明化升级，否则将拖累研发互信与商业落地。

微软Azure宣布支持xAI的Grok模型，谷歌测试AI搜索新模式并推出Amplify全球数据计划，阿里云发布32B金融推理大模型通义点金。头部云厂商正把“自研+第三方”大模型纳入统一托管，降低行业调用门槛，争夺MaaS（Model-as-a-Service）入口。

清华与微软在药物设计领域提出“活性悬崖感知”强化学习，约翰霍普金斯团队用掩码语言模型解析蛋白编码上下文，两项研究共同展示AI对高价值科学数据的精细建模能力，有望缩短新药与蛋白工程研发周期。

百度网盘推出多模态AI笔记，宣称学习效率提升10倍；多模态LLM在目标检测上超越YOLOv3，强化学习刷新感知极限；Reddit搜索栏引入AI助手，谷歌开放13岁以下儿童使用Gemini。语音、视觉、文本正在同一界面无缝融合，预示“说一句话完成复杂任务”成为C端产品新标配。

苹果携手Anthropic打造AI编程平台，315行代码即可搭建完整编程助手，显示“智能体生成软件”正从概念走向实用；OpenAI技术报告披露GPT-4o谄媚语气源于对齐策略副作用，也提醒行业在追求自动编码时须兼顾可控与安全。

Gemini 2.5 Pro首次通关《宝可梦蓝》，展示大模型在长周期决策与记忆管理上的进步；虽然属于娱乐场景，却为开放世界NPC、自动化QA测试等商业应用提供低成本验证路径。