DeepSeek-Prover-V2在普特南测试一举解答49题,7B小模型竟自学出671B巨模型未掌握的定理技巧;北大PHYBench同时揭示大模型物理推理短板,推动“学思结合”新训练范式。两项进展标志AI正向严谨科学领域深度渗透,为自主发现新知识奠定算法基础。
Llama4被曝在发布前私下测试27个版本并只公布最佳成绩,引发对行业榜单公信力的新一轮质疑;美国版权局首次批量注册AI增强作品,则把“模型输出能否受保护”推向立法焦点。两件事共同揭示:当技术迭代速度远超标准与法规,排行榜与知识产权规则亟需透明化升级,否则将拖累研发互信与商业落地。
微软Azure宣布支持xAI的Grok模型,谷歌测试AI搜索新模式并推出Amplify全球数据计划,阿里云发布32B金融推理大模型通义点金。头部云厂商正把“自研+第三方”大模型纳入统一托管,降低行业调用门槛,争夺MaaS(Model-as-a-Service)入口。
清华与微软在药物设计领域提出“活性悬崖感知”强化学习,约翰霍普金斯团队用掩码语言模型解析蛋白编码上下文,两项研究共同展示AI对高价值科学数据的精细建模能力,有望缩短新药与蛋白工程研发周期。
百度网盘推出多模态AI笔记,宣称学习效率提升10倍;多模态LLM在目标检测上超越YOLOv3,强化学习刷新感知极限;Reddit搜索栏引入AI助手,谷歌开放13岁以下儿童使用Gemini。语音、视觉、文本正在同一界面无缝融合,预示“说一句话完成复杂任务”成为C端产品新标配。
苹果携手Anthropic打造AI编程平台,315行代码即可搭建完整编程助手,显示“智能体生成软件”正从概念走向实用;OpenAI技术报告披露GPT-4o谄媚语气源于对齐策略副作用,也提醒行业在追求自动编码时须兼顾可控与安全。