FrontierMath - AI话题

2025-01-21

OpenAI o3被曝提前获取FrontierMath真题，60位数学家“集体被耍”；好莱坞颁奖季再陷AI道德困境，凸显Benchmark公信力与创意行业失业焦虑。

2024-11-16

FrontierMath新基准测试揭示主流大语言模型在复杂数学推理上正确率不足2%，凸显其逻辑推理短板；同时业界持续争论LLM是否具备真正“推理”能力，提示通往AGI仍有关键缺口，亟需新算法与评测体系突破。

AI快开门