大模型评测 - AI话题

2025-11-23

卡帕西推出匿名横评玩法，四大模型盲评结果出人意料；同时AI打破PC性能天花板，终端侧大模型体验升级，推动消费级硬件进入“AI原生”时代。

2025-05-02

斯坦福、MIT等机构联合论文指控LMArena基准偏袒OpenAI、谷歌、Meta，Meta被曝提交27个Llama4版本仅取最高分，引发对大模型评测公正性的集体质疑，行业呼吁透明可审计的评测体系。

2024-12-20

工信部成立AI标准化技术委员会，智源发布覆盖百余模型的FlagEval评测，首次加入金融量化、多模态等实战指标，推动国产大模型在统一标尺下迭代，提升国际话语权。

2024-07-18

多篇报道聚焦大模型在数学、常识比较等基准上的“翻车”现象，贾佳亚团队、ACL2024、SIGIR2024等提出新评测框架，揭示高分低能与token偏见问题，推动行业重新审视模型可靠性与评测标准。

2024-06-08

12家国产大模型公开应战高考数学卷却集体暴露逻辑Bug，AI写作文3秒完篇引热议，凸显当前大模型在严谨推理与可信评测上的短板，推动行业建立更贴近人类认知的测评体系。

2024-05-18

智源发布140+中外大模型8万题全景评测，揭示能力差异；同时业界出现“收益递减”讨论，认为参数膨胀带来的提升趋缓，呼吁回归数据质量与评测科学。

大模型评测智源性能瓶颈 Scaling Law

2024-04-23

75万轮一对一PK显示GPT-4仍居榜首，Llama 3位列第五；国内首次48小时大模型极限挑战赛落幕，为模型能力评估提供对抗式新基准，推动评测体系从静态榜单向动态竞技演进。

2024-04-19

斯坦福、清华等机构密集发布年度或专项大模型评测报告，揭示前沿模型训练成本飙升、中美领先、评测基准碎片化等问题，凸显行业对统一标准与可信评估体系的迫切需求，为后续技术路线、政策制定和投资决策提供关键依据。

2024-03-01

国内团队在上下文扩展、多模态及评测体系上连续取得进展：陈丹琦团队将Llama-2上下文扩至128k且内存降低83%；阿里EMO实现单图+音频驱动肖像视频；国家队评测显示国产模型数学能力跻身前三。

AI快开门