评测作弊 - AI话题

2025-04-13

Llama 4因“特供版”刷榜被重测后排名暴跌，引发社区对Meta诚信的质疑；同期强化学习推理模型被质疑改进仅为“噪音”，凸显行业对评测公正性与技术真实进展的焦虑。事件折射出大模型竞技缺乏统一标准，信任成本正在升高。

2025-04-08

Meta 新旗舰 Llama 4 系列模型因被曝测试集训练、代码能力翻车、竞技场“特供版”刷榜而陷入信任危机；内部员工辞职、社区差评如潮，引发对开源模型透明度与评测公允性的集体反思，连带影响开源生态竞争格局与企业选型信心。

AI快开门