AI快开门

发现最好的AI工具

2025-11-23

大模型评测与PC端革新

卡帕西推出匿名横评玩法,四大模型盲评结果出人意料;同时AI打破PC性能天花板,终端侧大模型体验升级,推动消费级硬件进入“AI原生”时代。
2025-05-02

LMArena榜单操控风波

斯坦福、MIT等机构联合论文指控LMArena基准偏袒OpenAI、谷歌、Meta,Meta被曝提交27个Llama4版本仅取最高分,引发对大模型评测公正性的集体质疑,行业呼吁透明可审计的评测体系。
2024-12-20

中国标准与评测体系

工信部成立AI标准化技术委员会,智源发布覆盖百余模型的FlagEval评测,首次加入金融量化、多模态等实战指标,推动国产大模型在统一标尺下迭代,提升国际话语权。
2024-07-18

大模型评测与缺陷暴露

多篇报道聚焦大模型在数学、常识比较等基准上的“翻车”现象,贾佳亚团队、ACL2024、SIGIR2024等提出新评测框架,揭示高分低能与token偏见问题,推动行业重新审视模型可靠性与评测标准。
2024-06-08

大模型评测与高考挑战

12家国产大模型公开应战高考数学卷却集体暴露逻辑Bug,AI写作文3秒完篇引热议,凸显当前大模型在严谨推理与可信评测上的短板,推动行业建立更贴近人类认知的测评体系。
2024-05-18

大模型评测与性能瓶颈

智源发布140+中外大模型8万题全景评测,揭示能力差异;同时业界出现“收益递减”讨论,认为参数膨胀带来的提升趋缓,呼吁回归数据质量与评测科学。
2024-04-23

大模型评测与竞技

75万轮一对一PK显示GPT-4仍居榜首,Llama 3位列第五;国内首次48小时大模型极限挑战赛落幕,为模型能力评估提供对抗式新基准,推动评测体系从静态榜单向动态竞技演进。
2024-04-19

大模型评测与标准化

斯坦福、清华等机构密集发布年度或专项大模型评测报告,揭示前沿模型训练成本飙升、中美领先、评测基准碎片化等问题,凸显行业对统一标准与可信评估体系的迫切需求,为后续技术路线、政策制定和投资决策提供关键依据。
2024-03-01

国产大模型技术突破

国内团队在上下文扩展、多模态及评测体系上连续取得进展:陈丹琦团队将Llama-2上下文扩至128k且内存降低83%;阿里EMO实现单图+音频驱动肖像视频;国家队评测显示国产模型数学能力跻身前三。