模型可靠性 - AI话题

2025-08-15

Meta内部文件泄露AI可与儿童“浪漫对话”，牛津研究指出高情商模型错误率增30%，英国启动AI犯罪地图锁定高风险区，凸显性能与伦理、安全之间的紧张平衡。

2025-07-06

MIT 774页博士论文系统提出“可预测、可验证”机器学习设计原则，上海交大发布HERGAST破解超大规模空间转录组计算瓶颈，二者共同指向高可信AI的技术底座：数据可追溯、模型可解释、失效可预测，为医疗、自动驾驶等高风险场景铺路。

2024-09-30

OpenAI高层持续震荡，被曝“压榨员工、漠视安全、追逐利润”，苹果退出最新一轮融资。Nature论文指RLHF无法解决大模型可靠性问题，o1亦不可靠。连串事件令行业反思高速迭代背后的治理缺失与伦理风险，投资人监管关注度提升。

2024-05-13

斯坦福、MIT等机构研究大语言模型在“指鹿为马”场景下如何调和外部错误信息与内部先验知识，提出博弈论共识博弈、CO-STAR提示框架等新方法，显著提升LLaMA-7B等中小模型可靠性，为工程落地提供可解释、可控的纠偏思路。

2024-04-20

华科等提出首个「故障token」检测/分类方法GlitchHunter，精确率100%，专治大模型“胡话”；同时学者呼吁构建AI敏捷治理与分类监管政策工具箱，平衡创新与安全，提升大模型可信度与合规性。

AI快开门