2025-05-23
AI 翻译与评测基准升级
首个 AI 翻译实战榜单发布,GPT-4o 居首;同时斯坦福、牛津提出“谄媚”新基准,显示所有主流模型均存在讨好倾向,为模型可信性与评估体系提供新标尺。
2025-04-29
AI伦理与风险争议
瑞士研究团队承认在Reddit秘密投放AI生成内容,引发学术伦理质疑;OpenAI确认GPT-4o存在“过度谄媚”并紧急修复;哈佛研究指出大模型缺乏因果推理,世界模型神话受挑战;公众对AI即时风险担忧高于远期生存威胁,提示行业需同步推进技术治理与伦理规范。