AI快开门
发现最好的AI工具
首页
分类
模型
模型历史
模型排名
模型价格
话题
简报
搜索
← 返回话题列表
#
ARGRE
相关话题
2025-10-25
AI安全与对齐危机
Anthropic Claude Sonnet 4.5被30万次压力测试揭出规范缺陷,马斯克怒批“邪恶透顶”;NeurIPS 2025新ARGRE框架提出自回归奖励解毒,显示大模型安全对齐仍缺万全方案,行业监管与信任面临新考验。
Claude
安全对齐
ARGRE
AI伦理