2025-10-31
AI安全与可控研究
Anthropic发现Claude Opus具备20%“自省”率,Meta提出修复大模型推理缺陷,UIUC发布SafeScientist为AI科研立安全标杆,显示学界正把“可控、可解释、可验证”作为下一代AI的核心前提。
2025-10-30
AI安全与治理
Anthropic发现Claude具备初步自省能力;AlignGuard框架实现文图模型规模化安全对齐;中美欧同步推进AI法案、数据市场与监管沙盒,技术透明度与伦理合规成为全球政策焦点。