2024-02-25 AI话题 - AI快开门

Sora引爆视频生成赛道

OpenAI发布文生视频模型Sora，可一次性生成60秒连贯高清视频，被视为迈向“世界模型”的关键一步。其统一Patch数据工程与扩散+Transformer架构迅速成为行业对标对象，引发影视、广告、游戏等内容产业震动，并带动Pika、Stable Diffusion 3等竞品密集更新，2024年视频生成进入“军备竞赛”阶段。

具身智能与机器人融资潮

具身智能人形机器人英伟达 Figure AI 融资

英伟达成立GEAR实验室押注“通用具身智能体”，OpenAI、英伟达、贝索斯联手向人形机器人初创公司Figure AI注资6.7亿美元，使该赛道单轮融资再创新纪录。从模拟世界到物理世界，基础模型与机器人学深度耦合，2024被视作“具身智能元年”，硬件、数据、控制算法全面加速。

Gemini翻车与长上下文大战

Gemini 长上下文 LongRoPE 价值对齐微软

谷歌Gemini 1.5以百万级token上下文刷新纪录，却因图像生成“刻意多元化”引发公关危机，紧急下线生图功能；微软LongRoPE迅速反击，把窗口推至200万token且几乎零额外训练。上下文长度成为大模型新战场，同时也暴露价值对齐与数据策略的脆弱性，对商用信任度提出挑战。

AI for Science新里程碑

AI4Science 核聚变等离子体扩散模型参数生成

普林斯顿团队利用深度学习提前300毫秒预测核聚变等离子体撕裂，登上Nature并刷新清洁能源研究纪录；扩散模型被用于直接生成神经网络参数，LeCun转发点赞。AI正从“辅助分析”走向“主动发现”，在能源、材料、数学等基础科学领域催生新的研究范式。

模型训练与部署加速

YOLOv9 训练加速 Gemma 分词器工程化

YOLOv9以可编程梯度信息刷新实时检测SOTA，Karpathy亲自拆解GPT分词器并开源全流程，Hugging Face与谷歌合作上线Gemma微调方案，Stable Diffusion 3展示文字级细节控制——从算法、框架到硬件协同优化，AI工程化进入“分钟级”微调与“秒级”推理时代，显著降低开发者门槛。

因果与可解释AI升温

因果推断可解释AI PID 科学计算鲁棒性

从NeurIPS spotlight的高斯部分信息分解到BAAI因果涌现读书会，因果推断正成为大模型可解释、鲁棒与科学计算的新支点。学界尝试用因果结构先验改进学习范式，工业界则关注其在医疗、决策等高 stakes 场景下的可靠性，2024年因果+AI进入“范式初探”到“落地验证”过渡期。

AI快开门

发现最好的AI工具