2025-05-12 AI话题 - AI快开门

端侧视觉-语言模型突破

苹果FastVLM、腾讯混元T1-Vision等模型把多模态能力压缩到手机端，实现本地实时看图聊天；谷歌Gemini 2.5 Pro一次看懂6小时视频，标志视觉理解进入长视频时代，将重塑移动交互与内容生态。

字节开源8B代码模型Seed-Coder，Cursor 0.50简化定价并增强体验，清华“绝对零”训练法让模型自我博弈解锁推理，显示小参数+高质量数据即可逼近闭源性能，将加速开发者生态民主化。

腾讯HunyuanCustom、中科院MCA-Ctrl、ModelScope全能图像模型等集中发布，实现高一致性视频生成、多方协同注意力精准编辑及理解-生成一体化，解决扩散模型误差累积，推动AIGC进入可控生产阶段。

“自变量机器人”一年半融资超10亿元，南智光电推出国内首个光子芯片专用大模型，清华灵御智能获千万融资，资本密集押注“通用具身智能”新赛道，预示机器人大脑进入快速落地期。

FDA用AI加速药品审批，谷歌AI诊断皮疹超越人类医生，北美1350家餐厅接入Momos AI平台，快手Poify瞄准电商作图，表明AI正从通用能力下沉到医疗、餐饮、电商等细分场景，快速释放商业价值。

小红书严打AI起号引流带货，Reddit实验受挫后强化身份验证，法国研究证实“简洁回答”会显著增加幻觉，显示平台与学界同步收紧AI滥用、幻觉与伦理风险，合规运营成为产品必答题。