2025-09-29
具身智能与机器人感知升级
上交-剑桥提出注入几何先验的 VLA 方法,机器人操作成功率提升 31%;智源开源零样本跨本体 RoboBrain-X0;Meta 推出安卓式机器人平台,大模型+数据成为新范式,具身智能正从实验室走向工业与家庭场景。
2025-05-30
人形机器人与具身智能
Figure合并团队发布Helix、上海出台数据生态政策、HopeJR 3000美元开源机、波士顿动力Atlas秀3D感知,显示人形机器人正从demo走向量产前夜,硬件成本下降与运动大模型是关键推手。
2025-05-06
多模态大模型技术突破
谷歌、苹果、英伟达及国内高校密集发布多模态新架构与SOTA模型:Gemini 2.5 Pro升级网页交互,苹果提出早融合+MoE Scaling Law,Video-XL-Pro以3B参数超越7B长视频理解,Perception-R1纯多模态检测超越YOLOv3,显示通用感知与多模态融合正快速逼近商用临界点。
2025-05-03
多模态感知与交互升级
百度网盘推出多模态AI笔记,宣称学习效率提升10倍;多模态LLM在目标检测上超越YOLOv3,强化学习刷新感知极限;Reddit搜索栏引入AI助手,谷歌开放13岁以下儿童使用Gemini。语音、视觉、文本正在同一界面无缝融合,预示“说一句话完成复杂任务”成为C端产品新标配。
2025-04-19
多模态AI颠覆科学发现
Nature连续发文指出,多模态基础模型可将基因组、蛋白、代谢等跨组学数据统一预训练,突破人类解读瓶颈;国内哈工大“指令驱动全景感知”让模型不再“只看主体”,上海交大&EPFL用Transformer精准预测催化剂吸附能。AI正成为生命科学、材料、化学等基础研究的“统一加速器”,开启“科学智能”新纪元。
2025-03-15
具身智能与机器人突破
国产人形机器人N2完成全球首次连续空翻并量产售价3.99万元;深大ROSKA框架让复杂任务样本效率提升95%;人大开源视触觉统一模型。算法、硬件与成本三重拐点齐现,推动机器人从实验室走向千行百业。
2025-02-13
视频/多模态生成技术突破
快手CineMaster、阿里Animate Anyone 2、谷歌Whisk、Adobe Firefly等集中发布,实现3D感知精准视频生成、人物动作表情迁移、图文一键混剪短视频;Magic 1-For-1 1分钟长视频模型亮相,显示多模态AIGC进入可控高分辨率时代。
2024-12-24
多模态空间智能突破
李飞飞&谢赛宁连发研究证实多模态大模型内部已自发形成“空间大脑”,可记忆与推理三维布局;同时DisPose、Sketch2Sound等新工具实现视频驱动舞蹈、文本+声音生成高保真音频,标志AI正从“看懂”走向“操作”物理世界,为AR/VR、机器人导航打开新场景。
2024-11-24
多模态感知与机器人触觉
CNRS 与港大推出低成本柔性磁膜“皮肤”,实现三维力自解耦,登上 Nature 子刊;结合视觉-语言-触觉,机器人精细操作门槛大幅降低,为服务与工业场景落地打开空间。
2024-11-23
机器人数据与视频生成
英伟达联合高校推出DexMimicGen,将人类演示数据增强200倍破解灵巧手训练瓶颈;同时开源SOTA视频Tokenizer惠及视频生成与机器人社区;低成本三维力自解耦机器人皮肤登上Nature子刊,数据与感知突破加速机器人落地。
2024-11-15
智能体与机器人感知进化
Meta触觉机械手NeuralFeels精度提升94%,波士顿动力Spot升级避障,华为Agent K获6枚Kaggle金牌,李飞飞团队发布具身智能评测基准EAI,表明AI正从“数字大脑”走向“物理智能”,加速进入灵活操作与开放环境决策时代。
2024-11-04
AI+机器人通用控制突破
Physical Intelligence 3B参数π0模型实现单一模型对7种机器人形态的通用家务控制,Meta发布Sparsh触觉编码器让机器人获得“人类级”灵巧操作,MIT新训练框架简化复杂任务求解,港大LightRAG用图结构提升机器人知识检索效率,显示“通用机器人大脑”正从实验室走向家庭与工厂。
2024-11-03
机器人技能学习新范式
MIT借LLM范式让机器人通过语言指令快速习得新技能,Meta发布高分辨率触觉指尖与通用触摸编码器,华为入局人形赛道,感知-决策-执行闭环加速。
2024-08-25
具身智能与无线感知
北大张大庆团队提出把WiFi/5G/6G信号作为机器人“第六感官”,实现隔空心率检测与暗光环境定位;该思路降低对昂贵视觉传感器的依赖,为服务机器人、车载物联网提供低成本、全场景感知方案。
2024-06-01
类脑芯片与视觉感知革新
清华「天眸芯」登Nature封面,全球首款类脑互补视觉芯片实现10000帧/秒、130dB动态范围,突破功耗与带宽墙;结合自由能原理与植入式脑机接口讲座,预示从感知到认知的类脑硬件生态正快速成形,为机器人与AGI提供超低延迟感知方案。
2024-01-21
目标检测架构再进化
YOLO-Former 将 Transformer 注意力与 YOLOv4 融合,在保持实时性的同时刷新精度;浙大 UniVision 统一占用预测与目标检测,为自动驾驶提供一站式 3D 感知框架。