感知 - AI话题 - AI快开门

2025-09-29

具身智能与机器人感知升级

上交-剑桥提出注入几何先验的 VLA 方法，机器人操作成功率提升 31%；智源开源零样本跨本体 RoboBrain-X0；Meta 推出安卓式机器人平台，大模型+数据成为新范式，具身智能正从实验室走向工业与家庭场景。

具身智能机器人感知 VLA 跨本体 Meta

2025-05-30

人形机器人与具身智能

Figure合并团队发布Helix、上海出台数据生态政策、HopeJR 3000美元开源机、波士顿动力Atlas秀3D感知，显示人形机器人正从demo走向量产前夜，硬件成本下降与运动大模型是关键推手。

人形机器人具身智能运动大模型成本下降 3D感知

2025-05-06

多模态大模型技术突破

谷歌、苹果、英伟达及国内高校密集发布多模态新架构与SOTA模型：Gemini 2.5 Pro升级网页交互，苹果提出早融合+MoE Scaling Law，Video-XL-Pro以3B参数超越7B长视频理解，Perception-R1纯多模态检测超越YOLOv3，显示通用感知与多模态融合正快速逼近商用临界点。

多模态 Gemini 苹果 Video-XL 感知

2025-05-03

多模态感知与交互升级

百度网盘推出多模态AI笔记，宣称学习效率提升10倍；多模态LLM在目标检测上超越YOLOv3，强化学习刷新感知极限；Reddit搜索栏引入AI助手，谷歌开放13岁以下儿童使用Gemini。语音、视觉、文本正在同一界面无缝融合，预示“说一句话完成复杂任务”成为C端产品新标配。

多模态感知融合 AI笔记儿童交互搜索助手

2025-04-19

多模态AI颠覆科学发现

Nature连续发文指出，多模态基础模型可将基因组、蛋白、代谢等跨组学数据统一预训练，突破人类解读瓶颈；国内哈工大“指令驱动全景感知”让模型不再“只看主体”，上海交大&EPFL用Transformer精准预测催化剂吸附能。AI正成为生命科学、材料、化学等基础研究的“统一加速器”，开启“科学智能”新纪元。

AI for Science 多模态基础模型组学数据全景感知催化剂设计

2025-03-15

具身智能与机器人突破

国产人形机器人N2完成全球首次连续空翻并量产售价3.99万元；深大ROSKA框架让复杂任务样本效率提升95%；人大开源视触觉统一模型。算法、硬件与成本三重拐点齐现，推动机器人从实验室走向千行百业。

人形机器人空翻 N2 ROSKA 视触觉感知

2025-02-13

视频/多模态生成技术突破

快手CineMaster、阿里Animate Anyone 2、谷歌Whisk、Adobe Firefly等集中发布，实现3D感知精准视频生成、人物动作表情迁移、图文一键混剪短视频；Magic 1-For-1 1分钟长视频模型亮相，显示多模态AIGC进入可控高分辨率时代。

视频生成多模态 3D感知 Animate Anyone Firefly

2024-12-24

多模态空间智能突破

李飞飞&谢赛宁连发研究证实多模态大模型内部已自发形成“空间大脑”，可记忆与推理三维布局；同时DisPose、Sketch2Sound等新工具实现视频驱动舞蹈、文本+声音生成高保真音频，标志AI正从“看懂”走向“操作”物理世界，为AR/VR、机器人导航打开新场景。

空间智能多模态世界模型 3D感知具身智能

2024-11-24

多模态感知与机器人触觉

CNRS 与港大推出低成本柔性磁膜“皮肤”，实现三维力自解耦，登上 Nature 子刊；结合视觉-语言-触觉，机器人精细操作门槛大幅降低，为服务与工业场景落地打开空间。

机器人皮肤三维力柔性磁膜多模态感知低成本

2024-11-23

机器人数据与视频生成

英伟达联合高校推出DexMimicGen，将人类演示数据增强200倍破解灵巧手训练瓶颈；同时开源SOTA视频Tokenizer惠及视频生成与机器人社区；低成本三维力自解耦机器人皮肤登上Nature子刊，数据与感知突破加速机器人落地。

机器人数据 DexMimicGen 视频Tokenizer 三维力感知 Nature

2024-11-15

智能体与机器人感知进化

Meta触觉机械手NeuralFeels精度提升94%，波士顿动力Spot升级避障，华为Agent K获6枚Kaggle金牌，李飞飞团队发布具身智能评测基准EAI，表明AI正从“数字大脑”走向“物理智能”，加速进入灵活操作与开放环境决策时代。

NeuralFeels Agent K 具身智能 Spot机器人触觉感知

2024-11-04

AI+机器人通用控制突破

Physical Intelligence 3B参数π0模型实现单一模型对7种机器人形态的通用家务控制，Meta发布Sparsh触觉编码器让机器人获得“人类级”灵巧操作，MIT新训练框架简化复杂任务求解，港大LightRAG用图结构提升机器人知识检索效率，显示“通用机器人大脑”正从实验室走向家庭与工厂。

通用机器人 π0模型触觉感知图RAG 家务自动化

2024-11-03

机器人技能学习新范式

MIT借LLM范式让机器人通过语言指令快速习得新技能，Meta发布高分辨率触觉指尖与通用触摸编码器，华为入局人形赛道，感知-决策-执行闭环加速。

机器人学习触觉感知人形机器人 LLM

2024-08-25

具身智能与无线感知

北大张大庆团队提出把WiFi/5G/6G信号作为机器人“第六感官”，实现隔空心率检测与暗光环境定位；该思路降低对昂贵视觉传感器的依赖，为服务机器人、车载物联网提供低成本、全场景感知方案。

具身智能无线感知 WiFi sensing 6G 机器人

2024-06-01

类脑芯片与视觉感知革新

清华「天眸芯」登Nature封面，全球首款类脑互补视觉芯片实现10000帧/秒、130dB动态范围，突破功耗与带宽墙；结合自由能原理与植入式脑机接口讲座，预示从感知到认知的类脑硬件生态正快速成形，为机器人与AGI提供超低延迟感知方案。

类脑芯片视觉感知天眸芯自由能原理脑机接口

2024-01-21

目标检测架构再进化

YOLO-Former 将 Transformer 注意力与 YOLOv4 融合，在保持实时性的同时刷新精度；浙大 UniVision 统一占用预测与目标检测，为自动驾驶提供一站式 3D 感知框架。

YOLO-Former UniVision 目标检测 3D感知自动驾驶

# 感知