焉知汽车科技

  • 首页
  • 文章
  • 视频
  • 资料

上海AI Lab青年科学家曾嘉:理解、想象、执行一体化的具身操作大模型

2026-03-09 21:57 307
摘要:
当前具身智能领域面临高质量数据匮乏与模型泛化能力不足的双重挑战,亟需一种数据利用效率更高、泛化能力更强的模型架构。现有视觉-语言-动作(VLA)模型虽具备良好的语义理解能力,却难以建模物理世界的动态演变规律;而世界模型虽能进行物理推演,但在语义跟随与错误纠偏方面存在局限。

3月26-27日,在第二届焉知人形机器人大会上,上海人工智能实验室具身智能中心青年科学家曾嘉将发表主题演讲:理解、想象、执行一体化的具身操作大模型。  


曾嘉博士于2023年毕业于上海交通大学,长期从事机械臂操作、视觉-语言-动作大模型等研究,在RSS、CVPR、NeurIPS、IEEE T-PAMI等国际顶级会议与期刊上发表论文40余篇,并担任具身操作大模型InternVLA-A1的项目负责人及核心贡献者,同时也是高保真仿真数据InternData-A1的通讯作者。  


报告指出,当前具身智能领域面临高质量数据匮乏与模型泛化能力不足的双重挑战,亟需一种数据利用效率更高、泛化能力更强的模型架构。现有视觉-语言-动作(VLA)模型虽具备良好的语义理解能力,却难以建模物理世界的动态演变规律;而世界模型虽能进行物理推演,但在语义跟随与错误纠偏方面存在局限。  


针对上述问题,曾嘉博士介绍了InternVLA-A1模型。该模型采用混合专家Transformer架构,将语义理解与未来预测深度融合,实现了“理解、想象、执行”三大能力的统一。为突破数据瓶颈,研究团队构建了规模达6.92亿帧的大规模异构数据集InternData-A1,涵盖真机操作、高保真仿真与人类行为视频,有效支撑模型训练。  


实验表明,InternVLA-A1在静态与动态真机操作任务以及仿真测试中均表现出优秀鲁棒性。在高难度动态操作任务上,该模型相比基线方法pi0.5实现了26.7%的性能提升,显著验证了“语义理解+物理预测”融合架构的有效性,也体现了利用异构数据(尤其是无标签视频)训练通用具身智能模型的巨大潜力。

评论 0

请先 登录 后再发表评论~

海天一地

447

获赞

134

粉丝

2

关注

热门文章

IROS 2025现场直击:AC2发布获顶尖学者团认可,机器人之眼迎来突破性进展
IROS 2025现场直击:AC2发布获顶尖学者团认可,机器人之眼迎来突破性进展
芯驰科技E3650正式量产,22纳米旗舰MCU率先领跑下一代汽车架构
芯驰科技E3650正式量产,22纳米旗舰MCU率先领跑下一代汽车架构
爱芯元智今日登陆港交所:中国边缘AI芯片第一股诞生,智能汽车赛道加速突围
爱芯元智今日登陆港交所:中国边缘AI芯片第一股诞生,智能汽车赛道加速突围
新春集福 · 积分有礼,OpenLoong 开源社区春节活动官宣 !
新春集福 · 积分有礼,OpenLoong 开源社区春节活动官宣 !
黄仁勋之女首秀不谈芯片谈仿真,与李飞飞隔空呼应,英伟达下一盘“物理AI”大棋
黄仁勋之女首秀不谈芯片谈仿真,与李飞飞隔空呼应,英伟达下一盘“物理AI”大棋
2024年汽车行业展望
2024年汽车行业展望
共议“产业变革与可持续发展” 2025世界新能源汽车大会在海口开幕
共议“产业变革与可持续发展” 2025世界新能源汽车大会在海口开幕
知见:焉知智电产业1月刊【汽车人都关心的汽车事】
知见:焉知智电产业1月刊【汽车人都关心的汽车事】
万人齐聚,共绘蓝图!第三十二届中国汽车工程学会年会暨展览会在重庆盛大开幕
万人齐聚,共绘蓝图!第三十二届中国汽车工程学会年会暨展览会在重庆盛大开幕
嬴彻科技《自动驾驶卡车量产白皮书》102页
嬴彻科技《自动驾驶卡车量产白皮书》102页

更多精华美文扫码阅读

焉知汽车

焉知汽车

希骥电池与储能

希骥电池与储能

© 2018-2025 焉知 All Right Reserved · 沪ICP备15043037号-5 沪公网安备 31011502007507号