让机器人掌握“从经验中学习”:萨顿与他山科技的具身智能新路径探索

5月11日,图灵奖得主、“强化学习之父”理查德·萨顿教授与国内触觉感知领军企业他山科技正式达成合作,签约共建全球首个基于强化学习与触觉感知深度融合的“机器人幼儿园”。这一举措标志着具身智能领域在技术创新路径上迈出了重要一步,为机器人如何通过感知与行动实现自主进化提供了全新的想象空间。

实现机器人的自主感知与行动是具身智能的终极目标。尽管当前大模型驱动的技术路线在视觉识别、语言交互及任务分解方面进展显著,为机器人构建了强大的基础能力层,但业界仍在深思:机器人如何才能真正“理解”物理世界?语言可以抽象描述“轻拿轻放”,却无法穷尽每一次抓取中力度、角度与速度的细微变化。大模型虽擅长逻辑推理,但物理交互中那些连续且难以言传的经验,才是机器人操作能力的核心。

正因如此,强化学习这一让机器人“自己感知、自己尝试、自己积累”的技术框架显得尤为关键。其核心在于智能体通过与环境的持续交互,在“尝试—反馈—调整”的循环中自主优化策略。

这一过程不依赖海量的人工标注,而是让数据在机器人与现实世界的直接接触中自然生成,使智能体具备从自身经验中持续学习的能力,而非仅仅复现人类已有的知识。

萨顿教授与他山科技共建的“机器人幼儿园”,并非简单的实验场,而是一个精心设计的结构化成长环境。它融合了他山科技先进的触觉感知技术与萨顿教授顶尖的强化学习思维,训练机器人在循序渐进的探索中建立对世界的认知。

从最基础的触碰感知开始,逐步进阶到复杂任务处理。每一次动作尝试与结果反馈,都转化为算法迭代的养料,使机器人能够将物理经验进行迁移,从而具备应对新环境的通用性。

在这一学习闭环中,他山科技自主研发的触觉感知系统起到了支撑作用。视觉虽能捕捉物体形态,但触觉提供的力度、摩擦力及材质形变等精细物理信息,对于形成准确的物理认知至关重要。

萨顿教授在访谈中指出,这种高精度与实时性的触觉技术超出了预期,它与强化学习算法结合,形成了“自主探索—精准反馈—策略优化”的完整链路。在此过程中,智能在无需人工干预的互动中逐步生长。

重大技术的突破往往依赖多条路径的并行。在具身智能的发展进程中,强化学习有望在物理交互与自主进化维度开辟新空间,与大语言模型共同拓展机器智能的边界。

萨顿教授与他山科技的合作,是国际顶尖学术智慧与中国产业创新能力的深度对接。其意义不仅在于技术突破,更在于确立了一种新范式:让机器人从被动接受知识走向主动生成经验,从环境适应走向自主成长。随着这些微小经验的积累,具身智能正在实现从“模仿”到“成长”的本质跃迁。

编辑:侯隽

顶部