12月8日,地平线首届技术生态大会(Horizon Together 2025)在深圳启幕。大会以“向高同行”为主题,汇聚全球汽车产业链头部公司,聚焦“加速全场景辅助驾驶量产普及”的阶段性使命,分享前沿实践,凝聚关键共识。
其中在“从智能汽车到机器人的技术跃迁”专题论坛上,清华大学研究员、加速进化首席科学家赵明国分享了其在“反应式视觉驱动”机器人系统上的突破性思考与实践。他指出,当前机器人领域普遍沿袭“感知-定位-决策-执行”的模块化路径,虽然逻辑思维和行为模式类人,效果却并不好。为此,其团队借鉴DeepMind端到端训练思路,提出基于视觉直接驱动运动的“反应式”新范式——仅通过视觉感知与行为映射,使机器人具备“见球即踢”的本能响应能力,大幅提升运动敏捷性与环境适应性。
赵明国指出,其团队的目标是希望2050年建立一支人形机器人的足球队,战胜当年的世界杯冠军。要达成这一目标,他认为机器人必须满足四大条件:第一,机器人必须是非常可靠的硬件;第二,机器人摔倒以后必须能爬起来,不需要后面的人保护;第三,冲撞的时候能抵住冲撞;第四,必须快速敏捷的踢球。
面向2050年“人形机器人足球队战胜人类世界杯冠军”的长期目标,赵明国认为需坚持“底层能力优先”的发展逻辑,持续强化硬件可靠性、运动控制与群体协作算法,同时通过产学研合作推动技术开源与生态共建,加速具身智能时代的真正到来。在他看来,机器人不仅是任务的执行工具,更应成为具备环境交互与群体智能的协同实体,而这正是未来十年机器人技术演进的核心方向。
清华大学研究员、加速进化首席科学家 赵明国
演讲正文:
赵明国:大家下午好,非常荣幸能够在这么重大的一个行业的峰会上分享我们的一些研究内容。大家从我们的题目中已经看到了,我特别把反应式和视觉驱动提出来了,对机器人来讲,我们特别流行AI、VR或者视觉的一些内容,我们是比这些概念还要简单的一个词,我们基于视觉直接驱动运动这样一个可以叫端到端的,但从视觉来讲特别小的一个过程,它并不能算一个模型,主要用于我们实现一个反应式的功能。
我们一直有一个想法,想让这个人形机器人能像人一样,所以在这个大的主题下,不停地改进我们的算法。每年或者每个季度我们都会更新一些研究的内容,逐渐把它推到可观赏、可应用的程度,首先介绍一下我们实验室,我们做两方面的内容,第一个做人形机器人,主要研究一些算法,和一些企业合作。现在的人形机器人,主要是我们实验室机器人足球队的创业公司在做这件事情,我们最新的成果也是基于这些内容在做。
第二个是做一些类脑计算,就是我们把一个类脑的芯片集成在一辆无人驾驶自行车上实现自动平衡、语音控制、避障等多种功能,登上2019年《Nature》封面,展示它的内容,基于这个研究最终我们有一个类脑的服务器为未来的机器人做一些服务的工作。
那为什么我们做人形机器人踢足球的事情?因为有一个机器人的世界杯,我们有一个非常大的目标,希望2050年建立一支人形机器人的足球队,战胜当年的世界杯冠军。这个目标是因为1997年的时候,人类完成了一个AI领域的挑战,用国际象棋作为AI领域的标准任务,机器人战胜了当年的冠军,所以在IBM取得胜利之后,7月份人工智能顶级会议就开始了机器人的世界杯,但当年的第一个世界杯并不是人形机器人,是一个小车,而且调动的是全场景视觉。
但是2002年的时候,人形机器人开始比赛了,到2005年,已经发展到一个新的时代,这个我后面会解释,为什么说2005年是一个新的状况?因为大家一直在比赛的范围内不断发展,但对整体水平来讲,我觉得都停留在一个时代,但2005年变成了很不一样的局面,这个期间在我们的推动下,我们的实验室和这个公司一起把这个事情做了改变,我们直接对准了2025年的目标。这个事情短期内做不到,需要一点点去做。
我们看一下这个对比,左边这个是去年国际比赛的视频,这个时候的机器人还是缓慢移动,逐渐找到球,对准球门,采取一些策略踢球。同一年,《Science robotics》上Deepmind的一个小组做了一件事情,就是利用端到端直接训练的网络,我们看到这样的形式是能起到作用的。
所以我们总结了一下,如果按原来的做法,肯定是按照某种逻辑,把任务分成若干个子任务,先视觉,到定位,再决策,最后到行为,几乎20多年都是这样发展的,但是Deepmind这个是通过一个映射到行为,我特别把端到端做了一个区别,希望再详细解释这样的区别。我们提出了一个问题,如果这样两个队比赛的话,谁会赢呢?我们现在的回答,比如2025年、2026年这个队是赢不了的,但是一旦它能战胜你的时候,它的这种方式要远远好于前面的方式,实际上这是一种本质的不同,前面虽然按照人的逻辑在思考问题,行为模式也很像人,但是它的结果并不好,它不是按照人的原理性去做的,产生的结果也达不到我们的期望。所以我们内部经过多次讨论之后,觉得一定要用新的方式改变这种比赛。
另外一个大家看到,左边的比赛后面还要人来服务,实现不了自主,这个和2025年的目标太远了,所以我们讨论,提出四点,第一,机器人必须是非常可靠的硬件;第二,它摔倒以后必须能爬起来,不需要后面的人保护;第三,冲撞的时候能抵住冲撞;第四,必须快速敏捷的踢球。
基于这些思考,我们做了四项工作:第一项,我们必须有好的硬件,这个由我们的合伙人一起做了研究,在比赛的时候可以完成激烈碰撞,我们完成了两个机器人——K1、T1;第二项,它必须能自主的在场上起身,如果大家看过比赛会知道,机器人会倒在另一个的身上,在这种复杂的过程中能完成自主起身。这个我们已把成果发布在顶级的期刊上;第三项,是拉着机器人像两个人上街一样,扶着一个机器人上场,这个结果在明年的会议上会做出来,最重要的是,我们希望得到一个敏捷的,像人一样快速完成踢球的功能。
我们开发了一个基于视觉驱动的快速踢球的方法,它可以像我们小时候一样,摆好球门后,自然的完成踢球动作,而且是见到球就完成整个踢球任务,不需要做整个踢球的思考。我们把这些全部集成在一个1.17米的机器人上,这个结果我们投在了《Science Robotics》。这个机器人会感知环境,把关键信息提取出来。另外一个黄色的回路,可以做两件事情,一件是做一个视觉的里程计算,相当于知道自己的定位,用神经网络做一个定位。另外一件是做一个神经的策略,不管在什么位置,我们的机器人只有一个动作,就是走到球前面,快速的把球踢进去。我们只用了两个网络,但是会碰到很多困难,我们用传统降低数据的维度,得到了一个很好的效法。实际上跟大家想的一样,我们的算法一个是训练,一个是部署,训练是构建这样的环境,用感知到的视觉做它的训练。这个视觉非常完好,但实物中的机器人视觉不太好,我们经过一定的处理之后,得到了一些比较可行的路线,相当于在一个简单的流程上面,能够把这些问题跑通。
这个就是我们比赛中应用的案例,今年7月份在巴西的比赛上,这个机器人就表现出来比较好的性能。大家从刚才这个视频中可以看到,在一个相对复杂的环境下,机器人摔倒了,裁判对这个新事物也不是很清楚,说机器人能踢成这样,所以他上场对这些事情干扰,这些机器人也能比较好的处理这些问题,顺利完成踢球,而且是第一时间把球奔着球门踢了。这是另外一个场景,实际上是对方出现了一个状况,机器人能根据自己训练的结果直接决策过程,它的本能就是跑过去,把球踢过来,这是跟我们人一样,长期训练的结果,并不是经过思考才产生行为,这样的行为会非常慢,不会产生效果。
大家看另外一个视频,它会出现很意外的效果,这是我们做不一样算法的时候,几个机器人会发生很重要的争抢,争抢的过程中,1号会参与这个争抢,但是它会等待机会的出现。当这个机会一旦出现,它就会抓住这个机会。今年在国际比赛中,经常会出现这种情况,因为如果两个机器人采用同样策略的话,几乎就是机器人在什么地方,球在什么地方,大家就在一个地方争抢,但球一旦脱离一个地方,哪个机器人有机会,一定是敏捷地踢球。这个比赛之后,我们做了一个人机的比赛,这也是一个意外的总结:第一次机器人射门,人类的守门员守住了,但是他没想到,有一个人给机器人喂了一个球之后,这个机器人就意外射门了。本来是3对3,但有一个人突发奇想说我要加入到机器人里面去,相当于我们的国家队加了一个普通队员,产生了很好的效果,未来我们有一个机器人跟人的比赛,让高智能的机器人跟普通的人一起训练,把任务完成得更好。
这个是今年北京市举行的人形机器人的运动会,其中有一个是5对5的比赛,突然场地变得更大,机器人变得更多,北京市要求我们把在国际比赛中的代码开源,这样保证所有的参赛队都能比赛。这就造成了一个结果,有些队把所有机器人排在门前,看对方射门,要不就变成8个机器人,留4个机器人守门,4个机器人射门,就变成了机器人扎堆,有一个机器人摔倒之后把其他的机器人绊倒,而这种结果,我们就要连夜把它解决掉。所以,我们在三四天之内搞了新的策略,把这个问题解决掉了,最后比赛完成了任务。通过这样的实践,我们解决了一些可靠性问题和一些关键性技术,我们把一个比赛从变成3对3,到推动北京市变成5对5。
我们的机器人领域,尤其人形机器人领域,很早就在效仿自动驾驶,说能不能搞出一个路线图来,因为路线图能帮行业快速发展,锚定几个顶级任务定发展,但是几个机器人都不能互相比较,比如一个叠衣服的机器人和踢足球的机器人的能力怎么去比?无法达到共识。
但是我们经过长期的努力,对机器人踢球这个领域可以做一个分级,我按照我的逻辑尝试做了一下,第一级是纯粹盲的运动,闭着眼睛,只靠本体的内容完成所有的运动,比如走路,踢球,包括我们的推网,抵抗外部运动,但我并不知道外部的场地是什么样子,也不知道球在什么地方,这个时候只能靠盲踢,这个时候是遥控的比赛,由人来遥控。实际上,大家看到外面的机器人做的都是这些,闭着眼睛跳舞,闭着眼睛打球,但是基本上在同一个等级上做同样的事情。在这个基础上要增加一个事情,就是感知,第一个增加视觉,我们可以踢一个普通的球,未来可以踢一个空中的球,现在的人形机器人,你抛给它一个球,它可以凌空射门。第三级是让这个机器人找到球,第四级是让两个机器人合作,第五个级别是团队的机器人合作。
所以,大家看到不是单一机器人的能力,是一个机器人单体智能到群体智能,这中间可以让我们搞很多的技术,所有的技术都可以检测。所以,我个人觉得从踢足球的L1到L5,是一个智能水平的提高,这个智能水平的提高需要一些基础,横向我们列了三行,可做的内容是一个任务难度的增加,如果实现智能水平,需要增加硬件的复杂度,比如要增加计算资源、关键电机性能等,才能实现这些。算法则需要算法开发的复杂度,大家开发不同的算法,传统的是在这个方向努力,相当于第一层,我们今年做的工作相当于是第二层和第三层中间,但是它的能力并不是特别强,所以至少要到2050年。原来设定的目标是50年那么长,现在来看还要25年。
如果这个图是对的,有15项内容去做,我们每个都去做,还是跳着做,找到一个捷径去做?我们当然想快速的跃向右上角,但是实际上应该把能力补足,为什么?因为第二层的能力建立在第一层的基础上,如果你的底层能力不足,就很难去构建更高层的能力,你可能费了很多的劲,实际上效果并不佳,所以这几个箭头是我们努力和发展的方向。这个过程中,我们希望增加很多的内容,包括增加我们计算的数据,增加我们计算的资源,所以我们在新的机器人里面,和地瓜进行了一些合作。我们同时做了两个视频,一个是地瓜的,一个是我们创业公司做的机器人,之间我们产生了某种合作。实际上大家是一起来完成整个具身时代加速到来的过程,我们的合作是一个比较好的案例。大家争取去做,一起携手,共同完成整个生态的开发。
这一块也是基于小机器人的一个视频,但这个视频需要我们更好的努力,我今天的汇报到这里,谢谢大家!
本文地址:https://auto.gasgoo.com/news/202512/10I70438687C601.shtml
 
联系邮箱:info@gasgoo.com
求职应聘:021-39197800-8035
简历投递:zhaopin@gasgoo.com
客服微信:gasgoo12 (豆豆)
新闻热线:021-39586122
商务合作:021-39586681
市场合作:021-39197800-8032
研究院项目咨询:021-39197921
