• 采购项目
  • 配套企业库
  • 销量查询
  • 盖世汽车社区
  • 盖世大学堂
  • 盖亚系统
  • 盖世汽车APP
  • Gasgoo night
  • 盖世汽车产业大数据
  • 2025汽车消费趋势洞察大会
  • dive into the Chinese auto market and supply chain
  • 2025第三届中国汽车及零部件出海高峰论坛
  • 第八届上海-斯图加特汽车及动力系统国际研讨会
  • 2025第四届中国车联网安全大会
当前位置:首页 > 活动 > 正文

聆动通用:多模态大模型让具身智能成为可能

盖世直播 陈琳铃 2025-03-21 16:05:21

自2022年11月起,GPT等模型的引入及其迅猛发展极大地提升了机器人在语言智能和复杂推理能力方面的表现。尤为显著的是多模态模型,特别是视觉语言模型,为人形机器人在理解开放式场景和执行复杂认知任务上带来了突破性的进展,未来10到15年间,预计机器人在知识密度和运算智能上将可能超越人类水平。然而,在抽象演绎和联想创造新知识方面,人类依然保持着无可比拟的优势。

在这些变革的推动下,机器人被定位为人类的辅助工具而非替代者,特别是在处理重复性和危险性任务时展现出巨大价值。另外,这也有望催生新的职业角色,例如机器人技能训练师。

2025年3月13日,在第三届具身智能机器人产业发展论坛上,聆动通用创始人兼CEO,原科大讯飞机器人首席科学家季超认为,在机器人技能训练的过程中,数据采集和仿真扮演着核心角色,尽管真实数据的价值更高,但其采集成本也相对较高。为了克服这一挑战,可以依托通用预训练模型,针对垂直领域和客户特定需求进行定制化训练,从而构建出适用于不同行业的强大模型。展望未来,具身机器人有望像智能手机那样重塑商业格局,引领从功能型机器人时代步入智能机器人时代。

聆动通用:多模态大模型让具身智能成为可能

季超 | 聆动通用创始人兼CEO

以下为演讲内容整理:

近年来,人形机器人的火爆以及当下具身通用机器人的发展浪潮,其底层逻辑源自大语言模型的突破。正是这一突破,使得机器人能够理解开放式场景中的问题,充分展现出认知大模型所带来的智能涌现的重要意义。

2022 年 11 月,Chat GPT进入国内,让人们切实感受到机器语言智能的涌现,标志着机器智能迈入了一个全新的时代。数月之后,GPT-4迅速进化,在复杂认知任务、复杂推理任务以及多模态任务处理能力等方面,实现了智能化水平的显著提升。这一点与机器人的视觉语言模型,乃至后续的视觉语言动作模型高度契合。以GPT为例,其在多模态复杂场景的语义理解,以及超越人类智能的推理能力等方面表现卓越,这使机器人在特定专业领域具备了超越人类智慧的潜在可能性。当将这种可能性与机器人的运动控制执行、环境主动感知以及行为决策进行分层串联后,在我们之前提及的具身工业、具身制造,甚至未来的具身家庭等领域,均创造了无限的发展可能。

在国内,我们的团队一直处于密切关注大模型发展的前沿位置。以Open AI为代表的文生文、文生图、文生视频类大模型,几乎以季度为周期进行更新迭代。当前,多模态基座大模型的能力上限不断提升。近年来,关于大语言模型乃至多模态大模型的scaling law是否已达上限,以及未来scaling law是否会失效等问题引发广泛探讨。

从我们的研究视角来看,大模型尤其是大模型基座的scaling law天花板正持续被突破。例如,OpenAI的o1在处理博士级别的专业复杂认知任务方面,已显著超越人类水平。今年备受瞩目的DeepSeek,在技术架构革新、训练方法创新以及工程优化创新等方面开展了大量卓有成效的工作。

回顾完过去几年大模型的发展,我们最终聚焦的核心问题是:在未来,当机器人走进千行百业与千家万户时,其与人类将构建何种关系?

从大脑层面的能力而言,生成式大模型能否无限趋近人类?研究结论显示,在知识储备方面,生成式大模型已达到相当高的水平,其知识密度可与211、985高校的大学生甚至博士生相媲美,在运算智能及知识密度维度上,显著超越人类。就行业内的普遍认知而言,在未来10至15年内,人类所独有的抽象演绎以及联想创造新知识的能力,目前的大模型尚不具备。

基于此,在现有大量信息化知识积累的柔性制造业场景中,凭借大模型技术已能够实现极为出色的管理成效。然而,在未来诸如家庭这类更加开放、且不断产生新知识的场景中,依据当前的技术发展路径分析,生成式大模型距离人们理想中的“终极形态”仍有差距,尚不具备产生自主意识的可能性。

因此,探讨未来大模型基座与具身智能模型的融合趋势,需从当前面临的主要问题和应用方向两个维度进行剖析。第一,大模型未来所蕴含的价值观和意识形态将与国家间有关。以AI陪伴及教育领域为例,其呈现的倾向性取决于顶层负责参数调整的相关人员。第二,目前诸多论文及开放式泛化操作研究表明,相关成果的成功率在理想情况下约为60% - 70%。然而,在实际工程应用场景中,60%的成功率与工业生产所要求的99.999%的高可靠性之间存在巨大差距。在实践中,单纯的通用大模型或未经后期针对性训练的认知大模型,难以在工业场景中稳定地完成任务拆分与理解,这类模型容易出现幻觉现象,给工业场景带来极大风险。

聆动通用:多模态大模型让具身智能成为可能

图源:演讲嘉宾素材

在此过程中,分析未来认知智能决策、大模型生成应用方向与人类的关系,可以明确的是,通用基座将承担大部分重复性、繁琐且非决策性的环节,而最终决策仍由人类主导。这也阐释了未来10至15年,在真实场景中人与通用机器人各自的定位。未来,机器人不会取代人类,而是助力人类减轻工作负担。以往那些重复、繁琐以及部分危险的工作,将由机器人承接,人类的角色可能转变为机器人技能训练师或机器人工作主管,其工作内容并未消失,而是衍生出新的职责与任务。

劳动力短缺以及中国AI高端制造的发展已成为不可逆转的趋势,在此背景下,机器取代人力已从以往的可选项转变为必然选择。综合考量近年来模型技术的发展以及国内供应链的演进,机器人性能正持续提升。随着近两年来人形机器人及各类机器人市场的蓬勃发展,国内供应链竞争愈发激烈,尤其是上游环节,关节器件等关键零部件成本显著下降。这一现象带来的直接影响是,机器人在智能化程度不断提高的同时,价格却愈发便宜。

长期以来,我们与客户保持密切沟通,产品市场契合度始终存在,但资产回报率在过去十年间一直是工业客户难以权衡的问题。以往,使用大型且价格昂贵的机器人去替代成本相对较低的劳动力,从经济账上看并不划算。

当前,随着机器人成本持续降低,其智能化水平不断提升,无论是在泛化抓取能力方面,还是在其他各类操作技能上,均已逐步渗透至大柔性、多品种、少批量的生产场景中。从投入产出比的角度来看,通常情况下,投资机器人的回报周期约为两年。在这一发展进程中,我们观察到,机器人的投入产出成本与人的整体边际成本正无限交合。

在此发展进程中,具身智能的整体发展趋势呈现出理想与现实的落差,虽前景广阔,但当前仍处于发展初期,其面临的最大挑战来自于数据层面。以目前备受关注的“pick place”这一简单动作中的定点抓取为例,这在传统工业机器人的技能中较为常见。然而,若要实现泛化抓取或各种柔性空间的自适应操作,所需的数据量是达到定点抓取的38倍。即便是“pick place”这样看似简单的技能,在需要泛化应用的场景中,数据量也会大幅增加。

聆动通用:多模态大模型让具身智能成为可能

图源:演讲嘉宾素材

目前在技术路线上主要存在两种不同方向。其中一个方向是侧重于合成数据以及基于仿真的数据运用,这种技术路线的优势在于成本较低、效率较高且易于规模化推广。真实数据虽然具有真实性和高价值的特点,但采集过程中存在诸多难题,需要耗费大量的人力成本、场地成本等。

当前,具身智能发展面临的关键问题在于如何制定有效的解决方案。从我们的行业认知出发,解决方案必然要基于通用的预训练基座。在垂直领域中,需依据不同场景、客户的实际需求,以及高价值数据的特性,针对性地训练出一系列适用于各垂直行业的矩阵大模型。

当这些行业大模型在各自领域内实现了从上至下,涵盖场景侧、任务侧和动作侧的端到端全链路打通后,便能够形成一个良性循环的数据飞轮。这不仅能够使商业模式得以成功运转,还将显著改善企业的经营状况。随着一个个垂直行业的突破,基于百川归海的发展趋势,我们有望提炼出具有共性的行业通用数据。

我们认为今年数据训练与数据采集领域将蓬勃发,因为灵活且性能稳定的硬件为具身机器人的数据采集及训练工作奠定了良好的技术基础。当AGI真正到来之际,硬件将能够达到何种灵活程度?以人形机器人为例,当AGI实现后,人形机器人将具备与人类相似的能力,能够完成人类所能执行的各类任务。

实际上,具身机器人的发展轨迹与过去的新能源领域以及智能手机的发展有一定的相似之处。回顾智能手机的发展历程,早期的手机主要是功能性设备,仅具备接打电话的基本功能。然而,随着技术的不断演进,如今的智能手机已实现了功能的多元化,其功能属性也从单纯的通信功能逐渐向社交等多领域拓展。我们认为具身机器人会对机器人领域的商业范式进行全方位重塑,推动其从功能级时代跨越至智能机时代。

讯飞聆动作为讯飞系的控股子公司,使命是在赋予机器人理解与思考能力的基础上,使其切实能够在制造业场景中高效执行工作任务,助力行业实现劳动力的优化升级,让全球都能享受到具身智能劳动力所带来的丰厚红利。

讯飞聆动的整个团队在具身感知、认知理解领域成果斐然,尤其是在世界模型构建以及世界知识的常识性理解等方面,斩获了多个世界级冠军奖项,团队最初专注于机器人“大脑”相关技术的研发。

关于空间的高阶感知能力,我们基于3D技术,针对室内广域空间进行感知与定位,这相较于以往基于2D的技术有了显著提升。

此外,机器人在实际工作场景中面临的问题,与传统工业机器人通过预编程解决的确定性问题存在本质区别。机器人需要在开放场景,甚至是离散、柔性的场景中,基于常识性任务进行推理。这就要求机器人的“大脑”具备基于逻辑关系的多模态理解能力,能够综合分析多种模态的信息,从而准确理解任务并做出合理的决策,以解决实际问题。

机器人区别于人的一个非常高阶的能力是具备强大的运算智能和高密度知识储备,能够在海量数据运算过程中,获取人类在相同时间内难以得出的结果。以蛋白质合成的配方获取为例,过去人类完成这一工作可能需要6至8个月,而如今机器仅需1至2天就能得出较为合理的配方。

我们认为未来机器人将以无代码模式的语音交互为主导,形成多模态交互方式。对此,我们提出了交互大模型,这是一种超拟人化的合成模型,构建了人与机器人之间的有效人机交互。在实现了机器人在大脑空间感知与推理等高阶能力后,下一步便是将这些能力切实应用到具身操作之中 。

在这一过程中,我们基于行业具身模型的任务理解,结合通用预训练基座开展工作。去年,我们采用了星火多模态大模型基座,通过对各行业基于任务理解拆解的专项训练,构建了行业针对性基座。由于融入了客户提供的高价值行业数据,经过两个月的努力,该基座在相关任务中的成功率从70%提升至95%以上,基本达到了客户的使用标准。

聆动通用:多模态大模型让具身智能成为可能

图源:演讲嘉宾素材

在机器人的移动与操作方法层面,我们采用合成数据与真实数据相结合的策略。我们的出发点十分明确,即针对客户的实际场景与任务进行精准定义,判别哪些任务适合运用高泛化性的合成数据来完成,哪些任务需要借助高精度的增值数据实现。整个方案的输出完全以客户实际需求为导向,核心在于依托底层大模型,结合利用行业客户高价值数据训练出的行业具身模型,再融合移动与操作方面的具身泛化大模型,以此实现基于业务流、任务流和动作流的全流程闭环。

我们提出了大脑、小脑、本体分层式的具身智能架构体系。其中,通用大模型承担起对整体任务的理解与规划职责;具身大模型则负责全方位的感知以及行为决策。以一家水电站客户为例,其下达的任务为关闭三号机房的一号开关,并打开窗户,该任务旨在解决GIS机房内六氟化硫泄漏问题。在此情境下,机器人依托多模态大模型对指令源进行解析,精准分析出这一长程任务,并将其稳定地拆解为一系列相应的子任务,随后交由具备具身感知和行为决策功能的模型进行处理,最终指挥机器人有条不紊地开展操作与移动,以完成既定任务。

我们的商业模式较为清晰。短期内,我们并不着眼于完全开放式的端到端具身大模型,而是聚焦于基于实际客户场景,将通用大模型与专用具身大模型相结合,实现端侧与云侧的协同运作,达成软件与硬件的一体化。同时,强调“robot and service”模式,即与客户的业务系统直接打通,构建具身智能的泛化操作能力,并融合多模态大模型的认知功能,实现长时序复杂任务的规划与执行。

我们致力于打造一种“一脑多型”的机器人解决方案,使其能够适应不同场景的需求,满足实际商业化运作中的投入产出要求。通过这种方式,逐步推动机器人解决方案从局部通用向完全通用的方向发展。

此外,我们正在开展一项更具前瞻性的研究——基于世界模型的具身智能关键技术。世界模型对于具身智能意义重大,它是赋予机器人终极自主探索能力、实现强化学习以及真正跨任务泛化能力的核心要素,堪称具身智能发展的终极形态。当前,无论是英伟达推出的模拟器,还是其他各类模拟器,其技术上的进步都为世界模型的构建搭建了极为良好的研究平台。

无论是何种类型的模型,都或多或少面临着一系列挑战,在自适应能力、泛化能力方面存在不足,同时还存在仿真环境与真实环境数据不匹配等问题。就全球范围而言,尚未出现完全符合我们认知且更为理想的模型。

鉴于此,我们以机器人基础运营服务为切入点,凭借我们在大模型交互领域的专长,特别是以多模态大模型作为技术底座,结合“一脑多型”的机器人本体,并融入真实场景数据开展研究。我们的预训练基座已基于大量合成数据完成训练,在此基础上,针对高校的世界模拟器、世界模型的构建以及环境主动交互的关键算法等方面,进行前瞻性的探索研究。

我们期望通过这些努力,最终实现高智能、高泛化性的成果,并将其应用于复杂、危险、重复性以及柔性的工业场景,乃至更广泛的制造业领域。

回归到主题本身,多模态大模型在近年来的发展,不仅在众多行业实现了agent级别的应用,更在机器人领域发挥了关键作用,使得真正具备实用性的机器人走进各行各业成为可能,甚至在未来有望进入千家万户。

我们判断,未来的发展路径必以场景驱动来激发数据效应,通过形成一个个数据小飞轮,最终形成机器人的AGI。尽管当前具身智能领域热度高涨,但我们清醒地认识到,具身智能的进一步发展仍将面临诸多严峻挑战。

第一个挑战是如何通过学习、掌握和发掘世界知识及物理规律,从而带来通用泛化的能力。

第二,如何针对不同的场景和任务,构建一套适用于通用智能体机器人的评价标准,主要责任在于场景应用方。在某些场景中,过去使用非标自动化设备完成任务,如今改用通用机器人或具身机器人设备,从任务执行的成功率、准确率和稳定性等维度出发,场景应用方需建立一套客观、科学的评价体系。这一评价体系的建立,是机器人从实验室走向实际应用场景的关键环节,对于推动机器人技术的产业化应用具有至关重要的意义。

第三,当前具身模型面临数据缺失问题,这背后还反映出另一关键现状,就目前而言,在众多模型中,获得公众广泛认可、具备泛化能力的仍是大语言模型。具身智能模型虽可通过持续的数据扩增,并借助“scaling law”来发展完善,但截至目前,大语言模型在泛化能力方面的优势依旧得到业界普遍承认。

第四个挑战是如何构建基于数据、知识以及场景所衍生的自主性任务执行能力,以实现面向多任务场景的最佳适配。

当前具身感知与具身模型在现有技术路线下存在一定的上限。如何通过与客户的深度合作,从现场流程设计、产品设计、解决方案设计以及流程优化设计等多个维度入手,突破这一技术上限,将原本仅达到60分水平的技术,转化为85分甚至更高质量的产品与解决方案,我们认为这是推动相关技术从实验室走向真实应用场景的核心动力。

大模型带来了两大亟待解决的问题,一是价值观问题,二是幻觉问题。当机器人广泛应用于各行各业乃至千家万户后,其价值观问题必然会引发一系列社会伦理道德层面的思考,包括机器人的社会定位以及与人类的关系等。

总体而言,在未来10至15年内,具身智能与高端制造、机器人、人工智能的融合,将成为我国最为关键的发展赛道之一,同时也是极具投资价值的领域。

(以上内容来自聆动通用创始人兼CEO季超于2025年3月13日在第三届具身智能机器人产业发展论坛发表的《多模态大模型让具身智能成为可能》主题演讲。)

本文地址:https://auto.gasgoo.com/news/202503/21I70421127C106.shtml

 
0

好文章,需要你的鼓励

微信扫一扫分享该文章