$VideoContentTcplayer$
盖世汽车讯 为了在家庭环境、办公室和公共场所完成现实任务,机器人应该能够有效地抓取和操纵各种物体。近年来,开发人员创建了各种基于机器学习的模型,旨在使机器人能够熟练地操纵物体。
虽然其中一些模型取得了良好的效果,但为了表现良好,它们通常需要在大量数据上进行预训练。用于训练这些模型的数据集主要由视觉数据组成,例如带注释的图像和使用摄像机拍摄的视频片段,但有些方法也会分析其他感官输入,例如触觉信息。
据外媒报道,卡内基梅隆大学(Carnegie Mellon University)和欧林工程学院(Olin College of Engineering)的研究人员最近探索使用接触式麦克风代替传统触觉传感器的可能性,从而能够使用音频数据来训练用于机器人操控的机器学习模型,可能为这些模型的大规模多感官预训练开辟新的机会。相关论文发表在arXiv预印本服务器上。
图片来源:卡内基梅隆大学
Jared Mejia、Victoria Dean及其同事在论文中写道:“尽管对大量数据进行预训练有利于机器人学习,但当前的范例仅对视觉表征进行大规模预训练,而其他模态的表征则从头开始训练。与丰富的视觉数据相比,尚不清楚哪些相关的互联网规模数据可用于预训练其他模态(如触觉感知)。这种预训练在机器人应用中常见的低数据环境中变得越来越重要。我们使用接触式麦克风作为替代触觉传感器来解决这一问题。”
作为最近研究的一部分,Mejia、Dean及其合作者对Audioset数据集中的视听表征进行了自我监督机器学习方法的预训练,该数据集包含从互联网收集的200多万个10秒的声音和音乐片段视频。预训练的模型依赖于视听实例识别(AVID),这是一种可以学习区分不同类型视听数据的技术。
研究人员在一系列测试中评估了他们的方法,其中机器人的任务是完成现实世界的操作任务,每个任务最多依赖60次演示。该发现非常有希望,因为新模型优于仅依赖视觉数据的机器人操作策略,特别是在物体和位置与训练数据中包含的物体和位置明显不同的情况下。。
“我们的主要见解是,接触式麦克风可以捕捉固有的音频信息,使我们能够利用大规模的视听预训练来获得提升机器人操控性能的表征,”Mejia、Dean及其同事表示。“据我们所知,我们的方法是第一种利用大规模多感官预训练进行机器人操控的方法。”
未来,Mejia、Dean及其同事的研究可能会为利用预先训练的多模态机器学习模型实现熟练的机器人操控开辟一条新途径。提出的新方法很快就会得到进一步改进,并在更广泛的现实世界操控任务中进行测试。
Mejia、Dean及其同事在论文中写道:“未来的工作可能会研究预训练数据集的哪些属性最有利于学习操纵策略的视听表征。此外,一个有希望的方向是为末端执行器配备视觉触觉传感器,为接触式麦克风配备预先训练的音频表征,以确定如何利用两者为机器人代理提供对其环境的更深入了解。”
*特别声明:本文为技术类文章,禁止转载或大篇幅摘录!违规转载,法律必究。
本文地址:https://auto.gasgoo.com/news/202406/1I70394245C409.shtml
联系邮箱:info@gasgoo.com
客服QQ:531068497
求职应聘:021-39197800-8035
新闻热线:021-39586122
商务合作:021-39586681
市场合作:021-39197800-8032
研究院项目咨询:021-39197921
版权所有2011|未经授权禁止复制或建立镜像,否则将追究法律责任。
增值电信业务经营许可证 沪B2-2007118 沪ICP备07023350号