$VideoContentTcplayer$
  • 采购项目
  • 配套企业库
  • 销量查询
  • 盖世汽车社区
  • 盖世大学堂
  • 盖亚系统
  • 盖世汽车APP
  • 2025第六届软件定义汽车论坛暨AUTOSAR中国日
  • 2025第五届中国汽车人机交互与体验设计创新大会
  • 2025第三届AI定义汽车论坛
  • 走进上汽提质增效&创新驱动论坛暨
  • 2025第三届中国汽车及零部件出海高峰论坛
当前位置:首页 > 新技术 > 正文

弗劳恩霍夫开发视觉语言模型 实现驾驶员和汽车的相互理解

盖世汽车 刘丽婷 2024-07-03 12:39:22

盖世汽车讯 据外媒报道,根据自动化程度优化车辆与驾驶员之间的通信是弗劳恩霍夫(Fraunhofer)与其他公司合作开展的一项研究项目的目标。研究人员将用于监控车辆内部的传感器与语言模型相结合,形成所谓的视觉语言模型,旨在提高未来汽车的便利性和安全性。

弗劳恩霍夫开发视觉语言模型 实现驾驶员和汽车的相互理解

图片来源:弗劳恩霍夫

“警告,如果您现在继续阅读,您可能会在蜿蜒的道路上感到恶心。五分钟后,我们将上高速公路,那时会更容易晕车。”或者:“即将下雨,我们需要关闭自动驾驶。请准备好独自驾驶一段时间。很抱歉,但您现在需要将笔记本电脑存放在安全的地方。安全第一。”几年后,汽车可能会以非常类似的方式与驾驶员进行交流。

随着汽车自动化程度的提高,人们需要重新思考汽车与人类的互动方式。为此,弗劳恩霍夫光电、系统技术和图像开发研究所IOSB(Fraunhofer Institutes for Optronics, System Technologies and Image Exploitation IOSB)和工业工程研究所IAO(Industrial Engineering IAO)的研究团队与大陆集团、福特和奥迪等十家合作伙伴以及一系列中型企业和大学达成合作,共同开展KARLI项目。KARLI是德语首字母缩写词,代表未来汽车中“用于自适应、响应和水平兼容交互的人工智能(Artificial Intelligence for Adaptive, Responsive and Level-compliant Interaction)”。

目前共有六个不同的自动化级别:无自动化(L0)、驾驶辅助(L1)、部分自动化(L2)、条件自动化(L3)、高度自动化(L4)和全自动(L5)。“在KARLI项目中,我们正在开发适用于L2至L4级自动化的AI功能。为此,我们记录驾驶员的行为,并设计出适用于每个级别的不同人机交互,”卡尔斯鲁厄弗劳恩霍夫光电、系统技术和图像开发研究所IOSB的项目协调员Frederik Diederichs解释道。

不同级别的交互

根据自动化级别,驾驶员要么需要专注于道路,要么专注于其他事物。他们有十秒钟的时间重新掌控方向盘,或者在某些情况下根本不需要再次干预。这些不同的用户需求以及根据道路情况在不同自动化级别之间切换的能力使得定义和设计适合每个级别的交互成为一项复杂的任务。此外,交互和设计必须确保驾驶员始终了解当前的自动化级别,以便他们能够正确履行职责。

KARLI项目中开发的应用程序有三个主要重点:首先,警告和信息应鼓励符合当前自动化级别的行为,例如,防止驾驶员在需要注意路况的时刻分心。

因此,与用户的沟通会根据每个级别进行调整——可能是视觉、听觉、触觉或三者的组合。交互由AI代理控制,且合作伙伴正在评估AI代理的性能和可靠性。

其次,需要预测和尽量减少晕动症的风险,这也是被动驾驶的最大问题之一。据悉,全球有20%到50%的人患有晕动症。

“通过将乘客的活动与蜿蜒道路上可预测的加速度相匹配,AI可以在正确的时间向正确的乘客发出指令,从而防止晕动症,并根据乘客当前的活动为他们提供定制的提示。我们通过使用所谓的生成用户界面(简称“GenUIn”)来实现这一点,以定制人机交互,”Diederichs解释道。

这种AI交互是KARLI项目中的第三个应用。GenUIn会生成针对个人的输出,例如提供有关如何减轻晕动症的信息。这些提示可能与传感器记录的当前活动有关,但它们也会考虑当前环境中可用的选项。

用户还可以个性化车辆中的整个交互,并随着时间的推移逐步适应自己的需求。 交互中始终考虑自动化水平:例如,如果驾驶员专注于道路,信息可能是简短的、纯口头的,或者如果车辆当前正在行驶,信息可能会更详细并通过视觉渠道呈现。

各种人工智能支持的传感器记录车内活动,关键元素是车内摄像头中的光学传感器。当前的自动驾驶立法无论如何都强制要求这些,以确保驾驶员能够驾驶。

研究人员随后将摄像头的视觉数据与大型语言模型相结合,形成所谓的视觉语言模型(VLM)。这些模型允许(部分)自动驾驶汽车中的现代驾驶辅助系统以语义方式记录车内情况并对这些情况做出反应。Diederichs将未来车辆中的交互比作管家,管家虽然在幕后,但能理解上下文,并为车内乘客提供尽可能好的支持。

匿名化和数据保护

“这些系统被接受的关键因素包括对服务提供商的信任、数据安全性以及对驾驶员的直接利益,”Frederik Diederichs表示。这意味着尽可能的匿名化和数据安全性以及透明和可解释的数据收集至关重要。“并不是摄像头视野范围内的所有内容都会被评估。传感器记录的信息及其用途必须是透明的。我们正在Fraunhofer IOSB的Xplainable AI工作组中研究如何确保这一点。”

在另一个项目(Anymos)中,弗劳恩霍夫研究人员正在研究如何匿名化摄像头数据,以最小化数据使用的方式处理数据,并有效地保护数据。

Small2BigData的数据效率

该研究项目的另一个独特卖点是数据效率。“我们的Small2BigData方法只需要少量高质量的AI训练数据,这些数据是通过经验收集和合成生成的。它为汽车制造商了解在后续串行操作期间要收集哪些数据以便系统可以使用奠定了基础。“这样可以将所需数据量控制在可控水平,并使项目结果具有可扩展性,”Diederichs解释道。

就在最近,Diederichs及其团队启动了一个基于梅赛德斯EQS的移动研究实验室,以进一步了解用户对道路上L3级自动驾驶的需求。在这里,KARLI项目的成果正在实践中进行测试和评估。这将使第一批功能最早在2026年应用于量产车辆。

2024年全球前瞻技术情报

*特别声明:本文为技术类文章,禁止转载或大篇幅摘录!违规转载,法律必究。

本文地址:https://auto.gasgoo.com/news/202407/3I70397818C409.shtml

文章标签: 前瞻技术
 
0

好文章,需要你的鼓励

微信扫一扫分享该文章