$VideoContentTcplayer$
盖世汽车讯 基础模型是大规模深度学习模型,已在大量通用、未标记的数据上进行了预训练,可应用于各种任务,例如生成图像或回答客户问题。这些模型是ChatGPT和DALL-E等人工智能工具的支柱,但它们可能会提供错误或误导性的信息,在安全攸关的情况下(例如行人接近自动驾驶汽车)这些错误信息可能造成严重后果。
(图片来源:麻省理工学院)
据外媒报道,为了帮助防止出现此类错误,麻省理工学院(MIT)和MIT-IBM沃森人工智能实验室(MIT-IBM Watson AI Lab)的研究人员开发出一种技术,可以在将基础模型部署到特定任务之前评估其可靠性。
研究人员考虑通过一组彼此略有不同的基础模型来实现这一目标,然后利用其算法来评估每个模型学习到的关于同一测试数据点的表示(representation)的一致性。如果这些表示一致,则意味着模型可靠。
与最先进的基线方法相比,这种技术能够更好地体现在各种下游分类任务中基础模型的可靠性。人们可以利用这种技术来决定是否可以在特定环境中应用模型,而无需在真实数据集上进行测试。当数据集可能因隐私问题而无法访问时(例如在医疗保健环境中),这可能特别有用。此外,该技术还可用于根据可靠性评分对模型进行排名,从而使用户能够为其任务选择最佳模型。
研究人员Navid Azizan表示:“所有模型都可能出错,但知道自己什么时候出错的模型更有用。对于这些基础模型来说,量化不确定性或可靠性的问题更具挑战性,因为它们的抽象表示难以进行比较。这种方法允许人们量化表示模型(representation model)对于各种给定输入数据的可靠性。”
衡量一致性(Measuring consensus)
传统的机器学习模型经过训练可以执行特定任务,通常根据输入做出具体预测,例如告知某张图片中是否包含猫或狗。在这种情况下,评估可靠性可能需要查看最终预测,以确定该模型是否正确。
与之不同的是,基础模型利用通用数据来进行预训练,其创建者并不知道它将应用于哪些下游任务。在模型完成训练后,用户可以对其进行调整以适应特定任务。
与传统的机器学习模型不同,基础模型不会给出“猫”或“狗”标签等具体输出,而是基于输入数据点生成抽象表示。为了评估基础模型的可靠性,研究人员采用了集成方法,对若干具有许多共同属性但彼此略有不同的模型进行了训练。
研究人员Young-Jin Park表示:“我们的想法类似于衡量一致性。如果这些基础模型都为数据集(dataset)中的各种数据提供了一致的表示,那么就可以说这个模型是可靠的。”但他们遇到了一个问题,即如何比较抽象表示?“这些模型只是输出一个由一些数字组成的向量,所以无法轻松地对它们进行比较。”
研究人员利用邻域一致性(neighborhood consistency)理念解决了这个问题。在这种方法中,他们准备了一组可靠的参考点来测试模型集合。然后,对于每个模型,探索位于该模型测试点表示附近的参考点。通过观察邻近点的一致性,他们可以评估模型的可靠性。
对齐表示(Aligning the representations)
基础模型将数据点映射到表示空间,这个空间可以视为一个球体。每个模型都将相似的数据点映射到其球体的同一部分,因此猫的图像位于一个地方,狗的图像位于另一个地方。但是,每个模型会在自己的球体内以不同的方式映射动物,所以当猫被分组在一个球体的南极附近时,另一个模型可能在北半球的某个地方映射猫。
研究人员使用邻近点作为锚点来对齐这些球体,以使这些表示具有可比性。如果某个数据点的邻近点在多个表示中保持一致,那么人们应该对该点模型输出的可靠性充满信心。
当在广泛的分类任务上测试这种方法时,研究人员发现它比基线更加一致。此外,它不会因具有挑战性的测试点(可能导致其他方法失败)而失败。这种方法还可用于评估各种输入数据的可靠性,因此人们可以评估一个模型对特定类型个体(例如具有某些特征的患者)的效果如何。研究人员Hao Wang表示:“即使这些模型的总体性能均等,但从个人的角度来看,用户也会更喜欢最适合那个人的模型。”
然而,这必须训练一组基础模型,需要很高的计算费用,因此存在局限性。未来,研究人员计划寻找更有效的方法来构建多个模型,或许可以通过对单个模型进行小幅摄动(small perturbation)来实现。
研究人员表示,在目前通过嵌入基础模型来支持各种下游任务(从微调到检索增强生成)的趋势下,量化表示级别(representation level)的不确定性这一主题变得日益重要,但具有挑战性,因为嵌入本身没有基础依据。与之相反,重要的是不同输入的嵌入如何相互关联,这项工作通过所提出的邻域一致性评分来巧妙地抓住这一点。这是朝着嵌入模型优质不确定性量化迈出的有希望的一步,让人高兴的是,未来的扩展可以在不需要模型集成的情况下运行,从而使这种方法能够真正扩展至基础规模的模型。
*特别声明:本文为技术类文章,禁止转载或大篇幅摘录!违规转载,法律必究。
本文地址:https://auto.gasgoo.com/news/202407/19I70399464C601.shtml
 
联系邮箱:info@gasgoo.com
客服QQ:531068497
求职应聘:021-39197800-8035
新闻热线:021-39586122
商务合作:021-39586681
市场合作:021-39197800-8032
研究院项目咨询:021-39197921
版权所有2011|未经授权禁止复制或建立镜像,否则将追究法律责任。
增值电信业务经营许可证 沪B2-2007118 沪ICP备07023350号