评估预部署AI模型的可靠性

基础模型是由众多深度学习模型构成的,这些模型在大量通用的未标记数据上进行了预训练。它们能够被应用于多种任务,例如生成图像或解答客户咨询。...

基础模型是由众多深度学习模型构成的,这些模型在大量通用的未标记数据上进行了预训练。它们能够被应用于多种任务,例如生成图像或解答客户咨询。

然而,作为ChatGPT和DALL-E等强大人工智能工具的核心,这些模型有时可能会提供错误或误导性的信息。在一些安全至关重要的场景中,比如行人接近自动驾驶汽车时,这些错误可能会导致严重后果。

为了避免此类错误,麻省理工学院及其IBM沃森人工智能实验室的研究人员开发了一种技术,能够在将基础模型应用于特定任务之前评估其可靠性。

他们通过训练一组略有不同的基础模型来实现这一目标。接着,他们利用算法评估每个模型在相同测试数据点上的学习表示的一致性。如果表示一致,便意味着该模型是可靠的。

在与最先进的基线方法进行比较时,他们的技术在捕捉各种分类任务中基础模型的可靠性方面表现更佳。

这种技术可以帮助用户判断一个模型是否适合特定环境,而无需在现实世界的数据集上进行测试。这在某些情况下尤其有用,例如医疗保健环境中,由于隐私问题可能无法访问数据集。此外,该技术还可以根据可靠性分数对模型进行排序,帮助用户选择最适合其任务的模型。

“所有模型都有可能出错,但能够识别出何时出错的模型更具实用性。对于这些基础模型而言,量化不确定性或可靠性变得更加复杂,因为它们的抽象表示难以进行比较。我们的方法可以帮助量化模型在特定输入数据下的可靠性,”资深作者Navid Azizan表示,他是麻省理工学院机械工程系和数据、系统与社会研究所(IDSS)的助理教授,同时也是信息与决策系统实验室(LIDS)的成员。

他与第一作者Young-Jin Park(LIDS研究生)共同撰写了关于这项工作的论文,参与者还包括麻省理工学院-IBM沃森人工智能实验室的研究科学家王浩,以及Netflix的高级研究科学家谢尔文·阿德希尔。该论文将于人工智能不确定性会议上发表。

统计共识

传统的机器学习模型通常被训练来执行特定任务,通常会根据输入做出具体预测。例如,模型可能会判断某张图片中是猫还是狗。在这种情况下,评估可靠性可能仅需查看最终预测结果,判断模型是否正确。

然而,基础模型的工作方式有所不同。它们使用通用数据进行预训练,创建者并不清楚模型将应用于哪些具体下游任务。用户在训练完成后可以让模型适应自己的特定需求。

与传统机器学习模型不同,基础模型不会给出“猫”或“狗”这样的具体标签,而是基于输入数据生成抽象表示。

为了评估基础模型的可靠性,研究人员采用了一种集成方法,训练多个具有相似特征但略有不同的模型。

“我们的思路类似于计算共识。如果所有基础模型对数据集中的任何数据都给出一致的表示,那么我们可以认为该模型是可靠的,”Park表示。

但他们面临一个挑战:如何比较这些抽象表示?

他补充道:“这些模型输出的是一个由数字组成的向量,因此我们无法轻易比较它们。”

他们通过一种称为邻域一致性的概念来解决这个问题。

在他们的方法中,研究人员准备了一组可靠的参考点来测试模型集合。然后,他们对每个模型在其表示的测试点附近的参考点进行调查。

通过观察相邻点的一致性,他们能够估计模型的可靠性。

对齐表示

基础模型在所谓的表示空间中映射数据点。我们可以将这个空间视为一个球体。每个模型将相似的数据点映射到其球体的同一区域,因此猫的图像会集中在一个地方,而狗的图像则在另一个地方。

然而,每个模型在其领域内绘制的动物地图可能不同,因此当猫可能被分组在一个球体的南极时,另一个模型可能在北半球的某个位置绘制猫的地图。

研究人员使用邻近点作为锚来对齐这些球体,从而使表示具有可比性。如果一个数据点的邻居在多个表示中一致,那么我们可以对该点的模型输出的可靠性充满信心。

在对广泛的分类任务进行测试时,他们发现这种方法比基线方法更具一致性。此外,它不会因为挑战测试点而导致其他方法失效。

此外,他们的方法可以用于评估任何输入数据的可靠性,因此可以评估模型对特定类型个体(例如具有某些特征的患者)的效果。

王表示:“即使所有模型的整体性能处于平均水平,从个体的角度来看,你也会更倾向于选择最适合自己的模型。”

然而,一个限制在于他们必须训练一个大型基础模型的集合,这在计算上是昂贵的。未来,他们计划寻找更高效的方法来构建多个模型,或许可以通过对单个模型进行小扰动来实现。

本文来自作者[svs]投稿,不代表立场,如若转载,请注明出处:http://cathieandrew.com/post/5398.html

(273)

文章推荐

  • 聚焦人民生活品质提升:学习贯彻党的二十届三中全会精神

    提高人民生活品质:改革的核心目标  最近,党的二十届三中全会通过了一项重要决定,强调了全面深化改革的方向,特别是要“聚焦提高人民生活品质”。这不仅是党的决策,更是我们每个人的共同期待。(图片来源网络,侵删)党的初心:为人民服务  中国共产党自成立以来,就把为人民谋幸福、为民族复兴作为自己

    2024年09月06日
    840
  • 传祺GS8新款:豪华且实用的SUV车型推荐

      传祺GS8新款:豪华七座SUV的新选择  随着汽车市场的不断发展,消费者对于SUV车型的需求也在逐渐增加。作为一款备受瞩目的七座SUV车型,传祺GS8一直备受关注。而近期推出的传祺GS8新款更是在外观设计、内饰配置等方面进行了全面升级,为消费者带来了全新的驾驶体验。(图片来源网络,侵删)

    2024年09月10日
    861
  • 什么是吃女人豆腐的含义?

      吃女人豆腐是一种常见的俗语,通常用来形容男性对女性的调情或者暧昧行为。在现代社会,这种行为往往被认为是不尊重女性的表现,因此我们需要深入了解这个俗语背后的含义,以避免不当行为的发生。  主题:探讨什么是吃女人豆腐,如何避免这种行为。(图片来源网络,侵删)  吃女人豆腐,顾名思义就是男性对

    2024年09月11日
    848
  • 别再拖延给孩子朗读的时间了

    ˂pclass="f721c5b5cca2f1df description"˃˂pclass="c5b5cca2f1df4c5d description"˃纽约,8月25日——我们大多数人都有父母给我们读睡前故事的美好回忆。这是小孩子们的最爱,但由于父母没有时间,甚至缺乏自信,这一晚间仪式往往会成为牺牲品。至少,《书商》杂志报道

    2024年11月01日
    511
  • role是什么意思 role的含义是什么

    role是什么意思  “role”这个词在英语中有多种含义,最常见的意思是“角色”或“职能”。在社会学和心理学中,role指的是个体在特定情境或社会结构中所扮演的角色。例如,在家庭中,父母和孩子各自承担不同的role,影响着家庭的互动和功能。在职场中,员工的role决定了他们的职责和工作内容。总

    2024年11月10日
    346
  • 昆士兰州绿党承诺终止与反堕胎组织的医院服务外包协议

      绿党承诺将推动一项法案,禁止昆士兰州政府将公立医院的运营外包给拒绝提供堕胎服务的机构。这一承诺是在昆士兰州选举前夕提出的,当时全州正围绕堕胎问题展开激烈讨论。去年,澳大利亚《卫报》披露了天主教公立医院不提供生殖健康服务的问题,引发了广泛关注。工党试图在周六的选举中将堕胎问题作为关

    2024年11月13日
    337
  • 杰昆·菲尼克斯分享了Lady Gaga如何帮助哈利·奎因找到声音的方法

      在拍摄即将上映的《小丑》续集时,杰昆·菲尼克斯给了LadyGaga一个独特的挑战。这位38岁的歌手曾获得13次格莱美奖,她在与《小丑:疯狂二人组》的合作中,被菲尼克斯鼓励以全新的方式诠释哈莉·奎茵这一角色。在最近一期《Vogue》的封面故

    2024年11月25日
    256
  • 自从凯特琳·克拉克被淘汰后,WNBA的收视率直线下降"(真的有挂)-知乎

      凯特琳·克拉克在WNBA的赛场上留下了不可磨灭的印记,即使她已不再征战,她的魅力依然在联盟中回荡。自从一周前康涅狄格太阳队将凯特琳·克拉克和印第安纳热火队淘汰出季后赛以来,WNBA的收视率出现了显著的下滑。特别是那场决定性的第二场比赛,不仅结束了步行者的赛季,还创下了有线电视历史上

    2024年11月25日
    250
  • 菲洛尼枢机:加沙正迈向毁灭

      斐洛尼枢机(来自意大利曼杜里亚)自2019年起担任耶路撒冷圣墓骑士团的首席大师。他不仅是教会的重要官员,还是罗马教廷的高级外交官,曾在本笃十六世任内担任梵蒂冈国务卿的替代者,因此对教廷的结构和运作有着深刻的理解。此外,他还曾担任教皇驻约旦和伊拉克的外交代表,并在与自称为伊斯兰

    2024年11月29日
    237
  • 美国参议员对阿拉伯裔美国人表示:‘你应该把头藏起来’

      华盛顿——在国会的听证会上,一位美国参议员对一位知名的阿拉伯裔美国人社区倡导者进行了人身攻击。以色列对加沙的战争背景下,美国的仇恨犯罪现象显著上升。参议院司法委员会于周二召开听证会,旨在探讨该国仇恨犯罪的增加问题。然而,一些共和党议员却将时

    2024年12月03日
    253

发表回复

本站作者后才能评论

评论列表(4条)

  • svs
    svs 2024年12月01日

    我是的签约作者“svs”!

  • svs
    svs 2024年12月01日

    希望本篇文章《评估预部署AI模型的可靠性》能对你有所帮助!

  • svs
    svs 2024年12月01日

    本站[]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • svs
    svs 2024年12月01日

    本文概览:基础模型是由众多深度学习模型构成的,这些模型在大量通用的未标记数据上进行了预训练。它们能够被应用于多种任务,例如生成图像或解答客户咨询。...

    联系我们

    邮件:@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们