研究考生之余莫忘考卷问题,AI智能体基准测试待完善
都在研究考生,考卷出问题了。
基准测试对于衡量人工智能系统的长处与不足至关重要,它充当着指导科研和产业进步的核心手段。
随着人工智能系统从研发阶段逐步过渡到承担关键任务的实际应用,研究人员与从业者着手创建一系列基准测试,旨在对人工智能系统的能力及其局限性进行评估。
这与传统模型的评估方法存在显著差异。智能体执行的任务往往需要在真实环境中进行,且往往没有固定的正确答案。因此,针对AI智能体的基准测试,在任务设计以及评估手段上,相较于传统的AI基准测试,其复杂性要高得多。
显然,现有的智能体基准测试并没有达到一个可靠的状态。
举几个例子:
近期,加入英伟达担任首席研究科学家的朱某在社交媒体上发表了评论,对这一现象表示出浓厚的兴趣,他指出,一个看似无所作为的智能体竟然能获得高达38%的分数,这一现象「非常有趣」。
除此之外,在目前广泛应用的十个AI智能体基准测试之中,例如SWE-bench等,研究者们发现在八个基准测试中存在严重问题,有时甚至可能完全错误地评估AI智能体的能力达100%。
这些数据传达出一个明确的信息:
当前智能体基准测试存在诸多缺陷。为了准确评估AI智能体的实际能力,我们必须采用更为严格的基准测试构建方法。
伊利诺伊大学香槟分校、斯坦福大学、伯克利大学、耶鲁大学、普林斯顿大学、麻省理工学院、ML、亚马逊以及英国AISI的研究团队合力完成了一项最新研究,他们全面分析了当前人工智能智能体基准测试中常见的失败模式,并制定了一份清单,旨在最大限度地减少基准测试被不正当操作的风险,从而确保测试结果能够准确反映智能体的实际能力。
现有的 AI 智能体基准测试
问题出在哪?
在人工智能智能体的基准测试里,智能体往往必须从始至终独立完成一系列复杂任务,诸如解决大型代码库中的故障,亦或是规划出行路线。
这一任务领域之宽广与实际性,带来了两项在传统人工智能基准测试中不常遭遇的难题:,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
面对这些挑战,本研究提出了两个对于AI智能体基准测试至关重要的评估标准:
该任务能否仅当智能体拥有特定技能时才能完成?评估结果能否真实地反映出任务的完成状况?
在AI智能体评估的流程与机制中,任务的有效性及结果的有效性扮演着核心角色,二者协同确保了基准测试结果能够准确体现智能体系统的实际能力水平。
本文研究:AI智能体基准测试检查单
本文对AI智能体基准测试的检查清单(ABC)进行了整理与发布,该清单共包含43个条目,这些条目均源自于17个主流AI机构所采用的AI智能体基准测试。
ABC 由三个主要部分构成,分别是结果的有效性审核项目、任务的有效性审核项目,还有在理想有效性难以达到时作为补充说明的基准报告指导文件。
完整、适合打印的检查清单已公开发布,可参阅以下文档。
运用 ABC 的研究发现
本研究将ABC评估表应用于当前流行的十个AI智能体基准测试案例,涵盖了SWE-bench等多个测试平台。
在10个广泛应用的智能体基准测试中,对ABC技术的应用效果进行了评估。
在这 10 个基准中,发现:
7/10 的任务存在AI通过不正当手段寻求捷径的可能性,或者这些任务本身根本无法被完成;7/10 的评估结果未能达到有效性标准,即评估结果无法准确体现任务的完成情况;8/10 未对外公布已知的问题,导致透明度不足。
在目前评估前沿人工智能智能体系统(诸如Code等)所采用的基准测试中,已经识别出若干问题。
SWE-bench 与 SWE-bench 通过人工编写的单元测试来检验由AI智能体生成的代码补丁的正确性。尽管如此,这些补丁中仍可能潜藏着未被单元测试检测到的错误。
在扩充了这些基准测试的单元测试之后,排行榜的排名情况发生了显著的变化:在SWE-bench Lite中,有41%的智能体位置发生了调整,而在SWE-bench中,则有24%的智能体受到了影响。
IBM SWE-1.0 智能体提出了一种错误的解决方案,然而这一错误并未被 SWE-bench 检测到。原因在于,其单元测试并未涵盖代码中的红色分支路径。
利用含有随机数值的张量对AI智能体输出的CUDA核心函数代码的准确性进行检验。与SWE-bench方法相仿,这种依托随机数值张量进行的测试手段或许无法揭示代码中某些潜在错误,尤其是那些与内存操作或张量形态相关的问题。
τ-bench 通过对子字符串进行匹配,并与数据库中的状态进行比对,以此来衡量智能体的表现。这一机制使得即便是“无操作”的智能体,也有高达38%的概率能够完成测试任务。以下是一个示例,它揭示了这一类任务的特点:即便智能体没有任何行动,它依然能够通过评估。
τ-bench 中一个示例任务
通过执行严格的字符串比对以及运用一个相对初级的语言模型评估器(LLM-judge),对智能体的行为和生成内容进行准确性判断,从而在评估标准上引发了智能体性能评价的1.6%至5.2%误差。
该智能体评估模块的构建依托于已过时的网站,因此在性能评估的绝对指标上产生了28%的低估。举例来说,智能体所涉及的网站已经去除了-date这一CSS类别,然而评估系统依然采用陈旧的选择器,结果错误地将智能体的正确操作识别为错误。
的评估器仍在查找已过时的类名 -date 和
--,从而导致智能体失败。
未能妥善保存测试文件,导致智能体得以篡改测试内容,进而顺利通过了所有测试环节。
ABC 的后续方向
本文构建了 ABC,旨在提供一个可操作的评估框架,以帮助:
基准测试的创建者旨在识别可能存在的问题,并彰显其评估流程的严谨态度;智能体或模型的设计者需深入挖掘评估基准的核心内涵,而不仅仅是关注报告中所呈现的“最高性能指标”数字。