经济动态-"大家看钙片都是在哪看呀"-田渊栋团队新作祭出Agent-as-a-Judge！AI智能体自我审判，成本暴跌97%

田渊栋团队新作祭出Agent-as-a-Judge！AI智能体自我审判，成本暴跌97%_ZAKE大家看钙片都是在哪看呀R新闻

中方并不拒绝对话，已明确提出应建立长期有效的国际监测机制。日方应首先展现解决邻国合理关切的诚意，而不将自身监测结果强加于人。

【新智元导读】AI 评估 AI 可靠吗？来自 Meta、KAUST 团队的最新研究中，提出了 Agent-as-a-Judge 框架，证实了智能体系统能够以类人的方式评估。它不仅减少 97% 成本和时间，还提供丰富的中间反馈。AI 智能体，能否像人类一样有效地评估其他 AI 智能体？对于 AI 智能体来说，评估决策路径一直是棘手的问题。已有的评估方法，要么只关注结果，要么要要过多的人工完成。为了解决这一问题，田渊栋、Jürgen Schmidhuber 带领的团队提出了「Agent-as-a-Judge」框架。简言之，让智能体来评估智能体系统，让 AI 审 AI。它不仅可以减少 97% 的成本和时间，还能提供丰富的中间反馈。这是「LLM-as-a-Judge」框架的有机延伸，通过融入智能体特性，能够为整个任务解决过程提供中间反馈。论文地址：https://arxiv.org/abs/2410.10934v1研究人员提出了 DevAI 基准，为全新框架提供概念验证测试平台。包含 55 个真实的 AI 开发任务，带有详细的手动注释。通过对三个领先的智能体系统进行基准测试，发现它大大优于「LLM-as-a-Judge」框架。总之，这项研究真正的变革之处在于：它提供了可靠的奖励信号，为可扩展的、自我改进的智能体系统铺平了道路。「法官」智能体，击败大模型现有评估方法，无法为智能体系统的中间任务解决阶段，提供足够的反馈。另一方面，通过人工进行更好的评估，代价太大。而智能体系统的思考方式，更像人类，通常是逐步完成，并且在内部经常使用类人的符号通信来解决问题。因此，智能体也能够提供丰富的反馈，并关注完整的思考和行动轨迹。「Agent-as-a-Judge」不仅保留了「LLM-as-a-Judge」成本效益，还具备智能体特性，使其在整个过程中提供中间反馈。下图展示了，大模型、智能体、人类作为评判者的示意图。DevAI：自动化 AI 开发数据集另外，在代码生成领域，基准测试的发展也落后于智能体系统的快速进步。比如，HumanEval 仅关注算法问题，而 MBPP 则处理简单的编程任务，但这两者都没有反映出开发者面临的最实际的挑战。作为一个改进，SWE-Bench 基准确实引入了 GitHub 现实问题，提供一种全新评估的方法。不过，它仍需要关注自动修复任务的开发过程。为了解决当前代码生成基准测试中的上述问题，研究人员引入了 DevAI：AI 开发者数据集，其中包含 55 个由专家注释者创建的真实世界综合 AI 应用开发任务。DevAI 结构是这样的：智能体系统首先接收用户查询以开始开发，然后根据 AI 系统满足需求的程度来评估它，其中偏好作为可选的、较为柔性的标准。图 3 展示了 DevAI 任务的一个例子。DevAI 中的任务规模相对较小，但涵盖了常用的关键开发技术。如图 2 所示，任务被标记并覆盖了 AI 的多个关键领域：监督学习、强化学习、计算机视觉、自然语言处理、生成模型等。每个任务都是，可能交给研究工程师的真实世界问题，并降低了在这个基准上评估方法的计算成本。接下来，研究人员将领先的开源代码生成智能体框架，应用于 DevAI 中的任务：MetaGPT、GPT-Pilot、OpenHands。他们让人类评判者、大模型评判者、以及智能体评判者框架，来评估其性能。结果如表 1 所示，MetaGPT 最具成本效益（1.19 美元），而 OpenHands 是最昂贵的（6.38 美元）。从开发时间来看，OpenHands 完成任务平均耗时 362.41 秒，而 GPT-Pilot 耗时最长，为 1622.38 秒。平均而言，使用这三者之一对 DevAI 进行完整评估，大约需要 210.65 美元和 14 小时才能完成。Human-as-a-Juge：DevAI 手动评估为了确定 DevAI 的实用有效性，并准确估计当前最先进的智能体系统实际代码生成能力，研究人员手动评估三个 AI 开发者基线在 DevAI 中的应用。如表 2 所示，（I）和（D）代表独立性能与考虑任务依赖性的性能。表示多个专家的进化，并且意味着评估使用白盒测试（允许访问生成的 workspace、人类收集的轨迹和开源代码库）。两种性能最好的方法（GPT-Pilot 和 OpenHands）可以满足大约 29% 的要求，但只有一项任务可以满足所有要求。另外，在三位人类评估者之间，他们的个人评估存在大量分歧，说明了单一人类评估的不可靠性。下图 5 总结了人类评估和共识评估的不匹配度。---：智能体评估智能体根据以往智能体设计的经验，并通过模仿人类评估过程，研究人员涉及了 8 个模块化交互组件，具体包括：1 图像模块：构建一个图像，获取项目整个结构，包括文件、模块、依赖项，还可以将代码块分解为代码片段2 定位模块：识别需求所引用的特定文件夹 / 文件3 读取模块：超越了简单的文件解析，支持跨 33 种不同格式的多模态数据的读取和理解4 搜索模块：提供了对代码的上下文理解，并且可以快速检索高度相关的代码片段，以及其背后细微差别5 检索模块：从上下文中提取信息，识别轨迹中相关片段6 查询模块：确定是否满足给定要求7 记忆模块：存储历史判断信息，允许智能体基于过去记忆评估8 规划模块：允许智能体根据当前状态和项目目标制定策略，并排序任务。具体操作流程，如下图 9 所示。下表 3 展示了，Agent-as-a-Judge 在各项任务中始终优于 LLM-as-a-Judge，特别是在那些训在任务依赖关系的情况下。评判开发者智能体，是一项类别不平衡的任务，满足要求的情况要比失败的情况少的多。而判断转移和对齐率等指标可能会产生误导。比如，由于 MetaGPT 很少满足要求， LLM-as-a-Judge 很容易将大多数情况识别为负面（在黑盒设置中达到 84.15%）。PR 曲线通过平衡精确度和召回率，提供更清晰的性能衡量标准。这表明，在某些情况下，Agent-as-a-Judge 几乎可以取代人类评估员。最后，在消融研究中，研究人员分析了各种组件的添加，对 Agent-as-a-Judge 判断 OpenHands 性能的影响。参考资料：https://x.com/tydsh/status/1846538154129375412

koa12jJid0DL9adK+CJ1DK2K393LKASDad

编辑:章汉夫

TOP1热点：新生儿消化道穿孔原因多样均凶险

韩联社记者写道，“仅凭IAEA的监测并不能消除不信任感，这也是有人主张第三方机构或专家参与监测的原因，但是，他（东电职工）好像没听懂似的说了别的东西。”。

据日中关系消息人士称，日本政府今年以来多次通过外交渠道敦促中方加入该国际机制，但据悉中方质疑该机制的实效性，认为无法保证分析和评估的独立性等，因此没有接受该建议。日媒宣称，这再次凸显出中方反对核污染水排海的强硬姿态，日本寻求所谓“基于科学根据”的讨论变得“困难”。

TOP2热点：陈梦首登央视网络春晚

毛宁今天披露，李强总理在与岸田简短交谈中，再次就日本福岛核污染水排海问题阐明中方立场，强调日方应该忠实履行自己的国际义务，同邻国等利益攸关方充分协商，以负责任方式处置核污染水。而按照日本媒体的爆料，岸田寻求与中方沟通，虽然谈的是核污水，但他并不是真正担心这一议程，而是惟恐中方将其作为向日本施压的杠杆工具，日本外务省宣布，岸田在与中方简短对话中反复强调日本数据发布快速透明，从科学角度没有问题等等，但在我看来，日方这些托辞，并不足以回应外部世界的重要关切。

当地时间9月7日下午，国务院总理李强在雅加达与韩国总统尹锡悦会面图源：新华社

TOP3热点：警犬福仔的年终奖是一枚大红花大地在线影视免费观看

东电公司组织媒体记者参观核污染水排放设施图源：韩联社

路透社特别注意到了澳方对话代表团的人员构成，虽然高级别对话并无正式官员参加，澳大利亚目前由工党执政，但代表团也纳入了前自由党总理比肖普，彰显改善对华关系，是澳洲两大政党的跨党派共识与努力。这实际上也是在二轨层面，对中澳关系改善动能的再确认。

TOP4热点：中方对美方将退出巴黎协定表示关切大团圆结3

韩联社记者写道，“仅凭IAEA的监测并不能消除不信任感，这也是有人主张第三方机构或专家参与监测的原因，但是，他（东电职工）好像没听懂似的说了别的东西。”

印尼总统佐科在系列会议首场就着力指出，未来挑战会更严峻，东盟不做任何大国争取世界影响力的代理人，这是共识，东盟要成为合作领域。今天佐科在开场致辞中重申，希望与会领导人能将东亚峰会作为推动合作而不是激化竞争的论坛平台。

TOP5热点：特朗普称考虑对墨西哥加拿大征收25%的关税和三个人同过房会怎么样

东电公司组织媒体记者参观核污染水排放设施图源：韩联社

TOP6热点：空军数架战机寒冬出击训练这次我服气了作文

目前还没看到峰会声明，但结合这三天的会程进展、各方表述乃至相关国家的场边外交情况看，至少有这么几个态势，是非常清楚明晰的，具有中长期的政策影响与意涵：其一，印尼作为东道国，包括印尼背后的东盟，表现出强烈的自主意识与政策独立性，坚决对选边站队说不，对“新冷战”说不。

值得注意的是，尹锡悦胜选上台后，新一任韩国政府在对日本核污水排海问题的态度上不断软化。至于美国，尽管美国科学界有不少反对声，但在福岛核污染水排海问题上，拜登政府一直是日本的坚定支持者。

TOP7热点：2025央视网络春晚全阵容你看你奶奶啵啵那么大是什么歌

“如果日本不允许其他国家独立测试，等公众对核污水排海的关注度降低的时候，我毫不怀疑日本会胡乱排放。”韩国核能领域专家李丁润受访时直言。

第三，寻找区内代理人，鼓动集团对抗搞选边站队的大国折腾，也并未消停。今天美国副总统哈里斯与菲总统场边互动，美方发出的声明也是大打安全牌，拿军事同盟与“印太自由”开放说事。当然，接下来更应关注，这个周末美国总统访越，又将会有哪些搅局动作。

TOP8热点：国色芳华27集预告免费观看短视频的app软件

9月3日，韩联社发文透露，日本东京电力公司当天邀请媒体记者参观福岛核污水排海设施，日方希望通过这样的活动，让媒体帮助其宣传所谓的“海洋排放安全”的观点。在活动现场采访的一位法国记者提议说：“为了提高可信度，让环境团体等第三方机构或专家等参与放射性测定或监测工作怎么样？”

当地时间9月7日上午，国务院总理李强在雅加达与澳大利亚总理阿尔巴尼斯进行了场边会见图源：新华社

TOP9热点：小伙留了3年头发捐给化疗患者七海蒂娜为啥叫榨汁机

然而，负责现场采访说明的东京电力公司职工立即予以否定。他长篇累牍地解释日方测定氚含量的方式，并称“国际原子能机构（IAEA）的人正在参与所有监测工作”。

TOP10热点：赵今麦女警角色上线正太短视频app怎么下载渠道版

阿尔巴尼斯今天谈到与李强总理的会见，用了两个英文词，frank，constructive，坦率，建设性，这也是对澳中关系基本面持续改善的再确认。虽然两国分歧仍存，但已经不构成阻碍对话交流的重大障碍。阿尔巴尼斯没有明确谈及访问行期，但他声称年内访华，将要纪念工党总理惠特拉姆（GoughWhitlam）访华50周年，惠特拉姆是澳总理破冰访华第一人，于1973年11月访京，这也在暗示同为工党总理的阿尔巴尼斯，年内访华应是在此前后。

发布于：兴和县

大家看钙片都是在哪看呀田渊栋团队新作祭出Agent-as-a-Judge！AI智能体自我审判，成本暴跌97%_ZAKE大家看钙片都是在哪看呀R新闻

大家看钙片都是在哪看呀田渊栋团队新作祭出Agent-as-a-Judge！AI智能体自我审判，成本暴跌97%_ZAKE大家看钙片都是在哪看呀R新闻