岳轻风_独家报道_刚刚，OpenAI上线Deep Research，人类终极考试远超Deep岳轻风Seek R1

刚刚，OpenAI上线Deep Research，人类终极考试远超Deep岳轻风Seek R1_ZAKER新闻

有媒体指出，排雷工作不仅进度缓慢且成本高昂。有专家估计，在当前情况下，若派出500个排雷小组，也需要耗时757年才能完成乌克兰全境的排雷工作。此外，美国已承诺就乌克兰的排雷问题投入超过9500万美元。不过根据世界银行预测数据显示，乌克兰的排雷成本为每平方米2至8美元。未来十年，用于该国排雷行动上的花销可能高达374亿美元。

机器之心报道机器之心编辑部一觉醒来，OpenAI 又发新产品了，这次是面向深度研究领域的智能体产品 ——「Deep Research」。具体来讲，这是一个使用推理来综合大量在线信息并为用户完成多步骤研究任务的智能体，旨在帮助用户进行深入、复杂的信息查询与分析。目前，Pro 用户现已可用，接下来还将开放给 Plus 和 Team 用户使用。有了这个新的智能体，用户将可以在 ChatGPT 中开启深度研究，在几十分钟内完成人类需要数小时才能完成的工作。OpenAI 反击 DeepSeek！刚发布新模型 Deep research，刷新最高记录作为 OpenAI 的下一代智能体，Deep Research 可以独立为用户工作。用户给它一个提示，ChatGPT 将查找、分析和综合数百个在线资源，以研究分析师的水平创建一份综合报告。Deep Research 由即将推出的 o3 模型的一个版本提供支持，该模型针对网页浏览和数据分析进行了优化，它利用推理来搜索、解释和分析互联网上的大量文本、图像和 PDF，并根据需要根据遇到的信息做出调整。OpenAI 表示，综合知识的能力是创造新知识的先决条件。因此，Deep Research 标志着 OpenAI 朝着开发 AGI 的更广泛目标迈出了重要一步。OpenAI 长期以来一直设想 AGI 能够产生新颖的科学研究。从大家的反应来看，OpenAI 这次的智能体产品切中了用户的需求，甚至有人认为这是迈向智能体 AI 的重要里程碑。OpenAI 的 Deep Research 通过搜索网络并将知识综合成研究论文，这种自主研究标志着 AI 进入到了自我发现新知识的下一步。图源：X@tsarnick构建 Deep Research 的目的Deep Research 是为那些在金融、科学、政策和工程等领域从事密集知识工作并需要彻底、精确和可靠研究的用户而量身打造的。同时，Deep Research 对于寻找超个性化推荐的挑剔购物者同样有用，这些推荐通常需要仔细研究才能购买如汽车、家电和家具。每个输出都经过完整记录，并附有清晰的引文和思路摘要，以便于引用和验证信息。同样地，Deep Research 在查找需要浏览大量网站的小众、非直观信息方面也特别有效。总之，Deep Research 让用户只需一个查询即可加快复杂、耗时的网络研究，从而释放宝贵的时间。此外，Deep Research 能够独立发现、推理和整合来自网络的见解。为了实现这一点，它接受了需要使用浏览器和 Python 工具的现实任务的训练，使用了 OpenAI 第一个推理模型 o1 背后的相同强化学习方法。虽然 o1 在编码、数学和其他技术领域表现出令人印象深刻的能力，但许多现实世界的挑战需要从各种在线来源收集广泛的背景和信息。Deep Research 利用这些推理能力来弥补这一差距，使其能够解决人们在工作和日常生活中面临的各类问题。如何使用 Deep research在 ChatGPT 中，选择「message composer」中的 deep research 并输入查询。告诉 ChatGPT 你需要什么 —— 无论是关于流媒体平台的竞争分析，还是关于最佳通勤的个性化报告都可以。甚至你也可以附加文件或电子表格，为问题添加上下文。一旦开始运行，侧边栏将显示所采取的步骤和使用的来源摘要。Deep research 可能需要 5 到 30 分钟的时间来完成其工作，因为它需要深入挖掘网络信息。在此期间，用户可以离开或处理其他任务 —— 任务完成后你会收到通知。最终结果将以报告的形式出现在聊天中 —— 在接下来的几周内，OpenAI 还将为这些报告添加嵌入的图像、数据可视化和其他分析输出，以提供更清晰的说明和上下文。与 deep research 相比，GPT-4o 更适合实时的多模态对话。对于需要深度和细节的各个方面、特定领域的查询，deep research 能够进行广泛的探索并引用每个声明。下面是一些 GPT-4o 与 deep research 对比。大海捞针。询问 GPT-4o：「前段时间我看过一部电视剧。我忘了名字，但我记得其中一集发生了什么。你能帮我找到名字吗？以下是我记得的一集内容：两个男人玩扑克。一个弃牌，另一个让他下注。弃牌的人实际上手牌很好，但被骗了。第二手牌，同一个人再次弃牌，但这次手牌很糟糕请深入浏览网页，找到发生此事的电视剧集。」GPT-4o 回答：「根据您提供的详细信息，您似乎指的是电视剧《仆人》中的一集。这部剧由 Tony Basgallop 创作，M. Night Shyamalan 担任执行制片人，于 2019 年在 Apple TV+ 上首播。故事围绕一对费城夫妇展开，他们在经历了巨大的损失后，雇佣了一名年轻保姆，导致他们家中发生了一系列令人不安的事件 ……」询问 deep research 同样的问题，其给出的答案：「您所描述的三个事件都发生在 Starz 系列剧《Counterpart》第一季第四集，标题为 Both Sides Now。在这一集中 ……」以下是完整过程：在上述例子中，deep research 被赋予了一个模糊的查询，即使对人类来说也很难找到答案，因为没有关键词能够轻易揭示查询的答案。deep research 能够以创造性和持久性的方式进行搜索，直到找到一个完全符合条件的结果。类似的对比还有通用知识（general knowledge）的查询：「NFL 球员的平均退休年龄是多少？」在这个例子中，deep research 提供了需要考虑的组成部分和因素，而不仅仅是一个数字。它更加全面，提供了清晰的统计背景，使用了支持性的例子，并直接解释了射门员相对于其他位置球员职业生涯较长的原因。这种细节和清晰度使得 deep research 更具信息量，并更直接地回应了那些希望了解 NFL 退休年龄趋势的人的需求。如何工作Deep Research 通过端到端的强化学习在多个领域的复杂浏览和推理任务上进行了训练。通过这种训练，它学会了规划和执行多步骤的轨迹，以找到所需的数据，并在必要时回溯和实时响应信息。Deep Research 还能够浏览用户上传的文件，使用 Python 工具绘制和迭代图表，在生成的图表和从网站获取的图像中嵌入其响应，并引用其来源中的特定句子或段落。得益于这种训练，Deep Research 在多个专注于现实世界问题的公开评估中达到了新的高度。人类终极考试（Humanity ’ s Last Exam）对于最近发布的「人类终极考试」评估，在专家级问题上对广泛学科的人工智能进行了测试，支持 Deep Research 的模型以 26.6% 的准确率创下了新高。这项测试包括 3,000 多个多项选择题和简答题，涵盖了从语言学到火箭科学、古典文学到生态学的 100 多个学科。与 o1 相比，进步最大的是化学、人文和社会科学以及数学。支持 Deep Research 的模型展示了一种类人方法，可以在必要时有效地寻找专业信息。GAIA 基准测试在评估人工智能在现实问题上表现的公共基准 GAIA 上，支持 Deep Research 的模型达到了新的 SOTA 水平，位居排行榜榜首。这些任务涵盖三个难度级别的问题，成功完成需要具备推理、多模式流畅性、网页浏览和工具使用熟练等能力。我们来看一个 GAIA 任务示例：‍ 专家级别的任务在对各个领域专家级任务进行的内部评估中，领域专家认为 Deep Research 可以自动完成数小时的艰难手动调查。以下两图分别为专家级任务的通过率（按估计经济价值计算）以及专家级任务的预计小时数通过率。专家级别的任务示例如下：ChatGPT 中的 Deep research 目前对计算资源的需求非常高。research 一个查询所需的时间越长，耗费的推理计算资源就越多。从现在开始，OpenAI 推出了针对 Pro 用户优化的版本，每月最多可进行 100 次查询。接下来将会向 Plus 和 Team 用户开放，随后是 Enterprise 用户。目前，Deep research 功能已在 ChatGPT 网页版上线，并将在本月内逐步推广到移动和桌面应用程序。目前，Deep research 可以访问开放的互联网以及任何上传的文件。未来，将能够连接到更多专业的数据源。现在看来，Deep research 能够进行异步的在线查找，而 Operator 则能够在现实世界中采取行动，两者的结合将使 ChatGPT 能够为用户执行越来越复杂的任务。不过，值得一提的是，Deep research 目前仍处于早期阶段，并且存在局限性。根据内部评估，它有时会在响应中产生幻觉或做出错误推断，但发生率明显低于现有的 ChatGPT 模型，它可能难以区分权威信息和谣言。在发布之际，Deep research 报告和引文中可能会出现轻微的格式错误，任务可能需要更长时间才能启动。所有这些问题都会随着使用和时间的推移而迅速改善。© THE END

koa12jJid0DL9adK+CJ1DK2K393LKASDad

编辑:彭万里

TOP1热点：黑神话IGN10分

事实上，执政一年多以来，尹锡悦本人也屡屡因言“翻车”。7月21日，民调机构韩国盖洛普发布调查结果显示，尹锡悦的好评率为33%，差评率为58%，差评率创近两月来新高。现任总统妻子岳母接连被查，施政差评率创新高，“青瓦台魔咒”的阴影再度笼罩在韩国政坛……有学者向南都、N视频记者指出，尹锡悦居高不下的民调差评率已是常态，其本人习惯于发号施令不善于兼收并蓄，而且极为强势，在这种政治氛围下，尹锡悦政府内部自我调适的机制基本失灵。另外，尹锡悦的表现表明韩国政府外交能力的巨大下滑。。