搞机的软件免费下载安装软件Claude3.5两小时暴虐50多名专家,编程10倍速飙升!但8小时曝出惊人短板搞机的软件免费下载安装软件_ZAKER新闻
Claude3.5两小时暴虐50多名专家,编程10倍速飙升!但8小时曝出惊人短板搞机的软件免费下载安装软件_ZAKER新闻
1、召开董事会、
AI 智能体离自主研发,还有多远?Nature 期刊的一篇研究曾证明了,GPT-4 能自主设计并开展化学实验,还能阅读文档学习如何使用实验室设备。另有 Transformer 作者之一研发的「世界首个 AI 科学家」,一口气肝出 10 篇论文,完全不用人类插手。如今,AI 在研发领域的入侵速度,远超人类预期。来自非营利组织 METR 的最新研究称:同时给定 2 个小时,Claude 3.5 Sonnet 和 o1-preview 在 7 项具有挑战性研究工程中,击败了 50 多名人类专家。论文地址:https://metr.org/AI_R_D_Evaluation_Report.pdf令人印象深刻的是,AI 编程速度能以超越人类 10 倍速度生成并测试各种方案。在一个需要编写自定义内核以优化前缀和运算的任务中,o1-preview 不仅完成了任务,还创造了惊人的成绩:将运行时间压缩到 0.64 毫秒,甚至超越了最优秀的人类专家解决方案(0.67 毫秒)。不过,当比赛时间延长至 8 小时,人类却展现出了明显的优势。由下可以看出,随着时间逐渐拉长,Claude 3.5 Sonnet 和 o1-preview 的性能提升逐渐趋于平缓。有趣的是,为了获得更高的分数,AI 智能体居然会违反规则「作弊」。原本针对一个任务,智能体应该减少训练脚本运行时间,o1-preview 直接复制了输出的代码。顶级预测者看到这一结果惊叹道,基于这个进步速度,AI 达到高水平人类能力的时间可能会比之前预计的更短。RE-Bench 设计架构,遍历七大任务为了能够快速迭代,并以合理的成本收集数据,研究人员设定了运行限制:人类专家的评估不超过 8 小时,且所有环境都只能使用 8 个或更少的 H100 GPU 运行。在环境设计时,主要考虑最大化覆盖前沿 AI 难题,同时确保人类专家与智能体能够持续推进任务,不会遇到研究瓶颈或得分上限。RE-Bench 包含了七个精心设计的评估环境,其中每个环境都提出了一个独特的机器学习优化问题,要取得高分需要大量的实验、实现和高效使用计算资源。每个评估环境包括三部分:1、评分函数(scoring function),定义了环境的目标,智能体可以随时运行该函数。每次运行评分函数时,都会在得分日志中添加一个带时间戳的事项。智能体可以看到得分日志,并检查评分函数的细节,有助于理解研究目标。2、简单但性能不佳的初始解决方案(starting solution),提供给智能体,以展示有效的解决方案是什么样子,有助于说明环境设置,可以让智能体更快地开始研究问题中更具挑战性的部分。比如说,在「优化核函数」环境中,智能体的输入为一个简单但运行缓慢的 Python 解决方案。3、由任务作者创建的参考解决方案(reference solution),得分很高。但该解决方案不会提供给智能体,只用于归一化得分(normalize score),作为一个优秀解决方案的示例。下式中 ys 为初始方案得分,yr 为参考方案得分,y 为模型得分,yn 为归一化分数。除了「Scaling Law Experiment」采用最终分数进行评估外,其他实验都使用得分日志中的最高分。8 小时极限,人类专家吊打 AI研究人员使用开源的 Vivaria 平台来设置安全的虚拟机,配备 20-48 个虚拟 CPU、200-400 GB 的 RAM,以及 0 到 6 个 H100 GPU,对比模型选择了 claude-3-5-sonnet-20241022 以及 o1-preview,框架选择为 METR 和 AIDE时间限制下的性能在相同时间下,可以看到,o1-preview 和 Claude 3.5 Sonnet 在最初阶段进展迅速,但在几个小时后速度减慢;而人类专家起步较慢,但随后迅速取得进展。采样限制下的性能除了长时间运行外,研究人员还评估了模型是否能在更短的时间限制下取得更好的性能:对每个环境进行 k 次采样,并选择所有 k 次运行中取得的最高分数。结果发现,模块化框架中的智能体在 30 分钟尝试中表现得更好,而 AIDE 框架中的智能体则在 2 小时尝试中表现最佳。还可以发现,在 AIDE 框架中的 o1-preview 和在模块化框架中的 Claude 3.5 Sonnet 总体上取得了最高的分数,分别达到了人类专家的第 36 和第 37 百分位。随着样本数量的增加,最佳 -k 次分数(score@k)也会发生变化:Claude 3.5 Sonnet 在 30 分钟时,样本数量增加,性能也稳步提高,但即使在 k=128 个样本下,智能体的表现也远远落后于顶尖人类的表现。总体而言,人类起步较慢,但改进轨迹更陡峭,即进步更快,并且在 32 小时的时间预算内达到了比任何智能体都更高的分数。按环境评估研究人员对比了两个智能体(模块化框架中的 Claude 3.5 Sonnet 和 AIDE 框架中的 o1-preview)在 32 小时内的最高性能分配与人类结果(四次 8 小时运行中的最佳表现)以匹配智能体的时间预算。结果发现不同智能体在不同环境中的表现存在显著差异:Claude 3.5 Sonnet 智能体在「微调 GPT-2 进行问答」和「扩展法则实验」环境中接近人类的表现,而 o1-preview 在这些环境中表现不佳;o1-preview 在「优化核函数」环境中的表现超过了人类。人类 -AI 差距之间定性分析为了更好地了解人类专家在哪些条件下,比 AI 智能体做得更好或更差的原因,研究人员对智能体成绩和解决方案进行了定性分析。AI 智能体:知识储备大,尝试频率 37 次 /h虽然 AI 智能体通常无法找到与顶级人类专家相匹配的解决方案,但它们也取得了一些显著的成功。比如,在 AIDE 加持下,Claude 3.5 Sonnet(新版)和 o1-preview 都能找到「优化内核」的解决方案,运行速度约为参考解决方案的 2 倍。如下图所示,其中,o1-preview 的解决方案甚至超过了 9 位人类专家。这些都是复杂且新颖的算法,能有效绕过 GPU 通信限制,并使用一种缺少良好公开文档的低资源编程语言(Triton)。这个令人惊讶的结果可能部分归因于,AI 智能体和许多人类专家之间的专业知识差距,因为大多数人类专家并不具备编程 GPU 内核的专门知识。这种情况在多个环境中都有体现:一些不太熟悉该领域的人类专家需要花费大量时间学习或复现标准方法(有时甚至完全失败),而 AI 智能体凭借其广泛的知识基础往往能轻松完成。AI 智能体成功的另一个关键因素可能是,它们能比人类专家尝试更多的解决方案。平均而言,AIDE 和模块化智能体每小时分别运行 36.8 次和 25.3 次,而人类专家仅为 3.4 次。这通常导致智能体找到高度优化的「局部最优」解决方案,仅通过调整初始解决方案的参数和代码,就能实现显著的改进。例如,许多智能体在解决「优化内核」环境时,并非通过编写成功的 Triton 解决方案(这很困难),而是通过仔细调整初始的 Pytorch 解决方案,使其运行速度显著提高。也就是说,它们能够有效优化现有解决方案。如下,是「微调 GPT-2 用于问答」最佳智能体解决方案中,Claude 3.5 Sonnet 调整了初始解决方案的参数,并在训练轨迹和评估中获得了准确结果。不过,这一高分有可能是对噪声过度拟合的结果。总而言之,AI 智能体的成功在于能够进行大量参数微调和代码优化,偶尔还会提出创造性有效的解决方案,尤其是在评估成本低的环境在非常有效。失败因素但在大多数环境中,智能体仍然没有达到强大的人类专家的水平。造成这种情况的原因之一是,AI 智能体提出的解决方案缺乏多样性。例如,在「受限架构 MLM」任务中,智能体在 84% 的情况下,都在尝试使用稍作修改的 Transformer 架构。即使在不能使用除法和指数运算的情况下,仍固守这种方案。另一个局限性是,持续性的指令理解错误,特别是在「受限架构 MLM」和「优化 LLM Foundry」任务中。在某些情况下,这些对环境的误读可能导致智能体找到令人印象深刻且意想不到的漏洞,这些漏洞在自动评估中得分很高,但在人工检查时明显违反了环境规则。缩小差距基于以上的观察,研究人员认为 AI 智能体在以下特征的环境中,会比人类表现更好:- 短期且高保真循环反馈,可以让 AI 智能体充分发挥尝试多个解决方案的优势- 工程复杂度低,使得 AI 智能体通过几个步骤就解决问题- 需要专业知识的任务,AI 智能体比人类专家具备更全的知识- 环境中有显著的噪声,这种情况下 AI 智能体可以进行大量尝试的优势会超过人类专家较少的尝试次数。- 不易出现意外情况,不需要太多的探索和发现Re-Bench 局限性评估环境的代表性不足为了创建符合设计标准的高可靠性评估,研究人员需要努力确保指令和评分容易理解,8 小时内可以取得显著进展,并且提供所有必要的资源,还必须选择易于构建和评估的环境。这些限制使得评估环境不太能代表真实的研究,常见问题包括不明确的目标、糟糕的指令、慢反馈和无法解决的问题。结果噪声由于环境数量较少,且智能体得分严重向右倾斜,大多数运行得分为 0,只有少数得分非常高,所以结果评估对抽样噪声很敏感。评估的成本和复杂性使用 H100 GPU 运行智能体数小时需要相应的基础设施和大量预算,对于普通研究人员来说压力很大,运行大规模实验来对比多个模型、框架和参数也更具挑战性。缺乏框架迭代选择不同的智能体框架或提示,有可能导致模型在相近的时间内,在基准测试上取得更好的成绩。研究人员的预期是,通过为智能体提供管理 GPU 资源的工具,或是通过并行探索解决方案来利用更多的 token 等来实现更好的性能。覆盖前沿研究的局限性由于硬件访问有限,并且前沿 AI 研究也大多是闭源的,评估所涵盖的研究类型与推动前沿 AI 进步的研究类型之间可能存在差异。方案可能过度拟合除了「扩展法则实验」之外,所有环境都向智能体提供了测试分数输出,以最小化误解或混淆的风险;在未来的迭代中,研究人员考虑只在大多数环境中向智能体提供验证分数,把测试分数隐藏起来。「扩展法则实验」得分存在运气成分虽然良好的实验可以帮助人类专家在环境中做出明智的预测,但智能体还是主要依赖猜测,更多是运气而不是技巧的问题。koa12jJid0DL9adK+CJ1DK2K393LKASDad
编辑:王海
TOP1热点:铁路上海站春运单日客发量78.66万人次创新高
在众议院议长凯文·麦卡锡的斡旋下,这项法案限制了两年的联邦开支,并在2024年大选之前暂停了债务上限。。
TOP2热点:柯洁回应LG杯决赛被判负事件:就像在噩梦中徘徊
县处级干部方面,2月8日,铜陵市纪委监委通报,安徽枞阳农村商业银行股份有限公司枞川支行原行长祝依亮涉嫌严重违纪违法,接受纪律审查和监察调查。
TOP3热点:上海岁语|00后快递小哥迎来“反向团圆”:亲人行囊里的番薯片,是含蓄的爱шишка
根据熊彼特和国内知名经济学家周金涛的理论和实证分析,每轮设备投资周期大约包含三轮库存周期,中美库存周期基本同步。根据历史数据统计,中国每个库存周期平均大约43个月,其中上升期平均23个月,下降期平均20个月。目前中国处于新一轮中周期第一库存周期的顶部回落阶段,2022年5月进入下行阶段,目前已下行13个月,根据均值预计还将下行约7个月。以PPI同比增速作为价格指标、以工业企业产存品库存增速作为库存指标,可以分析出,目前中国处于主动降库存阶段,目前已进行了13个月,处于主动去库存的末期,后期进入被动去库存或者主动补库存阶段,需要宏观需求侧的回暖和供给侧的收缩。
TOP4热点:男子骑自行车在高速公路超车道逆行,警方:疑有精神疾病,已叮嘱家属最美荷花作文范文
在他同父异母的兄弟、王储穆罕默德·本·萨勒曼推行雄心勃勃的计划,重塑沙特依赖石油的经济之际,阿卜杜勒阿齐兹必须将原油价格保持在一个经济上可行的水平。
但即使口感不同,即使真茅台的口味喝不惯,他们还是会选择茅台。
TOP5热点:最高温刚破纪录又迎暴雪预警,为何转换如此快速?中央气象台答疑韩国18禁电影风波引争议
财政部举债的预期已然明朗,现在的问题是,谁会来接这个盘?
但即使口感不同,即使真茅台的口味喝不惯,他们还是会选择茅台。
TOP6热点:寻家多年春节前圆梦,被拐35年后男子与哥哥妹妹团聚相拥纪检监察干部典型案例分析
刘海明(重庆大学教授、博士生导师)
TOP7热点:美国宣布退出后,世卫组织将削减成本并重新设定优先事项亲子餐厅103话免费
据印度媒体报道,印度官方的初步调查报告显示,这起事故很可能是由铁路信号错误引发的。印度政府已委派铁道部以外的安全专员展开第三方独立调查。
也有幽默自嘲派,他们无法改变事实,以想象力进行自我调侃却是信手拈来:“以后会怎么样?人类还会喜欢人工智能吗?”“给AI打工能有八小时工作和双休不加班吗?”“地球上的其他生物还存在就好。”
TOP8热点:不仅开源还便宜好用,硅谷员工直呼“火烧屁股”的DeepSeek大模型强在哪苏语棠苏娅元宵猜灯谜在线观看
所谓“债务上限”,是美国政府可以借债的最高额度,相当于信用卡的“授信额度”。触及这条“红线”,意味着美国财政部借款授权用尽,除非国会另行授权,否则白宫无权继续举债。如果把美国债务体系比喻为“信用卡”,那么最近20多年来,这张“信用卡”频繁刷爆,屡屡触及债务上限,向世人展示美元霸权和美国党争最阴暗的一幕幕,也对全球经济金融体系持续造成累积风险。
同时,零碳金融市场规模巨大,而且都有长时期限和高风险的特征,因此金融市场产品的创新就变得特别重要。
TOP9热点:特朗普:有领导人和我说,拜登从来不接电话肌肌桶肤肤肤30分钟软
据媒体采访接触沙特能源部长阿卜杜勒阿齐兹·本·萨尔曼的人士称,
TOP10热点:DeepSeek超越ChatGPT,登顶苹果美国区免费APP下载排行榜和三个人同过房会怎么样
6月2日,*ST新文发布公告称,公司收到股票终止上市决定。公司股票进入退市整理期的起始日为2023年6月12日,退市整理期为15个交易日,预计最后交易日期为7月4日。