八重被丘丘人抓去繁殖谷歌AI解决IMO中84%的几何问题,o1一道没做对!Nature:AI已超过金牌得主平均水平_ZAKER新闻八重被丘丘人抓去繁殖
谷歌AI解决IMO中84%的几何问题,o1一道没做对!Nature:AI已超过金牌得主平均水平_ZAKER新闻八重被丘丘人抓去繁殖
作者:杨宾(北京外国语大学中华文化国际传播研究院讲师)
谷歌 DeepMind 最新数学 AI,一举解决了 2000-2024 年 IMO 竞赛中84%的几何问题。AlphaGeometry2论文发布,在总共 50 道题中完成了 42 道,相比去年的一代多完成了 15 道。作为对比,纯语言模型 OpenAI o1 和 Gemini Flash Thinking 一道都解决不了。Nature 发文评价:DeepMind AI 粉碎了数学难题,达到金牌得主水平,与顶级人类选手相当。就比如说 2024 年竞赛中的第四题,AlphaGeometry2完成它只需要 19 秒。如图所示,这道题要求证明∠ KIL 和∠ XPY 的合等于 180 °(蓝色表示)。AlphaGeometry2 构造的辅助线用红色表示,E 是 BI 延长线上的点,使得∠ AEB=90 °,通过 E 点进一步得到了几对相似三角形,最终完成证明。通讯作者 Thang Luong分享了更疯狂的一道题,来自 IMO Shortlist 2009。根据谷歌咨询的 IMO 教练,此问题以前仅有数值解。但 AlphaGeometry2 巧妙地构造出了复杂的辅助结构(红色表示),给出优雅的证明,这些辅助点的位置都是神经网络预测的。根据论文介绍,AlphaGeometry2 取得大幅提升主要来自于 4 项升级:– 扩展版的领域专用语言– 升级版的符号推理引擎 DDAR2– 全新的搜索算法 SKEST– 更强大的语言模型AlphaGeometry1 中的领域专用语言只包含 9 个基本 " 谓词 ",包括相等、垂直、平行、共线、共圆等。这足以覆盖 2000-2024 年所有 IMO 几何问题中 66% 的情况,但无法表示线性方程、点 / 线 / 圆的移动,以及 " 计算某个角度 " 等常见问题。在进行补充之后,覆盖率从 66% 提高到 88%。借助领域专用语言,AlphaGeometry 系统可以做到自动形式化和自动生成示意图。这样一来,只剩下 12% 涉及 3D 几何、不等式、非线性方程和可数的多个点问题。对于这些问题,AI 只能跳过,在图中标记为 "Not attempted"。符号引擎推理是 AlphaGeometry 的核心组件,称为 DDAR(Deductive DatabaseArithmetic Reasoning,演绎数据库算术推理)。它基于给定的一组核心初始事实,计算所有可推导事实的集合,遵循一组固定的演绎规则迭代地将新事实添加到集合中,直到不能再添加为止。DDAR 既负责生成语言模型的训练数据,在测试时也负责搜索推理步骤。DDAR2 有三个主要改进:增加处理两个名称不同但坐标相同的点的能力。更快的算法:提取所有关键规则并硬编码,把最坏情况的时间复杂度从 8 次方减少到三次方级别;舍弃了关于角度和距离的显式规则,改为自动完成。更快的代码实现,从 Python 改成 C++,在 AMD EPYC 7B13 64 核 CPU 上快了 300 倍。多个配置不同的搜索树并行运行,通过知识共享机制相互启发,从而更高效地寻找证明路径。在每个搜索树中,一个节点包括一次辅助结构构造和符号引擎的尝试。如果成功了,所有搜索树便会终止。如果失败了,这次尝试成功证明的事实会被记录到共享事实库中,事实对同一搜索树中的其他节点以及不同搜索树中的节点都可能有用。AlphaGeometry2 的语言模型采用最新的 Gemini 架构,设计了三种训练方法:在领域专用语言的自定义分词器上从头预训练在自然语言上微调预训练的数学版 Gemini用额外的图像输入从头开始多模态训练。通过实验得出如下结论:分词器和训练数据,都不是关键因素。较小词汇表的分词器和通用 Gemini 分词器,取得了相似的结果自然语言训练和领域专用语言训练,也是相似的结果视觉信息和图示对解决几何问题并不重要,几何问题解决的核心在于代数推理,而不是几何推理。单独使用多模态模型,没有显著提高系统的能力多模态模型生成的辅助点与其他模型不同,通过知识共享和其他模型组合起来可以提高整体性能2023 年,专门为 AI 设立的数学竞赛 AIMO 开办,第一个获得金牌的 AI 系统能赢 500 万美元奖金,但要求系统必须开源。虽然现在 AlphaGeometry2 已经有了获得金牌的能力,但他不开源。对这个领域感兴趣的团队还有机会哦~最后,2025 年的 IMO 竞赛将于 7 月份在澳大利亚举行。koa12jJid0DL9adK+CJ1DK2K393LKASDad
编辑:罗元发
TOP1热点:不同车主过年回农村老家…
《光明日报》(2023年07月19日08版)。
孙先生所签约的阅文集团表示,网文的盗版方式分两类:人工手打和自动化批量盗取。前者高度依赖人工;后者借助爬虫、OCR识图等手段批量、快速地对文字内容进行复制,给内容保护带来了巨大压力。
TOP2热点:蛋仔派对:盘点蛋仔2025年寒假必玩的乐园地图,你是主角蛋还是配角蛋?
目前,全世界收藏的有字甲骨是16万多片,若每片以10字计算,总字数已超过160万字。但是,甲骨文要作为史料来运用,前提是要确定其时代,否则便是一堆断烂朝报,缺少科学价值。
TOP3热点:基因编辑猪肝完全替代人肝!我国异种移植临床研究取得突破性进展肌肌桶肤肤免费30分钟软
王娅莉建议,家庭应该减轻孩子的学习焦虑,增加社会活动,制订合理的成长计划。学校应该减轻假期的书面作业,增加社会实践作业,特别是小学,更要把假期时间还给学生。社会应该反对和抵制“贩卖焦虑”,净化网络舆论环境,为孩子打造一个宽松的成长环境。
目前,全世界收藏的有字甲骨是16万多片,若每片以10字计算,总字数已超过160万字。但是,甲骨文要作为史料来运用,前提是要确定其时代,否则便是一堆断烂朝报,缺少科学价值。
TOP4热点:《重生之我是厂妹》第四集:抉择西方37大但人文艺术A张管
7月3日的座谈会上,参会的有三一集团、奥克斯集团、圆通速递、波司登、农夫山泉等5家民营企业负责人。
TOP5热点:小时候有没有那种让你感觉根本赢不了的反派?人猿泰山
“学生过假期,应该接受更多的社会教育与家庭教育,不能还是学校教育。”熊丙奇认为,社区要为学生提供暑托服务或者暑期活动场地、资源,发挥主体作用,“这样才能让学生的暑假生活有更多的选择”。(记者李华锡)
TOP6热点:当消防员一不小心“被困”电梯时 消防员:班长 我办事你就操心吧(任城大队)大型黄油手游网站ios
“这类广告视频让家长看完之后内心形成落差感,产生焦虑和不满,从而考虑购买教育产品。”她说,心理学有研究发现,如果一个人看广告的频率和数量高于他人,会导致自我满意度和自我价值感下降,“我们看多了‘暑假最可怕’的视频,就会被焦虑感操控”。
TOP7热点:一位文质彬彬的男人???sd4842p开关电源电路图
作者:郭晓霞(河北省文联文艺宣传中心编审)
TOP8热点:为了吃口这玩意,凌晨4点我摸黑去了中朝边境维和防暴队在哪个平台播
1985年9月,我考入北京大学读博士,师从裘锡圭先生。入学后,我住在燕南园南面的29号楼318室。那一年,裘先生刚满50岁,大概是中文系最年轻的博士生导师,对甲骨学有精深的研究。我对这门学科也有浓厚兴趣,一开学,便把博士学位论文题目定为《殷墟卜辞的分类与断代》,他欣然应允,建议采用“先分类后断代”的新方法进行研究。
“学生过假期,应该接受更多的社会教育与家庭教育,不能还是学校教育。”熊丙奇认为,社区要为学生提供暑托服务或者暑期活动场地、资源,发挥主体作用,“这样才能让学生的暑假生活有更多的选择”。(记者李华锡)
TOP9热点:《重生之我是厂妹》第四集:抉择八重被丘丘人抓去繁殖
习近平总书记在会上发表的重要讲话,蕴含着深刻的辩证法,是习近平生态文明思想的新阐释、新发展,为继续推进生态文明建设提供了强大思想武器。
TOP10热点:知名演员为了女儿连抓4年刺猬,可刺猬跑的太快根本追不上顶弄
据吴思科介绍,1963年,中国开始向阿尔及利亚派遣援外医疗队,这也是中国向海外派遣的第一支医疗队;1971年,联合国大会通过“两阿提案”,恢复中华人民共和国在联合国的合法席位,“两阿”中就有阿尔及利亚;2014年,阿尔及利亚同中国建立全面战略伙伴关系,成为首个同中国建立全面战略伙伴关系的阿拉伯国家。