美版高压监狱1-4_政策焦点_OpenAI o1全方位SOTA登顶lmsys排行榜，数学能力碾压Claude和谷歌模型，o1美版高压监狱1-4-mini并列第一

OpenAI o1全方位SOTA登顶lmsys排行榜，数学能力碾压Claude和谷歌模型，o1美版高压监狱1-4-mini并列第一_ZAKER新闻

规避制裁

OpenAI o1 模型在 lmsys 排行榜领先，展现出色。【导读】o1 模型发布 1 周，lmsys 的 6k+ 投票就将 o1-preview 送上了排行榜榜首。同时，为了满足大家对模型「IOI 金牌水平」的好奇心，OpenAI 放出了 o1 测评时提交的所有代码。万众瞩目的最新模型 OpenAI o1，终于迎来了 lmsys 竞技场的测评结果。不出意外，o1-preview 在各种领域绝对登顶，超过了最新版的 GPT-4o，在数学、困难提示和编码领域表现出色；而 o1-mini 虽然名字中自带「mini」，但也和最新版的 GPT-4o 并列综合排名第二，困难提示、编码、数学等领域和 o1-preview 同样登顶第一。果然，o1 模型不愧是通用推理领域的新王。lmsys 社区官方发推表示，这项测试结果收集了 6k+ 社区投票，并将 OpenAI 这次取得的进展描述为「令人难以置信的里程碑」。单纯看排行榜的排名可能不够具有说服力，于是 lmsys 特意统计了总榜上前 25 名模型的 1v1 胜率。可以看到，o1-preview 对所有模型的胜率都超过了 50%，对比 04-09 版 GPT-4-Turbo 的胜率最高，达到了 88%。o1-mini 如果对战 o1-preview，胜率为 46%，对 09-03 版 GPT-4o 的胜率为 48%，可以说是大体平手、稍逊一筹的状态。值得注意的是，虽然 Grok-2-mini 和 Claude 3.5 Sonnet 都排在比较靠后的位置，但 o1-preview 对这两个模型的胜率并不高，分别是 58% 和 57%，大大小于排名第四的 Gemini 1.5 Pro 的 69%。如果看到细分领域的排行榜，尤其是数学 / 推理领域，效果则更加惊艳。o1-preview 和 o1-mini 不仅是登顶数学排行榜，而且是体现出了绝对的领先优势。排在第三、第四的 Claude 3.5 Sonnet、Gemini 1.5 Pro 和 08-08 版 ChatGPT-4o 的均分都在 1275 左右，不相上下；o1-preview 和 o1-mini 则一骑绝尘，分数飙到 1360 附近，直接碾压。o1 推理团队的领导者之一 William Fedus 看到这张图也是相当开心，他表示这张图「很好地用视觉表达了范式转换」。看来最新的 o1 模型在 STEM 学科和通用推理方面的确又达到了新高度，用实际测评结果回应了「AI 遇冷」、「OpenAI 碰壁」的质疑声。「那就继续期待 OpenAI 接下来的发布吧！」但一些人感叹「未来可期」的同时，另一些人想到了自己不多的智商和头发。「模型搞得这么好了，测试就不适合我这种蠢人了。」同时，也有一些人表达了对 lmsys 排行榜结果的质疑。比如，众所周知的 o1 模型推理时间长，因而回答的延时也长，和其他模型都有明显差别；而且不同于各类基准测试的客观标准，lmsys 社区中完全基于用户的主观评分，难说这里面是否存在「安慰剂效应」。也有人不服 o1 在编码排行榜上的第一，认为虽然 o1-mini 非常适合进行项目规划，但在 Cursor 这类编码助手中还是 Claude 模型的表现最佳。排行榜的结果当然不是全部，o1 模型能否继续赢得口碑，同时保持住智力水平不变蠢，还要看接下来的一段时间。IOI 金牌代码全公开说到 o1 模型的编码能力，不知道你还是否记得，刚发布时 OpenAI 提到了这样一个指标：如果放宽提交约束到每个问题允许 1 万次提交，o1 可以达到高于 IOI 金牌门槛的分数。在模拟进行的 Codeforces 编程竞赛中，使用相同的规则进行评估，o1-preview 可以打败 62% 的人类选手，正式版 o1 则上升到超越 89% 的对手。专门微调过的 o1-ioi 模型，表现优于 93% 的竞争对手。此外，前段时间有用户在实时的 Codeforces 比赛中使用了 o1 模型，结果是超越了 99.8% 的人类选手。由于 o1 在编程竞赛领域的表现如此突出，引起了 AI 社区强烈的兴趣和好奇，OpenAI 于是选择发布 o1 模型提交的代码内容，包括 6 个问题的全部 C++ 代码以及注释。发文的 yummy 是 o1 模型的核心贡献者 Alexander Wei对于 o1 的惊艳表现，Alexander Wei 自己都很惊讶。他本人在 9 年前曾参加 IOI 竞赛，但从未想到自己这么快就需要和 AI 竞争，模型展现出的推理过程的复杂程度令人印象深刻。博文表示，虽然 o1 模型距离人类的顶级表现还有很长的一段路要走，但我们期待有一天能实现这个目标。这个发展轨迹让人想起了 AlphaGo ——从水平高超，到能和人类顶级高手不分胜负，再到 5-0 完全碾压李世石。OpenAI 想要达成的，估计就是究极进化的、能在编程上碾压人类顶级高手的 AlphaZero。此处公布代码的 6 个问题具体如下：有网友指出，其中最令人印象深刻的应该是象形文字（hieroglyphs）问题，o1 模型总共得到 44 分，在现场的所有选手中排名第四。这表明，模型或许可以破译一些人类无法解决的子任务。前几天，一位目前在 NASA 工作的天体物理学博士就尝试让 o1 复现自己论文中的代码，结果一试吓一跳——自己读博时花了 1 年写出的代码，o1 只用了一小时就写完了。这还只是裸模型，如果加上代码解释器、网络实时搜索等各种工具，效果想必更加惊艳。而且，Reddit 网友还送来了温馨提示：这只是 o1 预览版哦，可以狠狠期待一下不到一个月就即将问世的正式版 o1 了。此外，这位网友还表示，o1 基本沿用了 GPT-4 的架构；那你想，改换架构后的 GPT-5（也就是传说中的猎户座）能达到什么高度。参考资料：https://x.com/lmsysorg/status/1836443278033719631https://codeforces.com/blog/entry/134091本文来自微信公众号 " 新智元 "，编辑：乔杨。

koa12jJid0DL9adK+CJ1DK2K393LKASDad

编辑:孙应吉

TOP1热点：夜间开车有哪些好习惯，可以提升行车安全？

2021年的这次发现，将我国的茶文化起源从西汉时期追溯到战国早期，往前推进了300多年。。

在载人登月之前，中国还将全面推进探月工程四期，包括嫦娥六号、嫦娥七号和嫦娥八号任务。

TOP2热点：《黑神话：悟空》发售当日 Steam 单平台同时在线人数跻身历史前四，单机历史第一，对此你有什么想说？

给村民办实事，必须坚持问题导向，摸清群众的真期盼、新需求。这几年，村民生活更富足，村里产业更兴旺，但又出现了新矛盾、新问题。比如，村民家电增多、变压器过载，需要增容变压器；村里产业用电增加，但用电保障不足等。为此，我推动建立了“村电共建”服务点，更换、改造低电压线路近千米。为了让村民用电更安全、更便捷，我们积极利用群众院坝会、农民夜校等宣传有关知识和电力惠民政策。随着更多安心电、放心电接入村庄，各种用电需求得到更好保障，生产生活更便利，村民也有了更强的获得感。

“创办农场的过程中，我们经常会碰到意想不到的小问题，比如适应乡村生活节奏，与村民沟通磨合，学习如何修理设备等。”李一方说。

TOP3热点：如何评价刘慈欣的科幻小说《带上她的眼睛》？14may18_XXXXXL56endian49

面对和平时训练截然不同的温度、湿度，他们一边比赛一边适应。“越是环境险、难度大，越能锤炼复杂环境下打赢制胜本领。我们要做到的就是，在不同的环境下迅速进行调整。”刘军介绍，经过长时间的训练，狙击手的大脑形成了自己的“数据库”，比赛中阳光照射角度、风速、温差等环境因素都能在以往的训练中找到对照。

本报珀斯7月19日电（记者陈晨曦、陶相安）2023年女足世界杯将于北京时间7月20日15时在新西兰奥克兰市伊甸公园体育场拉开帷幕，揭幕战将由东道主新西兰队对阵挪威队。同日，澳大利亚队将在悉尼主场与爱尔兰队交手。

TOP4热点：《黑神话：悟空》总销量已破 450 万份，总销售额超过 15 亿元，对于单机游戏来说，这一成绩意味着什么？八重神子焯出白水怎么办

五一假期，清明上河园接待游客人数同比2019年翻倍，《大宋·东京梦华》演出收入较2019年同比增长300%，“原定每天演出3场，后期根据游客预定情况增加到4场，演出结束已凌晨一点多，这基本到了加场的上限。”清明上河园营销负责人石占良表示，由于科技精品项目的加持，今年文旅市场的火爆超出了景区的预期。

年轻人蓬勃向上的朝气，总给人留下深刻的印象。接下来，参加此次CBA选秀大会的不少球员将参加成都大运会，期待他们在世界大赛舞台上创造佳绩，实现梦想。

TOP5热点：《黑神话：悟空》总销量已破 450 万份，总销售额超过 15 亿元，对于单机游戏来说，这一成绩意味着什么？精产国品一二三产品在哪买

中午休息片刻，下午3点到5点，顾秀琴再次回到自己的保洁区巡查一遍。

当年10月，地下车库投入使用，新增停车位1200个、新能源充电桩50个，车位整齐划一、停车环境宽敞舒适。小区居民高女士告诉记者：“这真是一件实实在在的大好事，为我们解决了多年来的心病，再也不用发愁在哪停车了，小区乱停车的现象也没有了。”

TOP6热点：经常熬夜对皮肤会造成什么影响，我们该如何调整好皮肤状态？14may18_XXXXXL56endian公司

需网络平台、社会、家长三方协力

问：意见的出台背景是什么？

TOP7热点：秦灭六国中最困难的战役是哪次？696969c大但人文艺术作品

第二天，达娜和同学们去了国际象棋俱乐部。大家都很害羞，不好意思进门，达娜不知道被谁推了一下，第一个进去了，结果成了那群人中唯一至今还坚持下棋的那个。学棋之后，达娜每周练习6天，每天练习五六个小时。辛勤付出终有回报，她曾两次夺得欧洲18岁以下组的女子冠军，后来又成为全国冠军、女子国际特级大师。

如何让文物活起来、文化遗产动起来？在河南博物院院长马萧林看来，文化传承和发展离不开创新思维，“通过保护并深入挖掘文化内涵，让文物的价值和意义得到更全面的展示，让传统文化与现实文化更加相融相通”。

TOP8热点：如何看待 2024 年 8 月 21 日 A 股的市场行情？上边一面亲下边一面膜的注意事项

从赛前申报难度分值卡，到允许男选手参加集体比赛；从集体技巧自选项目的加入，到每一个技术动作被量化成具体的分数……去年世锦赛之后，世界泳联调整了花样游泳项目评分规则，比赛不仅要“看起来很美”，还要拼难度、保稳定、讲究编排，教练员和运动员面临更大挑战。

（三）完善社会信用激励约束机制。完善信用信息记录和共享体系，全面推广信用承诺制度，将承诺和履约信息纳入信用记录。发挥信用激励机制作用，提升信用良好企业获得感。完善信用约束机制，依法依规按照失信惩戒措施清单对责任主体实施惩戒。健全失信行为纠正后的信用修复机制，研究出台相关管理办法。完善政府诚信履约机制，建立健全政务失信记录和惩戒制度，将机关、事业单位的违约毁约、拖欠账款、拒不履行司法裁判等失信信息纳入全国信用信息共享平台。

TOP9热点：如何看待 8 月 20 日「腾势汽车科技日」发布会？有哪些亮点信息值得关注？人与畜禽CORPORATION外网

问：意见的出台背景是什么？

达娜说：“当你专心下棋的时候，你会忘记时间的流逝。如果突然有人问你妈妈叫什么名字，你都会愣住、答不上来。国际象棋能让你从朝八晚五的生活和日常琐事中抽离出来，拥有真正属于自己的时光。”

TOP10热点：是怎么做到喜欢却不联系的?打扑克的全程视频不盖被子可以看到

图①：“飞鸟与鸣虫”农场

（十五）引导完善治理结构和管理制度。支持引导民营企业完善法人治理结构、规范股东行为、强化内部监督，实现治理规范、有效制衡、合规经营，鼓励有条件的民营企业建立完善中国特色现代企业制度。依法推动实现企业法人财产与出资人个人或家族财产分离，明晰企业产权结构。研究构建风险评估体系和提示机制，对严重影响企业运营并可能引发社会稳定风险的情形提前预警。支持民营企业加强风险防范管理，引导建立覆盖企业战略、规划、投融资、市场运营等各领域的全面风险管理体系，提升质量管理意识和能力。

发布于：奈曼旗

美版高压监狱1-4OpenAI o1全方位SOTA登顶lmsys排行榜，数学能力碾压Claude和谷歌模型，o1美版高压监狱1-4-mini并列第一_ZAKER新闻

美版高压监狱1-4OpenAI o1全方位SOTA登顶lmsys排行榜，数学能力碾压Claude和谷歌模型，o1美版高压监狱1-4-mini并列第一_ZAKER新闻