红领巾吃瓜爆料今日大瓜OpenAI o1全方位SOTA登顶lmsys排行榜,数学能力碾红领巾吃瓜爆料今日大瓜压Claude和谷歌模型,o1-mini并列第一_ZAKER新闻
OpenAI o1全方位SOTA登顶lmsys排行榜,数学能力碾红领巾吃瓜爆料今日大瓜压Claude和谷歌模型,o1-mini并列第一_ZAKER新闻
“科普人员可以分为两大类,一类是专职从事科普工作的,例如科普作者、科普讲解员等。但更多的一类是,兼职从事科普工作的科研人员,他们是当下科普人员的主流。”何光喜表示,近年来,随着诸如《三体》《流浪地球》等科普、科幻作品的火热,我国科普市场逐渐壮大,对科普人才的需求也不断增加。如何建立有效的科普人才评价体系,成为一道必答题。
OpenAI o1 模型在 lmsys 排行榜领先,展现出色。【导读】o1 模型发布 1 周,lmsys 的 6k+ 投票就将 o1-preview 送上了排行榜榜首。同时,为了满足大家对模型「IOI 金牌水平」的好奇心,OpenAI 放出了 o1 测评时提交的所有代码。万众瞩目的最新模型 OpenAI o1,终于迎来了 lmsys 竞技场的测评结果。不出意外,o1-preview 在各种领域绝对登顶,超过了最新版的 GPT-4o,在数学、困难提示和编码领域表现出色;而 o1-mini 虽然名字中自带「mini」,但也和最新版的 GPT-4o 并列综合排名第二,困难提示、编码、数学等领域和 o1-preview 同样登顶第一。果然,o1 模型不愧是通用推理领域的新王。lmsys 社区官方发推表示,这项测试结果收集了 6k+ 社区投票,并将 OpenAI 这次取得的进展描述为「令人难以置信的里程碑」。单纯看排行榜的排名可能不够具有说服力,于是 lmsys 特意统计了总榜上前 25 名模型的 1v1 胜率。可以看到,o1-preview 对所有模型的胜率都超过了 50%,对比 04-09 版 GPT-4-Turbo 的胜率最高,达到了 88%。o1-mini 如果对战 o1-preview,胜率为 46%,对 09-03 版 GPT-4o 的胜率为 48%,可以说是大体平手、稍逊一筹的状态。值得注意的是,虽然 Grok-2-mini 和 Claude 3.5 Sonnet 都排在比较靠后的位置,但 o1-preview 对这两个模型的胜率并不高,分别是 58% 和 57%,大大小于排名第四的 Gemini 1.5 Pro 的 69%。如果看到细分领域的排行榜,尤其是数学 / 推理领域,效果则更加惊艳。o1-preview 和 o1-mini 不仅是登顶数学排行榜,而且是体现出了绝对的领先优势。排在第三、第四的 Claude 3.5 Sonnet、Gemini 1.5 Pro 和 08-08 版 ChatGPT-4o 的均分都在 1275 左右,不相上下;o1-preview 和 o1-mini 则一骑绝尘,分数飙到 1360 附近,直接碾压。o1 推理团队的领导者之一 William Fedus 看到这张图也是相当开心,他表示这张图「很好地用视觉表达了范式转换」。看来最新的 o1 模型在 STEM 学科和通用推理方面的确又达到了新高度,用实际测评结果回应了「AI 遇冷」、「OpenAI 碰壁」的质疑声。「那就继续期待 OpenAI 接下来的发布吧!」但一些人感叹「未来可期」的同时,另一些人想到了自己不多的智商和头发。「模型搞得这么好了,测试就不适合我这种蠢人了。」同时,也有一些人表达了对 lmsys 排行榜结果的质疑。比如,众所周知的 o1 模型推理时间长,因而回答的延时也长,和其他模型都有明显差别;而且不同于各类基准测试的客观标准,lmsys 社区中完全基于用户的主观评分,难说这里面是否存在「安慰剂效应」。也有人不服 o1 在编码排行榜上的第一,认为虽然 o1-mini 非常适合进行项目规划,但在 Cursor 这类编码助手中还是 Claude 模型的表现最佳。排行榜的结果当然不是全部,o1 模型能否继续赢得口碑,同时保持住智力水平不变蠢,还要看接下来的一段时间。IOI 金牌代码全公开说到 o1 模型的编码能力,不知道你还是否记得,刚发布时 OpenAI 提到了这样一个指标:如果放宽提交约束到每个问题允许 1 万次提交,o1 可以达到高于 IOI 金牌门槛的分数。在模拟进行的 Codeforces 编程竞赛中,使用相同的规则进行评估,o1-preview 可以打败 62% 的人类选手,正式版 o1 则上升到超越 89% 的对手。专门微调过的 o1-ioi 模型,表现优于 93% 的竞争对手。此外,前段时间有用户在实时的 Codeforces 比赛中使用了 o1 模型,结果是超越了 99.8% 的人类选手。由于 o1 在编程竞赛领域的表现如此突出,引起了 AI 社区强烈的兴趣和好奇,OpenAI 于是选择发布 o1 模型提交的代码内容,包括 6 个问题的全部 C++ 代码以及注释。发文的 yummy 是 o1 模型的核心贡献者 Alexander Wei对于 o1 的惊艳表现,Alexander Wei 自己都很惊讶。他本人在 9 年前曾参加 IOI 竞赛,但从未想到自己这么快就需要和 AI 竞争,模型展现出的推理过程的复杂程度令人印象深刻。博文表示,虽然 o1 模型距离人类的顶级表现还有很长的一段路要走,但我们期待有一天能实现这个目标。这个发展轨迹让人想起了 AlphaGo ——从水平高超,到能和人类顶级高手不分胜负,再到 5-0 完全碾压李世石。OpenAI 想要达成的,估计就是究极进化的、能在编程上碾压人类顶级高手的 AlphaZero。此处公布代码的 6 个问题具体如下:有网友指出,其中最令人印象深刻的应该是象形文字(hieroglyphs)问题,o1 模型总共得到 44 分,在现场的所有选手中排名第四。这表明,模型或许可以破译一些人类无法解决的子任务。前几天,一位目前在 NASA 工作的天体物理学博士就尝试让 o1 复现自己论文中的代码,结果一试吓一跳——自己读博时花了 1 年写出的代码,o1 只用了一小时就写完了。这还只是裸模型,如果加上代码解释器、网络实时搜索等各种工具,效果想必更加惊艳。而且,Reddit 网友还送来了温馨提示:这只是 o1 预览版哦,可以狠狠期待一下不到一个月就即将问世的正式版 o1 了。此外,这位网友还表示,o1 基本沿用了 GPT-4 的架构;那你想,改换架构后的 GPT-5(也就是传说中的猎户座)能达到什么高度。参考资料:https://x.com/lmsysorg/status/1836443278033719631https://codeforces.com/blog/entry/134091本文来自微信公众号 " 新智元 ",编辑:乔杨 。koa12jJid0DL9adK+CJ1DK2K393LKASDad
编辑:吴克俭
TOP1热点:DeepSeek仿冒网站大量出现
在资金保障方面,四平市在省级财政补贴的基础上,市级财政再给予A―E类人才150万、70万、30万、15万和10万元安家补贴。。
在创造条件方面,何光喜指出,目前我国科普人才成长、培养体系仍不完善。较少有学校专门开设科普专业培养专职科普人才,而科研人员在成长训练中,也较少接触科学传播等内容,缺乏一定的科普技巧。
TOP2热点:TF家族2025新音纪录片星火
线上下单、30分钟配送,当天采摘的水果、捕捞的鱼很快送达;智能试妆、自助收银,轻松快速完成购物过程……今年暑期,数字消费新场景不断涌现,持续释放消费新活力。国家发展改革委日前发布的《关于恢复和扩大消费的措施》提出,壮大数字消费,加快传统消费数字化转型,打造数字消费业态、智能化沉浸式服务体验。
TOP3热点:汪小菲和大S的拉扯该到此为止了八重神子被丘丘人抓去繁殖后代
(作者为清华大学国学研究院院长)
本报北京8月27日电(记者陶相安)北京时间26日凌晨,在西班牙瓦伦西亚进行的第四十届世界艺术体操锦标赛上,中国队夺得集体全能项目银牌,并成功获得巴黎奥运会参赛资格。
TOP4热点:52天婴儿喝奶奶喂的蜂蜜水中毒进ICU蜜桃影像传媒直接进入
全国政协常委李卫(代表无党派人士界)
内蒙古乌兰毛都苏木篮球队对阵湖北王英镇篮球队比赛现场。中新网记者李佩珊摄
TOP5热点:普通人真的不用花钱学DeepSeekoppo黄色软件下载3.0.3每天三次oppo版破解视频
一名患者站在海拔5200多米的唐古拉山口上,微笑着向远方挥手――这是梁宗安手机里至今仍珍藏着的一张照片。
“下一步,我们计划在3年内,建成百余个消防安全村。总结各示范村经验,争取让广大村民掌握消防知识,让消防设备走进乡村。”松原市消防救援支队副支队长李洪刚表示。
TOP6热点:周深死脑子快想啊诗晴地铁
1994年,当时已在天津市环卫局工作的王辅成,被调到天津市教育学院(后合并到天津师范大学)工作,任副局级巡视员。这一年,他54岁。
TOP7热点:四川筠连山体滑坡现场画面美国务卿将访华水密桃一区二区无限看吧
一杯清茶、一圈沙发椅,在永康,有这样一处地方,企业家在这里可以直接对话政府部门、行业专家,就产业发展形势、企业发展诉求碰撞思想火花。
近来,有媒体曝光在一些欠发达地区,形象工程、面子工程劳民伤财,不仅造成国家财力和社会资源的浪费,而且助长了弄虚作假、奢侈浪费的不良风气。
TOP8热点:林孝埈戴上金牌大...好大这是在车上
统筹:罗辉、王绚、朱基钗
TOP9热点:孙颖莎给王艺迪竖大拇指兔子先生中日
时代在发展,社会在进步,理论在提升,王辅成讲稿的内容也在不断变化。讲台上的王辅成喜欢与学生互动,同学们也喜欢向王老师提问。通过这些提问,王辅成及时了解当代大学生的思想状况,不断补充素材、调整视角,用更有说服力也更符合大学生接受心理的案例和解释,化解他们思想上的困惑。
国家自然博物馆科普教育主任赵洪涛向科技日报记者介绍,国家自然博物馆的科普相关工作人员大部分都选择申报了北京市科学技术协会(以下简称北京科协)的科学传播相关职称。
TOP10热点:余承恩王子璇好甜吴梦梦到粉丝家实战
以学铸魂推动精神洗礼,以学增智强化能力提升,以学正风促进作风转变,以学促干推动事业发展;科学、客观评估主题教育实效,确保主题教育开展慎终如始。从四个“以学”到“五个检验、五个要看”,习近平总书记以一堂堂生动而深刻的“现场教学课”为全党开展主题教育提供了根本遵循。