男生把自己的手到女生的QQ里_即时报道_实测OpenAI最强模型o1：会做大学数理化，但弱智吧依然难男生把自己的手到女生的QQ里解

实测OpenAI最强模型o1：会做大学数理化，但弱智吧依然难男生把自己的手到女生的QQ里解_ZAKER新闻

1991年，为了承接中法合资30万辆轿车项目落户，武汉经开区开始动工兴建，1993年被国务院批准为国家级经济技术开发区。进入21世纪，东风汽车总部、东风本田、东风乘用车等企业陆续入驻，武汉经开区汽车产业进入快速发展时期。

OpenAI 传说中的 " 草莓 " 终于正式上线！不仅可以胜任更复杂的推理任务，在数学、代码和其他科学领域也能解决更难的问题。OpenAI 这次 " 无预警发布 " 震撼了科技圈，o1 更是被 CEO 奥特曼称它为了一种新范式的开始。发布之后，各路大神和网友都纷纷用各种问题测试 OpenAI o1 的表现：还有人进行了花式考验，结果被 o1 强大的推理能力秀到了。Q：你的回复中有几个字？A1：这句话有七个字A2：一共五个字量子位也进行了一番实测，下面就一起来了解。推理能力大进化，但还是难敌弱智吧该说不说，o1 虽然在推理能力上取得了很大进步，但面对充满心机的弱智吧问题，还是掉进了人类挖的陷阱。当然了，对于正经问题，o1 的表现还是很强的，首先看看逻辑推理能力。思考这道题时，preview 和 mini 分别用时 21 秒和 14 秒，不过从文本上看 mini 思考得反而更多。其中还出现了一些西里尔字母乱入，不过对整体影响不大。最终，二者也都给出了正确的答案——丙。值得注意的是，mini（右）的解答当中还出现了修正的过程。接下来看下 o1 在大学数理化题目上的表现。首先是这道考研数学真题，涉及的知识点是曲面积分、高斯定理等内容：还是分别看下 preview 和 mini 的思考，可以看到 mini 的思考过程大概是 preview 的简略版，当然速度也快了不少。不过 preview 给的思考过程当中再次出现乱入，这次是泰语。实际解答过程也是 preview 比 mini 更加详细，不过不知道为什么 preview 用了英文回答。最后的计算结果化简方式也有所不同，但数值上是相等的，而且也做对了。对比 4o 这边，先偷懒后作弊（调用了代码解释器），结果最后答案还是错的。第二道数学题关于概率。这道题 preview 依然是用英语进行了作答，步骤比 mini 更加详细，当然都是对的。而 4o 的答案前面的过程倒是基本都对，但是最后一步的求解出现了问题，只给出了 1 这一个解，并且不是本题答案。物理方面，这里选择了一道大学物理中的光学题：preview（左）和 mini 都给出了正确解答，内容也基本一致。化学的题目是一道物化题，主要涉及电化学等内容。这里把 AgCl/Ag 的标准电极电势作为已知条件一同输入给模型。Preview（左）和 mini 大致的解题思路还是差不多，在计算步骤上有指对运算先后的差别，当然最后的结果还是对的。最后一项测试就不再做考试题了，而是看看模型编写代码的能力如何。这里选择的题目难度非常高，真人的通过率只有 14%。以下是 preview（左）和 mini 的解题思路：从代码上看，两者核心逻辑相似，但在具体操作上略有区别。两套代码均通过了测试，内存消耗也比较接近，而 mini 给出的代码运行时间更短（38 毫秒）。o1 的编程能力除了用来解题，也可以快速构建出实用的应用程序。知名 AI 配音工具 ElevenLabs 设计部门负责人 Ammaar Reshi，就利用 o1 搭配 Cursor Composer，用了不到 10 分钟的时间制作了一款 iOS 天气应用。小数比较还是不会？测试发现，对于大模型难以答对的名场面——小数比大小，preview（左）和 mini 都答不对。甚至 preview 在思考过程中明明已经提到过 9.8 比 9.11 大。但同时 preview 在思考过程中表示，9.8 和 9.11 有可能指的是日期，所以做不对也许另一原因。针对这个问题，大神谢赛宁也晒出了他的测试结果，发现 o1 在思考过程中将 9.8 当成了重力常数，而 9.11 是一个 " 意义不明的数字 "。所以 o1 可能不是不会，而是把这个问题想复杂了。为了进一步探究，我们把问题改得具体些，强调一下 9.8 和 9.11 都是数字，这下没有了歧义之后就能一次做对了。可以看出，提示词的影响还是不小的。由于 o1 在内部采用了一些类思维链过程，因此 prompt 的设计和普通版本也有所区别，OpenAI 官方发布了一则提示：提示词应简单且直接避免在提示词中使用思维链使用分隔符让 promot 更清晰控制 RAG 内容的长度回到我们的测试，面对其他几个大模型败北名场面，o1 也有不小的进步。比如在数字母的任务上就有所进化，即使是一串乱打的字母也能数对。还有面对经典的" 反转诅咒 "（即知道 A 是 B 却不知道 B 是 A）问题，也终于一次性答对了 Mary Lee Pfeiffer（汤姆 · 克鲁斯的母亲）的儿子是谁。One More Thing关于这次发布的 o1，除了各个方面的成绩之外，还有一些其他的发现。比如前特斯拉自动驾驶负责人、两度进入 OpenAI 又两度离职的大神 Andrej Karpathy 发现，o1-mini 在被要求证明黎曼猜想的时候出现了拒绝回答的情况，表示大模型 " 犯懒 " 依然是一个大问题。还有网友说觉得 mini 的表现比 preview 好，想问下有没有人知道原因或者有啥看法。这条消息也把奥特曼吸引了过来，回复了一句 "Yes I have one"。根据 OpenAI 内部员工 Kevin Lu 发布的一则推文来看，mini 的性价比确实比 preview 更高。根据这张图显示，preview 版本论性能比不上尚未公布的满血 o1，论经济性又比不上 mini。顺便提一句，preview 版本存在消息数量限制，并且数量是按周进行重置的，几轮测试下来已经快要用尽了。参考链接： [ 1 ] https://x.com/rowancheung/status/1834300353619075494 [ 2 ] https://x.com/karpathy/status/1834374965942255835 [ 3 ] https://x.com/sama/status/1834381401380294685 [ 4 ] https://x.com/_kevinlu/status/1834278160038592633