FAXX和MAXX的实际应用_国际视点_实测OpenAI最强模型o1:会做大学数理化,但弱智吧依然难解_FAXX和MAXX的实际应用ZAKER新闻

FAXX和MAXX的实际应用实测OpenAI最强模型o1:会做大学数理化,但弱智吧依然难解_FAXX和MAXX的实际应用ZAKER新闻

FAXX和MAXX的实际应用实测OpenAI最强模型o1:会做大学数理化,但弱智吧依然难解_FAXX和MAXX的实际应用ZAKER新闻

实测OpenAI最强模型o1:会做大学数理化,但弱智吧依然难解_FAXX和MAXX的实际应用ZAKER新闻

策划丨王映涵

OpenAI 传说中的 " 草莓 " 终于正式上线!不仅可以胜任更复杂的推理任务,在数学、代码和其他科学领域也能解决更难的问题。OpenAI 这次 " 无预警发布 " 震撼了科技圈,o1 更是被 CEO 奥特曼称它为了一种新范式的开始。发布之后,各路大神和网友都纷纷用各种问题测试 OpenAI o1 的表现:还有人进行了花式考验,结果被 o1 强大的推理能力秀到了。Q:你的回复中有几个字?A1:这句话有七个字A2:一共五个字量子位也进行了一番实测,下面就一起来了解。推理能力大进化,但还是难敌弱智吧该说不说,o1 虽然在推理能力上取得了很大进步,但面对充满心机的弱智吧问题,还是掉进了人类挖的陷阱。当然了,对于正经问题,o1 的表现还是很强的,首先看看逻辑推理能力。思考这道题时,preview 和 mini 分别用时 21 秒和 14 秒,不过从文本上看 mini 思考得反而更多。其中还出现了一些西里尔字母乱入,不过对整体影响不大。最终,二者也都给出了正确的答案——丙。值得注意的是,mini(右)的解答当中还出现了修正的过程。接下来看下 o1 在大学数理化题目上的表现。首先是这道考研数学真题,涉及的知识点是曲面积分、高斯定理等内容:还是分别看下 preview 和 mini 的思考,可以看到 mini 的思考过程大概是 preview 的简略版,当然速度也快了不少。不过 preview 给的思考过程当中再次出现乱入,这次是泰语。实际解答过程也是 preview 比 mini 更加详细,不过不知道为什么 preview 用了英文回答。最后的计算结果化简方式也有所不同,但数值上是相等的,而且也做对了。对比 4o 这边,先偷懒后作弊(调用了代码解释器),结果最后答案还是错的。第二道数学题关于概率。这道题 preview 依然是用英语进行了作答,步骤比 mini 更加详细,当然都是对的。而 4o 的答案前面的过程倒是基本都对,但是最后一步的求解出现了问题,只给出了 1 这一个解,并且不是本题答案。物理方面,这里选择了一道大学物理中的光学题:preview(左)和 mini 都给出了正确解答,内容也基本一致。化学的题目是一道物化题,主要涉及电化学等内容。这里把 AgCl/Ag 的标准电极电势作为已知条件一同输入给模型。Preview(左)和 mini 大致的解题思路还是差不多,在计算步骤上有指对运算先后的差别,当然最后的结果还是对的。最后一项测试就不再做考试题了,而是看看模型编写代码的能力如何。这里选择的题目难度非常高,真人的通过率只有 14%。以下是 preview(左)和 mini 的解题思路:从代码上看,两者核心逻辑相似,但在具体操作上略有区别。两套代码均通过了测试,内存消耗也比较接近,而 mini 给出的代码运行时间更短(38 毫秒)。o1 的编程能力除了用来解题,也可以快速构建出实用的应用程序。知名 AI 配音工具 ElevenLabs 设计部门负责人 Ammaar Reshi,就利用 o1 搭配 Cursor Composer,用了不到 10 分钟的时间制作了一款 iOS 天气应用。小数比较还是不会?测试发现,对于大模型难以答对的名场面——小数比大小,preview(左)和 mini 都答不对。甚至 preview 在思考过程中明明已经提到过 9.8 比 9.11 大。但同时 preview 在思考过程中表示,9.8 和 9.11 有可能指的是日期,所以做不对也许另一原因。针对这个问题,大神谢赛宁也晒出了他的测试结果,发现 o1 在思考过程中将 9.8 当成了重力常数,而 9.11 是一个 " 意义不明的数字 "。所以 o1 可能不是不会,而是把这个问题想复杂了。为了进一步探究,我们把问题改得具体些,强调一下 9.8 和 9.11 都是数字,这下没有了歧义之后就能一次做对了。可以看出,提示词的影响还是不小的。由于 o1 在内部采用了一些类思维链过程,因此 prompt 的设计和普通版本也有所区别,OpenAI 官方发布了一则提示:提示词应简单且直接避免在提示词中使用思维链使用分隔符让 promot 更清晰控制 RAG 内容的长度回到我们的测试,面对其他几个大模型败北名场面,o1 也有不小的进步。比如在数字母的任务上就有所进化,即使是一串乱打的字母也能数对。还有面对经典的" 反转诅咒 "(即知道 A 是 B 却不知道 B 是 A)问题,也终于一次性答对了 Mary Lee Pfeiffer(汤姆 · 克鲁斯的母亲)的儿子是谁。One More Thing关于这次发布的 o1,除了各个方面的成绩之外,还有一些其他的发现。比如前特斯拉自动驾驶负责人、两度进入 OpenAI 又两度离职的大神 Andrej Karpathy 发现,o1-mini 在被要求证明黎曼猜想的时候出现了拒绝回答的情况,表示大模型 " 犯懒 " 依然是一个大问题。还有网友说觉得 mini 的表现比 preview 好,想问下有没有人知道原因或者有啥看法。这条消息也把奥特曼吸引了过来,回复了一句 "Yes I have one"。根据 OpenAI 内部员工 Kevin Lu 发布的一则推文来看,mini 的性价比确实比 preview 更高。根据这张图显示,preview 版本论性能比不上尚未公布的满血 o1,论经济性又比不上 mini。顺便提一句,preview 版本存在消息数量限制,并且数量是按周进行重置的,几轮测试下来已经快要用尽了。参考链接: [ 1 ] https://x.com/rowancheung/status/1834300353619075494 [ 2 ] https://x.com/karpathy/status/1834374965942255835 [ 3 ] https://x.com/sama/status/1834381401380294685 [ 4 ] https://x.com/_kevinlu/status/1834278160038592633

koa12jJid0DL9adK+CJ1DK2K393LKASDad

编辑:李开富

TOP1热点:热点问答|三问“北溪”爆炸调查新进展

这套系统的核心在于科大讯飞全自研的音效算法,不仅可以平衡全车的听音感受,还能虚拟音乐厅、演奏会等场景特效。此外,该系统可以根据车主的听歌习惯,将音频调节到最合适的音频。。

如今也是亚运会协办城市

TOP2热点:出国旅游发条朋友圈流量费1.6万元?上海市通信管理局回应

从媒体采访的信息来看,该小区的自拆重建,当前最大阻力已从最初的业主认同度不够,变成了与城市规划等政策不符。众所周知,城市房屋的拆迁、改造,是一个相当复杂的工程,不仅涉及巨大的成本及成本分担问题,更面临着一系列复杂的合规考验。如果没有政府、政策的推动,是一件非常难的事。这也是外界普遍对于该小区自拆自建的成功率不看好的原因所在。

“近些年,店铺的‘粉丝’越来越多。”刘宇顺笑着说,为了让大家吃得热乎舒心,一家人常常要从早晨5点忙活到晚上12点。

TOP3热点:电视“魔力”不再,“看电视难”究竟砸了谁的锅?高压监狱有几部

2021年,远大健科旗下在海外市场主力品牌之一的POOLPURE,在亚马逊电商平台的细分领域市场份额为12%,2022年市场份额升至19%,到了2023年,POOLPURE的市场份额达到了23%……

以文塑旅、以旅彰文。从“客源地”向“目的地”转型迈进,不仅靠好景致,更要靠深挖掘。如今,围绕山、河、海、洋楼、烟火气等“五大IP”,天津全力做好“串珠成链、连线成片”大文章,持续加强顶层设计、强化特色场景打造,推动文旅项目增量增效,打造具有“城市记忆”的文旅项目。

TOP4热点:广东云浮“80后”博士副市长王巍通报被查链接已屏蔽

魏国秋说,不少海外友人专程来到天津,希望与“风筝魏”进行艺术文化交流。

沿海河两岸漫步,看似迥异的种种元素可能会给游客留下独特的“第一印象”——这里既有市井烟火、“俗世奇人”,又有人文情怀、中西交汇;这里既有摩天大厦、时髦商圈,也有稻渔之歌、乡土之思。

TOP5热点:青岛男童遭武术教练殴打致死案续:检方抗诉认为一审量刑畸轻熊猫李师师0322

美国加码限制对华出口凸显其霸道成性。近年来,美国把“制裁”“极限施压”“经济胁迫”作为维护本国霸权的惯常手段。据统计,截至今年初,全球已有近1.2万个组织和个人遭受美国制裁。为维护一己之利,美国早已习惯霸道行事,不惜破坏国际规则秩序,削弱他国发展能力,拖累全球经济增长步伐。

面对数字贸易发展与合作展望,《数字贸易发展与合作报告2023》指出,面对数字经济时代发展新趋势、全球贸易和经济发展下行压力、数字贸易发展的共同诉求和挑战,各国亟需增强合作、携手发展,分享数字贸易机遇与红利,弥合“数字鸿沟”和提升贸易规则包容性,形成国际社会广泛共识,数字贸易发展前景可期。

TOP6热点:人事时间|高学历奥运冠军都有谁樱花带翻译的剧情解析

联想多擎云桌面除应用在教育领域,还在医疗行业上充分展示了硬核实力。针对目前医疗机构运维压力大、设备稳定性不佳等痛点,为北京积水潭医院部署了一套完备的IT终端设备,有效减轻医护人员工作负担,为医疗领域的智能化变革贡献科技力量。未来,联想多擎云桌面还将覆盖至企业、政府及智能制造领域,响应社会需求,为千行百业提供智慧引领。

紧接着,2013年在北京市项目支持下,余家阔带领团队完成了国际上首款男性和女性的股骨假体和胫骨假体均为性别差异性设计、男性10个型号、女性10个型号,为进一步实现个性化膝关节假体的设计铺平了道路。

TOP7热点:回访昆明广告牌坠落致3死7伤现场:涉事建筑排险施工,一楼广告牌均已拆玉女心经3古代玩具

创建自己的品牌,拓宽市场渠道,只是青海都兰县做大枸杞产业的其中一步。如何推动产业高质量发展,还需要有更多的作为。都兰正在规范枸杞种植产业销售市场,延伸农业产业链上下功夫。

监制丨张鸥吴光秋

TOP8热点:“两弹一星功勋奖章”获得者周光召逝世,享年95岁链接已屏蔽

从开始时的活性炭类净水滤芯起步,而今远大健科的“健康快乐”事业已经发展出涵盖折叠滤芯、咖啡机滤芯、冰箱滤芯、熔喷滤芯等9大类滤芯产品及配件;以及厨下RO反渗透净水器、台上净饮一体机、制冰饮水机等完整的系列产品线。

通过一系列的举措,青海都兰打破区域化发展限制,实现枸杞产业价值链、产业链、供应链的有效提升。开发出枸杞蜂蜜、枸杞啤酒等近百种产品,新技术的应用也在推动种植中的绿色发展。

TOP9热点:41名事业单位人员“上岸”4个月后被集体清退?官方回应欧美私人家庭影院的十大排名

据了解,该技术已搭载了的相关车型,并获得世界纪录认证机构(WRCA)颁发的“最快电动车充电技术”认证。值得一提的是,今年6月,江津区与广州巨湾技研有限公司签署了合作协议,“最快充电电池”项目也随之落户重庆。

下队服务积累的实践经验,早早接触的医工交叉,当诸如种种集中在余家阔身上,似乎冥冥之中自有注定,在后来随国家发展出现的机遇和挑战面前,他有了更扎实、更稳妥的应对。

TOP10热点:用隐蔽手段获取同学账号、密码并借机篡改其高考志愿,一女生被刑拘孙悟空睡了白骨精

为运动员下队服务40年,从事医工交叉研究36年,医企协作开展转化产品研发20年。在从医30年和从教30年的过程中,培养硕士生15名、博士研究生36名、博士后5名,多名毕业学生成为国自然优青、中组部青年拔尖、地方优青杰青和科主任。主编副主编教材11本。

新华社阿根廷拉普拉塔9月6日电

发布于:徐闻县