娱乐前沿-"内衣柜1～3樱花"-Kimi的数学模型来了，这次甚至能挑战高考。

Kimi的数学模型来了，这次甚至能挑战高考。_ZA内衣柜1～3樱花KER新闻

8月24日金融一线消息，据国家金融监督管理总局网站发布的行政处罚信息公开表显示，浙江浙银金融租赁股份有限公司因未真实反映资产质量以及租赁物不符合监管规定，被国家金融监督管理总局浙江监管局罚款人民币70万元；

消停了一阵子之后，国内又有大模型公司打榜 OpenAI 了。这不， Kimi 最近推了个数学模型 k0-math ，号称数学能力可以媲美 OpenAI 的 o1-mini 和 o1-preview ，中高考、考研还有入门竞赛题都能跟 o1 过过招。该说不说， AI 模型开始 " 炒作 " 起数学能力，这事儿还挺稀奇，毕竟 AI 的数学能力拉胯也不是一天两天了，连 strawberry 里有几个 r 都一直数不清。。。就连 OpenAI 的 o1 发布时，也没有直说自己的数学多么多么厉害，只是点了一下推理能力罢了。所以原本以长文本出圈儿的 Kimi ，这回突然卷起了数学，世超确实很好奇，好奇这个 k0-math 到底啥水平啊？而世超在哥们儿的帮助下，也提前体验了一阵子，今天就借着 Kimi 数学版（基于 k0-math 模型）全量开放了，带着大家瞧瞧这个数学模型有多少斤两。目前， Kimi 数学版只能在网页版上用，入口倒是跟之前的普通版和探索版没啥区别，但有一点，Kimi 数学版只支持一轮对话。像世超一上来，就直戳 Kimi 痛处翻了波旧账，问它 "13.11% 和 13.8% ，哪个更大？ " 。（之前 Kimi 在这上面翻过车，说 13.11 的整数部分和小数部分都大于 13.8 。。）这次倒是学机灵了，而且很简单的比数值大小， Kimi 数学版都用上了 " 为了进一步确认 "" 为了确保万无一失 "" 经过多种方法的验证 " 这些话术， kuku 输出了二三十行。只不过当世超想再次追问的时候，出来的就不是 k0-math 模型了。当然，这只是个小插曲，既然官方都已经把 k0-math 的实力挑明，那咱也不客气了。直接上今年高考新课标 1 卷的数学题：已知 cos ( a+ β ) =m ， tanatan β =2 ，则 cos ( a- β ) = ？虽说解题过程有些波折，但总算是没把最后 -3m 的答案弄错。这个问题我同时也问了智谱清言和 ChatGPT ，答案倒是没出入，但区别于一个步骤一个步骤列出来， Kimi 数学版给我一种，它真的在模仿人类思考的过程。模型在推导的过程中，怀疑过自己的思路可能是错误的，并且对此进行了验证。但下面这道概率题， Kimi 数学版就没那么好运了。标准答案是 1/2 ，只有 ChatGPT 答对了。世超看了眼 Kimi 数学版的推导过程， 24 种可能发生的情况它都列举出来了，而且每一种情况谁输谁赢也盘得清清楚楚，甚至最后还检查了一遍。但最大的问题出在，它把甲的总得分≥ 2 的次数，漏数了一个。。。实属可惜。咱再找一道 AMC 数学竞赛的题目，给 Kimi 数学版试试。一个集合由 6 个（不是不同的）正整数组成：1 、 7 、 5 、 2 、 5 和 X 。6 个数字的平均值（算术平均值）等于集合中的一个值。X 的所有可能值之和是多少？这次世超还把豆包也加进来了，同一道题，四个模型只有智谱清言的算错了。（正确答案是 36）还有个小插曲，本来世超想再给 Kimi 试一道竞赛题，结果它直接反过来质疑我。。试了好几次都是这么个回答，不知道是系统的 bug ，还是它压根就不会儿这题，干脆装死。有一说一，好几道数学题试下来， Kimi 数学版确实给了我不少惊喜，特别是解题过程中展现出来的思考、推理的能力，又刷新了一波咱对 AI 模型数学能力的认知。只可惜几何题一如既往的菜，只是一道初中级别的几何选择题，给 Kimi 数学版的 CPU 都快干烧了，结果还是错的答案。至于为啥 Kimi 的 k0-math 模型能有这么大的突破，前段时间世超参加了一场月之暗面的媒体会，月之暗面的创始人杨植麟就告诉世超， k0-math 的成功很大概率要归功于一个叫做 COT （ Chain of Thought ）思维链的技术。太专业的术语咱也不在这拽了，大伙儿可以把这个 COT 理解为， AI 模型模仿人类的大脑进行逻辑推理，把复杂的任务拆解之后，再一步步地解决。把这个技术运用到模型里，模型就能够通过 " 思考 " 来完成任务并提高正确率。而为啥先把这东西用在了一个数学模型上，杨植麟直接引用了伽利略的名言 " 宇宙是由数学这门语言书写而成的 " 。总之，就是希望先从数学问题入手，再将数学的思维泛化，从而去理解整个世界。当然，并不是说模型一旦用上了思维链就能得到正确的答案，但这个方式，目前确实可以提高模型对复杂任务的推理能力。再举个例子，咱让 Kimi 数学版统计 " chaping debug the world " 里，有几个字母 "e" 。先分别把 " chaping "" debug "" the "" world " 单独拎出来，再挨个字母一个个查，方法虽然笨，但至少不会出错。就这么说吧，这道简单的数数题，世超试了一下，只有 Claude 和 Kimi 数学版数对了。包括在 " 我有一块 1 米长的面包，每天吃一半，需要几天才能把这块面包吃完 ? " 的问题中，在大部分 AI 给出永远吃不完的答案时， Kimi 数学版觉得 " 是有物理极限的 " ，认为分到了一纳米就不能分了。。。这种对任务拆解的能力，夸张到什么程度，即使你问它 1+1 等于多少， Kimi 数学版都能给你唠半天，截图根本截不完。另外，在思维链的作用下，对纠正 AI 模型犯蠢、不会抓重点的老毛病也有一定效果。像前段时间苹果就发了篇论文，大概意思是说模型压根就不会推理，随便加几个无关痛痒的干扰条件，模型的准确率就会下降。但世超这次分别拿 Kimi 数学版和豆包试了试，题目是：超市里，每袋大米售价 50 元，每瓶酱油售价 10 元。如果鲜虾包购买了 4 袋大米和 4 瓶酱油，并且送给邻居 1 袋大米和 2 瓶酱油，那么鲜虾包购买大米比酱油多花了多少钱？这道题，还特地加了 " 送给邻居 1 袋大米和 2 瓶酱油 " 的陷阱。豆包多少就有点不懂人情世故了，还把自个儿留存的大米和酱油单独拎出来算。反观 Kimi 数学版，深知送出去的礼物泼出去的水。反正测试下来， k0-math 的解题准确率不能说百分百，但调用了思维链之后的逻辑推理过程，很大程度上提高了 Kimi 这个做题家的数学水平。而且世超也发现，除了 k0-math 外，国内的幻方 DeepSeek 前两天也搞了个推理模型 DeepSeek-R1-Lite ，同样也是纸上水平媲美 o1 。又是 o1 系列，又是 k0-math 、 DeepSeek-R1-Lite ，可能有差友也好奇，之前不是还在长文本吗，这怎么突然就卷起了推理能力了？其实，传统的拼算力、拼数据在大模型领域，已经遇到了一定的瓶颈，而靠着强化学习，提高大模型的推理能力，已经成了大伙们卷的新方向。这强化学习说白了，就是在训练时让 AI 自己试错，最后摸索出正确答案。像 Claude Sonnet 3.5 就是基于强化学习，实现了代码能力的提升。包括 Kimi 创始人杨植麟在前阵子的媒体分享会上，也无数次 cue 到了强化学习，还说他们接下来会越来越关注基于强化学习的方法去继续迭代。最后，借用杨植麟的 " 登月论 " ，如果说，先前的长文本是通往 AGI 的第一步，那么现在让 AI 学会思考，则是正式开启了第二阶段。撰文：西西

koa12jJid0DL9adK+CJ1DK2K393LKASDad

编辑:张成基

TOP1热点：2025年全国两会即将召开：委员拟建议制定统一的反网暴法

会议认为，当前我国经济正处于疫情后稳定恢复和实现高质量发展的关键时期，居民财富管理、资产配置和养老投资需求不断增加，中长期资金参与资本市场改革发展面临着难得机遇。各类专业机构投资者是联结资本市场与居民财富管理、实体企业发展的关键纽带，要进一步体现行业发展的政治性人民性，强化宏观思维、系统思维、辩证思维，深刻认识我国经济总体向好、长期向好的趋势没有变，切实把握好宏观经济与微观主体、资本市场改革与资管行业发展、机构经营当前利益和长远发展等各方面关系，在实现自身发展壮大、获得更多长期投资回报的同时，与建设中国特色现代资本市场相向而行，更好服务中国式现代化建设的大局。。