直播-"如饥似渴la.vorace"-Kimi的数学模型来了,这如饥似渴la.vorace次甚至能挑战高考。_ZAKER新闻

如饥似渴la.voraceKimi的数学模型来了,这如饥似渴la.vorace次甚至能挑战高考。_ZAKER新闻

如饥似渴la.voraceKimi的数学模型来了,这如饥似渴la.vorace次甚至能挑战高考。_ZAKER新闻

Kimi的数学模型来了,这如饥似渴la.vorace次甚至能挑战高考。_ZAKER新闻

  中信建投证券认为,假期间美债收益率大幅跳升后回吐,全球股市多下跌,油价调整,商品走弱。国内出行人数创新高,消费继续呈现改善,修复趋势有望逐步确认,中国房地产市场企稳回暖仍需观察,股市信心修复需经历一个过程,同时十月有望看到进一步政策落地。

消停了一阵子之后,国内又有大模型公司打榜 OpenAI 了。这不,  Kimi   最近推了个数学模型   k0-math  ,号称数学能力可以媲美   OpenAI   的   o1-mini   和   o1-preview  ,中高考、考研还有入门竞赛题都能跟 o1 过过招。该说不说,  AI   模型开始   "   炒作   "   起数学能力,这事儿还挺稀奇,毕竟   AI   的数学能力拉胯也不是一天两天了,连 strawberry 里有几个 r 都一直数不清。。。就连 OpenAI 的 o1 发布时,也没有直说自己的数学多么多么厉害,只是点了一下推理能力罢了。所以原本以长文本出圈儿的 Kimi ,这回突然卷起了数学,世超确实很好奇,好奇这个 k0-math 到底啥水平啊?而世超在哥们儿的帮助下,也提前体验了一阵子,今天就借着 Kimi 数学版(  基于 k0-math 模型  )全量开放了,带着大家瞧瞧这个数学模型有多少斤两。目前,  Kimi   数学版只能在网页版上用,入口倒是跟之前的普通版和探索版没啥区别,但有一点,Kimi   数学版只支持一轮对话。像世超一上来,就直戳 Kimi 痛处翻了波旧账,问它   "13.11%   和 13.8%  ,哪个更大?  "  。(之前 Kimi 在这上面翻过车,说 13.11 的整数部分和小数部分都大于 13.8 。。 )这次倒是学机灵了,而且很简单的比数值大小,  Kimi   数学版都用上了  "   为了进一步确认   ""   为了确保万无一失   ""   经过多种方法的验证   "  这些话术, kuku 输出了二三十行。只不过当世超想再次追问的时候,出来的就不是 k0-math 模型了。当然,这只是个小插曲,既然官方都已经把 k0-math 的实力挑明,那咱也不客气了。直接上今年高考新课标 1 卷的数学题:已知 cos ( a+  β )   =m , tanatan β  =2 ,则 cos ( a-  β )   =  ?虽说解题过程有些波折,但总算是没把最后   -3m 的答案弄错。这个问题我同时也问了智谱清言和   ChatGPT  ,答案倒是没出入,但区别于一个步骤一个步骤列出来,  Kimi   数学版给我一种,它真的在模仿人类思考的过程。模型在推导的过程中,怀疑过自己的思路可能是错误的,并且对此进行了验证。但下面这道概率题, Kimi 数学版就没那么好运了。标准答案是 1/2 ,只有 ChatGPT 答对了。世超看了眼 Kimi 数学版的推导过程, 24 种可能发生的情况它都列举出来了,而且每一种情况谁输谁赢也盘得清清楚楚,甚至最后还检查了一遍。但最大的问题出在,它把甲的总得分≥ 2 的次数,漏数了一个。。。实属可惜。咱再找一道 AMC 数学竞赛的题目,给 Kimi 数学版试试。一个集合由 6 个(  不是不同的  )正整数组成:1 、 7 、 5 、 2 、 5 和 X 。6 个数字的平均值(  算术平均值  )等于集合中的一个值。X 的所有可能值之和是多少?这次世超还把豆包也加进来了,同一道题,四个模型只有智谱清言的算错了。(正确答案是 36)还有个小插曲,本来世超想再给 Kimi 试一道竞赛题,结果它直接反过来质疑我。。试了好几次都是这么个回答,不知道是系统的 bug ,还是它压根就不会儿这题,干脆装死。有一说一,好几道数学题试下来, Kimi 数学版确实给了我不少惊喜,特别是解题过程中展现出来的思考、推理的能力,又刷新了一波咱对 AI 模型数学能力的认知。只可惜几何题一如既往的菜,只是一道初中级别的几何选择题,给 Kimi 数学版的 CPU 都快干烧了,结果还是错的答案。至于为啥 Kimi 的 k0-math 模型能有这么大的突破,前段时间世超参加了一场月之暗面的媒体会,月之暗面的创始人杨植麟就告诉世超, k0-math 的成功很大概率要归功于一个叫做 COT ( Chain of Thought )思维链的技术。太专业的术语咱也不在这拽了,大伙儿可以把这个 COT 理解为, AI 模型模仿人类的大脑进行逻辑推理,把复杂的任务拆解之后,再一步步地解决。把这个技术运用到模型里,模型就能够通过   "   思考   "   来完成任务并提高正确率。而为啥先把这东西用在了一个数学模型上,杨植麟直接引用了伽利略的名言  "   宇宙是由数学这门语言书写而成的   "  。总之,就是希望先从数学问题入手,再将数学的思维泛化,从而去理解整个世界。当然,并不是说模型一旦用上了思维链就能得到正确的答案,但这个方式,目前确实可以提高模型对复杂任务的推理能力。再举个例子,咱让 Kimi 数学版统计   " chaping debug the world "   里,有几个字母   "e"  。先分别把   " chaping "" debug "" the "" world "   单独拎出来,再挨个字母一个个查,方法虽然笨,但至少不会出错。就这么说吧,这道简单的数数题,世超试了一下,只有 Claude 和 Kimi 数学版数对了。包括在   "   我有一块 1 米长的面包,每天吃一半,需要几天才能把这块面包吃完 ? "   的问题中,在大部分 AI 给出永远吃不完的答案时, Kimi 数学版觉得   "   是有物理极限的   "  ,认为分到了一纳米就不能分了。。。这种对任务拆解的能力,夸张到什么程度,即使你问它 1+1 等于多少, Kimi 数学版都能给你唠半天,截图根本截不完。另外,在思维链的作用下,对纠正 AI 模型犯蠢、不会抓重点的老毛病也有一定效果。像前段时间苹果就发了篇论文,大概意思是说模型压根就不会推理,随便加几个无关痛痒的干扰条件,模型的准确率就会下降。但世超这次分别拿 Kimi 数学版和豆包试了试,题目是:超市里,每袋大米售价 50   元,每瓶酱油售价 10   元。如果鲜虾包购买了 4 袋大米和 4 瓶酱油,并且送给邻居 1 袋大米和 2 瓶酱油,那么鲜虾包购买大米比酱油多花了多少钱?这道题,还特地加了   "  送给邻居 1 袋大米和 2 瓶酱油  "   的陷阱。豆包多少就有点不懂人情世故了,还把自个儿留存的大米和酱油单独拎出来算。反观 Kimi 数学版,深知送出去的礼物泼出去的水。反正测试下来, k0-math 的解题准确率不能说百分百,但调用了思维链之后的逻辑推理过程,很大程度上提高了 Kimi 这个做题家的数学水平。而且世超也发现,除了 k0-math 外,国内的幻方 DeepSeek 前两天也搞了个推理模型 DeepSeek-R1-Lite ,同样也是纸上水平媲美 o1 。又是 o1 系列,又是 k0-math 、 DeepSeek-R1-Lite ,可能有差友也好奇,之前不是还在长文本吗,这怎么突然就卷起了推理能力了?其实,传统的拼算力、拼数据在大模型领域,已经遇到了一定的瓶颈,而靠着强化学习,提高大模型的推理能力,已经成了大伙们卷的新方向。这强化学习说白了,就是在训练时让 AI 自己试错,最后摸索出正确答案。像 Claude Sonnet 3.5 就是基于强化学习,实现了代码能力的提升。包括 Kimi 创始人杨植麟在前阵子的媒体分享会上,也无数次 cue 到了强化学习,还说他们接下来会越来越关注基于强化学习的方法去继续迭代。最后,借用杨植麟的   "   登月论   "  ,如果说,先前的长文本是通往 AGI 的第一步,那么现在让 AI 学会思考,则是正式开启了第二阶段。撰文:西西

koa12jJid0DL9adK+CJ1DK2K393LKASDad

编辑:刘宝瑞

TOP1热点:重庆单身母亲直播卖烧烤为先心病患儿筹款续:计划明日在北京做手术

  搬入新家的喜悦没有持续多久,房产证成为这场漫长拉锯战的“最后一米”。这一次,张玉延不肯再“出头”。为了避免有人说他“无利不起早”从中捞取了好处,交房后,张玉延刻意比其他业主晚一点装修,至于房产证,他不着急,晚一点就晚一点吧。。

  宁海路街道城市管理部副部长杨爽告诉新京报记者,蒋宝芬不仅与张玉延有分歧,与代建单位也有矛盾。整幢楼的伸缩缝就在蒋宝芬家楼顶。所谓伸缩缝是指为防止建筑物构件由于气候温度变化(热胀、冷缩),使结构产生裂缝或破坏而沿建筑物或者构筑物施工缝方向的适当部位设置的一条构造缝。伸缩缝是将基础以上的建筑构件如墙体、楼板、屋顶(木屋顶除外)等分成两个独立部分,使建筑物或构筑物沿长方向可做水平伸缩。

TOP2热点:习近平:民营经济发展前景广阔大有可为,民营企业和民营企业家大显身手正当其时

  中信建投证券认为,假期间美债收益率大幅跳升后回吐,全球股市多下跌,油价调整,商品走弱。国内出行人数创新高,消费继续呈现改善,修复趋势有望逐步确认,中国房地产市场企稳回暖仍需观察,股市信心修复需经历一个过程,同时十月有望看到进一步政策落地。

  在各种摩擦中,翻建工程还是推进了下去,搬迁、拆除、修建、交房,2022年5月,业主们在媒体的聚光灯中拿到了新家钥匙,喜气洋洋地搬进新家。

TOP3热点:中国前六大动力电池企业拿下全球67%市场份额,缩水的日韩系如何接招?82岁老人找20多岁小伙子

  刘捷,男,汉族,1970年1月出生,江苏丹阳人,1992年8月参加工作,1996年12月加入中国共产党,在职研究生学历,工学博士,高级工程师。

  就在这个“十一”期间,欧盟正式启动了针对中国电动汽车的反补贴调查,还公布了一份保护关键技术的清单,加上《反胁迫工具法案》,这几个动作中所包含的贸易保护主义色彩,不用说损害的将是欧洲企业和民众的实际利益,影响的也将是欧盟一贯以来的自由贸易倡导者形象,不少欧洲有识之士已经对此忧心忡忡。

TOP4热点:减少提取限制、试点直付房租……全国超20城优化公积金政策黄品汇 绿巨人

  [环球时报报道 记者  倪浩]中国正在推进玉米进口的多元化,以改变进口过度集中于美国一家的格局。而随着中国进口的增加,巴西和美国玉米的市场份额之争将会愈演愈烈。

  魏定仁教授积极投身国家社会主义法治建设,为推动我国宪法学学科体系、学术体系和话语体系构建,推动香港基本法、澳门基本法的理论研究与实践工作,推动全国法学高等教育自学考试工作等做出杰出贡献,在法学界享有崇高的声誉。

TOP5热点:澎湃读报丨媒体聚焦民营企业座谈会:在大有可为的新时代大显身手linodeiphone撒尿

  李小菠知道他们共鸣的原因。老徐提的那次街道会议,李小菠也参加了,是今年4月社区组织的一次业主座谈,请来了南京本地的媒体,原本是为了宣传老房业主搬入新家,让业主畅谈幸福生活,结果现场画风突变,“全都是抱怨没拿到房产证的。”

  财信证券认为,在政策底及社融底相继出现下,本轮指数底部震荡已约2个月,当下市场估值已逼近极度悲观位置,随着8月底中报集中披露的压制因素消退,叠加证券交易印花税减半征收、地产需求端刺激等重磅政策落地,目前A股市场大概率已完成“二级探底”。再叠加“W型底部”出现,在国庆节后,随着资金回流A股市场,A股市场存在补涨需求。(中新经纬APP)

TOP6热点:美国国务院修改美台关系事实清单,外交部:敦促美方立即纠正错误HDHDHD❌❌X❌18HD

  起初是一张丢失的规划核准图。房产证通常是由代建单位办理,按照关房公司给出的说法,原本应该在交房前完成测绘,但是被业主提前“抢住”,这留下了隐患。在事后申请测绘时,房产测绘部门需要根据规划核准图对整栋建筑进行测绘核对,关房公司负责人带着资料去申请,却发现遗失了一张盖有规划局审定专用章的一二层平面图。

  9月15日一早,67岁的李小菠和几位邻居来到南京市鼓房大厦“反映情况”,鼓楼房产集团有限公司法务部负责人接待了他们,照例把他们引进了会议室。甫一落座,李小菠就直奔主题,虎踞北路4号5幢的产权证仍然没有下文,距离他们上一次来到这里求助,已经过去了大半个月。

TOP7热点:民营企业座谈会召开,任正非、马云、马化腾、梁文锋、王兴兴等出席旗袍全开襟做双人运动人民网

  真正的转机来源于2019年9月,《南京市城市危险房屋消险治理专项工作方案》出台,鼓楼区政府为虎踞北路4号5幢的危房治理项目成立专班,由鼓楼区住房保障和房产局牵头,区财政、城管、公安、建设等多个部门共同参与。

  起初是一张丢失的规划核准图。房产证通常是由代建单位办理,按照关房公司给出的说法,原本应该在交房前完成测绘,但是被业主提前“抢住”,这留下了隐患。在事后申请测绘时,房产测绘部门需要根据规划核准图对整栋建筑进行测绘核对,关房公司负责人带着资料去申请,却发现遗失了一张盖有规划局审定专用章的一二层平面图。

TOP8热点:“学习由己不由人”!河南这所学校开学第一课是哪吒给上的一觉醒来被两个㖭我下身

  魏定仁教授积极投身国家社会主义法治建设,为推动我国宪法学学科体系、学术体系和话语体系构建,推动香港基本法、澳门基本法的理论研究与实践工作,推动全国法学高等教育自学考试工作等做出杰出贡献,在法学界享有崇高的声誉。

  鼓励中小银行重塑服务地方经济、服务中小企业、服务本地市民的战略定位,走特色化、差异化发展之路。中国经济最大的特征就是多重二元结构,城市与乡村、沿海与内地、北方与南方等,这意味着必须要有差异化的金融体系来承接差异化的金融需求,中小银行的价值和发展空间长期存在。鉴于此,应鼓励中小银行推广线下化、非标准化为主的服务模式,通过线下与客户的高频沟通,增强客户粘性,减少信息不对称的问题。例如,江浙沪地区的台州银行、泰隆银行等,依靠线下高成本有效解决信息不对称问题,保持了较低的不良率,节省了风险成本。还需鼓励中小银行集中资源,围绕一两个产业链,将服务和产品做深做实。例如,安徽亳州的药都农商银行,服务当地中药材市场,满足了农村地区和药材批发市场客户“短小频急”的金融服务需求。再如,新疆的汇和银行,主要业务围绕新疆的棉花产业链,贷款中超过六成投向棉花产业。

TOP9热点:广西壮族自治区政府原副主席秦如培被提起公诉14may18_XXXXXL56endian公司

  小楼诞生于上世纪50年代,建筑面积1890平方米。用205室业主张玉延的话来说,在当时这是一栋 “顶配”楼,自来水入户、红漆木地板、青砖大瓦房,是省化工所给重点职工盖的房子,住着总工程师之类的领导干部和高级人才。

  张玉延自然而然地成为这项计划的推动者。2014年开始,张玉延反复奔波于市、区两级住建规划部门,但是困于没有先例和规定,又涉及测绘、设计等领域,工作人员和他一起研究,始终没有下文。一位体制内人士“指点”张玉延,“既然区里说没有先例,就请区里给市里打报告,上级部门会回复下级部门。”

TOP10热点:老人躺担架上办理过户业务?不动产登记中心:可申请上门服务幼儿交1300部多少钱

  长安街知事(微信ID:Capitalnews)注意到,博雷利此次访华的一个重要背景是,欧盟对中国电动汽车发起反补贴调查引发中方强烈不满。

  这栋小楼承载了一个先行者的角色,它是全国范围内公开报道的首例由产权人自筹资金进行危房翻建的项目,一度被作为惠民工程宣传。政府为此成立了工作专班,提供财政支持并指定代建单位,各个环节都由业主参与,通过协商自治唱主角。

发布于:法库县