环保动向-"SUNTEK中老年妈妈鞋软底舒适"-苹果研究员质疑大模型！我们测试了6SUNTEK中老年妈妈鞋软底舒适款，发现了4大真相

苹果研究员质疑大模型！我们测试了6SUNTEK中老年妈妈鞋软底舒适款，发现了4大真相_ZAKER新闻

　　不过，美国并不会容忍菲南部分裂，如果菲律宾太乱，美国的计划也无法实施。杜特尔特这样一闹，事实上给马科斯增添了压力，即便棉兰老岛不可能从菲律宾独立出去，但如果杜特尔特真要闹事，也会给马科斯政府增添很多麻烦和障碍。

来源：雷科技 AI 硬件组 | 编辑：失魂引 | 排版：JAY汽车业务失利后，苹果决定加码生成式 AI，并将部分汽车部门的员工调到了 AI 部门。然而对待 AI，苹果似乎不如百度、讯飞、OpenAI、xAI 等国内外企业那么自信。日前，苹果研究员发布了一篇名为《理解大语言模型中数学推理局限性》的论文，质疑大语言模型的数学推理能力，甚至认为大语言模型不具备真正的推理能力。苹果研究员在论文中举了一个简单的例子，向大模型提出问题 " 奥利弗周五摘了 44 个奇异果，周六摘了 58 个奇异果。周日，他摘的奇异果是周五的两倍。奥利弗一共摘了多少个奇异果？" 此时大语言模型都能正确计算出答案。（图源：豆包 AI 生成）但当研究人员为问题增添了一句修饰语 " 周日，他摘的奇异果是周五的两倍，其中 5 个比平均小 " 时，部分大模型就给出了错误的答案，倾向于减掉这五个比较小的奇异果。在大语言模型的使用过程中，小雷也遇到过大模型 " 抽风 " 的情况，某个大语言模型甚至连最基础的乘法都能算错。不过大语言模型一直在向前发展，许多曾经常犯的错误，都已被新技术解决。苹果研究员吐槽大语言模型数学推理能力不行，究竟是情况属实，还是为自家 AI 技术落后找借口？实测过后，我们有了结论。哪些大语言模型能回答苹果的问题？本次大语言模型对比评测，小雷选择了全球名气较高的六款产品，包括：1、GPT-4o；2、讯飞星火大模型；3、豆包；4、Kimi；5、文心 3.5 五款大模型；6、GPT-4o mini。由于文心大模型 4.0 收费，其他大语言模型则免费（GPT-4o 每日有免费提问次数），因此为了公平起见，小雷选择了免费的文心大模型 3.5。闲话不多说，我们直接进入测试阶段。一、奇异果问题：文心完败第一轮测试的问题，我们选择了苹果研究员提到的奇异果问题（正确答案：190 个）。站在人类的视角，奇异果的大小并不影响计算数量，但在大语言模型的视角中，情况却发生了变化。本轮测试中，五款大语言模型有四款通过了考验，其中豆包和 Kimi 特地提醒，奇异果的大小并不影响计算总数。GPT-4o 虽然也正确计算出了总数，但可能是因为 " 平均 " 两个字的翻译问题，还求出了三天平均每天摘取奇异果的数量。唯一没有得出正确答案的大模型是文心大模型 3.5，将五个体型小的奇异果排除，得到了摘取 185 个奇异果的错误答案。（图源：GPT 截图）（图源：讯飞星火截图）（图源：豆包截图）（图源：Kimi 截图）（图源：文心一言截图）苹果研究员的论文，提到了 GPT-4o mini 计算该问题时出错，切换至该模型后，小雷又计算了一遍这道题，果不其然，GPT-4o mini 也给出了错误答案。（图源：GPT-4o mini 截图）难道大语言模型计算数学题的准确性，与其参数量呈正相关？GPT-4o mini 属于小模型，更追求低成本和快速响应，参数量远不能与 GPT-4o 相比，在推理数学问题时，参数量的差距导致 GPT-4o 与 GPT-4o mini 计算结果不同。文心大模型同样如此，尽管没有官方数据，但 4.0 版本的推理成本相较于 3.5 版本预计提高了 8-10 倍，3.5 版的参数量之小可想而知。二、公交车问题：文心完胜本轮测试的题目是一道行测数学题，具体内容为：由于国庆节的到来，某旅游城市的游客数量大幅上涨，公交公司决定简化公交车的线路，缩短单程时间。现有 1、2、3 路公交车，于上午 7 点同时从车站发车，三辆公交车再次回到车站所用时间分别为 30 分钟、45 分钟、60 分钟。这三辆公交车中间不休息，请问第二次它们同时到达车站将是几点？（正确答案：13 点）这轮测试所得出的结果，让小雷惊掉了下巴。在测试中，小雷连续测试四款大模型，结果全部计算错误，当时唯一没有出错的大语言模型就是文心 3.5。鉴于文心 3.5 在第一轮的表现，小雷没有对文心 3.5 抱有任何期待，但我不看好它的时候，文心 3.5 偏偏就争气了，并成为唯一解出正确答案的大语言模型。后续小模型 GPT-4o mini 在测试中，也没能给出正确答案。（图源：GPT 截图）（图源：讯飞星火截图）（图源：豆包截图）（图源：Kimi 截图）（图源：文心一言截图）（图源：GPT-4o mini 截图）思来想去，小雷认为唯一的解释就是，百度作为国内首屈一指的搜索引擎，对于中国人的语言与思维习惯更加了解，因而才能准确理解 " 到达 " 这个词的含义。其他大模型都将始发停靠在汽车站当做第一次到达车站，未能正确理解 " 到达 " 的含义。相较于数学，本题对于中文理解能力的考验可能更高，但这几款大语言模型的表现也从侧面说明，AI 大模型对于人类逻辑的理解能力有待提升。考虑到文心 3.5 的获胜证明实力的同时，也有取巧的可能，因此小通还准备了地狱级难度的第三轮测试。三、运动员问题：免费版团灭，付费版正确第三道题同样是一道行测数学题，但与以上问题不同的是，这道题没有任何干扰信息，纯粹考验大语言模型的计算能力。题目为：某班有 39 名同学参加短跑、跳远、投掷三项体育比赛，人数分别为 23 人、18 人、21 人，其中三项比赛全部参加的有 5 人，仅参加跳远的有 3 人，仅参加投掷的有 9 人，请问仅参加短跑的有多少人？（正确答案：9 人）遗憾的是，五款大模型与一款小模型在本轮测试中全部失败，而且大语言模型给出的答案各不相同，解题思路也存在许多问题。（图源：GPT 截图）（图源：讯飞星火截图）（图源：豆包截图）（图源：Kimi 截图）（图源：文心一言截图）（图源：GPT-4o mini 截图）最后，小雷只好使用付费版的 OpenAI o1-preview 大模型进行计算，结果不负众望，给出了正确答案。（图源：GPT-4o o1-preview 截图）同样是 OpenAI 旗下的大模型，免费版 GPT-4o 和付费版 o1-preview 得出了不同答案，原因可能在于免费用户所能调用的资源更少，导致大模型计算能力不如付费版。参数决定性能，付费升级体验以上参与三轮测试的五款大模型和一款小模型中，表现最差的无疑是小模型 GPT-4o mini，三轮测试中均给出了错误答案。我们可以得出以下结论：1、小模型只配做大模型的平替？GPT-4o mini 的表现证明，当需要处理难度较高的推理问题时，小模型参数量少、资源少更容易出错。尽管百度、OpenAI、谷歌、微软等企业都致力于研究小模型，但它们可能只是日常使用时回答基础问题 " 勉强能用 " 的平替版，毕竟成本可以大幅降低，这就跟企业雇佣一个小学生和一个博士生一样，智力是一分钱一分货。据研究机构 Epoch AI 计算，训练尖端大模型所需的算力，每隔 6-10 个月就会翻一倍。庞大的算力需求，给 AI 公司带来了极高的经济压力，哪怕是谷歌、微软这种行业巨头，也会倍感吃力。正因如此，小模型现阶段虽表现逊色于大模型，但 AI 公司不会放弃开发小模型，而是会通过长时间的调校与打磨，不断提升小模型的能力。（图源：豆包 AI 生成）2、要得到相对更智能的 AI 服务？给钱吧。几款大模型的免费版表现相差不大，能够解决一些存在干扰条件的数学问题，但遇到了文字可能存在歧义，或过于复杂的数学问题，表现则相对较差。好在，面对雷科技设定的地狱级难题，付费版的 o1-preview 大模型最终给出了正确答案，为大语言模型挽回了颜面，唯有付费用户才能体验到最好的大模型。3、本土大模型有本土优势，百度们稳了。结合文心 3.5 能够在第二项测试中力压群雄可知，大语言模型依赖大量数据运算，但每个国家或地区的数据量和获取难易程度不同，因语言和生活习惯的差异，综合表现更出色的大模型，未必能在特定场景中获胜，大语言模型也需要本地化适配。4、大模型距离人类智能还很远，不要轻信 " 忽悠 "。在资本驱动下，很多媒体、自媒体、创业公司甚至企业家大佬都在鼓吹 "AI 威胁论 "，甚至豪言 AI 水平已超越人类，他们往往会用一些个案来证明 AI 大模型已具备博士生甚至超越博士生水平。然而，当我们找一些常见的数学题，抑或是一些常见的工作任务来 " 考考 " 大模型时，大模型也很容易被难住。大模型以及 AI 当然会有许多安全威胁，比如自动驾驶汽车失控给城市交通乃至人类生命安全带来的威胁。但要说 AI 智力可以逼近人类甚至取代人类，那就纯属忽悠了。大模型可能确实被高估了，但苹果掉队是事实综合来看，苹果研究员的观点对错参半，当前 AI 的逻辑推理能力不足，面对复杂的数学问题时，显得有些力不从心，但 AI 并非完全没有逻辑推理能力。哪怕是相对而言版本较为落后的文心 3.5，在第二轮测试中也展现出了对文字和数学的解读与推理能力。第一代 GPT 发布于 2018 年，仅有 1.17 亿参数，到了 2020 年，GPT-3 已拥有 1750 亿参数，到如今 GPT 的历史不过短短 6 年，每一代的体验提升肉眼可见。当前大语言模型最大的问题依然在于参数量太少、算力太低，资源相对丰富的 o1-preview，面对其他大模型束手无策的数学难题时，依然给出了正确答案。随着大模型不断优化、参数量增加、算力提升，大语言模型的推理能力自然会水涨船高。进军新能源汽车时，苹果血亏百亿美元最终放弃，如今进入生成式 AI 领域，苹果研究员又站出来贬低大语言模型，不禁令人怀疑苹果的生成式 AI 项目进展不顺利。对于苹果而言，与其贬低其他 AI 大模型，不如增加 AI 研发投入，加速布局生成式 AI，毕竟 AI 的烧钱能力更甚于新能源汽车。若失去了研发和布局生成式 AI 最好的机会，等到 OpenAI、谷歌、微软、xAI 等企业的 AI 大模型瓜分了海外市场，百度、讯飞、阿里巴巴、抖音等企业的 AI 大模型占领了国内市场，苹果生成式 AI 业务有可能沦为与新能源汽车业务相同的结局。End

koa12jJid0DL9adK+CJ1DK2K393LKASDad

编辑:张志远

TOP1热点：《原神》梦见月瑞希角色PV——「心中梦中盘中餐」

　　舰载机一般是逆风起飞，这时候甲板风速要保持6到7级左右，唐晓菁他们就要每天要顶着大风，在甲板上来回奔跑就位，做系系留索的训练。他们每天训练保障时长一般在10个小时以上，有时候还得扛着40斤的系留索去固定飞机。唐晓菁说她以前觉得女生瘦点好看，现在上了甲板，就想着自己能够再胖一点，这样才能在甲板上稳得住。。

数据显示，去年，全国共审计2.1万多名领导干部，各项审计发现并移送重大问题线索7200多起，涉及2200多亿元、1.1万多人。

TOP2热点：请盯紧这个MC生物，不然请小心你的身后！

　　据介绍，从机关到基层，在古桥镇这个全新的工作环境，郑若琰迅速转变角色。她每天走村入户，对33个行政村基本情况进行实地调研，了解乡镇工作的实际状况和每个村群众迫切需要解决的问题。

　　2020年9月，中共中央总书记、国家主席、中央军委主席习近平在第三次中央新疆工作座谈会上指出，要大力推动南疆经济社会发展和民生改善。

TOP3热点：时隔两年，完整讲述【艾尔登法环】史诗级故事#1母爱泛滥

　　数据发现，也有一些区域的人流是从大城市向周边扩散，杭州的旅客想去湖州、嘉兴，海口的人流将流向陵水、万宁，而郑州的人选择去古都洛阳、开封等，他们更愿意体验多元、有特色的景点景区。南浔古镇、日月湾、洛阳长街、清明上河园等，都是这个春节人们喜爱的热门景区。

　　相比以往，本届亚洲杯格局出现较大变化——塔吉克斯坦、印尼、叙利亚和巴勒斯坦均是首次跻身淘汰赛，其中塔吉克斯坦一路闯进8强，而此前亚洲杯最好成绩为8强的约旦则打进决赛。

TOP4热点：穿越斗罗大陆，你为了打败唐三，竟然.......？人偶总动员第一季百度百科

　　黑龙江省文旅厅数据显示，2024年元旦期间，黑龙江省累计接待游客661.9万人次，同比增长173.7%，高出全国增幅18.4个百分点；旅游收入69.2亿元，同比增长364.7%，高出全国增幅164个百分点。

　　赞比亚总统希奇莱马表示，祝愿中国国家昌盛、人民幸福。赞方愿同中方密切合作，共庆赞中建交60周年，巩固赞中全天候友谊，推动赞中全面战略合作伙伴关系取得更大发展。

TOP5热点：抽象缝合怪 2.0纲手轮x图静音

　　我们令选择的四张扑克牌分别为1234，将他们分别撕开后，产生了标号分别为1234的两套（半张）扑克牌，叠在一起后形成了从上至下标号分别为12341234的扑克牌堆。

　　据悉，受烟花爆竹燃放影响，2月9日（除夕）19时起，杭州市区空气质量由良升至轻度污染，此后细颗粒物（PM2.5）浓度快速攀升，至9日22时，空气质量指数（AQI）已达371，为严重污染（AQI大于300）。

TOP6热点：终于有能力给我妈那个又卡又烂的手机给扔了SUNTEK中老年妈妈鞋软底舒适

要推动全面覆盖开展审计，进一步拓宽审计监督广度，确保对所有管理使用公共资金、国有资产、国有资源的地方、部门和单位的审计监督实现全覆盖，做到应审尽审。

　　哪儿的旅客最爱大熊猫？数据显示，除了本地旅客外，从北京、上海、广东、重庆和陕西出发的旅客，最爱跨省看大熊猫，住熊猫主题民宿。

TOP7热点：【庄小周100小时挑战】本人正式入驻B站啦！意大利泰山1995出版

假期后半段，将有一股较强冷空气影响我国。中央气象台预计，13日夜间至15日，长江中下游及其以北地区将自北向南先后出现4级到6级偏北风，阵风7级到9级；气温普遍下降4℃~8℃，部分地区降温10℃~12℃，东北地区局地降温14℃以上。气温波动较大，建议公众关注临近预报并及时调整着装，谨防感冒。

　　中央财经大学证券期货研究所研究员杨海平对中新经纬表示，春节期间，商业银行针对孩子推出银行卡及相关的存款产品，一方面是希望为孩子的压岁钱提供针对性服务，抢抓、培育儿童和青少年客群；另一方面是为了小手牵大手，带动其家庭成员成为银行的有效客户。

TOP8热点：“生死之交”Adobe Substance 3D Stager

　　马兴瑞要求，要创造性推动自治区关于促进南疆高质量发展政策措施落地落实，大力破解制约南疆高质量发展的突出矛盾和问题，一步一个脚印推动南疆实现更有利于长治久安的根本性变化。

　　中新经纬在采访中了解到，儿童专属银行卡通常只有存取款、转账、消费等借记卡的基本功能，但并不支持购买理财产品，仅个别银行支持购买风险等级为R1级的理财产品。另外，还有家长表示，为孩子办理银行卡后，由于半年内没有交易，被银行关停“非柜面”交易。

TOP9热点：蛋仔派对：穿4万蛋币玩蛋仔啥体验？体验五阶神翼大佬蛋仔的一天感动之星官方网站入口

　　2024年春节档期间，为丰富市民新春文化娱乐活动，繁荣首都电影市场，北京市发放2000万元观影补贴，并举办“看电影过大年——北京新春观影惠民活动”。此次活动预计覆盖全市250余家营业影院，惠及近220万人次。

　　侯友宜阵营则几乎将重兵放在传统电视媒体、脸书和YouTube，辅以Instagram，不过前述平台几乎都已老化，且受限于演算法，传播分享不易。内容上，侯友宜阵营主攻民进党贪腐弊案的内容多，青年相关的内容较少。用Rap讽刺赖清德万里老家“赖皮寮”虽是新颖，主调仍在打绿特权腐败，呼唤不来青年支持，这是可惜的地方，侯许多对青年好的政见未获良好散播。

TOP10热点：来者不善身份不详国际抖抈2022

　　突出展示中华优秀传统文化的龙年春晚节目吸引了岛内观众的目光，深受喜爱。中国传统纹样创演秀《年锦》让岛内汉服爱好者为之沸腾，他们说，“汉、唐、宋、明的传统服饰，优美典雅、别具韵味的中国传统纹样，华美震撼！”“汉服重度爱好者终于等到这一天，感谢总台春晚提供的广阔舞台”。将唐诗、说唱、秦腔相结合的《山河诗长安》，兼具年俗和创新的《别开生面》，舞剧《咏春》也在岛内圈粉无数，有岛内观众留言表示，“点赞中国气质！”

　　吉尔吉斯斯坦总统扎帕罗夫表示，过去一年，中国成功践行习近平主席为中国人民谋福祉要求，相信随着习近平主席提出的全球发展倡议、全球安全倡议和全球文明倡议进一步推进，中国将在国际舞台上取得更加瞩目的成就。

发布于：黄石黄石港区

SUNTEK中老年妈妈鞋软底舒适苹果研究员质疑大模型！我们测试了6SUNTEK中老年妈妈鞋软底舒适款，发现了4大真相_ZAKER新闻

SUNTEK中老年妈妈鞋软底舒适苹果研究员质疑大模型！我们测试了6SUNTEK中老年妈妈鞋软底舒适款，发现了4大真相_ZAKER新闻