金融新闻-"黑料传送门TTTZZZ07DU"-Open AI发布新一代模型01

Open AI发布新一代模型01_黑料传送门TTTZZZ07DUZAKER新闻

　　江苏常熟农商银行海报显示，该行推出压岁钱存款，500元起存，一年期存款利率2.11%。四川雅安农商银行推出了“压岁宝”产品，发售对象为18岁以下未成年人，起存金额1万元（含），6个月、1年、2年和3年期限执行利率分别为2.05%、2.25%、2.80%和3.4%。

文 | 王智远凌晨 1 点，我还在追剧。这时，朋友发来一条消息说：Open AI 发布了新模型，你在电脑上试试看能用吗？哎，大哥，都要睡觉了，这要强制开机，让我起来加班码字啊。带着好奇，打开 PC 端 ChatGPT 一看，果然，多出两个模型，分别是 ChatGPT 01-mini 和 01-preview。这是什么东东？怎么叫这个名字？这个模型有什么特点？怎么还有两个版本呢？价位如何？难道是此前被传的「草莓」做出来了？带着疑惑，熬夜看完官方文档，把内容总结分享给你。为什么叫 01 呢？官方说：For complex reasoning tasks this is a significant advancement and represents a new level of AI capability. Given this, we are resetting the counter back to 1 and naming this series OpenAI o1。我用自带浏览器的翻译功能，翻译出来就是：这个模型在复杂推理任务上是一个重大的进步，代表了人工智能能力的一个新水平；因此，我们决定重新开始编号，把这一系列模型命名为 OpenAI 01。袄，原来因为这个模型非常厉害，能做很多复杂的事情，OpenAI 觉得这是一个新的起点，所以把编号重新设为 1，开始一个新的系列。那么，它为什么会有两个版本呢？官方说：o1 mini 版是个简化的版本。它在速度、体积和成本方面都做了优化。这个版本在处理数学、编程推理任务时表现不错，特别适合需要快速处理问题的场合；因为它体积小，成本也低，所以，如果你想快速得到答案，那么 o1 mini 版可能更适合你。相对 01 preview 版，是完整版本。比较擅长解决复杂的问题，比如，无论是科学问题、数学题还是编程，它都能处理得非常好；当然，如果你遇到的问题要广泛的知识或者深刻的理解，那么这个版本更适合你，因为它的推理能力非常强大。我不信，于是，让国产大模型 Kimi Chat 给我想了一个逻辑数学逻辑题，如下：假设我有一个农场，里面有鸡和兔子。有一天，我数了数农场里动物的头和脚，发现总共有 35 个头和 94 只脚。请问，农场里各有多少只鸡和兔子？preview 版的确很强。除了告诉我有 23 只鸡，和 12 只兔子外，还给出了步骤，整个下来，也就不到 2 秒。当然，这种测试用来对付 Chat 肯定是无压力的，如果你有时间，也可以带入工作中的问题，自己体验下。总的来说，两个版本的主要区别是它们处理任务的能力、速度和成本；o1 mini 版在速度、成本上有优势；preview 版更适合推理。不过，实际体验下来，没觉得有什么差异，也许我本身要它做的事情，比较简单。体验完后，仔细一想，这和 GPT-4o、GPT-4omini 有啥区别呢？非要搞出四个模型吗？加上 GPT-4，我电脑上已经有五个模型了。查了下官方文档，有一篇文章叫《用法学硕士学习推理》（Learning to Reason with LLMs）详细介绍了一切。他们是这么说的：在对 OpenAI 的两个 AI 模型—— o1-preview 和 GPT-4o 的实际使用偏好测试中，人类评估者在不知情的情况下，比较了两个模型对复杂问题的回答。结果显示，在需要大量推理的任务上，比如数据分析、编程和数学问题，大家更喜欢 o1-preview。因为 o1-preview 经过特殊的强化学习训练，所以，在解决这类问题时，推理能力更强，更高效。但是，在自然语言处理任务上，o1-preview 的表现不如 GPT-4o。这是因为它的训练重点在推理和解决问题的策略上，而不是在语言的流畅度或文本生成的多样性上。这说明，虽然 o1-preview 在某些领域很出色，但它并不适合所有类型的任务，尤其是那些专注于自然语言处理的场景。原来如此。我又看了看 o1-preview 和 o1 mini 版适合哪些人。官方说，如果你在处理科学、编码、数学等领域的复杂问题，这些增强的推理能力可能特别有用。比如：医疗研究人员可以用 o1 来标注细胞测序数据；物理学家可以生成量子光学所需的复杂数学公式；各个领域的开发者都可以用 o1 来构建和执行多步的工作流程。所以，如果你做科学、敲代码、编程、数学方面的工作，用它再好不过了。那么，o1-preview 和 o1 mini 到底做了哪些测试呢？首先，为了显示 o1 模型在推理方面比 GPT-4o 有多大改进，他们在不同的人体检查和机器学习基准上测试了它。比如：在 2024 年的 AIME 数学考试中，GPT-4o 平均只解决了 12% 的题目；而 o1 模型单次测试的平均解题率达到了 74%。如果算上 64 次测试的平均得分，能达到 83%；重新从 1000 个样本中排名，平均得分甚至可以达到 93%。这个成绩不仅让它进入了全美前 500 名，还超过了参加美国数学奥林匹克的分数线。他们还用一个叫做 GPQA 钻石的难题来测试 o1。这个测试涉及化学、物理和生物学的专业知识。他们请了一些拥有博士学位的专家来回答这些问题，结果发现，o1 模型的表现超过了人类专家，成为第一个在这个测试中取得这样成绩的模型。这并不意味着 o1 在所有方面都比博士更厉害，而是说明它在解决某些专业问题上更为熟练。当然，在其他一些机器学习的测试中，他们也做了大量测试；它在 MMMU 的视觉感知测试中得了 78.2 分，成为第一个能和人类专家竞争的模型；而且，在 57 个 MMLU 子测试中的 54 个项目上，它的表现都优于 GPT-4o。我好奇地搜索了一下，什么是 MMLU？简单讲，MMLU 像一场大型的综合考试，参加考试的不是人类，而是人工智能模型。总之，这些测试最终结论是：OpenAI 的 o1 模型在全球编程比赛 Codeforces 中排名第 89 位，在美国数学奥林匹克（AIME）的资格赛中，进入了全美前 500 名。在物理、生物学和化学问题的测试中，它的表现甚至超过了博士水平。因此，o1-preview 和 o1 mini 在解决高难度的推理和专业问题上表现更出色；而 GPT-4o 更适合处理日常的任务。所以，这么强的推理能力怎么实现的？关键有四个方面：首先，o1 模型用了一种 " 自我对弈强化学习 "（Self-play RL）的方法；这是一种通过模拟环境和自我对抗来提升模型性能的技术。这种方法中，模型在没有外部指导，通过不断尝试和错误来学习策略和优化决策。想象一下：它就像在和自己下棋，一边玩一边学；过程中，不用别人教，自己试试、出错、再试，慢慢就学会了怎样做决策和解决问题。其次，o1 还模仿了人类的 " 慢思考 "（Slow Thinking）；这种思考要时间、努力和逻辑三者结合，就像我们在考试时仔细思考一个难题一样。通过深思熟虑方式，o1 先分析问题，然后把它拆开，再推理，再解决；这让它在科学、编程或数学上更精准，更出色。当然，这一步离不开思维链。思维链的推理，还用一种独特的方法来监控模型。如果这些思维链是可读的，研发人员就能 " 读懂 " 模型的思考过程。这对于监测模型是否能操纵用户行为非常有帮助，但是，为了让模型能自由地表达思考，他们不在模型中加入任何与政策、用户偏好相关的硬性规定。因此，这个模型整合了安全政策和人类价值观，过在模型的答案中重现思维链中的有用想法，让用户间接了解模型的思考过程。还有一点，思维链加入了鲁棒性（Robustness）测试。所谓鲁棒性指一个系统、模型或者设备在面对各种意外情况、干扰或者变化时，仍然能够正常工作，不容易出问题。比如：一辆汽车，无论在高温、低温、下雨还是颠簸的路面上，都能正常行驶，这说明它的鲁棒性很好；在 AI 领域，鲁棒性指软件、模型在面对不同的数据输入、错误，甚至恶意攻击时，仍然能保持稳定和准确。所以，鲁棒性强调的是在各种复杂、多变的环境下，仍然能保持可靠和稳定的性能。除以上两点，o1 在训练时还用上了数据飞轮（Data Flywheel）；它的正确答案会被用来再训练它自己，帮助它变得更聪明。当然，为支持这些复杂的思考任务，o1 还用上了一些特别优化的算法、架构。这些技术让它更快、更准确地解决问题，提高了它的整体能力。总之，o1 模型训练关注五个维度：一，自我对弈强化学习、二，模仿人类慢思考、三，拆解了思维链的过程；四，在思维链中加入了鲁棒性测试；五，数据飞轮再强化。看完官网文档，说白了，我觉得他们让 AI 更像人了。再强大的东西，不商业化肯定不行。那么，o1 模型的成本和使用限制有哪些呢？o1-preview 的价格是：每处理一百万个输入要花 15 美元，每处理一百万个输出则是 60 美元；这说明，如果你用这个版本，输入和输出的处理费用会比较高。真贵啊。这是什么概念？举个例子：如果你每天和这个模型聊天 100 次，每次输入 1000 个单词，那么一天的费用是 75 美分乘以 100 次，等于 75 美元。按照现在汇率，75 美元大概等于 540 人民币。这样看来，使用这个模型的成本相当于每天花 540 块钱。如果你每天都这么使用，一个月下来的花费就非常可观了，堪比请一个专家了。而 o1-mini 的价格便宜一些。每一百万个输入只需 3 美元，每一百万个输出 12 美元。但这个便宜版在功能上可能会有些限制；如果你是 ChatGPT Plus 或 Team 的用户，就可以优先尝试 o1 模型的功能。对开发者来说，要求就严格多了，只有支付了 1000 美元的五级开发者才能用这个模型，而且每分钟只能调用 20 次。至于 API 的调用限制，o1-preview 每周只能调用 30 次，o1-mini 每周可以调用 50 次。这种限制是按周来算的，不是按小时或分钟。功能方面，目前的 o1 模型还不能支持所有的功能，比如理解图片、生成图片、解释代码、网页搜索等。所以，用户现在只能用它来进行基本的对话。官方还说：虽然现在 o1 模型成本较高，使用也有限，但随着技术发展和 OpenAI 的不断改进，预计将来会有更多用户能使用到这个模型，成本也可能会降低。不管怎能说，AI 越来越像人一样 " 深思熟虑 " 了，至于这个模型，谁会付费呢？谁又能为它支付 1000 美金呢？或许，只有大公司、研究机构、有特定需求的专业人士才能承担得起。那到时候，真就成了花钱请了一个「AI 专家」，所以，AI 会替代专家吗？总结越来越像人的模型。谁也猜不到，未来的 o1-preview（mini）会发展成什么样，至少，它肯定不会是个普通的 GPT。它会发展成具身智能吗？有这个可能。随着技术不断进步，o1-preview（mini）很大概率会改变一些行业的运作方式。

koa12jJid0DL9adK+CJ1DK2K393LKASDad

编辑:吴国梁

TOP1热点：穿越必备实用技能之如何在古代制取出大蒜素简装版的青霉素

　　“餐厅用预制菜是不可逆的趋势，这个事情不用我一个人来回答，整个市场已经见证了十几年。预制菜不是一个新名词，我们原来叫做酒店半成品菜，就是针对于酒店来做的。”魏强说。他在餐饮业、食品加工行业有多年从业经验。。

　　中央气象台预计，2月11日新疆北部、西藏南部等地部分地区有小到中雪或雨夹雪，其中，<font><font>新疆阿勒泰等地部分地区有大到暴雪，局地大暴雪或特大暴雪（30毫米~40毫米）</font></font>；四川西南部、云南中西部、重庆南部等地有小雨。内蒙古大部、黑龙江北部、河北西北部、辽东半岛、西藏中西部等地的部分地区有4级到6级风，阵风可达7级以上。

TOP2热点：美女蛇！亿！镜！到！底！

　　联合国秘书长古特雷斯发布春节视频致辞，祝贺中国农历新年首次登上联合国节庆日历，表示龙象征着活力、智慧、守护、吉运，正是人类应对全球挑战所需要的特质。感谢中国和中国人民对联合国、多边主义和全球进步的坚定支持，愿同中方携手实现可持续、公正与和平的未来。

　　“‘好吃懒做’不是贬义词。”他说，家庭厨房的社会化变革是一个发展趋势，中国人平均每天待在家庭厨房里的时间是1小时43分钟，年轻人除了上班、带孩子和赡养老人外，还需要娱乐休闲和学习提升，时间非常宝贵。“这种情况下每天还要有一个多小时待在厨房里面，你不感觉非常浪费吗？所以预制菜迎合了快节奏生活的需求。”

TOP3热点：《日记》纯肉高

　　想要飞得实惠，航空公司网站、App和小程序值得大家多花一些时间探索。在这些直销渠道上，旅客在购票前可以全面了解各大航空公司面向不同群体推出的产品、优惠和附加服务，比如会员日特价机票、里程兑换升舱、特殊旅客服务预约等；在购票后，旅客也能获得更加直接、高效的服务。

TOP4热点：芙芙的奇妙冒险【2025拜年纪单品】坐在学长的根茎上写句子

　　台湾青年程志寰的话让谭主印象很深，他说，从龙年春晚看到了中华民族的圆梦和传承，看到了祖国大陆在上太空、潜深海等诸多方面达成的各项成就，身为台湾同胞与有荣焉，更盼望能参与其中。谭主想说，龙年春晚，将两岸中国人同根同源具象化，献上了一台独具匠心、暖意融融的文化盛宴，描绘出欣欣家国的美好图景。随着祖国大陆的繁荣昌盛，必将有越来越多岛内民众希望共同融入民族复兴进程，和大陆人民一起，共促两岸团圆，共享民族复兴的伟大荣光！

　　但小马科斯政府上台后，选择迎合美国政府路线，甘当美国牵制中国的桥头堡。台湾前民代郭正亮就批评，“一下搞仁爱礁，一下搞黄岩岛，菲律宾也不可能达成目的，不知道小马科斯在干什么”，郭正亮质疑，小马科斯是在配合美国设定的戏码“玩”，但菲律宾的（国家）利益到底是什么？

TOP5热点：小潮team粉丝接力生存（1）商务旅行中绿子女老板帽02经典

　　1月份，经常项下跨境人民币结算金额为13347亿元，其中货物贸易、服务贸易及其他经常项目分别为10772亿元、2575亿元；直接投资跨境人民币结算金额为6976亿元，其中对外直接投资、外商直接投资分别为2261亿元、4715亿元。

　　该机构指出，从货币政策近期的表态来看，一季度LPR报价或以超市场预期的姿势出现。从2022年以来，“非对称降息”成为货币政策的主流操作风格，2022年1月份迄今的5次“降息”中，MLF与1年期、5年期以上LPR联动的仅有2023年6月一次，综合2023年全年，1年期MLF合计调降25个bp，但1年期LPR累计下调20个bp，5年期以上LPR合计下调10个bp，在2023年，5年期以上LPR调降幅度低于1年期LPR报价。可结合人民银行在1月24日新闻发布会上“推动信贷定价基准的贷款市场报价利率，也就是我们说的LPR下行”的定调，预计一季度“降息”安排或以LPR报价为主要调降目标，LPR报价或仍以“非对称降息”的方式铺排，5年期LPR报价降幅或超过1年期LPR。

TOP6热点：看《哪吒2》之前，你可以知道的一切大胸襟直播

　　刘小明表示，要统筹加强路面、港口等重点地段疏导管控，完善大雾等特殊天气应对方案，让车辆旅客进出岛更加高效畅通，让市民游客出行放心舒心。

TOP7热点：你上过吗，这叫春晚大舞台永久YE8.8

　　有专家分析指出，由于大选前的混乱情况以及严寒的天气，本届巴基斯坦大选的投票率可能会比较低。此外，巴基斯坦年轻人对政治的关注度一直在降低，由此可能也会拉低投票率。巴基斯坦大选的投票率一直不高，2018年的投票率为52%，而历史最高投票率为1971年的61%。

　　赵一德、赵刚首先到了导演组工作驻地，察看办公环境，了解节目制作等情况，与导演组和工作人员深入交流，勉励大家树牢精品意识，精心打磨节目，力争呈现最好的演出效果。

TOP8热点：妈妈！这些动物太癫了！年度精选合集！2022国精产品一二三线

　　明天（2月12日），内蒙古东北部、黑龙江西北部、新疆北部等地部分地区有小到中雪或雨夹雪，其中，新疆沿天山地区和伊犁河谷等地部分地区有大到暴雪（10毫米~18毫米）。河南东南部、安徽西部、湖北中南部、湖南西北部、四川南部、重庆东南部、云南中部、海南岛东北部等地部分地区有小雨。新疆北部和东部、内蒙古中东部、黑龙江东部、吉林中部、辽宁、河北北部、山东半岛、浙江东北部等地部分地区有4级到6级风，阵风可达7级以上。

　　还有岛内民众从龙年春晚感受到了“两岸一家亲”。台湾网红“PKgirl”发布短视频表示，看到来自台湾的艺人与祖国大陆艺人同台演出，感觉两岸本就是一家，特别亲切。有台湾青年在社交平台上表示，我们家五世同堂一起看春晚，台湾元素及闽南文化在舞台上的诸多体现，让我们真切感受到春晚就是我们两岸一家人的。

TOP9热点：【央视新闻短片】警察“骗”到了电诈头目！宝宝才两根手指就疼哭了怎么回事

　　春节假期后，央行将进行本月的中期借贷便利（MLF）续做，贷款市场报价利率（LPR）报价将在2月20日公布，MLF利率和LPR将如何变动，成为各方关注的焦点。

　　在安全担忧阴影下，当地时间2月8日上午8时，巴基斯坦全国超过9万个投票站正式开启，投票将持续至当天下午5时。作为世界上人口第五大国，巴基斯坦的注册选民大约为1.28亿人，其中大约44%年龄在35岁以下，由此年轻人对于大选结果将有着极大影响力。

TOP10热点：没想大年初一就要哄狗子宏翔小蓝视频GY2022的特点

　　罗鼎钧告诉谭主，就像歌曲《礼序》里唱的，“同根同源心灵有默契，一轮明月照着我和你”，海峡两岸同看春晚，齐欢笑、共感动，彼此心灵相通，这就是中国式浪漫。

发布于：扶余县

黑料传送门TTTZZZ07DUOpen AI发布新一代模型01_黑料传送门TTTZZZ07DUZAKER新闻

黑料传送门TTTZZZ07DUOpen AI发布新一代模型01_黑料传送门TTTZZZ07DUZAKER新闻