人与野鲁❌❌❌❌❌片_政治热议_开源22万条DeepSeek 人与野鲁❌❌❌❌❌片R1的高质量数据！你也能复现DeepSeek了

开源22万条DeepSeek 人与野鲁❌❌❌❌❌片R1的高质量数据！你也能复现DeepSeek了_ZAKER新闻

　　“结合可售库存来看，南京市二手房仍处于供过于求的状态。”我爱我家研究院方面表示，南京市二手房房源平均成交周期为196.6天，环比增加了12.4天，主要还是因为目前南京市库存房源量较大，客户选择性众多，也会拉长房源的整体成交周期。

DeepSeek 在海内外搅起的惊涛巨浪，余波仍在汹涌。当中国大模型撕开硅谷的防线之后，在预设中总是落后半拍的中国 AI 军团，这次竟完成了一次反向技术输出，引发了全球范围内复现 DeepSeek 的热潮。DeepSeek-R1 虽然开源，但也没有完全开源，训练数据、训练脚本等关键信息并未完全公布。不过，有技术报告，相当于拥有着复现 R1 的指导方针，已经有不少执行力强的团队用小模型见证「aha moment」了。在浩浩荡荡的复刻大军中，最令人瞩目的，当数 Hugging Face 领衔的 Open R1 项目。Open R1 宣称要做到完全开放复现 DeepSeek-R1，补齐 DeepSeek 所有未公开的技术细节。Open R1 项目刚刚启动不过几周，他们已经完成了：GRPO 实现训练与评估代码用于合成数据的生成器项目地址：https://github.com/huggingface/open-r1在开源社区的众志成城，Open R1 更是动作迅速。今天，他们发布了 OpenR1-Math-220k 数据集，又补全了一块 DeepSeek R1「碎片」—— 合成数据。OpenR1-Math-220k 数据集概览数据集链接：https://huggingface.co/datasets/open-r1/OpenR1-Math-220kDeepSeek R1 的一个重要优势在于它能够将高级推理能力迁移到较小的模型中。DeepSeek 团队生成了 60 万条推理数据，在 Qwen 和 Llama 等开源模型上证明了这种迁移能力。即使不使用强化学习，直接从 R1 模型进行迁移也能实现强大的推理性能。然而，这些合成数据仅 DeepSeek 可见，未对其他团队开放阅读权限。OpenR1-Math-220k 数据集就是来补上这块空缺的。具体而言，Open R1 团队使用 DeepSeek R1 生成了 80 万条推理轨迹，经过筛选和验证后得到了 22 万条高质量数据。这些数据可以用来支持更小的模型，来达到媲美 DeepSeek R1 的效果。比如在 OpenR1-Math-220k 数据集上训练出来的 Qwen-7B-Math-Instruct，达到了与 DeepSeek-Distill-Qwen-7B 相当的性能。下面就让我们来看看 OpenR1-Math-220k 数据集的特点，以及它是怎么诞生的：自动过滤正确答案，本地高效生成目前，开源社区已经发布了 OpenThoughts-114k、Bespoke-Stratos-17k、Dolphin-R1 和 LIMO 等多个推理数据集。然而，为了进行推理公众公开发布，这促使社区独立重建类似的数据集。另外，社区已经发布了多个开放数据集，包括 OpenThoughts-114k、Bespoke-Stratos-17k、Dolphin-R1 和 LIMO。为了整理 OpenR1-Math-220k，Open R1 还和开发了广受欢迎的 NuminaMath-CoT 数据集开发团队 Numina 进行了合作。那么，与现有数据集相比，Open R1 的数据集有什么新特点呢？80 万条 R1 推理轨迹：使用 DeepSeek R1 为 40 万个问题各生成了两个答案，最终经过筛选后保留了 22 万个具有正确推理轨迹的问题。本地运行 512 个 H100 ：没有依赖 API，而是在计算集群上利用 vLLM 和 SGLang 本地运行生成任务，每天可以生成 18 万条推理轨迹。基于 NuminaMath 1.5 ：专注于数学推理公式，为 NuminaMath 1.5（NuminaMath-CoT 数据集的改进版本）中的问题生成答案。自动过滤：Open R1 团队通过数学验证，只保留至少有一个正确答案的问题，还让 Llama3.3-70B-Instruct 作为「判官」，以筛选出更多正确的样本，特别是那些因格式错误而无法通过基于规则的解析器验证的答案。在 OpenR1-Math-220k 训练出来的 Qwen-7B-Math-Instruct，达到了与 DeepSeek-Distill-Qwen-7B 相当的性能。数据集分为两个部分：default（94k 问题）：这部分数据在经过监督微调（SFT）后表现最佳。extended（131k 问题）：这部分数据包含额外的 NuminaMath 1.5 数据源，例如 cn_k12，提供了更多的推理公式。（研究发现这个子集在经过监督微调后的性能低于默认数据集，可能是因为 cn_k12 中的问题相对简单。）Open R1 团队表示，希望这个可扩展的、高质量的推理数据生成过程，能够启发代码生成等数学之外的领域。数据生成为了构建数据集，OpenR1 团队让 DeepSeek R1 为来自 NuminaMath 1.5 的 40 万个问题生成答案。他们遵循了 DeepSeek 技术报告中推荐的参数设置，并在提示词前添加了以下指令：Please reason step by step, and put your final answer within boxed{}.为了确保生成过程的高效性，团队将每次生成的 tokens 限制设置为 16k。经过分析发现，只有 75% 的问题能够在 8k tokens 内解决，而大多数剩余问题需要完整的 16k tokens。最初，他们使用 vLLM 进行推理，每个 H100 节点每秒可以生成 15 个答案，并且相关生成脚本已分享在 OpenR1 仓库中。最近，他们又开始尝试使用 SGLang，每个 H100 节点每秒可以生成 25 个答案（速度提升了近两倍），这使得 512 个 H100 节点上每天能生成 30 万个问题的答案。为了在后续的过滤和优化过程中提供更大的灵活性，团队为每个问题生成了两个答案 —— 有时甚至生成四个。这样一来，不仅复刻出了类似于 DeepSeek R1 允许进行拒绝采样的方法，还能使数据集能够适用于如 DPO 等偏好优化方法。数据生成脚本：https://github.com/huggingface/open-r1/tree/main/slurm。数据过滤为了确保数据集中只包含高质量且正确的推理结果，Open R1 团队设计了一套数学验证系统，用于自动比对 LLM 生成的复杂数学表达式答案与数据集中的标准答案。在这个过程中，OpenR1 团队发现大约 55% 的问题至少有一个正确答案。然而，NuminaMath 1.5 数据集中有很多答案是空的，或者格式不符合验证标准，这都给自动验证带来了困难。为了解决这些问题，Open R1 团队先是对 Math-Verify 工具进行了改进，使其能够处理更多不常见的答案格式，再使用 Llama-3.3-70B-Instruct 模型进行二次评估。具体来说，对于那些被 Math-Verify 判定为错误的答案，使用 Llama-3.3-70B-Instruct 模型重新评估，识别实际上正确但因格式问题被错判的答案。最终，他们找回了 2.5 万条被「误判」的数据。优化 Math-Verify 工具：对 Math-Verify 工具进行了改进，使其能够处理更多不常见的答案格式。对于那些包含多个正确答案的数据行，团队尝试使用奖励模型（RM）作为最终筛选器来选择最佳答案。具体操作如下：首先，从每个包含多个正确答案的数据行中，去掉（…），提取最终答案；第二，将问题和提取的答案输入到配置了 vLLM 的 Qwen/Qwen2.5-Math-RM-72B 模型中，获取每个答案的评分；接着，根据模型评分，对每个包含多个正确答案的数据行排名，选择排名最高的答案纳入训练数据集。遗憾的是，消融实验表明，这种方法并没有比随机选择一个正确答案带来更好的模型性能。Open R1 团队的判断是，可能在使用奖励模型评分时，不仅要考虑最终答案，还要包括推理过程。Open R1 训练出来的新模型 VS DeepSeek-Distill-Qwen-7BOpen R1 在 OpenR1-Math-220k 的基础上，对 Qwen2.5-Math-Instruct 进行了 3 轮微调，学习率为 5e-5。为了将上下文长度从 4k 扩展到 32k，他们将 RoPE 频率提高到 300k。训练遵循线性学习率调度，其中包含 10% 的预热阶段。下表展示了在 lighteval 上 OpenR1-Qwen-7B、DeepSeek-Distill-Qwen-7B 和 OpenThinker-7B 的性能对比，可以看出在数学成绩上，OpenR1-Qwen-7B 和 DeepSeek-Distill-Qwen-7B 差距不是非常明显。本周 AIME 2025 开赛，来自苏黎世联邦理工学院的研究人员用新题来测评了多款模型，却发现各种模型的数学能力下降了 10-20 个百分点之间。有研究者发现这些「全新」的 AIME 题可能已经在互联网论坛泄露，这有可能造成意外的过拟合问题，这也凸显了新鲜测试数据的困境。同时，开源社区也从多个角度探索了 GRPO，有多个研究实验室表明，大约 1000 个高质量的训练样本可能就足以在现有的开源模型中引发推理能力。启示和新的问题LLM 是否需要使用自然语言进行推理？论文链接：https://arxiv.org/pdf/2502.05171马里兰大学的一篇论文表明，通过使用循环语言模型，可以在潜在空间中隐式推理，从而在测试时扩展计算能力，这类似于 Meta 的 Coconut。这些方法的优势在于它们的计算效率更高：通过探索潜在空间，无需生成大量「思考」token 即可获得高性能。是否要转向更小、高质量的推理数据？尽管 DeepSeek R1 使用了 600k 推理轨迹进行蒸馏，但最新研究表明，复杂的推理能力并非单纯通过大规模训练在语言模型中实现，而是可以通过少量精心设计的样本达成。s1K 数据集就是一个很好的例子。它包含 1000 个经过精心挑选的数学问题，以及从 Gemini Flash 蒸馏出的推理轨迹。在选择问题时，研究者注重难度、多样性和质量。通过在 s1K 数据集上对 Qwen2.5-32B-Instruct 进行微调，研究者成功使其在竞赛数学基准测试中超过了 OpenAI 的 o1-preview，最高提升了 27%。另一个数据集 LIMO 也进一步验证了这一理念。它仅使用 817 个训练样本，就在 AIME 和 MATH 基准测试中取得了出色的表现。LIMO 的作者推测，当模型在预训练阶段已经积累了丰富的知识后，可能只需要少量结构良好的样本，就能解锁高级推理能力。CoT 长度：预算强制与奖励塑造Qwen2.5-32B-Instruct 模型在 s1K 数据集上微调后表现出色，其中一个关键因素是采用了「预算强制」。这是一种测试时的计算技术，通过在模型生成中添加「等待」token 来延长推理时间，或者添加「结束思考」的 token 来截断推理。这种方法使研究者能够灵活调整模型的思考时间，并发现随着思考时间的增加，模型在不同数学基准测试中的准确性也随之提高。同样，Yeo 等人在研究《Demystifying Long Chain-of-Thought Reasoning in LLMs》中探讨了思维链（CoT）长度对模型性能的影响。他们引入了一种名为「余弦奖励」的新奖励函数，用于在正确生成时激励较短的 CoT，在错误生成时激励较长的 CoT。这种奖励机制在模型的最大上下文大小有限且平均响应长度可能失控的情况下，能够稳定强化学习训练。论文链接：https://arxiv.org/pdf/2502.03373此外，当模型在处理难题时出现奖励劫持的迹象（即通过重复而非真正解决问题来增加 CoT 长度），研究者还会采用重复惩罚机制，以避免模型陷入无效的循环推理。Open R1 团队表示，现在 GRPO 已经在 TRL 中顺利运行，他们正在开展一系列广泛的实验，以了解哪些超参数和奖励函数对训练的影响最大。那就让我们静待 Open R1 的好消息吧。

koa12jJid0DL9adK+CJ1DK2K393LKASDad

编辑:张石山

TOP1热点：网购宠物猫取消订单5天后卖家发货

　　据悉，7日15时40分许，杭锦旗独贵塔拉工业园区亿鼎生态农业开发公司气化车间发生高压气体喷出事故，导致现场多名在高处作业的工作人员被喷射坠落。事故造成8人当场死亡，4人受伤，其中1名伤员在救治过程中死亡。。

　　8月份，食品烟酒类价格环比上涨0.4%，影响CPI上涨约0.10个百分点。食品中，蛋类价格上涨7.0%，影响CPI上涨约0.05个百分点；畜肉类价格上涨4.7%，影响CPI上涨约0.14个百分点，其中猪肉价格上涨11.4%，影响CPI上涨约0.13个百分点；鲜果价格下降4.4%，影响CPI下降约0.09个百分点。

TOP2热点：往届微博之夜上的神仙同框

　　与此同时，万里之外的美国也借机横插一脚。美国国务院迅速发表声明，公开为菲律宾“站台”，重申《美菲共同防御条约》的承诺，指责中国对仁爱礁的主张“不合法”。

　　毛宁介绍，1971年10月25日，第二十六届联合国大会以压倒性多数通过第2758号决议，明确恢复中华人民共和国的一切权利，承认中华人民共和国政府的代表为中国在联合国组织的唯一合法代表，还要求将台湾当局代表从其非法占据的席位上驱逐出去。决议通过后，美国等少数国家为保留台湾在联合国的席位而提出的所谓“双重代表权”提案，成为废纸一张。

TOP3热点：向佐换发型了chineHD18x××HD

　　与中国山水相连的越南被认为是受惠“中国+1”较早、获益也较大的国家。中国第一波制造业外迁潮是纺织业和家具制造业，越南是主要承接国。自2005年起，中国一直都是美国纺织品服装进口份额最大的国家，然而自美国2018年挑起对华贸易战后，包括一些中国企业在内的国际服装企业开始在越南设立生产线，迅速提升了该国纺织品服装出口的能力和竞争力。目前，越南最大的服装和纺织品进口国是美国。2022年越南的纺织品服装出口额高达440亿美元，其中出口美国占50%以上。2020年，越南还取代中国，成为美国的最大家具出口国。紧接着是一些大型电子企业也从中国外迁到越南。据越南媒体报道，韩国某企业过去曾在中国投资近百个生产和销售企业、多家研究所和70多个办事处，雇员近18万人。但近10年来，该企业转向越南，并打算在当地建起东南亚最大的研发中心，为超过10万人创造就业机会。

　　同时，美国的举措不仅是为了挑起中菲双边矛盾，更是为了分化中国与东盟的关系，阻碍“南海行为准则”的达成。美国认为，“南海行为准则”是在削弱美国影响力，塑造中国在南海的主导地位。目前，准则谈判面临诸多阻碍，但东盟内部仍不乏理性声音。

TOP4热点：猫不想吃你做的饭很明显男生的坤坤㩙进老师的句号视

　　这意味着，如果购房者在外地有1笔房贷记录后，再想在北京用公积金贷款买房，则要执行二套房贷款政策，即购买普通房至少需要60%的首付比例。

　　答：光大银行正在抓紧制定具体实施细则和准备工作，将按人民银行要求在9月25日提供服务。后续进展将及时在光大银行官网、手机银行、公众号、网点等渠道公告。

TOP5热点：谁懂华晨宇唱情歌的杀伤力九.幺

　　新京报讯据国家统计局网站消息，2023年8月份，全国居民消费价格同比上涨0.1%。其中，城市上涨0.2%，农村下降0.2%；食品价格下降1.7%，非食品价格上涨0.5%；消费品价格下降0.7%，服务价格上涨1.3%。1—8月平均，全国居民消费价格比上年同期上涨0.5%。

　　当地时间7日上午，北约秘书长斯托尔滕贝格就俄乌冲突最新进展等问题接受欧洲议会外事委员会议员问询。爱尔兰籍欧洲议会议员米克·华莱士当场质问斯托尔滕贝格：“一再地违反国际法却从不承担任何后果的北约，凭什么不断渲染所谓‘中国威胁论’，宣称中国正致力于颠覆所谓‘基于规则的国际秩序’？”至于俄乌冲突问题，“是北约无视和平，是欧盟一面向乌克兰提供武器、制裁俄罗斯，一面又与俄罗斯保持密切的贸易往来；而中国始终保持中立的立场——相比之下，谁更可信？”

TOP6热点：西部战区出动直升机转运灾区重伤员四川妇女BBBWBBBwm

　　9月8日，菲律宾2艘运补船和2艘海警船未经中国政府允许，擅自进入中国南沙群岛仁爱礁邻近海域。中国海警依法对菲船只进行严正警告、全程跟监、有效规制。中国对包括仁爱礁在内的南沙群岛及其附近海域拥有无可争辩的主权，坚决反对菲方向非法“坐滩”军舰运送违规建材。中国海警将依法在中国管辖海域持续开展维权执法活动。

　　“无论是本次东盟峰会，还是10+1、10+3等系列会议，聚焦经济增长与合作共赢成为各方最大共识。”广西民族大学东盟学院副院长葛红亮6日对《环球时报》记者表示，今年以来，全球经济增长态势相对疲软。同时，在大国战略竞争日益激烈的国际环境下，地缘政治矛盾激化带来的恶果令东盟国家感到担忧。身处大国竞争的环境中，东盟对自己的定位很明确，就是希望在经济方面成为区域增长中心，在地区多边战略框架中居于中心位置，维护区域合作架构和地区的和平稳定。

TOP7热点：辛雨锡直播胸⋯啊⋯嗯～出奶了

　　“美国的挑衅只会加剧东盟的风险”，俄罗斯卫星通讯社称，发展经济合作和维护地区安全稳定是东盟峰会和东亚合作领导人系列会议的主要议题。然而，美国企图煽动东盟与中国对抗，用所谓“中国军事扩张”和“经济胁迫”来恐吓东盟。报道称，这次美国总统拜登不参加东盟系列会议，却赴印度参加G20峰会，并紧接着访问越南。美国是一心要分裂东盟，用亲美集团取代东盟。

　　在小型策略执行交流现场，双方战斗小组先上课，后现场组织战术协同，每个战斗小组由泰方3名队员和中方2名队员组成，双方交替掩护，对重要目标进行夺控，整个训练紧张有序。

TOP8热点：肖战承认会入睡困难一面亲上边一面膜下边表达

　　9月4日上午，随着清脆的“砰砰砰”声响，参加中泰“蓝色突击—2023”海军联合训练的双方海军陆战分队在泰国海军陆战队轻武器射击场展开冲锋枪、手枪实弹射击，标志着本次联训活动全面展开。

TOP9热点：情侣同居要检查HPV吗中国老大太凸凹DH

　　陕西省西安市人民检察院起诉指控：2003年至2021年，被告人张永泽利用担任西藏自治区环境保护局党组副书记、局长，西藏自治区环境保护厅党组副书记、厅长，山南地委副书记、行署专员，山南地委书记，山南市委书记，西藏自治区人民政府党组成员、副主席等职务上的便利以及职权、地位形成的便利条件，为有关单位和个人在工程承揽、环评审批、职务晋升等事项上提供帮助，直接或者通过他人非法收受财物折合人民币共计5181万余元。检察机关提请以受贿罪追究张永泽的刑事责任。

　　其次，南京市将出台集体土地房票安置办法。对征收集体土地涉及住宅房屋的，鼓励被征收人选择房票安置，满足被征收人多元化安置需求，缩短安置过渡周期。

TOP10热点：郑钦文迪奥jalapxaxwaswaswasxilxilx403

　　北京大学政府管理学院教授、中国人力资源研究会测评专业委员会常务理事白智立向中国新闻周刊表示，高学历与名校毕业生现象，体现了改革开放以来，党重视选拔知识化、专业化干部的价值取向。

　　答：符合调整范围但有拖欠的贷款，原则上还清拖欠前暂不调整，还清拖欠后可以调整。实际执行需根据具体情况判断，您可咨询贷款经办机构。

发布于：永寿县

人与野鲁❌❌❌❌❌片开源22万条DeepSeek 人与野鲁❌❌❌❌❌片R1的高质量数据！你也能复现DeepSeek了_ZAKER新闻

人与野鲁❌❌❌❌❌片开源22万条DeepSeek 人与野鲁❌❌❌❌❌片R1的高质量数据！你也能复现DeepSeek了_ZAKER新闻