文化新闻-"黑料传送门tttzzz07du"-DeepSeek的华丽文风是怎样炼成的？

DeepSeek的华丽文风是怎样炼成的？_ZA黑料传送门tttzzz07duKER新闻

　　党的二十大报告再次强调要“加快建立多主体供给、多渠道保障、租购并举的住房制度”。陈文静认为，这表明中央将继续发力完善住房供应端政策，并大力推动住房租赁市场发展，完善“购+租”、“市场+保障”的住房体系。

去年还不相信 AGI（通用人工智能）投资叙事的知名投资人朱啸虎，在被 DeepSeek 支配了一整个春节后，态度大变，"DeepSeek 快让我相信 AGI 了。"在近期接受腾讯新闻采访时，朱啸虎多次惊叹于 DeepSeek 在内容生成方面的优美和深度。不止朱啸虎。在 DeepSeek 以假乱真，模仿梁文锋口吻回复冯骥的 " 国运论 " 造假文章出现后，作家兼脱口秀演员的李诞点评道，文章透露出一种非常 DeepSeek 的味道。这种味道被李诞概括为 " 科技抒情散文诗 "。更重要的是，在优美和深度之外，DeepSeek 让更多普通人第一次体会到了 AI 对话产品的易用性。在此之前，用户想要让 ChatGPT 等 AI 对话产品输出更准确的答案，往往需要学习一套较为复杂的 Prompt（提示词）技巧，但在 DeepSeek 上面，用户只需要输入简单的自然语言，就能够得到相对准确的答复，且这些答复还能呈现出拟人化的特点。DeepSeek 对人类情感价值的精准拿捏，一度使得其凭借 " 阴阳怪气 " 中文十级的表现，收获了 " 赛博嘴替 " 的美名。飙涨的用户数据，成了外界追捧 DeepSeek 的另一力证。AI 产品榜的一份统计数据显示，DeepSeek 应用在上线 20 天后，其 DAU（日活用户）便突破了 2000 万，距离成为国内日活用户数第一的 AI 对话应用，指日可待。尽管 DeepSeek 坚持开源路线，但在其引发热议的 R1 最新模型上，DeepSeek 尚未公开其预训练语料，这也使得外界好奇其优美华丽的文风，究竟是怎么训练出来的。字母榜（ID：wujicaijing）首先把这个问题抛给了 DeepSeek，它从风格化数据蒸馏体系，动态风格迁移架构，对抗式强化学习框架等维度给出了自己的解释。紧接着，字母榜又尝试让国内月活用户排名前三的大模型（DeepSeek 除外）回答了下，它们给出了一个共同原因是，DeepSeek 可能在语料选择上用了更多文学小说素材。就连朱啸虎也揣测，这可能跟 DeepSeek 团队喜欢优美的文字，喜欢哲学、量子力学等有关。DeepSeek 的文艺青年气质，或许能从他们在宣布下场追逐 AGI 的宣言中略窥一二。2023 年 4 月，幻方量化（DeepSeek 母公司）在发布做大模型公告时，引用了法国新浪潮导演特吕弗曾告诫青年导演的一句话：" 务必要疯狂地怀抱雄心，且还要疯狂地真诚。"在国内从事大模型创业的李振（化名），也做过类似的文风对比，" 就是风格控制的颗粒度不同。其他国内大模型产品，在文学向标签上可能都没有 DeepSeek 多。"李振告诉字母榜，在文学语言占比上，据其推测，国内其他大模型，可能在语料库中的比例维持在 10%-20%，DeepSeek 则可能高达 40%。除了数据来源不同之外，如何使用数据同样会影响大模型产品的内容生成效果。《生成式人工智能》作者、人工智能商业化专家丁磊博士，特意提到了 DeepSeek R1 模型中所展现的 "aha moment" 顿悟时刻，即模型学会了反思，" 这证明了其不断增长的推理能力，也说明了强化学习可以带来复杂甚至意想不到的结果。"无论是对风格控制颗粒度的认知细化，还是 "aha moment" 顿悟时刻的到来，这背后都少不了 DeepSeek 的高人才密度支持。在人才方面的高密度和高自主性，被参与大模型投资的恒业资本创始合伙人江一视为是 DeepSeek 生成优美华丽文风的第一因素。" 相比而言，部分大模型公司的员工，在自主性上不够开放，使得在大模型产品研发上更多呈现出靶向性的特征，最终的生成效果就显得中规中矩。"DeepSeek 的内容生成优势之一，在于构建了一个比较独特的文学增强型数据生态，即把自然语言生成转化成一个可控的风格系统，从而使得可以把文学创作领域的专业评价体系转化成相对应的函数，进而构建起一个风格表征的数学建模。为了达成上述效果，相比国内其他大模型，DeepSeek 在数据标签上就需要做得更细更多样化。这也是国内大模型创业者李振感慨 DeepSeek 文学向标签更多的原因所在。去年 3 月，在受邀参加英伟达 GTC 2024 大会时，DeepSeek 研究员便围绕 " 大模型价值观和人类价值观对齐 " 的主题，发表过一篇《和而不同：大语言模型价值观对齐解耦化》的演讲，其中提到DeepSeek 构建了一个跨学科的专家团队，对不同社会背景人群的价值观的公约数进行了分类学研究，从而构建了一个三级标签的价值观分类体系。人工智能商业化专家丁磊博士告诉字母榜，数据标注之外，前期的数据质量对模型训练至关重要，"DeepSeek 在长思维链数据的收集和标注、推理和非推理数据的质量等方面，都有独到之处。"根据官方公开的技术报告，在获取高质量数据方面，R1 模型使用了数据蒸馏技术（Distillation）生成的高质量数据，提升了训练效率。这也是 DeepSeek 能够凭借更小参数量，就实现比肩 OpenAI o1 模型性能的一大关键。丁磊博士进一步解释道，模型参数量大小与最终模型呈现的效果之间，两者 " 投入产出并不成正比，而是非线性的……数据多只是一个定性，更重要的是考验团队数据清洗的能力，否则随着数据增多，数据干扰也将随之变大。"谷歌就是前车之鉴。不管从算力还是算法，谷歌并不比 OpenAI 差，甚至还要强，但恰恰是借助基于人类反馈的强化数据训练工作，OpenAI 最终赶在谷歌前面做出了 ChatGPT。即便在 ChatGPT 已经诞生 2 年多后的当下，业内部分大模型公司，依然存在在数据训练环节投机取巧的行为，比如" 采用数据注水的手段，将还没进行标注的数据，直接投喂给大模型。"李振说道。甚至在李振看来，不同的数据处理方式，使得 DeepSeek 在训练范式上有了代际差距优势，部分国内大模型更多还是通用语料加基础过滤来完成预训练工作，"DeepSeek 则可能加入了对抗式数据清洗环节。" 李振表示。DeepSeek 内部也的的确确在进行对抗式测试。去年 3 月的演讲中，DeepSeek 研究员曾讲到，实际模型生产过程中，内部会进行模型的迭代式开发，"即每轮的训练结束之后，都会有一个独立的测试团队，对模型在各个维度上的安全性进行充分的测试，并给出反馈意见来指导进行下一个周期的数据迭代和模型训练。"不同的训练方式，也导致即便是使用同样的中文语料库，最终训练出来的大模型，在文风上也会有完全不一样的呈现。而且，在 R1 模型加入 RL（强化学习）之后，强化学习的训练次数也可能导致最终的文风不同。李振介绍，DeepSeek 的 PPO（强化学习）迭代轮次可能在 50 到 80，国内其他大模型可能在 20 左右。导致轮次不同的原因之一在于，各个公司对产品功能的押注重点不同。朱啸虎以厨师做饭打了个比喻，" 就像厨师，以后有几个米其林大厨，有些擅长川菜，有些擅长粤菜——它在组织语料或参数权重上的差别，就会造成回复的答案有差异性。"华丽优美文风之外，DeepSeek 生成内容的惊艳之处还在于，表现形式上做到科技抒情散文诗的一大前提，是首先确保了生成内容具备更高的事实准确性。在丁磊博士看来，这有两方面原因促成：一是模型的自我进化，模型学会通过更多的推理计算来解决复杂的任务，这不是来自外部设置而是模型自己学会的；二是模型的 "aha moment" 顿悟时刻，即模型学会了 " 反思 "，这证明了其不断增长的推理能力，也说明了强化学习可以带来复杂甚至意想不到的结果。基于 DeepSeek R1 模型，官方还同步推出了 R1-Zero 模型，后者直接将 RL 应用于基础模型，而无需依赖 SFT（监督微调）和已标注数据。此前，OpenAI 的数据训练非常依赖人工干预，旗下数据团队甚至被建设成为不同水平的层级，数据量大、标注要求简单明确的浅层数据，交给肯尼亚等廉价外包劳工，高等级的数据则交给更高素质标记人员，不少都是训练有素的高校博士。但这样带来的结果之一便是，堆高数据获取成本，且面临数据标注质量参差不齐的难题，从而限制着大模型的规模泛化能力。R1-Zero 的出现，恰恰是 DeepSeek 希望通过纯机器学习来解决上述难题的一大尝试，Perplexity 公司 CEO 阿拉文 · 斯里尼瓦斯评价道：" 需求是发明之母。因为 DeepSeek 必须找到解决办法，最终它们创造出了更高效的技术。"在 DeepSeek 对外分享的 R1 模型技术报告中，团队在强化学习推理阶段，意外发现了 "aha moment" 顿悟时刻，这预示着模型自身开始在某一时刻具备了自我反思能力。例如在解决数学方程时，模型会主动纠正早期错误步骤，还能根据训练逐步学会分配更多思考时间，生成更长的推理过程，以解决复杂问题。这种 " 顿悟 " 现象的出现，离不开一种特殊奖励机制的引导。根据官方技术文档，DeepSeek R1 模型，没有使用 MCTS（蒙特卡洛树搜索）类技术，而是在 PPO 算法之下采用了一种特殊的基于规则的奖励函数，根据生成输出的格式和正确性分配奖励，一般包括三种情况：如果输出以指定格式提供最终答案且正确，获得 +1 的奖励；如果输出提供最终答案但不正确，奖励设为 -0.5；如果输出未能提供最终答案，奖励设为 -1。" 我们没直接教模型如何解决问题，只是给予它正确的激励，模型就能自己琢磨出先进的解题办法。"DeepSeek 官方如此解释道。无论是构建风格表征的数学建模，还是推动 "aha moment" 顿悟时刻的出现，背后都离不开 DeepSeek 对人才的重视和培养。在参与大模型投资的恒业资本创始合伙人江一看来，DeepSeek 的高人才密度，外加内部人才的高自主性，强强结合，" 使得 DeepSeek 内部产生了多样性的涌现，在穷举多个选项之后，优中选优，最终选定了现在的这种华丽优美文风。"上述人才特性也能从梁文锋的对外采访中印证一二。在接受 36 氪采访时，梁文锋曾介绍，DeepSeek 管理遵循自下而上模式，且每个人对于卡和人的调动不设上限。" 如果有想法，每个人随时可以调用训练集群的卡无需审批。"去年 5 月份率先打响行业价格战的 DeepSeek V2 模型，其中的技术创新之一 MLA（一种新的多头潜在注意力机制）架构，就来自一个年轻研究员的个人兴趣。当时，在总结出 Attention 架构的一些主流变迁规律后，这位年轻研究员突发奇想设计了一个替代方案，DeepSeek 为此组建了一个专项攻坚团队，花了几个月时间将 MLA 落地。在科技领域，自信是创新的首要前提，而梁文锋认为这种信心通常在年轻人身上更为明显。所以，DeepSeek 内部多是一帮 Top 高校的应届毕业生、没毕业的博四、博五实习生，以及一些毕业才几年的年轻人。" 如果追求短期目标，找现成有经验的人是对的。但如果看长远，经验就没那么重要，基础能力、创造性、热爱等更重要。" 梁文锋解释道。相比而言，在江一观察中，部分大模型公司，在对待员工上则表现出更强的控制力，员工缺少自主性，" 更多呈现出靶向性的研发特征，即部门确定一个最终达成的效果目标，所有的人都奔着这一目标而做好自己分内的工作，使得最终模型呈现出来的效果，显得中规中矩。"不过，需要注意的是，尽管 DeepSeek 生成的优美文风，被部分人喜爱，但也开始引发部分人的警惕，这些内容乍一看很好，但 " 仔细品读会发现很多的语法错误。"内容从业者王旭告诉字母榜。以开头那篇梁文锋回应冯骥赞誉的虚假文章为例，其中有句话写到，" 既因为被行业前辈认可的惶恐，更因为冯总这些灼热的文字让我想起十二年前在浙大实验室第一次跑通神经网络时的颤栗。" 仔细品读后，王旭便从中识别出了一些语病。相比语病，更不易察觉的是，借助更逼真、拟人化的文风，DeepSeek 的幻觉现象，依然存在。在被王旭品读出语病的 " 既因为被行业前辈认可的惶恐，更因为冯总这些灼热的文字让我想起十二年前在浙大实验室第一次跑通神经网络时的颤栗。" 这句话中，乍一看，DeepSeek 不仅给出了场景细节，还给出了具体的时间节点，不由得就会让人相信这都是曾经真实发生过的画面。但简单搜索下梁文锋的履历便可知道，在十二年前的 2013 年，梁文锋已经从浙江大学硕士毕业三年。当年，梁文锋与其浙大同学徐进共同创立了杭州雅克比投资管理有限公司，DeepSeek 给出的梁文锋在浙大实验室做实验的场景，大概率是自行编造而来。随着大模型在可靠性上表现出来的能力越来越强，其迷惑性的一面也随之增强。作为人类的我们，或许是时候该学学如何提高辨别 AI 内容时，自身的可靠性了。参考资料：《朱啸虎现实主义故事 1 周年连载："DeepSeek 快让我相信 AGI 了 "》张小珺《全球掀 DeepSeek 复现狂潮！硅谷巨头神话崩塌，30 刀见证啊哈时刻》新智元《和而不同：大语言模型价值观对齐解耦化》 DeepSeek《疯狂的幻方：一家隐形 AI 巨头的大模型之路》暗涌 Waves《朱啸虎 VS 傅盛，怼出了大模型创业的两个共识》字母榜

koa12jJid0DL9adK+CJ1DK2K393LKASDad

编辑:张伍

TOP1热点：「弱者欺负更弱者」的心理是怎样的？

　　截至2022年11月8日24时，河南省住院病例558例（本土557例，境外输入1例），尚在医学观察的无症状感染者3171例（本土3152例，境外输入19例）。。

　　今天冷空气影响范围仍主要集中在西北地区，华南一带降雨有所减少、减弱。明天至13日，冷空气陆续东移南下，由于此次过程水汽条件配合较好，中东部地区将出现较大范围雨雪天气。

TOP2热点：2025 国考笔试成绩和合格分数线公布，你考得怎么样？如何看待今年的分数线？

　　“JEA China”对外宣称是美国新闻传媒教育协会中国分会，在国内举办3个活动（YOC全国青年观察项目、YIC青年影响力项目、MR全国高中生媒体作品评选）和1个奖项（全国青年领导力奖）。

TOP3热点：想把父母接到工作的城市过年，如何让他们体验「潮流」年味？闺蜜交换

　　在广东省城规院住房政策研究中心首席研究员李宇嘉看来，住房工作的顶层思路非常清晰，即“房住不炒”和“租购并举”。前者是统揽住房工作全局的准绳，后者是供给侧改革的抓手，二者结合，才能推进住房高质量发展。

截至11月9日24时，据31个省（自治区、直辖市）和新疆生产建设兵团报告，现有确诊病例9155例（其中重症病例31例），累计治愈出院病例253163例，累计死亡病例5226例，累计报告确诊病例267544例，无现有疑似病例。累计追踪到密切接触者8598731人，尚在医学观察的密切接触者744011人。

TOP4热点：2025 国考笔试成绩和合格分数线公布，你考得怎么样？如何看待今年的分数线？大炕上大战白胖老妇

　　2012年3月，韩江龙跨省调整，调任宁夏回族自治区银川市委副秘书长、市委政策研究室主任，2015年9月任银川市发展与改革委员会（物价局）党组书记、主任。

　　感染者27，系11月6日通报的感染者10的密切接触者，居住于东丽区新立街，系管控人员筛查发现，11月8日诊断为新冠病毒无症状感染者。

TOP5热点：车厘子价格暴跌 80%，日前超 2 万吨智利车厘子运抵广州南沙港，车厘子价格还会再降吗？XXXXXL196_may18较多收藏

　　全省新增出院63例（境外输入8例），目前在院2724例（境外输入139例）；新增解除医学观察无症状感染者149例（境外输入31例），尚在医学观察无症状感染者10401例（境外输入218例）。

　　加强对保障城市基本运行的医疗救护、快递外卖、环卫保洁、水电气暖、交通物流、电信通讯等流动人员的健康监测和闭环管理。各乡镇、办事处要开放低风险区内的核酸小屋，为流动人员提供必要的核酸检测场所。各类流动人员要提高防护意识，按规定参加核酸检测，当好自身健康第一责任人。快递外卖等配送人员要做好个人防护，实行无接触配送。

TOP6热点：黛玉的共情能力强，还是宝钗的共情能力强？人马配速45分钟

　　澎湃新闻记者从万仲翔先生多位友人处获悉，万里同志次子万仲翔先生，因病医治无效，于2022年11月7日下午在北京逝世，享年78岁。

　　近年来，以密室逃脱、剧本杀为代表的沉浸式娱乐活动受到年轻人追捧。据央视财经报道，2019年全国剧本杀实体门店数量由2400家飙升至1.2万家。工商登记信息显示，2020年国内新增剧本杀相关企业超过3100家。

TOP7热点：你的镜头里，记录过家乡的哪些春节限定的「人文之美」？中国新疆XXXXXL19学生申中国

　　据湖南卫健委，11月8日0--24时，湖南省报告新增确诊病例8例，其中境外输入病例0例，本土病例8例（株洲市4例，长沙市1例，永州市1例，均为管控人员中发现；怀化市2例，其中1例为管控人员中发现），其中无症状感染者转确诊病例1例（永州市1例）。

当日新增本土无症状感染者938例，其中呼和浩特市891例、包头市6例（东河区1例、九原区2例、石拐区3例）、锡林郭勒盟3例（锡林浩特市1例、二连浩特市2例）、乌兰察布市8例（均在集宁区）、巴彦淖尔市23例（五原县2例、乌拉特前旗16例、乌拉特后旗4例、杭锦后旗1例）、阿拉善盟7例（阿拉善右旗6例、策克口岸1例）。

TOP8热点：《守望先锋》国服回归福利送 9 款满级神话皮肤等一系列物品，你会因此回流吗？可以对女孩子做什么都可以的手游

　　“她把我带到地面未必对她好。她是摔跤手出身，想把我带到地面，来获得优势位置。”张伟丽也想把卡拉带到地面，因为练了这么长时间地面，很想检验下训练成果。张伟丽坦言，跟罗斯的二番战身体上出现了问题，这次备战非常仔细，在战术、减重、恢复等细节上做得都很好。

　　感染者3—7，均系11月7日通报的感染者13的密切接触者，分别居住于西青区中北镇、杨柳青镇，均系管控人员筛查发现，11月8日诊断为新冠病毒无症状感染者。

TOP9热点：陈震实测特斯拉 Cybertruck FSD 称「在美国肯定第一，但跟中国车比就一般」，有何依据？宝宝才两根手指就疼哭了怎么回事

为更好统筹疫情防控和经济社会发展，确保群众正常生产生活秩序，根据航空港区疫情防控形势，经研究，11月9日12时起解除全区静态管理，对防控措施作出相应调整，现通告如下：

　　孙宏艳强调，剧本从业人员在追求经济效益的同时，应该要特别重视社会效益，尤其是要重视未成年人保护。“儿童专场要真正地适合儿童，无论是从内容、形式、消费，或是安全、社交等方面，一切应以保护未成年人健康成长为前提，遵守未成年人保护法相关规定。”

TOP10热点：陈震实测特斯拉 Cybertruck FSD 称「在美国肯定第一，但跟中国车比就一般」，有何依据？刻晴大战史莱姆隐藏网站

　　韩江龙严重违反党的政治纪律、组织纪律、廉洁纪律和工作纪律，构成严重职务违法并涉嫌受贿犯罪，且在党的十八大后乃至十九大后不收敛、不收手、不知止，性质严重，影响恶劣，应予严肃处理。依据《中国共产党纪律处分条例》《中华人民共和国监察法》《中华人民共和国公职人员政务处分法》等有关规定，经自治区纪委常委会会议研究并报自治区党委常委会会议批准，决定给予韩江龙开除党籍处分；由自治区监委给予其开除公职处分；收缴其违纪违法所得；将其涉嫌犯罪问题移送检察机关依法审查起诉，所涉财物一并移送。

　　中央气象台预计，今天新疆北部和西南部、西藏西部和北部、青海西南部等地部分地区有小到中雪或雨夹雪，其中，阿勒泰及沿天山地区等地部分地区有大雪（5~9毫米）。新疆北部、内蒙古中部、河北大部、辽宁大部、陕西南部、山西北部和东南部、河南中西部、四川盆地西部、海南岛等地部分地区有小雨，局地中雨。

发布于：绩溪县

黑料传送门tttzzz07duDeepSeek的华丽文风是怎样炼成的？_ZA黑料传送门tttzzz07duKER新闻

黑料传送门tttzzz07duDeepSeek的华丽文风是怎样炼成的？_ZA黑料传送门tttzzz07duKER新闻