女生让男生随便诵自己的名字_速报_DeepSeek们的成本，是怎么计算的？

DeepSeek们的成本，是怎么计算的？_女生让男生随便诵自己的名字ZAKER新闻

　　处在金字塔底部的是有限风险、风险很小或没有风险的人工智能系统。前者具有特定透明度义务，需要告知用户正在与AI系统互动，后者无强制性规定，基本上不受监管，如垃圾邮件过滤器等应用。

文 | 定焦 One（dingjiaoone），作者 | 王璐，编辑 | 魏佳DeepSeek 彻底让全球都坐不住了。昨天，马斯克携 " 地球上最聪明的 AI" —— Gork 3 在直播中亮相，自称其 " 推理能力超越目前所有已知模型 "，在推理 - 测试时间得分上，也好于 DeepSeek R1、OpenAI o1。不久前，国民级应用微信宣布接入 DeepSeek R1，正在灰度测试中，这一王炸组合被外界认为 AI 搜索领域要变天。如今，微软、英伟达、华为云、腾讯云等全球多家科技大厂都已接入 DeepSeek。网友也开发出了算命、预测彩票等新奇玩法，其热度直接转化成了真金白银，助推 DeepSeek 估值一路上涨，最高已经达到了千亿美金。DeepSeek 能出圈，除了免费和好用之外，还因为其仅以 557.6 万美元的 GPU 成本，就训练出了与 OpenAI o1 能力不相上下的 DeepSeek R1 模型。毕竟，在过去几年的 " 百模大战 " 中，国内外 AI 大模型公司都砸了几十亿甚至上百亿美元。Gork 3 成为 " 全球最聪明 AI" 的代价也是高昂的，马斯克称 Gork 3 训练累计消耗 20 万块英伟达 GPU（单块成本大约在 3 万美元），而业内人士估计 DeepSeek 仅在 1 万多张。但也有人在成本上卷 DeepSeek。近日李飞飞团队称，仅花费不到 50 美元的云计算费用，就训练出了一款推理模型 S1，其在数学和编码能力测试中的表现媲美 OpenAI 的 o1 和 DeepSeek 的 R1。但需要注意的是，S1 是中型模型，与 DeepSeek R1 的上千亿参数级别存在差距。即便如此，从 50 美元到上百亿美元的巨大训练成本差异，还是让大家好奇，一方面想知道 DeepSeek 的能力有多强，为什么各家都在试图赶上甚至超过它，另一方面，训练一个大模型究竟需要多少钱？它涉及哪些环节？未来，是否还有可能进一步降低训练成本？被 " 以偏概全 " 的 DeepSeek在从业者看来，在解答这些问题前，得先捋清几个概念。首先是对 DeepSeek 的理解 " 以偏概全 "。大家惊叹的是它众多大模型之中的一个——推理大模型 DeepSeek-R1，但它还有其他的大模型，不同大模型产品之间的功能不一样。而 557.6 万美元，是其通用大模型 DeepSeek-V3 训练过程中的 GPU 花费，可以理解为净算力成本。简单对比下：通用大模型：接收明确指令，拆解步骤，用户要把任务描述清楚，包括回答顺序，比如用户需要提示是先做总结再给出标题，还是相反。回复速度较快，基于概率预测（快速反应），通过大量数据预测答案。推理大模型：接收简单明了、聚焦目标的任务，用户要什么直接说，它可以自己做规划。回复速度较慢，基于链式思维（慢速思考），推理问题步骤得到答案。两者主要的技术差别在于训练数据，通用大模型是问题 + 答案，推理大模型是问题 + 思考过程 + 答案。第二，由于 Deepseek 的推理大模型 DeepSeek-R1 关注度更高，很多人错误地认为推理大模型一定比通用大模型高级。需要肯定的是，推理大模型属于前沿模型类型，是大模型预训练范式撞墙后，OpenAI 推出的在推理阶段增加算力的新范式。相比通用大模型，推理大模型更烧钱，训练时间也更长。但并不意味着，推理大模型一定比通用大模型好用，甚至对于某类问题，推理大模型反而显得鸡肋。大模型领域知名专家刘聪对「定焦 One」解释，比如问某个国家的首都 / 某个地方的省会城市，推理大模型就不如通用大模型好用。DeepSeek-R1 面对简单问题时的过度思考他表示，面对这类比较简单的问题，推理大模型不仅回答效率低于通用大模型，消耗的算力成本也比较昂贵，甚至会出现过度思考等情况，最后可能给出错误答案。他建议，完成数学难题、挑战性编码等复杂任务时使用推理模型，总结、翻译、基础问答等简单任务，通用模型使用效果更佳。第三是 DeepSeek 的真正实力到底如何。综合权威榜单和从业者的说法，「定焦 One」分别在推理大模型和通用大模型领域，给 DeepSeek 排了个位。推理大模型第一梯队主要有四家：国外 OpenAI 的 o 系列模型 ( 如 o3-mini ) 、Google 的 Gemini 2.0；国内的 DeepSeek-R1、阿里的 QwQ。不止一位从业者认为，虽然外界都在讨论 DeepSeek-R1 作为国内顶尖的模型，能力赶超 OpenAI，但从技术角度看，相比 OpenAI 最新的 o3，还有一定的差距。它更重要的意义是，大大缩小了国内外顶尖水平之间的差距。" 如果说之前的差距是 2-3 代，DeepSeek-R1 出现后已经缩小到了 0.5 代。"AI 行业资深从业者江树表示。他结合自身使用经验，介绍了四家的优缺点：在通用大模型领域，根据 LM Arena（用于评估和比较大型语言模型（LLM）性能的开源平台）榜单，排在第一梯队的有五家：国外 Google 的 Gemini（闭源）、OpenAI 的 ChatGPT、Anthropic 的 Claude；国内的 DeepSeek、阿里的 Qwen。江树也列举出了使用它们的体验。不难发现，尽管 DeepSeek-R1 震惊了全球科技圈，其价值毋庸置疑，但每家大模型产品都有自身的优劣势，DeepSeek 也不是所有大模型都完美无缺。比如刘聪就发现，DeepSeek 最新发布的专注于图像理解和生成任务的多模态大模型 Janus-Pro，使用效果一般。训练大模型，要花多少钱？回到训练大模型的成本问题，一个大模型究竟是如何诞生的？刘聪表示，大模型诞生主要分为预训练 - 后训练两个阶段，如果把大模型比作小孩，预训练和后训练要做的是，让小孩从出生时的只会哭，到懂得大人讲的内容，再到主动和大人讲话。预训练主要指训练语料。比如将大量的文本语料投给模型，让小孩完成知识摄取，但此刻他只是学了知识还不会用。后训练则要告诉小孩，如何去用学了的知识，包含两种方法，模型微调（SFT）和强化学习（RLHF）。刘聪表示，无论是通用大模型还是推理大模型、国内还是国外，大家遵循的都是这一流程。江树也告诉「定焦 One」，各家都用的是 Transformer 模型，因此在最底层的模型构成和训练步骤上，无本质区别。多位从业者表示，各家大模型的训练成本差别很大，主要集中在硬件、数据、人工三大部分，每一部分也可能采取不同的方式，对应的成本也不同。刘聪分别举例，比如硬件是买是租，两者间的价格相差很大，如果是买，前期的一次性投入很大，但后期会大幅降低，基本只用交电费，如果是租，可能前期投入不大，但这部分成本始终无法省去。所使用的训练数据上，是直接购买现成数据，还是自己人工爬，也差别很大。每次的训练成本也不太一样，像第一次要写爬虫、做数据筛选，但下一个版本由于可使用上个版本的重复操作，成本会有所降低。以及在最终展现模型前，中间迭代了多少版本，也决定着成本高低，但大模型公司对此讳莫如深。总之，每个环节都涉及很多高额的隐形成本。外界曾按照 GPU 估算，在顶尖模型中，GPT-4 的训练成本大约为 7800 万美元，Llama3.1 超 6000 万美元，Claude3.5 约为 1 亿美元。但由于这些顶尖大模型都是闭源，以及各家是否存在算力浪费现象，外界很难知晓。直到同梯队的 DeepSeek 以 557.6 万美元出现。需要注意的是，557.6 万美元是 DeepSeek 技术报告中提到的基座模型 DeepSeek-V3 的训练成本。" 关于 V3 版本的训练成本只能代表最后一次成功训练的成本，前期的研究、架构及算法的试错等成本都没有包含在内；而 R1 的具体训练成本，论文中没有提到。" 刘聪表示。也就是说，557.6 万美元仅为模型总成本的一小部分。半导体市场分析和预测公司 SemiAnalysis 指出，考虑到服务器资本支出、运营成本等因素，DeepSeek 的总成本在 4 年内可能达到 25.73 亿美元。从业者认为，相较其他大模型公司百亿美元的投入，即便按 25.73 亿美元计算，DeepSeek 的成本也是低的。而且，DeepSeek-V3 的训练过程仅需 2048 张英伟达 GPU、所用 GPU 小时仅为 278.8 万，相比之下，OpenAI 耗费了上万张 GPU，Meta 训练模型 Llama-3.1-405B 所用的 GPU 小时为 3084 万。DeepSeek 不仅在模型训练阶段效率更高，在调用推理阶段也更高效、成本更低。从 DeepSeek 给出的各大模型 API 定价（开发者可以通过 API 调用大模型，实现文本生成、对话交互、代码生成等功能），能看出成本其低于 "OpenAI 们 "。通常认为，高开发成本的 API 通常需要通过较高的定价来回收成本。DeepSeek-R1 的 API 定价为：每百万输入 tokens1 元（缓存命中），每百万输出 tokens16 元，反观 OpenAI 的 o3-mini，输入（缓存命中）、输出每百万 tokens 的定价，分别为 0.55 美元（4 元人民币）、4.4 美元（31 元人民币）。缓存命中，即从缓存中读取数据而非重新计算或调用模型生成结果，可以减少数据处理的时间、降低成本。行业通过区分缓存命中和缓存未命中，从而提高 API 定价的竞争力，低价也让中小企业也更容易接入。近期结束了优惠期的 DeepSeek-V3，虽然从原来的每百万输入 tokens0.1 元（缓存命中）、每百万输出 tokens2 元，分别上调到了 0.5 元、8 元，价格仍然低于其他主流模型。虽然大模型总训练成本很难预估，但从业者一致认为，DeepSeek 可能代表的是目前一流大模型的最低成本，未来各家应该会参照 DeepSeek 往下降。DeepSeek 的降本启示DeepSeek 的钱省在哪了？综合从业者的说法，从模型结构 - 预训练 - 后训练，每个方面都做了优化。比如为了保证回答的专业性，很多大模型公司采用的是 MoE 模型（混合专家模型），即面对一个复杂难题，大模型会将其拆解为多个子任务，然后将不同子任务交给不同专家解答。虽然很多家大模型公司都曾提到过这一模型，但 DeepSeek 达到了终极专家专业化水平。秘诀是采用了细粒度专家分割（对专家在同一类别中再进行子任务细分）和共享专家隔离（隔离部分专家减轻知识冗余），这样做的好处是，能大幅提高 MoE 参数效率和性能，做到更快更准确给予答案。有从业者估算，DeepSeekMoE 相当于仅用大约 40% 的计算量，便达到了与 LLaMA2-7B 差不多的效果。数据处理也是大模型训练的一道坎，各家都琢磨着如何提高计算效率，同时还能降低内存和带宽等硬件需求。DeepSeek 找到的方法是，在处理数据时用 FP8 低精度训练（用于加速深度学习训练），" 此举在已知开源模型中比较领先，毕竟大多数大模型使用的是 FP16 或 BF16 混合精度训练，FP8 的训练速度比它们快很多。" 刘聪表示。后训练中的强化学习上，策略优化是一大难点，可以理解为让大模型更好地进行过决策，比如 AlphaGo 通过策略优化学会了如何在围棋中选择最优的落子策略。DeepSeek 选择 GRPO（分组相对策略优化）而非 PPO（近端策略优化）算法，两者的主要区别在于在进行算法优化时，是否借助价值模型，前者通过组内相对奖励来估计优势函数，后者用的是单独的价值模型。少一个模型，算力要求自然更小，也会节省成本。以及推理层面上，用多头潜在注意力机制（MLA）而非传统的多头注意力（MHA），显著降低了显存占用和计算复杂度，最直接的好处是，API 接口费用下降。不过，这次 DeepSeek 给刘聪的最大启发是，可以从不同角度提升大模型推理能力，纯模型微调（SFT）和纯强化学习（RLHF）都可以做出不错的推理大模型。也就是说，目前做推理模型，可以有四种方式：第一种：纯强化学习（DeepSeek-R1-zero）第二种：SFT+ 强化学习（DeepSeek-R1）第三种：纯 SFT（DeepSeek 蒸馏模型）第四种：纯提示词（低成本小模型）" 之前圈内都是标注 SFT+ 强化学习，大家都没有想到，原来做纯 SFT 和纯做强化学习，也能得到很好的效果。" 刘聪表示。DeepSeek 的降本不仅给从业者带来了技术上的启发，也影响着 AI 公司的发展路径。英诺天使基金合伙人王晟介绍，AI 产业在跑通 AGI 方向上往往有两种不同的路径选择：一个是 " 算力军备 " 范式，堆技术堆钱堆算力，先把大模型性能拉至一个高点，再考虑产业落地；另外一个是 " 算法效率 " 范式，一开始就以产业落地为目标，通过架构创新和工程化能力，推出低成本高性能模型。"DeepSeek 的一系列模型证明了，在天花板涨不动的情况下，把重点放在优化效率而非能力增长上的范式具有可行性。" 王晟称。从业者们相信，未来随着算法的进化，大模型的训练成本还会进一步降低。方舟投资管理公司的创始人兼 CEO" 木头姐 " 曾指出，在 DeepSeek 之前，人工智能训练成本每年下降 75%，推理成本甚至下降 85% 到 90%。王晟也曾表示，年初发布的模型到年底再发布同样的模型，成本都会有大幅度下降，甚至有可能降至 1/10。独立研究机构 SemiAnalysis 在最近一篇分析报告中指出，推理成本的下降是人工智能不断进步的标志之一。原来需要超级计算机、多张 GPU 才能完成的 GPT-3 大模型性能，现在一些安装在笔记本电脑上的小模型也能实现同样效果。而且成本也下降了很多，Anthropic 首席执行官 Dario 认为，算法定价成朝着 GPT-3 质量发展，成本已经降低 1200 倍。未来，大模型的降本速度还会越来越快。

koa12jJid0DL9adK+CJ1DK2K393LKASDad

编辑:于学忠

TOP1热点：离谱！“老公去世”短视频最后竟卖上洗发水

　　国务院发展研究中心农村经济研究部部长叶兴庆表示，五年前一说到山东农业，想到的还是大棚、农业产业化、农产品出口，但在打造乡村振兴齐鲁样板的过程中，山东的农业已经发生了实质性变化，令人印象深刻。。

　　1993年8月至2008年4月，任中国工商银行房地产信贷部副处长，计划财务部处长，人力资源部副总经理（组织部副部长），计划财务部副总经理，深圳分行副行长，计划财务部总经理，股份制改革办公室主任，战略管理与投资者关系部总经理，董事会秘书（1997年至1998年在英国剑桥大学学习）

TOP2热点：恒基兆业地产创始人李兆基去世，享年97岁

　　美国联邦政府首次正式涉足人工智能监管领域是在2020年1月，当时发布了《人工智能应用监管指南》，为新出现的人工智能问题提供监管和非监管措施指引。2021年出台的《2020年国家人工智能倡议法案》更多算是在AI领域的政策布局，与人工智能治理和强监管还有一定距离。一年后，白宫于2022年10月发布的《人工智能权利法案蓝图》（简称“《蓝图》”）为人工智能治理提供了支持框架，但并不是美国官方政策，不具备约束力。

　　从市场份额上看，自主品牌正在进一步蚕食合资品牌的市场。然而，在自主品牌逐渐占领A级轿车、A级SUV、B级SUV、C级SUV甚至MPV市场后，中级轿车市场却依然被外资品牌牢牢把控。

TOP3热点：回访“胖猫”事件：94.6吨外卖堆满长江大桥，造谣的烂摊子谁来买单欧美性受XXXX黑人XYX性爽

　　包括智联招聘、前程无忧、BOSS直聘、58同城等网络招聘在内的人力资源市场，已成为劳动者求职和用人单位招聘的主渠道。截至2022年底，全国共有各类人力资源服务机构6.3万家，从业人员104.2万人，当年全行业为3.1亿人次劳动者提供了各类就业服务，为5268万家次用人单位提供了专业支持。

　　6月29日，辽宁省沈阳市报告1例疑似猴痘病毒感染病例，该病例经辽宁省、沈阳市疾控中心实验室检测及中国疾控中心复核，实验室检测结果为猴痘病毒核酸检测阳性，经临床专家组会诊，7月3日，诊断为猴痘病毒感染确诊病例。目前患者正在定点医疗机构进行隔离治疗，情况稳定。

TOP4热点：啄木鸟发布整改承诺书：全面核查投诉订单，价格透明化改革成品人和精品人的区别

　　随后，界面新闻记者致乾泰新材料，一位工作人员表示，目前没有伤亡人员。事故的原因可能是真空泵出了故障。对方称“我们现在正在做笔录”，随后挂断了电话。

　　根据乘联会的数据，Model 3销售了2.72万辆，同比增长124%，登顶 5月中级轿车销量排行榜；比亚迪汉销售了2.04万辆，同比下降15%，排至第二位；凯美瑞销售1.89万辆，同比下降16%，排名第三。随后依次是宝马3系，5月销售1.58万辆，同比下滑4%；迈腾销售1.51万辆，同比增长7%；奥迪A4销售1.22万辆，同比下滑10%；奔驰C级销售1.19万辆，同比下滑10%；雅阁销售1.19万辆，同比增长2%；艾瑞泽8销售0.71万辆；帕萨特销售0.67万辆，同比下滑59%。

TOP5热点：央视“3·15”晚会曝光“翻新卫生巾”，交易所紧急问询三家上市公司16岁MACBOOKPRO日本

　　国务院发展研究中心农村经济研究部部长叶兴庆表示，五年前一说到山东农业，想到的还是大棚、农业产业化、农产品出口，但在打造乡村振兴齐鲁样板的过程中，山东的农业已经发生了实质性变化，令人印象深刻。

　　华泰证券认为，‍‍‍‍‍‍‍‍‍‍‍‍在燃油车时代，大众、别克、福特等合资品牌的销量主力车型多在 20 万元以上，合资车企占据了20万元以上的大部分市场。而从2018 年开始，合资品牌竞争力受到挑战，开始通过大额优惠来稳定市场份额。

TOP6热点：315晚会曝光第一批涉事企业名单brandilovemissionaryaction

　　北京万商天勤（杭州）律师事务所执行主任彭晓燕告诉《中国新闻周刊》，《人工智能法案》除适用于欧盟境内，还规范位于欧盟之外、但系统输出数据在欧盟使用的系统提供方或使用者。极大扩展了法案的管辖适用范围，也可以窥见抢占数据要素管辖范围的端倪。

　　中国是国际海洋法治的坚定捍卫者和建设者，致力于通过谈判协商妥善解决争端。我们敦促有关国家停止损害中方领土主权和海洋权益以及导致局势复杂化的言行。中国军队将密切关注形势变化，采取坚决有力措施，坚定捍卫国家主权、安全、发展利益。

TOP7热点：韩国后知后觉成美国的 “敏感国家”，尹锡悦弹劾案混乱引发盟友危机一面膜上边一面膜下边视频

　　本届女篮亚洲杯，韩旭是这支队伍的绝对核心。此前4场比赛，场均出场30.7分钟，得到21分12.3篮板2.2盖帽效率值29.3，这4项数据均高居赛会第一，成为本届女篮亚洲杯MVP的头号热门人选。

　　明年起岛内所谓“义务兵役”将延长至1年，台教育主管部门推出所谓“大学当兵3+1”（三年读书、一年当兵）政策配合，侯友宜对此表态反对，承诺若当选会确保两岸稳定和平，恢复4个月役期，却遭民进党批评。

TOP8热点：中办、国办印发《提振消费专项行动方案》有线高清电视线SYWV75

　　林武表示，山东第一产业要稳定，一是“把地管好”，特别是基本农田、高标准农田，要管到位，为粮食安全奠定好的基础，同时，最关键的是“种子+科技”，好的种子既是收成的保障，也是增产的保障。

TOP9热点：言短意长｜南大为何周日赶赴苏州开大会？铜铜铜铜铜铜铜铜铜好多水

　　“美国与荷兰政府正计划实施立法，进一步限制对华销售芯片制造设备，中方对此有何评论？”这是昨天（6月30日）外交部例行记者会上，路透社记者的发问。

　　据台湾“中央社”报道，日本岸田政府此前曾提所谓“台湾有事即日本有事”，但冲绳知事玉城丹尼近日表示，决不允许因这一论调使冲绳沦为战场。对于日本传出反对声浪，台外事部门今（4）日紧急回应称，地方县长的发言，不能代表日本政府的立场。

TOP10热点：南部战区海军一架战斗机训练失事，飞行员成功跳伞可以对女孩子做什么都可以的手游

　　一是战略物资，事关国家安全和利益；二是这些物项与半导体密切相关。按照专家的说法，镓和氮化镓是第三代半导体的关键材料，锗、砷化镓是第二代半导体的关键材料。我们常说的芯片，就是硅、碳化硅和镓、锗及相关物项合成的，镓更是被称为“半导体工业新粮食”“半导体贵族”。海外媒体认为，中国限制出口这两种稀有金属及相关物项，从根本上制约了高端芯片的制造，是对美国荷兰日本等国限制对华芯片及技术出口的对等反制。你对中国限制出口高端芯片及相关技术，中国则对你限制出口稀有金属，你有技术但没有材料，一样造不出芯片。从全球产量看，中国的镓金属产量占全球的90%到95%，锗金属的产量占全球68%到80%，中国限制出口，对半导体产业会形成立竿见影的连锁反应，尤其在高端芯片方面。

　　他说，要抓实专项整治，进一步找准查实突出问题、完善整改整治方案，形成更全面、更有分量的问题清单，实行台账式管理、项目化推进。

发布于：广元市

女生让男生随便诵自己的名字DeepSeek们的成本，是怎么计算的？_女生让男生随便诵自己的名字ZAKER新闻

女生让男生随便诵自己的名字DeepSeek们的成本，是怎么计算的？_女生让男生随便诵自己的名字ZAKER新闻