在线观看特色大片免费网站DeepSeek,能颠覆AI竞赛规则吗?在线观看特色大片免费网站
DeepSeek,能颠覆AI竞赛规则吗?在线观看特色大片免费网站
晨光中的一汽红旗创新大厦(2023年7月13日摄,无人机照片)。新华社记者张楠摄
「核心提示」一家中国大模型公司,如何另辟蹊径,改变牌局?作者 |周可邢昀这个春节假期,无论你是不是科技新闻的长期读者,大概率逃不过一款名为 DeepSeek的AI产品相关资讯持续刷屏。一切始于1月20日,中国科技公司深度求索推出推理模型DeepSeek-R1,仅用 OpenAI十分之一的成本就达到其最新模型GPT-o1同级别的表现。此前,深度求索宣布其推出的DeepSeek-V3仅花费558万美元,不到国外公司十分之一的GPU芯片和训练时长,就实现了与GPT-4o和Claude Sonnet 3.5等花费数亿美元训练的顶尖模型相当的性能。这一消息迅速激起全球科技界持续关注。R1发布后的十天内,DeepSeek先后登上中国、美国等70多个国家苹果应用商店下载榜榜首。这是全球范围内,首次有产品超越OpenAI的ChatGPT。几年来,AI竞赛的焦虑第一次传导到美国科技公司。DeepSeek火爆之下,对算力需求是否产生负面影响的讨论,也引发了华尔街恐慌。1 月27日,美国主要科技股市值开盘缩水超1万亿美元,英伟达股价带头跳水 16.86%,市值蒸发5890亿美元,相当于跌没了两个阿里巴巴。甲骨文下跌 13.78%,超微电脑下跌 12.49%,芯片制造商博通下跌 17.4%,台积电跌 13%。科技股股价暴跌的同时,美国科技公司开始研究、模仿中国对手。据报道,Meta已成立四个小组专门研究DeepSeek。同时,更多质疑和围剿也接踵而至。过去几年的AI竞赛中,中国互联网和科技公司始终是美国公司的跟随者,中国公司只能寄希望于用更多的资源投入追赶对手,但风向始终由OpenAI、Meta为代表的美国公司掌握。2022年起,美国政府宣布升级芯片出口管制,此后多次更新出口限制清单,限制高算力芯片出口,中国AI企业普遍陷入算力焦虑。DeepSeek最新模型的出现,打破了大模型发展沦为巨头与资本游戏的行业共识,为业内追赶美国大模型的中国公司们提供一条新的思路:绕过美国堆算力的技术路径,优化算法、探索效率优先,走一条“低成本高产出”一路,也可以实现弯道超车。1、量化基金背景的大模型,如何弯道超车?在本次新模型发布引发全球关注后,一些国外媒体和投资者一度将DeepSeek称为一家不知名的中国公司。这种描述并不准确。DeepSeek背后的深度求索是一家创立于2023年的年轻公司,但其母公司幻方量化,是管理了超过1000亿元资产的国内头部量化交易公司,在多年前就开始涉足AI 研究。DeepSeek创始人梁文锋最早开启AI研究的初衷是,用GPU计算交易仓位,训练量化交易模型。此后,出于探索AI能力边界的好奇,他们囤积了过万块先进GPU芯片开始训练AGI模型,储备量接近国内一线互联网公司,高于大模型创业六小龙。这为DeepSeek日后的模型进展打下了基础。DeepSeek也不是突如其来地“惊艳”所有人,在近期推出的V3和R1模型之前,它就曾以带头打响大模型价格战而在国内AI行业引发关注。2024年5月,DeepSeek发布DeepSeek-V2 ,价格仅为GPT-4-Turbo的近百分之一。此后的30天,字节、百度、阿里等公司的大模型相继降价,DeepSeek更是一年内3次降价,每次降幅超过85%。降价,来自训练和推理成本的持续降低。相比OpenAI和它的中国效仿者们用数亿美元训练大模型,DeepSeek选择了一条更“抠门”,更“极致”的路线。它的研究人员提出的一种新的MLA(一种新的多头潜在注意力机制)架构,与 DeepSeek MoESparse (混合专家结构)结合,把显存占用降到了其他大模型最常用的MHA架构的5%-13%。行业通常用数万亿token(文本单位)训练模型,但DeepSeek通过“数据蒸馏”技术,即用一个高精度的通用大模型当老师,而不是用题海战术来更高效训练学生“模型”,把数据计算最大程度降低,仅用1/5的数据量达到同等效果,促成了成本的下降。一个通俗的举例可帮助我们理解这种变化,传统大模型每次处理问题都需激活全部参数,而普通用户提出的问题可能并不需要如此多的资源投入,这如同让一家医院的全部科室去会诊一个普通感冒;而DeepSeek-R1会先判断问题类型,再精准调用对应模块——数学题交给逻辑推理单元,写诗则由文学模块处理。这种设计让模型响应速度提升3倍,能耗也更低。更快速度和更低能耗,建立在“低成本、高性能”的初始规划上。DeepSeek通过算法优化显著降低训练成本。R1 的预训练费用只有557.6万美元,在2048块英伟达H800 GPU(针对中国市场的低配版GPU)集群上运行55天完成。此前,OpenAI等企业训练模型,都需要数千甚至上万块高算力的Nvidia A100、H100等顶级显卡,花费数亿美元的训练成本。并非 OpenAI 或者中国大公司的大模型开发者们没有想到过此类模块化方案的可能性,而是他们权衡利弊,选择了更适合自身发展情况的方案。OpenAI拥有资金和算力上的绝对优势,优先追求“通用智能”,他们花费数十亿美元,通过海量参数投喂训练模型,希望模型可以达到全能通才的效果。效仿它的中国公司们沿用这一思路,可以保证自家大模型没有明显的能力短板,快速达到可商用水平。DeepSeek选择从垂直场景切入,从 all in 特定领域开始,追求在部分领域(如数学、代码)的表现更优,再逐步分阶段完善其他领域的能力。DeepSeek R1 与 OpenAI O1正式版在数学、代码、自然语言推理等任务下的测试成绩相当。这种另辟蹊径意味着更高难度,更高风险。若路由错误(例如将诗歌创作误判为数学题),输出质量将会暴跌;模块间的知识隔离(如用数学公式写情书),可能导致跨领域任务失败。如果未能开发出足够优异的模块化模型,前期的投入可能浪费。大多数公司受限于路径依赖或资源约束,难以接受All in这一高风险路线。这并不容易。早期DeepSeek的MoE模型误判率普遍在15%以上,团队通过引入强化学习优化路由决策,长期训练后模型在测试中将误判率控制在个位数的低位。多位行业人士将DeepSeek的脱颖而出理解为“模块化特种兵”,在与OpenAI等“通用巨兽”的比赛中,在部分领域展现出同等能力甚至略微领先。尽管DeepSeek的整体技术与OpenAI等美国企业存在差距,但其已经足以被视为一个实力逐渐接近的竞争对手。更关键的是, DeepSeek 跳过了美国开发者们认为必不可少的步骤,这意味着在资金、算力芯片劣势的情况下,中国乃至世界各地的AI创业公司也有可能弯道超车,不必活在大公司的阴影之下,垂直领域的专注也能帮助他们在特定场景中形成优势,避免与巨头正面竞争,找到属于自己的立足之地。2、开源模型,DeepSeek的选择与壁垒DeepSeek引起轰动,除了模型本身的优异表现,还来自其坚持的免费开源主张,公开模型的源代码、权重和架构。这意味着,无论是个人还是开发者,或是企业用户都可以免费使用其最新模型,并在此基础上开发更多应用。这一决策得到了许多行业专家和投资者的赞许。英伟达高级研究科学家Jim Fan评论称,“我们生活在这样一个时代,一家非美国公司正在让OpenAI的初衷得以延续,即做真正开放、为所有人赋能的前沿研究。”硅谷风投A16Z创始人Marc Andreessen也发表评论称,DeepSeek-R1 是他见过的最令人惊叹且令人印象深刻的一个突破,作为开源的模型,它的面世给世界带来了一份礼物。OpenAI最初是为了对抗谷歌在AI领域的垄断地位,旨在通过开源的方式促进AI技术的发展,避免谷歌在AI领域的过度控制,因此命名为 “OpenAI” 以体现其开源的愿景。但在GPT-3发布,接受微软投资后,OpenAI 出于训练成本、收益和维持其竞争力的考虑走向闭源。目前表现强劲的其他大模型,如Meta的Llama号称选择了开源路线,但许可证需要申请访问权限,限制部分商业用途,且只公开了部分架构细节,不公开具体的训练数据构成,不提供完整的训练脚本。这样的开源对于AI产业的进步意义十分有限。大多数中国大公司开发的大模型,如百度的文心一言、华为的盘古大模型等产品都选择了闭源路线,它们往往是基于商业化和竞争考量,平台型公司有足够多的资源,掌握了大量的用户数据,可以依靠自身的内部循环完成模型的训练和迭代。闭源可以让他们在模型专长的领域保持优势,避免被竞争对手赶超。DeepSeek选择开源,既是出于对传统大厂的技术垄断的挑战,也是基于自身发展情况的考量。创业公司可能在资源和算力上处于劣势,但通过开源策略,可以快速建立生态,获得更多的用户和开发者支持。DeepSeek创始人梁文锋此前谈及对于开源的构想是,成为更多公司的模型底座。哪怕一个小 APP都可以低成本去用上大模型,而不是技术只掌握在一部分人和公司手中,形成垄断。在他看来,DeepSeek未来可以只负责基础模型和前沿的创新,其他公司在 DeepSeek的基础上构建To B、To C的业务。如果能形成完整的产业上下游,就没必要自己做应用。DeepSeek所选择的模块化模型设计,如同精密的钟表——单个齿轮的工艺或许可复制,但整体协同需要长期试错与生态积累。竞争对手并不能依靠简单照搬就能复制其原始模型,越多的用户和开发者使用,则意味着模型得到更多训练。当下,DeepSeek背靠千亿量化基金,在免去资金的后顾之忧后,选择了一条颇显理想主义的路径,即只做模型研究,不考虑商业变现,通过开源基础模型吸引开发者,未来再逐步通过企业版工具链(如模块训练平台)推进商业化。今天的AI竞争格局之下,对于一家创业公司,开源不仅是技术策略,更是参与制定行业规则的关键落子。在模型能力逐渐透明的未来,真正的竞争优势将来自构建数据反馈闭环的能力,以及将技术影响力转化为商业生态的能力。这本质上是一场关于"标准制定权"的争夺——谁的开源协议能成为行业事实标准,谁就能在下一代AI基础设施中占据核心位置。中国科技公司与美国科技公司之间的差距,不是时间维度,而是创新和模仿的差别。这一次,DeepSeek 代表的中国科技公司给出的方案不再是模仿跟随,而是创新。参考资料:暗涌 Waves:揭秘DeepSeek:一个更极致的中国技术理想主义故事腾讯科技:DeepSeek除夕发布新模型,多模态大一统的革命来了?雷锋网:MoE 高效训练的 A/B 面:与魔鬼做交易,用「显存」换「性能」NYT:How Chinese A.I. Start-Up DeepSeek Is Competing With Silicon Valley Giantskoa12jJid0DL9adK+CJ1DK2K393LKASDad
编辑:王仁兴
TOP1热点:富时罗素样本调整:寒武纪、联通、国泰君安被纳入富时中国A50指数
地外采矿是在澳大利亚布里斯班举行的第26届世界采矿大会上的热门话题。据英国《卫报》报道,6月28日,美国国家航空航天局(NASA)火箭科学家杰拉尔德・桑德斯在世界采矿大会上表示,NASA希望开发月球资源,最初的开发内容包括氧气和水,最终可能扩大到铁和稀土,NASA已开始行动,并计划争取在2032年挖掘月球土壤。。
国家网信办有关负责人指出,生成式人工智能服务的发展与治理需要政府、企业、社会、网民等多方参与,共同促进生成式人工智能健康发展,让生成式人工智能技术更好地造福人民。(记者田鹏)
TOP2热点:乌总理:已准备好与美国签署矿产协议,美军援暂未停止
王青预计,短期来看,居民中长期贷款受季节性因素影响明显,类似6月份的大幅增长势头恐难在7月份持续,但再现4月份较大规模负增长的可能性也不大;从同比增幅角度来看,下半年居民中长期贷款有可能呈现稳中渐强态势。(记者刘琪)
对于3%的筹款服务费,水滴公司表示是参照了大病救助类型的行业惯例。此前,国内开展大病救助的公益慈善机构,会根据筹款总金额收取5%-10%作为项目管理费。
TOP3热点:海关总署:暂停进口美国原木,暂停美3家企业大豆输华资质大地资源网在线观看免费
根据联合国儿童基金会发布的《2023年世界儿童状况》报告,在阿富汗4岁以下儿童中,35%患有营养不良引起的中度或重度发育迟缓;在15岁至49岁女性中,43%因营养不良患有贫血。
7月12日,国家市场监管总局党组书记、局长罗文召开个体工商户座谈会,认真听取个体工商户代表经营情况、困难问题和诉求建议,就制定出台更有针对性的帮扶政策措施、促进个体工商户持续健康发展进行了深入交流。
TOP4热点:政府工作报告:制定促进生育政策,发放育儿补贴日本大但人文艺术
2003年,中交天航局计划建造一艘总装机功率8000千瓦的中大型绞吸挖泥船。一家国外疏浚行业领军设备制造商开价3亿元人民币。
TOP5热点:政府工作报告深读|扩大内需最受公募关注,预计催化这些投资机会海角乱伦
论违背历史常识,南达科他州州长诺姆堪称“个中翘楚”。今年在接受福克斯新闻网采访时,诺姆公开表示,中国有一个“摧毁美国的两千年计划”。厥词一出惊四座,美国网友都气笑了:“这些人到底是怎么当选的?他们知道美国还不到250岁吗?”
仲量联行大中华区首席经济学家、研究部总监庞溟在接受《证券日报》记者采访时表示,为加固经济基本盘,预计下一阶段的经济工作将以消费的基础作用和投资的关键作用为支持,全力扩大社会有效需求,促进消费复苏。
TOP6热点:马上评|政府工作报告“点名”这些未来产业,有何深意老公看我和别人发的关系
京东平台近五成中小商家成交额增长超200%;天猫“618”开卖4小时,手机数码家电类目超30家品牌成交额破亿元;快手电商“618”前3天订单量同比增长超70%……
TOP7热点:今年全国两会首场新闻发布会,被这些关键词和现场小细节打动有线高清电视线SYWV75
“下阶段,人民银行将继续精准有力实施稳健的货币政策,搞好跨周期调节,充分发挥货币信贷政策效能,统筹推动经济运行持续好转、内生动力持续增强、社会预期持续改善、风险隐患持续化解,促进经济良性循环。”刘国强说。
TOP8热点:美国中央情报局局长:美国已切断对乌克兰情报支持696969c大但人文艺术作品
国家网信办有关负责人指出,生成式人工智能服务的发展与治理需要政府、企业、社会、网民等多方参与,共同促进生成式人工智能健康发展,让生成式人工智能技术更好地造福人民。(记者田鹏)
TOP9热点:辽宁文旅行稳致远:双子星沈阳大连发力进阶,更多城市崭露头角一个晚上用了好几个小雨伞
当日例行记者会上,有记者问:据报道,日本政府拿出800亿日元(约合人民币41亿元)的专项基金,用于补贴福岛地区涉渔产业。中方对此有何评论?
下一步,人民银行将以保持人民币汇率在合理均衡水平上基本稳定为目标,以预期管理为核心,综合施策、稳定预期,必要的时候对市场顺周期、单边行为进行纠偏,坚决防范汇率大起大落。
TOP10热点:万斯三问欧洲:“要泽连斯基永远战斗,用谁的钱、谁的武器、谁的命?”人狗胶配方大全图片
据了解,天眼查现已覆盖全国超3亿用户,收录全国3.1亿、全球6.4亿社会实体,300多个信息维度及时更新,能为广大用户提供方便快捷、精准有效的商业查询服务。报告显示,天眼查市场渗透率近80%,被纪检、审计、税务、公安、经济管理等领域的各级党政机关和国家开发银行、中国石油、中国石化、华为、字节跳动、美团等各类企业广泛应用。
仲量联行大中华区首席经济学家、研究部总监庞溟在接受《证券日报》记者采访时表示,为加固经济基本盘,预计下一阶段的经济工作将以消费的基础作用和投资的关键作用为支持,全力扩大社会有效需求,促进消费复苏。