香蕉国产满血香蕉国产版DeepSeek免费用,7种国产AI芯片打通!一条“中国特色”算力路线浮出水面_ZAKER新闻
满血香蕉国产版DeepSeek免费用,7种国产AI芯片打通!一条“中国特色”算力路线浮出水面_ZAKER新闻
冯科同时也提到,外资进入中国房地产有一定的准入门槛,其实体交易需要经过商务部严格审批,住宅类项目投资比例被限制在1%-3%左右,商业写字楼的收购审批流程较长,多则半年,其间项目价格可能会发生变化。
智东西(公众号:zhidxcom)作者 | ZeR0编辑 | 漠影DeepSeek 的爆火,让一条 " 中国特色 " 的算力路线浮出水面。智东西 2 月 11 日报道,今日,AI 基础设施创企无问芯穹上线了满血版 DeepSeek-R1 的国产适配版,且正逐一打通 DeepSeek 模型在 7 家国产 AI 芯片上的部署与推理服务。至此,无问芯穹 Infini-AI 异构云大模型服务平台成为首个同时支持 DeepSeek 多芯片适配和推理的平台。开发者不仅能一键获取 R1、V3 模型,还将能选用来自壁仞科技、海光信息、华为昇腾、摩尔线程、沐曦、燧原科技、天数智芯这 7 家国产 AI 芯片品牌的算力。无问芯穹演示了在 Infini-AI 平台上顺畅调用 DeepSeek-R1 模型及沐曦 C550 AI 加速卡的流程和效果。这将 DeepSeek 擂响的 " 国产算力替代 " 战鼓声,推至新的高潮。比起仅仅比拼模型精度优势的竞速赛,时代的气运已经将 AI 竞赛的焦点,推向一场更大组织之间完整产业链实力的比拼。技惊四座的 DeepSeek 大模型,用一系列创新打破了 AI 算力的游戏规则,降低了训练顶尖模型所需的硬件门槛,令本土替代雄心高涨。但如何利用好 DeepSeek 模型带来的算力优化启示,高效盘活国产算力资源?这个难题依然待解。DeepSeek 引爆的国产算力狂欢能持续多久?狂欢过后,国产 AI 芯片的路又该如何往前走?其论文提出对未来硬件设计的发展建议对国产芯片有何参考价值?国产大模型的发展会对算力紧缺和算力闲置并存的现象产生何种影响?未来大模型训练的比拼是否会演变为系统能力主导?近日,智东西独家对话无问芯穹联合创始人兼 CEO 夏立雪,深入探讨在算力受限的条件下,国产模型、AI 芯片及智算产业如何从 DeepSeek 的成功汲取经验,通过精耕细作来降低算力成本,发挥出国内智算资源的实用价值。▲无问芯穹联合创始人兼 CEO 夏立雪一、用有限算力训练更大模型:解读 DeepSeek 的技术秘籍,如何做到对算力的极致利用?DeepSeek 大语言模型共发布了 3 个大版本,参数规模从 67B 扩大到 236B 再到如今 671B,所用的训练算力并未与模型尺寸等比例的成倍增长。在美国芯⽚封锁的背景下,DeepSeek 通过算法、架构、⼯程的软硬件协同优化创新,以有限算⼒、超低成本实现了性能比肩顶尖国外模型的国产模型,印证了软硬协同这一技术路线对推动 Scaling Law、突破算⼒瓶颈的有效性和巨⼤潜力。具体表现为两大类方法:一是深⼊到底层硬件的硬核优化——需要对底层的硬件有充分理解,并能够在硬件层⾯得到⾜够开放的软件⽣态。典型技术包括底层 PTX 编程、精细流⽔线编排、极致的内存优化。底层 PTX 编程:DeepSeek 团队通过⽐ CUDA 更底层的硬件接⼝编程实现更精细的通信任务管理,将跨节点通信的效率提⾼了 60%,比起 " 绕开 CUDA" 更像是 " 穿透 CUDA"。精细流水线编排:采⽤混合专家(MoE)结构,通过缩减模型激活参数量和限制通信范围,牺牲通信换取模型规模增⼤,再通过细致的计算通信编排,实现了通信时间和计算时间将近 100% 重叠,成功掩盖这些开销。极致的内存优化:通过参数共享、计算换存储、协同使⽤内存显存等技术,将显存需求量降低了 1/4 以上,有效改善显存开销对限制模型规模的影响。二是打通从算法到硬件的协同优化——需要对于从算法到硬件各层次都有充分理解,并具有极致的⼯程实现能⼒。典型技术包括:模型结构配合系统需求、使⽤更低精度训练、MoE 负载均衡。模型结构配合系统需求:修改标准 Transformer(存储⼤量计算中间结果会严重制约模型能处理的上下度),使⽤隐空间注意⼒计算机制 MLA,计算换存储,在有限显存中完成注意⼒计算。在⼏乎不损失算法精度的情况下,将显存占⽤量降低 1-2 个数量级。使⽤更低精度训练:通过算法上的精细分组量化、系统上 CUDA 核⼼与张量核⼼的并⾏计算,结合⼤量数据实验,率先实现了利用英伟达 H800 上 FP8 低⽐特计算单元训练出⾼质量模型,充分榨⼲硬件潜⼒。MoE 负载均衡:在 MoE 常⽤的负载均衡损失函数外,额外加⼊了限制极端情况的损失限制,并提出 Auxiliary-Loss-Free 技术减少负载均衡限制导致的模型精度损失,不仅将负载不均衡程度从超过 50% 降低到 5% 以内,也保证了 MoE 训练精度。⽂⻓依托于深厚的系统能力,DeepSeek-R1 是第⼀个成功使⽤强化学习实现推理能⼒增强、达到世界最优性能,并完全开源的类 OpenAI o1/o3 ⽅案。DeepSeek-R1-Zero 更是探索出一条全新的无需人类思考数据,直接自我迭代的技术路线,对大模型技术发展起到了深刻影响。二、DeepSeek 的软硬件优化策略,对国产算力产业有哪些启示?软硬件联合优化是连接硬件和算法的桥梁,区别于各种算法层面优化方法,和硬件本身迭代的方法,而是随着硬件变化,让软件也不断优化,或根据软件的迭代来定义未来的底层电路实现,以更好地⽀持 AI 算法的运⾏。夏立雪认为,DeepSeek 通过软硬件协同降低算⼒成本,给国内的启⽰在于这套⽅法论可以打破现在的闭环⽣态瓶颈。在美国,模型、系统、芯片三个关键因素已经形成闭环生态。而国内多数大模型是通过国外芯⽚(如英伟达)训练得到的,与国内的系统、芯⽚难以形成闭环。未来,中国需要依托国产模型、国产芯⽚、国产系统,形成⾃主可控的全国产 AI ⽣态闭环。实现这个⽬标需要分三步⾛:第⼀步,⾯向国外芯⽚开展极致的软硬件协同优化,以有限算⼒实现国产模型能⼒追赶国外模型。DeepSeek 已经成功完成了第⼀步的探索,依托极致的软硬件协同优化,⽤ 2048 块 H800 GPU 完成了 V3 模型的预训练,整体训练成本仅为 558 万美元。而海外训练同等能⼒模型所需的成本通常⾼达数千万美元。第⼆步,依托国产和国外芯⽚搭建 " 异构 "AI 系统,解决算⼒缺⼝以实现国产模型能⼒超越国外模型。据估算,OpenAI 正在研发的 GPT-5 模型的参数量预计是 GPT-4(参数量 1800B)的 5 到 10 倍,⾄少需要 5 万块 H100 GPU 进⾏训练。我国现有符合条件的算力储备和供给,距离实现自主可控的下一代模型能力超越,仍有较大算力缺口,需要搭建⼀套开放⽣态的异构 AI 系统,推动国产芯⽚⼚商开放底层软件⽣态,实现国产算⼒的优势资源集聚。第三步,构建国产芯⽚ " 同构 "AI 系统,软硬协同垂直打通实现国产模型 Scaling Law 的持续发展。国外闭环 AI ⽣态是⼀个同构的 AI 系统,核⼼竞争⼒在于 CUDA-X 的垂直整合能⼒。国内可通过调动跨越软硬件和上下游的⽣态,加⼤投⼊ " 模型 - 芯⽚ - 系统 " 协同优化和垂直打通。例如根据新⼀代模型架构来定义未来芯⽚的底层电路实现,根据国产 AI 系统的互联通信⽅式来设计⾼效的 MoE 模型结构,充分整合上层模型、中间系统、底层芯⽚的产业链资源,集中优势资源,助⼒实现国产模型 Scaling Law 持续发展。在夏立雪看来,未来大模型训练的比拼,要同时考虑算法精度、系统效率甚⾄是国家战略。这需要沿着软硬件协同的路径,考虑中美差异,兼顾模型、系统与芯⽚,最终实现模型训练和落地成本的指数级降低,去牵引更⼤范围的产业升级。三、国产 AI 芯片大练兵,用 " 系统自信 " 调动 " 算力自信 "对于国内智算产业来说,DeepSeek 是激励,更是绝佳的商业化试炼场。DeepSeek 刺激应用需求暴涨,激发了大量推理算力需求。几乎主流云厂商均已宣布提供 R1 模型服务,但全网还是很难找到服务不繁忙的 " 满血版 "。在推理需求愈发旺盛的背景下,国产算力还有很大被利用的空间。完善国内算⼒基建迫在眉睫。以前,国产 AI 芯片各行其是,各自豪言支持大模型部署,奈何观望者众多,实际使用者寥寥。现在 DeepSeek 相当于将 AI 芯片公司拉到同一个考场,给出统一考题:你的芯片能不能支楞起来?于是在短短 10 天内,20 家国产 AI 芯片企业摩拳擦掌,各显其能,争相适配或上线 DeepSeek 模型,以期抓住这千载难逢的增长机遇。这反映了中国当前特有的 AI 基础设施格局:有的是芯片和算力资源,只是没被利用起来。如何将大量不同架构的国产芯片变得能用、好用,并在使用过程中形成硬件与算法之间的正向循环?无问芯穹的策略是做异构云,即统筹模型和算力需求,把分散在不同地方的异构算力整合起来,实现不同模型和不同硬件之间的统⼀部署和联合优化,提供给需要算⼒和模型的客⼾。这种将异构算力资源统一转化成标准的算力服务、规模化复制的做法,有助于扩⼤国内⼤模型产业可⽤算⼒的范围,提升算⼒利⽤效率。无问芯穹由清华大学电子工程系教授、系主任汪玉发起,他带领的清华大学纳米集成电路与系统实验室高能效计算组(NICS-EFC)早在 2018 年总结出软硬件联合优化技术路线。无问芯穹联合创始人、CEO 夏立雪,联合创始人、首席科学家戴国浩,均毕业于 NICS-EFC;联合创始人、CTO 颜深根现任清华大学电子工程系副研究员。这些背景使得无问芯穹吸纳了 AI 基础设施领域的头部研发人才,足够了解在⼤模型各种场景下的异构计算卡性能,并与多家硬件公司有充分信任关系。其推理加速技术 Flash Decoding++ 通过异步⽅法实现注意⼒计算的真正并⾏,在 10+ 种芯⽚上实现⾏业第⼀推理加速效果。夏立雪谈道,做国产芯⽚适配的主要挑战来自硬件⽣态系统封闭且互不兼容,不同芯⽚有着不同的架构和相应⼯具链。比如⽤ A 卡的开发者,⽆法轻易迁移⾄ B 卡上展开⼯作,也很难同时⽤ A 卡和 B 卡做⼤模型训练或推理。如果⼀个算⼒集群中存在多种芯⽚,算⼒使⽤⽅会⾯临很多技术挑战,⽐如不同硬件平台适配不同的软件栈和⼯具链,需要为每种芯⽚定制和优化代码,令开发和维护的复杂性⼤增。去年 7 ⽉,无问芯穹就在业内⾸次实现千卡规模的 4+2 种芯⽚(天数智芯、华为昇腾、沐曦、摩尔线程与 AMD、英伟达)异构混训,集群算力利⽤率最⾼达到 97.6%,其运营算力已经覆盖全国超 13 座城市。据夏立雪分享,在不稳定的生态环境中,需要一个从算法、硬件到模型都深入理解的团队,无问芯穹便具备这样的全栈垂直优化能力。无问芯穹也在持续跟进业界领先的模型架构,未来如果有更专⽤的、针对模型结构的计算芯⽚出现,则可以更好地利⽤这些专⽤计算芯⽚,软硬协同优化,减少模型计算时间和硬件资源需求,降低⼤模型的开发应⽤成本。结语:产业链⾃主可控是长远之策,盘活国产智算资源一盘棋今年春节,DeepSeek 和《哪吒之魔童闹海》两匹国产黑马,扭转了中国企业技不如人的成见,也例证了只要实力强,自有不分国界的人鼓掌。西方的经验毕竟是过往,未必全对。在劈开算力封锁的路上,DeepSeek 踏出了成功的一步,接下来的 " 国产模型 + 国产算⼒ + 国产云服务 + 国产应⽤ " 全国产化 AI 之路,还要靠产业链上下游的生态伙伴合力闯出来。近期,MIT 科技评论的一篇《除 DeepSeek 之外值得关注的 4 家中国 AI 初创公司》报道引起广泛关注。无问芯穹是其中唯一一家专注于 AI 基建和算力供给、让现有算力资源发挥出价值的公司。DeepSeek 证明了利用有限算力加上软件和工程创新,足以做出强大的模型,也让国际意识到中国还存在若干路径独特的团队,正在探寻 " 用 Scaling Law 比拼模型精度的巨头竞赛 " 之外可能出奇制胜的路径。这些路径能够跨越软硬件,攒动上下游,从而产生意外的战略奇袭。最终,只有中国 AI 开发应用成本降下来、中国算力资源用起来,才能摆脱算力限制和算力闲置的掣肘,推动实现千行百业的大模型应用繁荣。koa12jJid0DL9adK+CJ1DK2K393LKASDad
编辑:郑义
TOP1热点:柬埔寨驱逐119名涉诈泰国人
对此,北京大学经济学院金融系教授冯科向《环球时报》记者表示,海外资本进入中国房地产,与它们趁日元颓势“抄底”日本房地产的性质完全不同。。
毛宁16日在例行记者会上表示,散布虚假信息,并以此为借口打压中方有关企业已经成为美国政府的惯常做法,中方对此坚决反对。美方应采取负责任的方式,切实尊重和遵守公平、开放和非歧视的国际规则。
TOP2热点:冉莹颖带儿子打生长激素被偶遇
另据彭博社16日报道,美国国家反情报与安全中心宣称,该机构已向学术机构发布新版“反间谍指南”,“以阻止来自中国和其他地方为获取新兴技术学术研究成果而实施的间谍和黑客活动”。
中国社会科学院教授李景国也向《环球时报》记者表示,此次黑石收购仓库项目,可能表明该公司看好中国的物流产业,有意向该领域布局。
TOP3热点:济南暴雪里扎堆冒出“推车侠”日本乡下有许多亲近相尾换伴
对此,北京大学经济学院金融系教授冯科向《环球时报》记者表示,海外资本进入中国房地产,与它们趁日元颓势“抄底”日本房地产的性质完全不同。
TOP4热点:孙正义被曝拟借款240亿美元投资AI海角披风少年一镜到底
比利时欧洲新闻网称,10月24日,高盛资产管理和森瑶中国宣布成立合资公司,寻求中国一线城市及周边核心地区优质物流资产及其他新基建投资的机会。高盛表示,新平台将受益于中国对新的高质量基础设施资产日益增长的需求。
一位港资开发商相关负责人向《环球时报》记者透露,外资开发商之所以在近两年出手,主要是因为它们在财务方面比较谨慎,目前还拥有较为充裕的现金流。
TOP5热点:美方:为结束冲突俄乌均需让步黑料老司机不打烊今日头条
据江苏卫健委,11月16日0-24时,江苏新增本土确诊病例26例(南京市9例,其中1例为无症状感染者转为确诊病例;无锡市1例;苏州市1例;南通市1例,为无症状感染者转为确诊病例;连云港市11例,其中1例为无症状感染者转为确诊病例;淮安市2例;盐城市1例,均在定点医院隔离治疗),新增本土无症状感染者132例(南京市5例,无锡市4例,徐州市10例,常州市3例,苏州市46例,南通市11例,连云港市32例,淮安市1例,盐城市9例,扬州市6例,镇江市1例,宿迁市4例,均在定点医院接受隔离医学管理)。其中外省来苏返苏人员91例;处于集中隔离、居家隔离等管控状态的有118例。
另据彭博社16日报道,美国国家反情报与安全中心宣称,该机构已向学术机构发布新版“反间谍指南”,“以阻止来自中国和其他地方为获取新兴技术学术研究成果而实施的间谍和黑客活动”。
TOP6热点:柬埔寨驱逐119名涉诈泰国人可以强互动女性脱卸衣服游戏
中国社科院金融研究所原研究员易宪容告诉《环球时报》记者,外资收购中国大宗物业是普通商业行为,其花费有限资金“购买一些未来可能有用的商业项目”。
TOP7热点:美财长:目前没有与乌讨论矿产协议无人区编码6228
台湾《中国时报》17日引用分析师的话称,当局推出相关补助政策,有利岛内半导体厂商的竞争力,但目前半导体库存调整,成熟制程的产能利用率下滑明显,厂商营收和获利将被影响,因此对相关个股持中立的看法。
冯科同时也提到,外资进入中国房地产有一定的准入门槛,其实体交易需要经过商务部严格审批,住宅类项目投资比例被限制在1%-3%左右,商业写字楼的收购审批流程较长,多则半年,其间项目价格可能会发生变化。
TOP8热点:骑士18分逆转开拓者win11能玩AI少女
另据彭博社16日报道,美国国家反情报与安全中心宣称,该机构已向学术机构发布新版“反间谍指南”,“以阻止来自中国和其他地方为获取新兴技术学术研究成果而实施的间谍和黑客活动”。
TOP9热点:特朗普宣布建立美国加密货币储备伊犁职业技术学院招生时间
据他介绍,二战后,美国占领军强迫日本政府开放金融市场,导致如今日本汇率市场和房地产市场处于完全自由化的状态,因此黑石等外资能够直接进入进行“抄底”。而中国对外汇和外资在华进行房地产投资有严格管制,所以外资不可能像抄底日本房地产那样在中国市场进行所谓“抄底”。
毛宁16日在例行记者会上表示,散布虚假信息,并以此为借口打压中方有关企业已经成为美国政府的惯常做法,中方对此坚决反对。美方应采取负责任的方式,切实尊重和遵守公平、开放和非歧视的国际规则。
TOP10热点:雷军回应柯洁约其下盘棋现住址区码
美国长期以“国家安全”为名打压TikTok。美国前总统特朗普于2020年发布行政命令,禁止TikTok在美国运营,但在针对该措施的一系列法庭诉讼中败诉。现任总统拜登于去年6月撤销特朗普的一系列行政命令,并命令商务部对相关应用程序带来的安全问题进行审查。据路透社报道,TikTok今年6月已完成将美国用户的数据信息迁移到甲骨文公司的服务器,从而解决美国监管机构对数据完整性的担忧。然而,美国联邦通信委员会委员布兰登·卡尔本月1日仍建议美国外国投资委员会采取行动禁止TikTok。
一位港资开发商相关负责人向《环球时报》记者透露,外资开发商之所以在近两年出手,主要是因为它们在财务方面比较谨慎,目前还拥有较为充裕的现金流。