喝朱竹清的乳液好喝显卡可能没那么重要了?中国公喝朱竹清的乳液好喝司给硅谷好好上了一课。_ZAKER新闻
显卡可能没那么重要了?中国公喝朱竹清的乳液好喝司给硅谷好好上了一课。_ZAKER新闻
更令人关注的是,8月30日当天,与瓦格纳集团有关的社交媒体发布了一段普里戈任留下的“神秘”信息,引发一片“哗然”。在这段录制于8月下旬的视频中,普里戈任“回应了大家讨论他是否还活着”的话题。
我是万万没想到,就在西方还沉浸在圣诞假期,疯狂 " 过年 " 的时候,咱们中国企业给人家放了个新年二踢脚,给人家脑瓜子崩得嗡嗡得。前有宇树科技的机器狗视频让大家惊呼,还要啥波士顿动力。紧接着又来了个国产大模型 DeepSeek,甚至有股做空英伟达的味道。具体咋回事儿,咱给你唠明白咯。前几天, DeepSeek 刚刚公布最新版本 V3 ,注意,与大洋彼岸那个自称 Open ,却越来越 Close 的公司产品不同,这个 V3 是开源的。不过开源还不是他最重要的标签, DeepSeek-V3 ( 以下简称 V3 )还兼具了性能国际一流,技术力牛逼,价格击穿地心三个特点,这一套不解释连招打得业内大模型厂商们都有点晕头转向了。 V3 一发布, OpenAI 创始成员 Karpathy 直接看嗨了,甚至发出了灵魂提问,难道说大模型们压根不需要大规模显卡集群?我估计老黄看到这头皮都得发麻了吧。同时, Meta 的 AI 技术官也是直呼 DeepSeek 的成果伟大。知名 AI 评测博主 Tim Dettmers ,直接吹起来了,表示 DeepSeek 的处理优雅 "elegant" 。而在这些技术出身的人,看着 V3 的成绩送去赞扬的时候,也有些人急了。 比如奥特曼就搁那说,复制比较简单啦,很难不让人觉得他在内涵 DeepSeek 。更有意思的是,做到这些的公司既不是什么大厂,也不是纯血 AI 厂商。DeepSeek 公司中文名叫深度求索,他们本来和 AI 没任何关系。就在大模型爆火之前,他们其实是私募机构幻方量化的一个团队。而深度求索能够实现弯道超车,既有点必然,也好像有点运气的意思。早在 2019 年,幻方就投资 2 亿元搭建了自研深度学习训练平台 " 萤火虫一号 " ,到了 2021 年已经买了足足 1 万丈英伟达 A100 显卡的算力储备了。要知道,这个时候大模型没火,万卡集群的概念更是还没出现。而正是凭借这部分硬件储备,幻方才拿到了 AI 大模型的入场券,最终卷出了现在的 V3 。你说好好的一个量化投资领域的大厂,干嘛要跑来搞 AI 呢?深度求索的 CEO 梁文锋在接受采访的时候给大家聊过,并不是什么看中 AI 前景。 而是在他们看来, " 通用人工智能可能是下一个最难的事之一 " ,对他们来说, " 这是一个怎么做的问题,而不是为什么做的问题。 "就是抱着这么股 " 莽 " 劲,深度求索才搞出了这次的大新闻,下面给大家具体讲讲 V3 有啥特别的地方。首先就是性能强悍,目前来看,在 V3 面前,开源模型几乎没一个能打的。 还记得去年年中,小扎的 Meta 推出模型 Llama 3.1 ,当时就因为性能优秀而且开源,一时间被捧上神坛,结果在 V3 手里,基本是全面落败。而在各种大厂手里的闭源模型,那些大家耳熟能详的什么 GPT-4o 、 Claude 3.5 Sonnet 啥的, V3 也能打得有来有回。你看到这,可能觉得不过如此,也就是追上了国际领先水平嘛,值得这么吹吗?残暴的还在后面。大家大概都知道了,现在的大模型就是一个通过大量算力,让模型吃各种数据的炼丹过程。在这个炼丹期,需要的是大量算力和时间往里砸。所以在圈子里有了一个新的计量单位 "GPU 时 " ,也就是用了多少块 GPU 花了多少个小时的训练时间。GPU 时越高,意味着花费的时间、金钱成本就越高,反之就物美价廉了。前面说的此前开源模型王者, Llama 3.1 405B ,训练周期花费了 3080 万 GPU 时。可性能更强的 V3 ,只花了不到 280 万 GPU 时。以钱来换算, DeepSeek 搞出 V3 版本,大概只花了 4000 多万人民币。而 Llama 3.1 405B 的训练期间, Meta 光是在老黄那买了 16000 多个 GPU ,保守估计至少都花了十几亿人民币。 至于另外的那几家闭源模型,动辄都是几十亿上百亿大撒币的。你别以为 DeepSeek 靠的是什么歪门邪道,人家是正儿八经的有技术傍身的。为了搞清楚 DeepSeek 的技术咋样,咱们特地联系了语核科技创始人兼 CTO 池光耀,他们主力发展企业向的 agent 数字人,早就是 DeepSeek 的铁粉了。池光耀告诉我们,这次 V3 的更新主要是 3 个方面的优化,分别是通信和显存优化、推理专家的负载均衡以及FP8 混合精度训练。各个部分怎么实现的咱也就不多说了,总体来说,大的整体结构没啥变化,更多的像是咱们搞基建的那一套传统艺能,把工程做得更高效、更合理了。首先, V3 通过通信和显存优化,极大幅度减少了资源空闲率,提升了利用效率。而推理专家( 具备推理能力的 AI 系统或算法,能够通过数据分析得出结论 )的负载均衡就更巧妙了,一般的大模型,每次启动,必须把所有专家都等比例放进工位( 显存 ),但真正回答用户问题时,十几个专家里面只用到一两个,剩下的专家占着工位( 显存 )摸鱼,也干不了别的事情。 而 DeepSeek 把专家分成热门和冷门两种,热门的专家,复制一份放进显存,处理热门问题;冷门的专家也不摸鱼,总是能被分配到问题。FP8 混合精度训练则是在之前被很多团队尝试无果的方向上拓展了新的一步,通过降低训练精度以降低训练时算力开销,但却神奇地保持了回答质量基本不变。也正是这些技术上的革新,才得到了大模型圈的一致好评。通过一直以来的技术更新迭代, DeepSeek 收获的回报也是相当惊人的。他们 V3 版本推出后,他们的价格已经是低到百万次几毛钱、几块钱。而一开始提到同样开源的 Claude 3.5 Sonnet ,每百万输入输出,至少都得要几十块以上。。。更要命的是,这对 DeepSeek 来说已经是常规套路了。早在去年初,DeepSeek V2 模型发布后,就靠着一手低价,被大家叫做了AI 界拼多多。他们还进一步引发了国内大模型公司的价格战,诸如智谱、字节、阿里、百度、腾讯等大厂纷纷降价。池光耀也告诉我们,他们公司早在去年 6 、 7 月份就开始用上了 DeepSeek ,当时也有国内其他一些大模型厂商来找过他们。 但和 DeepSeek 价格差不多的,模型 " 又太笨了,跟 DeepSeek 不在一个维度 " ;如果模型能力和 DeepSeek 差不多,那个价格 " 基本都是 10 倍以上 " 。更夸张的是,由于技术 " 遥遥领先 " 带来的降本增效,哪怕 DeepSeek 卖得这么便宜,根据他们创始人梁文峰所说,他们公司还是赚钱的。。。是不是有种隔壁比亚迪搞 998 ,照样财报飘红的味道了。不过对于我们普通用户来说, DeepSeek 似乎也有点偏门了。因为他的强项主要是在推理、数学、代码方向,而多模态和一些娱乐化的领域不是他们的长处。而且眼下,尽管 DeepSeek 说自己还是赚钱的,但他们团队上上下下都有股极客味,所以他们的商业化比起其他厂商就有点弱了。但不管怎么说, DeepSeek 的成功也证明了,在 AI 这个赛道还存在的更多的可能。按以前的理解,想玩转 AI 后面没有个金主爸爸砸钱买显卡,压根就玩不转。但现在看起来,掌握了算力并不一定就是掌握了一切。我们不妨期待下未来,更多的优化出现,让更多的小公司、初创企业都能进入 AI 领域,差评君总感觉,那才是真正的 AI 浪潮才对。撰文:八戒美编:焕妍koa12jJid0DL9adK+CJ1DK2K393LKASDad
编辑:赵德荣
TOP1热点:3·15晚会丨一次性内裤“爆雷”:徒手制作不灭菌
来源:环球网。
TOP2热点:澎湃AI晚新闻丨2025年3月16日
在15日的莫斯科国际安全会议开幕式上,普京发表视频讲话时表示,北约正在不断加强进攻能力建设,试图将军事对抗延伸至太空和信息空间,并利用军事和非军事手段施压。同时,美国正在寻求重新调整其在亚太地区的合作体系。美国推行的所谓“印太战略”,实际上就是为了打造由华盛顿控制的军事政治联盟。因此,俄罗斯不排除北约与“奥库斯”全面整合的可能性。
TOP3热点:3·15晚会丨一次性内裤“爆雷”:徒手制作不灭菌宝宝流鼻涕流眼泪是怎么回事
美国有线电视新闻网(CNN)15日评论称,莫斯科多次就北约国家参与支持基辅发出警告。当前俄乌冲突的一个特点就是相互指责对方。
TOP4热点:AI无人直播能躺赚?记者实测“交钱买课后‘导师’爱搭不理”宝宝流鼻涕流眼泪是怎么回事
另一家媒体在晚些时候的消息中称,他们在波罗霍夫公墓看到一名神情悲伤的女子,以为是普里戈任52岁的妻子柳博芙·普里戈日娜。但随后发现,此人实际上是普里戈任替身列昂尼德·克拉萨文的妻子伊琳娜·克拉萨文娜,并发布了对比照片。
TOP5热点:塞尔维亚首都爆发大规模抗议,武契奇:必须做出改变什么样的女生容易让男生喜欢
▲普里戈任妻子柳博芙(左)和伊琳娜·克拉萨文娜(右)
据俄新社15日报道,俄罗斯和白俄罗斯联盟国家国务秘书梅津采夫14日称,李尚福对俄罗斯和白俄罗斯的访问将加强三国合作。这次访问不应被视为一个“特殊事件”,它是三国国防部门协作的成功实践。
TOP6热点:啄木鸟公示整改进度:已确认8655个争议订单,拟上线DeepSeek问价管鲍分拣中心官方入口
“WARRIORMAVEN”网站提到,袭击发生后,社交媒体上出现的视频显示普斯科夫机场上空升起滚滚浓烟,另外几段视频显示多架俄军伊尔-76运输机燃起大火,机身被火焰吞噬。
俄军伊尔-76运输机遭乌军无人机击中后起火图源:社交媒体截图
TOP7热点:胡塞武装:将把所有美航母和军舰作为袭击目标下雨天老师和学生被困在
在球迷印象中,安哥拉一直扮演着“非洲老铁”的角色。但两支球队历史五次交手,中国男篮以2胜3负处于劣势。
两大通知释放了哪些利好?谁可以申请?购房者能降低多少负担?北上深等城市是否在此次政策范围内?下面这十大问题与你息息相关。
TOP8热点:助力银发经济发展,国铁集团推出老年常旅客会员积分优惠措施星空传媒XK8020王拉拉升职记辰悦
有报道称,普里戈任葬礼后的第二天,普里戈任的长女疑与普里戈任替身的妻子一同出现在了墓地,结合前一天“扑朔迷离”的葬礼,这进一步加剧了有关“普里戈任还活着”的讨论。
▲俄媒称,图中黑衣女子是普里戈任长女波琳娜,其身后是伊琳娜·克拉萨文娜
TOP9热点:啄木鸟公示整改进度:已确认8655个争议订单,拟上线DeepSeek问价疯狂七十二小时截了一段
同时,这是一支刚刚完成换血的球队。球队四年前男篮世界杯的核心球员,彼时37岁的奥林皮奥·西普里亚诺、33岁的卡洛斯·莫赖斯、33岁的莱昂内尔·保罗、40岁的爱德华多·明加斯和38岁的雷吉·摩尔,连同他们一共77场的世界杯经验离开了赛场。
8月29日当天,在圣彼得堡几处主要的墓园外都出现了执法人员和安保设施,甚至还出现了灵车和送葬队伍。在众人苦苦等候一天后,普里戈任的新闻部门直到葬礼结束后才透露,普里戈任已安葬在波罗霍夫公墓。
TOP10热点:网购“山东章丘铁锅”从广东发货且厂址、电话有误,消费者要求平台下架该产品页面紧急情况访问升级跳拿笔记
汪文斌:我刚才已经表明了中方立场。如果日方在这一问题上真有诚意、想要发挥一个负责任国家的作用,那就应当立即停止排海。