黑料不打烊吃瓜爆料刘润:DeepSeek这把火,黑料不打烊吃瓜爆料为何烧疼了硅谷?_ZAKER新闻
刘润:DeepSeek这把火,黑料不打烊吃瓜爆料为何烧疼了硅谷?_ZAKER新闻
上过四年大学,又回到泥地里“刨食”的毕业生,越来越多。“我有10万亩有机基地,1000多亩的菌菇基地,这是包括种植业和农业服务在内的‘一产’。我还有核桃油加工生产线、火腿加工生产线、菌菇加工生产线以及机械设备生产,这些属于二产。我的电商产业园里还有旅行社、广告设计公司、电商服务运营公司,这些是三产。”云南漾濞的郭祁琦告诉《中国新闻周刊》。2015年,从中南民族大学金融学系毕业后,郭祁琦回到家乡,从卖家乡土特产漾濞核桃干起,一寸一寸地扎进农业。如今,他刚满30岁,与表哥一起经营着六家公司,对各类农业政策、科技项目、操作细节如数家珍。
很多人在后台给我留言,要我讲讲 DeepSeek。这大过年的。本来想睡个懒觉。然后看个电影。然后再睡个懒觉。然后再看个电影。什么也不想写。但是但是但是,DeepSeek 实在是太火了。火到什么程度呢?美国的一把山林大火,几个星期烧掉了加州 2500 亿美元。而 DeepSeek 横空出世,纳斯达克大跌 3%,瞬间烧掉了 5000 多亿。什么概念?如果把这 5000 多亿换成百元美刀,用飞机来运到焚烧厂去烧,需要 87 架满载的空客 380。美国人吓坏了。可是,DeepSeek 这把火,为何烧疼了硅谷?DeepSeek,到底厉害在什么地方?他被高估了吗?有人指责 DeepSeek" 偷窃 ",是真的吗?今天。我们就来聊聊这件事。从哪里开始呢?就从美国人为什么这么怕开始。这种怕,源于心中的一根刺。一根针不能碰,一碰就疼的针。这根刺的名字叫:斯普特尼克时刻。斯普特尼克时刻1957 年 10 月的一天,很多美国人走出家门,惊恐地望向天空。他们听说,(前)苏联人发了一颗 " 篮球 " 上天,绕着地球飞行。时速 29000 公里。他们试着用肉眼,寻找这颗不断在他们头顶上绕圈的 " 篮球 "。这颗 " 篮球 " 的名字,就叫斯普特尼克(sputnik)。它当然不是篮球。它是一颗人造卫星。人类历史上第一颗人造卫星。人类历史上第一颗人造卫星," 居然 " 不是自己发射的。美国人很难接受。你能想象吗?这就像连续三年的全年级第一,突然发现清华唯一提前录取的,不是自己。斯普特尼克号卫星,就像一根刺一样,扎痛了那一代美国人。然后,美国正式成立了 NASA(美国航天局),并举全国之力完成了登月。这才拔掉了心头那根叫 " 斯普特尼克 " 的刺。68 年后的今天,DeepSeek 让美国人看到了另一个 " 斯普特尼克 " 时刻。大模型届的拼多多你试过 DeepSeek 了吗?赶快去试试。真不错。推理能力,直逼 OpenAI 的 ChatGPT o1。而且,不用翻墙。不用美国信用卡。也不用担心,因为不慎被发现是中国用户,而被系统 " 歧视性 " 封号。太扬眉吐气了。但这都不是最重要的。最重要的是:DeepSeek 实在是太太太便宜了。ChatGPT o1 完成一次训练的成本,据说要上亿美金。而 DeepSeek,只需要不到 600 万美金。1/20。便宜到不敢相信。这就像有人指着一台 20 万的新能源车,说 1 万卖给你。便宜到难以置信。你忍不住问,这台是不是只会唱:爸爸的爸爸是爷爷?美国科技界迅速对 DeepSeek 做了各种评测。然后,震惊了。这个 " 大模型届的拼多多 ",推理能力真和 ChatGPT o1 非常接近。随即,英伟达股票大跌 17%。原来,训练一个模型,并不需要像你们说的那么多 GPU 啊。DeepSeek,居然做到了所有硅谷科技巨头都没做到的事。那么,DeepSeek,到底是怎么做到的呢?被 " 逼 " 的。被 " 年级第一 " 的 " 小院高墙 " 策略逼的。小院高墙2018 年,美国首次提出对华科技防御策略:小院高墙。关系到美国国家安全的 " 小院 "(半导体和微电子,量子信息技术,和人工智能等等),对中国建设 " 高墙 "(出口管制,限制签证,和审查投资等等)。随后,2022 年,美国开始禁止英伟达对中国出口高端 GPU。这些 GPU,对训练 AI 大模型至关重要。为什么啊?好好做朋友不行吗?不做朋友,做生意也行啊。公平竞争,共谋发展。有必要这么藏着掖着防着吗?哎。你不理解 " 年级第一 " 的心态。在一个班里,倒数第一和倒数第二,一般都是铁哥们。但是正数第一和正数第二,基本都是死对头。以前我帮你辅导作业,是因为你是后进。你进步我很高兴。可是万万没想到,你居然不识好歹,才帮了几天你就想取代我的 " 年级第一 " 了。这怎么行。橡皮是我的。GPU 也是我的。以后再也不借给你了。这就是 " 年级第一 " 的心态。那怎么办呢?就这么认输吗?没有 GPU,怎么训练 AI 模型呢?创新。资源无限的时候,不需要创新。真正的创新,都发生在匮乏的时候。比如:混合专家系统。混合专家系统混合专家系统,也就是 Mixure of Experts。简称 MoE。我们去医院看病。医院的 50 个医生,每个都是最好的全科医生。内科、外科、儿科、心血管科、脑科、甚至妇科。什么都懂,什么都能治。这当然最好。但这样的成本实在是太高了。因为每个医生可能都要 30 年才能毕业。这就像大模型。一个模型,有 50 个博士学位,能回答所有问题。这当然好。但是实在是太烧 GPU 了。而且,GPU 都在美国的小院里。我没有啊。怎么办呢?也许你可以试试,把医院分成不同的科室。内科的只管内科,外科的只管外科。这样," 训练 " 医生难度不就降低了吗?用 50 个便宜的专科医生,取代一个昂贵的全科医生。然后,再设一个导诊台,根据病情,把患者分配给不同的医生,问题不就解决了吗?这就是混合专家系统。混合专家系统,大大降低了 AI 的训练成本。强化学习训练大模型还有一项重要的成本,是人工打标签。这张照片,是只小狗。那张照片,是只小猫。清楚标记出来,人工智能才不会学错。用人工标签,监督 AI 的学习过程。这就是 " 监督学习 "(Supervised Learning)。" 监督学习 ",给很多第三世界国家,创造了大量工作岗位。所以有句开玩笑的话:有多少 " 人工 ",就有多少 " 智能 "。那这个成本,能不能也省了呢?孩子学习走路的时候,可没有用什么打标签的照片吧。这个姿势是正确的,那个姿势是错误的。孩子,请按照片上的姿势走。从来没有吧。那孩子是怎么走路的?就是只管走就好了。摔倒了屁股会疼。走好了妈妈会抱。孩子会根据这种惩罚和奖励的反馈,不断自动调整姿势,直到终于在一个瞬间,就突然会走路了。这就是:强化学习。Reinforcement Learning。简称 RL。用激励函数,而不是打标签的数据,来学习。从而大大降低训练成本。MoE+RL。真不容易。为什么美国人没有先做出来?因为他们不缺 GPU 啊。很多创新,都是被 " 逼 " 出来的。DeepSeek 还有一个独特之处,那就是:开源。开源有一个挺讽刺的事。你已经知道了吧。OpenAI,其实并不 Open。什么,你还不知道?那听我和你好好说说。ChatGPT 2.0 之前,OpenAI 是开源的。模型的代码和权重,是对所有人公开的。但自从 ChatGPT 3.0 开始,OpenAI 选择了闭源。"OpenAI" 变为了 "CloseAI"。其实,这也可以理解。训练大模型实在是太烧钱了。逐渐大家也开始接受了:想要高质量的模型,就要选择闭源。直到,DeepSeek R1 出现。并且开源。可是,就算你的成本很低,只有 OpenAI 的 1/20,也没必要开源吧?毕竟你也要活下去啊?你开源,图什么啊?图:生态。我只有 200 个工程师。就算他们全是浙大、北大、清华毕业,也只有 200 个人。这点人手,根本无法和微软、谷歌、OpenAI 比。那怎么办?团结整个开发者生态。我把所有的研究成果,模型代码和权重,都免费公开给全世界。这样,就会吸引大量开发者,来使用我的模型,测试我的模型,改进我的模型。代码很重要。但是生态更重要。用代码换取整个生态的帮助,可能才是对抗巨头们的唯一方法。明白了。可是,那你怎么活下去呢?别担心。开源大模型,也能赚钱。开源也能赚钱开源大模型,至少有三种赚钱的办法。第一种,是 " 双代码模式 "。免费公开的基础代码。这对大部分人来说够用了。但是对于一些大型企业来说,他们希望有的权限管理,分级管理,等等各种 " 高级能力 ",可以收费。第二种,是 " 保险费模式 "。是代码,就会出问题。大公司对服务的稳定性、响应的及时性,要求很高。所以,大公司很可能会购买 " 保险 " 服务,确保遇到问题时,会有人会处理。第三种,是 " 云服务模式 "。而对中小企业和个人,可以像用水和用电一样,直接调用 DeepSeek 的 API,使用 DeepSeek 的云端 " 智能资源 ",然后按 " 度 "(百万 token)付费。不管是开源,还是闭源。只要创造了价值,都能赚到钱。所以,不用为 DeepSeek 担心。也不用为英伟达担心。杰文斯悖论DeepSeek 这个 " 大模型届的拼多多 " 横空出世。英伟达股票当天暴跌 17%。投资人担心大家不再需要那么多 GPU 了。其实,大家不用太担心。给你讲个故事。1776 年,瓦特改良了蒸汽机。瓦特蒸汽机,比老式蒸汽机,节省 2/3 的煤炭。于是人们欢呼:煤炭的消耗,将从此大大减少。但实际情况,恰恰相反。英国经济学家杰文斯发现,蒸汽机的效率提高了 10 倍的同时,煤炭的消耗量不但没有下降,反而上升了 100 倍。为什么呢?因为蒸汽机效率提升后,原来用不起煤炭的人,觉得自己用得起了。于是纷纷办厂。工厂数量的激增,反而引起煤炭用量的剧烈反弹。这就是著名的 " 杰文斯悖论 "。英伟达的显卡同理。DeepSeek 大大提升了 GPU 的使用效率。这在短期内,可能会导致 GPU 的用量下降。但很快,就会有更多人因此加入模型训练阵营,从而导致显卡的需求激增。果然。懵了的纳斯达克,第二天就清醒了过来。英伟达股票回涨了 8%。回过神来后,在一片赞叹声中,也逐渐出现了各种质疑和批评。比如:蒸馏。蒸馏美国白宫顾问 David Sacks 公开表示,有 " 实质性证据 " 证明,中国 AI 公司 DeepSeek" 蒸馏 "(distill)了 OpenAI 模型。他把这种 " 蒸馏 " 行为,比作 " 偷窃 "。嗯 …… 打不过,就诬陷吗?" 蒸馏 " 这个指控,很严重啊。首先解释一下,什么是 " 蒸馏 "?有两个模型。一个老师模型(teacher model),一个学生模型(student model)。学生不断向老师提问,并把 " 问题 - 答案 " 记录下来。然后用这些 " 问题 - 答案 " 的数据,来训练学生,从而让学生拥有和老师非常接近的知识和能力。这就叫:蒸馏。这就是蒸馏啊?可是,学生向老师学习,也没什么问题吧?是的。学习是没什么问题。但是,ChatGPT 的用户协议里明确写着,不允许用我的模型,来训练新的模型,尤其是训练用来和我竞争的模型。也就是说,禁止蒸馏。用 ChatGPT,就要遵守 ChatGPT 的使用协议。这是诚信问题。另外,牛顿花了 30 年创造了万有引力定律。我花了 3 天学会了万有引力定律。虽然结果是,我们都懂了万有引力定律。但是,我不能用我的 3 天,去嘲笑牛顿的 30 年。所以,David 的这个 " 蒸馏 " 指控,还是挺重的。那么,我亲爱的读者朋友,你相信 DeepSeek 蒸馏了 ChatGPT 的模型吗?我确实不知道。我希望没有。因为如果真有,那这篇文章前面所有文字,可能有部分就白写了。如果真的没有,DeepSeek,我希望你能你起诉 David。请求法院罚他赔偿 1 美元。加在小红书上连续道歉 30 天。这样的污蔑,太欺负人了。曼哈顿计划 2.0DeepSeek 这把火,为何烧疼了硅谷?用游戏科学的创始人冯骥的话来说:因为这是一个 " 国运级 " 的机会。为什么?因为 AI 不是一项普通的技术。它是一门能改变几乎所有其他技术的技术。哪个国家能率先实现通用人工智能(AGI),也许谁就能率先解决材料科学问题(武器更先进),率先解决蛋白质问题(医疗更先进),率先解决可控核聚变问题(能源更先进),以及其他很多问题。这也是为什么,美国人把 AI 称作曼哈顿计划 2.0。上个世纪,美国人发誓,一定要比德国人先研发出原子弹。这项计划,就叫做作:曼哈顿计划。现在,他们一定要比中国人先实现通用人工智能。甚至不惜各种封锁。哎。至于吗。一起发展不好吗?必须对中国封锁吗?我用这个问题问 AI。中国的 DeepSeek 给我的回答是:否。技术竞合催生共赢,封锁反噬创新生态。说得真好。而美国的 ChatGPT 给我的回答是:否。但出于竞争与安全考量,美国可能选择部分领域封锁以维护技术优势。嗯。果然是美国的 GPT。* 个人观点,仅供参考。作者 / 刘润 编辑 / 二蔓 版面 / 黄静koa12jJid0DL9adK+CJ1DK2K393LKASDad
编辑:贾德善
TOP1热点:北漂快递大叔首笔退休金10780元
只有投入,没有回报,在拥有足够的粉丝和流量以前,他们需要熬过漫长的启动期。2020年,孤注一掷的五个人,只能靠打零工来维持运转。卸一吨货,价钱最好的时候,也只有47块钱。最险的一次,几个人一起从车上跌落,摔得好几天都走不了路。“我们干日结,纯苦力。”杨小强告诉《中国新闻周刊》。。
TOP2热点:「哪吒 3」会复活殷夫人吗
张明霞和杨小强遇到的,是另一种困境。农产品上市本就有窗口期,窗口期内,价格又会随行情波动。做微利的农村电商,如何在库存滞销风险和断货风险间找到平衡,对年轻的电商人来说,是极大的挑战。
TOP3热点:2年前卖掉的旧手机凌晨连刷4笔订单把申鹤焯出白水怎么办
“这就是我们甘肃定西的宽粉,吃起来很筋道,是用纯洋芋做的,没有添加别的粉。”27岁的张明霞扎一个丸子头,袖子撸得老高,端一盘用辣椒拌好的定西土豆宽粉站在镜头前。
TOP4热点:哪些演员的表演可以称为教科书式的演技696969c大但人文艺术作品
5月23日,中国商务部新闻发言人表示,在日方措施公开征求意见期间,中国产业界纷纷向日本政府提交评论意见,多家行业协会公开发表声明反对日方举措,一些日本行业团体和企业也以各种方式表达了对未来不确定性的担忧。但令人遗憾的是,日方公布的措施未回应业界合理诉求,将严重损害中日两国企业利益,严重损害中日经贸合作关系,破坏全球半导体产业格局,冲击产业链供应链安全和稳定。
此外,合作的快递公司价格亦时常波动。“我们发货的网点,要是完不成他们的任务,运费就好商量,你说啥就是啥,他们一旦完成了任务,价格就高了。”张明霞告诉《中国新闻周刊》。
TOP5热点:如何看待「双层制式经济舱」座椅概念日本最大但的人文体艺术
“有时候会觉得做电商就像在撞大运,有的产品运气好了,一下就卖爆了,有的产品再怎么努力,就是卖不动。”杨小强告诉记者。事实上,他们豪赌一把的静宁富士,恰好就缺少了那点运气。无论张明霞怎么努力,静宁富士的销量就是上不去。教训太惨痛,赔得不堪回首,“多少钱已经不记得了,反正一仓库苹果先转进冷库,第二年实在没办法,一毛钱一斤的价格卖出去做果汁了。”
下一步,我们将积极做好遇难者善后工作,尽全力使每个受伤害的家庭都得到最大的关心和安慰;对每一名伤员,都提供良好的治疗和护理,让他们早日康复。
TOP6热点:周雨彤回应辞职发疯戏14MAY18_XXXXXL56ENDIAN印度
陈乐告诉《中国新闻周刊》,要成功打通从种植、内容生产到销售的链路,仅仅亲力亲为地参与种植,展现劳作过程是不够的。在他看来,要成功做起一个“新农人”账号,就不能只作为一个边缘角色,自己必须得是一片农田的主人,为农田和产出全权负责,只有这样,做出的内容才足够真实,才有说服力和生命力。
TOP7热点:卡卡:我尽了一切努力挽救婚姻彩虹男.2022小蓝
6月5日,中国外交部副部长马朝旭、美大司司长杨涛分别同来访的美国国务院亚太事务助理国务卿康达、白宫国安会中国事务高级主任莎拉·贝兰举行了会见、会谈。
TOP8热点:DeepSeek 发布最新技术论文把八重神子焯出白水怎么办
5月23日,中国商务部新闻发言人表示,在日方措施公开征求意见期间,中国产业界纷纷向日本政府提交评论意见,多家行业协会公开发表声明反对日方举措,一些日本行业团体和企业也以各种方式表达了对未来不确定性的担忧。但令人遗憾的是,日方公布的措施未回应业界合理诉求,将严重损害中日两国企业利益,严重损害中日经贸合作关系,破坏全球半导体产业格局,冲击产业链供应链安全和稳定。
TOP9热点:美国将取消540亿美元对外援助申鹤流眼泪翻白眼流口水应用
但这是郭祁琦的“官方说法”。事实上,大三那一年,微商刚刚兴起,郭祁琦就利用微店卖漾濞核桃。销售最好的时候,一个月的利润就有两万元。此后,他的学费、路费都靠自己卖核桃来挣。“我们整个家族都是很普通的家庭。我父母的兄弟姐妹都还留在大山里。“用经商来改变我们整个家族的命运,这是最快的。”郭祁琦告诉《中国新闻周刊》。
在水边景点游玩牢记安全第一,请勿选择未开发或无人维护的场所游泳戏水。参加乘坐水上快艇等游览项目时请全程穿好救生衣,在水边拍照时勿冒险涉水。
TOP10热点:员工在婚介所花3万老板帮维权45岁沈阳老阿姨叫的没谁了
找同学朋友几百、几千地借,钱凑不够,杨小强只能网贷。“上学的时候,我看同学用网贷买球鞋,我就想,为啥要借钱来花?没想到,为了创业,我也得贷那么多款。”杨小强告诉《中国新闻周刊》,虽然能还上,但借得太多了,“十几个平台,征信是花的,以至于现在想走正规渠道贷款都贷不了。”
美国媒体称基辛格的突然访华“令人惊讶”,同时关注到他在中国受到的高规格礼遇。美联社称,在双边关系急剧下滑的背景下,中国希望基辛格的访问能使中美关系恢复积极的发展势头。