打开扇贝就可以吃火腿肠_金融视角_CNBC专访分打开扇贝就可以吃火腿肠析：DeepSeek是中国的ChatGPT时刻，他们不是在复制，而是在创新

CNBC专访分打开扇贝就可以吃火腿肠析：DeepSeek是中国的ChatGPT时刻，他们不是在复制，而是在创新_ZAKER新闻

　　广州开发区驻德国海德堡离岸创新中心总监费瑞翔博士（Dr。 Daniel Frerichs）近日刚刚从慕尼黑车展（IAA）归来。他对第一财经记者表示，在上述消息宣布后，他同德国一些业界人士交谈，“德国业界对此相当谨慎，因为和法国相比，德国汽车业可能会失去更多”。

作者 | CNBC来源 | Z Potentials 管理智慧咨询合作 | 13699120588文章仅代表作者本人观点DeepSeek 效应正在不断发酵。英伟达暴跌近 17%，市值蒸发 5,927 亿美元，创下美股史上最大单日市值损失纪录。CNBC 用近一小时时间与北美最火的 AI 搜索独角兽讨论 DeepSeek 对全球人工智能产业的影响，也全面展示了美国当下的最真实心态，美国 AI 初创公司 Perplexity CEO 分析为何 DeepSeek 会引发人们对美国在 AI 领域的全球领先地位是否正在缩小的担忧。图片来源：CNBC" 需求是发明之母 "，Aravind Srinivas 谈起 DeepSeek，" 因为他们必须想办法绕过限制，最终实际上打造出了效率更高的东西。"在对话中，Aravind Srinivas 不仅分析了 DeepSeek 对美国 AI 的影响，对 DeepSeek 的创新给予了较高的评价，没有一味搞对立，还是比较中肯的。以下是对话原文（不影响原意的情况下翻译略有删改）：主持人：请描述中美之间的 AI 竞赛，以及其中的利害关系。Aravind Srinivas: 首先，中国在与美国的竞争中存在很多劣势。第一，他们无法获得我们这里能够使用的所有硬件资源。他们基本上在使用比我们低端的 GPU，几乎像是上一代的 GPU。由于更大的模型往往更智能，这自然让他们处于劣势。但另一方面，需求是发明之母。因为他们不得不寻找变通方案，最终他们实际上构建了更高效的解决方案。这就像说：" 嘿，你们必须构建一个顶级模型，但我不会给你们资源，你们得自己想办法。" 除非数学上证明这是不可能的，否则你总能尝试找到更高效的解决方案。这可能会让他们比美国找到更高效的解决方案。当然，他们有开源模型，我们也可以在这里采用类似的东西。但他们培养的这种人才将逐渐成为他们的优势。目前，美国领先的开源模型是 Meta 的 Llama 系列，它非常出色，几乎可以在你的电脑上运行。尽管它在发布时接近 GPT-4 的水平，但最接近质量的模型是巨大的 405B 参数模型，而不是你可以在电脑上运行的 70B 模型。因此，仍然没有一个既小又便宜、快速且开源的模型能够与最强大的闭源模型相媲美。然后，这些中国团队推出了一个疯狂的模型，API 价格比 GPT-4 便宜 10 倍，甚至比 Claude 便宜 15 倍，速度极快，并且在某些基准测试中与 GPT-4 相当，甚至更好。他们只用了大约 2048 个 H800 GPU，相当于 1500 到 2000 个 H100 GPU，这比 GPT-4 通常训练的 GPU 数量少了 20 到 30 倍。他们总共只花了 500 万美元的计算机预算，就做出了如此惊人的模型，并且免费公开了技术论文。主持人：当你理解他们所做的一切时，你的惊讶是什么？Aravind Srinivas: 我的惊讶是，当我阅读他们的技术论文时，他们提出了许多聪明的解决方案。首先，他们训练了一个混合专家模型（Mixture of Experts），这并不容易训练。主要原因是人们发现很难跟上 OpenAI 的步伐，尤其是在 MoE 架构上，因为存在很多不规则的损失峰值，数值不稳定，经常需要重新启动训练检查点。他们提出了非常聪明的解决方案来平衡这一点，而不需要额外的技巧。他们还提出了 8 位浮点训练，至少在部分数值上。他们巧妙地确定了哪些部分需要高精度，哪些部分可以低精度。据我所知，8 位浮点训练在美国并不常见，大多数训练仍然在 16 位进行，尽管有些人正在探索这一点，但很难做到正确。由于需求是发明之母，他们没有那么多内存和 GPU，因此他们找到了许多数值稳定的方法，使他们的训练能够顺利进行。他们在论文中声称，大部分训练是稳定的，这意味着他们可以随时重新运行这些训练，使用更多的数据或更好的数据。整个训练只花了 60 天，这非常惊人。主持人：你刚才说你很惊讶。Aravind Srinivas: 通常的认知是中国人擅长复制。如果我们停止在美国发表研究论文，停止描述我们的基础设施架构细节，停止开源，他们将无法赶上。但现实是，DeepSeek 3 中的一些细节非常出色，我甚至不会惊讶 Meta 会借鉴其中的一些内容，并将其应用到 Llama 模型中。这并不是说他们在复制，而是他们在创新。主持人：我们并不完全知道他们训练的数据是什么，尽管它是开源的，我们知道一些训练方式，但并不是全部。有一种观点认为，它是基于 ChatGPT 的公开输出训练的，这意味着它只是复制品。但你说它超越了这一点，有真正的创新。Aravind Srinivas: 是的，他们训练了 14.8 万亿个 token。互联网上有太多 ChatGPT 生成的内容，如果你现在去看任何 LinkedIn 帖子或 X 帖子，大多数评论都是由 AI 写的。甚至在 X 上，有 Grok 推文增强器，LinkedIn 上有 AI 增强器，Google Docs 和 Word 中也有 AI 工具来重写你的内容。如果你在这些地方写了东西并复制粘贴到互联网上，自然会带有一些 ChatGPT 的训练痕迹。很多人甚至懒得去掉 " 我是一个语言模型 " 的部分。因此，这个领域很难控制。所以我不会因为某些提示（比如 " 你是谁 " 或 " 你是哪个模型 "）而忽视他们的技术成就。在我看来，这并不重要。主持人：长期以来，我们认为中国在 AI 领域落后。这场竞赛对这场竞争有何影响？我们能说中国正在迎头赶上，还是已经赶上了？Aravind Srinivas: 如果我们说 Meta 正在赶上 OpenAI 或 Anthropic，那么同样的说法也可以用于中国赶上美国。事实上，我看到中国有更多论文试图复制 OpenAI 的成果，甚至比美国还多。DeepSeek 能够使用的计算资源与美国的博士生相当。主持人：你会将 DeepSeek 整合到 Perplexity 中吗？Aravind Srinivas: 我们已经开始使用它了。他们有 API，并且开源了，所以我们也可以自己托管它。使用它实际上让我们能够以更低的成本做很多事情。但我在想的是，他们实际上能够训练出如此出色的模型，这对美国公司来说不再有借口不去尝试类似的事情。主持人：你听到很多生成式 AI 领域的意见领袖，无论是研究还是创业方面，比如 Elon Musk 等人，都说中国无法赶上，因为赌注太大。谁主导了 AI，谁就将主导经济，主导世界。你对中国证明自己能够做到的事情感到担忧吗？Aravind Srinivas: 首先，我不确定 Elon 是否说过中国能赶上，我只知道他提到了中国的威胁。Sam Altman 也说过类似的话，我们不能让中国赢。我的观点是，无论你做什么来阻止他们赶上，最终他们还是赶上了。需求是发明之母。更危险的是，他们拥有最好的开源模型，而所有美国开发者都在基于此构建。那样的话，他们将拥有用户心智份额和生态系统。如果整个美国 AI 生态系统都依赖于中国的开源模型，那将是非常危险的。历史上，一旦开源软件赶上或超越了闭源软件，所有开发者都会迁移到开源。当 Llama 被构建并广泛使用时，人们曾质疑是否应该信任扎克伯格，但现在的问题是，我们是否应该信任中国？Aravind Srinivas: 从某种意义上说，这并不重要，因为你仍然可以完全控制它，你可以在自己的计算机上运行它，你是模型的主人。但对于我们自己的技术人才来说，依赖别人的软件并不是一个好现象，即使它是开源的。开源也可能有一天不再开源，许可证可能会改变。因此，重要的是我们美国自己有人才在构建这些技术，这就是为什么 Meta 如此重要。我认为 Meta 仍然会构建出比 DeepSeek 3 更好的模型，并将其开源。我们不应该把所有的精力都放在禁止他们、阻止他们上，而是应该努力超越他们，赢得竞争。这就是美国的方式，做得更好。我们听到越来越多关于这些中国公司的消息，他们以更高效、更低成本的方式开发类似的技术。这确实让人感到压力。Aravind Srinivas: 是的，如果你筹集了 100 亿美元，并决定将 80% 的资金用于计算机集群，那么你很难像那些只有 500 万美元预算的人一样，找到同样高效的解决方案。这并不是说投入更多资金的人没有尽力，他们只是试图尽快完成。当我们说开源时，有很多不同的版本。有些人批评 Meta 没有公开所有内容，甚至 DeepSeek 本身也并不完全透明。你可以说开源的极限是能够完全复制他们的训练过程，但有多少人真的有资源做到这一点呢？相比之下，他们在技术报告中分享的细节已经比许多其他公司多得多。主持人：当你想到 DeepSeek 做这件事的成本不到 600 万美元时，再想想 OpenAI 开发 GPT 模型花费了多少。这对闭源模型的生态系统轨迹、发展势头意味着什么？对 OpenAI 又意味着什么？Aravind Srinivas: 很明显，我们将拥有一个开源版本，甚至比闭源版本更好、更便宜。OpenAI 可能不会关心这是否由他们制作，因为他们已经转向了一个新的范式，称为 o1 系列模型。OpenAI 的 Ilya Sutskever 曾说过，预训练已经遇到了瓶颈。这并不意味着扩展已经结束，而是我们在不同的维度上进行扩展，比如模型思考的时间、强化学习等。OpenAI 现在更专注于让模型在遇到新提示时进行推理、收集数据并与世界互动，使用各种工具。我认为这是未来的方向，而不仅仅是更大更好的模型。我认为 DeepSeek 也会将注意力转向推理，这就是为什么我对他们下一步的成果感到兴奋。那么，OpenAI 的下一步是什么？我认为目前还没有人能够构建出类似 o1 的系统。尽管有人质疑 o1 是否真的值得，但在某些提示下，它的表现确实更好。至少他们在 O3 中展示的结果显示，它在竞争性编程中的表现几乎达到了 AI 软件工程师的水平。主持人：这是否只是时间问题，互联网上充满了推理数据，DeepSeek 也能做到？Aravind Srinivas: 有可能，但没有人知道。在它实现之前，不确定性仍然存在。主持人：到今年年底，推理领域是否会有多个玩家？Aravind Srinivas：我绝对认为是这样。主持人：我们是否正在看到大型语言模型的商业化？Aravind Srinivas: 我认为我们会看到类似的轨迹，就像预训练和后训练系统逐渐商业化一样。今年会有更多的商业化，推理模型也会经历类似的轨迹。最初可能只有一两个玩家知道如何做到，但随着时间的推移，更多的玩家会加入。谁知道呢，OpenAI 可能会在推理领域取得新的突破。现在推理是他们的重点，但技术进步会不断发生。随着时间推移，今天的模型所具备的推理能力和多模态能力，将会以更低成本的开源模型形式出现。唯一不确定的是，像能够在推理时进行思考的模型，是否能够便宜到足以在我们的手机上运行。主持人：感觉随着 DeepSeek 所证明的能力，整个 AI 领域的格局已经发生了变化。你能称之为中国的 ChatGPT 时刻吗？Aravind Srinivas: 有可能。我认为这无疑给了他们很多信心，表明他们并没有落后。无论你如何限制他们的计算资源，他们总能找到变通方案。我相信团队对他们的成果感到非常兴奋。主持人：这如何改变投资格局？那些每年花费数百亿美元在计算资源上的超大规模公司，以及 OpenAI 和 Anthropic 等筹集数十亿美元用于 GPU 的公司，DeepSeek 告诉我们，你并不一定需要那么多资源。Aravind Srinivas: 我认为很明显，他们会更加专注于推理，因为他们明白，无论他们过去两年在构建什么，现在都变得非常便宜，以至于继续投入大量资金不再合理。他们是否需要同样多的高端 GPU，还是可以使用 DeepSeek 那样的低端 GPU 进行推理？这很难说，除非被证明不行。但在快速前进的精神下，你可能会希望使用高端芯片，以便比竞争对手更快。最优秀的人才仍然希望加入那些最先实现突破的团队。总有一些荣耀属于真正的先驱者，而不是快速跟随者。主持人：这有点像 Sam Altman 的推文，暗示 DeepSeek 只是复制了别人的成果。Aravind Srinivas: 但你也可以说，在这个领域，每个人都在复制别人。你可以说 Google 最先提出了 Transformer，OpenAI 只是复制了它。Google 构建了第一个大型语言模型，但没有优先发展它，而 OpenAI 则将其作为优先事项。所以你可以说这些，但在很多方面，这并不重要。主持人：我记得我问过你，为什么你不想构建模型。你说那是一场极其昂贵的竞赛，而现在一年后，你看起来非常聪明，没有卷入这场竞争。你现在在大家想要看到的领域——生成式 AI 的杀手级应用——占据了领先地位。请谈谈这个决定，以及你如何看待 Perplexity 的未来。Aravind Srinivas: 一年前，我们甚至没有像 GPT-3.5 这样的模型。我们有 GPT-4，但没有人能够赶上它。我的感觉是，如果那些拥有更多资源和更多才华的人都无法赶上，那么参与这场游戏是非常困难的。所以我们决定玩一个不同的游戏。无论如何，人们都想使用这些模型，而一个方向是提出问题并获得准确的答案，附带来源和实时信息。在模型之外，确保产品可靠运行、扩展使用规模、构建自定义 UI 等方面还有很多工作要做。我们会专注于这些，并受益于模型变得越来越好。事实上，GPT-3.5 让我们的产品变得非常好。如果你在 Perplexity 中选择 GPT-3.5 作为模型，几乎很难找到幻觉。这并不是说它不可能发生，但它大大减少了幻觉的发生率。这意味着，提问、获得答案、进行事实核查、研究、询问任何信息的问题，几乎所有的信息都在网上，这是一个巨大的解锁。这帮助我们在过去一年中用户量增长了十倍。我们在用户方面取得了巨大进展，很多大投资者都是我们的粉丝，比如黄仁勋，他在最近的主题演讲中提到了我们，他实际上是一个经常使用的用户。主持人：一年前，我们甚至没有谈论商业化，因为你们还很新，只想扩大规模。但现在你们正在考虑广告模式。Aravind Srinivas: 是的，我们正在尝试。我知道这引起了一些争议，比如为什么我们要做广告，是否可以在有广告的情况下仍然提供真实的答案。在我看来，我们一直非常积极地思考这个问题。我们说过，只要答案始终准确、无偏见，并且不受广告预算的影响，你只会看到一些赞助问题。甚至这些赞助问题的答案也不受广告影响。广告商也希望你知道他们的品牌，并了解他们品牌的最佳部分，就像你在介绍自己时希望别人看到你最好的一面一样。但你仍然不必点击赞助问题，你可以忽略它。我们目前只按 CPM 收费，所以还没有激励你去点击。考虑到所有这些，我们实际上是在尝试长期做对的事情，而不是像 Google 那样强迫你点击链接。主持人：我记得一年前人们谈论模型商品化时，你认为这是有争议的，但现在这不再有争议了。这种情况正在发生，你关注这一点是明智的。Aravind Srinivas: 顺便说一句，我们从模型商品化中受益匪浅，但我们还需要为付费用户提供一些额外的价值，比如一个更高级的研究代理，能够进行多步推理，进行 15 分钟的搜索，并给出分析类型的答案。所有这些都将保留在产品中，不会有任何变化。但免费用户每天提出的 1 万亿个问题需要快速回答，这些必须保持免费。这意味着我们需要找到一种方法，使这些免费流量也能够货币化。主持人：你并不是试图改变用户习惯，但你正在试图教广告商新的习惯。他们不能像在 Google 的蓝色链接搜索中那样获得一切。到目前为止，广告商的反应如何？他们愿意接受这些权衡吗？Aravind Srinivas: 是的，这就是为什么他们在尝试与我们合作。许多品牌都在与我们合作测试。他们也很兴奋，因为无论喜欢与否，未来大多数人都将通过 AI 提问，而不是传统的搜索引擎。每个人都明白这一点，所以他们都希望成为新平台、新用户体验的早期采用者，并从中学习，共同构建未来。主持人：我笑了，因为这完美地回到了你今天一开始提到的观点：需求是发明之母。广告商们正在看到这个领域的变化，他们必须学会适应。Aravind Srinivas: 没错，这就是广告商们正在做的事情，他们说这个领域正在变化，我们必须学会适应。

koa12jJid0DL9adK+CJ1DK2K393LKASDad

编辑:刁富贵

TOP1热点：孙颖莎练着练着就抠上手了

　　为期6天的慕尼黑车展上，比亚迪、名爵、零跑、小鹏、阿维塔等众多中国品牌有备而来，推出的新款电动车欧洲首秀，以及多款主打车型引发广泛关注。。

　　向黎还要求所有老师的子女，都必须送到“达外”就读。一些教师因为家里距离学校较远，或出于其他考虑未将孩子送来，但向黎要求也必须缴纳学费，或在工资中扣除。

TOP2热点：金秀贤向金赛纶要回7亿韩元

　　李红昌认为，目前高铁票制还处于相对简单状态，灵活度相对欠缺，市场化水平也有待进一步提升。从发展趋势来看，未来将根据不同售票阶段调整票价，根据不同的旅客画像进行精准营销，针对通勤交通、城际交通、干线交通等不断增加供给，提升票制票价的收益管理水平。

　　2023年9月14日，达州市公安局发布的通报称，以向黎委头目的涉黑组织多次有组织地实施聚众斗殴、寻衅滋事、故意毁坏财物、强迫交易、敲诈勒索、虚假诉讼等违法犯罪活动，为非作恶、欺压群众，社会影响恶劣。

TOP3热点：院士教你如何让老板永远离不开你中国WINDOWS野外

　　杭州亚运会开赛以来，各类赛事信息和花絮经常霸屏网络。从预热阶段“向天上发邀请”的灯光秀，到杭州地铁不重样的“车厢变装”，再到赛场上各种爆燃的BGM……每次刷手机，杭州亚运会都带来别样惊喜。

　　8月中下旬，恒大系的三只股票，中国恒大、恒大汽车、恒大物业先后复牌交易，恒大汽车引入了新的战略投资人，且中国债权人重要会议的时间初步确立，恒大似乎在朝着许家印期许的方向发展。然一切进程，在他被调查之后陷入了僵局。

TOP4热点：这场记者会送出民生大礼包班长哭了能不能再抠游戏里面的钱

　　中国足球协会原党委副书记、主席陈戌源涉嫌受贿案，由湖北省监察委员会调查终结，移送检察机关审查起诉。经湖北省人民检察院指定，由黄石市人民检察院审查起诉。近日，黄石市人民检察院已依法向黄石市中级人民法院提起公诉。

　　记者：我们注意到，台湾自主建造的潜艇今天下水。台军方称，自造潜艇是台海军不对称战力的关键，要阻止解放军进入太平洋包围台湾。请问对此有何评论？

TOP5热点：韩国歌手辉星去世中国成熟IPHONE

　　为深挖余罪、彻查全案，严厉打击涉黑组织违法犯罪，维护人民群众正当权益，警方向广大人民群众公开征集该涉黑组织的违法犯罪线索。

　　据财政部官网消息，2023年9月28日下午，中央组织部有关负责同志出席财政部领导干部会议，宣布中央决定：蓝佛安同志任财政部党组书记，免去刘昆同志的财政部党组书记职务。

TOP6热点：去火星挖土有时间表了想要你叫

　　据知情人士透露，自从恒大爆雷以来，许家印的很大一部分精力是在处置资产，回笼资金，以维持集团的运营。同时，他还积极推动债务展期及重组工作。

TOP7热点：韩国歌手辉星去世暴躁少女CSGO

　　多关心关心孩子的状态，多和孩子谈谈心，这些事情本不难做到。正如官方通报所说，相关教育系统及单位应深刻汲取教训，加强学校管理，为未成年人健康成长营造良好环境。希望，这样的悲剧不要再重演。

TOP8热点：导游回应女游客斯里兰卡火车上坠落上司的老婆

　　青岛中院审理认为，被告人费圣英身为国家工作人员，利用职务上的便利，非法占有公共财物，其行为构成贪污罪，且数额特别巨大；利用职务上的便利，为他人谋取利益，非法收受他人财物，其行为构成受贿罪，且数额特别巨大。费圣英一人犯数罪，应予并罚。费圣英受贿犯罪数额特别巨大，论罪应当判处死刑，鉴于其在接受调查期间主动交代了监察机关尚未掌握的部分犯罪事实，积极退赃，具有法定、酌定从轻处罚情节，对其判处死刑，可不立即执行。法庭遂依法作出上述判决。

　　山东省政府人士向记者透露，2014年，山东省政府为推进济青高铁股权多元化，曾就自主定价问题征求国家发展改革委意见，国家发展改革委明确回复，地方投资为主的高铁项目，可由地方自主定价，并根据市场需求调节票价，但最终因种种原因未能落地。

TOP9热点：觉得自己胖不一定是真的胖暴躁少女CSGO

　　但在公司内部，那时的陈戌源开始受到争议。“主要是质疑其业务能力。有些人觉得集装箱业务技术含量较高，而陈戌源并不是做业务出身的，说白了就是‘没有这个能耐’。”乔先生告诉记者。

TOP10热点：瑞幸诉泰国假瑞幸案胜诉久久日

　　据通报，2015年至2020年，刘洪俊本人或通过亲属先后10次违规收受9名管理服务对象所送礼品礼金，折合共计13.46万元。

发布于：霍林郭勒市

打开扇贝就可以吃火腿肠CNBC专访分打开扇贝就可以吃火腿肠析：DeepSeek是中国的ChatGPT时刻，他们不是在复制，而是在创新_ZAKER新闻

打开扇贝就可以吃火腿肠CNBC专访分打开扇贝就可以吃火腿肠析：DeepSeek是中国的ChatGPT时刻，他们不是在复制，而是在创新_ZAKER新闻