环球速览-"半熟米饭1984"-全网都在扒的DeepSeek团队，是清北应届生撑起一片天

全网都在扒的DeepSeek团队，是清北应届生撑起一片天_ZAKER半熟米饭1984新闻

公告称，收购事项符合国家产业相关政策及集团房地产业务的战略发展布局，增加优质土地储备，促进区域更新转型升级，有利于集团的长期可持续发展，同时提升集团在房地产发展方面的品牌声誉和价值。

DeepSeek-v3 大模型横空出世，以 1/11 算力训练出超过 Llama 3 的开源模型，震撼了整个 AI 圈。紧接着，" 雷军开千万年薪挖 DeepSeek 研究员罗福莉 " 的传闻，也使得人们把目光聚焦向DeepSeek 的人才。这下不只科技圈，全网都在好奇，连小红书上都有人发帖询问，这究竟是一支怎样的团队？国际上，也有人把创始人梁文锋的访谈翻译成英语，还加了注释，试图从中寻找这家公司崛起的蛛丝马迹。量子位整理各种资料发现，DeepSeek 团队最大的特点就是年轻。应届生、在读生，特别是来自清北的应届生在其中非常活跃。他们中的一些人，2024 年一边在 DeepSeek 搞研究，另一边新鲜热乎的博士学位论文刚评上奖。他们中有的参与了从 DeepSeek LLM v1 到 DeepSeek-v3 的全程，有的只是实习了一段时间也做出重要成果。为 DeepSeek 提出 MLA 新型注意力、GRPO 强化学习对齐算法等关键创新的，几乎都是年轻人。DeepSeek 核心成员揭秘2024 年 5 月发布的DeepSeek-V2，是致使这家大模型公司破圈的关键一环。其中最重要的创新是提出了一种新型注意力，在 Transformer 架构的基础上，用MLA替代了传统的多头注意力，大幅减少了计算量和推理显存。在一众贡献者中，高华佐和曾旺丁为 MLA 架构做出了关键创新。高华佐非常低调，目前只知道是北大物理系毕业。另外，在 " 大模型创业六小强 " 之一阶跃星辰的专利信息中也可以看到这个名字，暂不确定是否是同一人。而曾旺丁来自北邮，研究生导师是北邮人工智能与网络搜索教研中心主任张洪刚。DeepSeek-V2 工作中还涉及到了另一项关键成果——GRPO。DeepSeek-V2 发布前三个月，DeepSeek-Math 问世，其中提出了 GRPO。GRPO 是 PPO 的一种变体 RL 算法，放弃了 critic 模型，而是从群体得分中估算 baseline，显著减少了训练资源的需求。GRPO 在圈内得到广泛关注，另一家国内开源大模型阿里 Qwen 2.5 的技术报告中也透露用到了 GRPO。DeepSeekMath 有三位核心作者是在 DeepSeek 实习期间完成的工作。核心作者之一邵智宏是清华交互式人工智能课题组博士生，师从黄民烈教授。他的研究领域包括自然语言处理、深度学习，特别对如何能构建一个稳健且可扩展的 AI 系统感兴趣，这个 AI 系统能利用多样化的技能整合异构信息，并能准确回答各种复杂的自然语言问题。邵智宏之前还曾在微软研究院工作过。DeepSeekMath 之后，他还参与了 DeepSeek-Prover、DeepSeek-Coder-v2、DeepSeek-R1 等项目。另一位核心作者朱琪豪是北大计算机学院软件研究所 2024 届博士毕业生，受熊英飞副教授和张路教授指导，研究方向为深度代码学习。据北大计算机学院官方介绍，朱琪豪曾发表 CCF-A 类论文 16 篇。在 ASE 和 ESEC/FSE 上分别获得 ACM SIGSOFT 杰出论文奖一次，提名一次。一篇论文进入 ESEC/FSE 会议同年的引用前三名。在 DeepSeek 团队，朱琪豪还基于他的博士论文工作，主导开发了 DeepSeek-Coder-V1。其博士论文《语言定义感知的深度代码学习技术及应用》也入选了 2024CCF 软件工程专业委员会博士学位论文激励计划。还有一位核心作者同样来自北大。北大博士生Peiyi Wang，受北京大学计算语言学教育部重点实验室穗志方教授指导。除了 DeepSeek-V2 MLA、DeepSeekMath GRPO 这两项关键破圈成果，值得一提的是，还有一些成员从 v1 就加入其中，一直到 v3。代表人物之一代达劢，2024 年博士毕业于北京大学计算机学院计算语言所，导师同样是穗志方教授。代达劢学术成果颇丰，曾获 EMNLP 2023 最佳长论文奖、CCL 2021 最佳中文论文奖，在各大顶会发表学术论文 20 篇 +。2024 年中国中文信息学会 " 博士学位论文激励计划 " 共入选 10 篇来自中国大陆高校的博士毕业论文，其中就有他的《预训练语言模型知识记忆的机理分析及能力增强关键技术研究》。以及北大元培学院的王炳宣。王炳宣来自山东烟台，2017 年进入北大。硕士毕业加入 DeepSeek，参与了从 DeepSeek LLM v1 开始的一系列重要工作。清华这边的代表人物还有赵成钢。赵成钢此前是衡水中学信息学竞赛班成员，CCF NOI2016 银牌得主。之后赵成钢进入清华，大二时成为清华学生超算团队正式成员，三次获得世界大学生超算竞赛冠军。赵成钢在 DeepSeek 担任训练 / 推理基础架构工程师，有英伟达实习经历。DeepSeek 是一支怎样的团队这些鲜活的个体，足以引发人们的赞叹。但还不足以回答最初的问题，DeepSeek 到底是一支怎样的团队？有怎样的组织架构？答案或许还要从创始人梁文锋身上找。早在 2023 年 5 月，DeepSeek 刚刚宣布下场做大模型，还没发布成果的时候，梁文锋在接受 36 氪采访时透露过招人标准。看能力，而不是看经验。我们的核心技术岗位，基本以应届和毕业一两年的人为主。从后面一年多陆续发表的论文贡献名单中也可以看出，确实如此，博士在读、应届以及毕业一两年的成员占很大一部分。即使是团队 leader 级别也偏年轻化，以毕业 4～6 年的为主。例如领导 DeepSeek 的后训练团队的吴俣，2019 年北航博士毕业、在微软 MSRA 参与过小冰和必应百科项目。吴俣博士期间接受北航李舟军教授和 MSRA 前副院长周明博士的联合培养。与他师出半个同门的是郭达雅，中山大学印鉴教授与 MSRA 周明博士联合培养，2023 年博士毕业。2024 年 7 月他加入 DeepSeek，主要参与了一系列数学和代码大模型的工作。郭达雅上学期间还有一项事迹，本科期间在 MSRA 实习一年里发表两篇顶会论文，他笑称 " 在刚入学的第三天，就完成了中大博士生的毕业要求。"除了团队成员年轻化之外，DeepSeek 在国内 AI 公司中突出的特点：非常重视模型算法和硬件工程的配合。DeepSeek v3 论文总共 200 位作者，并不都是负责 AI 算法或数据。有这样一批人从早期的 DeepSeek LLM v1 到 v3 一直都在参与，他们更多偏向算力的部分，负责优化硬件。他们以 DeepSeek AI 的名义发表了论文《Fire-Flyer AI-HPC》，通过软硬件协同设计降低训练成本，解决传统超算架构在 AI 训练需求上的不足。Fire-Flyer 也就是幻方 AI 搭建的萤火 2 号万卡集群，使用英伟达 A100 GPU，却做到相比英伟达官方的 DGX-A100 服务器有成本和能耗的优势。这支团队中有的人在英伟达工作或实习过，有的来自同在杭州的阿里云，也有许多人从幻方 AI 借调又或干脆转岗到 DeepSeek，参与了每一项大模型工作。而如此重视软硬件协同的成果，就是以 Llama 3 405B 的 1/11 算力，训练出性能更高的 DeepSeek-v3 了。最后，我们还发现 DeepSeek 开源项目中有一个特别的存在，不是语言模型相关工作，却是3D 生成相关。这项成果由清华博士生孙景翔在 DeepSeek 实习期间，与导师刘烨斌以及 DeepSeek 成员合作完成。像这样实习生在 DeepSeek 做出重要成果的还有中山大学逻辑学专业的辛华剑。他在 DeepSeek 实习期间参与了用大模型证明数学定理的 DeepSeek-Prover，现在在爱丁堡大学读博士。看过这些例子，再一次回到梁文锋的访谈，或许更能理解这支团队的运作结构。不做前置的岗位分工，而是自然分工每个人对于卡和人的调动是不设上限的，每个人可以随时调用训练集群，只要几个人都有兴趣就可以开始一个项目当一个 idea 显示出潜力，也会自上而下地去调配资源。这难免让人想起 AI 界另一家不可忽视的力量，没错就是OpenAI。同样的用人不看经验，本科生、辍学生只要有能力照样招进来。同样的重用新人，应届生与 00 后可以调动资源从无到有研究 Sora。同样的面对潜力方向，整个公司从顶层开始设计布局和资源推动。DeepSeek，可能是组织形态上最像 OpenAI 的一家中国 AI 公司了。

koa12jJid0DL9adK+CJ1DK2K393LKASDad

编辑:孙寿康

TOP1热点：a股证券简称拟变更为国联民生

格隆汇7月11日丨有投资者向科瑞思(301314.SZ)提问：10G产品的单价如何，相比于低速率产品，难点在哪里，公司目前进展如何？还可能往更高速率发展吗？。

日本车企与泰国的渊源起源于上世纪六十年代。

TOP2热点：李小冉上综艺风评变差

预料到我们所见证的冒失行为（请参见前文）最终将为橡树困境债务策略创造显著的买入机会，橡树资本在2007年1月至2008年3月期间为困境债务组建了一支规模达110亿美元的“储备基金”。成立该基金旨在为事态发展到危机程度时为我们提供投资资金，但到2008年年中时，事态尚未发展至危机的程度。因为其上一期基金刚刚完成全部投资，我们在雷曼破产之前才开始逐步用储备基金投资。面对雷曼破产所带来的市场恐慌，我们的首要任务是明确最佳行动方向。我们应继续将基金的资本用于投资还是作为储备？或者我们是否应该加大投资力度？市场是否已经触底？我们如何确定未来走势？考虑到情况的特殊性和诸多未知因素，并没有金融板块崩溃的先例可以借鉴，也没有已知的方法来处理这些问题。由于未来不可知，我们运用了我们能想到的唯一框架来进行分析（尽管其很简单）：

湖南裕能回复：首先是公司产品性能优势，公司采用高温固相法工艺，产品一致性好，多项性能突出，性价比高，市场竞争力强。第二是公司的产能布局优势。公司在具有能源、资源、物流优势的区域进行了合理的产能布局，在保障资源供应的同时，形成了较强的综合成本优势。第三是公司的规模优势。公司磷酸铁锂出货量已连续三年位居行业第一，一方面规模化生产推动单位生产成本降低，提高产品性价比；另一方面，随着公司产能规模扩大，具备更强的采购议价能力，有利于公司对原材料采购成本的控制。第四是公司的工艺创新优势。磷酸铁方面，通过对其生产工艺的优化，使其生产成本进一步下降；新建产线方面，通过设备大型化、自动化提升，促进了生产效率，也有效降低了单吨能耗和人工投入，持续推动公司降本增效，不断提升公司产品市场竞争力。

TOP3热点：俄罗斯商品馆商家承认部分是三无产品美国Zoomcloudmeetings2023

MonexCanada外汇分析师JayZhao-Murray表示：“尽管自6月会议以来公布的数据显示，加拿大经济略有降温，但细节数据一致表现强劲。我们预计加拿大央行将把政策利率提高25个基点，至5%。”

白银依旧有金价走势主导趋势，但幅度上受限于需求的不及预期，主要是光伏领域。在春节大报告中，我们已经用了较多笔墨分析光伏对白银需求的影响，以下基于最新的电池技术，再度详解。主要的观点是，HJT技术新增市占率提升，但与此伴随着的是单位耗银量的下降，因此，HJT技术的迭代对于光伏用银总量的提升大幅不及预期。

TOP4热点：Meta计划裁员5%人间最美四月天的下一句是什么

10月10日开盘，海天味业大幅低开，收盘跌超9%。而竞品

初步统计，6月末社会融资规模存量为365.45万亿元，同比增长9%。其中，对实体经济发放的人民币贷款余额为228.86万亿元，同比增长11.2%；对实体经济发放的外币贷款折合人民币余额为1.89万亿元，同比下降18.9%；委托贷款余额为11.32万亿元，同比增长4.1%；信托贷款余额为3.77万亿元，同比下降5.1%；未贴现的银行承兑汇票余额为2.75万亿元，同比下降2.8%；企业债券余额为31.34万亿元，同比下降0.4%；政府债券余额为63.57万亿元，同比增长10.1%；非金融企业境内股票余额为11.1万亿元，同比增长11.4%。

TOP5热点：粉丝超千万周鸿祎准备送车产子岛一周七天都能生产

截至5月31日，《债务重组计划》中金融债务通过签约等方式实现债务重组的金额累计约1812.96亿元（含境外间接全资子公司发行的49.6亿美元债券重组），约占金融债务金额的82.71%，其中在前5个月新签约的金额约424.88亿元。

第一部分即是“关于行政处罚及风险控制”，涉及蓝山科技欺诈发行案。

TOP6热点：陈柏阳刘毅晋级八强帮助精灵村繁衍后代动画在哪看

来源：格隆汇

2016-2019年期间，行业处于TOPCon、XBC、HJT等新型高效光伏电池片技术的研发和探索阶段，产业化应用尚未形成规模。在该期间内，拉普拉斯完成了两代LPCVD设备、硼扩散设备等产品的设计、开发和迭代，并完成向下游主流厂商如隆基绿能、晶科能源的测试导入，进行了相关中试线的验证工作；公司核心工艺设备协助晶科能源于2019年创造了N型TOPCon电池转换效率世界纪录。

TOP7热点：为什么现在电影行业突然就凉了僵尸100电影丧尸免费观看

财联社记者查询发现，吴建英系中国银行上饶分行原业务经理，犯挪用资金罪，被判处有期徒刑八年。

作者：中信期货研究员杨力

TOP8热点：普通人自媒体赚钱方式为拿美国绿卡与二人pk视频

像影音娱乐，如果完全安装一遍的话要20多G，说明大家在座舱里对影音娱乐是有诉求的。比如说HUD新交互模式的出现，宣传沉浸式3D导航体验等新的3D交互界面的形式，以及传统功能件的升级，以前大灯就是大灯，最多是能不能透雾，而现在是可编程、可写欢迎语、可打Logo。比如说外后视镜以前就是很简单的两个挂耳朵的玻璃物品，现在变成以摄像头和屏幕为替代的智能部件。还有很多尝试按照它出现频率的高低，宣传重点的优先级做了大圈小圈。

根据招股书，

TOP9热点：如何评价综艺一路繁花杨思敏1960

10月10日开盘，海天味业大幅低开，收盘跌超9%。而竞品

工银亚洲指出，展望后市，短期内人民币或仍有一定波动压力，但经济差、政策差和预期差趋势性弥合，中期内人民币趋势回暖动能料逐渐积聚。从经济差来看，下半年跨周期一揽子政策料陆续接力、内地经济复苏斜率走升，美国经济景气度呈回落态势、货币紧缩滞后冲击效应料逐步显现；从政策差来看，下半年人民银行总量型货币宽松政策继续加码的必要性较小；美联储7月大概率重启加息25BP，9月仍待“相机决策”，加息接近尾声；从预期差来看，近期各期限人民币远期NDF升幅收窄，港交所人民币货币期权期货呈现明显的交易量增、持仓量减的特点，离岸和在岸人民币1年期掉期点跌幅收窄、在-离岸掉期点差倒挂幅度收窄，以及4月和5月银行代客结售汇差额由此前的逆差转为顺差，结汇率上升等迹象，均显示人民币贬值压力呈现边际减弱。同时，人民银行平抑外汇市场非预期宽幅波动的政策工具丰富。

TOP10热点：皇马vs巴萨王者女英雄去掉所有服装的方法

此次，傅盛做客混沌“一”思维创新嘉年华活动，分享《ChatGPT时代如何创业》。创业者的机会在哪里？抛开争论，为什么一款聊天软件可以改变世界？

发布于：当涂县

半熟米饭1984全网都在扒的DeepSeek团队，是清北应届生撑起一片天_ZAKER半熟米饭1984新闻

半熟米饭1984全网都在扒的DeepSeek团队，是清北应届生撑起一片天_ZAKER半熟米饭1984新闻