さすがに_文学新视_权威榜单登顶国内第一,阶跃星さすがに辰Step-2是如何炼成的_ZAKER新闻

さすがに权威榜单登顶国内第一,阶跃星さすがに辰Step-2是如何炼成的_ZAKER新闻

さすがに权威榜单登顶国内第一,阶跃星さすがに辰Step-2是如何炼成的_ZAKER新闻

权威榜单登顶国内第一,阶跃星さすがに辰Step-2是如何炼成的_ZAKER新闻

  一分部署,九分落实。建设教育强国使命光荣、责任重大。我们要全面贯彻习近平新时代中国特色社会主义思想,深刻领悟“两个确立”的决定性意义,切实增强“四个意识”、坚定“四个自信”、做到“两个维护”,奋力开拓教育强国建设新局面。

国际权威榜单 LiveBench 官网近日发布了一份最新的模型能力榜单。阶跃星辰自研的万亿参数语言大模型 Step-2 在榜单中位列国产基座大模型第一,成绩逼近 OpenAI 的 o1-mini-2024-09-12,超越 gpt-4o-2024-08-06 、gemini-1.5-pro-002 等国际主流模型,是唯一进入榜单前十名的中国语言大模型,位列全球第五。虽然大模型的评测榜单已经泛滥,但 LiveBench 却是实打实的大有来头。LiveBench 是由图灵奖得主、Meta 首席 AI 科学家杨立昆(Yann LeCun)联合 Abacus.AI、纽约大学等机构推出的大模型测评基准。LiveBench 从包括数学、推理、编程、语言理解、指令遵循和数据分析在内的多个复杂维度对模型进行评估。之所以名字里有个「live」,就是因为这个榜单采用了新颖的数据来源并保持每月更新,这杜绝了大模型通过预训练和微调作弊的可能性。LiveBench 也被行业内誉为「世界上第一个不可玩弄的 LLM 基准测试」,官网上明晃晃地写着「A Challenging,Contamination-Free LLM Benchmark」。简单来说,经常对着当今由 OpenAI 引领的大模型技术路线一通抨击的杨立昆牵头做了一个对刷榜行为异常警觉的大模型评测基准——而就是这样一个十分严苛的榜单,Step-2 在其中 IF Average(Instruction Following,指令遵从)一项中拿到了第一。根据评测基准 LiveBench 的论文中叙述,测评团队在 IF Average 测试中为模型提供了一篇来自《卫报》的文章,要求模型遵循多个随机抽取的指令,同时要求模型完成与文章相关的四个任务之一:释义、简化、故事生成和总结。然后根据任务对指令的遵守情况来评分。评测结果是 Step-2 拿到了 86.57 的平均分,gemini-1.5-flash-002 得到了 84.55,在这两个唯二超过 80 分的模型之后,meta-llama-3.1-70b-instruct-turbo 以 79.08 紧随其后,而以推理能力见长的 o1-preview-2024-09-12 得到了 77.72 分。从 LiveBench 的测试结果看,目前 Step-2 在指令遵从的能力上力压了当今所有国内外语言大模型。01强劲的 Step-2 万亿参数模型 说 Step-2「异军突起」或许并不准确。阶跃星辰在今年 3 月发布了 Step-2 语言大模型预览版,是当时国内首个由创业公司发布的万亿参数大模型。此后的几个月内,阶跃星辰快速迭代 Step-2,在 2024 年 WAIC(世界人工智能大会)期间对外发布了这款模型的正式版,彼时 Step-2 在数理逻辑、编程、中文知识、英文知识、指令跟随等方面体感已经全面逼近 GPT-4。目前,阶跃星辰 C 端智能助手「跃问」已经接入了 Step-2 语言大模型,在跃问 App 和跃问网页端皆可体验。但以成长速度来说,Step-2 用四个月追到与 GPT-4 几乎身位平行,又用了 4 个月完成对 Gemini-1.5 和 GPT-o1 部分能力的反超,步子迈的确实很快。但这也并不让人太过意外,由于特殊的 MoE 架构,Step-2 从最初就被视为极富成长性的「高潜力」基础模型。在大规模语言模型(LLM)的发展过程中,Mixture of Experts(MoE)架构因其独特的优势受到越来越多的关注。这种架构通过选择性地激活部分专家网络,在提升模型性能的同时保持了较高的计算效率。而目前训练 MoE 模型主要存在两种策略:一种是基于已有模型的 upcycle(向上复用)训练,另一种则是从头开始训练。Upcycle 训练是一种利用现有模型进行训练的方法。它的优势在于对计算资源的需求较低,训练效率高。因为可以复用已有的模型参数,训练过程更快。这种方法适合在资源有限的情况下快速开发和验证模型。然而,upcycle 训练的缺点是模型的性能上限较低。由于基于已有模型的拷贝,专家网络可能会出现同质化问题,即多个专家学习到相似的特征,限制了模型的多样性和最终性能。相比之下,完全从零构建和训练 MoE 模型,面临着更高的训练难度和更大的资源投入,但同时能够带来更高的模型性能上限。这种方法允许开发者设计更为复杂和多样化的专家网络,使得每个专家网络都能够学习到更加独特和专门化的特征。同时也提供了更大的灵活性,开发者可以根据具体需求对模型架构进行精细的调整和优化。市面上所谓的 MoE 大部分是前者,而阶跃星辰团队在设计 Step-2 MoE 架构时候选择了后者。这也意味着 Step-2 每次训练或推理所激活的参数量都超过了市面上的大部分 Dense 模型。也让 Step-2 有了另一个更让外界印象深刻的标签——万亿参数模型。而往往更大参数的语言模型意味着更好的交付效果,特别是在指令遵循、内容创作和语义理解层面。02跃迁式进化的阶跃星辰阶跃星辰的名字来自于「阶跃函数」。阶跃函数(Step Function)是一种分段常数函数,其特征是在某些特定点上发生突变,即函数值在这些点上会突然从一个常数值跳跃到另一个常数值。这种函数通常用于描述系统中某种瞬时的变化或状态的切换。在神经网络中,阶跃函数可以用作激活函数,帮助模型在输入达到某个阈值时激活输出。这种激活过程可以视为一种超线性增长,因为输出在某个点上突然变得显著。阶跃星辰也带着相似的某种跃迁和超线性的感觉,这家大模型初创公司没有喧闹的天性,每次回到公众的视线内都意味着有了重大的能力提升。除了语言大模型 Step-2,阶跃星辰也很早就在 Step 系列通用大模型家族中展开了多模态方面的探索。在 2024 年 3 月,阶跃星辰推出了千亿参数的多模态大模型的第一个版本 Step-1V,在 7 月的 WAIC 期间,阶跃星辰一口气连发三款 Step 系列通用大模型新品。除了 Step-2 万亿参数语言大模型正式版之外,也包括 Step-1V 的迭代版本 Step-1.5V 多模态理解大模型,以及 Step-1X 图像生成大模型。半年时间,阶跃星辰从万亿参数的语言大模型出发,迅速完成了语言模型和多模态模型的齐头并进。在 Step-2 万亿参数大模型的加持下,Step-1.5V 多模态模型在图像感知和理解能力上全面提升,并具备出色的视频理解能力。它能准确地识别视频中的物体、人物和环境,并理解视频的整体氛围与人物情绪。除此之外,Step-1.5V 有着非常可观的推理能力,能根据图像内容进行解答数学题、编写代码、创作诗歌等高级推理任务。基于这款模型,阶跃星辰还在 C 端智能助手「跃问」上线了智能视觉搜索功能「拍照问」,用户可以即拍即问,比如拍美食图计算卡路里、拍场景学习英文单词等等。如果说 Step-1.5V 的发布,标志了阶跃星辰在极短的时间内实现了从图像理解到视频理解的跨模态升级,那么新发布的 Step-1X 图像生成大模型,则代表了阶跃星辰在推动多模态理解和生成一致性的技术路线上也有了重要进展。Step-1X 采用全链路自研的 DiT(Diffusion Models with transformer)模型架构,支持 600M、2B、8B 三种不同的参数量,能够满足不同场景的需求。并且 Step-1X 具备强大的语义对齐和指令跟随能力,还针对中国元素和文化进行了深度优化,更具中国风格。这也是 Step-1X 区别于其他模型的重要特色。除了在基座模型层面布局全面、快速迭代之外,阶跃星辰在产品化上步伐同样迅速:智能助手「跃问」和 AI 开放世界平台「冒泡鸭」,是阶跃星辰面向 C 端用户推出的两款产品。基于 Step 系列通用大模型的强大能力,「跃问」能准确地描述和理解图像中的文字、数据、图表等信息,不仅能出色地完成内容创作、逻辑推理、数据分析等任务,也能满足人们在生活场景中的各种需求,比如可以拍图介绍文物古迹背后的历史知识、帮忙制订旅游攻略、辅助健康管理等等。「冒泡鸭」则打造了一个全新的 AI 开放世界。在这里,用户可以探索故事、创作角色,沉浸属于自己的开放世界。目前 AI 应用普遍面临用户使用门槛偏高的问题,阶跃星辰也在通过一系列产品创新,让 AI 应用获得更多普世化场景,能够真正为每个人解决问题。近期,「跃问」将智能视觉搜索功能「拍照问」接入了 iPhone 16 新发布的相机控制按钮,支持用户一键调用智能问答搜索。是国内首个将大模型能力接入 iPhone 16 的大模型厂商,在多模态能力与硬件的结合上迈出了引人注目的一步。在阶跃星辰 CEO 姜大昕看来,模型和应用的关系犹如「灵魂与皮囊」,两者的深度绑定才是实现技术极致的关键,应当形成一种协同进化的关系。应用将抽象的模型能力投射进现实,而模型能力最终决定着一切的上限。近几个月,OpenAI 发布的 o1 一定程度上印证了大模型此前并未受到足够重视的技术方向,也就是强化学习以及强化学习所带来的在推理和规划能力上的突出表现。而在阶跃星辰最初「模拟世界、探索世界和归纳世界」的 AGI 发展路线图中,世界模型和强化学习就在确定要攻克的版图上。现在大模型技术曲线从陡坡放缓的大背景下,无论是模型多模态的能力、杀手级 AI 产品的出现,或者对强化学习训练更好地运用,诸多亟待突破的地方,希望又比以往任何时候都更明确的落在基础模型的能力上。Step-2 和整个 Step 系列模型,或许就是那个阶跃星辰撬动世界的支点。

koa12jJid0DL9adK+CJ1DK2K393LKASDad

编辑:张伍

TOP1热点:《英雄联盟》2025 赛季版本更新已上线,如何评价本次改动?你的游戏体验感受如何?

  “在原本合规的情况下,医药代表需要将药品相关的专业信息传递给医生,帮助医生在全面、深入、详细了解药品的相关特性和效果后作出评估和筛选。”李岑岩说,但现实中,想要一款药品被医生选中,部分医药代表为了“走捷径”“抄近道”,寄希望于采用“塞红包”方式来换取更多药单,以实现促销。。

  “城中村改造虽然有极强的政策导向,但是如果房企通过招拍挂摘下城中村改造地块,那就是企业行为,从拆迁开始,投入较多、周期较长,这也是为什么此前一些企业参与旧改项目时资金链断裂的原因。”前述城投公司负责人告诉记者。

TOP2热点:用LLM实现文本二分类,微调base模型还是微调chat模型比较好?

  李宇嘉提醒,首付比例降低意味着月供增加。在当前的经济、就业和收入前景预期并不是特别乐观的情况下,必须要一揽子政策结合起来,包括降低利率、推进城村改造、居民收入端的修复就业、供给端纾困房地产企业等才能稳定市场。

  我觉得值得,因为暑假就是要走出去,祖国很大很辽阔,见识下不同的风土人情,有利于开阔视野,让孩子将文本知识与实际体验相结合。

TOP3热点:2025 春节,有哪些活动可以为自己和家人制造「新的过年记忆」?甘雨ちゃんが人気の原因

  中国人民银行、国家金融监督管理总局有关负责人表示,此次差别化住房信贷政策调整优化的重点在于,一是统一全国商业性个人住房贷款最低首付款比例政策下限——即不再区分实施“限购”城市和不实施“限购”城市,首套住房和二套住房商贷最低首付款比例政策下限统一为不低于20%和30%;二是将二套住房利率政策下限调整为不低于相应期限贷款市场报价利率(LPR)加20个基点。

  <span>“两军交往如果要进一步正向互动,关键还是得看未来一段时间美方能否真正去改变错误的对华认知和政策,是否能切实采取具体的善意行动,这是两军关系重回正轨的基本条件。”他表示。</span>

TOP4热点:如何评价 2024 年国产电影票房榜单被「东北喜剧」霸榜?holla全球聊天

  据上述工作人员透露,部分右翼反华势力来使馆大门前滋扰闹事,使馆正常办公秩序受到很大影响。对此,使馆已强烈要求日本政府及警方切实采取措施予以应对。

  事实上,一般大城市的房产预售制,都是付完首付款后直接贷款,而走完这一流程,才能办理新房备案,随即开始还贷款。在这一过程中,房产始终处于未交付状态。

TOP5热点:如何评价莱布尼茨?炖肉计(是今)海棠

  2月18日,王毅在出席慕尼黑安全会议期间,应约会见克莱弗利。克莱弗利表示,英方希望加强同中方互利合作,愿同中方合作应对全球性挑战。

  但如今可以按照“首付三成”执行。“这就降低了购房的门槛,原来首付40%部分可以降到30%,这样的买房的首付支出就省了一大截。”董希淼表示。

TOP6热点:用LLM实现文本二分类,微调base模型还是微调chat模型比较好?238大但人文艺术

  显然,相比于民营房企,央企、国企以及地方城投被认为应该在新一轮城中村改造中发挥更大作用。不过,作为广州国资系房企越秀地产,面对广州今年城中村改造投资达983亿元这块蛋糕也颇为谨慎。

  华泰证券在研报中认为,目前来看,民营房企现金流紧张的状况仍待缓解,地产销售走弱下偿债风险或进一步上升,预计短期内民营房企竞标城中村改造项目实施主体的积极性较低,但可能通过输出代建、提供物业服务、存量商品房回购为保障房等多元化途径参与。而龙头国资房企,可能是未来参与城中村改造的主力。

TOP7热点:「鸡员工不如鸡自己」,作为领导 / 员工,你如何看待这个说法?男生女生一起嗟嗟嗟很痛

  “城中村改造虽然有极强的政策导向,但是如果房企通过招拍挂摘下城中村改造地块,那就是企业行为,从拆迁开始,投入较多、周期较长,这也是为什么此前一些企业参与旧改项目时资金链断裂的原因。”前述城投公司负责人告诉记者。

  根据国家规定,医护人员每年需要继续医学教育学分且不低于25学分,参与学术交流活动可获取学分但需要缴纳注册费用。2022年,拜耳医药保健有限公司等医药企业为4728名参加某省医学会举办的40个学术会议的医护人员缴纳会议注册费137.85万元。

TOP8热点:俄罗斯商品馆大量开店,俄罗斯人探店后却说有些在俄罗斯都没见过,有商家承认部分是三无产品,如何看待此事?十大BB哪个好

  在不少业内人士看来,在当前房产市场形势下,100%现房销售有一定难度,但期房采取类似“折中”的办法,某种程度上不失为一种既降低购房者风险,又提振购房者信心的尝试。

  同时,吴江浩就中国驻日本使领馆遭受滋扰提出严正交涉,表示近日中国驻日使领馆接到大量来自日国内的骚扰电话,对使领馆正常运转造成严重干扰。中方敦促日方依法处置,切实保障中国使领馆馆舍、人员及在日机构、企业、公民和来日中国游客人身安全。中方将继续依法保障日本驻华使领馆安全和在华日本公民合法权益。

TOP9热点:成年人如何才能过个好年?该怎么重新定义「过个好年」?绫华吃旅行者坤吧

  中国外交部发言人当时指出,英国外交大臣显然应该好好补补历史课了。“一个中国原则是中英建立和发展外交关系的政治基础和前提条件。50多年前,英方在中英关于互换大使的联合公报中明确台湾是中华人民共和国一个省,承认中华人民共和国政府是中国唯一合法政府。”

  今年4月,因为几份招标公告,深铁置业接盘恒大深圳龙岗区四联社区排榜村城市更新项目才被外界知悉,项目计划总投资超过464亿元。排榜村早在2016年年底便被列入《2016年深圳市城市更新单元计划第六批计划》,更是以近50.6万平方米的拆除重建面积成为所处的横岗社区最大的旧改项目。此前,招商蛇口、深圳市级地产纾困平台安居建业也曾接盘恒大位于深圳的多个旧改项目。

TOP10热点:如何评价 2024 年国产电影票房榜单被「东北喜剧」霸榜?男生贴女生什么意思

  “目前国内的合规人才非常稀缺”,但李岑岩也指出,合规官用专业知识去促进企业内合规体系的搭建,真正落实需要企业每一个人的参与。“人人都应当是自己岗位范围内的合规官,企业的董事长作为企业合规的第一责任人,业务主管是部门合规的第一责任人,每一个人是他自己岗位上的合规的第一责任人。”

  此前一份某省药品和高值医用耗材生产经销使用情况专项审计调查报告(征求意见稿)在业内流传,据《经济观察报》8月9日报道,报告中一家医院的工作人员证实了报告的真实性。

发布于:银川市