汽车新闻-"一脱二摸四强"-全球首个多模态世界模型Emu3来了！智源王仲远：为多模态大模型训练范式指明新方向

全球首个多模态世界模型Emu3来了！智源王仲远：为多模态大模型训练范式指明新方向_ZAK一脱二摸四强ER新闻

汪文斌：“振华28”轮在美国佛罗里达州杰克逊维尔港遭遇美执法人员无理盘查滋扰，部分船员个人电子设备遭收缴扣押，离美航行计划被迫推迟，船方后续运营及船员工作生活受到影响。中方已向美方提出严正交涉。

智源 Emu3 生成的 AI 视频案例全球首个原生多模态世界模型来了。钛媒体 App 获悉，10 月 21 日，北京 AI 领域新型非营利研究机构北京智源人工智能研究院（以下简称 " 智源研究院 "，BAAI）发布采用了自回归（autoregressive）技术路线的原生多模态世界模型 Emu3，并同步上线技术文档、开源关键技术等供产业界进一步探索。据悉，Emu3 参数量为 8B（80 亿），只基于下一个 token（输入数据的基本单位）预测，无需扩散模型或组合式方法，把图像、文本和视频编码为一个离散空间，在多模态混合序列上从头开始联合训练一个 Transformer 模型。该模型实现了视频、图像、文本三种模态的统一理解与生成，传统模型则只能处理一种类型。而在图像生成、视觉语言理解、视频生成任务中，Emu3 的表现超过了图像生成模型 Stable Diffusion SDXL 、视觉语言理解模型 LLaVA、视频生成模型 OpenSora 等国内外主流开源模型，展示了国际领先的 AI 技术。智源研究院院长王仲远向钛媒体 App 等表示，Emu3 证明了下一个 token 预测能在多模态任务中有高性能的表现，这为构建多模态 AGI 提供了广阔的技术前景。Emu3 有机会将基础设施建设收敛到一条技术路线上，为大规模的多模态训练和推理提供基础，这一简单的架构设计将利于产业化。未来，多模态世界模型将促进机器人大脑、自动驾驶、多模态对话和推理等场景应用。王仲远强调，行业一定会有一个统一的多模态模型。" 智源会坚持做原始创新。我们认为原生大一统的多模态大模型，是整个大模型发展技术路线上必须要去攻克的一个技术方向。Emu3 是全球首个基于该技术路线的原生多模态世界模型，并面向国际社区进行了开源。" 王仲远坦言，中国在大模型的技术路线上要有自己的核心技术，而 Emu3 能为多模态大模型训练范式指明新的方向。图像文本视频大一统，王仲远：原生多模态世界模型处在 "GPT-3 时刻 "智源研究院成立于 2018 年 11 月，是全球最早开展 AI 大模型的中国非营利性新型研究机构，也是北京市继脑科学与类脑研究中心、量子信息科学研究院之后，着力建设的又一个重要的新型研发机构。智源研究院为了加快 AI 前沿技术落地，围绕大模型、类脑脉冲芯片、认知知识图谱、安全人工智能、疾病脑电、智能信息处理等领先技术的成熟化、工程化建立创新中心，推动 AI 原创成果转化及产业化。2024 年 2 月，智源研究院宣布王仲远博士担任新任院长，全面负责研究院各项工作。在此之前，王仲远在 AI 学术及产业领域深耕长达 15 年以上，曾在微软、Facebook（现 Meta）、美团、快手等多家头部公司任职过。Emu3 所使用的自回归技术路线的核心思想是利用序列数据中的上下文依赖性来预测未来的数据点。该类型模型中，不同模态数据共享同一套参数，可实现跨模态的关联和生成，无需人工设计的特征工程。同时因自回归技术路线的特点，在生成数据时模型必须按顺序进行，限制了并行计算的能力，导致生成速度较慢。也会遇到长期依赖问题，即模型难以捕捉序列中较远距离的依赖关系。所谓 " 世界模型 " 是目前技术流派中难度最高的一种，其特点在于让机器能够像人类一样对真实世界有一个全面而准确的认知，不仅包括对事物的描述和分类，还包括对事物的关系、规律、原因和结果的理解和预测，从而进行推理和决策，而 " 世界模型 " 也被认为是通往 AGI 的最优解。同期，谷歌与麻省理工学院（MIT）何恺明团队联合推进了一个新研究项目，推出名为 Fluid 的图像自回归模型，采用连续 token 生成方式和随机顺序生成单张图片；图灵奖得主、Meta 首席 AI 科学家杨立昆（Yann LeCun）领导的 Meta AI 团队曾推出 V-JEPA 世界模型，一种通过观看视频来教机器理解和模拟物理世界的方法；李飞飞提到的所谓 " 空间智能 " 也是世界模型的一种技术方向；而在国内，智源研究院也率先推出自回归路线多模态世界模型 Emu3。王仲远认为，Emu3 的发布意味着大模型能够通过更多维度的数据来理解、学习真实世界。具体来看，根据智源研究院 9 月底发布的技术报告，Emu3 模型参数量为 80 亿，包括了文字、图片和视频原始数据，并将视觉数据 Token 化从而在统一的架构下进行训练，可以生成文字、多样化风格的图片和最长为 5 秒的视频，并且能持续预测下一个 Token 词元。评测结果显示，英文提示词下，该模型图片生成得分为 70.0 分，领先于 Stability AI 于 2023 年 7 月推出的 SDXL 的 66.9，落后于 OpenAI 于 2023 年 8 月推出的 DALL E3 的 73.4 分；文生视频得分则为 81.0 分，领先于今年 6 月开源的 OpenSora 1.2 的 79.6 分；语言能力，技术报告未提供相关测评数据，主要由于 Emu3 语言类数据占比小，参数远小于市面上其他的语言大模型，因此目前语言能力并不在第一梯队，但 Emu3 模型词汇量达 184622，上下文长度达到 131072，具有很多语言模型的技术能力。王仲远认为，目前采用自回归架构构建统一的多模态世界模型仍处在应用爆发前的 "GPT-3 时刻 "，如今的多模态领域还处于非常早期，因此 Emu3 只是在前沿技术层面证明了该路线的可能性，未来仍需和产业界合作进一步扩大训练规模，并将 Emu3 推向大众能够触及的应用。算力、数据、生态仍是当前多模态世界模型的挑战事实上，近期关于 "OpenAI 研发的 AI 模型技术是否是未来通用人工智能（AGI）的方向 " 争议颇多。其中，苹果公司内部员工承认 " 生成式 AI 技术落后竞品两年以上 "，外部直接质疑 OpenAI o1 的 AI 推理能力较差，无法解决部分小学数学题内容；而杨立昆则直言，今天的 AI 大模型比猫还笨，甚至认为 Sora 并不能真的理解物理世界，这样的视频生成与世界模型的因果预测仍然存在巨大差异。对此，王仲远向钛媒体 App 坦言，他部分认同杨立昆的说法，确实需要多模态世界模型通往 AGI 目标，但不一定要借鉴生物大脑设计多个可以类比的自主性 AI 系统子功能模块这种方案。" 杨立昆提的关于现在大模型比猫还笨，很重要的一个论点是他认为纯语言模型无法抵达 AGI。我们也认为纯语言模型是不够的，因为仅从文本层面无法完全理解世界。事实上，一些科学家，包括谢赛宁博士，在尝试通过视觉信号直接触发智能能力的技术路线。语言是重要的，但只有语言是不够的。如果要理解感知、推理这个世界，首先要看得到、感觉到世界，才能把不同模态的信息进行交互理解。这恰恰是 Emu3 统一多模态技术路线的重要贡献。但另一方面，对于杨立昆提出来仿照人脑设计自主 AI 系统模块，我认为应该永远鼓励和支持不同的技术路线的探索，统一多模态世界模型就是其一。" 王仲远表示。Keras 之父 Francois Chollet 也认为，大模型通过提示使用时，无法理解与训练数据中情况大相径庭的情况，因此不具备通用智能，而大模型的主要作用是作为实际 AGI 的知识和程序存储，它们是一种记忆形式，而智能不仅仅是记忆。不过，当前 Emu3 这种原生多模态世界模型依然存在诸多 " 局限性 "，比如整个训练数据规模不够大，低于 Emu2 的 370 亿参数和人类的 860 万亿 -1000 万亿神经元规模，使得语言效果无法达到 GPT-o1 水平；算力规模不够大，目前智源的 AI 异构算力平台与行业最大规模的算力集群规模依然有一定距离；另外，当前世界模型路线没有生态和实践者，亟待更多企业和大公司进行商业落地，从而验证这条路线的正确性。" 我们需要更多资源，例如，Emu3 参数扩大 10 倍所需的算力、工程化的能力是指数级增加的，所以需要合作伙伴和我们一起训练下一代的模型。" 王仲远对钛媒体 App 表示。谈及预训练大模型不再训练时，王仲远强调，在技术路线收敛的趋势下，厂商会更积极地探索模型的落地场景。从乐观的角度来看，说明基础大模型已经达到一定的能力水平。另从谨慎的角度来说，训练转推理说明仅靠市场驱动，会令厂商陷入 " 追随者 " 的境地，不利于原始技术创新。" 我们一直强调智源的定位，是做原始创新，做企业不愿意做，高校做不了的事情，所以这使得我们必须做下一代 AI 技术探索，做未来 3 年 -5 年可能被行业认可的技术路线。在多模态方向上，智源需要为整个行业指明一个方向。" 王仲远称。以下是智源研究院团队与钛媒体 App 等部分对话交流整理：问：相比 Emu 2，Emu3 模型参数量减少，幻觉会不会更严重？智源研究院：首先简单介绍 Emu3 和 Emu 2 的技术区别。Emu2 视觉用的还是 embedding 的方式，Emu3 变成了离散的 token。Emu1，Emu 2 是概念验证加探索迭代。当时用了预训好的语言模型和扩散的 decoder，快速验证统一的生成式是否能走通，智源是国际上最早做的探索。因为不需要训练语言模型，基于已有的，成本会比较低。Emu3 我们是完全从头训练，是为视频图像文本原生多模态设计的。问：Emu3 视频好像最多 5 秒 24 的 FPS，这与其他预测模型的区别？智源研究院：下一个 token 天然的好处是本身就可以续写，看到前面的 token 预测后面的 token，可以无限续下去。只是如果在一个场景续写，看到的长视频都是一个场景，意义不大。现在整体的续写能力还没有突破长的有情节的视频生成。Emu3 这套框架的独特优势就是因果性，可以基于前面发生的事情预测后面发生的事情，而不是基于一堆噪声去想象。Emu3 现在可以 5 秒一直续写。问：有没有计划在科学计算上的应用？智源研究院：AI for Science 多模态是非常必须的。GPT 3 到 ChatGPT 花了两年半的时间，Emu3 好比当年的 GPT3，Emu3 是一个中间的 milestone（里程碑），下一个期待类似 ChatGPT 的的 milestone。问：智源未来三到五年之内的重点是什么？智源研究院：继续研发原生多模态世界模型 Emu 系列，解决更大规模的数据、算力以及训练。统一多模态基座大模型是人工智能进入到物理世界非常重要的基座。多模态具身大脑也是研究院正在做的研究。今年我们也看到了诺贝尔的物理学奖给了 Hinton 教授，化学奖是给了 DeepMind 团队。AI for Science 也是智源非常关注的重要研究方向。问：从 To C 端角度来说，APP 肯定是最好的方式，智源未来有没有计划和一些其他合作伙伴推出一些 c 端 APP？智源研究院：当前市场上的语言模型 APP 已经开始基于百亿模型在使用，这个前提是有了千亿、万亿模型，达到更高的性能，百亿模型效果随之更好。而现在，多模态大模型还在不断探索能力上限。智源探索出了 Emu3 这样一条技术路线，那么接下来需要展示，也期待在多模态领域的 "ChatGPT" 的时刻。我想再一次强调 Emu3 架构的优越性，将来多模态大模型都能够非常容易使用，这是 Emu3 模型的意义。（本文首发于钛媒体 App，作者｜林志佳，编辑｜胡润峰）

koa12jJid0DL9adK+CJ1DK2K393LKASDad

编辑:黄强辉

TOP1热点：特朗普：泽连斯基是否出席和平解决乌克兰冲突的会议“不那么重要”

尼日尔的最后结果，不排除是一场混战，无数人倒在血泊中。从这个角度说，真的，。

美国对华301关税、

TOP2热点：体坛联播｜U20国足今日冲击世青赛，韩国围棋队农心杯夺冠

美国对华301关税、

最后，几点我个人的感慨吧。

TOP3热点：孙青谈甲午战争与东亚近代的知识史转折孟若羽电影全集在线观看

由于在韩国待了很长一阵子，谭静的韩语很娴熟，所以她还找了一份教韩国人中文的兼职，两份工作综合下来，每个月也不过七八千块钱。

如果董铮有朝一日还能和朋友相聚绿茵场，希望他已洗净了内心“自作聪明”的污浊，回归当初那份少年的纯粹。

TOP4热点：物流管理专家、上海交大教授朱道立逝世葫芦娃里不卖药千万

但是让人无法预料的是，独立后的南苏丹，并没有因为把持了石油资源而迅速崛起，反倒是由于石油利益分配问题，很快再度陷入了惨烈的内战中。

（原标题：内蒙古阿拉善新井煤业露天煤矿“2·22”特别重大坍塌事故相关责任人被严肃查处公安机关对19名涉案人员立案侦查纪检监察机关严肃问责42名公职人员）

TOP5热点：历史上的今天｜1956年2月22日，李政道、杨振宁提出宇称不守恒定律日日噜噜夜夜狠狠久久AV

印象最深的两点，第一点，西共体15国一致同意，要在2027年发行统一货币。这是向欧盟学习，但统一货币，可真不是玩的。

根据安排，教室按100元/人、宿舍按100元/人的标准进行续费预充值，班级由各班班主任或班级负责同学收取后统一支付给运营商，学生宿舍由各楼层宿管老师集中收取后统一支付给运营商。《通知》结尾处还留有运营商联系电话和校方监督电话。

TOP6热点：20℃、25℃+，超级大回暖就在下周！气温火箭式飙升撩起裙子在厨房里操

这里有必要介绍一下西共体。

战火对于资源的消耗，是难以想象的。

TOP7热点：吴澜跨省份履新宁夏公安厅厅长羞羞官方在线阅读页面免漫画入口页面弹窗漫画

�

印象最深的两点，第一点，西共体15国一致同意，要在2027年发行统一货币。这是向欧盟学习，但统一货币，可真不是玩的。

TOP8热点：蒋超良落马，湖北省委常委会：坚决拥护党中央决定黑土ちゃんが腿法娴熟

从时机上看，今年6月瓦格纳事件以来，普里戈任与俄当局的政治裂痕似乎得以弥合。这位有着“普京厨师”之称的雇佣军集团领袖近日频频现身俄罗斯，并于7月出现在俄非峰会等场合。就在坠机事件前，他刚刚发布了瓦格纳事件后的首个视频，在疑似非洲的地区称“要让俄罗斯更伟大”。

企查查平台显示，新井煤业涉及司法案件199项，13次被列为失信被执行人，失信总额约7.57亿元，目前全部未履行。该公司还曾被多次处罚，其中不乏安全问题。

TOP9热点：万斯喊话泽连斯基：说特朗普坏话很蠢，没有美国，乌克兰早完了孟若羽电影全集在线观看

1956年元旦，苏丹共和国宣布成立，国土面积250.5万平方公里，是非洲最大的国家。但是，独立过程中北方的阿拉伯人参与更多，所以英国殖民政府留下的职位，大部分被北苏丹人接管。

原因？很简单，中美经贸关系的复杂性。

TOP10热点：2025年全国两会即将召开：委员拟提案建言AI虚假信息治理域名停靠盘她射门app免费下载2021

不过，雷蒙多在访华期间却释放出与麦考尔等人明显不同的信号。《环球时报》记者注意到，在官宣访华时，雷蒙多在相关声明中未回应麦考尔的所谓警告。而她在行前接受采访时则表示，美国总统拜登让她向中方转达这样一个信息，即定期沟通对于避免冲突至关重要。据《华尔街日报》援引雷蒙多的话称，她从美国企业方面也收到了类似的信息，这一原则应当也适用于对出口管制措施的讨论，“我们在与中国打交道时必须保持透明，避免误解、不必要的局势升级和误判。”

严子杰

发布于：景东彝族自治县

一脱二摸四强全球首个多模态世界模型Emu3来了！智源王仲远：为多模态大模型训练范式指明新方向_ZAK一脱二摸四强ER新闻

一脱二摸四强全球首个多模态世界模型Emu3来了！智源王仲远：为多模态大模型训练范式指明新方向_ZAK一脱二摸四强ER新闻