肉多到炸的古言英伟达 NVLM 1.0 引领肉多到炸的古言多模态 AI 变革,媲美 GPT-4o_ZAKER新闻
英伟达 NVLM 1.0 引领肉多到炸的古言多模态 AI 变革,媲美 GPT-4o_ZAKER新闻
9月1日金融一线消息,中国人民银行广东省分行公布了广东省(不含深圳)内各城市首套房贷利率下限历史调整情况。其中,自2019年10月8日至今,广州市执行利率下限水平为LPR。目前,惠州市、韶关市、肇庆市、中山市、珠海市、江门市、云浮市、湛江市、清远市、汕头市阶段性取消下限。
IT 之家 9 月 21 日消息,科技媒体 marktechpost 昨日(9 月 20 日)发布博文,报道了英伟达(Nvidia)最新发布的论文,介绍了多模态大语言模型系列 NVLM 1.0。多模态大型语言模型(MLLM)多模态大型语言模型(MLLM)所创建的 AI 系统,能够无缝解读文本和视觉数据等,弥合自然语言理解和视觉理解之间的差距,让机器能够连贯地处理从文本文档到图像等各种形式的输入。多模态大型语言模型在图像识别、自然语言处理和计算机视觉等领域拥有广阔应用前景,改进人工智能整合和处理不同数据源的方式,帮助 AI 朝着更复杂的应用方向发展。英伟达 NVLM 1.0NVLM 1.0 系列包括 NVLM-D、NVLM-X 和 NVLM-H 三种主要架构。每个架构都结合先进的多模态推理功能与高效的文本处理功能,从而解决了以往方法的不足之处。NVLM 1.0 的一个显著特点是在训练过程中加入了高质量纯文本监督微调(SFT)数据,这使得这些模型在视觉语言任务中表现出色的同时,还能保持甚至提高纯文本性能。研究团队强调,他们的方法旨在超越 GPT-4V 等现有专有模型和 InternVL 等开放式替代模型。NVLM 1.0 模型采用混合架构来平衡文本和图像处理:NVLM-D:纯解码器模型,以统一的方式处理两种模式,因此特别擅长多模式推理任务。NVLM-X:采用交叉注意机制,提高了处理高分辨率图像时的计算效率NVLM-H:混合了上述两种架构的优势,在保持文本推理所需的效率的同时,实现了更详细的图像理解。这些模型结合了高分辨率照片的动态平铺技术,在不牺牲推理能力的情况下显著提高了 OCR 相关任务的性能。性能在性能方面,NVLM 1.0 模型在多个基准测试中取得了令人印象深刻的成绩。归功于在训练过程中集成了高质量的文本数据集,在 MATH 和 GSM8K 等纯文本任务中,NVLM-D1.0 72B 模型比其纯文本骨干提高了 4.3 分。在视觉问题解答和推理任务中,这些模型还表现出了强大的视觉语言性能,在 VQAv2 数据集上的准确率为 93.6%,在 AI2D 上的准确率为 87.4%。在 OCR 相关任务中,NVLM 模型的表现明显优于现有系统,在 DocVQA 和 ChartQA 数据集上的准确率分别为 87.4% 和 81.7%,突出显示了其处理复杂视觉信息的能力。NVLM-X 和 NVLM-H 模型也取得了这些成绩,它们在处理高分辨率图像和多模态数据方面表现出色。研究的主要发现之一是,NVLM 模型不仅在视觉语言任务中表现出色,而且还保持或提高了纯文本性能,这是其他多模态模型难以达到的。例如,在基于文本的推理任务(如 MMLU)中,NVLM 模型保持了较高的准确率,在某些情况下甚至超过了纯文本模型。想象一下在自动驾驶汽车中的应用场景。NVLM 1.0 可以通过摄像头实时获取道路信息,并与车辆导航系统进行语言沟通。它不仅能识别交通标志,还能理解复杂路况下的人类指令,例如 " 如果前方有施工,请寻找替代路线 "。这得益于其强大的视觉 - 语言处理能力以及出色的文本推理能力,使得自动驾驶更加智能、安全、可靠。小结英伟达开发的 NVLM 1.0 模型代表了多模态大型语言模型的重大突破,该模型通过在多模态训练中集成高质量文本数据集,并采用动态平铺和高分辨率图像平铺标记等创新架构设计,解决了在不牺牲性能的前提下平衡文本和图像处理的关键难题。NVLM 系列模型不仅在视觉语言任务方面超越了领先的专有系统,而且还保持了卓越的纯文本推理能力,让多模态人工智能系统的发展又向前迈进一大步。IT 之家附上参考地址koa12jJid0DL9adK+CJ1DK2K393LKASDad
编辑:马继
TOP1热点:特朗普宣誓就任美国第47任总统
坚持“用户第一”,通过科学布局全产业链并进行颠覆性创新,君乐宝悦鲜活鲜奶于今年7月成为高端鲜奶市场占有率全国第一品牌。。
2008年年底,山西共关停1500多座矿井,办矿主体锐减了2000多家。山西的“煤老板”们或是成为国企股东,或是将煤矿售出套现,从此消失在大众视野。
TOP2热点:中方是否修改了美国国务卿鲁比奥中文译名?外交部回应
行情显示,
TOP3热点:特朗普:美国将寻求不断扩张领土,要把星条旗插上火星1819岁MACBOOK日本
投资运行基本稳定,高技术服务业增速较快。北京固定资产投资(不含农户)同比增长13.6%,较1季度提高4个百分点,反映实物工作量的建安投资和反映企业扩大生产能力的设备工器具购置投资分别增长5.8%和52.7%。天津受房地产投资持续下行影响下降16.0%,降幅扩大13.4个百分点,工业投资增长较快,增长15.6%。河北增长8.4%,亿元以上项目投资增长20.5%,拉动全省投资增长12.2个百分点。三地高技术服务业投资彰显活力,其中北京增长78.2%,信息服务业发挥带动作用;天津增长7.7%,比上年全年加快29个百分点,主要投向信息服务、研发与设计服务领域;河北增长18.2%,电子商务服务业和科技成果转化服务业投资快速增长。
TOP4热点:出售与辉同行后,东方甄选中期净亏9650万元,自营及直播电商GMV下滑16%用他的大句号撞击我的小括号
2、ETF行情指南:周期股走强!煤飞色舞钢花飞溅
TOP5热点:四川一景区50元一瓶出售“虎尿”,雅安市文旅局:正核实处理日本人も中国人も汉字を
"大震惊,看来BOLL阶段新低且开口收窄就是这只股票的财富密码。”
TOP6热点:中方是否邀请特朗普访华?外交部回应填得很满是什么感觉
从技术角度来说,当前新疆众和金叉发生在0轴下方,绿柱状持续收缩,红柱状开始放出,这也是市场转市信号之一,表明该股的下跌行情或低位盘整已经结束,股价或将开始加速上升,建议持续关注。
TOP7热点:“韩国版国会山事件”:尹锡悦支持者冲入法院打砸,幕后推动者有谁?纯肉高
9月1日金融一线消息,中国人民银行广东省分行公布了广东省(不含深圳)内各城市首套房贷利率下限历史调整情况。其中,自2019年10月8日至今,广州市执行利率下限水平为LPR。目前,惠州市、韶关市、肇庆市、中山市、珠海市、江门市、云浮市、湛江市、清远市、汕头市阶段性取消下限。
相关的消息也受到了互联网、科技圈的聚焦关注,各类观点、分析、报道层出不穷。不过虽然互联网、科技圈嗨了,但似乎普通用户对文心一言乃至整个AI大模型的感知都并不高。
TOP8热点:韩国为何规定“死子”放入棋盒盖?再谈柯洁LG杯犯规判负用他的大句号撞击我的小括号
最新的JOLTS职位空缺数据也增加了劳动力市场降温的迹象,职位空缺和自主离职率都有所下降;ADP报告也比预期要冷,薪资增长继续放缓。不过,截至8月26日一周,首申失业救济人数为7月29日一周以来最低水平。美国首申失业救济人数仍然很低。
TOP9热点:新年首个正部级“老虎”:曾任西藏自治区政府主席的齐扎拉被查中国新疆xxxxxl19学生申中国
格隆汇9月1日丨康缘药业(600557.SH)公布,公司近日收到国家药品监督管理局签发的乌鳖还闺颗粒《药物临床试验批准通知书》。乌鳖还闺颗粒处方源于国医大师夏桂成教授临床经验方,功能主治为补肾健脾、调理冲任,主要用于治疗早发性卵巢功能不全,症见月经稀发量少、甚则闭经,胸闷心慌、腰膝酸软、失眠多梦、健忘、烘热出汗等。
TOP10热点:汕头一女子称因未婚生育被认定为“出嫁女”,当地回应:正调查处置中国新疆xxxxxl19学生申中国
IPO律师:北京市天元律师事务所