东北 狗儿长大了原始图结构转文本序列,东北 狗儿长大了原始大模型直接读懂!图推理性能大涨_ZAKER新闻
图结构转文本序列,东北 狗儿长大了原始大模型直接读懂!图推理性能大涨_ZAKER新闻
T+1改T+0真的会好吗?对于T+0交易,对此认可的投资者也不在少数,认为这是活跃资本市场的一个手段。
大语言模型直接理解复杂图结构的新方法来了:将图(Graph)转换为适合 Transformer 架构的线性 token 序列。belike:这种最新图线性化方法,反映了自然语言中局部依赖性和全局对齐性两个关键属性,即:不仅需要保留基于前文上下文预测下一个 token 的能力(局部依赖性),而且不同图的 token 序列应该从具有相似特征的 token 开始或结束(全局对齐性),就像自然语言文本经常以特定词语开头或结尾。如此一来,在海量文本数据上训练的 LLM 也能更好地理解图结构中的关系和属性,如节点计数、最大度数计算和图式形状分类等图推理任务都能完成。具体如何实现?机器学习工程师 Rohan Paul 发帖推荐论文并做了个总结。用多种技术开发了图线性化方法:图中心性(PageRank 和度)、图退化(k-core 分解)、节点重标记方案基于节点重要性创建了边排序策略应用节点重标记以保持全局对齐作者使用 GraphWave 合成数据集进行评估,结果表明他们提出的线性化方法相比基线方法取得了更好的性能,特别是基于度中心性和 PageRank 的方法在多个任务中表现突出。有网友已经迫不及待集成到 RAG 中了:我一直在寻找这方面的论文。多种基于图论的线性化方法在具体方法上,图线性化涉及将图的节点和边转换为线性 token 序列。研究团队提出了几种基于图论的图线性化方法。一种是根据图中心性(Graph centrality)对节点进行排序。这里的中心性可以是节点的度(Degree centrality),即与节点直接相连的边的数量;也可以是更为复杂的 PageRank 值,它不仅考虑节点的连接数,还考虑连接到它的节点的重要性。研究人员根据排序结果选择与重要性最高的节点相连的边,并随机排列这些边,然后对下一个重要性节点重复此过程。如果多个节点具有相同的中心性值,则随机选择它们的顺序。另一种是基于图退化性(Graph degeneracy)的方法,即通过图的核编号(Core Number)来排序节点。利用 k-core 分解 , 将图分解为一系列嵌套的子图。核编号是指节点在图中最高核的编号。通过这种方式,能够捕捉到图中最核心的部分,并将这些信息线性化。除了基于节点属性的排序,作者们还考虑了直接对边进行排序的方法。他们将每个图转换为其对应的线图(Linegraph),将原图的每条边转换为线图中的节点,如果原图中两条边相邻,则在线图中对应节点相连。然后,应用与核编号相同的过程来对 Linegraph 中的节点进行排序。为了实现全局对齐性,作者还提出了节点重命名策略。在这个策略中,不同图中具有最高核编号的节点被重新标记为索引 0,以此类推。这样做的目的是让 LLM 能够将节点索引与其重要性属性之间建立一致的联系。中心性方法总体优于退化性方法为了测试上述方法的有效性,作者使用 GraphWave 生成器构建了合成数据集。首先构造基础图(循环或链式结构),然后附加预定义形状的图案(motifs)。研究人员选择了五种基本形状(团、星形、扇形、菱形和树),并包含了这些形状的组合,总共生成了 3000 个图,平均每个图包含 32.33 个节点和 43.72 条边。实验中设计了三个评估任务:节点计数:要求模型从边列表推断节点数量最大度计算:确定图中最大节点度数图案形状分类:给定详细的图案定义,识别图中存在的图案实验采用了 Llama 3 Instruct 8B 模型,使用 4bit 量化版本。为确保输出的确定性和一致性,temperature 参数设为 1e-3,sampling 参数设为 1e-1。包括 zero-shot 和 one-shot 两种设置,并与两个基线方法比较:MotifAware 基线,保持图生成过程中的默认边序;Random 基线,完全随机的边列表排序和节点标签。结果显示了以下几个重要发现。首先,在节点计数任务中,所有方法都显示较低的平均误差,但准确率表现各异。基于度中心性和 PageRank 的方法表现最好,超过了基线方法。在最大度计算任务中,由于需要更复杂的计算过程,整体性能低于节点计数任务。使用默认节点标签时,度中心性和 PageRank 方法在 one-shot 设置下取得最佳效果。节点重标记策略的效果因任务而异,在节点计数中,除了 zero-shot 的度中心性方法外,大多导致准确率下降,但在平均误差上通常有改善。one-shot 设置的性能普遍低于 zero-shot,这表明示例可能并不总是有助于提高性能。基于中心性的方法(度中心性和 PageRank)总体上优于基于退化性的方法。参考链接:https://x.com/rohanpaul_ai/status/1863014451827655118论文链接:https://arxiv.org/pdf/2410.19494koa12jJid0DL9adK+CJ1DK2K393LKASDad
编辑:吕德榜
TOP1热点:自然科学理论是全球统一的,社会科学理论为什么争论不休,不能统一?
根据韩国LNG加注装备产业协会和挪威船级社(DNV)6日发布的数据,今年1月—7月全球甲醇动力船的订单数为122艘,已经超过LNG动力船73艘的规模。去年全球LNG动力船订单为222艘,而甲醇动力船为35艘。特别是今年7月份,全球甲醇动力船的订单一下子多达48艘,在全球现有船舶订单中占比达到10.7%,虽然还低于LNG动力船的比例(23.1%),但已经形成两强态势。。
TOP2热点:如何看待克鲁伊维特成为印尼男足主帅,这对中国男足冲击世界杯有何影响?
去年9月,由7艘军舰组成的中俄海军舰队也曾前往阿拉斯加阿留申群岛附近巡航,当时只有一艘美国海岸警卫队的巡逻艇在现场。
TOP3热点:如何让一个不会写作的小白写出高质量故事?欧美❌❌❌❌❌❌JAPPT0
联想本季度排名升至第三位,出货量为210万台,同比下降38.8%,但环比增长12.9%。
TOP4热点:亲密关系中,「解决问题」和「解决情绪」哪个更重要?BrandiLOVemissionaryaction
去年9月,由7艘军舰组成的中俄海军舰队也曾前往阿拉斯加阿留申群岛附近巡航,当时只有一艘美国海岸警卫队的巡逻艇在现场。
TOP5热点:从什么时候迫切的想要看书呢?浓毛BwBwBwBwBw日本
大家早上好,本周将迎来超级数据周:中美通胀数据、中国金融、贸易数据陆续公布
名创优品从我们原来熟悉的供应链驱动,成长为新的价值链体系塑造。供应链是稳定内核,价值链建立在本地理解的原点之上。因此可以说,名创优品提出‘超级品牌’战略,背后的方法论由来就是
TOP6热点:如何看待腾讯、宁德时代被列入美国国防部名单?腾讯回应称「显然是一个错误」,具体什么情况?斗罗大陆人物黄化高清资源
在这次对接会上,市区两级金融监管部门对灾后汽车保险赔偿事宜进行了详细部署,要求包括人保财险、太保财险、平安财险、阳光财险、国寿财险等在内的保险公司快速开展救援与查勘工作,由每家保险公司牵头负责划分区域的保险理赔工作。同时要求统一拍照标准并互通互认,地毯式推进区内汽车保险理赔工作。优先解决阻碍救援道路的车辆,同时对其他需施救车辆进行查验定位。
TOP7热点:胖东来 180 元帆布包成本 143.84 元,销售火爆,这款帆布包销售如此火爆的原因有哪些?696969c大但人文艺术作品
杭州市公安局拱墅分局一级警长、公职律师童晓辉在接受《中国新闻周刊》采访时表示,在涉及高利转贷的案件中,如果高利转贷者在约定时间内还清了贷款,没有给银行造成损失,就很少暴露。而且这类人员在高利转贷时,也不一定会向转贷对象说明资金来源,“对公安机关经侦部门来说,相比集资诈骗、合同诈骗等,高利转贷的隐蔽性会更强”。
TOP8热点:重修的滕王阁已经没有古代的建筑结构,它存在的意义在哪?老BwBwBwBwBwBwBw
“公司2023年三季度的经营挑战仍存,短期内的晶圆原厂价格以及生产策略的调整以及下游消费市场的接受程度需要密切关注。”在接受投资者
TOP9热点:2025 CES 发布的海信 RGB 三维控色液晶显示技术会让 OLED 和量子点成为过去时吗?苏州ios晶体公司免费入口NBA
当我们谈论包括社群电商、公众号电商、小程序电商,我没有——调研有多少模式和公司受过安利中国的启发,但安利中国的30年确实是非常典型的社群关系服务进化史,也是社群场景的商业进化史。因此,当谈论新社群,我选择从安利中国谈起。在案例调研时,我们不仅关心纽崔莱等产品组合与解决方案创新,更关注的视角是,其服务于‘社群’的新场景如何层出不穷,如何在30年创新实践中一次次迭代。安利中国完成一次次穿越周期的增长,2022年销售额增长16%,公众好感度增长20%,都可以理解为其InChinaforChina战略的深刻体现。
国家金融监督管理总局北京监管局、北京市地方金融监督管理局、房山区人民政府共同部署,第一时间成立保险理赔工作专班,启动应急工作机制,切实做好暴雨灾害保险服务保障工作。工作专班设在区金融服务办公室。
TOP10热点:人在极度疼痛的时候会丧失理智吗?82岁老人找20多岁小伙子
三翼鸟的三年时间里,从‘家庭场景产品’到‘家庭场景方案’再到‘家庭场景定制平台’的三次进化,‘平台化’成为战略里程碑。从提供海量的产品和场景解决方案,到个性化的场景定制平台,真正实现主动响应每一个用户的需求。一生二,二生三,三生万物,这个万物就是用户定义的allinone。