做作爱动态_体育焦点_微做作爱动态软:两个AI相互纠错,数学再涨5分_ZAKER新闻

做作爱动态微做作爱动态软:两个AI相互纠错,数学再涨5分_ZAKER新闻

做作爱动态微做作爱动态软:两个AI相互纠错,数学再涨5分_ZAKER新闻

微做作爱动态软:两个AI相互纠错,数学再涨5分_ZAKER新闻

近日,由文化和旅游部资源开发司等主办的全国旅游休闲街区创新发展交流活动在海口市举办。“休闲度假是旅游消费的一种新趋势,是旅游消费升级的必然。”中国传媒大学文化产业管理学院院长熊澄宇认为,旅游产业关乎老百姓的幸福感。当前,越来越多游客的旅游观念发生变化,消费方式正从观光向休闲、从打卡留念向深度体验升级。

提升 LLM 数学能力的新方法来了——一个大模型不行,那就两个。让他们彼此合作,纠正对方的错误。这就是来自加州大学和微软研究院的最新研究成果:Flow-DPO。通过使用在线学习流(Flow)和直接偏好优化(DPO, Direct Preference Optimization),可以让 LLM 生成更加详细和精确的推理轨迹。同时,这种在线多智能体(Agent)的学习形式还能挖掘数据中的深层信息,有效避免了人类标注数据不够准确的问题。我们先一起看个例子感受一下。比如针对下面这道题:方程 x + 2y + 3 = 0 的图与方程 ax + 2y + 3 = 0 的图互相垂直。请问 ax + 2y + 3 = 0 中,a 的值是多少?基准回答是这样的:方程 x + 2y + 3 = 0 的图形的斜率为 -1/2,因为图形垂直,所以 ax + 2y + 3 = 0 的图形的斜率必须是 x + 2y + 3 = 0 的负倒数。因此,方程 ax + 2y + 3 = 0 的斜率为 2,改写为 2y = -ax - 3,然后两边除以 2,得到 y = -a/2x-3/2。将此与斜率截距形式 y = mx + b 相比,我们发现斜率 m 为 -a/2。由于我们知道斜率为 2,所以 - a/2= 2。将两边乘以 -2,得到 a = -4,答案为:-4。而Flow-DPO 的回答是这样的:要解决这个问题,我们需要了解线性方程中垂直线的概念。当两条直线垂直时,它们的斜率互为负倒数。让我们以斜率 - 截距形式复述给定方程 x + 2y + 3 = O,即 y = -1/2x - 3/2。这告诉我们直线的斜率是 - 1/2。现在,我们需要找出方程 ax + 2y + 3 = 0 所表示的直线的斜率。我们可以将方程改写成斜率 - 截距形式,即 y = -a/2x - 3/2。这告诉我们这条直线的斜率是 -a/2。由于两条直线垂直,因此它们的斜率互为负倒数。这意味着 -1/2 * ( -a/2 ) = 1,简化为 a = -4。因此,a 的值为 -4。让GTP-4o当裁判,针对两个模型的回答分析了一下,它认为答案 B(FLow-DPO)更好,原因有两点:1. 概念解释答案 A 的回答是:" 我们可以利用斜率之间的负倒数关系来求解 a"。答案 B 花时间明确解释了垂直的概念,强调垂直线的斜率是负倒数。这种回答更有教育意义,可以让读者理解数学背后的推理。2. 解题思路清晰答案 A 推导出了正确的方程并正确地求解了方程,但引入了一些不必要的步骤。例如,中间步骤涉及将方程改写为 2y = -ax - 3 和两边除以 2 的中间步骤比必要的步骤复杂。答案 B 立即使用两个方程的斜截距形式简化了方法。它有效地解释了如何提取斜率,并直接比较了两个等式的斜率,过程更直接,更容易理解。结论答案 B 的解释更清晰、更透彻,既注重概念和公式,又避免了不必要的复杂性,这种循序渐进的方法更易于理解和掌握。可以看到,在解决真实数学问题的时候,Flow-DPO 生成的推理过程不仅有更详细的指导,还避免了不必要的复杂性,增强了可读性和理解性。这是怎么做到的呢?两个大模型彼此合作针对 LLM 解决数学问题时反馈信息有限、标注数据质量不高等问题,团队提出了一种新的方法。那就是通过在线学习流(Flow)和直接偏好优化(DPO)学习来生成高质量的推理轨迹。具体分为 2 个部分:1. 增量输出生成 Flow(Incremental Output Production Flow)Flow-DPO 采用了增量输出生成 Flow,其中有两个独立的 LLM(Answer LLM 和 Stop LLM)协同工作,通过迭代通信构建解决方案。具体来说,Answer LLM 一次会生成一个有限的答案块,而 Stop LLM 则判断部分答案是否达到最终状态,两个 LLM 通过迭代式学习不断进步。Answer LLM 和 Stop LLM 的底层都是相同的基础模型,但它们使用不同的 LoRA 适配器进行了微调,可以专门完成各自的任务。而且在训练过程中,Flow-DPO 可实现更精细的控制较小的块大小,灵活适应不同的概念和方法,较大的块大小近似于单次模型生成。2. 在线 Flow 学习与回滚(Online Flow Learning with Rollouts)Flow-DPO 还会通过在线 DPO 学习和回滚来增强 Flow。对于每个输入问题,Answer LLM 会生成一个答案片段,一直持续到产生完整的回答。然后模型会在每个输出节点进行随机展开,比如在生成初始答案片段且 Stop LLM 判断为 " 否 " 后,Flow 还会生成另一个答案片段,基于之前的部分答案继续构建。如果两个答案在正确性上不同,就把它们作为答案语言模型的 DPO 对,引导到正确答案的那个片段被选为首选响应。显著提高 LLM 数学推理能力显著提高为了验证 Flow-DPO 的性能,研究团队还设计了精密的验证实验,具体设置如下数据集:实验使用了 MetaMath 数据集,该数据集基于于 GSM8K 和 MATH 数据集,并通过数据增强技术进行了增强。模型选择:实验采用了两种不同规模的模型:Llama-3-8B-Instruct 和 Phi-3-medium-128k-instruct ( 14B ) Flow 学习阶段:在 Flow 学习阶段,团队使用不同的 LoRA 适配器对 Answer LLM 和 Stop LLM 进行微调,让它们在 DPO 训练中的能力更加专业。编译阶段:在编译阶段,收集 Flow 生成的正确推理轨迹和基线模型生成的正确推理轨迹,进行独立评估。最终结果显示,使用了 Flow-DPO 之后,Llama3 模型和 Phi3 在数学推理上的能力都大幅提升了!一起来看看具体结果分析:1.渐进验证准确率(Progressive Validation Accuracy)渐进验证准确率的准确定义,是模型在训练前对输入训练数据的累积准确度,公式和变量含义如下图所示:实验结果显示,在线 DPO 训练显著提高了 Flow 的泛化能力。对于 Llama-3-8B-Instruc 模型,在线 DPO 学习在仅 2000 个训练实例内将 Flow 的性能提高了 20%。对于 Phi-3-medium-128k-instruct 模型,在线 DPO 学习使其准确率提高了 4 个百分点,达到了83%.2.推理轨迹质量Flow 生成的推理轨迹在质量上也优于基线和模型生成的正确推理轨迹。对于 Llama-3-8B-Instruct 模型,Flow 生成的推理轨迹在 GSM8K 和 MATH 数据集上的微调准确率分别提高了 6% 和 7.8%。对于 Phi-3-medium-128k-instruct 模型,Flow 生成的推理轨迹在两个数据集上的微调准确率分别提高了 1.9% 和 2.1%.除了刚开始的垂直直线问题,研究团队还放出了很多真实的解题回答和对比,感兴趣的朋友可以查看论文的更多相关信息。没想到,不久前还让 LLM 非常头疼的数学问题现在也进步飞快!有了优秀的逻辑分析能力,我们也能期待 LLM 未来能解决更多复杂的问题了。参考链接: [ 1 ] https://arxiv.org/abs/2410.22304

koa12jJid0DL9adK+CJ1DK2K393LKASDad

编辑:李秉贵

TOP1热点:警方正全力寻找电竞选手幻云

2018年7月3日,党的97周岁生日刚过,全国组织工作会议召开。习近平总书记鲜明提出并深刻阐述了新时代党的组织路线――。

从强调“政治路线确定之后,干部就是决定的因素”,到明确干部要“又红又专”,再到指明“中国的稳定,四个现代化的实现,要有正确的组织路线来保证”……一路走来,我们党栉风沐雨,不断从胜利走向胜利,发展成为世界上最大的马克思主义执政党,离不开有力的组织工作保证。

TOP2热点:蛇拿九稳答题挑战

目前,刷单返利、虚假网络投资理财、虚假网络贷款、冒充电商物流客服、冒充公检法、冒充领导熟人、婚恋交友等10种诈骗类型已经成为最常见的高发案件,占发案的80%左右;其中刷单返利类诈骗发案率最高,占发案的1/3左右;虚假网络投资理财类诈骗造成损失的金额最大,占损失金额的1/3左右。

本次大会由主论坛和四场分论坛组成。来自人民日报社、经济日报社、中国日报社、河南省委宣传部、健康报社、新华报业传媒集团、羊城晚报报业集团、济南日报报业集团等8家单位代表在主论坛作了发言。分论坛围绕新时代新征程报业内容供给与价值引领、全媒体传播与智能化转型、体制机制创新与公共服务能力建设、管理模式优化与监管创新等主题进行了交流研讨。

TOP3热点:观自贡灯,过中国年51黑料吃瓜官网

本次大会由主论坛和四场分论坛组成。来自人民日报社、经济日报社、中国日报社、河南省委宣传部、健康报社、新华报业传媒集团、羊城晚报报业集团、济南日报报业集团等8家单位代表在主论坛作了发言。分论坛围绕新时代新征程报业内容供给与价值引领、全媒体传播与智能化转型、体制机制创新与公共服务能力建设、管理模式优化与监管创新等主题进行了交流研讨。

总算盼到周四,钱远平吃完早饭,换上干净的短袖衬衫,就赶着“上学”去了。

TOP4热点:于冬称《蛟龙行动》绝不撤档妹妹高考前让我c了1次

红山第一只人工育幼的雄性红毛猩猩“乐申”、神似《千与千寻》中“无脸男”的白面僧面猴、热爱美食的孟加拉白虎“古采尼”……近年来,红山森林动物园涌现出一批动物明星,在这里,动物们的天性得到了尊重。2011年,红山森林动物园取消动物表演,成为中国第一个取消动物表演的动物园。此后,越来越多动物园取消动物表演,发挥动物自由天性,努力做好动物丰容工作。红山森林动物园园长沈志军曾表示:“动物园不是娱乐动物的地方,动物更不是被关在笼子里的困兽。”

以习近平同志为核心的党中央高瞻远瞩、举旗定向,不断完善党的建设和组织工作顶层设计,为做好新时代党的组织工作提供了根本遵循。

TOP5热点:立春习俗麻豆 国产

街心花园中间立着一尊煤矿工人雕塑。我在雕塑下照过相,一心想把自己融入雕塑里,融入小城中。北边有个电影院。东边不远处是新华书店,人们聚精会神看书的模样,是小城最美的风景。新华书店对面是六枝矿务局家属区,连接着六枝矿务局机关驻地。往前再走几百米是六枝特区人民医院。从街心花园到人民医院,六枝矿务局门前是必经之地。看着漂亮的办公楼,我们常常心生羡慕。

3年的学习时光,小城的来龙去脉、大体轮廓在我脑海里逐渐清晰起来。

TOP6热点:评论员谈柯洁退赛无人电影免费完整观看

3年后,乌江镇的渔民们发现,江水变成了乳白色,尤以右岸最为明显。李忠勇是土生土长的乌江镇人,他说,那时,“有时候江水一半白、一半清,水里一股腥味。”

一个新发地,有几百家像马涛这样的水果私营业主。前两年生意受到疫情影响,今年以来,马涛明显感到消费在逐渐复苏。“最难的时候大家都难,只要同甘共苦熬过来不就好了么?”马涛笑着说,“我相信进口水果这行肯定会越来越好。现在国家给的政策越来越多,大家都愿意去做,放眼全世界,只有咱们国家才会给到这么多的政策优惠。”

TOP7热点:不想上班起碰人人操

市民在天津市东丽区东体夜市里购买天津传统小吃熟梨糕。

从大东路的东端起点,沿着青石砖铺成的人行道向西漫步,会感受到厚重的工业文化气息。大东路与滂江街交叉口的街角绿地,去年新建了一处口袋公园,铁艺长廊里镂空雕刻出大东路片区民族工业发展历史;旧厂区改造的铁锚1956文创园将工业风和潮酷文化相结合;奉天机器局历经百年沧桑,更名为沈阳造币厂,现在是中国铜合金硬币生产基地……

TOP8热点:美国一架客机坠河无人电影免费完整观看

总算盼到周四,钱远平吃完早饭,换上干净的短袖衬衫,就赶着“上学”去了。

“我们已在肯尼亚、南非、尼日利亚等地建立子公司,在阿尔及利亚成立了合资工厂。”中联重科海外公司副总经理伍伟恒说,随着市场布局日趋完善,中联重科工程起重机械、土方机械、混凝土机械、建筑起重机械等工程机械设备已全面进入非洲市场,仅轮式拖拉机就累计销售超过4000台,金额约8亿元。

TOP9热点:一架小型飞机在美国费城坠毁缅甸北部恐怖血腥网站进入免费送

本次峰会由人民日报社主办,主题为“共话民心相通,共迎美好未来”。来自澜湄六国有关部门及主流媒体的130余位代表与会,并就如何实现区域内和平发展、互利共赢、民心相通,为建设更为紧密的澜湄国家命运共同体贡献力量深入交流讨论。

坚持自主创新,勇攀技术高峰。这些年来,我们先后突破全断面硬岩隧道掘进机超前地质探测、超大直径泥水盾构常压换刀、刀具磨损检测等一批关键核心技术,形成22项国际领先技术。去年,中铁装备成功研制出“永宁号”掘进机,为抽水蓄能项目施工提供了新利器,还首创了世界最大断面组合式矩形盾构机,可让地铁车站施工不再“开膛破肚”。

TOP10热点:答题分奖金107766.另眼带你看世界网

“在反诈工作中,小小微信派上了大用场。”浙江省诸暨市公安局陶朱派出所所长王泽介绍,“去年12月,我所创建了企业微信号,对于放贷前要求缴纳解冻金、认证金、手续费等诈骗行为,及时发出微信提醒。微信号现已添加辖区群众7万多名,阻止了200余起电诈案件的发生。”

在贵阳开磷化肥有限公司监控大厅内,屏幕上实时显示着34号泉眼涌泉水的总磷浓度。公司磷石膏运行部部长陈长春介绍:“废水处理后总磷降到了0.989毫克/升。”在34号泉眼附近,4套污水处理装置有序运行。陈长春说:“目前,4套装置全开,污水处理量能达到1.2万立方米/小时。”

发布于:孙吴县