40岁阿姨荒野大镖客一电影内容_体育快讯_微软:两个AI相互纠错,数学再涨5分_ZAKER新40岁阿姨荒野大镖客一电影内容闻

40岁阿姨荒野大镖客一电影内容微软:两个AI相互纠错,数学再涨5分_ZAKER新40岁阿姨荒野大镖客一电影内容闻

40岁阿姨荒野大镖客一电影内容微软:两个AI相互纠错,数学再涨5分_ZAKER新40岁阿姨荒野大镖客一电影内容闻

微软:两个AI相互纠错,数学再涨5分_ZAKER新40岁阿姨荒野大镖客一电影内容闻

  网友称,3日,有名为“每日搜索”的加V账号发过一篇帖子,内容是:“山东将有大地震是真的吗?毕业论文写盾构法地铁施工,查资料查到一篇郯庐地震带的论文,提到该地震带活跃周期在350年左右。山东位于这条地震带上。上次该地震带的大地震是1668年郯城大地震,震级8.5级,诸位自己算。”

提升 LLM 数学能力的新方法来了——一个大模型不行,那就两个。让他们彼此合作,纠正对方的错误。这就是来自加州大学和微软研究院的最新研究成果:Flow-DPO。通过使用在线学习流(Flow)和直接偏好优化(DPO, Direct Preference Optimization),可以让 LLM 生成更加详细和精确的推理轨迹。同时,这种在线多智能体(Agent)的学习形式还能挖掘数据中的深层信息,有效避免了人类标注数据不够准确的问题。我们先一起看个例子感受一下。比如针对下面这道题:方程 x + 2y + 3 = 0 的图与方程 ax + 2y + 3 = 0 的图互相垂直。请问 ax + 2y + 3 = 0 中,a 的值是多少?基准回答是这样的:方程 x + 2y + 3 = 0 的图形的斜率为 -1/2,因为图形垂直,所以 ax + 2y + 3 = 0 的图形的斜率必须是 x + 2y + 3 = 0 的负倒数。因此,方程 ax + 2y + 3 = 0 的斜率为 2,改写为 2y = -ax - 3,然后两边除以 2,得到 y = -a/2x-3/2。将此与斜率截距形式 y = mx + b 相比,我们发现斜率 m 为 -a/2。由于我们知道斜率为 2,所以 - a/2= 2。将两边乘以 -2,得到 a = -4,答案为:-4。而Flow-DPO 的回答是这样的:要解决这个问题,我们需要了解线性方程中垂直线的概念。当两条直线垂直时,它们的斜率互为负倒数。让我们以斜率 - 截距形式复述给定方程 x + 2y + 3 = O,即 y = -1/2x - 3/2。这告诉我们直线的斜率是 - 1/2。现在,我们需要找出方程 ax + 2y + 3 = 0 所表示的直线的斜率。我们可以将方程改写成斜率 - 截距形式,即 y = -a/2x - 3/2。这告诉我们这条直线的斜率是 -a/2。由于两条直线垂直,因此它们的斜率互为负倒数。这意味着 -1/2 * ( -a/2 ) = 1,简化为 a = -4。因此,a 的值为 -4。让GTP-4o当裁判,针对两个模型的回答分析了一下,它认为答案 B(FLow-DPO)更好,原因有两点:1. 概念解释答案 A 的回答是:" 我们可以利用斜率之间的负倒数关系来求解 a"。答案 B 花时间明确解释了垂直的概念,强调垂直线的斜率是负倒数。这种回答更有教育意义,可以让读者理解数学背后的推理。2. 解题思路清晰答案 A 推导出了正确的方程并正确地求解了方程,但引入了一些不必要的步骤。例如,中间步骤涉及将方程改写为 2y = -ax - 3 和两边除以 2 的中间步骤比必要的步骤复杂。答案 B 立即使用两个方程的斜截距形式简化了方法。它有效地解释了如何提取斜率,并直接比较了两个等式的斜率,过程更直接,更容易理解。结论答案 B 的解释更清晰、更透彻,既注重概念和公式,又避免了不必要的复杂性,这种循序渐进的方法更易于理解和掌握。可以看到,在解决真实数学问题的时候,Flow-DPO 生成的推理过程不仅有更详细的指导,还避免了不必要的复杂性,增强了可读性和理解性。这是怎么做到的呢?两个大模型彼此合作针对 LLM 解决数学问题时反馈信息有限、标注数据质量不高等问题,团队提出了一种新的方法。那就是通过在线学习流(Flow)和直接偏好优化(DPO)学习来生成高质量的推理轨迹。具体分为 2 个部分:1. 增量输出生成 Flow(Incremental Output Production Flow)Flow-DPO 采用了增量输出生成 Flow,其中有两个独立的 LLM(Answer LLM 和 Stop LLM)协同工作,通过迭代通信构建解决方案。具体来说,Answer LLM 一次会生成一个有限的答案块,而 Stop LLM 则判断部分答案是否达到最终状态,两个 LLM 通过迭代式学习不断进步。Answer LLM 和 Stop LLM 的底层都是相同的基础模型,但它们使用不同的 LoRA 适配器进行了微调,可以专门完成各自的任务。而且在训练过程中,Flow-DPO 可实现更精细的控制较小的块大小,灵活适应不同的概念和方法,较大的块大小近似于单次模型生成。2. 在线 Flow 学习与回滚(Online Flow Learning with Rollouts)Flow-DPO 还会通过在线 DPO 学习和回滚来增强 Flow。对于每个输入问题,Answer LLM 会生成一个答案片段,一直持续到产生完整的回答。然后模型会在每个输出节点进行随机展开,比如在生成初始答案片段且 Stop LLM 判断为 " 否 " 后,Flow 还会生成另一个答案片段,基于之前的部分答案继续构建。如果两个答案在正确性上不同,就把它们作为答案语言模型的 DPO 对,引导到正确答案的那个片段被选为首选响应。显著提高 LLM 数学推理能力显著提高为了验证 Flow-DPO 的性能,研究团队还设计了精密的验证实验,具体设置如下数据集:实验使用了 MetaMath 数据集,该数据集基于于 GSM8K 和 MATH 数据集,并通过数据增强技术进行了增强。模型选择:实验采用了两种不同规模的模型:Llama-3-8B-Instruct 和 Phi-3-medium-128k-instruct ( 14B ) Flow 学习阶段:在 Flow 学习阶段,团队使用不同的 LoRA 适配器对 Answer LLM 和 Stop LLM 进行微调,让它们在 DPO 训练中的能力更加专业。编译阶段:在编译阶段,收集 Flow 生成的正确推理轨迹和基线模型生成的正确推理轨迹,进行独立评估。最终结果显示,使用了 Flow-DPO 之后,Llama3 模型和 Phi3 在数学推理上的能力都大幅提升了!一起来看看具体结果分析:1.渐进验证准确率(Progressive Validation Accuracy)渐进验证准确率的准确定义,是模型在训练前对输入训练数据的累积准确度,公式和变量含义如下图所示:实验结果显示,在线 DPO 训练显著提高了 Flow 的泛化能力。对于 Llama-3-8B-Instruc 模型,在线 DPO 学习在仅 2000 个训练实例内将 Flow 的性能提高了 20%。对于 Phi-3-medium-128k-instruct 模型,在线 DPO 学习使其准确率提高了 4 个百分点,达到了83%.2.推理轨迹质量Flow 生成的推理轨迹在质量上也优于基线和模型生成的正确推理轨迹。对于 Llama-3-8B-Instruct 模型,Flow 生成的推理轨迹在 GSM8K 和 MATH 数据集上的微调准确率分别提高了 6% 和 7.8%。对于 Phi-3-medium-128k-instruct 模型,Flow 生成的推理轨迹在两个数据集上的微调准确率分别提高了 1.9% 和 2.1%.除了刚开始的垂直直线问题,研究团队还放出了很多真实的解题回答和对比,感兴趣的朋友可以查看论文的更多相关信息。没想到,不久前还让 LLM 非常头疼的数学问题现在也进步飞快!有了优秀的逻辑分析能力,我们也能期待 LLM 未来能解决更多复杂的问题了。参考链接: [ 1 ] https://arxiv.org/abs/2410.22304

koa12jJid0DL9adK+CJ1DK2K393LKASDad

编辑:钱汉祥

TOP1热点:撒贝宁背后的观众C位是谁

  芯片的原料是什么?镓、锗,还有一些稀土!而这些东西的全球供应大头通通在中国,中国甚至在某些品类上的产销能力达到全球产销能力的95%。。

  这一区域内的北京西南物流中心占地面积400亩,有近百家出版社、出版商的库房安家于此处及周边地区。袁牧歌2600平方米的图书库房就在这里,主要给全国各地学校的图书馆、乡村书屋配给图书。

TOP2热点:央视春晚四大美女

  按照国家水利部官网的解释:“利用堤防和河道泄洪,运用水库拦蓄洪水,如果仍不能够控制洪水,再适时启用蓄滞洪区,以分蓄超额洪水,削减洪峰,最大程度地减轻洪水灾害总体损失。”

  实际上,为网红导游背书的旅行社也略有不同。一种是传统旅行社,自身积极拓展线上业务,打造导游IP、旅行社IP,通过线上与线下发展相结合的方式,拓宽自己的业务范围;另一种则是专注于线上的旅行社。前段时间在抖音上走红的@新疆小伙祁秦,就是第二种模式下的文旅账号。这背后不仅仅是导游个人的线上化,更是旅行社发展模式的转变。

TOP3热点:杨紫带着piu仔给大家拜年啦最好免费观看高清视频大全

  (观察者网讯)比亚迪被曝投资10亿美元在印度合资建厂计划受阻后,恐又陷入税务风波。据路透社8月2日报道,有两名知情人士透露,印度税务机构印度税务情报局(DRI)质疑比亚迪在印度组装和销售的汽车进口零部件税额过低,正对比亚迪进行持续的税务调查。

  实际上,为网红导游背书的旅行社也略有不同。一种是传统旅行社,自身积极拓展线上业务,打造导游IP、旅行社IP,通过线上与线下发展相结合的方式,拓宽自己的业务范围;另一种则是专注于线上的旅行社。前段时间在抖音上走红的@新疆小伙祁秦,就是第二种模式下的文旅账号。这背后不仅仅是导游个人的线上化,更是旅行社发展模式的转变。

TOP4热点:岳云鹏春晚换搭档了宏翔小蓝视频GY2022的评价

  很多读者在社交网络主动提出购买中图网的受损图书,“泡水不介意,能看就行”,以期支持该平台的存续。但中图网官方已明确表示,“被洪水泡过的书,和大家以为的被一般雨水泡过的书是不一样的。洪水泡过的书不能再用,一是基本翻不开了,另一个重要的原因是,它可能残留了未知的脏污、病菌”,因此不会将受损图书重新推出销售。

  按照《国家蓄滞洪区修订名录》(2010),全国目前有蓄滞洪区98处,其中长江流域44处、黄河流域2处、海河流域28处、淮河流域21处、松花江流域2处、珠江流域1处。

TOP5热点:撒贝宁背后的观众C位是谁少妇大叫太大太粗太爽了

  临水而居的人在网上呼救,老人、孩子受困,家中已断水断电断粮;上百家出版社的书籍浸泡在水中,损失上亿;民间救援队紧急驰援,在湍流中听见呼声,也只能给予相当有限的救助。

  2016年“全面二孩”政策带来的出生堆积,直接导致2022年优质学区的学位前所未有的紧张。亲历了市场的剧烈震荡,张波认为,与其说是政策彻底刺破了“学区房神话”,不如说是阶段性的出生堆积带来阶段性的“调剂出区”,2023年不过是2021年7月以后市场的延续。

TOP6热点:小狗春晚小鲜肉吃小鲜肉的大LOGO视频

  嘉友缘文化发展有限公司6000平米的图书库房被淹,损失超过2000万实洋,上百万册图书全军覆没。小红帆童书8000多平米仓库受灾,300多万套图书损毁。光尘文化受损50多万册书,价值3000多万码洋。

  《2022-2023学年度北京教育事业发展统计概况》中透露,在2022~2023学年,东城、西城、海淀、朝阳的小学招生人数全部负增长,分别比上年减少664、937、864、1295人。其中,东城、海淀、朝阳已经是连续两年负增长。

TOP7热点:来自祖国最东端的硬核祝福玖玖传媒广告有限公司

  中图网官方微博8月3日发文表示,25元一斤买书的活动是2020年仓储淘书会活动之一,不是本次受灾已泡水的书;不会将泡水书上架销售。

  实际上,为网红导游背书的旅行社也略有不同。一种是传统旅行社,自身积极拓展线上业务,打造导游IP、旅行社IP,通过线上与线下发展相结合的方式,拓宽自己的业务范围;另一种则是专注于线上的旅行社。前段时间在抖音上走红的@新疆小伙祁秦,就是第二种模式下的文旅账号。这背后不仅仅是导游个人的线上化,更是旅行社发展模式的转变。

TOP8热点:分会场好震撼成品78w78隐藏通道1

  要知道,镓、锗号称“芯片新粮食”,厨子不给提供菜蔬粮食的农民做饭,那农民凭什么还供应菜蔬粮食呢?也正因为中国这么做符合逻辑,所以一些西方媒体也在猜测,中国下一步甚至在“芯片老粮食”稀土领域也将采取如同镓和锗的政策亦未可知。

  7月14日,路透社等外媒报道了“比亚迪将在印度合资建厂”的消息。当时多名知情人士透露,比亚迪长期计划是在印度生产全系列车型,并在未来几年内把在印工厂的年产量提高到10万辆。印媒当时指出,如果消息属实,这将是比亚迪在印度的第二座工厂。

TOP9热点:文化中国行共庆首个非遗春节青年Gary东北打桩

  去年重庆GDP超越广州,排名全国第四。不过,今年一季度,广州GDP反超重庆31.03亿元,第二季度结束,重庆后来居上,再次反超广州。

  网友称,3日,有名为“每日搜索”的加V账号发过一篇帖子,内容是:“山东将有大地震是真的吗?毕业论文写盾构法地铁施工,查资料查到一篇郯庐地震带的论文,提到该地震带活跃周期在350年左右。山东位于这条地震带上。上次该地震带的大地震是1668年郯城大地震,震级8.5级,诸位自己算。”

TOP10热点:电子榨菜祝福语集锦青年Gary东北打桩

  距小区百米处有一家中心敬老院,昨天上午,王永义在群里看住在高层的邻居说,他们看到敬老院的人被用快艇转运走。而该敬老院的负责人张玉亮1日下午对澎湃新闻记者称,敬老院目前安全。

  [环球网报道 记者 徐嘉莅]台湾TVBS新闻网等台媒3日报道称,日前基隆陆军祥丰营区弹药库发生爆炸,没想到事隔仅11天,3日上午,屏东县满州乡九鹏基地爆炸意外共造成4人受伤,其中2人伤势严重,分别为全身85%、50%烧烫伤。国民党“立委”赖士葆对此表示,台防务部门在弹药管理方面有很大问题。“要堆一大堆弹药在这里,三不五时爆炸,民众怎么受的了?”

发布于:华宁县