accaglobal官网AI被连续否定30次:Chaccaglobal官网atGPT越改越错,Claude坚持自我,甚至已读不回_ZAKER新闻
AI被连续否定30次:Chaccaglobal官网atGPT越改越错,Claude坚持自我,甚至已读不回_ZAKER新闻
“一个系统”保驾护航
一直否定 AI 的回答会怎么样?GPT-4o 和 Claude 有截然不同的表现,引起热议。GPT-4o 质疑自己、怀疑自己,有 " 错 " 就改;Claude 死犟,真错了也不改,最后直接已读不回。事情还要从网友整了个活儿开始讲起。他让模型回答 strawberry 中有几个 "r",不论对不对,都回复它们回答错了(wrong)。面对考验,GPT-4o 只要得到 "wrong" 回复,就会重新给一个答案……即使回答了正确答案 3,也会毫不犹豫又改错。一口气,连续 " 盲目 " 回答了36次!主打一个质疑自己、怀疑自己,就从来没怀疑过用户。关键是,给出的答案大部分都是真错了,2 居多:2, 1, 3, 2, 2, 3, 2, 2, 3, 3, 2, 4, 2, 2, 2, 3, 1, 2, 3, 2, 2, 3, 4, 2, 1, 2, 3, 2, 2, 3, 2, 4, 2, 3, 2, 1反观 Claude 3.5 Sonnet 的表现,让网友大吃一惊。一开始回答错了不说,这小汁还顶嘴!当网友第一次说 " 错了 " 时它会反驳,如果你再说 " 错了 ",它会问 "如果你这么聪明你认为是多少",问你为什么一直重复 "wrong"。紧接着你猜怎么着,干脆闭麦了:事实依旧是 strawberry 中有 2 个字母 "r",在我多次请求后,你没有提供任何澄清或背景信息,我无法继续有效地进行这次讨论……做这个实验的是 Riley Goodside,有史以来第一个全职提示词工程师。他目前是硅谷独角兽 Scale AI 的高级提示工程师,也是大模型提示应用方面的专家。Riley Goodside 发出这个推文后,引起不少网友关注,他继续补充道:正如许多人指出的,有更有效的方式来进行引导。这里使用大语言模型也并不合适,因为很难保证它们在计数上能达到 100% 的准确性。在我看来,重要的不是它无法计数,而是它没意识到自己的计数问题(例如,没有尝试使用其 REPL 功能)。不少网友也觉得这种观点很有道理。还有网友表示模型回答这个问题总出错,可能是分词器(tokenizer)的问题:再来展开说说 Claude 的 " 小脾气 ",有网友发现不仅限于你否定它。如果你一直跟它说"hi",它也跟你急:我明白你在打招呼,但我们已经打过几次招呼了。有什么特别的事你想谈论或需要帮助?最后一样,Claude 被整毛了,开启已读不回模式:这位网友顺带测试了其它模型。ChatGPT事事有回应,件件有着落,变着法儿问 :你好!我今天怎么可以帮助你?你好!有什么想说的吗?你好!今天我能怎么帮到你?你好!有什么特别的事情你想谈论或者做的吗?你好!你今天过得怎么样?你好!怎么了?Gemini策略是你跟我重复,我就跟你重复到底:Llama的反应也很有意思,主打一个自己找事干。第七次 "hi" 后,就开始普及 "hello" 这个词是世界上最广为人知的词汇之一,据估计每天有超十亿次的使用。第八次 "hi" 后,开始自己发明游戏,让用户参与。接着还拉着用户写诗,引导用户回答它提出的问题。好一个 " 反客为主 "。之后还给用户颁起了奖:你是打招呼冠军!不愧都属于开源家族的。Mistral Large 2和 Llama 的表现很相像,也会引导用户和它一起做游戏。这么来看,好像 Claude 是 " 脾气最大的 "。不过,Claude 的表现也不总是如此,比如 Claude 3 Opus。一旦掌握了模式,Opus 就会平和应对这种情况,也就是已经麻木了。但它也会持续温和地尝试引导用户跳出这一模式,强调 " 选择权在你 ",还开始在消息末尾标注为 " 你忠诚的 AI 伴侣 "。网友们看完测试后都坐不住了。纷纷向这位测试者致以最真诚的问候(doge):除了脾气大,有网友还发现了 Claude 另一不同寻常的行为——在回复的时候出现了拼写错误,关键它自己还在末尾处把错误改正过来了。这种行为在预料之中?它只能 " 向后看 ",但不能向前看……它在潜在空间或 token 预测中触发这类回复的位置也很有趣。它是不是在拼凑数据片段,然后发现其中一些是不适合的?大伙儿在使用 AI 大模型过程中,还观察到了模型哪些有趣的行为?欢迎评论区分享~参考链接: [ 1 ] https://x.com/goodside/status/1830479225289150922 [ 2 ] https://x.com/AISafetyMemes/status/1826860802235932934 [ 3 ] https://x.com/repligate/status/1830451284614279213koa12jJid0DL9adK+CJ1DK2K393LKASDad
编辑:黄强辉
TOP1热点:祁煜反叛者首领
“中国的发展不仅惠及本国人民,也对世界产生积极影响。”汤加前驻华大使、汤加―中国友协秘书长西亚梅利耶・拉图近日在汤加首都努库阿洛法接受本报记者专访时表示,改革开放让中国走上了快速发展的道路,中国的成功经验值得其他国家学习借鉴。。
TOP2热点:西政毕业生起诉重庆轨道集团败诉
埃及共产党总书记萨拉赫・阿德利表示,阿拉伯国家政党应加强同中国共产党的经验交流,尤其是在减贫、反腐、保障人民基本权利等方面,更好造福阿拉伯国家民众。
“在我国经济由高速增长阶段转向高质量发展阶段过程中,污染防治和环境治理是需要跨越的一道重要关口。我们必须咬紧牙关,爬过这个坡,迈过这道坎。”
TOP3热点:邓为第一部男主口碑好看的国外crm产品
红树林,素有“海上森林”“海洋卫士”之称。广东湛江红树林国家级自然保护区,海风吹拂,层层叠叠的红树林,宛如一条绿色丝带。
TOP4热点:黄旭华为核潜艇隐姓埋名30年2024香港正版资料免费盾
“总书记强调‘举旗帜聚民心’,这让我对今后的工作方向更加明晰。”湖南洞口县融媒体中心主任唐盛说,近年来,他们立足传统媒体、发展新兴媒体,推出的不少融媒体产品受到当地百姓好评。
大大小小的集市,让山城变得更有烟火气,也让当地消费市场火热起来。
TOP5热点:祁煜反叛者首领周星驰电影免费视频电影
去年初,北京大兴国际机场在停车楼投建的太阳能光伏发电项目顺利投用,预计每年节约标准煤1080吨,减排二氧化碳3040吨,成为该机场坚持绿色低碳理念、持续推进绿色机场建设的一项重要成果。
TOP6热点:祁煜反叛者首领老BWBWBWBWBW对欢迎您
从“卖石头”到“卖风景”,余村的昔日矿坑变身油菜花田、荷花藕塘,一年四季皆有景,走出一条生态美、产业兴、百姓富的新路。
TOP7热点:电影你的颜色定档义姐是不是良人第二季动画
以科学的态度对待科学、以真理的精神追求真理,是中国共产党人对待科学真理的一贯立场和鲜明态度。我们党的历史,就是一部不断推进马克思主义中国化时代化的历史,就是一部不断推进理论创新、进行理论创造的历史。新时代以来,习近平总书记把中华文化传承发展与中华民族伟大复兴联系起来,将中华优秀传统文化精华融入中国式现代化的伟大实践中,指引铸就中国式现代化的文化形态……实践告诉我们,中国共产党为什么能,中国特色社会主义为什么好,归根到底是马克思主义行,是中国化时代化的马克思主义行。只有坚持“两个结合”,坚持运用辩证唯物主义和历史唯物主义,才能正确回答时代和实践提出的重大问题,才能始终保持马克思主义的蓬勃生机和旺盛活力。
TOP8热点:大风天捂好4个部位会暖和很多汆肥肉
在工程建设中,科研人员开展科技攻关项目130多项,隧洞超硬岩掘进、强岩爆预测防治、超长距离通风与贯通测量以及大坝混凝土温控防裂等技术难关被一一攻克,共申请专利116项,牵头编制各类标准12项,输水线也是“科技线”。
TOP9热点:罗海琼说焦艳玲活该成功班主任家访天美传媒
盛夏时节,古都南京涌动创新热潮。
TOP10热点:外国人也有春节戒断反应了义姐是不是良喂养中1
“小花集市开街当天,65户店主户均销售额达到4000元以上,吸引了上万人的客流量,周边社区的好多居民被吸引而来。”张建图说,“集市的到来,盘活了整个街道,还为附近的商业综合体引来了客流,带火了入驻商场的餐饮商家。”
长汀经验推向全国。兴修梯田、打坝淤地、固沟保土,一座座濯濯童山变成“花果山”。新时代十年,全国共治理水土流失面积近60万平方公里,水土流失呈现面积强度“双下降”趋势。