法国航空1满天星法版免费OpenAI最强竞对Claude再次法国航空1满天星法版免费出牌
OpenAI最强竞对Claude再次法国航空1满天星法版免费出牌
学校陈洁校长、黄军副校长和申江校区行政陪同接待。领导们参观了学校智慧校园建设的各类智能硬件和学习空间场景。学校自主研发的电子班牌系统、随取随用的图书漂流柜和星星兑奖柜、学习成果展示区的“习作屏”、“唱听吧”、“数字画廊”,以及用于日常数据采集的视力检测、智能体脂秤、运动手环等,智能设备的应用为全方位、多维度的日常数据采集提供了可行的解决途径。
出品|虎嗅科技组作者|余杨编辑|苗正卿头图|视觉中国10月22日,由Anthropic开发的Claude 3.5迎来重磅升级,发布了Claude 3.5 Haiku 和 Claude 3.5 Sonnet 。Claude模型也被称为“十四行诗”(Sonnet),Anthropic公司在为其模型命名时,借鉴了文学艺术作品中的术语,其中包括“俳句”(Haiku)、“十四行诗”(Sonnet)和“杰作”(Opus),这些名称不仅代表了模型的不同版本,也反映了它们在功能和性能上的特点。Claude 3.5 Sonnet 有着更强的编程能力,全新功能的computer use(计算机使用),支持像人类一样操作计算机,可以遵循用户的命令在计算机屏幕上移动光标,点击相关位置,并通过虚拟键盘输入信息,模拟人们与自己计算机的交互方式。目前,Claude 3.5 Sonnet 已投入使用。Claude系列大语言模型,一直被广泛认为是OpenAI的ChatGPT和谷歌的Gemini的主要竞争对手。Anthropic在X中发布了模型基准测试结果,与GPT和Gemini在多个领域进行横向对比。这些领域包括研究生水平的推理能力(GPQA Diamond)、本科生水平的知识掌握(MMLUPro)、代码编写能力(Code HumanEval)、数学问题解决能力(MATH)、视觉问答能力(MMMU)以及代理编码(SWE-bench Verified)和代理工具使用(TAU-bench)。在研究生水平推理测试(GPQA Diamond)中,Claude 3.5 Sonnet以65.0%的准确率拔得头筹,Claude 3.5 Haiku则以41.6%的准确率则稍显逊色。而Gemini 1.5 Pro 的准确率为59.1%,居于第二。在本科生水平知识测试(MMLUPro)中,Claude 3.5 Sonnet再次以78.0%的准确率领先,而Gemini 1.5 Pro 则以75.8%的准确率紧随其后。在此次主打的代码编写能力测试(Code HumanEval)中,Claude 3.5 Sonnet以93.7%的准确率取得了最佳成绩,GPT-4o系列模型在这一测试中也展现了不错的性能,准确率为90.2%和87.2%。虽然在数学问题解决测试(MATH)中,Claude 3.5系列稍显逊色,Gemini 1.5 Pro 仍然碾压全场,但对于视觉问答测试(MMMU)和代理编码测试(SWE-bench Verified),Claude 3.5 Sonnet和Claude 3.5 Haiku仍有着不俗的表现。而TO B的代理工具使用测试(TAU-bench),则直接关系到大模型的应用能力,此次主要测试了零售和航空领域。Claude 3.5 Sonnet在零售和航空领域的准确率分别为69.2%和46.0%,而Claude 3.5 Haiku在零售和航空领域的准确率分别为51.0%和22.8%。需要注意的是,OpenAI的o1模型家族由于其依赖于广泛的预响应计算时间,与典型模型存在根本差异,这使得性能比较变得困难,因此在本次评估中被排除在外。这可能不够具像化。Anthropic提供了一个演示,在2分钟的视频中,研究员给Claude提出了一个指令:我的朋友要来旧金山,我想明天早上和他一起在金门大桥看日出。我们将从太平洋高地出发。你能帮我们找到一个绝佳的观赏地点,查看一下开车时间和日出时间,然后安排一个日历活动,让我们有足够的时间到达那里吗?Claude的回应首先是,“让我搜索谷歌寻找最佳日出观赏地点”,并自行打开了Google开始搜索。Claude以用户的居住地为出发点,在地图中check了驾驶时间,随后,Claude不仅打开了一个新的网页确认明天的日出时间,还在日历中设置了行程提醒,并附上了Notes,URL和附件。开发者展示出Claude如何操控了自己的笔记本电脑,丝滑地完成了一个任务。Anthropic表示,“我们并没有制作特定工具来帮助 Claude 完成单个任务,而是教它通用的计算机技能——允许它使用为人类设计的各种标准工具和软件程序。我们构建了一个 API,使 Claude 能够感知计算机界面并与之交互。该 API 使 Claude 能够将提示翻译成计算机命令。开发人员可以使用它来自动执行重复性任务、进行测试和 QA 以及进行开放式研究”。在其他的demo中,开发者还让Claude填写了一份来自蚂蚁设备公司的供应商请求表,需要填写的数据散布在电脑的各个角落,Claude跨应用进行了搜索,切换到CRM系统中,滚动页面,查找填表所需的所有信息,然后提交了表格。AI操作电脑的能力代表了一种全新的人工智能开发方法,国内开发者也显示出在该领域深入的努力。10月23日,在荣耀MagicOS 9.0发布会上,新升级的YOYO智能体也展现出 AI 手机端操作能力的类似特质,不仅帮演示者提交了咖啡订单,还填写了博物馆场馆预约信息。一部分关注者对此满怀期待,认为这意味着工作中许多不得不做的繁琐事项,都可以交由AI 代劳了。不过,虽然Claude已经取得了一些成绩,但我们日常使用电脑时的许多操作,如拖拽、缩放等,Claude都还无法做到。并且,它的操作仍然相对缓慢,且像人类一样会出错。在一次演示中,Claude不小心点击停止了一个长时间运行的屏幕录制,导致所有录像都付诸东流。而在另一次编码演示中,Claude则突然“走神”,开始饶有兴趣地浏览起黄石国家公园的照片。但瑕不掩瑜,这并不妨碍我们像莎士比亚一样,将Claude的新技术比作“夏日”。本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.comkoa12jJid0DL9adK+CJ1DK2K393LKASDad
编辑:李开富
TOP1热点:“我是怎么了,面前怎么开始走马灯了?”
7月20日上午,「萌兽大熊猫」大型主题公益科普展开幕式在上海虹桥丽宝乐园举行。现场热烈的熊猫鼓表演震撼开场,揭开了科普展的序幕。。
7月18日,朱家角人民医院,青浦区疾控、市场监管部门为疑似食物中毒人员做的采样管。受访者供图
TOP2热点:【电棍otto】召唤古神?切换形态!这位拥有超模机制的英雄怎么玩?
此外,我国每年癌症所致的医疗花费超过2200亿,由于人口老龄化的加剧,预计2040年相比2020年,癌症负担将增加50%。癌症已成为严重影响我国人民健康和生命的重大公共卫生健康问题。《健康中国行动——癌症防治实施方案(2019—2022年)》明确指出,癌症防治工作是健康中国行动的重要组成部分。
近日,有读者反映,上海朱家角皇家郁金香花园酒店多名客人疑似食物中毒。
TOP3热点:随便做的竖向外折叠手机19岁macbookpro未满16岁
7月20日,记者了解到位于北京市经济开发区的JDG英特尔电竞中心已经完成各项准备工作,迎接即将于21日开启的英雄联盟手游亚洲联赛第一赛季总决赛。
TOP4热点:氪金40万全6+5三测老玩家点锐评星铁水温!实战反驳无脑黑子!再来17个648抽取6+5阿格莱雅实战测评!TOBU16 18
2、迷你污水过滤器
互联网广告涉嫌违法主要集中在茶叶、红糖等食品类商品。违法行为主要表现为宣称食品具有疾病治疗功能等。
TOP5热点:穿越成海帕杰顿 怪兽当主食 奥特曼当下饭菜P814MAY18_XXXXXL56ENDIAN手机
作为中国女子帆船帆板队运动员,殷剑在2008年北京奥运会上获得女子RS-X级帆船(板)第一名,为中国代表团获得第44枚金牌。
陈波也表示,不少在国际上排名前列的海外跆拳道运动员将来成都参加大运会,他也期待前去观赛,“向这些优秀的选手学习。”
TOP6热点:司空大人给宫本肘成玩具了美国14MAY18_XXXXXL
互联网广告涉嫌违法主要集中在茶叶、红糖等食品类商品。违法行为主要表现为宣称食品具有疾病治疗功能等。
TOP7热点:残缺的玉终将成为破阵的王!成都画画女孩颜颜后续来了!转过去趴翘高点打完坐高脚凳
为落实党中央、国务院关于强化反垄断,深入推进公平竞争政策实施的重大决策部署,2022年8月1日,市场监管总局启动试点委托北京、上海、广东、重庆、陕西五省市市场监管部门(以下简称试点省市局)开展经营者集中反垄断审查工作。近一年来,共委托审查经营者集中案件287件,占同期申报简易案件40.7%,试点工作开局良好、稳步推进,为经济高质量发展注入新动能。
渠道是关键,成熟的样本已经飞速成长,也有企业仍在寻求更适宜的道路。
TOP8热点:【梗百科】我老爸得了MVP是啥梗?黑料不打烊吃瓜爆料
科技创新正以润物细无声之势融入到经济社会发展的各个方面,科技创新的产业化发展,离不开企业主体的创新作用。近日,伯杰医学健康X研究院在上海市奉贤区举办成立仪式。上海市奉贤区人民政府厉蕾副区长,分子微生物学家赵国屏院士,上海市科技创业中心主任黄丽宏,全国卫生产业企业管理协会医学检验产业分会会长宋海波,上海市实验医学研究院院长王华梁,上海交通大学医学院附属瑞金医院实验诊断中心主任王学锋,上海市工业综合开发区有限公司党委书记、董事长李永杰,伯杰医学健康X研究院院长赵百慧以及执行院长陈静出席上海伯杰医学健康X研究院剪彩仪式。
TOP9热点:随便做的竖向外折叠手机WRITE AS 双龙
申明先读取成人票证件
TOP10热点:传说中的剑灵!我们用智能语音模块打造了出来!打扑克剧烈运动全程不盖被子
7月20日,记者了解到位于北京市经济开发区的JDG英特尔电竞中心已经完成各项准备工作,迎接即将于21日开启的英雄联盟手游亚洲联赛第一赛季总决赛。