小SB是不是想被C了Gemini 2.0来了:一个要做所有AI agent底小SB是不是想被C了座的超级模型_ZAKER新闻
Gemini 2.0来了:一个要做所有AI agent底小SB是不是想被C了座的超级模型_ZAKER新闻
像张女士这样的情况并不少见。在网络中,一些不法中介非法获取公民身份信息和人脸照片后,再利用人工智能换脸技术,破解相关政务APP的“人脸识别”认证,在当事人毫不知情的情况下,几分钟就能利用他人信息注册公司。
OpenAI 发布会进入第 5 天,带来了 ChatGPT 与 Apple 设备的集成升级。用户无需 ChatGPT 账号就能在设置中启用 Apple Intelligence 扩展,体验 Siri 的复杂任务转交、内容创作、iPhone 16 视觉智能模式,以及 macOS 上的快捷调用功能。演示内容也很简单:用户对 Siri 说 " 让 ChatGPT … " 后,请求即被 ChatGPT 接管;长按 iPhone 16 侧边摄像头控制键打开相机,点击 "ask" 调用 ChatGPT 分析拍摄内容;在 macOS 双击 Command 键激活 ChatGPT,快速分析提炼长 PDF 文档信息。直播仅持续 12 分钟,由于大多早已在 Apple 的 demo 中见过,整体看来平平无奇。而今天真正的高光时刻,来自 Google。当地时间早晨,Sundar Pichai、Demis Hassabis 和 Koray Kavukcuoglu 联合发文,重磅官宣 Google 迄今最强大、专门适配全新 " 代理时代 " 的下一代模型 Gemini 2.0。并正式发布该系列首个版本:Gemini 2.0 Flash 实验版。性能超 1.5 Pro,多模态重大突破,原生工具集成Gemini 2.0 Flash 以低延迟和增强性能为核心,代表了 Google 在 AI 模型开发领域的最高水平。相比前代模型,Gemini 2.0 Flash 在保持快速响应的基础上性能显著提升。在 MMLU、编程、数学、推理等关键基准测试中不仅超越了 1.5 Pro 的表现,速度更提升了一倍。多模态方面,2.0 Flash 实现了跨越式进展:除支持图像、视频、音频等多模态输入外,还新增了多模态输出功能,包括原生的图文混合生成和多语言文本转语音。同时,模型还能原生调用 Google 搜索、执行程序代码,并支持用户自定义的第三方工具接入。开发者支持:多模态实时 API为帮助开发者构建更丰富的动态交互应用,Google 同步推出了一款新的多模态实时 API,支持实时音视频流输入和多工具组合调用。目前,开发者可通过 Google AI Studio 和 Vertex AI 平台使用 2.0 Flash 实验版的多模态输入和文本输出功能。而文本转语音和原生图像生成功能暂时仅向早期合作伙伴开放,预计将在明年 1 月实现更大范围的功能开放和模型版本更新。全球用户可用,新增研究利器 Deep Research在用户端,2.0 Flash 实验版已整合至 Gemini 聊天助手中,全球用户可以通过桌面和移动网页版的模型下拉菜单访问,移动应用集成也将于不久后推出。Google 正在搜索中的 AI 概览功能中测试 Gemini 2.0 的高级推理能力,以帮助解答更复杂和多步骤的问题,并计划在明年初扩展到更多 Google 产品中。特别值得一提的是,针对 Advanced 付费用户,Google 今天还推出一项全新的 Deep Research功能。它专为复杂在线研究设计,能在用户提出问题后基于 Gemini 1.5 Pro 自动创建多步骤研究计划,收集和分析全网相关信息,并根据反馈不断优化,最终生成一份包含深入信息和准确来源的综合报告。大幅简化繁琐耗时的研究过程,堪称科研工作者福音,PhD 狂喜。为 "Agent 元年 " 打造的 AI 模型Gemini 2.0 系列模型定位鲜明,直接就是 "AI model for the agentic era" 。Pichai 表示,过去一年 Google 一直专注于开发具备更强代理能力的模型,这类模型能深入理解用户所处环境,具备多步预判思维,并在监督下执行相应操作。结合此前发布的 Genie 2,Google 的空间智能和世界模型愿景已显露无疑。Hassabis 更直言 2025 年将是 "Agent 元年 ",称 Gemini 2.0 Flash 的原生用户界面交互、多模态推理、长上下文理解、复杂指令执行与规划、函数调用组合以及原生工具使用等,将使其成为未来 agent 式工作的核心支持模型,进一步接近打造 " 通用助手 " 的愿景。本次发布中,Google 展示了一系列基于 2.0 Flash 新能力的原型项目进展,包括:Project Astra:现实世界中的通用智能助手今年 I/O 大会上,Google 首次展示了具备多模态理解能力、支持即时语音交互的 Project Astra。得益于 Gemini 2.0 的加持和 Android 测试者的反馈,最新版本的 Astra 实现了以下关键升级:• 对话能力全面提升:支持多语言及混合语言交流,能更准确理解不同口音和生僻词汇。• 工具调用升级:原生集成 Google 搜索、Lens 和地图功能,显著提升了在日常生活中的实用性。• 记忆增强:能在对话中保持更丰富的上下文信息,支持长达 10 分钟的会话记忆,为用户带来更加个性化的交互体验。• 延迟优化:通过新一代流媒体和音频理解技术,将响应速度提升至接近人类对话水平。Project Mariner:浏览器中的复杂任务助手Project Mariner 是 Google 探索人机交互未来的实验性 agent 产品,专注于提升浏览器内复杂任务的处理能力。依托 Gemini 2.0 的先进推理能力,它能够全面理解和分析浏览器屏幕上的各类信息,包括像素数据、文本内容、代码片段、图片素材和表单元素等,并通过一个实验性的 Chrome 扩展来帮助用户完成任务。在衡量 agent 完成真实网页任务能力的 WebVoyager 基准测试中,Mariner 作为单一 agent 系统取得了 83.5% 的领先成绩。不过,该项目在精确度和响应速度方面仍有提升空间。为确保使用安全,Mariner 的操作权限被严格限制,对于在线购物等敏感操作必须经过用户确认,以此在安全性和效率间取得平衡。Jules:为开发者设计的 AI 编程助手Jules 是一款面向开发者的 AI 驱动代码 agent,直接集成到 GitHub 工作流中。得益于 Gemini 2.0 的改进,Jules 可以在开发者的指导和监督下处理问题、制定计划并执行代码任务。这一项目旨在探索 AI agent 如何在开发者社区中增强生产力,并为未来跨领域的 AI 应用铺平道路。游戏 agent:打通虚拟与现实边界Google 还分享了一些原型的隐藏彩蛋。例如在游戏领域, Gemini 2.0 支持的智能 agent 展示了其在虚拟环境中的强大适应性。不仅能实时分析和推理屏幕动作,还能为玩家提供战略建议。此前 DeepMind 推出的 Genie 2 能从单张图像生成无限可玩的 3D 游戏世界,而与 Supercell 等开发商合作的游戏 agent 则在策略和模拟游戏中展示了出色的规则理解和问题解决能力。结合 Google 搜索功能,这些 agent 还能为玩家提供丰富的游戏知识支持。Gemini 2.0 的空间智能潜力此外,Gemini 2.0 在 1.5 版本的基础上,将空间理解能力提升到了新的高度。通过 AI Studio 推出的全新工具集,开发者可以更便捷地探索融合多模态推理的空间智能应用,这不仅体现在虚拟场景中,更可以延伸至机器人等物理世界应用领域。核心能力提升包括:• 快速空间分析:能以超低延迟识别和分析图像中物体的空间位置关系• 智能物体识别:支持图内搜索和匹配,即便是隐藏或模糊的细节也能准确找出• 多语言空间标注:结合空间信息实现智能多语言标注和翻译• 空间逻辑理解:掌握物体之间的空间关联,比如实物和对应的影子• 3D 空间重建:首次将 2D 照片转换为可交互的 3D 俯视图在以上演示中,Gemini 2.0 展现了多个令人印象深刻的应用场景:从识别折纸动物及其投影,到匹配特定图案的袜子,再到提供物品的双语标注,以及分析现实场景中的问题解决方案。尤其是新引入的 3D 空间理解功能,虽仍处于早期阶段,却已展现出将平面图像转化为立体可交互场景的潜力,为开发者开启了更广阔的应用想象空间。与 OpenAI 今天小打小闹的发布会相比,Google 带来的 Gemini 2.0 不仅支棱起来,而且是凭实力稳稳赢了一局。Pichai 表示,目前已有数百万开发者在使用 Gemini 构建项目,而 Google 自身也正借助 Gemini 重塑旗下七大核心产品,用户群体高达 20 亿。此次 Gemini 2.0 的推出标志着 AI 正从单纯的信息理解向实际任务执行转变,朝着 " 通用助手 " 的目标迈进。坐拥第六代 TPU 和新发布的量子计算机 Willow,Google 更像是扮演推动算力极限、实现生产力跃升、引领 AGI 发展的那个关键角色。koa12jJid0DL9adK+CJ1DK2K393LKASDad
编辑:孙念祖
TOP1热点:美联储开年“按兵不动”,下一次降息何时来?
为了抓住“金九银十”,吸引更多“头回客”和“回头客”,许多旅游目的地努力提升服务品质,积极拓展文旅消费空间,为游客提供更多新体验。吉林省长白山保护开发区管理委员会旅游和文化体育局相关负责人介绍,当地建成了集资源保护、科研教学、自然教育和地学旅游于一体的综合性地质公园,围绕地质生态、休闲康养、冰雪运动、研学科普打造全链条旅游业态。吉林省将重点推出7大类157款秋季文旅产品,涵盖自然观光、主题街区、休闲体验、民俗风情、互动娱乐、文化演艺、亲子研学等多个类型。。
TOP2热点:澎湃AI晚新闻丨2025年1月31日
数据贯穿了数字底座建设的各个环节,其中,5G带来的变革影响深刻。比如,以往患者拍完CT,医生需要10多分钟读片、写初步诊断报告,如今这一流程被缩短至2到3分钟。医生只需将相关影像在医院本地服务器加密后,通过运营商5G专网上传到云端平台,即可借由AI算力进行高效影像分析,结果自动回传医院,医生只需复查确认结果即可将信息同步到医院一体化管理系统。
TOP3热点:一架医疗用途飞机在美国费城东北部坠毁,飞机上搭载6人国精产品999一区二区三区有限
官方统计显示,前7个月,中国服务进出口总额达到36669.1亿元,同比增长8.1%,其中,建筑服务、电信、计算机和信息服务等领域的竞争力不断增强,优势服务出口不断扩大。与此同时,中国正加速推动经济转型,布局人工智能、大数据等先进技术。中国科学技术信息研究所发布的《2022全球人工智能创新指数报告》显示,中国人工智能创新指数连续三年保持世界第二,仅次于美国,发展成效显著。
TOP4热点:全国城市更新工作步入快车道,对房地产市场有何影响?tobu7tobu8学生18
这次的音乐剧《江姐》以北京电影学院师生作为创演主体,同时集聚了诸多知名艺术家。“音乐剧的特点是年轻化。音乐剧《江姐》采用流行音乐的写法,融入摇滚、民歌等元素,风格多样、色彩斑斓。”王莉介绍。
TOP5热点:春节假期前三天上海多个景点“人从众”,这个郊区“水集”人流堪比市区女生把坤放男生定眼里
张胜良解释道:“在建造中,300米以上的超高层建筑往往受强风、大雨、湍流等复杂环境的影响更大,易出现更剧烈的楼体摆动。若用传统的测量仪器,受测量高度限制,加之楼体摆动幅度过大,不仅增加定位难度,还会产生较大的累积误差,从而使建筑发生偏斜。”
TOP6热点:《求是》杂志发表习近平总书记重要文章《注重家庭,注重家教,注重家风》把八重神子焯出白水怎么办
在像中美这样巨大体量的贸易市场中,存在一些分歧和摩擦实属正常,通过平等协商寻求双赢方案,才是正确解决之道。中美经贸关系要想重回正轨,需要美方拿出真正的诚意,与中方相向而行,而不是像现在这样只想着好处自己占尽、不管他人利益是否受损。事实反复证明,中美合则两利,斗则俱伤。中美要跳出竞争对抗逻辑,照顾彼此利益和关切,寻求交流合作的最大公约数,画出合作共赢的最大同心圆,为中美两国各自发展、共同繁荣,为全世界和平与发展共同贡献大国智慧和力量。(聂舒翼)
TOP7热点:中国是我第二个家!埃文凯尔返美前流泪告别12may18_XXXXXL56endian49
青年是开风气之先的重要力量,是社会上最富活力、最具创造力的群体,同时也是推动中华优秀传统文化扬弃继承、转化创新的重要力量。搭建方便青年人参与的平台机制,让青年人对中华优秀传统文化产生审美共鸣,才能让中华优秀传统文化焕发青春魅力。
TOP8热点:欧冠附加赛皇马曼城提前相遇,瓜帅:这条不好走的路是自找的日本最大但人文艺
为了抓住“金九银十”,吸引更多“头回客”和“回头客”,许多旅游目的地努力提升服务品质,积极拓展文旅消费空间,为游客提供更多新体验。吉林省长白山保护开发区管理委员会旅游和文化体育局相关负责人介绍,当地建成了集资源保护、科研教学、自然教育和地学旅游于一体的综合性地质公园,围绕地质生态、休闲康养、冰雪运动、研学科普打造全链条旅游业态。吉林省将重点推出7大类157款秋季文旅产品,涵盖自然观光、主题街区、休闲体验、民俗风情、互动娱乐、文化演艺、亲子研学等多个类型。
TOP9热点:海派糕团小店95后“继承者”:外国游客增多,韩语英语交替介绍欧美精产国品一二三产品工艺
为了抓住“金九银十”,吸引更多“头回客”和“回头客”,许多旅游目的地努力提升服务品质,积极拓展文旅消费空间,为游客提供更多新体验。吉林省长白山保护开发区管理委员会旅游和文化体育局相关负责人介绍,当地建成了集资源保护、科研教学、自然教育和地学旅游于一体的综合性地质公园,围绕地质生态、休闲康养、冰雪运动、研学科普打造全链条旅游业态。吉林省将重点推出7大类157款秋季文旅产品,涵盖自然观光、主题街区、休闲体验、民俗风情、互动娱乐、文化演艺、亲子研学等多个类型。
TOP10热点:解放军报:走访慰问要“走到”更要“问到”亚洲一线产区二线产区分布图片
很多人不禁好奇,面对台风肆虐,这个轮毂高度达152米,扫风面积约7个标准足球场的“巨无霸”,是如何做到不惧风浪,御风运行的?