中国人在法国生活的感受_财经速递_空间智能版ImageNet来了！李中国人在法国生活的感受飞飞吴佳俊团队出品

空间智能版ImageNet来了！李中国人在法国生活的感受飞飞吴佳俊团队出品_ZAKER新闻

　　对于美越提升外交关系，中国外交部发言人毛宁在9月4日的例行记者会上表示，中方认为，美国在处理与亚洲国家关系时，应当摒弃零和博弈的冷战思维，遵守国际关系基本准则，不针对第三方，不得有损地区和平稳定与发展繁荣。

空间智能版 ImageNet 来了，来自斯坦福李飞飞吴佳俊团队！HourVideo，一个用于评估多模态模型对长达一小时视频理解能力的基准数据集，包含多种任务。通过与现有模型对比，揭示当前模型在长视频理解上与人类水平的差距。2009 年，李飞飞团队在 CVPR 上首次对外展示了图像识别数据集ImageNet，它的出现极大推动计算机视觉算法的发展——懂 CV 的都是知道这里面的门道有多深。现在，随着多模态迅猛发展，团队认为 " 现有的视频基准测试，大多集中在特定领域或短视频上 "，并且 " 这些数据集的平均视频长度较短，限制了对长视频理解能力的全面评估 "。于是，空间智能版 ImageNet 应运而生。HourVideo 包含 500 个来自 Ego4D 数据集的第一人称视角视频，时长在 20 到 120 分钟之间，涉及 77 种日常活动。评测结果表示，人类专家水平显著优于目前长上下文多模态模型中最厉害的 Gemini Pro 1.5（85.0% 对 37.3%）。在多模态能力上，大模型们还任重而道远。HourVideo 如何炼成？之所以提出 HourVideo，是因为研究人员发现目前长视频理解越来越重要，而现有评估 benchmark 存在不足。多模态越来越卷，人们期待 AI 被赋予 autonomous agents 的类似能力；而从人类角度来看，由于人类具备处理长时间视觉处理的能力，因此能在现实视觉中感知、计划和行动。因此，长视频理解对实现这一目标至关重要。而当前的多模态评估 benchmark，主要还是集中在评测单张图像或短视频片段（几秒到三分钟），对长视频理解的探索还有待开发。不可否认的是，AI 评估长视频理解面临诸多挑战，譬如要设计任务、避免通过先验知识或简短片断回答等。因此，团队提出HourVideo。这是一个为长视频理解而设计的基准数据集。为了设计出需要长期理解的任务，团队首先提出了一个新的任务对应套件，包含总结、感知（回忆、跟踪）、视觉推理（空间、时间、预测、因果、反事实）和导航（房间到房间、对象检索）任务，共 18 个子任务。其中，总结任务要求模型对视频中的关键事件、主要交互等进行概括性描述，例如总结出脖子上挂了个相机的人在超市中有什么关键交互行为。感知任务由两部分构成，一个是回忆任务，包括事实回忆（比如脖子上挂了个相机的人，在超市拿起的乳制品）和序列回忆（比如那个人在超市称完西红柿过后做了什么），以及对时间距离的判断（比如吃了多久的披萨才扔掉盒子）。还有一个是跟踪任务，主要用来识别脖子上挂了个相机的人在特定场景（比如超市、药店）中互动的独特个体。接下来是视觉推理任务，分为空间推理和时间推理。空间推理负责判断物体之间的空间关系、空间接近度（如微波炉与冰箱或水槽相比是否更近）以及空间布局（如选择正确描绘脖子上挂相机的人的公寓的布局图）。时间推理则包括对活动持续时间的比较、事件发生频率的判断、活动的先决条件、预测（如洗完衣服后最可能做的活动）、因果关系（如第二次离开车库的原因）以及反事实推理（如用烤箱做土豆泥会怎样）。导航任务包含了房间到房间的导航、对象检索导航。以上每个任务有精心设计的问题原型，以确保正确回答问题需要对长视频中的多个时间片段进行信息识别和综合，从而有效测试模型的长期理解能力。与此同时，研究人员通过 pipeline 来生成了 HourVideo 数据集。第一步，视频筛选。团队从 Ego4D 数据集中手动审核 1470 个 20 到 120 分钟的视频，让 5 位人类专家选择了其中 500 个视频，至于为啥要从 Ego4D 中选呢，一来是其以自我为中心的视角与 autonomous agents 和助手的典型视觉输入非常一致；二来是它具有广泛的视觉叙述，有助于创建多样化的题；三来 Ego4D 的访问许可非常友好。第二步，候选 MCQ 生成。这需要在长视频中跨多个时间片段，进行信息分析和合成。具体来说，研究人员以 20 分钟为间隔分割了视频，提取信息转化为结构化格式供大模型处理。最终一共开发了 25 个特定任务的 prompts。第三步，LLM 优化与人工反馈。在这个阶段，团队实现了一个人工反馈系统，7 名经验丰富的人员人工评估每个问题的有效性、答案准确性、错误选项合理性。最终收集了 400 多个小时的人工反馈，然后设计 prompt，自动优化 MCQ ₂得到 MCQ ₃。第四步，盲选。这一阶段的目标是消除可以通过大模型先验知识的问题，或者消除那些可以在不用视频中任何信息就可以回答的问题。团队用两个独立的大模型—— GPT-4-turbo 和 GPT-4，对 MCQ ₃进行盲筛，确保剩余 MCQ ₄高质量且专门测试长视频语言理解。第五步也是最后一步，专家优化。这一步是用来提升 MCQ ₄质量，将宽泛问题精确化，经此阶段得到高质量 MCQ ₅。4 个专家干的事 be like，把 " 挂着相机的人把钥匙放在哪里了？" 精确成 " 挂着相机的人购物回家后，把自行车钥匙放在哪里了？"如上 pipeline 中，研究图纳队使用了 GPT-4 来遵循复杂的多步骤指令，同时还使用了 CoT 提示策略。此外，pipeline 中涉及大模型的所有阶段的问题被设为 0.1。据统计，HourVideo 涵盖 77 种日常生活场景，包含 500 个 Ego4D 视频，视频时长共 381 个小时、平均时长 45.7 分钟，其中 113 个视频时长超过 1 小时。每个视频有约 26 个高质量五选一题，共计 12976 个问题。除因果、反事实和导航任务外，问题在任务套件中均匀分布。最好表现仍远低于人类专家水平在实验评估方面，HourVideo 采用五选多任务问答（MCQ）任务，以准确率作为评估指标，分别报告每个任务以及整个数据集的准确率。由于防止信息泄露是评估长视频中的 MCQ 时的一个重要挑战——理想情况下，每个 MCQ 应独立评估，但这种方法计算成本巨高，且十分耗时。因此，实际评估中按任务或子任务对问题进行分批评估，对于预测任务，提供精确的时间戳以便对视频进行有针对性的剪辑，从而平衡计算成本和评估准确性。研究团队比较了不同的多模态模型在零镜头设置下理解长视频的性能。主要评估了三类模型，所有这些模型都在一个通用函数下运行：盲 LLM：指是指在评估过程中，不考虑视频内容，仅依靠自身预先训练的知识来回答问题的大型语言模型。实验中以 GPT-4 为代表。它的存在可以揭示模型在多大程度上依赖于其预训练知识，而不是对视频中实际视觉信息的理解。苏格拉底模型：对于大多数当前的多模态模型，直接处理非常长的视频存在困难。因此，采用 Socratic 模型方法，将视频（总时长为 t 分钟）分割成 1 分钟的间隔，每个间隔独立加字幕，然后将这些字幕聚合形成一个全面的基于语言的视频表示，并与通用任务无关的提示一起作为输入进行长视频问答。实验中分别使用 GPT-4 和 LLaVA- NEXT-34-DPO 为视频字幕生成器，并最终使用 GPT-4 进行实际问题回答。原生多模态模型：像 Gemini 1.5 Pro 这样的原生多模态模型，在多模态数据（包括音频、视频、图像和文本）上联合训练，能够处理非常长的上下文长度 *（（2M +），适合直接对 HourVideo 进行端到端评估。为了与模型性能进行对比，实验人员从基准数据集中选取了 14 个视频，涵盖 >18 种场景，包括手工制作 / 绘画、烹饪、建筑 / 装修、园艺、清洁 / 洗衣和庭院工作等。然后邀请了3 位人类专家，对上述总时长 11.2 小时的视频内容进行进行评估，共涉及 213 个 MCQ。为确保评估的公正性，参与评估的人类专家未参与过这些视频的早期注释工作。最终，人类专家在评估中的准确率达到了 85.0% 。而盲 LLM 的准确率为 19.6%，Socratic 模型准确率略高，原生多模态模型准确率最高，达到了 37.3%，仍然远低于人类专家水平。此外，独立评估每个 MCQ 与按任务级别评估相比，性能下降 2.1%，但成本增加 3 倍以上，证明了任务级评估方法的效率和有效性。最后，团队表示未来计划扩展基准测试，包括更多样化的视频来源（如体育和 YouTube 视频），纳入音频模态支持，并探索其他感官模态。同时强调在开发模型时需考虑隐私、伦理等问题。团队成员HourVideo 项目来自斯坦福李飞飞和吴佳俊团队。论文共同一作是 Keshigeyan Chandrasegaran 和 Agrim Gupta。Keshigeyan Chandrasegaran是斯坦福大学计算机科学博士二年级学生，从事计算机视觉和机器学习研究，导师是李飞飞和斯坦福视觉与学习实验室（SVL）联合主任胡安 · 卡洛斯 · 尼贝莱斯。共同一作 Agrim Gupta是斯坦福大学计算机科学专业的博士生，2019 年秋季入学，同样是李飞飞的学生。此前，他曾在微软、DeepMind，有 Meta 的全职经历，也在 Google 做过兼职。2018 年时，他就跟随李飞飞一同在 CVPR 上发表了论文。目前，Agrim 的 Google Scholar 论文被引用量接近 6400 次。李飞飞是大家熟悉的 AI 教母，AI 领域内最具影响力的女性和华人之一。她 33 岁成为斯坦福计算机系终身教授，44 岁成为美国国家工程院院士，现任斯坦福以人为本人工智能研究院（HAI）院长。计算机视觉领域标杆成果 ImageNet 亦是由她一手推动。此前，李飞飞也曾短暂进入工业界，出任谷歌副总裁即谷歌云 AI 首席科学家。她一手推动了谷歌 AI 中国中心正式成立，这是 Google 在亚洲设立的第一个 AI 研究中心。并带领谷歌云推出了一系列有影响力的产品，包括 AutoML、Contact Center AI、Dialogflow Enterprise 等。今年，李飞飞宣布创办空间智能公司 World Labs，公司成立不到 4 个月时间，估值突破 10 亿美元。所谓空间智能，即 " 视觉化为洞察；看见成为理解；理解导致行动 "。吴佳俊，现任斯坦福大学助理教授，隶属于斯坦福视觉与学习实验室（SVL）和斯坦福人工智能实验室（SAIL）。他在麻省理工学院完成博士学位，本科毕业于清华大学姚班，曾被誉为 " 清华十大学神 " 之一。同时，他也是李飞飞创业公司 World Labs 的顾问。参考链接： [ 1 ] https://arxiv.org/abs/2411.04998v1 [ 2 ] https://www.worldlabs.ai/team [ 3 ] https://keshik6.github.io/

koa12jJid0DL9adK+CJ1DK2K393LKASDad

编辑:安怡孙

TOP1热点：视频丨缅北电诈犯罪无法无天，中国人被称为“行走的人民币”

　　8月21日，国家安全部官方微信发布消息，近日，国家安全机关破获一起美国中央情报局间谍案。犯罪嫌疑人郝某系我某国家部委干部，在日留学期间被策反。。

　　据东盟秘书处官网报道，第26次中国—东盟领导人会议取得了丰硕成果，会议探讨了双方未来合作方向，特别是就“一带一路”倡议同东盟“印太展望”开展互利合作发表联合声明。会议还通过了有关深化农业合作、加强电子商务合作、推进科技创新提升计划等合作具体文件。

TOP2热点：国产大邮轮“爱达·魔都号”将开启中国港口城市巡游之旅

　　“南京市新房广义库存量在35个月以上，存在去化压力。”张宏伟表示，南京市之前就取消了外围区域的限购，但市场反应并不理想，销售量也没有太大起色。在最近的南京市土拍中，除了核心区优质地块有品牌房企关注外，其他区域地块基本上都是底价成交或当地国企托底成交。

TOP3热点：100秒记录西藏定日震后，救援故事在延续片多多-最新电影电视剧

　　“美国的挑衅只会加剧东盟的风险”，俄罗斯卫星通讯社称，发展经济合作和维护地区安全稳定是东盟峰会和东亚合作领导人系列会议的主要议题。然而，美国企图煽动东盟与中国对抗，用所谓“中国军事扩张”和“经济胁迫”来恐吓东盟。报道称，这次美国总统拜登不参加东盟系列会议，却赴印度参加G20峰会，并紧接着访问越南。美国是一心要分裂东盟，用亲美集团取代东盟。

　　下一步，市场监管总局将会同省级市场监管部门、商协会、律师事务所等多方力量积极开展合规宣传和培训，适时遴选推广合规典型案例，在全社会营造竞争合规的良好氛围。同时，建立健全经营者集中合规评价体系、风险预警提示机制以及常态化沟通机制，更好服务企业规范健康发展。

TOP4热点：航拍洛杉矶山火灾区：过火处一片焦土，犹如世界末日可以强互动女性脱卸衣服游戏

　　2020年，未满37岁的孙睿君成为副厅级干部，任广西百色市委常委、组织部部长，次年任百色市委常委、市政府副市长、党组副书记，今年8月任玉林市副市长。

　　毛宁表示，香港特区政府已经就此发表声明，中方对这一恶劣行径予以强烈谴责。中方要求英方予以彻查，将肇事者绳之以法，切实保障香港驻伦敦经贸办机构和人员的安全。

TOP5热点：国足新年首堂训练课，主帅伊万谈新人侯永永三个大姨rap

　　湘潭市政协原党组副书记、副主席刘硕科利用职务影响为其妻子及儿子从事经营活动提供帮助的问题。2005年至2022年，刘硕科利用担任湘潭高新区管委会主任、党工委书记，湘潭市政协党组副书记、副主席等职务上的影响，通过违规向相关公职人员打招呼，为妻子林某某代理湖南某科技公司在湘潭市开展“校讯通”业务提供帮助，林某某从中获取巨额利益。2019年至2023年2月，刘硕科利用担任湘潭市政协党组副书记、副主席等职务上的影响，违规为其儿子刘某在某集团公司开展水渣销售业务提供帮助，刘某从中获利共计约149万元。刘硕科还存在其他严重违纪违法问题。2023年7月，刘硕科受到开除党籍、开除公职处分，违纪违法所得被收缴，涉嫌犯罪问题被移送检察机关依法审查起诉。

　　从涉案官员级别来看，2009年的足坛反腐更多强调的是反赌（球），当时处理的最高级别的足协官员是两名专职副主席，谢亚龙和南勇。但本轮反腐，已落马的官员中，不仅有中国足协原主席陈戌源，还有国家体育总局原副局长杜兆才，涉案官员级别明显高于前一轮反腐。

TOP6热点：段永平再出手：今天买了腾讯，也买了茅台啊哈哈哈哈主人我错了哈哈哈哈柯

　　因市场可售房源量持续增加影响，8月，南京市二手房新增挂牌房源5857套，环比下降2.7%；新增挂牌房源均价31828元/平方米，环比下降1.3%，均价也是近3年来首次回落到3.2万元以下。

　　8月25日，住房城乡建设部、中国人民银行、金融监管总局联合印发了《关于优化个人住房贷款中住房套数认定标准的通知》，推动落实购买首套房贷款“认房不用认贷”政策措施。此后，北上广深四大一线城市全部执行“认房不认贷”。

TOP7热点：新城市志︱40分钟从杭州直达浦东，长三角将再添高铁通道申鹤九条裟罗胸前穿的衣服是什么

　　新京报讯据市说新语消息，9月11日，市场监管总局正式发布《经营者集中反垄断合规指引》（以下简称《指引》）。这是2008年《反垄断法》实施以来，国务院反垄断执法机构出台的首部经营者集中监管领域合规指导性文件，对提升经营者集中常态化监管水平具有重要意义。

　　文章称，当前，全国纪检监察干部队伍教育整顿正处于检视整治环节，中央纪委国家监委和各级纪检监察机关坚持动真碰硬、刀刃向内，零容忍清除害群之马，此次公布的监督检查审查调查数据便是有力证明。坚持严字当头、一严到底，各级纪检监察机关认真落实教育整顿问题线索受理和处置工作方案，全面开展问题线索受理和处置工作，严肃查处问题突出的人和事，推动教育整顿走深走实。

TOP8热点：失控山火包围洛杉矶：从穆赫兰道至好莱坞大道，十万人大撤离爸爸疼你

　　据中国统促会官网介绍，8月31日，中国和平统一促进会九届十次常务理事会议在京举行，会议听取了中国和平统一促进会十届一次理事大会筹备情况汇报。

　　9月7日，南京市发布促进房地产市场发展6项最新举措。这是南京市在8月4日发布《进一步优化政策举措促进南京房地产市场平稳健康发展》政策措施基础上，再度推出的房地产市场调控举措。根据最新政策，包括玄武区、秦淮区、建邺区和鼓楼区等四区范围内购买商品房不再需要购房证明。

TOP9热点：去年12月CPI同比上涨0.1%，去年全年比上年上涨0.2%may18-XXXXXL56endian

　　1989年，美间谍情报机关与梁成运正式签订“合作协议”，将他招募为线人，约定秘密联络方式，承诺每月支付1000美元，并根据业绩发放奖金。同年，梁成运加入美国籍。

　　8月21日，国家安全部官方微信发布消息，近日，国家安全机关破获一起美国中央情报局间谍案。犯罪嫌疑人郝某系我某国家部委干部，在日留学期间被策反。

TOP10热点：人物｜谎言、野心、角力场……乱局中的韩国第一夫人免费聊天软件

　　[环球时报综合报道]美联社4日发表对韩国总统尹锡悦的书面采访。他称将在近期出访中要求国际社会进一步施压朝鲜，并对中国喊话称，中国对朝鲜拥有“相当影响力”，关键是中国是否及如何发挥影响；如果朝鲜持续升级核导能力、违反安理会制裁决议，中国作为对国际社会和平与稳定肩负责任的安理会常任理事国，应为实现朝鲜无核化作出建设性努力。在中国外交部5日的例行记者会上，《环球时报》记者就此提问，发言人毛宁作出4点回应：

发布于：万源市

中国人在法国生活的感受空间智能版ImageNet来了！李中国人在法国生活的感受飞飞吴佳俊团队出品_ZAKER新闻

中国人在法国生活的感受空间智能版ImageNet来了！李中国人在法国生活的感受飞飞吴佳俊团队出品_ZAKER新闻