ltc_娱乐动态_视频生成ltc无损提速:删除多余token,训练时间减少30%,帧率越高效果越好_ZAKER新闻

ltc视频生成ltc无损提速:删除多余token,训练时间减少30%,帧率越高效果越好_ZAKER新闻

ltc视频生成ltc无损提速:删除多余token,训练时间减少30%,帧率越高效果越好_ZAKER新闻

视频生成ltc无损提速:删除多余token,训练时间减少30%,帧率越高效果越好_ZAKER新闻

亮实绩

Don ’ t look twice!把连续相同的图像块合并成一个 token,就能让 Transformer 的视频生成速度大幅提升。卡内基梅隆大学提出了视频生成模型加速方法Run-Length Tokenization(RLT),被 NeurIPS 2024 选为 Spotlight 论文。在精度几乎没有损失的前提下,RLT 可以让模型训练和推理速度双双提升。一般情况下,利用 RLT,Transformer 视频模型的训练时间可缩短 30%,推理阶段提速率提升更是可达 67%。对于高帧率和长视频,RLT 的效果更加明显,30fps 视频的训练速度可提升 1 倍,长视频训练 token 减少 80%。相比于传统的剪枝方法,RLT 能用更小的精度损失实现更好的加速效果。有人想到了电视剧中的评论,认为这项研究找到了在压缩空间中进行搜索的方法。DeepMind 科学家 Sander Dieleman 则评价称,这项研究是一种 " 非主流 "(Off-the-grid)的创新方法,但比起其他复杂的非主流研究,又显得非常简洁。重复图像块合为一个 tokenRLT 的核心原理,是利用视频中存在大量时间上重复的图像块这一特点,将重复的图像块合并为一个 token 表示。这种情况下,还需要用一个位置编码来表示这个 token 的长度,但 RLT 总体上减少了输入的 token 数量。要想完成重复 token 的修剪,首先要对视频进行分块。具体来说,视频在空间和时间维度上会被划分成固定大小的图像块,每个图像块的大小为 C × D_x × D_y × D_t,每个图像块都对应一个空间 - 时间位置。(其中 C 是通道数,D_x 和 D_y 是空间维度大小,D_t 是时间维度大小。)划分完成之后,需要比较时间上相邻的图像块,判断它们是否相似,也就是是否需要合并。对于时间位置相差 1 的两个图像块 P_1 和 P_2,取 P_1 的第一帧和 P_2 的最后一帧,计算它们的 L1 距离。如果距离小于一个预设的阈值 τ,就认为 P_1 和 P_2 是静态重复的(阈值 τ 表示允许多大程度的相似性,设置与具体数据集无关)。完成判别之后,重复的图像块会被移除。对于一串连续的、两两之间都是静态重复的图像块,RLT 只保留第一个块对应的 token。这一步是在 patch embedding 之前完成的,因此移除 token 不需要改动模型结构。经过这一步,输入的 token 数量从 N_P 降低到了 N_P ’(N_P ’≤ N_P)。为了让合并后的 token 仍然能够反映完整的视频信息,接下来要给每个 token 加上长度编码。对于一个保留下来的 token,系统会计算它所代表的原始 token 的长度 l_i,也就是它到下一个没有被移除的 token 的距离。长度信息 l_i 与 token 的空间 - 时间位置 ( x,y,t ) 一起,用一个可学习的长度编码矩阵映射成一个 d 维的 embedding 向量,与 patch embedding 相加,作为输入 token 的最终表示。最后只需要将处理后的 token 序列输入到视频 Transformer 中,进行常规的训练或推理过程。不过需要注意的是,由于每个视频样本计算出的 token 数量 N_P ’不尽相同,样本之间可能有较大差异。然而标准的 Transformer 是按批次处理固定长度的序列的。为了能在一个批次中处理多个长度不一的视频,RLT 采用了一种称为 "example packing" 的方法,将这一批中所有视频样本的 token 序列首尾相连,拼成一个超长的序列,作为 Transformer 的输入。这样的话,Transformer 实际上是在处理一个批次大小为 1、长度为所有样本 token 数量之和的序列。通过以上步骤,RLT 能够去除视频中的许多冗余 token,在几乎不损失精度的情况下,大幅降低内存占用和计算量,加速视频 Transformer 的训练和推理。训练时长下降 30%在训练阶段,RLT 对 ViT-B 和 ViT-L 两种规模的模型都有很好的加速效果。在 Kinetics-400 上,ViT-BRLT 和 ViT-L 训练时间分别从 14.4 小时和 21.6 小时,降低到 10.2 小时和 15.4 小时,降幅均接近 30% 左右,精度损失不超过 0.1 个百分点;在 SSv2 上,两者的训练时间分别从 10.1 和 15.2 小时,降低到 7.2 和 10.8 小时,降幅也接近 30%,精度同样仅下降 0.1 个百分点。相比之下,传统的剪枝方法 Token Merging 在精度下降 0.1-0.5 个百分点的情况下,加速只有 10-20%。在推理阶段,也不需要额外的训练,就可以将 RLT 作为现成的 tokenizer,达到很好的加速效果。具体来说,RLT 能在几乎不牺牲精度的情况下(不超过 0.5 个百分点),将推理阶段的计算量和延迟降低 30-60%。同样在 Kinetics-400 和 SSv2 上,对于 ViT-B 和 ViT-L,RLT 都能带来 60% 以上的推理加速。对于更大的 ViT-H,在 Kinetics-400 上,RLT 也能实现 45% 的加速效果。特别地,作者还针对高帧率和长时长视频数据集进行了测试,发现 RLT 带来的 token 下降幅度比在普通数据集中更高。同时在高帧率数据集当中,RLT 能够在精度损失同样低的情况下,实现更好的加速效果。而且帧率越高效果也越明显,对于 30fps 的视频,加速可达 100%。论文地址:https://arxiv.org/abs/2411.05222代码:https://github.com/rccchoudhury/rlt

koa12jJid0DL9adK+CJ1DK2K393LKASDad

编辑:王子久

TOP1热点:哈工程校园内的袁隆平雪雕令人泪目

此次,在希普金斯总理及新西兰贸易部长等多方的共同见证下,纽仕兰发布了以“4.0产品群升级”为核心的重大产品升级战略,代表中新贸易便利化的“新西兰72小时鲜奶”升级版——纽仕兰4.0娟姗鲜牛奶,达成“奶源+营养”的核心升级,以1%限定娟姗奶牛及4.0g/100ml优质蛋白质为鲜奶市场树立新标杆。邀请世界顶尖奢侈品品牌爱马仕合作设计师LaurMeyrieux进行全新形象定制设计,并于此次签约落地中国新零售标杆盒马、中国电商平台天猫超市进行预售首发,强强联动见证中新贸易合作升级,展现中新贸易韧劲。。

●农村基本具备现代生活条件。

TOP2热点:尹锡悦发表对民众讲话

6.远离围墙、广告牌和大树,以防意外发生。

国家药监局综合司

TOP3热点:关晓彤换风格了黄品汇3.1.0

●使我们党坚守初心使命,始终成为中国特色社会主义事业的坚强领导核心。

△新华路359号的新华里巷市民中心,左手侧墙面上的功能木牌已经增加到了15块。其中,“直播室”“小剧场”“博物馆”等一批木牌是不久前刚刚挂上去的。

TOP4热点:国色芳华5步做出牡丹香粉双人摇床剧烈运动

身体健康,无先天性疾病,性格开朗,身体协调且匀称,热爱体育具有吃苦耐劳的精神。

现在,家长也会考虑让孩子学习霹雳舞。不少城市也都有霹雳舞的舞团和培训机构。

TOP5热点:国色芳华收视又创新高公子多情歌曲简谱

顾晓芬也逐渐形成了“随时发现、随时报告、随时流转、随时处置”的社区警务工作模式。微信里那一个个“红点”都是她急需解决的事项,而儿子和丈夫的微信聊天免不了被群聊、私信所“淹没”,沉到了底部。

7月4日(周二):多云转阴有阵雨或雷雨,29~35度

TOP6热点:哪吒肉肉肉回来了九幺抖音版

2020年10月19日,申真谞在韩国围棋超级对决七番棋比赛中。新华社发

另外,如老人关于250多万元被保姆转走的说法属实,保姆就可能涉嫌盗窃。即,保姆知道密码之后,如果以非法占有为目的,在未告知老人及其家人的情况下将钱偷偷取走,可能涉嫌盗窃罪,200余万元属于数额特别巨大,依据法律规定,刑期在10年以上。所以,如果两个罪名均成立,保姆将面临较高刑期。

TOP7热点:7岁男孩被同学掌掴致失聪唐三桶比比东不来乐乎MBA

特此通告。

水肺潜水

TOP8热点:小鹿称北京就是个该吃苦的城市明里䌷照顾发烧的病人

中国教育学会科创教育协作体主任张志敏表示,青少年要不断地学习知识充实自己,从小储备人工智能知识。未来在人生道路上,都可以借助人工智能的知识提高生活品质和学习效率。

2022年4月8日,民众在新西兰首都惠灵顿一家超市购物。新华社记者郭磊摄

TOP9热点:国色芳华有自己的李子柒read[长弓燧龙] 胡桃

2023年下半年中小学教师资格考试(笔试)将于9月16日(星期六)举行。考生可于7月7日(星期五)9:00起至7月8日(星期六)24:00登录中小学教师资格考试网(http://ntce.neea.edu.cn)输入报考信息。

他认为,露营在北上广深等大城市将愈加趋向精致化。“露营的概念很广泛,除了极限挑战,还可以舒适化、精致化,比如我们的营地生活,有洗浴、汤池、补给品,甚至有夜市,更适合年长一些的家庭人群。”

TOP10热点:再将7家美企列入不可靠实体清单我是学校的公厕谁都能上

6.远离围墙、广告牌和大树,以防意外发生。

吴昀:一开始我们只有一个很古朴的那个想法,就是我这个村需要人气,我不能让它成为空心村,这些房子不能让它没有价值。慢慢我们现在做下去,锚定的这个目标,我们觉得当初的这个目标选对了,创客村的这个目标选对了。

发布于:靖远县