当前位置:首页 > 宠物知识 > 正文

CVPR | 16万视频对、28万对片段,蚂蚁开源视频侵权检测超大数据集

机器之心专栏

作者:蚂蚁集团

该研讨提出了现在最大规划(超越现有其他数据集 2 个数量级规划)的视频侵权定位数据集VCSL,并提出全新的视频片段复制检测的点评方针。相关研讨当选CVPR 2022。

传统的版权维护职业费时、吃力、本钱高,海量内容难以全量维护,内容分发难以掌控传达的安全问题。区块链技能具有不行篡改、追根溯源、散布式一致等特色,和数字版权维护具有天然符合之处,将区块链技能与 AI 多媒体侵权检测技能相结合,极大降低了版权维权本钱,前进版权维护功率,一同也为网络版权的存证、买卖、维权供给了新的途径。因而,蚂蚁集团 - 数字科技线推出了一站式数字内容原创维护渠道 「鹊凿」,图片视频等内容一键上链,快速完结版权存证,在司法机关和公证组织的一同见证下,成为“盗版维权” 的铁证。

相关的产品介绍可见于官网:https://www.mydcs.com/pages/index

在版权维护中,视频侵权检测才能是极为重要的一部分。现如今,盗版视频的猖狂不只让视频网站丢失惨重,一同给内容创造者带来经济和精神上的丢失更是不行估量。2021 年 4 月,中宣部版权局提出,加大对视频侵权行为的冲击力度。近些年,包含二次创造、视频剪辑在内的侵权手法层出不穷,盗版视频的侵权样例也不只限制在简略的盗摄或许加水印等简略被辨认的办法。因而面向版权维护的视频侵权检测办法就变得尤为重要,针对这一系列问题,根据 AI 的多媒体比对算法技能,能够显著地节约人工审阅的本钱,前进侵权取证的功率,实现在大范围检索状况下做出准确的辨认,是处理视频侵权问题的有用计划。

图 1. 蚂蚁构建大规划视频侵权数据集(VCSL)中的典型侵权样例

可是现在针对版权侵权检测,尤其是视频侵权这一范畴在学术界和工业界都存在着一些瓶颈问题,首要体现在下面三点:

  • 数据集,现在学术界现已开源的数据集大部分都是只要视频等级的标示(Trecvid[1], SVD[2], FIVR[3]),即视频对之间只标示了是否侵权,而并未标示两个视频之间实践侵权的时刻片段(即侵权开始时刻方位和完毕时刻方位)。现在开源的具有片段等级标示的数据集仅有 2014 年 ECCV 上开源的 VCDB 数据集[4],但这个数据集规划比较小,仅有 6k 对实践侵权的视频对,这也会在后边的章节进行介绍。
  • 算法点评方针,在学术界中,视频等级的复制检测点评方针比较老练,可是片段粒度的复制检测准确度的点评方针依然存在着比较多的问题。之前 VCDB 论文中提出的点评方针在实践的试验测验中呈现了一系列方针上的误差以及使用上的问题。
  • 侵权定位算法,侵权定位算法,在这儿侵权定位(Temporal Alignment)算法指的是在提取出两段视频的时序特征后,需求输出两段视频侵权的时刻片段。大部分侵权定位的算法都是不开源的,因而学术界也无法构成一个完善的 benchmark,视频复制检测和侵权定位这个范畴也相对较为阻滞。

针对以上三个首要问题,该研讨做了很多的视频复制检测和侵权定位相关的研讨作业,包含了:

  • 提出了现在最大规划(超越现有其他数据集 2 个数量级规划)的视频侵权定位数据集,包含了超越 16 万对侵权视频对,28 万对侵权片段,而且涵盖了很多的视频范畴和视频时长。
  • 提出了全新的视频片段复制检测的点评方针,该点评方针充分考虑到了视频复制检测这个使命的特殊性,而且在实践场景下体现出了更好的适应性。
  • 提出了关键帧和侵权定位端到端的模型 SSAN 并达到了现阶段最高方针,而且将现阶段学术界的常见侵权定位算法进行复现而且开源,构成了完善全面的视频侵权定位 benchmark。

上面的作用现已别离被核算机视觉顶会 CVPR 和多媒体顶会 ACM MM 成功选用和宣布。

  • CVPR 2022 VCSL 论文:https://arxiv.org/abs/2203.02654
  • VCSL 数据集和评测以及算法代码:https://github.com/alipay/VCSL

大规划视频片段复制检测数据集 VCSL

针对上一节提出的现有数据集问题,该研讨期望提出一个全面的数据集,满意下面的要求:

  • 视频复制的类型有必要要尽或许的全面,可是要防止过度改换使得侵权的视频根本不具备观赏性。
  • 视频类型有必要掩盖常见的视频品种,比方电影、电视剧、动画、体育等不同场景。
  • 视频时长散布尽或许广泛,不要限制于仅仅短视频或许仅仅长视频。

根据以上三个要求,该研讨打标完结了 VCSL(Video Copy Segment Localization)数据集。研讨者从 Youtube 和 Bilibili 上选取了 122 个种子视频,每个种子视频也与关键词相关联。在打标进程中,研讨者模拟了实在状况,让打标同学进行查找找到或许侵权的视频然后再进行打标比对,滤除不相干的视频并标示出实践侵权的时刻片段。

表 1. VCSL 与其他学术界现有数据集的比较

VCSL 数据集与学术界其他数据集的比照由表 1 所示,能够看到 VCSL 在侵权视频对数量和侵权片段数量上都比现有学术界数据集高出两个数量级。而且在视频时长、侵权片段时长、视频品种的散布上愈加广泛。

视频片段复制检测的新点评方针

学术界范围内,之前在 Muscle-VCD[5]和 VCDB[4]中提出过片段等级复制检测的点评方针,这几年比较常见的学术界作业首要用了 VCDB[4]中界说的片段的准确率和召回率:

准确率和召回率的分子均为正确被检测到的片段,其间正确检测到的片段界说为只要与实践的侵权片段有一帧的重合即界说为正确检测。准确率的分母为一切被检测到的片段数量,召回率的分母为实践打标实在复制的片段数量。别的,VCDB 论文中还界说了帧的准确率和召回率:

与片段粒度类似,只不过核算维度是在帧粒度。

上述说到的片段准确率 / 召回率和帧准确率 / 召回率都有其限制性。最重要的一点是,该点评方针只适合于片段和视频的复制检测,即需求打标好的被侵权片段与或许侵权的视频作为输入,而不是两段完好的视频作为输入,这种点评办法在实践场景下是不现实的。一同,关于片段准确率 / 召回率,检测到的片段只要和实践的打标片段有一帧堆叠就以为是正确的核算办法,会导致点评方针对侵权定位的准确度的感知比较差。别的,这些方针没有考虑到视频复制的一些重要特性,即下面说到的切分等效性。

之前的点评方针需求将标示好的片段和视频比较,这个并不适合于实践的使用。在该研讨提出的点评方针中,他们用两个完好的视频作为输入来检测这两个视频中或许存在的复制片段。别的,该研讨在调查视频复制的标示数据中发现了视频复制一个特性,即片段切分等效特性。这种特性是因为在某些状况下,很难确认复制片段的鸿沟,如下图所示,视频部分的中心帧被修正以及时刻短刺进其他视频帧,如下图 2(a)所示,别的图 2(b)这种混剪的状况也类似,该研讨以为在这些状况下,将复制视频片段标示为一整段和多段接连的片段都是合理的。因而该研讨在规划新的点评方针时,需求将这种片段切分等效特性考虑进去,使得点评方针对这种切分是鲁棒的。

图 2. 视频侵权事例,(a),(b)图左边为按时刻排布的视频画面帧,右侧为视频帧序列类似图,横轴和纵轴别离代表着两个视频的时刻轴,黑框内表明实践标示的侵权事情片段,具体解说图也可见于后文图 6 右侧。

这个点评方针的表明能够经过视频帧类似图进行表明,如下图所示。复制片段对在类似图上表现为一个检测框,而这个复制片段,能够表现为在类似图上的一条直线,这表明晰帧的次序对应。而橘黄色框表明实践打标的 GT 复制片段,蓝色框表明算法输出的猜测复制片段。

图 3. (a-b)描绘了该研讨提出的算法核算进程,(c-f)描绘了四种比照该研讨提出的点评方针和之前方针比照的简化状况。虚线表明侵权帧在时域上的方位,一同也会有其他更杂乱的侵权状况表现为更杂乱的 pattern。

具体来说,首要该研讨找到每个 GT 框与一切的猜测框的外交区域,如上图 (a) 所示,接下来核算这个交叠区域在 x 轴和 y 轴上的并集长度。一同核算出每个 GT 框的长度和宽度,最终分子为交叠区域的并集长度相加,分母为 GT 框的长度相加,即可得到 recall,如上图 (a) 所示。

类似的,首要该研讨找到每个猜测框与一切 GT 框的外交区域,如上图 (b) 所示,接下来核算这个交叠区域在 x 轴和 y 轴上的并集长度。一同核算出每个猜测框的长度和宽度,最终分子为交叠区域的并集长度相加,分母为猜测框的长度相加,即可得到 precision,如上图 (b) 所示。值得注意的是,该研讨并没有用学术界常用的面积,而是采用了 x y 轴的投影进行核算,这是为了点评方针对片段切分愈加鲁棒。最终,将 recall 和 precision 结合,得到 F-score,作为点评参数。

视频片段复制检测算法 benchmark

首要将视频复制检测算法的处理流程分为三个部分:视频预处理,视频特征提取和视频侵权定位,如下图所示。

图 4. 视频复制检测算法处理流程。

根据 VCSL 数据集和新的点评方针,该研讨首要复现了现在常见的侵权定位算法,包含霍夫投票(Hough Voting)、时域网络(Temporal Network)、动态规划(Dynamic Programming)、动态时刻歪曲(Dynamic Time Warping),并结合常见的开源帧特征算法,得到如下图所示的 benchmark。

其间 SPD 是该研讨团队在上一年 ACM MM21 中提出的侵权定位算法,也是当时视频侵权定位作用最好的算法。其间 SPD 下划线 1 表明在之前开源数据集 VCDB 上练习的作用,下划线 2 表明在 VCSL 数据集上练习的作用。能够看到后者作用好于前者,这也说明晰大规划数据集的重要性。

这儿也简略介绍下该研讨在 ACM MM21 上宣布的论文《Learning Segment Similarity and Alignment in Large-Scale Content Based Video Retrieval》,他们提出了一种视频片段类似度和定位网络(Segment Similarity and Alignment Network,SSAN),首要由两个部分组成:自监督关键帧检测 (Self-supervised Keyframe Extraction,SKE) 和类似图侵权定位检测(Similarity Pattern Detection,SPD)。关键帧检测(SKE)首要用于提取鲁棒且有代表性的关键帧,去除类似冗余帧;类似图侵权定位检测(SPD)首要用于视频类似片段定位。整个 SSAN 能够端到端进行练习,得到现阶段最好的片段等级侵权定位作用。

论文地址:https://dl.acm.org/doi/abs/10.1145/3474085.3475301

图 5. SSAN 算法结构,包含了关键帧抽取模块,根据帧的视频检索和时域侵权定位模块

在类似图侵权定位检测(SPD)这个模块中,该研讨奇妙地将侵权定位问题转变成一个方针检测问题,如下图所示,这样就只需求很少的运算量就能够得到侵权定位的成果,而且具有多段侵权检测才能。

图 6. 左图,时域侵权定位 SPD 算法示意图,右图,类似图生成与原视频对示意图

本文的一切代码都现已开源,欢迎我们沟通评论和引证!

别的在本年的 CVPR22 上,蚂蚁集团与复旦大学人工智能立异与工业研讨院,在 Biometric Workshop 上联合举行“宠物生物特征辨认竞赛”,近期已在阿里云天池渠道拉开帷幕。经过举行本届赛事,蚂蚁集团期望与合作伙伴一同,推进核算机视觉技能在生物特征辨认范畴的前进,鼓舞面向实在场景的技能立异,为世界带来细小而夸姣的改动。

更多竞赛信息:

https://tianchi.aliyun.com/competition/entrance/531952/introduction

参考文献

[1] Over P, Awad G, Michel M, et al. Trecvid 2012-an overview of the goals, tasks, data, evaluation mechanisms and metrics[J]. 2013.

[2] Jiang Q Y, He Y, Li G, et al. SVD: A large-scale short video dataset for near-duplicate video retrieval[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019: 5281-5289.

[3] Kordopatis-Zilos G, Papadopoulos S, Patras I, et al. FIVR: Fine-grained incident video retrieval[J]. IEEE Transactions on Multimedia, 2019, 21(10): 2638-2652.

[4] Jiang Y G, Jiang Y, Wang J. VCDB: a large-scale database for partial copy detection in videos[C]//European conference on computer vision. Springer, Cham, 2014: 357-371.

[5] https://web.archive.org/web/20120126063622/http://www-rocq.inria.fr/imedia/civr-bench/data.html

发表评论

最新文章