亚马逊发布 Web 视频分类新框架：1/100 数据量，精度赶超最优模型

jinbh · 发表于 2020-4-6 16:21:25

雷锋网 AI 源创评论按：近日，亚逊、智能初创公司 SenseTime 与港中学的研究员，共同开发出了个利 Web 数据的新框架——OmniSource，该框架在视频识别领域创造了新记录。

通过解决图像、短视频和时间未剪辑视频等数据格式之间的不兼容，并采数据平衡等方法，OmniSource 能够最先进的模型更准确地对视频进分类，但其使的数据却少了 100 倍。

OmniSource 工作原理

研究员指出，通常收集训练视频分类算法所需的数据既昂贵费时，因为视频通常包含个或多个主题的多个镜头，因此分类时必须完整观看它们，然后动将其剪切成段，再仔细添加标注。

OmniSource 的体系结构图

而 OmniSource 是以集成的式利用各种来源（搜索引擎，社交媒体）的各种形式 Web 数据，例如：图像、剪辑视频和未剪辑视频。然后，AI 系统过滤掉低质量的数据样本，并对那些通过其集合的数据样本（平均为 70% 至 80%）进行标记，对每个样本进行转换以使其适于标任务，同时提高分类模型训练的鲁棒性。

在给定识别任务后，OmniSource 会获取所有分类中每个类名的关键字，并从上述来源中抓取 Web 数据，并动删除重复数据。而对于静态图像，要预先准备这些图像，用于联合训练期间使，它会通过利移动摄像机使它们成「伪」视频。

在联合训练阶段，旦将数据过滤并转换为与标数据集相同的格式，OmniSource 就会权衡 Web 和标语料库，然后采跨数据集混合方法，将其中包含的示例对及其标签于训练。

更少的数据，更高的精度

在联合训练这个阶段，据研究员报告称，当用 OmniSource 从头训练视频识别模型时，尽管微调效果不佳，但交叉数据混合所取得的效果很好。

而在测试中，团队使了三个标数据集：

Kinematics-400，其中包含 400 个分类，每个分类包含 400 个 10 分钟的视频；YouTube-car，其中包含数千个视频，展示了 196 种不同类型的汽；UCF101，包含 100 个剪辑片段和 101 个类别的视频识别数据集；

Web 数据集分布。(a)-(c) 显示了三个 Web 数据集在过滤前后，各个类别数据分布中被可视化。（d）给出了 GG-K400 过滤出的图像（青色框）和剩余图像（蓝色框）的样本。虽然成功过滤出了很多不合适的数据，但这使得各类别的数据分布更加不均

关于网站资源，研究人员从 Google 图像搜索中收集了 200 万张图像，从 Instagram 收集了 150 万图像和 500,000 个视频，以及从 YouTube 收集了 17,000 多个视频。结合标数据集，所有这些都被输到一些视频分类模型中。

据报告显示，在没有进行训练时，只有 350 万张图像和 80 万分钟的视频可以从互联上爬取而得，结果不及先前工作的 2％。而在 Kinetics-400 数据集上，经过训练的模型则显示出少 3.0％的准确性提，精度达 83.6％。同时，该框架下从零开始训练的最佳模型在 Kinetics-400 数据集上，达到了 80.4％的准确度。

可扩展的视频识别技术

OmniSource 论的作者表示，与最先进的技术相，该框架可以通过更简单（也更轻巧）的主设计以及更的输量来实现可持平甚至更好的性能。OmniSource 利了特定于任务的数据集，并且数据效率更，与以前的法相，它减少了所需的数据量。此外，框架可推到各种视频任务中，例如：视频识别和细粒度分类等。

图来源：Reuters / Thomas Peter

未来，OmniSource 或许还可以应于私和公共场所的安全摄像机中。或者，它可以为诸如 Facebook 之类的社交网站，提供视频审核算法所需的设计信息与技术。

账号		自动登录	找回密码
密码			立即注册

[电商] 亚马逊发布 Web 视频分类新框架：1/100 数据量，精度赶超最优模型

本帖子中包含更多资源

相关帖子

浏览过的版块