数码之家

 找回密码
 立即注册
搜索
查看: 266|回复: 0

[业界] 苹果等公司被曝使用争议YouTube资源训练AI模型

[复制链接]
发表于 2024-7-17 11:53:07 | 显示全部楼层 |阅读模式

爱科技、爱创意、爱折腾、爱极致,我们都是技术控

您需要 登录 才可以下载或查看,没有账号?立即注册

x
原标题:苹果、英伟达等公司被曝使用争议YouTube资源训练AI模型:5.7GB,涉及4.8万个频道17.4万个视频字幕
IT之家 7 月 17 日消息,非营利性新闻工作室 ProofNews 昨日(7 月 16 日)发布博文,表示包括苹果、英伟达、Salesforce 和 Anthrophic 在内的大型科技公司,在训练其 AI 模型时均使用了来自 YouTube 的视频资源。
报道称这些科技公司在训练其 AI 模型过程中,使用了名为 YouTube Subtitles 的数据集,大小为 5.7GB(4.89 亿个单词)。
该数据集由 EleutherAI 创建,最早发布于 2020 年,涉及超过 48000 个频道的 173536 个 YouTube 视频字幕内容,其中还包含 12000 多个平台已删除视频的字幕内容。
YouTube Subtitles 数据集主要采集热门 YouTube 频道的资源,IT之家附上相关信息如下:
MrBeast(2.89 亿订阅者,其中有 2 段视频用于训练)
Marques Brownlee(1900 万订阅者,有 7 段视频)
Jacksepticeye(近 3100 万订阅者,有 377 段视频)
PewDiePie(1.11 亿订阅者,有 337 段视频)
YouTube Subtitles 数据集隶属于一个名为“The Pile”的数据集,其中包括其他几个训练数据集。大多数“The Pile”数据集都对任何有足够空间和计算能力的人开放。


您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

APP|手机版|小黑屋|关于我们|联系我们|法律条款|技术知识分享平台

闽公网安备35020502000485号

闽ICP备2021002735号-2

GMT+8, 2025-5-21 10:27 , Processed in 0.171600 second(s), 12 queries , Redis On.

Powered by Discuz!

© 2006-2025 MyDigit.Net

快速回复 返回顶部 返回列表