生成式AI的训练数据，该由谁买单？｜监管

Original 江睿杰新皮层NewNewThing 2023-08-02

记者：江睿杰

编辑：吴洋洋

制图：程星

Key Points

中国要求训练数据「不含有侵犯知识产权的内容」；

欧盟仅要求AI公司标明使用了哪些有版权的数据；

日本认为训练过程中使用的数据根本不拥有版权。

6月14日，欧洲议会投票通过了起草并修改了两年的《人工智能法案》（AI Act）草案，其最引人注意的规定有两项：禁止实时人脸识别，以及强制要求生成式AI公司披露其训练数据的版权细节。

生成式AI模型的性能表现，很大程度上取决于「投喂」的训练数据，对于训练数据的监管因而成为过去6个月里AI监管领域最受关注的新议题。

和去年12月颁布的《互联网信息服务深度合成管理规定》相比，中国今年4月推出的《生成式人工智能服务管理办法（征求意见稿）》最主要的新增内容，也是关于训练数据的。

全球关于训练数据的监管主要涉及两方面的问题，即安全性和版权。安全性问题各国相对比较有共识，比如欧盟和中国的立法都要求训练数据可追溯，要求训练过程不得侵犯个人隐私、不得带有歧视性，以免伤害到特定个人或群体的安全和利益。

但在数据版权领域，各国的政策则完全不同，甚至相反。

AI监管：中国严，欧盟次之，日本免费

中国的生成式AI监管草案最为严格，它要求训练数据「不含有侵犯知识产权的内容」，意思是人工智能机构使用有知识版权的内容训练AI，必须先征得版权方同意，而这种同意往往伴随着授权费。

欧洲议会最新通过的《人工智能法案》（AI Act）草案，则仅要求AI公司必须标明到底使用了哪些有版权的数据。

而日本的管理者认为，训练过程中使用的数据根本不拥有版权，无需特别监管——使用者也不需要为此付费。

6月，日本文化厅发布了一份名为《AI与著作权》的文档，详细陈述了他们认为训练AI使用的数据不涉及版权问题的原因。其核心逻辑是：拥有版权的作品能直接引发欣赏者的特殊感受，但AI在使用版权作品训练时并不以此为目的，而且训练过程中也没有一个真正的人在以欣赏的态度对待这些作品，所以不涉及到版权保护的问题。

除了中、欧、日，还有一些国家目前尚未表态。比如新加坡的态度是“暂不监管”，先让产业跑起来再说。美国暂时也没有成文的立法或草案，所以正在起诉OpenAI等人工智能公司在训练中大规模侵犯其版权的美国新闻集团，能使用的法律武器仅限于1998年出台的《数字千年版权法案》（Digital Millennium Copyright Act，DMCA）。该法案允许「为了学术研究等目的而合理使用有版权作品」，而AI大模型训练是否属于「合理使用」仍有争议，毕竟它不是「为了学术研究」。

谁来标注数据来源？

在生成式AI面世之前，关于AI版权的讨论主要集中于「由AI协助生成的作品是否拥有版权」。各国在这个问题上的原则大体类似，都强调「人类+独创」，即创作主体必须是人，创作过程必须能够体现人类创造力，且与现有其他作品相比独一无二。

相较于已完成的作品，针对训练数据的版权监管要困难得多。

首先，训练数据的规模极其庞大。以ChatGPT为例，其训练数据量达到45TB。如果我们把一本电子书的数据量计作1MB，45TB就大略相当于4700万本书。要审核这么多书中哪些符合版权规定、哪些没有授权，本身就是一个极其耗时、耗力的工作。若要让这件事自动化，则需要建立一个极其完备的数字化版权库，目前没有哪个国家具备这样的条件。

（6月14日举行的欧洲议会全体会议上，议员参加关于《人工智能法案》的投票）

为解决这个问题，欧盟给出了一个「权宜之计」——把标注版权的责任交给企业，让企业自己标注，监管者只需抽样检查即可。假设这条路走得通，接下来就碰到一个新问题：当我知道自己的作品被用于AI训练，而且AI公司最后用训练出来的模型在大笔赚钱的时候，我是不是应该也能从中分享自己作品版权带来的收益？欧盟尚未对这一问题给出答案。

跑在立法之前，

AI巨头已与媒体供应商开始谈定价

数据版权不是个新问题。

1998年，Google搜索引擎刚诞生时，也曾遭到门户网站和博客作者们指控。后者认为Google在利用后者生产的内容获利，因而要求Google支付版权费。之后Google在2003年开发出了广告功能AdSense，通过在搜索界面放置和搜索目标相关的广告，并将广告收入和搜索目标网站分成，由此缓解了数据提供者和平台之间的矛盾。

AI巨头们也开始在训练数据领域尝试类似的解决方案。

据英国《金融时报》6月17日报道，AI巨头和大型媒体集团正在协商新闻内容付费的具体协议。OpenAI、Google、微软等都表现出积极的协商意向，美国新闻集团、《纽约时报》、英国《卫报》等都已参与谈判。具体的付费形式可能采取年费模式，媒体方讨论的价格范围或在每年支付500万至2000万美元之间。

版权问题本就是利益分配问题。版权保护的本意是通过为创作者及相关方提供合理回报，来鼓励更多、更好的创作。既然使用优秀作品训练确实会提升AI模型的表现，那AI企业就存在着确凿无疑的获得优秀版权作品的需求。一旦供给和需求确定下来，很多时候就能直接通过市场机制形成一个公允的价格，并通过需求方付费的形式来解决。

监管与活力的悖论

然而，用付费方式解决版权争议并非没有代价。如果上述报价最终成为现实，会进一步推高AI大模型行业的门槛。这种结果和严格监管一样，会把大多数中小玩家或准备进入这一领域的后来者排除在游戏外。

这大致上也是日本对AI模型训练数据的版权问题持放任态度的原因。在《人工智能战略2022》里，日本明确表示「要成为全球产业领跑者」。监管虽然有助于行业规范，但在行业发展早期过度监管可能抑制创新活力。

志在做「欧洲人工智能领头羊」的法国也有类似心态。6月中旬，法国数字转型和电信部长Jean-Noël Barrot就对欧盟的《人工智能法案》（AI Act）草案表达不满，称该法案「试图一口气解决太多问题」。法国希望推动全球统一的AI法规，避免自己束手束脚而竞争对手快速发展的场景出现。

欧洲议会通过的AI Act目前还只是个草案，最终方案预计最快要到年底才能确定生效。中国的《生成式人工智能服务管理办法》离最终定稿预计也还有几个月时间。在快速发展的生成式AI领域，这点时间已经足够产生变数。可以确定的是，没有哪个国家或公司想在这场AI竞赛中处于不利地位。

-END-

我们是一个诞生于GPT浪潮、由《第一财经》YiMagazine孵化的全新内容IP。

和每一位关心技术、关注人类命运的读者一样，我们希望在这个充满不确定性的时代，更好地理解快速变化的科技世界，也更好地理解生而为「高级智能」的我们自己。

在这个目标下，我们计划从学术、商业、伦理、监管等多个角度报道和讨论与「智能」相关的议题。请注意，我们说的是智能，不只是AI。

若想了解更多头条新闻，请点击阅读往期

战投团队接管阿里巴巴

若想了解更多当日资讯，请点击阅读往期

智能晚报｜OpenAI也要做AI助手；Google下一代大模型Gemini将与AlphaGo结合，能力超越GPT-4...

与记者交流，可添加微信（请备注公司名称和姓名）：

王杰夫微信号: wjfsty

张司钰微信号: helianthus351

吴洋洋微信号: qitianjiuye

再次，喜欢就关注我们吧，记得“设为星标”

桐城一派｜突发！湖南省财政厅厅长刘文杰坠楼身亡

因为地铁逃票，警察拔枪乱射，无辜乘客爆头

陈佩斯，这次真悬了！

不能返税、不能补贴，招商局长们怎么办？

大，无需多言，事实胜于雄辩

生成式AI的训练数据，该由谁买单？｜监管

您可能也对以下帖子感兴趣

桐城一派｜突发！湖南省财政厅厅长刘文杰坠楼身亡

因为地铁逃票，警察拔枪乱射，无辜乘客爆头

陈佩斯，这次真悬了！

不能返税、不能补贴，招商局长们怎么办？

大，无需多言，事实胜于雄辩

生成图片，分享到微信朋友圈

生成式AI的训练数据，该由谁买单？｜监管

您可能也对以下帖子感兴趣