查看原文
其他

生成式AI的训练数据,该由谁买单?|监管

江睿杰 新皮层NewNewThing 2023-08-02


记者:江睿杰

编辑:吴洋洋

制图:程   星

Key Points


中国要求训练数据「不含有侵犯知识产权的内容」;


欧盟仅要求AI公司标明使用了哪些有版权的数据;


日本认为训练过程中使用的数据根本不拥有版权。


6月14日,欧洲议会投票通过了起草并修改了两年的《人工智能法案》(AI Act)草案,其最引人注意的规定有两项:禁止实时人脸识别,以及强制要求生成式AI公司披露其训练数据的版权细节。

生成式AI模型的性能表现,很大程度上取决于「投喂」的训练数据,对于训练数据的监管因而成为过去6个月里AI监管领域最受关注的新议题。

和去年12月颁布的《互联网信息服务深度合成管理规定》相比,中国今年4月推出的《生成式人工智能服务管理办法(征求意见稿)》最主要的新增内容,也是关于训练数据的。

全球关于训练数据的监管主要涉及两方面的问题,即安全性和版权。安全性问题各国相对比较有共识,比如欧盟和中国的立法都要求训练数据可追溯,要求训练过程不得侵犯个人隐私、不得带有歧视性,以免伤害到特定个人或群体的安全和利益。

但在数据版权领域,各国的政策则完全不同,甚至相反。




AI监管:中国严,欧盟次之,日本免费

中国的生成式AI监管草案最为严格,它要求训练数据不含有侵犯知识产权的内容」,意思是人工智能机构使用有知识版权的内容训练AI,必须先征得版权方同意,而这种同意往往伴随着授权费。

欧洲议会最新通过的《人工智能法案》(AI Act)草案,则仅要求AI公司必须标明到底使用了哪些有版权的数据

而日本的管理者认为,训练过程中使用的数据根本不拥有版权,无需特别监管——使用者也不需要为此付费。

6月,日本文化厅发布了一份名为《AI与著作权》的文档,详细陈述了他们认为训练AI使用的数据不涉及版权问题的原因。其核心逻辑是:拥有版权的作品能直接引发欣赏者的特殊感受,但AI在使用版权作品训练时并不以此为目的,而且训练过程中也没有一个真正的人在以欣赏的态度对待这些作品,所以不涉及到版权保护的问题。

除了中、欧、日,还有一些国家目前尚未表态。比如新加坡的态度是“暂不监管”,先让产业跑起来再说。美国暂时也没有成文的立法或草案,所以正在起诉OpenAI等人工智能公司在训练中大规模侵犯其版权的美国新闻集团,能使用的法律武器仅限于1998年出台的《数字千年版权法案》(Digital Millennium Copyright Act,DMCA)。该法案允许「为了学术研究等目的而合理使用有版权作品」,而AI大模型训练是否属于「合理使用」仍有争议,毕竟它不是「为了学术研究」。




谁来标注数据来源?

在生成式AI面世之前,关于AI版权的讨论主要集中于「由AI协助生成的作品是否拥有版权」。各国在这个问题上的原则大体类似,都强调「人类+独创」,即创作主体必须是人,创作过程必须能够体现人类创造力,且与现有其他作品相比独一无二。

相较于已完成的作品,针对训练数据的版权监管要困难得多。

首先,训练数据的规模极其庞大。以ChatGPT为例,其训练数据量达到45TB。如果我们把一本电子书的数据量计作1MB,45TB就大略相当于4700万本书。要审核这么多书中哪些符合版权规定、哪些没有授权,本身就是一个极其耗时、耗力的工作。若要让这件事自动化,则需要建立一个极其完备的数字化版权库,目前没有哪个国家具备这样的条件。

简单说,就是如果按照「涉及知识产权就付费」的方法监管——比如中国目前对于训练数据的监管要求,就会在执行层面面临巨大挑战。根据中国《著作权法》第五十二条的规定,在使用版权作品时需要主动获取版权所有者的许可,否则就属于侵权。如果训练ChatGPT用到的「4700万本书」都需要执行「主动告知」,OpenAI的运营成本会翻上好多倍。

6月14日举行的欧洲议会全体会议上,议员参加关于《人工智能法案》的投票)


为解决这个问题,欧盟给出了一个「权宜之计」——把标注版权的责任交给企业,让企业自己标注,监管者只需抽样检查即可。假设这条路走得通,接下来就碰到一个新问题:当我知道自己的作品被用于AI训练,而且AI公司最后用训练出来的模型在大笔赚钱的时候,我是不是应该也能从中分享自己作品版权带来的收益?欧盟尚未对这一问题给出答案。



跑在立法之前,

AI巨头已与媒体供应商开始谈定价

数据版权不是个新问题。

1998年,Google搜索引擎刚诞生时,也曾遭到门户网站和博客作者们指控。后者认为Google在利用后者生产的内容获利,因而要求Google支付版权费。之后Google在2003年开发出了广告功能AdSense,通过在搜索界面放置和搜索目标相关的广告,并将广告收入和搜索目标网站分成,由此缓解了数据提供者和平台之间的矛盾。

AI巨头们也开始在训练数据领域尝试类似的解决方案。

据英国《金融时报》6月17日报道,AI巨头和大型媒体集团正在协商新闻内容付费的具体协议。OpenAI、Google、微软等都表现出积极的协商意向,美国新闻集团、《纽约时报》、英国《卫报》等都已参与谈判。具体的付费形式可能采取年费模式,媒体方讨论的价格范围或在每年支付500万至2000万美元之间。

版权问题本就是利益分配问题。版权保护的本意是通过为创作者及相关方提供合理回报,来鼓励更多、更好的创作。既然使用优秀作品训练确实会提升AI模型的表现,那AI企业就存在着确凿无疑的获得优秀版权作品的需求。一旦供给和需求确定下来,很多时候就能直接通过市场机制形成一个公允的价格,并通过需求方付费的形式来解决。



监管与活力的悖论

然而,用付费方式解决版权争议并非没有代价。如果上述报价最终成为现实,会进一步推高AI大模型行业的门槛。这种结果和严格监管一样,会把大多数中小玩家或准备进入这一领域的后来者排除在游戏外。

这大致上也是日本对AI模型训练数据的版权问题持放任态度的原因。在《人工智能战略2022》里,日本明确表示「要成为全球产业领跑者」。监管虽然有助于行业规范,但在行业发展早期过度监管可能抑制创新活力。

志在做「欧洲人工智能领头羊」的法国也有类似心态。6月中旬,法国数字转型和电信部长Jean-Noël Barrot就对欧盟的《人工智能法案》(AI Act)草案表达不满,称该法案「试图一口气解决太多问题」。法国希望推动全球统一的AI法规,避免自己束手束脚而竞争对手快速发展的场景出现。

欧洲议会通过的AI Act目前还只是个草案,最终方案预计最快要到年底才能确定生效。中国的《生成式人工智能服务管理办法》离最终定稿预计也还有几个月时间。在快速发展的生成式AI领域,这点时间已经足够产生变数。可以确定的是,没有哪个国家或公司想在这场AI竞赛中处于不利地位。

-END-


我们是一个诞生于GPT浪潮、由《第一财经》YiMagazine孵化的全新内容IP。

和每一位关心技术、关注人类命运的读者一样,我们希望在这个充满不确定性的时代,更好地理解快速变化的科技世界,也更好地理解生而为「高级智能」的我们自己。

在这个目标下,我们计划从学术、商业、伦理、监管等多个角度报道和讨论与「智能」相关的议题。请注意,我们说的是智能,不只是AI。


若想了解更多头条新闻,请点击阅读往期

战投团队接管阿里巴巴

若想了解更多当日资讯,请点击阅读往期

智能晚报|OpenAI也要做AI助手;Google下一代大模型Gemini将与AlphaGo结合,能力超越GPT-4...




与记者交流,可添加微信(请备注公司名称和姓名):

王杰夫 微信号: wjfsty

张司钰 微信号: helianthus351

吴洋洋 微信号: qitianjiuye

 


再次,喜欢就关注我们吧,记得“设为星标

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存