网文内容
OpenAI 深陷集体诉讼 + 作家个人起诉,版权问题究竟何解?
最近,OpenAI 又摊上事了。
之前 Sam Altman 在国会山舌战参议员,帮 OpenAI 搞定了监管层。
但俗话说得好,阎王好见,小鬼难缠。
没想到 OpenAI 最近却被美国的律所和作家们给盯上了。
最近纷纷跳出来起诉 OpenAI,要求数额不菲的赔偿金。
起诉理由是,训练数据侵权。
6 月 28 号,位于北加州的 Clarkson 律所对 OpenAI 提起了集体诉讼。
指控 OpenAI 在训练大模型时从网上抓取的数据,严重侵犯了 16 名原告的著作权和隐私,要求赔偿 30 亿美金。
克拉克森诉讼的核心主张是 OpenAI 的整个商业模式都是基于盗窃。
律所合伙人克拉克森 (Ryan Clarkson) 表示:
「律所代表那些信息被窃取,用来创造了这项强大技术的真实存在的普通人主张自己的合法权利。」
该诉讼特别指控该 OpenAI:
「在未经知情同意或不知情的情况下,使用从数亿互联网用户(包括各个年龄段的儿童)窃取的私人信息(包括个人身份信息)来创建其产品。」
要看懂这个事情的来龙去脉,必须稍微了解一下美国的集体诉讼制度。
简单来说,大部分的诉讼,原告的个数是有限而且明确的,而集体诉讼,是一大群人提起的诉讼。
集体诉讼制度是因为某个事件的受害人太多,而且往往单个受害人的受到的损害太小,不适合单独起诉,所以就可以由原告组成集体,集体起诉被告。
比较典型的是环保类的案件,比如某个公司排污影响了周围的居民,居民集体起诉公司。
或者是某个大公司的制度侵犯了很多员工的权益。
但是集体诉讼和普通诉讼有一个很大的不同之处在于,发起者往往不是原告人,而是代理律师。
因为在集体诉讼中,代理律师会要求很高的代理费,可能会超过赔偿额的 50%,有个别夸张的案件甚至会达到 80%。
而原告方,很多时候是被发起诉讼的律师主动找上家门,签个字同意律师代理,如果打赢了,能拿到一些赔偿金。
如果官司打输了,大部分情况下就不需要出律师费。
律师在获得了一大批原告的授权之后,就以「原告集体」的名义向法院提起诉讼,要求被告赔偿。
因为原告数量比较多,如果官司打赢了,获得的总体赔偿额往往会比较多。
而律师因为在这类案件中占有主导地位,会有很高的律师费抽成比例,往往会比受害者获得更多的经济利益。
比如苹果公司前不久,就因为下班对员工搜宝检查的制度,最后在集体诉讼中和员工达成和解,向员工支付了 3050 万美元,平均每个员工能获得 1328 美元的赔偿。
但是却要向律师支付 900 万美元左右的律师费。
而律师或者律所本身,也会因为集体诉讼案件广泛的影响力,在业界获得更高的名声。
某种程度上,很多美国集体诉讼案件真正的「原告」,往往是能获得更多经济收入的律师,而非真实的受害「原告」。
而这起针对 OpenAI 的集体诉讼,代理律所 Clarkson LLP,就是一家成立于 2014 年,几乎只从事集体诉讼业务的律所。
相较美国很多有几十上百年历史的律所,克拉克森可谓是一家婴儿律所。
但是最近几年却打赢了不少针对食品,药品制造商的集体诉讼案件。
这次对于 OpenAI 的起诉也是由律所的冠名合伙人 Ryan Clarkson 本人亲自办理。
现在他们律所网站,已经把自己起诉 OpenAI 的信息置顶了。
网站浏览者随时随地都可以看到这条信息。
看得出来,这次他们是要「All in OpenAI」,打响「大模型侵权案件的第一枪」。
美国对于大模型训练数据的立法还没有通过。
而在国会立法程序给出明确规定之前,法官很有可能会参考已经有的隐私权和著作权的案例,在这个案件中做出对原告有利的认定。
在没有明确法律规则的背景之下,案件很有可能会朝着不利于 OpenAI 的方向发展。
只要这家律所不是无理取闹,而 OpenAI 又急于摆脱类似的诉讼麻烦。
这个案子很有可能会像大多数的集体诉讼案件一样,以和解结束。
原告和律师很有可能获得一笔数额不菲的和解金。
原告律所也会因为代理这个可能具有划时代意义的案件而继续巩固自己在业界的地位。
而后续,OpenAI 和其他大模型提供商可能都会面对更多类似的法律诉讼。
直到有相关的法律出台,明确训练数据方面的具体规则。
而除了上面提到的律所集体诉讼,个人因为被侵权而直接起诉 OpenAI 的例子也不少。
而这样的案件,主要是由对书籍享有著作权的作家提起的。
最近,两位曾获过奖的作者就起诉了 OpenAI,指控他们在未经同意的情况下使用他们出版的书籍来训练 ChatGPT,违反了版权法。
该诉讼于 6 月底提起,两位作家表示,ChatGPT 的底层 LLM 直接拿来就用了原告作者 Mona Awad 和 Paul Tremblay 的受版权保护的作品。
他们认为,ChatGPT 能够生成其作品的详细摘要,这就表明他们的书籍肯定已经包含在了用于训练的数据集中。
美国一所大学的法学教授 Daniel Gervais 在接受 Insider 采访时表示,作家的诉讼是全国范围内针对生成式 AI 的少数版权案件之一。
「这绝对不会是最后一次。」
Gervais 预计,随着这些 AI 在复制作家和艺术家风格方面的能力不断得到发展和改进,更多的作者将加入起诉开发 LLM 和 AI 公司的行列。
他认为,全国范围内,针对 ChatGPT 等生成式 AI 工具的一大波法律挑战即将到来。
投诉中写道,想要证明该案的作者因 OpenAI 的数据收集行为而遭受了金钱损失这一点,可能具有一定的挑战性。
Gervais 告诉 Insider,ChatGPT 也可能从作者以外的其他来源收集了 Awad 和 Tremblay 的作品。
Sussex 大学 AI 和版权专家 Andres Guadamuz 也表达了这种担忧。
他告诉 Insider,即使这些书籍在 OpenAI 的训练数据集里,OpenAI 其实也可以是通过合法途径来得到这些作品的。
美国作家协会是一个支持作家工作权利的倡导组织,上周他们发表了一封公开信,呼吁大型科技和 AI 公司的 CEO 能去获得「作家的许可」,再使用他们的受版权保护的作品来训练 LLM。
同时,应该「公平地补偿作家」。
截止目前,这封公开信已经获得了超过 2000 个签名。
目前,Awad 和 Tremblay 正在寻求损失赔偿。
在诉讼中还包含了 ChatGPT 创作的 Awad 的小说:「看待胖女孩的 13 种方式」(13 Ways of Looking at a Fat Girl) 和「兔子」(Bunny) 的摘要,以及 Tremblay 的「世界尽头的小屋」(The Cabin at the End of the World).
OpenAI 和 Awad、Tremblay 都没有回应 Insider 的置评请求。
无独有偶,喜剧演员兼作家 Sarah Silverman,以及作家 Christopher Golden、Richard Kadrey 也在美国地方法院上诉了,他们分别起诉的是 OpenAI 和 Meta ,同样指控其侵犯版权。
这些诉讼称,OpenAI 的 ChatGPT 和 Meta 的 LLaMA 都有用非法获取的数据集进行训练的行为,而这些数据集中就包含他们的作品。
他们表示,这些数据集是从 Bibliotik、Library Genesis、Z-Library 等网站获取的,并指出这些书可以批量获取。
在针对 OpenAI 的诉讼中,三人提供的证据表明,当出现相关的 prompt 时,ChatGPT 会总结他们的书籍,他们认为,这是对他们作品版权的侵犯。
Silverman 的「Bedwetter」是 ChatGPT 在展品中展示的第一本书,而 Golden 的书「Ararat」和 Kadrey 的「Sandman Slim」也被用作了示例。
至于针对 Meta 的单独诉讼,情况也差不多。Meta 用于训练 LLaMA 模型的数据集中也能访问该作者的书籍。
而在该投诉,详细的分步阐述了原告为何认为这些数据集的来源是非法的 —— 在一篇有关 LLaMA 的论文中,Meta 指出了其训练数据集的来源,其中一个名为「ThePile」。
诉状指出,EleutherAI 的一篇论文将「ThePile」描述为由 Bibliotik 内容的副本拼凑而成的,而 Bibliotik 本身就不合法。
在这两项声明中,参与的作者均表示,他们不同意 AI 公司使用其受版权保护的书籍作为 LLM 的训练内容。
他们的诉讼均包含六项不同类型的侵犯版权、疏忽、不当得利和不正当竞争罪名。
目前,这些作者也正在寻求法定损失赔偿、利润归还等。
除了书圈,Getty Images 还提起了一项诉讼,指控创建 Stable Diffusion 的 Stability AI 在「数百万张受版权保护的图像」上训练其模型。
相关各方均未作出回应。
参考资料:
https://www.washingtonpost.com/technology/2023/06/28/openai-chatgpt-lawsuit-class-action/
https://www.businessinsider.com/openai-copyright-lawsuit-authors-chatgpt-trained-on-books-2023-7
https://www.theverge.com/2023/7/9/23788741/sarah-silverman-openai-meta-chatgpt-llama-copyright-infringement-chatbots-artificial-intelligence-a
本文来自微信公众号:新智元 (ID:AI_era)
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,所有文章均包含本声明。