OpenAI正与数十家出版商洽谈内容许可
·OpenAI表示,正在与数十家出版商洽谈达成文章授权协议。消息人士称,OpenAI每年向一些媒体公司提供100万至500万美元的费用以获得受版权保护的新闻文章,训练其大语言模型。
1月5日,美国人工智能公司OpenAI表示,正在与数十家出版商洽谈达成文章授权协议,以获取内容来训练其人工智能模型。
“我们正在与许多出版商进行多次谈判和讨论。他们很活跃,非常积极,目前进展顺利。”OpenAI知识产权和内容主管汤姆·罗宾(Tom Rubin)在接受彭博社采访时表示,“你看到了已经宣布的交易,未来还会有更多。”
OpenAI最近与新闻出版巨头施普林格出版集团 (Axel Springer) 签署了一项多年期许可协议,这是该公司与此类出版商的首次合作。施普林格是一家总部位于德国的跨国大众媒体公司,旗下拥有Business Insider和Politico等品牌。该交易的财务条款从未公开,但据The Information援引OpenAI两位高管的消息称,交易金额在数千万美元左右。
7月,OpenAI宣布与美联社达成一项类似协议,金额未公开。这些交易对于OpenAI的未来至关重要,因为它正在平衡构建模型所需数据的需求与对数据来源日益严格的审查。
实际上,这些交易似乎与前几年类似。谷歌在2020年宣布将总共投资10亿美元与新闻机构合作。在新法律的压力下,谷歌最近还同意每年向加拿大出版商支付总计1亿美元,以换取其文章链接。
随着新闻出版商与人工智能公司签订协议,用新闻文章训练其模型,OpenAI等企业愿意为受版权保护信息支付的价格逐渐浮出水面。The Information援引匿名消息人士称,OpenAI每年向一些媒体公司提供100万至500万美元的费用,以使用其新闻文章用于训练大型语言模型。即使对于小型出版商来说,这个数额也很小,这可能会让OpenAI难以达成交易。
与此同时,苹果公司也正在参与开发生成式人工智能的竞赛,并与拥有《Vogue》和《纽约客》的康迪纳仕(Condnast)、拥有Daily Beast的NBC新闻和IAC等出版商签订了价值约5000万美元的协议。
这些行动背后的逻辑都在于,当今大型语言模型训练的大量数据资源来自于互联网。然而就训练生成式人工智能而言,似乎已经难有更多的免费午餐。
一方面,《纽约时报》、CNN、路透社和The Verge的母公司Vox Media最近阻止了OpenAI的GPT爬虫访问数据。另一方面,一些组织认为基于其数据进行训练构成版权侵权。
最近,《纽约时报》在美国联邦法院起诉OpenAI和微软,指控这两家科技公司非法使用“数百万篇”受《纽约时报》版权保护的文章,帮助开发ChatGPT和必应等工具背后的人工智能模型。这是一系列诉讼中最新的一起,也是关注度最高的一起,这些诉讼指控各种科技和人工智能公司侵犯了媒体公司、摄影网站、图书作者和艺术家的知识产权。
一些法律专家表示,这些案件加在一起,有可能动摇蓬勃发展的生成式人工智能行业的基础,但它们也可能落空。这是因为科技公司可能会严重依赖一个过去对它们很有帮助的法律概念:“合理使用”原则。
从广义上讲,版权法区分了逐字抄袭别人的作品和“重新混合”或将其用于新的、创造性的用途,前者通常属于非法。康奈尔大学数字和信息法教授詹姆斯·格里梅尔曼(James Grimmelmann)在接受《华盛顿邮报》采访时表示,人工智能系统令人困惑的是,在这种情况下,它们似乎两者都在做。
OpenAI和微软已经在进行类似的辩护。去年11月,OpenAI在提交给美国版权局的一份文件中写道:“我们认为,人工智能模型的训练符合合理使用的条件,完全符合现有的先例,即技术创新者以变革性方式使用受版权保护的材料,这完全符合版权法。”
格里梅尔曼则表示,生成式人工智能代表了“这一重大的技术变革,它可以制作任何东西的混合版本”。“挑战在于,这些模型还可以明目张胆地记住它们训练过的作品,并经常复制出几乎一模一样的作品。”他说,这是“传统上版权法禁止的核心内容”。
《纽约时报》表示:“在不付费的情况下使用其内容进行创造以替代《纽约时报》并抢走观众的产品,并没有什么‘变革性’。”其总法律顾问黛安·布雷顿(Diane Brayton)在一份内部备忘录中告诉员工,该报认识到生成式人工智能在新闻业的潜力,但“使用我们的工作来创建生成式人工智能工具必须获得许可和反映该工作公平价值的协议,正如法律规定的那样。”
分享1 |