GPT技术的著作权向思考
中国 | Publication | August 2023
自然语言训练、深度神经网络、机器学习等人工智能相关技术的持续演进催生了一批以ChatGPT为代表的新一代语言交互类人工智能辅助工具。此类工具基于GPT(Generative Pre-trained Transformer)相关技术,以大规模算力硬件为基础,神经网络为架构,经过大量语言材料(即“语料”)以特定方法和模型进行训练和学习,进而可以生成自然语言文本,以接近于人类的语言范式来执行相关的语言处理任务。此类工具拥有相当广阔的商业适用情景,例如,2023年3月15日微软发布GPT-4 Office全家桶,Word, Excel, PowerPoint等我们熟知的日常办公软件都会得到GPT-4技术的加持。在可预见的将来,以GPT为代表的大语言模型技术(为简洁起见,以下统称“GPT技术”)将深度参与人类的日常办公生活。有鉴于此,有意使用此类工具的企业就应当提前了解并关注相关的合规和风险控制。
在企业的日常经营活动中,知识产权的合规性是相当重要的一部分。不慎侵犯他人的知识产权可能会导致企业不得不向权利人支付大额赔偿金,提高企业运营成本的同时也会让企业的运营陷入被动。知识产权主要包括专利权、商标权和著作权。鉴于GPT技术包含理解与生成自然语言文本的技术特点,著作权问题无疑会贯穿该技术的整个使用周期,主要可能产生以下两大问题:
- GPT技术训练期对于语料的学习是否侵犯第三方著作权;
- GPT技术所生成的自然语言文本是否受著作权保护,如是,如何确定著作权人?
1. 语言模型训练期间的知识产权问题
GPT本质上是NLP自然语言处理领域采用Transformer的attention注意力机制解决非精确的模糊化语义问题。Transformer的attention机制的核心是通过编解码,将人类语言解析成及其可以理解的数字,模型通过注意力机制寻找向量之间的关系并生成模型参数,再根据参数,通过编码器生成我们符合预期的结果,参数量越大,结果越准确[1]。因此,任何GPT模型的训练都不是“自主”的,其最初都需要人为标注相关语料数据来给予一个“初始动力”,随后GPT模型才能通过深度学习来进行训练和生成自然语言文本。由于GPT的训练需要将大量语料,这其中就涉及到使用相关语料进行GPT模型的训练是否侵犯该语料本身著作权人的权利的问题。
互联网上已经出现了用于训练GPT的多种语料包。这些语料包多为大量现有作品的集合。例如,jsonban news2016zh 新闻语料包[2],其新闻来源涵盖了2014-2016年的6.3万个媒体新闻。将如此大量的作品集中于一处用于GPT的训练无疑可能触发著作权侵权问题。
《中华人民共和国著作权法》(以下简称《著作权法》)第四十九条规定未经权利人许可,任何组织或者个人不得故意避开或者破坏技术措施;本法所称的技术措施,是指用于防止、限制未经权利人许可浏览、欣赏作品、表演、录音录像制品或者通过信息网络向公众提供作品、表演、录音录像制品的有效技术、装置或者部件。《著作权法》第五十三条同样也将未经著作权人或者与著作权有关的权利人许可,故意避开或者破坏技术措施的行为列为著作权侵权行为之一。在计算机技术极为发达的今天,网络内容提供商多数为自己的内容添加技术保护措施。GPT模型训练者如果为了训练GPT模型而通过采取数据爬虫等手段或其他规避他人技术保护措施的方式获取他人的相关作品,则可能会触犯该条规定,从而导致侵权索赔。
《著作权法》第五十二条将未经著作权人许可以改编、翻译、注释等方式使用作品作为侵权行为之一。如上所述,为了适配大语言模型的训练,语料包的搜集需要将大量构成《著作权法》项下“作品”的数据进行一定的标注、编排甚至进行翻译成机器可理解的数字,集合成语料包之后再由机器通过强化学习来自动生成相关自然语言。就此而言,如果语料包的提供方在未经著作权人许可的情况下将他人的作品编排用作语料包,则可能在《著作权法》第五十二条项下侵犯他人的著作权,从而导致相关的侵权索赔。
2. GPT技术所生成的自然语言文本是否受到著作权保护
人工AI所创作的文本是否能够受到著作权的保护一直是相关领域所热烈讨论的问题。我们认为,当前技术水平下的GPT模型所生成的自然语言文本在一定程度上已经具有《著作权法》所规定的独创性的能力,但创作主体是否能够具有《著作权法》中的作者身份,是值得商榷的。
《著作权法》第三条规定,本法所称的作品实质文学、艺术和科学领域内具有独创性并能以一定形式表现得智力成果。由此可见,要构成受《著作权法》保护的作品,至少需要两个方面的因素,即具有独创性,以及能以一定形式表现。前者可以说是对于相关作品的实质性要求,后者是对于相关作品的形式要求。对于大部分作品而言,其满足形式性要求,即能以一定形式表现,并不难。因此,对于一件作品是否能够得到著作权法的保护主要集中于其是否具有独创性的分析。我国《著作权法》和相关实施条例对于独创性都没有具体的规定。从相关司法裁判而言,独创性应当包含“独”和“创”两个方面。“独”是指相关作品应当是作者独立创作;“创”是指相关作品应当包含作者的智力劳动,体现创作者的个性而区分于公共领域的表达[3]。在相关技术未得到充分发展之前,AI工具仅能够进行模板化的文本生成。在彼时,AI工具所生成的文本是否能够体现个性而区分于公共领域的表达尚有争议。但是,随着GPT技术的兴起,在后台用户充分的指引下,GPT所生成的自然语言文本已然能够脱胎于训练用语料而具有一定的创造性的表达,在一定程度上区分于公共领域的通用表述,即所谓的“模板”。因此,仅从现行法律规定的作品创造性角度而言,当前GPT模型具有生成一定独创性自然语言文本的能力。
3. 相关作品的著作权人可能为模型使用者而非GPT模型本身
有激进观点认为,以Chat GPT为代表的GPT模型可以作为其生成的文本的著作权人。甚至有部分机构将Chat GPT作为有关论文的合著者之一。但从当前的法律规定和GPT模型的属性看,即便在能够认定其作品具有著作权的前提下,相关作品著作权人的认定还是应当穿透GPT工具本身而定位到背后的使用者;即使用GPT创作相关文本的个人或组织可能作为相关文本的著作权人[4]。
首先,GPT尚未具备《著作权法》所规定的著作权人的条件。从法理来看,根据《著作权法》第二条[5]的规定,著作权人包括中国公民、法人或者非法人组织、外国人、无国籍人。根据我国《宪法》第三十二条,凡具有中华人民共和国国籍的人都是中华人民共和国公民。由此可见,在我国著作权的权利主体只能是“人”、“法人”或“非法人组织”。就GPT模型而言,其并非“法人”或“非法人组织”,也并非自然意义上的“人”。因此,GPT模型能够作为著作权主体的情况仅能局限于某外国授予其人格,而其作为“外国人”根据该国与中国签订的协议或共同参加的国际条约享有著作权。在实践中,尚未有国家赋予类似GPT模型的人工智能以人格。因此,从法律意义上来说,GPT模型尚不能成为著作权人。
其次,GPT尚未摆脱其工具属性。从现实来看,GPT尚不能摆脱使用者的深度干预而自主生成具有独创性的文本。在简单指示下,GPT所生成的相关文本无论从独立性还是创造性而言在大概率上都尚未达到著作权法规定的标准,更像是一种对现有语料的分析和组合,没有体现相关的智力劳动成果。因此,从某种意义上而言,GPT所生成的具有独创性的文件可以认为是使用者的相关智力成果,GPT仅在其中扮演一个写作辅助工具的角色。
最后,若GPT生成的文本最终在司法实践中能够被认定为《著作权法》意义上的作品,从《著作权法》的立法目的而言,将GPT的用户作为相关著作权人更符合我国《著作权法》的立法目的。《著作权法》第一条记载为保护文学、艺术和科学作品作者的著作权,以及与著作权有关的权益,鼓励有益于社会主义精神文明、物质文明建设的作品的创作和传播,促进社会主义文化和科学事业的发展与繁荣,根据宪法制定本法。显然,就目前而言,经人工训练的GPT无法由于著作权保护而受到鼓励来自主创作更多的作品。因此,若将GPT技术的用户作为相关作品的著作权人能够鼓励相关用户在GPT技术的帮助下构思并创作更多作品,更符合《著作权法》的立法初衷。
总结
虽然业界对于GPT技术产出作品的著作权问题讨论甚为激烈,但是我们认为在GPT技术没有得到法律上人格的今天,GPT仍然具有工具属性,相关作品的著作权问题仍然没有超脱现有的著作权法律框架。用户使用GPT技术按照自身构想所生成的相关文本在能够被认定为作品的情况下更具有受《著作权法》保护的现实意义,但是相关著作权人应当为使用GPT技术的相关用户而并非GPT本身。在未来,当深度神经网络演进到一定程度,若人工训练AI被赋予相关人格,彼时我们或许可以跃出现有框架来进一步讨论相关产品的著作权归属问题。
Footnotes
著作权法第二条:中国公民、法人或者非法人组织的作品,不论是否发表,依照本法享有著作权。
外国人、无国籍人的作品根据其作者所属国或者经常居住地国同中国签订的协议或者共同参加的国际条约享有的著作权,受本法保护。
外国人、无国籍人的作品首先在中国境内出版的,依照本法享有著作权。
未与中国签订协议或者共同参加国际条约的国家的作者以及无国籍人的作品首次在中国参加的国际条约的成员国出版的,或者在成员国和非成员国同时出版的,受本法保护。