人工智能创作中数据获取与利用的著作权风险及化解路径_第1页
人工智能创作中数据获取与利用的著作权风险及化解路径_第2页
人工智能创作中数据获取与利用的著作权风险及化解路径_第3页
人工智能创作中数据获取与利用的著作权风险及化解路径_第4页
人工智能创作中数据获取与利用的著作权风险及化解路径_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

人工智能创作中数据获取与利用的著作权风险及化

解路径

一、问题的提出

随着人工智能技术的快速发展和广泛应

用,近年来,由人工智能自主创作诗歌、小

说、美术、音乐等已不再是新鲜事情。如同

人类作者创作需要已有文献资料作为创作素

材一样,人工智能创作也需要创作素材来“喂

养”,这些创作素材是以数据形式表现的各

种数字化作品。作为智能化的信息处理技术,

人工智能创作需要将作为创作素材的海量作

品转化为机器可识别的数据导入人工智能系

统中,形成庞大的内容库供机器学习使用,

并在此基础上经过对算法的设计、验证和测

试,使计算机自主生成在外观上与人类创作

具有同样独创性的作品。可见,人工智能创

作高度依赖于对已有数据作品的大规模利用。

根据著作权法的一般原理,任何人使用他人

处于权利保护期内的作品,都应当通过订立

合同取得授权并支付费用(除非属于著作权

的限制与例外情形,例如合理使用或者法定

许可),否则属于侵害著作权的行为。由此便

提出人工智能在创作过程中获取和利用数据

时所面临的著作权侵权风险问题,这一问题

如果不能妥当地予以解决,将不可避免地使

人工智能创作的作品一经生成便背负上侵权

“原罪”,从而影响该作品的后续传播与使

用,最终阻碍人工智能技术的广泛应用和社

会文化艺术的繁荣发展。

与人工智能创作不断繁荣的图景相比,

当前在解决人工智能创作中获取与使用数据

的合法性问题上面临诸多困境:立法上,2021

年6月1日实施的新修订的《著作权法》(以

下称现行《著作权法》)关于著作权限制与例

外的条款并未就此问题作出明确回应,使得

这一问题在现行立法框架下如何解决仍缺乏

规范依据;司法上,在我国已经发生的两起

因人工智能创作引发的著作权侵权纠纷中,

当事人及审理法院仅将人工智能的创作结果

是否属于作品及其著作权归属作为争议焦点,

对于人工智能创作所使用的数据来源是否合

法则未予关注;理论上,当前关于人工智能

创作的诸多研究中,多数文献将讨论重心聚

焦于人工智能创作结果的可版权性及权利归

属上,对于人工智能创作来源的合法性问题

则关注不多。近期与此有关的研究文献中,

有的以“合理使用制度的整体重塑”为关注

对象,有的则以“文本与数据挖掘”为讨论

视角,直接从人工智能创作视角关注数据作

品获取与使用的著作权风险的研究仍为数不

多。立足于此,本文将深入分析人工智能创

作中数据获取与使用的著作权风险缘起,充

分评估人工智能创作中获取与使用数据的风

险类型,在此基础上借鉴国际立法并结合中

国实际探寻科学、合理、务实的化解之道,

希冀有助于深化人工智能创作的知识产权问

题研究,并借此推动人工智能技术应用和文

化产业发展。

二、风险缘起:人工智能创作中的数据获取与利用

(一)数据获取与利用贯穿人工智能创

作全过程

首先是数据的获取与输入,这一环节也

可称为“机器阅读”。同人类作者创作一样,

人工智能创作首先也需要获取海量的创作素

材;但同人类作者创作不同的是,人工智能

创作所需的创作素材已不再是传统形式的文

本、图像、语音、视频等,而是以数据集表

现的数字化作品。由此决定了人工智能创作

必须首先建立在数据的获取与输入基础之上,

即从外部收集和提取数据并输入人工智能系

统中形成数据副本,以此建立相应的数据内

容库供后续机器学习之用,此阶段即为人工

智能创作的“机器阅读”环节。由此可见获

取数据对于人工智能创作的重要性,正如有

学者指出的,“海量数据之于AI创作,就

如无数的语言词汇之于一部名篇巨著”。据

微软公司的人工智能研发人员介绍,世界上

第一部百分之百由人工智能作者“小冰”于

2017年创作的诗集《阳光失了玻璃窗》,就

是人工智能在学习了500多位诗人的现代诗

后,经过上万次训练最终创作而成。从这一

意义上讲,数据作品的获取与输入是人工智

能创作的基础和前提。

其次是数据的处理与分析,这一环节也

可称为“机器学习”。人工智能的核心竞争

力就在于其具有强大的自主学习能力,这种

自主学习能力主要体现在机器的深度学习上。

深度学习可以通过算法从原始数据中提取模

式并自动构建特征,使机器可以在无人类干

预的情形下从数据中发掘出有价值的内容。

具体表现为,人工智能系统通过对大量已有

数据作品进行分类和整理,分析这些作品所

表达的思想感情、所采用的语言特征、所特

有的表达风格等,从中抽取和提炼出这些作

品的规则、模式、结构、趋势,再将这些规

则和模式应用到具体创作场景之中,其后通

过自我观察,独立地、持续地改进和优化其

分析和处理过程。机器学习几乎垄断了人工

智能领域里所有流行的技术方向,也是人工

智能创作得以完成的核心,甚至可以说“无

学习,不AI”。美国微软公司与荷兰国际银

行合作开发的“下一个伦勃朗”人工智能创

作项目,就是通过收集荷兰画家伦勃朗的大

量作品,通过深度学习伦勃朗绘画的风格从

而“发现”了伦勃朗作品的典型特征和创作

规则,最终利用这些特征和规则创作出模仿

伦勃朗独特风格的原创绘画。从这一意义上

讲,机器学习过程就是数据作品的处理与分

析过程。

最后是数据的生成与传播,这一环节也

可称为“机器输出”。经过上述数据输入和

自主学习两个环节后,人工智能已经能够构

建出解决不同目标任务所需要的函数模型算

法,此时只要人工智能使用者向人工智能系

统发出创作的要求和指令,人工智能系统就

会通过算法对任务进行处理,最终生成相应

的学习结果并予以输出。由此生成的结果可

以达到人类作品的独创性,有些甚至比人类

作者创作的作品更具有艺术价值。例如继

2017年自主创作出诗集《阳光失了玻璃窗》

后,微软“小冰”2019年7月又在中央美术

学院美术馆举办了全球首个人工智能个人画

展“或然世界”,展出的画作都是“小冰”

历经22个月对过往400年艺术史上236位著

名画家绘画作品学习后,独立完成的100%原

创绘画作品。美国罗格斯大学(Rutgers

University)的一项研究表明,在未披露真

实信息的情形下,一些受访者不仅无法区分

人工智能创作的作品和人类作者创作的作品,

甚至认为人工智能创作的绘画在视觉结构和

灵感方面更具有艺术性。

(二)对数据的“表达性使用”使人工

智能创作面临著作权侵权风险

在商标法的理论与立法中,对商标符号

的使用可以分为“商标性使用”与“非商标

性使用”,并由此产生不同的法律后果:前

者是认定商标侵权成立的前提,后者则是商

标不侵权抗辩的依据。在著作权立法中虽未

有类似的直接规定,但理论上亦有如此的分

类方法。有学者提出了“非展示性使用”与

“展示性使用”的概念,另有学者提出了“非

表达性使用”与“表达性使用”的概念,还

有学者提出了“作品性使用”与“非作品性

使用”的概念。本文采用“非表达性使用”

和“表达性使用”这一对表述。所谓“非表

达性使用“,是指使用原作品的目的并非为

了利用其具有独创性的表达,而是将其作为

一种事实性信息进行功能性利用,在使用结

果上也未再现原作品的艺术价值;“表达性

使用”则是指使用原作品的目的在于利用其

独创性表达,从而在使用结果上也再现了其

艺术价值(无论是“原样再现”抑或“改编

再现”)。将对作品的使用作如此区分的意

义在于,“非表达性使用”与“表达性使用”

基于行为性质的不同会产生迥异的法律后果:

在“非表达性使用”情形下,因使用行为并

非以再现作品的独创性表达为目的,亦未产

生可能与原作品具有竞争性的替代作品,故

“不会影响原作品的正常使用,也不会不合

理损害权利人的合法权益”,从而可能成为

不侵害著作权的抗辩理由;而在“表达性使

用”情形下,由于后续行为使用的是原作品

中的独创性表达,并在此基础上形成了与原

作品相关联、甚至可能替代原作品的新作品,

从而可能“影响原作品的正常使用”或者会

“不合理地损害原作品权利人的合法权益”,

使其面临著作权侵权风险。

国内外均有将“表达性使用”与“非表

达性使用”理论适用于司法实践的案例。在

“美国作家协会诉谷歌公司著作权侵权纠纷”

一案中,被告谷歌公司将原告享有著作权的

大量图书进行全文扫描用于建立“谷歌数字

图书馆”,同时向社会公众提供这些数字化

作品的关键词搜索及片段性内容。美国联邦

第二巡回上诉法院认为,被告实质上是将原

告的作品作为一种数据统计工具进行使用,

在使用目的上具有转换性,构成合理使用。

该案中,被告谷歌公司的行为之所以被认定

为合理使用,是因为其复制图书的目的不是

为了向公众提供图书的全文内容,而是通过

提供关键词搜索和展示小片段内容给公众提

供一种事实性信息,便于公众进一步查寻图

书相关信息,发挥其信息检索功能,该种使

用即为“非表达性使用“,不会对原作品产

生实质替代。在我国上海知识产权法院审理

的“上海美术电影制片厂诉浙江新影年代文

化传播有限公司著作权侵权纠纷”一案中,

被告在其拍摄的电影《80后的独立宣言》的

宣传海报中使用了原告享有著作权的“葫芦

娃”“黑猫警长”美术形象。针对被告此种

使用行为的定性,法院认为,被告在电影海

报中使用涉案作品不是为了单纯地再现其艺

术美感,而是为了反映“80后”一代曾经经

历过的、伴随其成长的“葫芦娃”“黑猫警

长”动画片热播的时代特征,属于转换性使

用,并不影响涉案作品的正常使用,也未不

合理地损害权利人的合法利益,构成合理使

用。该案中法院所称的“转换性使用”即是

一种“非表达性使用”,因为被告只是将“葫

芦娃”“黑猫警长”作为80年代的时代符号,

从而唤起人们对那个年代的特殊回忆,其艺

术性和审美价值到底有多高在所不问,因此

不会有人将电影海报当作“葫芦娃”“黑猫

警长”的替代品,该电影海报也就不会对“葫

芦娃”“黑猫警长”美术形象的版权市场构

成竞争。

人工智能对数据作品的使用也有“表达

性使用”和“非表达性使用”之区分。例如

为了运行人脸识别智能系统而使用人脸照片

就是一种“非表达性使用”,该智能系统使

用的是照片中人脸的生理特征元素,而并非

照片中具有独创性的元素(例如选择人物的

光线、角度、色彩等)。本文所探讨的“人

工智能创作”对于数据作品的使用显然属于

“表达性使用”,实际上“创作”一词本身

已经清晰表明,人工智能使用数据作品的目

的是为了“创作”。由此意味着人工智能对

于数据的使用并非针对原作品的事实性信息,

而是其中的独创性表达;使用的结果也并非

实现了所谓目的性或者功能性转换,而是形

成了与原作品有关联的“新作品”,正是在

这一意义上,人工智能创作对于数据作品的

使用属于“表达性使用”。实践中这样的例

子并不少见,例如由音乐制作公司

Technologie开发的人工智能系统AIVA

通过深度学习大量作曲家创作的音乐,能够

为电影、视频游戏、商业广告和任何类型的

娱乐内容创作配乐,由于其配乐效果丝毫不

亚于专业音乐作曲家,AIVA还因此得到法

国作曲家协会(SACEM)的资格认证,成为人工

智能领域首个获得国际认证的虚拟作曲家。

正是基于人工智能创作对于数据作品的“表

达性使用”,其难以适用前述“谷歌数字图

书馆案”和“《80后的独立宣言》宣传海报

案”中的“转换性使用”合理使用抗辩,从

而面临著作权侵权风险。

三、风险评估:解释论下人工智能创作利用数据之侵

权分析

(一)人工智能创作利用数据可能侵害

的权利类型

1.复制权侵权风险

首先是数据获取与输入环节的复制权侵

权风险。在人工智能进行深度自主学习之前,

需要将作为创作素材的作品进行数字化处理

并转换为适合“机器阅读”的标准数据格式。

一般而言,完成这一过程有三种路径:一是

将非数字格式的作品转化为机器可读的数字

格式。例如将图书进行扫描并数字化转化为

机器可读的数据信息。二是直接在互联网上

抓取已经数字化的数据作品。三是将已经数

字化但格式上不兼容的数据进行标准格式的

转换。上述三种方式都是对已有作品在不改

变内容情形下所进行的全文复制和原样再现,

并且存储在机器中形成永久复制件,属于著

作权法上的“复制”行为,存在侵犯复制权

的风险。如果说在2021年6月1日之前,要

将数字化复制行为纳入我国《著作权法》中

复制权的控制范围,尚需对原《著作权法》

第10条第1款第(一)项中的“等”字予以扩

大解释的话(该项列举的7种复制类型并无

“数字化”方式);那么在2021年6月1日

现行《著作权法》实施后,则无需进行扩大

解释,仅依文义即可将所有数字化复制行为

直接纳入复制权的涵盖范围,因为现行《著

作权法》在原有7种复制类型后专门增加了

“数字化”复制方式。

其次是作品输出环节的复制权侵权风险。

根据“接触+实质性相似”的著作权侵权判定

规则,如果人工智能最终输出的内容与之前

所使用的数据作品存在实质性相似,则同样

可能会侵犯复制权。与前述全文复制或原样

再现不同的是,此种“实质性相似”判断还

要受到“思想/表达二分法”原则的限制,如

果构成实质性相似的是思想而非表达,则难

以构成著作权法意义上的复制。例如,人工

智能提取某一位特定作者的所有作品,通过

数据处理掌握该作者的作品“风格”,从而

能够模仿这一“风格”进行创作,即使创作

结果与该作者的“风格”构成了实质性相似,

但并非必然构成侵犯复制权,因为风格更接

近于思想,有可能基于“思想/表达二分法”

原则而被排除出作品保护范围。索尼实验室

2016年开发的FlowMachines人工智能系

统,以披头士乐队的风格创作的《爸爸的车》

(Daddy'sCar)音乐旋律就属于思想上的实

质性相似。正是由于人工智能创作在使用数

据作品时可能会侵害复制权,欧盟立法和日

本立法都将人工智能对于数据的使用规定为

复制权的例外(具体内容后文详述)。

2.改编权侵权风险

人工智能利用数据作品进行创作的结果

中无非有三种情形:一是创作结果属于与原

作品完全不同的全新作品;二是创作结果属

于与原作品实质性相似的作品;三是创作结

果属于在保留原作品基本表达基础上形成的

具有独创性的新作品。第一种情形是著作权

法所积极鼓励的作品利用方式,不仅不侵权

而且符合著作权法”鼓励作品创作与传播”

的立法目的。在第二种情形下,如果实质性

相似的是表达,则构成侵犯复制权;如果实

质性相似的是思想,则不侵犯著作权。第三

种情形则属于改编行为,存在侵犯改编权的

风险,因为改编权控制的正是“改变作品,

创作出具有独创性的新作品”的作品利用行

为。

在人工智能创作中,如果最终输出的生

成内容虽具有一定的独创性,但仍然保留了

数据库中某一作品或者某些作品的基本表达,

应属于改编作品,此种创作行为如未经许可

并支付报酬则可能侵害改编权。有观点认为,

将此种情形下人工智能的创作结果视为演绎

作品的说法并不十分准确,理由是人工智能

创作“不是实质性地以某个作品为基础所进

行的再创作,不是对某个作品的演绎”。实

际上,从人工智能创作对已有数据的利用来

看,可以分为“利用同一人作品”进行创作

和“利用多数人作品”进行创作两种情形:

前者如微软公司开发的“下一个伦勃朗”人

工智能系统,通过深度学习伦勃朗346幅画

创作出了与伦勃朗风格相似但又具有独创性

的绘画作品;后者如微软“小冰”深度学习

1926年以来500多位诗人的现代诗创作了

《阳光失了玻璃窗》。这两种情形都是利用

已有作品创作出新作品的情形,如果被学习

的作品仍在著作权保护期限内,则都属于侵

犯改编权的行为;区别在于前者侵害了同一

作者数个作品的改编权,后者侵害了不同作

者各自作品的改编权。正是由于人工智能创

作在利用数据作品过程中可能会侵害改编权,

日本立法将人工智能对于数据的使用规定为

改编权的例外(具体内容后文详述)。

3.传播权侵权风险

传播权并非我国《著作权法》所明确规

定的财产权利,是学理上对那些不依赖于作

品有形载体的移转而以无形方式传播作品所

产生的权利的概括。在我国现行立法中,传

播权包括表演权、放映权、广播权和信息网

络传播权。人工智能创作涉及的传播权侵权

风险主要是信息网络传播权和广播权,表现

在人工智能创作的输出环节:若将机器学习

的数据分析结果通过网络即时公开发布,可

能会侵犯作品广播权;如果延时发布,则可

能侵犯信息网络传播权。已有学者注意到人

工智能创作输出环节存在的传播权侵权风险

问题,例如有观点提出,“一般来说,为了

进行数据挖掘或机器学习,或者为了实现研

究结果的可验证性,需要将数据或文本通过

互联网进行传输,可能涉及侵犯向公众传播

权”。还有观点认为,“目前多数发布途径

均包含网络发布环节,无法有效规避信息网

络传播的侵权风险”。正是由于人工智能创

作在使用数据作品中可能会侵害传播权,为

了避免此种侵权风险,《日本著作权法》于

2018年修订时专门增加了“提供新的知识和

信息”的著作权例外条款,根据该条规定,

如果是为了提供新的知识或者新的信息,通

过计算机对作品进行信息处理,可以将处理

结果向公众提供(进一步分析详见后文)。

(二)人工智能创作利用数据侵权豁免

之困境

著作权法上的侵权豁免理由一般有合理

使用、法定许可和强制许可三种类型。我国

现行立法中尚无强制许可制度,法定许可规

则所确定的四种类型也难以适用于人工智能

创作场合,以下几种合理使用情形最有可能

作为侵权抗辩依据。

1.人工智能创作与“个人学习、研究”

根据我国现行《著作权法》第24条第1

款第(一)项的规定,”为个人学习、研究或

者欣赏,使用他人已经发表的作品“可以不

经著作权人许可亦无需支付报酬,此即为我

国立法上的“个人使用”合理使用类型。人

工智能创作需要对数据作品进行学习和研究,

似乎在文义上属于“个人使用”合理使用类

型中的“学习”“研究”范畴,但仔细分析

后可发现,人工智能创作并不符合该条款的

规范意旨,从而难以适用该规定进行合理使

用抗辩。理由如下:其一,从主体要件来看,

“个人学习、研究”中的“个人”通常限于

自然人,人工智能创作中使用数据的行为主

体为人工智能系统,并非自然人,而控制人

工智能创作系统的主体也是具备一定技术条

件和物质条件的组织机构,并非单个的自然

人。虽然实践中直接操作或者使用人工智能

系统进行创作的主体可能是作为自然人的科

研人员或者公司员工,但这些科研人员或者

公司员工所从事的“学习、研究”是为履行

人工智能所有者(一般为大型科技公司)安排

的工作任务所实施的职务行为,并非为了科

研人员或者公司员工自己创作而进行“学习、

研究”,因此不符合个人使用的主体要求。

其二,从目的要件来看,个人使用必须是基

于“学习、研究”的非商业目的,当前的人

工智能创作均由大型商业互联网公司所控制

和实施,也难以符合个人使用的非商业目的

要求。

2.人工智能创作与“科学研究”

根据我国现行《著作权法》第24条第1

款第(六)项的规定,在“为科学研究,翻译、

改编、汇编、播放或者少量复制已经发表的

作品,供科研人员使用,但不得出版发行”

情形下,可以不经著作权人许可亦无需支付

报酬,此即为我国立法上的“科学研究”合

理使用类型。在人工智能创作中,对数据作

品进行分析和处理就是一种科学研究活动,

但此种情形仍难以适用“科学研究”类型的

合理使用抗辩。理由如下:首先,著作权法

规定的科学研究合理使用类型属于以公共利

益为目的对著作权进行的限制,因而该情形

下的科研机构及科研活动应“只适用于国家

设立的教育、科研公共事业单位(比如经相关

主管部门、教委批准设立的学校、全额财政

拨款的国家科研机构等)"。当前主导人工智

能创作的主体多为大型商业互联网公司,例

如在国务院2017年发布的《新一代人工智能

发展规划》中,国家所依托的四个智能开放

创新平台分别由百度、阿里云、腾讯和科大

讯飞等大型商业科技公司承担。其次,此类

合理使用对于复制作品有数量限制,即“少

量复制”。前文已述,人工智能创作中使用

数据作品往往涉及对作品的全文复制,因此

不符合“少量”的要求。最后,此类合理使

用要求对于数据作品应“仅供科研人员使用”

实践中,人工智能创作使用数据的主体要么

是作为人工智能所有人的大型互联网企业,

要么是通过购买人工智能系统成为使用人的

其他大型企业;即使人工智能创作实际由科

研人员进行操作,其也是基于履行岗位职责

要求而实施的职务行为,不符合“供科研人

员使用”这一条件,因此无法适用此种合理

使用类型进行抗辩。

3.人工智能创作与“适当引用”

根据我国现行《著作权法》第24条第1

款第(二)项的规定,”为介绍评论某一作品

或者说明某一问题,在作品中适当引用他人

已经发表的作品“,可以不经著作权人许可

亦无需支付报酬,此即为我国立法上的“适

当引用”合理使用类型。人工智能创作是在

学习已有作品基础上进行的二次创作,不可

避免地要引用已有作品,表面上看似乎属于

适当引用,但仔细分析可以发现,此种合理

使用类型也难以作为对人工智能创作使用数

据予以侵权豁免的法律依据。理由如下:其

一,人工智能创作使用数据不符合“适当引

用”条款所要求的目的要件。根据法条文义,

适当引用必须是“为介绍、评论某一作品或

者说明某一问题”,也就是说,“被引用的

内容应当是介绍评论的主要对象或者与所说

明的问题存在必然的联系,即引用须具备足

够的必要性”。人工智能创作使用数据完全

是为了生成新作品,既非“为介绍评论某一

作品”,也非“为说明某一问题”。其二,

人工智能创作使用数据不符合“适当引用”

条款所要求的“适当性”要件。“在具备必

要性的前提后,使用作品的数量、方式、范

围还必须控制在一定的限度之内,避免与原

作在市场上产生竞争,以免对著作权人利益

造成不合理的损害,即引用须符合一定的适

当性。”可见,引用的适当性要求所引用的

部分不能构成被引作品的主要部分或实质部

分,引用作品与被引作品具有主从关系和显

著的区别,如此才不会造成引用作品构成被

引作品的“替代品”。人工智能创作对于数

据作品的使用显然已经超出了适当性的要求,

因此不符合“适当性”要件。

4.司法政策“混合标准”下的人工智能

创作

我国在合理使用规则的设立上采取了封

闭式的立法技术,即认定合理使用只能在《著

作权法》列举的具体类型清单中“对号入座”,

不能在清单之外创设其他合理使用类型。但

是,最高人民法院于2011年发布的一项司法

政策在法定清单之外创设了认定合理使用的

“混合标准”。之所以将其称为“混合标准”,

是因为其把《美国版权法》的“四要素标准”

和国际条约的“三步检验法”混在一起形成

了“确有必要+特殊情形+四要素标准+三步检

测法(后两步)”的合理使用认定规则。该项

司法政策并不属于司法解释,不宜直接作为

法律适用依据,但可以在裁判说理中予以参

照。与《著作权法》明确列举的合理使用类

型相比,该“混合标准”过于原则和抽象,

使得人工智能创作能否被认定为合理使用具

有很大的不确定性。例如同样采用“四要素

标准”,有学者认为人工智能创作使用数据

可以纳入合理使用范畴,另有学者得出了截

然相反的结论。因此,即使将司法政策的“混

合标准”作为司法解释予以适用,人工智能

创作中的数据使用行为仍然存在著作权侵权

风险。

四、风险化解:将人工智能创作利用数据纳入合理使

用的价值考量

(一)传统许可模式难以满足数据规模

化利用的现实考量

人工智能创作所使用的数据在价值上具

有低密度性,即单个作品对最终形成的创作

成果贡献极小,由此意味着只有大批量、规

模化地使用数据对于人工智能创作才有意义。

这种低密度性特征给著作权的传统授权模式

带来极大挑战:一方面,要避免人工智能创

作物一经生成便背负上侵权的“原罪”风险,

唯一途径就是逐一获得数据作品著作权人的

许可并支付报酬;另一方面,要求人工智能

系统使用者为了实施创作从“海量作者”中

点对点地获得“海量作品”的“海量许可”

在现实中几乎不太可能。由此便产生美国学

者戈登(WendyJ.Gordon)所提出的著作权许

可市场失灵的问题,即当事人之间无法通过

市场交易实现对版权作品的有效利用,此时

采用合理使用规则配置数据资源可能是实现

社会福利和公共利益最大化的最佳选择。

有观点提出,可以采用法定许可制度解

决人工智能创作使用数据作品的困境。笔者

以为,采用法定许可制度仍需支付报酬,由

于人工智能创作所使用的数据具有数量大、

种类多、范围广的特点,决定了实施人工智

能创作所支付的数据许可费用是非常巨大的。

当人工智能创作使用数据作品所付出的许可

费远大于创作结果带来的收益时,作为理性

“经济人”的人工智能投资者便不太可能接

受此种作品使用方式。此时如果不给予人工

智能创作使用数据以侵权豁免,则有可能会

导致两种结果:一是人工智能投资者在面对

海量作品的巨额使用费时会减少甚至放弃人

工智能创作技术的研发与应用;二是一些人

工智能企业可能会选择铤而走险,宁愿背负

上侵权的“原罪”,也要置著作权于不顾而

任意使用他人作品,反而加剧了侵权行为的

发生,特别是在人工智能创作使用数据一般

都比较隐蔽、权利人不容易发现的情形下,

此种情形发生的概率更大。此外,法定许可

制度所面临的使用费难以落实的困境至今未

能有效解决,使得我国的法定许可制度在一

定程度上形同虚设。因此,即使是建议采用

法定许可制度解决人工智能创作使用数据问

题的学者也承认,“法定许可制度配套措施

的落实仍存在相当的难度”。

(二)促进文化艺术繁荣的公共政策考

人工智能创作以数据为“源头活水”,

数据的质量往往在一定程度上决定人工智能

创作成果的艺术价值,为了获得高质量的创

作成果,人工智能企业需要大量优质的数据

来进行人工智能系统的培训。一般情形下,

需要授权并付费的数据往往使用价值更高一

些,因此受著作权保护的数据作品对人工智

能训练更具吸引力。如果不为人工智能创作

使用数据设置合理使用规则,要想使人工智

能创作使用数据避免背负侵权“原罪”的风

险,使用者就必须获得数据作品著作权人的

许可并支付费用。但正如前文所述,人工智

能创作在使用数据上具有低密度特征,为了

降低使用成本并消除侵权风险,人工智能企

业往往倾向于将受著作权保护的作品剔除出

数据库,而更多使用那些不受著作权保护的

处于公共领域的数据来训练人工智能,如此

会造成创作结果的同质化和低劣化,不利于

著作权法”促进文化艺术繁荣”价值目标的

实现。

另一方面,如果全部都使用那些不受版

权保护的处于公共领域的数据作品,可能会

导致人工智能开发者“获取限制较低但带有

偏见的数据集“来训练算法,从而影响创作

结果的客观性和准确性,这一点对科学作品

创作的影响尤为明显。具体而言,在人工智

能创作过程中,如果机器学习所使用的数据

本身不够完整或存在一定的价值倾向,则机

器学习的结果也会存在一定的价值倾向,从

而导致人工智能创作的作品存在一定的偏见。

“出现算法偏见的主要原因除了算法设计缺

陷、算法设计者身份同质化之外,另一个重

要的原因是训练算法的数据集不充足、不完

整。”当人工智能研发者无法获得著作权人

的许可时,机器学习的资源必然会局限在已

经进入公共领域的作品中,但由于这些已处

于公共领域的作品无法全面反映人类最新的

智慧成果,势必会导致人工智能创作的作品

存在隐形偏见。当被问及人工智能系统AIVA

为何选择专注于古典音乐时,AIVA

Technologies的创始人解释道:”因为供

AIVA学习的所有编程函数的音乐版权都是

已经失效的。”因此,将人工智能创作使用

数据纳入合理使用范畴,能够扩大人工智能

创作获取学习资源的范围,在一定程度上能

够避免隐形偏见,为社会提供更加优质的作

口口O

(三)维护公平竞争的市场秩序考量

为了避免著作权侵权风险并降低使用成

本,在采用传统的谈判授权方式几乎不可能

的情形下通过格式合同免费获取数据成为一

些大型互联网公司的选择,当今“用户创造

内容”(UGC)模式的兴起则使这种选择成为现

实。随着“人人都是创作者”时代的到来,

普通的终端用户身份正在发生变化,庞大的

用户群体每时每刻以创作者身份生成大量数

据信息,这些数据信息可能包括电子邮件、

博客、论坛帖子,其中不乏一些符合独创性

要求而享有著作权的作品。一些大型互联网

企业(例如谷歌、微软、腾讯、苹果、百度等)

通过设置所谓“服务条款”或者“用户须知”

格式条款,要求用户在注册时选择允许互联

网企业免费使用用户发布的信息,这样就给

大型互联网企业采取“以服务换取数据”模

式免费使用用户的数据提供了机会,从而为

互联网企业规避著作权侵权风险提供了可能。

但是,这种“以服务换取数据”模式通

常只适用于大型互联网企业,因为只有大型

互联网企业才拥有大量的用户。“诸如

Facebook或IBM等大公司可通过取得用

户授权组建训练数据,以形成庞大的训练数

据解决使用训练数据受限的问题,而众多中

小公司只能使用不受版权保护、已过版权保

护期、处于公有领域的作品作为训练数据。”

大公司收集的数据信息越多就越能完善其人

工智能服务,从而也就能够吸引更多用户选

择其服务并进而获取更多信息。相反,中小

企业则因为用户数量少,其可以免费使用的

数据无论在数量还是质量上都无法与大公司

相比,久而久之会进一步加剧这种相差悬殊

的状况,最终形成强者更强、弱者更弱的不

公正的市场竞争环境。因此,如果不将人工

智能创作中使用数据的行为纳入合理使用,

有可能造成高科技领域的不公平竞争,使中

小型人工智能企业的生存更加艰难。

(四)促进人工智能技术发展的国家战

略考量

在当前新一轮科技革命和产业变革中,

对社会影响最为广泛的非人工智能技术莫属,

与此相适应,世界各国都在积极营造更有利

于人工智能技术应用和产业发展的政策法治

环境。我国也非常重视人工智能技术的应用

与发展,国务院早在2017年7月就发布了《关

于印发新一代人工智能发展规划的通知》,

指出“人工智能是引领未来的战略性技术,

世界主要发达国家把发展人工智能作为提升

国家竞争力、维护国家安全的重大战略”,

并明确提出要“加紧出台规划和政策,围绕

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论