曾泓竣 曾千容
1.广西大学商学院,广西 南宁 530004;2.北海市海城区人民检察院,广西 北海 536000
网络爬虫,是一种用来自动挖掘互联网信息的网络机器人,其目的一般用于编纂网络索引,也可以用于网络搜索引擎等站点通过爬虫软件更新自身的网站内容或其对其他网站的索引。网络爬虫始于一张被称作种子的统一资源地址(URL)列表。爬虫在执行的过程中复制归档和保存网站上的信息,这些文件通常储存,使他们可以较容易的被查看,阅读和浏览他们存储的网站上并即时更新的信息。
robots.txt是一种ASCII编码的文本文件,通常存放于网页服务器中,它将提示网络爬虫哪些网页不应被抓取,哪些网页可以抓取。但这只是一个约定俗成的规范,并不具有法律效力,并不能保证所有爬虫都准守这一规则。
目前,我国对爬虫技术还没有专门的法律法规加以规定。在通常意义上,爬虫技术只是更快速有效地收集互联网中的内容和信息,因此从技术中立的角度来看,爬虫技术本身并没有存在任何违反现有的法律法规之处。随着大数据产业的快速发展,数据爬取随着各网络主体对资源的争夺而越发激烈。数据爬取行为存在越来越多的问题和担忧,爬虫技术带来的各种问题和顾虑日渐增加。
由于爬虫的工作方式是通过解析代码,为了规避网站经营者设置的反爬虫措施,爬虫运营方有可能会采取伪装行为。因此通过爬虫,爬虫控制者将有可能访问和抓取到一般用户无法接触到的内容。除了使用数据爬取技术获取数据的自身风险外,爬虫控制者还可能因获取某些受法律保护的信息而面临违法、违规甚至犯罪的风险。
互联网中的很多数据都可能具备独创性,例如文章、图片、用户评论等都存在构成著作权法保护的可能性。对于网络爬虫的数据抓取行为是否涉嫌侵权,主要存在下列情况:
就网络访问行为而言,由于爬虫本身仅仅是对人类访问行为的模仿,因此访问行为不会构成对人类访问本身可以访问的信息的侵权行为。但是,如果被数据抓取到的网站本身设置有一些技术措施,以确保只有特定的用户才可以通过这些技术措施以访问这些信息,但是爬虫运营方突破了这些限制,则爬虫运营方的访问行为可能涉嫌破坏技术措施的侵权或违法违规行为。
就数据保存本身而论,根据著作权法的角度来阐述,数据抓取行为本质上是对信息的复制,因此这些行为有可能构成对著作权人的复制权的侵犯。当然,我国对临时复制行为是持宽容的态度。但如果爬虫控制者在自己的网站上获取信息并公开传播抓取到的信息,则可能进一步侵犯著作权人在互联网上传播信息的信息传播权。
虽然在互联网上的公开信息很难构成商业秘密,但网络上的某些信息只能由特定的用户通过采取技术措施访问。因此,网络信息可能仍然具有商业秘密所要求的保密性和秘密性,可能构成商业秘密。
根据《反不正当竞争法》第九条相关规定,以不正当手段获取他人商业秘密的行为即构成侵犯商业秘密。后续该等信息如被进一步加以利用,则构成对他人商业秘密的披露和使用,同样构成对他人的商业秘密的侵犯。
因此,如果爬虫控制者有意规避网站运营方为获取信息,突破网站运营方设置的反爬虫保护措施,保存甚至公开普通用户无法访问的网站内容,从而构成商业秘密的侵犯,爬虫控制者的行为构成侵犯他人的商业秘密。
如果爬虫抓取的是UGC模式的网站上用户发布的信息,并在爬虫运营者自家的产品或者服务中提供这些内容,则存在构成不正当竞争的较大的风险。因为这些案件的涉及数据和内容是构成原告竞争力的主要来源。
如在D公司诉B公司不正当竞争案件等案件中,法院均认为被告未经许可,擅自获取和使用原告网站数据的行为影响了原网站的正常使用和获利,攫取了他人的经营成果,损害了互联网的市场竞争秩序,构成对原告产品的实质性替代,构成不正当竞争。
为规避使用爬虫过程中产生相关知识产权侵权风险,爬虫控制者使用爬虫时应:1.不违反网站设置的robots协议;2.在爬虫策略设置上,构成版权保护的数据,某些特定网站的用户生成内容不能随意抓取;3.先审查所抓取的内容,方能使用、传播抓取到的相关数据。