通知公告

理论调研

技术、权属、垄断:对网络爬虫爬取“公开信息”行为无罪论的三向度分析

* 来源: 浙江越光律师事务所 李卫、周曹明 * 发布:办公室 日期: 2021年 11月 12日 浏览: 3242

【内容提要】:网络爬虫抓取“公开信息”,其获取数据行为无罪。非法获取计算机信息系统数据罪中的“侵入”,应为采用网络技术手段“破门而入”,而非仅指“未经授权或超越授权”。数据权属上,平台对用户生成数据不享有支配权,基于保护个人信息义务产生的管理权力或服务器拥有方“做主“的权力,也因信息公开而解除,故对已“公开信息”平台并不享有“授权之权”。平台对聚合数据的投入、付出享有的商业利益,保护该权益应以民事救济途径。警惕数据霸权、数据垄断的倾向,合理平衡各方的利益是刑事判罚时应考量的公共因素。

   【关键词】:网络爬虫、侵入、未经授权、数据权利、垄断


    网络爬虫,也称数据爬虫、网页蜘蛛或网络机器人(robots),是按照一定的规则,自动地抓取互联网信息的程序或者脚本[i]。各大搜索网站所使用搜索引擎(Search Engine)就是最典型的网络通用爬虫。爬虫,作为数据获取过程中的常见技术,其实质是快速高效地获取网络信息(数据)。由于数据已成互联网企业重要商业竞争资源,自往往被数据掌控方视为自家“禁脔”,数据又关涉用户个人信息及隐私,故该项技术措施使用容易引发法律争端。

    据中国裁判文书网上数据统计,我国关于网络爬虫抓取数据活动引发的法律争议主要为民事争议,其中最大宗纠纷是侵害著作权纠纷,其次则是不正当竞争纠纷[ii]。不正当竞争涉及商业利益,各方争议尤大,知名的如大众点评诉爱帮网案、大众点评诉百度网案、新浪微博诉脉脉案等。

    期间,也间有利用爬虫技术涉及刑事犯罪案例出现,如元光公司利用网络爬虫软件获取谷米公司服务器里的公交车行驶实时数据,被判犯非法获取计算机信息系统数据罪[iii]。2017年,北京市海淀区人民法院判决上海晟品公司及相关人员犯非法获取计算机信息系统数据罪[iv](以下简称“上海晟品公司案“),则是对网络爬虫抓取“公开信息”首开刑事处罚案例。该案例因涉及公开信息抓取法律边界问题,故倍受业界及法学界震动、关注、争论。

    致为瞩目的是,在2019年,美国“hiQ Labs 诉 LinkedIn 诉中禁令”二审(以下简称“领英案”)中,爬虫方hiQ Labs 获得初步胜利,美国联邦第九巡回法院一改以往判例的逻辑和思路,从CFAA所指的“未经授权”访问含义、用户公开资料的可预期状态、各方利益平衡及社会公共利益(反垄断)综合考量,支持了hiQ根据加州法律寻求禁令救济(主张),并确认LinkedIn无权援引《计算机欺诈和滥用法案》(以下简称“CFAA”)等禁止(hiQ的抓取行为),即允许爬虫方hiQ抓取LinkedIn网站上用户公开资料[v]。

    中、美法院对网络爬虫抓取“公开信息”行为所持不同态度和裁判思路,喻示此一问题存有多面性与复杂性,值得从多向度分析。在刑事技术上,有罪与否涉及“侵入或其他技术手段”非法获取数据认定,基于不同的立场自会有不同的结论。但从更广泛意义上讲,罪与非罪判定将对互联网业态的演变及格局产生深远影响。可以确信,几乎所有作为用户数据控制方的网络平台,天然排斥商业机构或竞争对手获取“自家数据”。将爬虫抓取行为以犯罪论处,对于防范个人信息泄露或许会有帮助。但同样可以预见,当爬虫技术的能否使用,左右于数据控制方允与不允时。一方面将会加剧各大网络平台深沟高垒、围筑数据孤岛的割据倾向,一个个数据孤岛林立割据不但有悖互联网共享互惠精神,并系阻遏创新及对基础数据的共享、利用;另一方面,当某些平台从数据争夺战中胜出,其掌控数据还将构成其巨大的垄断优势,会被用于打击竞争对手或提高服务价格损害公众利益,警惕“数据霸权”事关社会公共利益。

    一、技术之争:“侵入或采用其他技术手段”认定

    刑法第二百八十五条第二款“违反国家规定,侵入前款规定以外的计算机信息系统或者采用其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据,或者对该计算机信息系统实施非法控制,情节严重的,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金”。

    1、“侵入”与“其他技术手段”文义及司法解释

    前述条款之“侵入”或者“采用其他技术手段”认定。此处的“侵入”,从文义上看是“不法进入(内部)”,另由于“侵入”与“其他技术手段”在法条中是并述关系,属性相同,故侵入应为采用技术手段,其他技术手段作为补充兜底。另鉴于本罪是危害计算机信息系统安全的犯罪,这一技术手段应为计算机网络技术,而非任意其他技术(如骗术高明)。

    对此,全国人大常委会法工委刑法室编著《〈中华人民共和国刑法修正案(九)〉释解与适用》,第136页即明确指出:“侵入”,是指未经授权或者他人同意,通过技术手段进入计算机信息系统……不论行为人采用何种手法,其实质是违背他人意愿,进入他人计算机信息系统……将行为人非法获取他人计算机信息系统中的数据……的手段限定在“侵入”或者“其他技术手段”,是因为本罪是针对互联网上各种危害计算机网络安全的犯罪作出的规定。至于采用网络技术手段以外的其他手段……不属于本款规定的行为[vi]。

    除法条文义及立法原意外,值得说明的是,最高法、最高检《关于办理危害计算机信息系统安全刑事案件应用法律若干问题的解释》(法释〔2011〕19号)对侵入计算机信息系统罪、非法获取计算机信息系统中侵入没有作出解释,但对同条第三款规定的提供侵入、非法控制计算机信息系统的程序、工具的侵入作出解释,该解释第三条规定。“具有下列情形之一的程序、工具,应当认定为刑法第二百八十五条第三款规定的“专门用于侵入、非法控制计算机信息系统的程序、工具”:

    (一)具有避开或者突破计算机信息系统安全保护措施,未经授权或者超越授权获取计算机信息系统数据的功能的;

    鉴于刑法第二百八十五条三款所规定的三罪,侵犯的法益具有同一性质,均为危害计算机信息系统安全,其“侵入”的含义也应相同,即规范要素上应为“未经授权或者超越授权”,技术要素上应是具有“避开或者突破计算机信息系统安全保护措施”,两者要素应当同时具备。

    2、最高检第36号指导案例对“侵入”认定的扩张及评析

    2017年,最高检公布《卫梦龙、龚旭、薛东东非法获取计算机信息系统数据案》指导案例,在其指导意义指出“非法获取计算机信息系统数据罪中的“侵入”,是指违背被害人意愿、非法进入计算机信息系统的行为。其表现形式既包括采用技术手段破坏系统防护进入计算机信息系统,也包括未取得被害人授权擅自进入计算机信息系统,还包括超出被害人授权范围进入计算机信息系统”。据其要旨,已不要求“侵入”是通过技术性手段,只要是实质上“违背意愿”、“未经授权或超越授权”即可。

    故该案中“被告人龚旭将自己因工作需要掌握的本公司账号、密码、Token令牌等交由卫梦龙登录该公司管理开发系统获取数据,虽不属于通过技术手段侵入计算机信息系统,但内外勾结擅自登录公司内部管理开发系统下载数据,明显超出正常授权范围。超出授权范围使用账号、密码、Token令牌登录系统,也属于侵入计算机信息系统的行为”。[vii]

    最高检所持“未经授权、超越授权”的实质标准立场,其扩张逻辑是认为无论是通过技术手段入侵,如黑客技术进入,还是用欺骗或盗窃,甚或雇员在离职后超越权限登入,都是违背被害人意愿,都具有数据泄露之险,实质危害相当。但有值得进一步评析之必要:

    其一,实质危害标准违背罪刑法定。应当说实质危害论是我国刑事司法实务中极有影响力,甚至可以说是根深蒂固。刑法条文明确要求采用技术手段,指导案例也没有回避刑法条文中的“侵入”蕴含有这一技术要素。抛弃技术要素成分,寻求实质标准的正当性,与罪刑法定自相抵触。实务观点认为坚守“技术手段”要素是机械适用法律,曾专门撰文论证前述上海晟品公司利用爬虫抓取“公开信息”构成非法获取计算机信息系统数据罪一文,即认为“无技术含量进入计算机信息系统,并且获取大量数据,所造成对数据安全的侵害结果,与通过暴力破解计算机信息系统获取数据的行为后果没有任何区别”[viii],不构罪是“机械理解法条”,并引证该指导案例。但恪守刑法条文文义,本来就是罪刑法定的基本要求,要说“机械适用”也是罪刑法定的固有代价。认为危害相当,限定技术手段不妥,应通过立法修改完成,而不能在司法中扩张;并且实质危害的判断,见仁见智,本质上是主观估量,可以有共识,但不能代替立法的考量,逾越法条文义。特别是非法获取计算机信息系统数据罪,其危害是在于“侵入”的风险,还是“获取数据”的危害,基点不同结论自不同。

    其二,授权之权应为进入的权限,而非获取数据权限。指导案例所采实质标准之“未经授权、超越授权”,此处权限理解为获取数据权限,即违背意愿是权利人提供数据的意愿。但非法获取计算机信息系统数据罪中“侵入”实质不具有进入的权限而进入,是进入行为具有非法性,而不是指获取行为。当进入行为不法时,其获取数据行为自然违法,但当进入行为合法时,即便获取数据行为违法,也不构成该罪。并且,这一进入权限是操作权限,只要掌握账号、密码等能进入即为合法进入。指导案例中行为人凭借合法掌握的账号、密码、Token令牌进入公司管理开发系统,进入系统本身是合法的。故而并不存在超越权限进入的问题。

    其三,违反国家规定还是违反公司规定。非法获取计算机信息系统数据罪还有一个构成要素是“违反国家规定”,指导案例中龚旭将自己登陆权限交由他人擅自登录公司内部管理开发系统下载数据,属“违反国家规定”还是违反公司规定不无疑问。从论证角度,指导案例引用《计算机信息网络国际联网安全保护管理办法》等认为系“未进允许”,似有违反国家规定的规定所在。但“侵入”理解基于“未经允许”,“违反国家规定”又是“未经允许”,评价是重复的。合理理解法条,应当具有一个独立的要素来认定“违反国家规定”。考量立法背景,此处应是指危害社会公共秩序的黑客技术。当登陆权限由公司设置,这系公司内部管理事项,不应上升为国家规定。

    其四,违背意愿标准将不恰当扩大犯罪认定。以违背意愿作为实质标准,针对特定个案,可能可以做到实质上罪行相当。但这一标准的危险在于,任何违背系统控制人意愿的行为均将有入罪风险,而这仅仅取决于控制人意愿而已。以此逻辑推广,背着同事偷偷登陆计算机下载数据、利用修理计算机时之便下载数据、骗取账号密码下载数据等均可入罪,在利用爬虫技术抓取“公开信息”时,一开始数据控制方允许或是默许抓取,然后商业利益相争,即不允许抓取,易陷人入罪,成为打击竞争对手的工具。

    3、违反爬虫协议、绕开反爬虫措施的行为性质辨析

    网络爬虫抓取网站公开信息时,往往会面对网站所有者放置在网站据目录下的文本文件Robots.txt,Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),该文件告提示爬虫哪些页面可以抓取,哪些页面不能抓取。[ix]此外,网站并非对所有爬虫都持欢迎态度,除了搜索引擎爬虫这种有益爬虫外,网站所有者对其他爬虫往往持抵触、反对态度,特别是竞争对手或其他商业用户。于是网站会采用IP校验、UA校验、验证码校验、数据伪装、隐藏验证、阻止调试等措施识别爬虫访问。网站或APP具有公开性,网站无法通过设置用户名加密码等身份鉴别机制识别普通用户和竞争对手,网站一般是通过行为模式来辨别两者,一旦识别出来,如IP校验,即可切断该IP访问。有反爬虫措施,就有反反爬虫策略。爬虫方总的思路是尽可能模拟普通用户浏览器浏览行为,避免被网站识别出是机器行为。以上海晟品公司一案为例,法院认定技术手段是“使用“tt.spider文件实施视频数据抓取,在数据抓取的过程中使用伪造device.id绕过服务器的身份校验,使用伪造UA及IP绕过服务器的访问频率限制”[x]。 

    device.id是存储设备的设别号,UA的中文表述为用户代理,它可以作为识别访问标示之一,UA表现为一个特殊字符串头,记录表达操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等,普通用户访问时均会有,而爬虫机器访问没有这些数据。通过配置相关数据,可以仿造UA避免被识别。IP访问频率,则是在爬虫访问时由于快速高效,同一IP会在短时间内访问大量网页,普通用户则不会。通过限制访问频率或设置IP池的方式,同样避免被网站识别[xi]。

    Robots协议一般被理解为君子协定,只有道德倡导意义,不是具有法律约束力的协议[xii]。而反爬虫措施及反反爬虫策略,可以表明被抓取网站或APP方拒绝被抓取的意愿。但是在公开可访问的情况下,即网站并没有采用用户加密码的方式授权特定人访问,这种公开的系统是否属于已经加诸“安全保护措施”计算机系统呢?如果不是,则不存在避开或者突破问题的侵入问题。仅仅违背网站的意愿能否被认定为“未经授权”的侵入行为?对此:

    其一,反爬虫措施不是“安全保护措施”。如前所述,不能仅凭是否违背意愿来判断访问行为的刑事违法性。还得看是否采取网络技术不法进入,而避开或者突破前提是计算机系统采取“安全保护措施”,在公开可访问的情况下,网站(前台)是开放状态,任何不特定的公众均可访问,形同大门敞开的展示,即便不欢迎某些访客,也不能认定访问的不友好客人是非法侵入。

   其二,已经公开的信息不属于非法获取的对象。上海晟品公司一案,上海晟品公司抓取的是用户发布视频数据,下载、储存、使用这些视频数据存在侵犯著作权的问题,但其下载行为本身不是非法获取计算机信息系统数据下的非法行为。该罪保护的对象,是非公开信息或私密信息,当人人均可访问时,爬虫方快速高效取得数据自具有同等的合法性。

    4、 美国法院判例及思路演变

    在美国,与我国刑法中非法获取计算机信息系统数据罪相类似的是,CFAA法案1030条规定:

    “未经授权故意访问计算机或超过授权访问权限,从而从任何受保护的计算机获取信息;或者被告“故意造成程序传输,并且对未经授权且受保护的计算机造成损害”。

    在美国法下,法官是通过“未经授权”、“超过授权访问权限”,以及“受保护的计算机”的理解,作出能否依据CFAA对爬虫行为追责。这一责任,包括民事、刑事责任。三者理解,与我国刑法下理解“未经授权”、“超越权限”、“安全保护措施”具有很高的相似性。

    在2019年领英案诉中禁令判决之前,美国法院判决大致有利于数据掌控方,数据抓取方免责的理由是必须取得数据掌控方“授权“。在具体依据上,包括与员工签署的保密协议、网页上的告知、警告、弹窗、最终用户协议、产品或服务备注的说明、解释等,以及事后禁止信或IP屏蔽均可被认为“未授权”。其中,重要的CraigslistInc v.3Taps Inc案、Facebook,Inc. v. Power Ventures案,Craigslist公司、Facebook事后采取的函告声明及技术措施,认定为“未经授权”的访问行为,可触发CFAA[xiii]。而Facebook案中,为美国联邦第九巡回区法院判决。

   但到了2019年9月9日,美国联邦第九巡回区法院对领英案作出开创性判决,这一次法庭的天平向数据爬取方倾斜,而其所持见解及利益平衡考量尤为具有启发价值。在解释“授权”及相对应“未授权”,判决采取两种思路[xiv]:

    其一、从本文文义入手,“未经授权访问”,喻示着相应的“受保护的计算机”并未任由公众可访问,而是计算机已设置特定的访问权限,并非人人得以访问。此时,绕过前述访问权限限制,采用“未授权”。故CFAA仅适用非公开的页面或网站,而非领英公司的用户公开页面资料;

    其二,从立法背景入手,判决考察了国会的立法初衷和修法历史后指出,CFAA应当被理解为反侵入法(anti-intrusion),而非禁止滥用(misappropriation)数据法。CFAA此处禁止的是“破坏并闯入(break and enter)。判决进一步指出,CFAA实际上设想了三种类型的计算机信息:(1)对公众开放且不需要许可的信息;(2)需要授权且已经授权的信息;(3)需要授权但尚未授权的信息(或,在禁止超授权访问的情况下,超出的那部分系统授权未给出)。鉴于hiQ抓取的信息为上述第(1)类信息,CFAA并不适用该案[xv]。

    二、权属之辨:授权主体之权利(权力)来源

    前述无论我国法院判处的上海晟品公司,还是美国法院判决的领英案,均未阐明平台作为授权主体的权利来源问题。当然,在领英案中法院以公开可访问网页不适用CFAA,直接否定需经授权。但在上海晟品公司一案中,该公司通过爬虫技术抓取视频信息均系用户发布,作为发布平台的今日头条及运作的主体北京字节跳动公司是否具有这个权利可拒绝其不欢迎的商业机构访问?记录、存储、掌控用户数据赋予何种权利?服务器所有人之管理权力、保护公民个人信息义务产生一定程度管理权力能否作为授权的权源?

    1、数据分类及权利基础

    数据权利的性质及归属是个复杂的理论问题,在性质上有人格利益说、个人信息权说、人格兼财产说、隐私说[xvi]。在归属上,有归属数据记录平台、归属个人、平台和个人共有、公共数据[xvii]。在此,如果是企业自行采集的数据,自应其劳动付出或投资取得数据权利,其有权决定相应数据分享与使用,自无多大问题。值得着重讨论的是,用户生成的内容(user generated content UGC)所构成的数据,其权利应归属谁、性质为何、如何行使? 

    (一)、个人身份信息数据:个人信息是以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人的各种信息,包括自然人的姓名、出生日期、身份证件号码、生物识别信息、住址、电话号码、电子邮箱、健康信息、行踪信息等。此类信息的核心在于可识别性,其性质属于人格权利范畴,个人对此类信息具有完整的支配权或自决权。此类信息,一般而言平台不能享有数据权利,也不能凭借转让享有权利。相反,平台应在法律规定范围或个人合理预期范围内对个人信息承担保密义务。但平台对个人信息的记录和聚合所形成聚合利益,可享有商业上的正当权益,在遭受其它商业机构或竞争对手侵害时,有获得救济的权利。

    (二)、用户的活动痕迹数据:用户在使用计算机或互联网时,会形成浏览痕迹或购买记录等,此类记录包括用户浏览、购买、收藏、选择。用户的活动痕迹,对于用户个人可能并无多大价值,其反映了用户的偏好、习惯、倾向等,在商业上具有显见的价值。可被用来精准投放广告、促进销售,并且当大量的用户活动数据累计到一定程度后,可以用于分析整理加工,形成增值数据产品用于预测市场趋势、分析价格走势。在学术领域,用户的活动记录也具有相当研究价值,如被用来研究公共政策反馈、学者对种族歧视研究等。

    对于用户的活动记录形成的数据,权利性质上应归属于隐私权范畴,其支配权利应归于用户个人,即用户有完整的支配权或自决权。用户可以同意留存或消除其活动的痕迹。当用户选择留存活动痕迹数据后,该数据应作为公共数据,人人有权可以分析整理研究这一基础数据,以通过保障充分的竞争机制合理有效利用此类基础数据。不可否认,平台在用户活动痕迹数据的记录、聚合、储存上有投入、有贡献,但不能据此享有数据的支配权。显然当这些活动痕迹数据被单一机构掌控享有所有者权益后,将使得平台基于数据掌控获得垄断优势及刺激刺探获取隐私动机。值得注意的是,像京东、淘宝等大型购物平台,都通过注册时的用户同意,从用户手中转让了对此类数据的权利。法律尚未对此类行为的效力作出规定,但从维护社会公益及秉承互联网共享互惠的精神,不应支持这种将个人活动痕迹留存数据所具有利益归属平台。

    (三)、用户发布的内容数据:用户在平台发布的图片、照片、音频、视频、一时感想感悟或精心撰写的干货文章,其发布内容的权利归属于著作权范畴,用户具有著作权相关的人身权、财产权,并可以将依法可转让的权利转让或许可他人使用,包括平台。在上海晟品公司涉的非法获取计算机信息系统数据罪一案中,上海晟品公司通过爬虫抓取的是用户发布在今日头条上的视频数据,实质上是涉嫌侵犯著作权。如果用户没有将相关视频的著作权转让或排他性授权给平台,平台自然没有这个权利拒绝或授权;如果用户已转让或排他性授权给平台,平台权益受侵害也应是著作权,而不是计算机信息系统安全利益。很遗憾,上海晟品公司一案并没有立足于著作权,而是将刑法聚焦到爬虫技术访问公开网页授权与否上[xviii],皮之不存,毛无可附。

    2、平台对用户生成数据的权利

    平台对用户产生的内容,一般不享有数据权利(支配权),但平台确实对用户数据的记录、处理、聚合、储存上有投入、有贡献,其应当享有相当的商业权益。对此,大众点评网分别诉爱帮网、百度网两案中,法院判决以不正当竞争为由,对爱帮网、百度网的运营方判处赔偿,是非常准确揭示了平台所具有的数据权益及救济[xix]。

    二案案情相似,爱帮网、百度网均利用爬虫技术获取大众点评网上商户简介以及用户点评,并将此在自己的网页上展示。当然,同样注明了发布者的昵称和“在大众点评发表”字样及链接标识。法院判定爱帮网等属于“不劳而获”和“搭便车”的不正当竞争行为,并且指出“点评类网站具有集聚效应,商户覆盖面广,用户点评多,越能吸引更多的用户参与点评”[xx],点评网站的公信力及商业价值也就越高。而爱帮网、百度网不劳而获展示、分流用户,损害大众点评的商业权益。这一利益实质上基于数据聚合所形成商业价值,平台为数据的集聚精心策划运作、巨额投入,据此取得相应权利。

    值得注意的是,基于用户注册时同意的条款,用户将自己点评内容所构成的著作权可依法转让的全部权能均无偿授予大众点评,作为其享受服务的对价。但大众点评并不是以著作权遭受侵害为由索赔,这当然存在强制转让在公众舆论上的不利因素考量,但其实就最实质的权益而言,聚合数据的商业权益才是名正言顺的正当权益。

    3、平台有无授权之权

    前述要旨,平台对数据享有的是聚合数据而形成的商业利益,但对用户产生的数据本身不具有支配权,其自不能基于此项数据私权拒绝或许可。相反,信息数据在网站或APP上一旦公开发布,公众可自由访问全部公开内容,这一公开已构成平台对用户的一项承诺,即平台有义务确保相关内容处于公开可自由访问状态,其自然再不能以自己偏好或利益考量拒绝或许可某类用户访问,包括爬虫技术。此外,从公平对待、反商业歧视视角下,平台理应一视同仁。

    上海晟品公司案中,法院认为爬虫访问应经今日头条“授权”同意,在微博诉脉脉案,更是确立三重授权原则,即使用open API 端口获取数据,应经“用户授权+平台授权+用户授权”[xxi]。须经用户授权自属当然,对本不享有数据权利的平台有此授权权限,是司法考量平台肩负有保障用户数据免遭泄露或不当使用之义务,故确认其其相当管理权限。但在用户已同意公开的情况下,一般场景中,此项义务已无须履行,领英案判决表述为“用户对隐私期望具有不确定性”,或者用户以自己的公开发布解除平台此项权力。此外,因为服务器为平台拥有(使用),平台是否据此享有“谁的地盘谁做主”的“天赋”之权。对此,同样在一般场景中,公开承诺已使平台放弃了此项“做主”的权力,除非平台不提供可供公众自由访问的服务。

    值得深虑是,平台拒绝爬虫访问多以捍卫用户隐私为名,而巧妙地隐藏自己将用户数据据为自家“禁脔”私心。故而,对待平台授权之权利有无之考量时还应虑及数据垄断或数据霸权。

    三、垄断之忧:出罪的社会利益考量

    领英案中,hiQ公司提出垄断问题,hiQ公司认为领英禁止其使用数据的行为违反了“必要设施原则”,该原则禁止具有垄断地位或试图垄断的企业拒绝将其控制的必要设施向其竞争对手开放。法院认为,这是个值得重视的问题,并在二审判决回应指出“地区法院认为,数据本身并不是LinkedIn这类公司所拥有的,他们通过某种方式让公众可以获取数据,并且对这些数据进行收集和利用。“如果让LinkedIn 这类公司可以自由决定谁可以收集和使用前述数据,可能会造成信息垄断的风险,这将危害到公共利益。我们对此非常认同”[xxii]。判决基于公共利益考量、对潜在垄断的担忧,这是领英案诉中禁令判决最具有启发价值的见解。

    其一、动机判断和利益的平衡。一面是已掌控数据的大平台,一面在后崛起的创业公司,如何平衡既有“权益”与创新事业、如何激励竞争和创新是更具深远影响的公共政策。如果基于保护用户个人信息或隐私的需要,给予平台某项权力,平台据此可以授权同意或拒绝,平台是否只会恪守保护宗旨而别无所图呢?在领英案中,证据表明,领英公司原本是允许hiQ公司抓取用户公开资料中的信息,后来领英公司将推出相类似的数据分析产品时,于是就禁止了hiQ公司抓取。此一事实,首先是有利削弱了领英公司是为了保护用户隐私的主张。更是加深了法院对大平台利用自己优势地位,谋取信息垄断的顾虑。

    其二、垄断与商业利益。hiQ公司提出反垄断法上“必要设施原则”。必要设施原则起源于有形的设施,如铁路、港口、桥梁,特殊的地理区位是公共的,其商业价值不能为私人垄断。现已拓展到无形领域如技术标准、知识产权。该原则下“设施“,实质上是市场准入障碍或壁垒,设施的必需要具备“不可或缺性、不可替代性及不可复制性”[xxiii]。现今,数据垄断尚不是个紧迫的事实,但当大数据一旦能被广泛挖掘利用,“垄断”自将展示自己天然的魔力。如同亿万年前就存储的矿产资源一样,只要技术条件具备能被开采利用,矿产的资源掌控成为垄断优势关键。商业机构最有眼力估量数据价值,于是争夺流量入口、争夺数据权利归属,包括反爬虫,这说到底是商业利益之争。

    最后,平台在反爬虫时会不停向司法机构或公众强调爬虫的危害,诸如爬虫技术与DDos直接相关,对计算机信息系统安全构成巨大威胁;爬虫多线程访问会挤占网络资源,会降低普通用户的访问体验;过量的爬虫甚至会导致网站瘫痪等等。诚然任何技术的使用都有其负面影响,爬虫技术自不例外。在评估此项技术的危害时,同样要看到爬虫技术的高效收集信息资源的价值,以及它对反数据垄断的社会意义。所余之害,应是合理规制爬虫技术,引导其以恰当方式高效收集互联互通网络的公开信息。

    四、余论

    网络爬虫抓取“公开信息”是否构罪上,无论是中国法还是美国法,都存在“未经授权”或“超越授权”,以及技术要素是否应当具备的认定问题。领英案判决认为,侵入“破坏并闯入”,中国法下也应当理解为以技术手段“破门而入”,规则侵入行为定位相同,逻辑思路自可以借鉴。

    但违背意愿、未授权的前提是掌控数据的平台有正当权利可以允许或拒绝。当数据是用户产生发布,平台对数据不存在支配权,故平台没有私权的基础可以拒绝其不欢迎的爬虫访问。基于保护公民个人信息的需要,法律给予平台某些方面的许可之权。但当网页或APP可公开访问,用户已以公开并希望被广泛获知的方式,解除了平台此项权力。由此,网络爬虫抓取“公开信息”,无论是在授权的权利(权力)来源上,还是采用技术性手段“破门而入”标准上,该获取数据行为本身均不成立犯罪。

    值得深究的是,不但爬虫访问公开信息不应作为刑事犯罪追究,并且就特定个案而言,还因考量反爬虫的动机及垄断倾向。法律在生命在于经验,而不在于逻辑。刑事犯罪的判定成立与否,不仅仅是个构成要件是否完备的问题,更要考量此项定罪对社会公共利益的影响。在数据驱动创新、数据赋能各大产业的宏观战略背景下,更需要重新检视此项刑事法律及政策,为技术松绑、为数据注力。


    [i] 吴卫明:数据数据爬虫的罪与罚——兼论非法获取计算机信息系统数据罪的适用。

    [ii] 人民法院司法大数据研究基地、东南大学网络安全法治研究中心颁布:《网络数据爬取法律问题白皮书》(2020)第11页。

    [iii] 参见深圳市南山区人民法院(2017)0305刑初153号刑事判决书。

    [iv] 游涛、计莉卉:《使用网络爬虫获取数据行为的刑事责任认定》,有关该案详情均可参见该文。

    [v]参见数据保护沙龙公益出品  《“hiQ Labs 诉 LinkedIn 案上诉判决”中译本》,有关该案判决详情可参见该文,该案是诉中禁令案,并非最终实体判决,但该项禁令判决可表明第九巡回区所持立场、见解。

    [vi] 参见微信公众号文章:认定非法获取计算机信息系统数据罪三要素——评“检例第36号“指导案例缺一不可,2021年5月30日。

    [vii]参见最高检: 第九批指导案例之《卫梦龙、龚旭、薛东东非法获取计算机信息系统数据案》,载https://www.spp.gov.cn/spp/jczdal/201710/t20171017_202593.shtml  2021年5月31日。

    [viii] 游涛、计莉卉:《使用网络爬虫获取数据行为的刑事责任认定》一文。

    [ix] 刘鹏:《利用网络爬虫技术获取他人数据行为的法律性质分析》,载《信息安全研究》2019年第6期。

    [x] 同尾注4

    [xi] 同尾注1

    [xii] 参见人民法院司法大数据研究基地、东南大学网络安全法治研究中心共同颁布  《网络数据爬取法律问题白皮书》(2020)第11页。

    [xiii] 网文:美国数据爬虫相关案例判决梳理,载https://www.secrss.com/articles/9746  2021年5月31日。

    [xiv] 参见同尾注5,详见译文序第5页。

    [xv] 矫鸿彬 幸自奇:中美数据抓取案件裁判思路之比较分析,载https://www.chinalawinsight.com/2020/03/articles/intellectual-property/  2021年5月30日。

    [xvi] 作者:梅夏英  《分享和控制之间 数据保护的私法局限和公共秩序构建》 《中外法学》 2019年第4期。

    [xvii] 丁晓东:《数据到底属于谁?》,《华东政法大学学报》2019年第5期。

    [xviii] 林维:《利用“爬虫”非法获取数据案评析》 高艳东、连斌主编《从技术到规则:数字文明的法治进路》231页。

    [xix] 张江莉著:《反垄断法 在互联网领域的实施》第324-326页。

    [xx] 同尾注19

    [xxi] 同尾注13 第328页。

    [xxii] 参见数据保护沙龙公益出品:《“hiQ Labs 诉 Linkedin 案上诉判决”中译本》。

    [xxiii] 同尾注13 第356-357页。