新浪新闻客户端

【智道】“爬虫”的是与非

【智道】“爬虫”的是与非
2019年10月20日 21:41 新浪网 作者 法治周末

  原文首发于489期《法治周末》12版

  【智道】“爬虫”的是与非

  韩帅

  北京云亭律师事务所合伙人律师,法学硕士,拥有证券从业资格、基金从业资格。曾任职于京东金融集团法律合规部、北京市人民检察院和北京市西城区人民检察院。执业领域为商事诉讼与仲裁、重大刑事案件辩护、企业合规与刑事风险防控。

  提要

  爬虫相关产业一度处于疯狂而无序的生长状态,然而,在当前的法律背景下,利用爬虫技术采集信息随时可能让爬虫使用者人财两空。

  【智道】“爬虫”的是与非

  资料图 图/网络

  “爬虫”(Web Crawler),是按照一定的规则,自动抓取互联网信息的程序或者脚本。作为技术或者工具的爬虫,本身难言非法、合法。正如前些年因“快播案”而被广泛讨论的播放器的性质一样,爬虫如今也扮演了当年“快播案”中播放器的角色。

  近两年来,侵犯公民个人信息案件和“套路贷”案件进入高发期,在互联网领域被广泛应用的爬虫技术曝光量也越来越大。特别是近期魔蝎科技等数据服务商相关人员相继被警方调查以来,爬虫技术逐渐成为业内乃至社会高度关注的话题。

  据报道,魔蝎科技等数据服务商被调查的原因皆与爬虫、数据等业务相关。此后,业内纷纷下架、暂停相关数据服务。可见相关事件对数据服务行业的震动之大。

  在此之前,由于长期弱监管,爬虫相关产业处于疯狂而无序的生长状态,业内专门约束爬虫行为的只有Robots协议(爬虫协议)。通俗来说,可以将Robots协议理解为网站的看门人,其职责是告知访客哪间屋可进,哪间屋不可进。但作为一项协议,其本身不具有法律意义上的强制性。

1

  一枚硬币的两面

  爬虫的是与非,取决于爬虫为谁所用?用作何处?爬虫技术低成本、高效率的优点自不待言。但是,作为硬币的另一面,相伴而生的弊端也不可忽视。

  对爬虫的过度使用,造成了“被爬”网站堵塞甚至瘫痪。部分爬虫使用者违反Robots协议,强行爬取网站信息,导致Robots协议形同虚设。

  前段时间,最高人民法院在官网回应网友提出的裁判文书网运行慢、故障频繁等情况时表示,“2018年5月初以来,大量技术公司通过爬虫系统无限制并发访问非法获取裁判文书数据,造成网站负荷过大,大量正常用户请求堵塞,访问出现速度慢或部分页面无法显示等现象”。

  此外,由于爬虫技术被某些使用者用于违法犯罪活动,爬取法律保护的特定数据或者信息,导致个人信息被非法获取,商家经营信息、技术信息等被窃取,甚至政府网站被攻击及数据被篡改等严重后果。

2

  达摩克利斯之剑

  当前的法律背景下,利用爬虫技术采集信息是时刻悬在数据服务商头上的一把达摩克利斯之剑。这把利剑随时可能让爬虫使用者人财两空。

  民法总则第一百一十一条规定,自然人的个人信息受法律保护。任何组织和个人需要获取他人个人信息的,应当依法取得并确保信息安全,不得非法收集、使用、加工、传输他人个人信息,不得非法买卖、提供或者公开他人个人信息。网络安全法第四十四条规定,任何个人和组织不得窃取或者以其他非法方式获取个人信息,不得非法出售或者非法向他人提供个人信息。据此,公民个人信息受到民事法律和行政法律的保护,侵犯公民个人信息须承担民法上的侵权责任,甚至可能被监管机关行政处罚。

  刑法第二百五十三条之一规定,窃取或者以其他方法非法获取公民个人信息的,构成侵犯公民个人信息罪。另根据《关于办理侵犯公民个人信息刑事案件司法解释》的规定,除了购买个人信息属于非法获取,收受或交换也都属于非法。

  从实践来看,非法获取公民个人信息的方式主要表现为窃取、购买、收受、交换和侵入计算机信息系统或者采用其他技术手段等。利用爬虫技术窃取公民个人信息的行为属于典型的侵犯公民个人信息犯罪。

  自从网络安全法、《关于办理侵犯公民个人信息刑事案件司法解释》实施以来,互联网行业流行通过获取用户强授权的方式控制法律风险,此举在某种程度上起到了控制风险的效果。

  通过用户授权爬取信息,即数据服务商通过向用户索取特定网站的用户名、密码的方式爬取网站的信息。一般来讲,爬取国家工商信息管理系统、最高人民法院裁判文书网等公共网站的相关公开信息,很难认定构成相关的刑事犯罪。

  如果爬取的是商业营利性网站,一般情况下,该类网站除需要用“户名+密码”的方式登录之外,网站还采取技术措施防止他人恶意登录、攻击。在获取用户授权的情况下,从刑法的角度来看,很难认定为侵犯公民个人信息犯罪。但是,可能涉及到侵犯商业秘密、侵犯著作权等相关法律规定,甚至构成侵犯商业秘密罪或者侵犯著作权罪。

  如果数据服务商大规模爬取竞争对手的相关数据,则可能违反反不正当竞争法的相关规定,从而涉嫌不正当竞争。

  在百度诉360公司违反Robots协议而引发的不正当竞争纠纷一案中,北京一中院在判决中认为,“搜索引擎服务商与网站服务商或所有者关于Robots协议产生纠纷时,应当遵循如下“协商-通知”程序处理……360公司的行为违反了反不正当竞争法相关规定,应赔偿百度公司经济损失及合理支出共计70万元”。

  此外,如果数据信息被认定为经营信息或技术信息,一旦爬取行为给商业秘密的权利人造成的损失达到50万元以上,则应当按照刑法第二百一十九条侵犯商业秘密罪定罪处罚,行为人将面临最高七年有期徒刑并处罚金的处罚。

  如果爬取具有著作权属性的文字或者信息,则有可能违反著作权法第十条规定的著作权相关的内容,涉嫌侵犯知识产权,需要承担侵权责任。一旦前述行为的违法所得达到3万元以上,会被认定为违法数额较大,则应当按照刑法第二百一十七条侵犯著作权罪定罪处罚,行为人将面临最高七年有期徒刑,并处罚金的处罚。

  而在未获得用户授权或者相关权利人授权的情况下,采取暴力破解的方式爬取相关网站的数据,还可能涉嫌非法侵入计算机信息系统罪;非法获取计算机信息系统数据罪;提供侵入、非法控制计算机信息系统的程序、工具罪和破坏计算机信息系统罪等。

3

  法律风险在于人

  很多业内人士经常有此疑问:“使用爬虫有这么大风险,那怎么使用才合法合规?”

  其实,从实质上看,爬虫只是辅助人们高效收集信息的一种技术或者工具而已,爬虫引发的法律风险的根源不在爬虫,而在于控制、使用爬虫的人。

  从服务数据行业的经验来看,预防、控制使用爬虫过程中的法律风险,须做好以下三点:一是“拿”要合法,即依法收集数据;二是“用”要规范,即规范使用存量数据;三是“管”要到位,即完善数据保护制度。

特别声明:以上文章内容仅代表作者本人观点,不代表新浪网观点或立场。如有关于作品内容、版权或其它问题请于作品发表后的30日内与新浪网联系。
爬虫
权利保护声明页/Notice to Right Holders

举报邮箱:jubao@vip.sina.com

Copyright © 1996-2024 SINA Corporation

All Rights Reserved 新浪公司 版权所有