因为爬虫,我的老板进监狱了

因为爬虫,我的老板进监狱了

2017.06.01号《中华人民共和国网络安全法》开始实施,这个安全法在爬虫的这一块宝地上掀一阵大风波,到处都在转这篇试图解读该规定的文章:「 你的爬虫会送老板进监狱吗? 」转载的地方太多,我也不知道原始这篇文章转载自哪里了。

总之,自那以后只要碰到爬虫,不管是爬个几万条房价信息用来做一些小研究,还是爬一些知乎的用户资料来做排名统计分析,总会有人说:哎呀,爬虫不是犯法嘛?你要当心啊。

我一脸诧异,连这种公开信息也不能抓取?但是我还是比较怂的,在担心会被送进监狱的情况下,我花了一个小时仔细的阅读研究了最新版的《中华人民共和国网络安全法

在仔细阅读了中华人民共和国网络安全法三遍之后,我并没有发现任何一条关于抓取网络公开信息的规定,难道我看错了文件?在再三确认读的确实是最新稿的前提下,我意识到认为网络爬虫犯法这一看法的误传原因可能是那篇疯传的文章导致的。



所以我又仔细研究了这篇文章,文章提及以下两点;

01.

《网络安全法》以及最新刑事司法解释:

  • 未经授权爬取用户手机通讯录超过50条记录,老板进去最高可达3年;
  • 未经授权抓取用户淘宝交易记录超过500条的,老板进去最高可达3年未经授权读取用户运营商网站通话记录超过500条以上的,老板进去最高可达7年;
  • 未经授权读取用户公积金社保记录的超过50000条的,老板进去最高可达7年。



02.

司法解释里面提到以下集中类型的数据,无论是“非法提供”和“非法获取”都可以入刑:


  • 第一类:高度敏感信息,包括四种信息:行踪轨迹信息、通信内容、征信信息、财产信息。涉及高度敏感信息的违法活动,由于定罪门槛最低,因此严格限制在此四类,不做任何扩展;
  • 第二类:敏感信息,即住宿信息、通信记录、健康生理信息、交易信息等其他可能影响人身、财产安全的公民个人信息。与第一类相比较,《解释》对第二类信息的界定仍留有空间,意味着在司法实践中,仍有可能会出现目前所列举之外的第二类信息类型;
  • 第三类:其他个人信息。即上述第二、三类以外的个人信息。个人信息的类型是定罪量刑的重要依据。越敏感信息,达到定罪门槛的信息数量越少。


再三研究此篇文章之后,我发现这篇文章的几个问题点:

  • 认为爬虫就是用来抓取个人信息的,与信用基础数据相关的。
  • 住宿信息、通信信息、交易记录本来就是不公开的用户隐私,这通常是在App内的用手收全获取的信息,与爬虫无关。
  • 爬虫竟然能用来暴力破解密码?抱歉,这已经超过了爬虫的范畴了。


所以我想为写那篇文章以及不断转载那篇文章的作者和媒体重新解释一下爬虫的定义:网络爬虫(英语:web crawler),也叫网络蜘蛛(spider),是一种用来自动浏览万维网的网络机器人。

网络爬虫抓取的数据有如下规则:

  • 数据完全公开
  • 不存在也无法做到越权访问爬取


所以结合之前的文章与最新的中华人民共和国网络安全法,我想说:至少到目前为止,都没有一条明确的规定禁止网络爬虫,是一些并不懂网络爬虫的媒体、个人作者凭着自己编故事的能力、总想搞个大新闻的想象力写了那么一篇误导了很多圈外人的文章观点。


所以那些担心为了研究而做的公开数据的网络爬虫的同学们,不用担心触犯法律,但是我还是想提醒几句关于网络爬虫道德的话:尽量放慢你的速度、尽量遵循robots、不要公开你的爬虫源码、不要分享你的爬虫数据。

编辑于 2017-07-01