大数据时代,用爬虫拿到数据违法吗?数据可以商业化吗?

大数据时代,用爬虫拿到数据违法吗?数据可以商业化吗?

网络爬虫涉及的法律问题可从信息层、策略层、数据层进行分析。在信息层,当抓取到具有著作权、个人信息等内容时,可能侵犯知识产权、人格权等法律法规;在策略层,当爬虫技术涉及突破、绕开反爬虫策略、协议时,可能犯有提供侵入非法控制计算机信息系统程序工具罪或破坏计算机信息系统罪;在数据层,当爬虫活动的关联行为涉及破解客户端、加密算法等,可能犯有非法获取计算机信息系统数据罪等。

一般爬虫界有一个默认协议《Robots协议》(也称为爬虫协议、机器人协议等),全称是“网络爬虫排除标准”(Robots Exclusion Protocol)。一般网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。是网络资源提供者与搜索引擎之间的道德约定。

《Robots协议》的实施主要依赖一个文件:

robots.txt,

网站会将该文件置于根目录下。举个例子,当爬虫访问一个网站(比如x.y.z)时,首先会检查该网站中是否存在

x.y.z/robots.txt

这个文件,如果爬虫找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。

但正如上文所讲,该协议只是“道德约定”,并没有法律保障。也并不是遵循了这个协议就一定能避开一开始所讲的法律问题。

因此我建议使用爬虫以图商业目的的朋友首先要识别数据性质,是公开数据、半公开数据还是内部系统数据,对于内部系统数据,严格禁止侵入;爬取数据时避免获取个人信息、明确的著作权作品、商业秘密等;限定数据的应用场景,如遇涉及侵害他人的商业利益和竞争秩序的场景,要思之再三再做决策。

最后:再谈谈如何避免踩雷。第一点,同业竞争者的数据最好不要爬,官司很容易上身;第二点,被公司定性为有商业价值的数据不要爬,有个案例是百度爬了美团的有价数据,结果被告得很惨;第三点,爬虫机器人千万别扰乱对方的正常运营,万一搞崩了别人的网站,后果很严重。

法律参考

《刑法》第285条,非法获取计算机信息系统数据罪。最高处七年有期徒刑。

《刑法》第286条,破坏计算机信息系统罪。最高处五年以上。比如为了抓取数据,破解登陆密码,反编译APP。

《网络安全法》,倒卖隐私数据链条上的一环。你把抓取的数据倒卖给坏人,坏人拿数据做了坏事,你就是这其中一环。

爬虫就是自动网络数据抓取工具。这是很敏感的行为,还是要严格遵守法律法规以及通常的惯例。

首先不能使用黑客手段等去突破防火墙等安全限制进入保密的平台去搜索和抓取数据,这样拿数据很可能就是违法的。

其次对于从公开平台抓取的数据,也要进行一定的核实和梳理才可以放心使用。这一方面是因为很多平台本身可能就有漏洞,而大量本应该保密的信息无意间被你爬走了,比如用户信息或者业务信息等,这个你就是拿到了也不能随意再公开或者售卖转让。

对于爬到的非敏感信息,合理合法的信息,一般情况是可以使用的。比如百度等搜索引擎就是通过海量的网络资源提供搜索服务的,这些信息中就有爬虫获取的。除非少量有版权保护的资料外,通常的商业使用没问题。

发布于 2019-05-24

文章被以下专栏收录