Bot流量知多少?Cloudflare带你登高望远,一探全球Bot流量

Bot流量知多少?Cloudflare带你登高望远,一探全球Bot流量

关注Cloudflare,获取全球流量趋势的最新资讯。

如今恶意爬虫所能做的,可不仅仅是爬网页这么简单。

限量球鞋,最新型号的电子产品,有人排队抢购的地方,就有爬虫。在直播带货如此火爆的今天,web爬虫自然也不会放过拼抢爆款好物的机会。还有一些恶意爬虫会利用被盗用户的账号密码尝试访问不同的网页,造成更严重的后果。

如今的全球互联网上有多少Bot流量?Bot又与真人有着哪些共同点和不同点呢?

Cloudflare网络遍及全球上百个国家,平均每秒需处理1800万个HTTP请求,因此,我们处在观察Bot流量的绝佳位置。接下来,让我们登高望远,一起来了解全球Bot流量吧!


Cloudflare统计——Bot流量约占互联网总流量的40%

在Cloudflare全球网络上,有60.6%的流量可能来自于真实用户,19.3%的流量可能是Bot,18.1%的流量是已知的未经过验证授权的Bot,而仅有2.1%的流量是已知经过验证的Bot。

良好/恶意Bot

良好的Bot有助于提升网站排名,网站监控,帮助打通用户体验的闭环。而非法爬虫、僵尸网络等恶意Bot则会损害网站和访客的利益。

在Cloudflare,我们会标记每个请求的“Bot得分”,从1到99,分数较低意味着该请求可能来自于Bot,分数较高则代表着该请求可能来自于真人。客户可在我们的防火墙、日志和Workers面板中找到请求的评分,并根据评分采取不同的措施。

Cloudflare将流量分为四个类别:

经过验证的Bot——良好的Bot为搜索引擎和网站监控工具提供了强大的动力,我们可通过良好Bot的注册目录识别此类请求。

未经验证的Bot——Cloudflare启发式引擎管理着一个未经验证的爬虫的目录,此引擎可捕获请求流量中确定为Bot的部分。

潜在的Bot——Cloudflare通过机器学习引擎识别具有高度自动化可能性的请求,这一检测依赖于使用我们全球网络数据构建的模型。

可能的人为请求——若在机器学习引擎中“得分”较高,则代表着该请求很大概率来自于真人。

Bot的“行为习惯”

我们知道,Bot可以模仿人类的浏览行为,但Bot是否也会效仿人为流量的波动模式呢?

为此,我们比较了不同Cloudflare分类流量在一天之内的变化。图中显示了不同时间点的流量与整日平均值的偏差。可以看出,人为流量全天起伏较大,在凌晨达到低谷,在午间进入高峰。Bot流量的波动相对较小。

从一周的视角可以看出,许多Bot并不会在周末“休假”。

除此以外,我们还发现,经验证的良好Bot的整日行为更为一致。原因可能是,在抓取一个网站时,良好Bot执行频率较低,目标明确,恶意Bot出于其他原因可能会以更高的速度执行相同操作。

Bot与人类的相似之处:

在大牌新品发布,独家物品抢购等等场景,一些Bot会随着人为流量的增多而活跃。

Bot流量的全球分布

北美是Bot流量的聚集地,全球有超过50%的Bot流量来自于北美。其中,全球经过验证的Bot流量有将近80%也来自于北美。欧洲是Bot流量第二大的地区,紧接着是亚洲。

不同地区内的Bot和人为流量比例也有所不同。


Web流量自今年年初以来大幅增加了约35%,不少僵尸程序混迹其中,值得注意的是,Cloudflare网络上观察到的可疑Bot达到了39.4%的比例。

Cloudflare的Bot管理可高度精准地识别互联网上的可疑Bot,通过与防火墙的交互,客户可根据Cloudflare的Bot情报快速做出应对,即时缓解风险。想要了解更多有关Bot检测和缓解的内容,下方的干货你一定不能错过!

更多详情信息,请关注:

发布于 2020-12-03 10:12