Urlteam
首发于Urlteam
数据采集技术指南 第一篇 技术栈总览

数据采集技术指南 第一篇 技术栈总览

从事爬虫虽然时间不长,但是经历的项目都具有特例性,从亿级数据采集到各种伪造隐藏技术,从极验验证码破解到淘宝百度等反爬虫破解,从分布式架构部署到多种ip跟换技术,从普通请求到js破解和自动化模拟,这些主流技术都有亲身经历。因此不才去尝试写这份技术指南。

因在公司有需求培养新人从爬虫技术入手,因此特地制作本系列教程,学技术重在广而精,因此先综述爬虫技术的技术栈,之后对需要分析以及灵活的技术进行样例演示解说。

技能树总图:

红色为常用 ,爬虫技能树-总览图.graffle(可以拿到链接)我是由mac中omnigraffle软件创建的




总结而言,常用的一系列工具为:

分析工具:

  • xpath测试chrome插件xpath helper
  • 请求头伪造chrome插件 Modify Headers for Google Chrome
  • post和参数调节工具 postman
  • scrapy 的shell
  • 开发者工具

请求工具:

  • requests 网络包
  • urllib2 网络包

分布式工具:

  • redis 基于内存的数据库
  • mysql 数据库
  • docker 部署工具,

数据抽取工具

  • re 正则表达式
  • lxml xpath抽取

模拟浏览器

  • phantomjs
  • selenium
  • ghost

异步

ip更换技术

  • 代理,adsl,tor,vpn,加速器

因为ppt主要是列举,然后口头现场表达和演示,没有详细的说明,以后的分享文会专心于技术内容,而不是今天的技术栈概述。

附录:

ppt和思维汇总图下载 采集技术分享第一期

博客网址:数据采集技术指南 第一篇 技术栈总览-附总图和演讲ppt

github代码干货:luyishisi/Anti-Anti-Spider

编辑于 2017-11-24

文章被以下专栏收录