在知乎上学Python爬虫

在知乎上学Python爬虫

有很多人正在入门Python爬虫,学习Python爬虫。在这个过程中,会遇到很多难题,许多小伙伴都会去寻找答案,但是因为答案的纷繁复杂和种类多样,往往要花上好些时间。

而码不理经常会在知乎上寻找学习问题的答案,里面的解答也会对自己起到很大的帮助。

所以码不理决定通过整理知乎上关于Python爬虫的精彩回答文章和教程,制作一篇关于Python爬虫的索引,包括:

入门指南 - 教程资源 - 框架工具 - 爬虫实例 - 专栏索引

这几个版块。希望能够帮助到大家。(限知乎)

大家有什么好的建议也可以向码不理提出,有其他想要的资源也可以告诉码不理,码不理会去整理测评。


入门指南:

1.如何入门 Python 爬虫?-谢科的回答

(简介:我就讲讲“道”和“术”吧——爬虫怎么工作以及怎么在python实现。)


2.Dwzb:爬虫基本原理

(简介:这篇文章的定位是,给有一些python基础,但是对爬虫一无所知的人写的。文中只会涉及到爬虫最核心的部分,完全避开莫名其妙的坑或概念,让读者觉得爬虫是一件非常简单的事情。)


3.Python爬虫入门:

第一讲:Python爬虫|Python爬虫入门(一):爬虫基本结构&简单实例

第二讲:Python爬虫|Python爬虫入门(二):请求

第三讲:Python爬虫|Python爬虫入门(三):解析

第四讲:Python爬虫|Python爬虫入门(四):储存

(简介:本爬虫系列入门教程假设读者仅有一点点Python基础或者近乎为零的基础。如果是有Python基础的可以跳过一些对于Python基本知识的补充。)


教程资源:

书籍:

1.路人甲:一份Python爬虫电子书

(简介:知乎大神整理的爬虫电子书,这本书主要内容是Python入门,以及Python爬虫入门和Python爬虫进阶)


2.求大神们推荐python入门书籍(爬虫方面)?

(简介:Python爬虫方面入门书籍推荐)


教程:

系列教程:

1.[已重置]:Python爬虫学习系列教程

(简介:学习过程中我把一些学习的笔记总结下来,还记录了一些自己实际写的一些小爬虫,在这里跟大家一同分享,希望对Python爬虫感兴趣的童鞋有帮助,如果有机会期待与大家的交流。)


2.西瓜很甜:Python爬虫教程(一)使用request+Beautif

西瓜很甜:Python爬虫教程(二)使用request+正则re批量下载好听轻音乐网歌曲


3.黄浦江畔的夏先生:python爬虫初探(一):爬虫的基本结构

黄浦江畔的夏先生:python爬虫初探(二):URL管理器和下载器

黄浦江畔的夏先生:python爬虫初探(三):HTML解析器

黄浦江畔的夏先生:python爬虫初探(四):数据存储器


拓展教程:

1.Crossin:爬虫万金油,一鹅在手,抓遍全球:goose 简介


2.Crossin:这个男人让你的爬虫开发效率提升8倍

(简介:他叫 Kenneth Reitz。现就职于知名云服务提供商 DigitalOcean,曾是云计算平台 Heroku 的 Python 架构师)


3.Crossin:Python 抓取网页乱码原因分析

(简介在用 python2 抓取网页的时候,经常会遇到抓下来的内容显示出来是乱码。发生这种情况的最大可能性就是编码问题:运行环境的字符编码和网页的字符编码不一致。


4.Crossin:BeautifulSoup:干了这碗“美丽汤”,网页解析倍儿爽

(简介:今天我们来分享下,当你已经把内容爬下来之后,如何提取出其中你需要的具体信息。)


进阶拓展:

进阶:

1.Python 爬虫进阶?+Python 爬虫进阶?

(简介:爬虫无非分为这几块:分析目标、下载页面、解析页面、存储内容)


2.笑虎:“百行代码”实现简单的Python分布式爬虫

(简介:进阶知识)


拓展:

1.利用爬虫技术能做到哪些很酷很有趣很有用的事情?

2.Python 爬虫学到什么样就可以找工作了?

3.张小鸡:从python爬虫,到更爱这个世界(简介:学习爬虫的经历和成长历程)

4.张伟棋:Python爬虫和情感分析简介(简介:这篇短文的目的是分享我这几天里从头开始学习Python爬虫技术的经验,并展示对爬取的文本进行情感分析(文本分类)的一些挖掘结果。 )

5.你是如何开始能写 Python 爬虫?


爬虫资源:

1.笑虎:一个很“水”的Python爬虫入门代码文件

2.地球的外星人君:156个Python网络爬虫资源,妈妈再也不用担心你找不到资源!

3.地球的外星人君:可能是最全面的75个Python爬虫资源


学习经验:

1.用 Python 写爬虫时应该注意哪些坑?

2.Python 3 网络爬虫学习建议?

3.刘志军:Python爬虫知识点梳理

4.华东江苏大数据:总结:常用的 Python 爬虫技巧

5.如何优化 Python 爬虫的速度?

6.Jerry:Python爬虫—破解JS加密的Cookie

7.苏克1900:主流网站 Python 爬虫模拟登陆方法汇总

8.夏洛之枫:三步走,教你定制自己的个性python爬虫,代码都省了有木有~

9.Python爬虫传送post请求要携带哪些参数?


框架工具:

框架:

1.Python有哪些常见的、好用的爬虫框架?(简介:在这里推荐几个值得关注的异步爬虫库,给你的爬虫提速。看看有没有你没听过的?)

2.笑虎:一个极为简洁的Python爬虫框架

3.笑虎:拥有属于自己的Python爬虫框架--练习编写多线程、协程爬虫框架!


工具:

1.张小鸡:10个爬虫工程师必备的工具了解一哈

(简介:工欲善其事必先利其器的道理相信大家都懂。而作为经常要和各大网站做拉锯战的爬虫工程师们,则更需要利用利用好身边的一切法器,以便更快的攻破对方防线。今天我就以日常爬虫流程,给大家介绍十款工具,相信大家掌握之后,必定能够在工作效率上,提升一个量级)


2.小小程序员:推荐4个爬虫抓包神器

(简介:今天推荐4个HTTP代理工具通过抓包分析,帮助你还原APP背后的每个请求。)


3.Crossin:爬虫必备工具,掌握它就解决了一半的问题

(简介:今天这篇文章不谈任何具体网站的抓取,只来说一个共性的东西:如何通过 Chrome 开发者工具寻找一个网站上特定数据的抓取方式。)


4.Crossin:听说你好不容易写了个爬虫,结果没抓几个就被封了?

(简介:实现一个自动获取可用代理 IP 的接口。)


爬虫实例:

1.Python程序员:利用python爬取网易云音乐,并把数据存入mysql

2.学习python的正确姿势:python爬取 20w 表情包之后,从此你就成为了微信斗图届的高手

3.哆RUAI咪:如何让Python爬虫一天抓取100万张网页

4.强哥:Python爬虫告诉你上海房价有多高

5.DataCastle:Python爬虫入门 | 2 爬取豆瓣电影信息

6.阿喵酱:Python爬虫一步步抓取房产信息

7.伟哥-Wayne:我用Python又爬虫了拉钩招聘,给你们看看2019市场行情

8.强哥:爬虫爬了下知乎上的神回复,已笑趴~

9.Crossin:一键下载:将知乎专栏导出成电子书

10.Crossin:如何用Python抓抖音上的小姐姐

11.Crossin:【招聘数据分析】Python就业前景如何


专栏索引:

Python爬虫索引:

1.路人甲:如何学习Python爬虫[入门篇]?

(简介:一个知乎大神整理的关于Python爬虫的索引,内容详细全面,结构完整。对于新手和正在学习的小伙伴是非常有帮助的。)


2.Ehco:从零开始写Python爬虫 --- 导言

(简介:提供了实用的方法和建议)


3.戴德满:自学入门 Python 优质中文资源索引

(简介:自学入门Python的整理,有关于Python爬虫的索引)


Python爬虫号推荐:

1.蚍蜉撼大树——知乎用户 (简介:Python爬虫之旅系列)


2.州的先生——知乎用户 (简介:python爬虫实战入门系列)


3.学习python的正确姿势——知乎用户 (简介:Python爬虫实战系列)


4.不吃夹生饭——知乎用户 (简介:反反爬虫系列)


爬虫项目索引:

1.地球的外星人君:资源整理 | 32个Python爬虫项目让你一次吃到撑!(简介:32个爬虫项目)

2.GitHub 上有哪些优秀的 Python 爬虫项目?(简介:GitHub上优秀的Python爬虫项目)

3.上海小胖:23个Python爬虫开源项目代码,包含微信、淘宝、豆瓣、知乎、微博等


这次就先整理到这里了,希望能够帮助到你们,喜欢的小伙伴欢迎关注 码不理 哦~

大家还有其他想收藏的资源也可以告诉码不理,码不理会继续为大家整理。

发布于 2019-05-29

文章被以下专栏收录

    公众号『码不理』这里有关于编程、python、微信小程序的介绍和分享。还有更多干货、水货、私货…持续更新中(و*•̀ㅂ•́)و

    本专栏旨在为编程初学者提供浅显易懂的入门科普。微信公众号:Crossin的编程教室(crossincode),内有面向零基础学习者的 Python 入门教程。代码问题可上 bbs.crossincode.com 发帖提问。