xlzd 杂谈
首发于xlzd 杂谈
Web crawler with Python - 番外篇01. 搭建称手的Python开发环境

Web crawler with Python - 番外篇01. 搭建称手的Python开发环境

P.S.你也可以在我的博客阅读这篇文章

为什么要写番外篇

工欲善其事,必先利其器。像上一篇博客一样用ipython来边写Python代码固然方便,对于复杂一点逻辑的程序,我们最好还是使用一个称手的编辑器或者IDE更好。所以,在进行正式的爬虫编写之前,我们先搭建好本地的开发环境吧。

这篇博客适用于OS X或者Debian系的Linux系统,当然稍作修改,也可以很好地在Linux的其它发行版和Windows上运行。当然,根据自己和周围使用Python的朋友的经验,在OS X和Linux上编写、运行Python代码的体验比在Windows上好很多,所以如果条件允许,建议你不要使用Windows系统开发Python程序。

IDE还是编辑器

这个问题在程序员中的争议很大,这里不拉开情怀与逼格的争议。对于大多数人,我的建议是:先暂时使用IDE,这可以在学习的过程中让你的精力主要集中在代码的编写上,对于运行和调试也非常方便。但是你至少应该会一点vim的基础操作,这样可以方便你在服务器部署代码。

接下来的系列博客,大部分情况下我将会使用PyCharm编写代码,所以推荐你也可以安装这个IDE(点击这里进入PyCharm官网)。PyCharm分为Professional和Community两个版本,其中Community版本是免费使用的,但是功能会弱一点。如果你是一个有情怀的大土豪,也可以购买Professional版本。或者你也可以在百度搜一个license key,当然不推荐这样做,毕竟作为一个有逼格的软件工程师,使用盗版是不好的习惯。

PyCharm会依赖Java运行时环境(JRE),所以在安装之前,你需要安装JRE或者JDK,这部分内容与这系列博客相关性不大,所以略过,你可以很容易在百度或者Google找到相应的教程。在OS X上面安装PyCharm是最方便的,双击dmg文件后将它拖拽到Application即可。在Linux上,你需要解压下载的压缩包,建议将其放到自己平时安装软件的目录,然后运行"./bin/pycharm.sh"即可打开PyCharm,你当然还可以创建一个桌面快捷方式。

在第一次进入PyCharm的时候会提示你做一些初始化设置,你可以根据实际情况做出合适的设置。顺便说一句,Darcula是一款自带的逼格满满的主题。

丰富的第三方库

Python拥有大量第三方库,可以帮助我们完成好多复杂的功能。那么,如何使用这个巨大的宝库呢?目前普遍使用的Python包管理工具是pip,在Debian上,你可以通过运行"apt-get install python-pip"来安装它。

pip的一些简单使用如下:

  • 安装: pip install 包名
  • 卸载: pip uninstall 包名
  • 升级: pip install --upgrade 包名

抓下来的数据放哪里

对于抓取到的数据,我们可以选择存储到文件(csv / json / xml / ...),或者存储到数据库(MySQL / MongoDB / MS-SQL / ...),这里我们主要使用MongoDB来存储数据。关于MongoDB的安装,你可以点击这里查看官方文档。对于MongoDB的简单使用,可以参考这几篇博客:MongoDB简单尝试

小结

开发环境已经搭建好了,接下来就让我们放手开始吧。

文章被以下专栏收录