搭建机器学习 Python 环境的正确姿势

搭建机器学习 Python 环境的正确姿势

为机器学习搭建好 Python 环境听起来简单,但有时候坑还不少。如果此前没有配置过类似的环境,很可能会苦苦折腾各种命令好几个小时。可是我明明只是想马上搞起来我的机器学习!

在此教程中,你将学到如何搭建一个稳定的机器学习 Python 开发环境。你将能如愿直接开始机器学习大业,妈妈再也不用担心安装包的问题啦!

(1) 配置 Python 3 和 Pip

第一步是安装 Python 的包管理器 pip:

 sudo apt-get install python3-pip

(译者注:广大 Linux 发行商都在推荐 apt 代替 apt-get,不妨一试 ) (译者又注:这里原文提供的是 Linux Debian 系的安装命令,如果是 Mac OS,可以用 homebrew来安装, 而且如果通过 homebrew 安装 python3,那么 pip3 会同时安装,则只需 brew install python3 即可。)

有了 pip,只需一个简单的 pip install _your_package命令,我们就可以安装任何在Python包索引中编入索引的Python包,并带有一个简单的 pip install _your_package_。之后我们也会用 pip 来设置虚拟环境

接下来,将 Python 3 设置为 pippython命令的默认值。这让使用 Python 3 的时候更简便。 如果不设置的话,当我们想用 Python 3,每次都需要输入 pip3python3

为了将 Python 3 强制设为默认命令,我们需要修改 ~/.bashrc 文件。在命令行执行下列命令: (译者注:这里原文提供的是 Linux Debian 系的环境配置文件路径,如果是 Mac OS 则需修改 ~/.bash_profile。)

nano ~/.bashrc

向下滚动到 # some more ls aliases 部分,加入下行:

alias python='python3'


(译者注:原文的方法有点麻烦,其实不用打开文件,可以直接使用标准输出就行,一行命令搞定: echo'alias python = "python3"'>>~/.bashrc, Mac OS同理: echo'alias python = "python3"'>>~/.bash_profile

保存文件、重载改动:

source ~/.bashrc


当当当!Python 3 现在成为你的默认 Python了!

(2) 创建虚拟环境

然后我们创建一个 虚拟环境,并在当中安装机器学习所需的所有 Python 包。

我们使用虚拟环境来分离我们的编码设置。 想象一下,假如有时候你想在你的计算机上做两个不同的项目,就需要不同版本的库。 而把它们全部放在相同的工作环境中可能会带来意想不到的麻烦,很可能会遇到库版本冲突的问题。 项目1的ML代码需要 numpy的1.0版,但是项目2需要1.15版。啊哦!搞不定了。

而虚拟环境能让我们分离工作环境以避免这些冲突。

首先,安装相关包:

sudo pip install virtualenv virtualenvwrapper 

一旦安装好上述包,我们又需要编辑 ~/.bashrc文件了。将下面三行放到文件末尾并保存:

 export WORKON_HOME=$HOME/.virtualenvs  
 export VIRTUALENVWRAPPER_PYTHON=/usr/bin/python3  
    source /usr/local/bin/virtualenvwrapper.sh

保存文件,重载改动:

source ~/.bashrc 

现在我们终于能如下创建虚拟环境了:

mkvirtualenv ml 


上面的代码中,我们创建了名为'ml'的虚拟环境。要进入该虚拟环境,输入:

  workon ml 

棒!现在所有在 ml 虚拟环境下安装的库都会被隔离在该环境中,不会与其他环境冲突了!不论什么时候你想运行基于 ml 环境中的库的代码,只需要用 workon 命令进入该环境,然后正常运行代码即可。

如果需要退出虚拟环境,运行:

deactivate 

(3) 安装机器学习库

现在,我们可以安装机器学习库了。这里只会囊括最常用的几个:

  • numpy: 用于任何矩阵的工作,尤其是数学运算 * scipy: 科学计算 * pandas: 数据处理,操作和分析 * matplotlib: 数据可视化 * scikit learn: 机器学习

在此提一个一次安装所有包的小技巧:创建一个 requirements.txt 文件,像下面这样列出所有需要安装的包名称:

numpy  
scipy  
pandas  
matplotlib  
scikit-learn

保存文件,运行下面的命令:

pip install -r requirements.txt 

pip 会直接一次性安装所有列在文件中的包。

恭喜,你的环境搭建好啦!机器学习之路,出发!


本文参考:towardsdatascience.com/
作者:George Seif
投稿:佑铭

知乎机构号:来自硅谷的终身学习平台——优达学城(Udacity.com),专注于技能提升和求职法则,让你在家能追随 Google、Facebook、IBM 等行业大佬,从零开始掌握数据分析、机器学习、深度学习、人工智能、无人驾驶等前沿技术,激发未来无限可能!

优达学城(Udacity)cn.udacity.com?utm_source=zhihu-oa&utm_medium=social&utm_campaign=zhuanlan图标

知乎专栏:优达技术流,每天分享来自行业大牛、工程师必读的技术干货

优达技术流zhuanlan.zhihu.com图标

编辑于 2019-08-15

文章被以下专栏收录