Data Analyst
首发于Data Analyst
【书单】18本数据科学家必读的R语言和Python相关书籍

【书单】18本数据科学家必读的R语言和Python相关书籍

原文来自 Analytics Vidhya
编译 CDA 编译团队
本文为 CDA 数据分析师原创作品,转载需授权

前言

“这就是阅读。即将新软件安装到大脑里的过程。”


就我个人而言,我从视频和在线教程中所学到的始终没有从书本中学到的多。


了解机器学习和数据科学很容易。目前有许多开放课程,你可以马上就开始学习。但是,获得更深入的学习需要额外的努力。例如:你可能会很快了解随机森林如何运作,但了解其背后的逻辑需要额外的努力。


质疑的信心来自于阅读。有些人很容易接受现状。另一方面,一些好奇的人则会反思“为什么不能这样做呢?”就是在这种情况下,人们开始尝试用新的方式完成任务。几乎每个我在美国管理协会(AMA)遇到的数据科学家,都曾在公开的采访中强调过书籍在他们生活中充当了不可取代的作用。


以下是我在过去的一年中所发现的 R 语言和 Python 相关的机器学习、数据科学书籍。阅读是一个好习惯,希望通过阅读本文,你也可以养成阅读的好习惯。祝阅读愉快!


数据科学之R语言


R 语言入门与实践

Hands-on Programming with R

作者:Garrett Grolemund

译者: 冯凌秉


本书适合刚开始学习 R 语言的人。学习写函数和循环可以使你用 R 实现更多功能。一些人认为,R 包可以让他们避免写函数和循环,但那并不是长久之计。本书将介绍 R 编程环境的细节,同时附有有趣的项目,如加权骰子,扑克牌,老虎机等。本书语言浅显易懂。


大家的 R:高级分析和图形学

R for Everyone: Advanced Analytics and Graphics

作者:Jared P. Lander


本书涵盖数据可视化,数据处理,预测建模等数据科学各方面内容,而且并不晦涩难懂。同时内容广泛,细节详实。强调了算法的使用标准和每个示例在 R 中的实现。本书适合倾向从实际方面理解算法的人群。


R 语言经典实例

R Cookbook

作者: Teetor Paul

译者:李洪成


本书为帮助人们克服在数据预处理和操作中遇到的各种问题。很多时候,面对熟悉的场景,我们知道要做些什么。但是,如何完成却成为了一个巨大的挑战。这本书就很好解决了这个问题。它并没有对概念进行理论解释,而重点介绍如何在 R 中使用它们。本书涵盖了广泛的主题,如概率,统计,时间序列分析,数据预处理等。


R 数据可视化手册

R Graphics Cookbook

作者:Winston Chang

译者:肖楠, 邓一硕 , 魏太云


数据可视化使人能够使用形状和颜色来表达和分析他们的发现,而不仅仅使用表格。透彻的了解图表,明确何时使用哪个图表,以及如何定制图表是数据科学家的关键技能。本书不仅仅具有理论知识,而且强调如何在 R 中构建样本数据集。同时专注使用 ggplot2 包来进行可视化。


应用预测建模

Applied Predictive Modeling

作者:Max Kuhn, Kjell Johnson


作者之一 Max Kuhn 本身就是 caret 包的开发者。本书是理论和实践知识的完美融合。它讨论了几个关键的机器学习主题,如过拟合,特征选择,线性和非线性模型,树型方法等。并且使用 caret 包演示了所有算法。Caret 是 CRAN 库中功能强大的机器学习包之一。


统计学习导论:基于 R 应用

Introduction to Statistical Learning

作者:Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani

译者:王星


本书是最详尽统计建模的书之一。此外,它包括对线性回归,逻辑回归,树木,SVM,无监督学习等主题的深入解释。由于是导论,所以解释浅显易懂,任何新手都可以轻松学习。而且还附有练习。推荐这本书给所有使用 R 语言进行机器学习新手。


统计学习要素

Elements of Statistical Learning

作者:Trevor Hastie, Robert Tibshirani, Jerome Friedman


本书是“统计学习导论”的下一部分。它包含更高级的主题,因此不建议跳过上一本书直接读这本。这本书适合掌握机器学习基础知识的人。它涉及收缩方法,不同的线性回归方法,分类,内核平滑,模型选择等。对于想深入了解机器学习的人来说,这是一本必读书。


机器学习与 R 语言

Machine Learning with R

作者: Brett Lantz

译者: 李洪成, 许金炜, 李舰


书中作者解释概念浅显易懂,令人印象深刻。本书围绕机器学习,同时涵盖了很多实践方面的知识。通过案例研究,讨论了 Bagging,Boosting,SVM,神经网络,聚类等算法。这些案例将帮助你了解这些算法。另外还阐述了机器学习参数的知识。


掌握机器学习与 R 语言

Mastering Machine Learning with R

作者: Cory Lesmeister


本书适合所有想要通过掌握 R 语言进行机器学习人。它包括(几乎)所有算法及其在 R 语言中的执行。此外,本书介绍了一些用于机器学习的 R 包,包括最近推出的 H2o 包。本书还介绍了机器学习的最新发展,因此建议每个学习 R 语言的人阅读本书。但是,不能期望从本书中学习到高级机器学习概念,如堆叠。


机器学习:实用案例解析

Machine Learning for Hackers

作者: Drew Conway, John Myles White

译者: 陈开江, 刘逸哲, 孟晓楠


与其他类似书籍相比,本书篇幅较短。但是对每个涉及的主题都进行了深入探讨。为了加强理解,作者还通过例子,在解决问题的同时解释了基础方法。对于想要学习机器学习的人群来说,本书值得一读。


数据科学:理论、方法与 R 语言实践

Practical Data Science with R

作者:Nina Zumel,John Mount

译者: 于戈, 鲍玉斌, 王大玲


顾名思义,本书注重在现实生活中使用数据科学。本书与众不同之处在于,上述其他书籍均未讨论模型构建,模型的部署在现实问题中面对的挑战。本书作者的关注点始终没有偏离构建机器学习的理论与现实世界影响之间的联系。对尚未进入分析行业的人士来说,推荐阅读本书。


数据科学之 Python


掌握 Python 进行数据科学

Mastering Python for Data Science

作者:Samir Madhavan


本书首先介绍了 Numpy 和 Pandas 的数据结构,并描述从各种来源将数据导入到这些结构中。你将学习在 Python 中执行线性代数,并通过使用推论统计进行分析。同时本书着重构建推荐引擎,使用 Python 进行高端可视化,集体建模等先进概念。


利用 Python 进行数据分析

Python for Data Analysis

作者:Wes McKinney

译者:唐学韬


想通过学习 Python 进行数据分析?作者 Wes McKinney 是 Python 库—— pandas 的主要开发者。本书内容详实,涵盖了通过 Python 进行数据分析的各方面内容,如:操作,处理,清理,可视化和处理数据等。如果你是使用 Python 进行数据科学的新手,那么本书不可错过。


Python 机器学习入门

Introduction to Machine Learning with Python

作者:Andreas Muller,Sarah Guido


本书旨在帮助初学者开始进行机器学习。本书教你从零开始,利用 Python scikit-learn 建立机器学习模型。本书适合之前没有接触过 Python 和机器学习的人群。此外,它还涵盖了模型评估和参数调优的高级方法,使用文本数据的方法,以及文本特定的处理技术等。


Python 机器学习

Python Machine Learning

作者:Sebastian Raschka

译者:高明 , 徐莹, 陶虎成


这是迄今为止我所看过的,机器学习在 Python 方面最全面的书之一。作者解释了关于机器学习的详尽内容,他通过例子逐步解释概念。本书涵盖了神经网络,聚类,回归,分类,集成等主题。


用 Python 构建机器学习系统

Building Machine Learning Systems with Python

作者:Willi Richert , Luis Pedro Coelho

译者:刘峰


在本书,作者先从基础开始,接着通过项目解释概念,最终附上总结,循循渐进。推荐这本书给使用 Python 进行机器学习的零基础人群。它涵盖了图像处理,推荐引擎,情感分析等主题,易于理解和实际运用。


利用 Python 进行高级机器学习

Advanced Machine Learning with Python

作者:John Hearty


本书适合每个机器学习爱好者阅读。本书能够让你掌握机器学习的基础技术知识,自动编码器,功能工程技术,集成等。同时也重视机器学习的理论和实践。


集体智慧编程

Programming Collective Intelligence

作者:Toby Segaran

译者:莫映, 王开福


本书有个有趣的标题的书名。书中介绍了一些机器学习的算法,如 SVM,树,聚类,优化等,并使用有趣的例子。这本书最适合使用 Python 进行机器学习的的新手。某些章节还附有练习,能够帮助更好的理解。


ref:

18 New Must Read Books for Data Scientists on R and Python
编辑于 2017-06-01

文章被以下专栏收录