机器学习进阶的五个境界

机器学习进阶的五个境界

作者: 郭瑞东

关于机器学习,这个话题最近实在太火了,甚至有些虚火了。有了虚火,就容易有泡沫。大浪淘沙,要想在数据科学这个行业生存下来,任何一个从业者都需要认清自己的位置,每上一个台阶,需要的努力方向都是不同的,每上一个台阶,身边的同行者也会越来越少。这篇小文,是想帮读者去去火,认清自己的位置。


本文受 Harvard刘小乐老师(Shirley Liu)两年前的旧文:“Levels of Bioinformatics Research”,讲生物信息学家的五个层次的启发。


Level 1 数据渣,这个阶段的人最突出特点是没有写过一行机器学习的代码。要知道机器学习是个必须上手实践过才能掌握的学科,就像游泳,骑自行车。数据渣可能听过很多机器学习的应用场景,尝试看过新智元或者机器之心这类公众号的文章(虽然多半看不懂)


数据渣不是毫无用处的,数据渣的最高水平,是知道什么情况下可以使用机器学习的方法来改进当前的流程,以及如何和做机器学习的伙伴沟通,将清楚自己的需求。即使做甲方,也需要对行业有一个全局的认识。如果你觉得术业有专攻,不打算成为数据科学的内行人,你同样有很多功课要做,培养自己和数据科学家沟通这样的软技能,同样是不可缺少的。


Level 2 数据菜鸟,这个阶段的人最突出的特点是熟练调用成熟的机器学习算法包,能看懂R或者Python包的说明文档。这个阶段的童鞋可以跑跑前人留下的流程,然而这类人的弱点在于根本没有认真思考过每个包中算法是基于什么原理的,从来没有深入研究过这些工具和流程是如何设计与实现的。


数据菜鸟是很容易达到的,哪怕没有编程基础,只有愿意花时间,有高中的数学基础,用一个月的全职投入,就可以熟练的学会一门机器学习界主流的语言及其算法包的接口。要想在这个阶段做的更好,可以去学学变量命名的规范。但要跨过这个境界,就需要一点打破砂锅问到底的好奇心和对数据科学的热爱了。


Level 3 数据肉鸟 这个阶段核心的两项技能是数据可视化和串流程。数据可视化的目标是对不同方法做比较,在知道了那些指标的意义后,你需要评价不同的方法,你还需要知道每一步的输入输出,从最初的清洗数据,到之后的特征提取,到模型的选择,直到用图形来呈现算法的效果,如果你能将这一套流程串起来,那么你就初步具有了独立完成搭建一个机器学习流程的能力。


这个阶段,对于过拟合,交叉验证,这样的概念应该是很熟悉的,掌握核心概念,不是一件能一蹴而就的事,你不能假设自己的理解是绝对正确的,而要通过持续的学习来一步步逼近正确的理解。这个阶段的人需要做的是广泛的积累,需要能看懂原版论文,而不止是算法包的manual。所谓看懂论文,是指看完了能讲出这篇文章的方法上是否有所创新,讲出这篇文章的方法是否适用与这个领域,这篇文章对自己正在做的项目是否有所借鉴。


Level 4 数据科学家 这个阶段的核心技能是推公式。要知道机器学习的算法背后,大多都有着统计学的支撑。SVM都会用,但能推出SVM的优化目标的人不多,LDA知道的人很多,但其背后的Dirichlet分布懂得人却不多。为什么要会推公式,不止是为了做算法在不同语言,不同应用场景间的迁徙,还是为了去有目的的改进方法,不管是随机化,还是将条件放宽松,亦或是增加惩罚项,都需要对算法背后的数学原理搞清楚。


阻碍很多童鞋成为数据科学家的是数学基础。概率论,统计,随机过程,线性代数,数学分析,凸优化,图论,一个都不能少。这需要补的课就很多了,但一旦你练好了“内力”,那么你再看之前看不懂的论文,尤其是其方法那一部分,你的阅读速度和理解的深度就会增加很多。要达到这个境界,需要耐得住寂寞。


Level 5 数据大神 在一个领域内开疆辟土,感受到高处不胜寒的寂寞,灵活的将多种方法和trick融合成一件艺术品,如同alpha go,其所用的方法不是创新,而其将这两种方法结合的方式却如神来一笔。又或者使用自己领域内的概念去指点江山,预测未来,例如在 一个来自武林的类比 论文故事-深度学习的几个猜想,关于文化与认知 这篇文章中表现的那样。这样的大神可遇不可求,天赋与努力缺一不可。


如今数据科学正处在快速扩展的时代,其触角正伸向社会的每一个角落,在这个时代,对数据的理解,将会成为和识字一样人人都必须的技能,未来,每个人都需要具有数据渣的鸟视搬的数据通识教育,有志于成为精英的人,不管其处在什么行业,都要学会用数据去说理,用模型来预测未来,用聚类来总结过去。每个人都有自己的位置,庄子中有一句深得我心的话,大鹏鸟不必嘲笑小麻雀,小麻雀不必羡慕大鹏鸟。我们每个人都有自己的比较优势,认清自己的位置,不妄自尊大,才是最关键的。


编辑于 2018-03-25

文章被以下专栏收录