【观点】数据科学家的七种武器

【观点】数据科学家的七种武器

本文作者系『全球留学DIY飞跃计划』025号咨询师:
【DIY咨询师025】从美国半导体到大数据,金子哪里都发光
作者简介:本科毕业于四川大学材料科学与工程系,后纯DIY申请了十几所美国和欧洲(荷兰、德国、瑞士)名校,之后被多所著名大学录取。其中包括美国罗切斯特大学ChemE phd全奖,康奈尔大学,杜克大学,荷兰代尔夫特工业大学等等。最终选择了UIUC (伊利诺伊大学厄本那香槟分校) MSE MS项目。大学期间曾在香港和台湾交换,对港台地区的大学也比较熟悉。毕业后没有选择在本专业找工作,而是选择了跨行在大数据和机器学习行业竞争。求职的过程也比较顺利;现在在某快速成长的创业公司工作。计划未来再读一个统计或者CS方面的硕士,专业未定的博士(基本确定如果读博会选择欧洲)以及MBA/EMBA项目。对美国和欧洲的材料、电子与计算机工程的硕博项目申请都比较熟悉,对港台地区的大学也比较了解。希望能帮助“Optimize”你的能力,让你能够成功的入读欧美的顶级大学,实现自己的梦想。
敬请关注[飞跃计划]DIY全球留学申请、生活 - 知乎专栏以及相关的知乎 Live,解锁更多DIY申请技能。
需要DIY私人咨询|文书服务,请关注文末微信公众号【全球留学DIY飞跃计划】,使用公众号功能“开始咨询”,联系客服选择025号咨询师

假如20世纪最值得注意的资源是石油,那么21世纪的数据也是一个十分值得关注的资源,甚至有可能成为21世纪最重要的资源。我们所生活的环境里几乎每天都在生产各种各样的数据。如社交网络上的百亿数据,也如生物信息学里提取出的种种关于健康的数据。而在现代尖端工业技术里,一条芯片生产线每天就可以生产几百个G的数据。

从这些杂乱的,半结构化或者非结构化的数据里提取有用的信息的人,就是数据科学家

有人说数据科学家是一个非常性感的职业。但我并不确定。我认为做大数据,所需要的一切与一个灵巧强悍的刺客无异。精准,迅猛,直达问题的要害。

在选择数据科学家这一职业方向之前,我曾经学习过多年的物理和数学。在我看来,物理和统计是认识世界的两种不同的方式。物理学尤其是经典物理侧重于以确定论的眼光看待世界。而统计学和一部分现代物理学则使用基于概率论的观点来看待世界。他们是通向世界本质的两种不同,但相互呼应的思路。

在过去学习物理学的时候,关于半导体的理论曾经让我十分着迷。一个看似简单的物理现象,背后竟然要用那么复杂的一套理论体系(能带理论)来说明清楚。这套理论时至今日依然在发展之中。然而其本质和内核又是简单,直接的。这体现着人类追求确定性之美的精神。

做物理模拟的一条重要定律:第一性原理(The First Principle)更是非常的简单。“根据原子核和电子相互作用的原理及其基本运动规律,运用量子力学原理,从具体要求出发,经过一些近似处理后直接求解薛定谔方程的算法,习惯上称为第一性原理。”从原子到DNA,乃至到更大的体系,都可以用这套理论自下而上的说明透彻。

而在另外一方面,统计学与大数据也给予了我从另外一个,基于概率论的视角看待世界的机会。相比于第一性原理的自下而上,统计学与大数据是自上而下的。海量复杂繁琐的数据里可能隐含着种种不为人知的奥秘。古代的阿拉伯人相信神圣的经书里,书的页码,复杂的几何图形等等与上天的意志相关。数十亿条搜索数据里可能隐含着流行病传播的趋势。对大型工业设备运行数据的数据挖掘会让我们提前知道设备可能发生运行灾难的预兆。而海量历史交易数据可以帮助我们在金融博弈里克敌制胜。

我始终坚信,在团队里要成为一个靠谱的队友你需要大量的,坚韧的和不懈的训练。我也相信,要成为一个好的data scientist,你也需要大量的训练,或者说,精通七种武器。

1. 编程能力

这个自然无需多言。你需要用编程来操控计算机帮你完成种种复杂的运算。使用Python,R,C/C++,Matlab等语言进行编程自然十分重要。我之前在做物理模拟的时候,一个做物理模拟的尚且可以“Download the code from the internet, generally github directly(我的教授的原话),”然而对于一个数据工程师来说这是不可想象的。

使用什么编程语言并不重要。我本人曾经见过一个坚持用Java写数据挖掘程序的美国人。但我认为最合适于数据分析的编程语言便是Python以及R。

2. 数学能力

作为一个优秀的数据科学家,肯定是要有最基本的数学训练的。高等数学微积分,线性代数,概率论等课程的重要性自不必说。我个人认为一些更为高级的矩阵理论课程和统计学课程也颇有裨益。

3. 数据可视化能力

数据可视化的本质是要把复杂的,繁琐的数据提取出其中最有表现力的部分,并且以一种直观,准确,而富有美感的方式和人沟通。相比于让读者去阅读大量的报表,可视化数据无疑更有表现力。做好数据可视化,也是作为一个数据工程师的基本功。

4. 机器学习与数据挖掘

在现在,机器学习与数据挖掘可以说发展的是如火如荼。而这些人工智能的方法在数据分析里也有很多应用,可以说这些方法就是数据分析的核心。作为一个数据工程师,可以说机器学习和数据挖掘正是核心技能。

5. 并行计算,分布式系统与云计算

并行计算相比于传统的串行计算,无疑可以大幅度的提高效率。当然也有许许多多用于大数据的工具本身就是并行化的。掌握一些并行计算的方法也是十分重要和关键的。

6. 数据库以及网页开发技巧

如何从数据库中提取所需要的信息?作为一个数据工程师,和数据库打交道必不可少。与此同时,数据库也是许多应用,比如网站和许多软件的核心组成。搞懂数据库,才能更方便的和网站和许多软件打交道,也会对如何使用这些东西有更深的理解。

7. 学术写作,公共演讲以及如何与他人沟通?

其实这也是作为数据分析师的核心技能。你要写好东西,要讲好东西,才能更好的和人沟通。如何写好的文章?如何做有吸引力的公共演讲,其实这也是许多纯理科生欠缺的技能。

最后,我想说这七中武器其实是相辅相成的,比方说机器学习和统计学就有着密不可分的关系。数据分析目前是一个非常火爆的领域。科班并没有,做data science的人往往也来自各个领域。一方面,我们需要把Data science做好。另一方面,结合data science和我们所掌握的其他知识,也可以创造不一样的东西。如果你对申请美国留学,尤其是数据科学方向有疑惑的话,可以咨询我~

拓展阅读

【观点】一文读懂21世纪最性感职业--数据科学相关专业

【观点】深度揭秘欧美硕士、博士留学生的日常--思考与随笔


DIY咨询师:诚邀乐于分享的你,将留学申请|海外学习和求职经验以视频|文章|咨询|文书|知乎 Live等方式分享给即将飞跃的飞友们-内容首发『全球留学DIY飞跃计划』B站和微信公众号,并同步于@留德华叫兽其他平台。

DIY飞友:敬请关注公众号『全球留学DIY飞跃计划』,获取飞跃计划DIY咨询师列表预约一对一咨询,免费参与定期的“你问我答”活动;后台回复“QQ”获取4个千人QQ交流互助群,寻找志同道合的飞友。

编辑于 2018-11-24

文章被以下专栏收录