实习碰壁之后-正式入坑数据分析

目前的状态


我是一名计算机专业的在读研究生,研究方向是数据可视化,可视分析。从实验室以及研究方向来看,周边大部分同学选择了前端开发,少部分也有做后台的。而我个人并不是特别愿意去做前端开发,我想做数据分析,数据挖掘相关的工作。目前,前段时间正是找实习的黄金时间,但是我找数据分析的岗并不顺利,迟迟没有拿到实习offer,而周围那些找前端开发的同学早已盆满钵满。说不羡慕那是假的,但是能怎么样呢?路是自己选的,再哭也得走下去呀!有句话说,要做难且正确的事,我想我现在是在这条路上。

早在一年前就定了数据分析这个方向,但是自己平时学习就是看一些书籍,没有数据挖掘相关的实践项目,苦于没有带路人,也不知道岗位的具体要求。找实习的时候才发现,不同公司对数据分析、挖掘岗的要求都不一样,但大部分都要求对业务有了解,对挖掘算法熟悉,做过相关项目;所以尽管我投了很多简历,但是都石沉大海,我也像一个无头苍蝇,摸不到门道,到处碰壁。我之前做科研项目,写JavaScript比较多,后来自学数据分析课程时,学习了Python,SQL和基本算法的知识,算是入门了数据分析。但是我想多做一些实践项目,更深入地学习某一个细分行业的数据分析和挖掘流程,为秋招求职助力。


未来想从事的具体行业


入门之后,选择一个方向,深入学习研究才可能成功,这跟做科研是一个道理。我在反思自己为什么找实习不顺时,发现一点就是自己的专业技能不够突出,前端会一点,数据分析刚入门,学习太过宽泛而都不够精专。公司更想招聘的一定是某一技能方面的“专家”,而不是什么都懂一点,什么都做不了的员工。所以有了这两个月找实习的经历,我意识到自己不能再这样一边焦虑未来,一边漫无目的地学习,更好的方式就是找到自己感兴趣的具体行业,然后实践。
虽然做过一个关于区块链加密货币交易数据的科研项目,但是我对金融行业的背景和业务知识知之甚少,没有系统学习过。与金融行业相比,互联网+电商行业的实践更为容易,我也有兴趣。所以,刚开始想从互联网+电商行业的数据分析、数据挖掘实践入手。从本科到研究生都是计算机专业的学生,研究生也从事的是数据分析流程中必不可少的一环---数据可视化,所以对自己从事这个方向的工作还是有信心的,不足的地方仍然是对行业的背景知识和业务知识了解不深入,这方面现在可以慢慢接触,在工作中积攒更多经验。

如何更近距离接触相关行业


找到兴趣行业,如何迈出了解行业的第一步呢?其实最简单的方式,就是去找一个这个行业的数据集,自己尝试着去探索数据。我从阿里天池下载了一个数据集,是用户在淘宝和天猫上购买婴儿用品的数据集,该数据包含两个文件,分别是淘宝会员历史婴儿用品交易样本数据文件,和婴儿信息样本数据文件。历史婴儿用品交易样本数据文件包含29971条数据,有以下7个字段:

  • user_id:用户id
  • auction_id:购买行为编号
  • cat_id:商品种类ID
  • cat1:商品属于哪个类别
  • property:商品属性
  • buy_mount:购买数量
  • day:购买日期

婴儿信息样本数据文件,包含953条,有以下3个字段:

  • user_id:用户id
  • birthday:出生日期
  • gender:性别(0 男性;1 女性)

官方提供的典型分析主题包括:

  1. 根据父母的购买行为预测孩子的年龄;
  2. 根据孩子的信息(年龄、性别等)预测用户会购买什么样的商品。

在之后的文章中我会对这个数据集进行分析和探索。

学习规划

有了目标,自然少不了学习规划。有计划地学习,每完成一个阶段任务,都能获得一些学习成就感,激励自己不断向前。计划如下:

  • 复习及巩固Python语言知识,7天
  • 使用Python的NumPy和Pandas包进行数据分析练习,5天
  • 机器学习算法相关的实践,10天
  • 学习如何撰写Python数据可视化和分析报告,4天
  • 推论统计相关的实践,7天
  • 完善简历,丰富项目经验,不定期

编辑于 2019-04-28