踏潮 BI 学习大纲
基本功
- Python 开发
- 控制语句(if, for, while, pass, assert, with, yield, import, in)
- 类型(object, list, tuple, dict, set)
- 表达式(lambda, 列表推导式)
- 函数(map, reduce, filter, zip, sort, enumrate, isinstance)
- 面向对象(类成员、实例化、构造函数、析构函数、继承、派生、多态、super)
- 数值计算(numpy、scipy、pandas、sklearn、gensim)
- 数据可视化(matplotlib、moviepy)
- 爬虫(scrapy、beautifulsoup、urllib、requests、selenium)
推荐阅读:《Python手册》、官方文档、《Head First Python》
- Git
- commit
- config
- push
- pull
- diff
- checkout
- merge
- stash
- merge request
推荐阅读:《踏潮 Git 使用规范》
- 传统算法和数据结构
- 枚举(8皇后问题)
- 递归(汉诺塔问题、树的前中后序遍历)
- 分治(求中位数、快排)
- 贪婪(Dijkstra 求最短路、Prim 最小生成树)
- 动态规划(背包问题、Floyd 求最短路)
- 链表(增删改查、循环链表、判环)
- 栈(用队列模拟栈、售货员卖棒冰找零问题)
- 队列(用栈模拟队列,双向队列、优先队列)
- 二叉树(BST、平衡树、线段树)
- 堆(最小/最大堆、堆排序)
- 排序(冒泡、选择、插入、快速、归并、堆、桶)
- 图论(DFS、BFS、最小生成树、最短路、关键路径、流网络)
- 字符串(KMP、字典树、AC自动机)
- 计算几何(线性规划、凸包)
推荐阅读:微软 —《编程之美》、《算法导论》
完成 Leetcode 中所有 easy / medium 难度的习题,编程语言 Python / C++ 自选。
- 数学基础
- 线性代数(矩阵、特征值、特征向量、秩)
- 微积分(极限、导数、拉格朗日中值、泰勒级数展开、傅里叶变换)
推荐阅读:吴军 —《数学之美》、大学相关课程教材
- 统计学基础
- 相关性分析(相关系数r、皮尔逊相关系数、余弦相似度、互信息)
- 回归分析(线性回归、L1/L2正则、PCA/LDA降维)
- 聚类分析(KNN、K-Means)
- 分布(正态分布、t分布、密度函数)
- 指标(协方差、ROC曲线、AUC、变异系数、F1-Score)
- 显著性检验(t检验、z检验、卡方检验)
- A/B测试
推荐阅读:李航 —《统计学习方法》
- 机器学习基础
- 关联规则(Apriori、FP-Growth)
- 回归(Linear Regression、Logistics Regression)
- 决策树(ID3、C4.5、CART、GBDT、RandomForest)
- SVM(各种核函数)
- 推荐(User-CF、Item-CF)
推荐阅读:《集体智慧编程》、Andrew Ng — Machine Learning Coursera from Stanford
- 广告业务知识
- 了解各角色(Ad Exchange、DSP、SSP、DMP、监测)
- 了解广告数据维度
- 了解部门算法架构
推荐阅读:《踏潮算法培训》
基本功大考核:自主选题完成某一类数据抓取(如淘宝、携程、大众点评、58同城、百度竞价广告、世纪佳缘、链家等),对其进行统计分析并做 Presentation。
参考:
统一出品的调味茶饮料“小茗同学”能热卖有哪些因素? - 何明科的回答
特定岗位所需
系统工程师
- Linux 基本命令及 Bash Shell
推荐阅读:《鸟哥的Linux私房菜》
- C/C++
- 代码规范
- C++11新特性
推荐阅读:《踏潮C++代码规范》、《Effective C++/STL》
- RPC框架
- Thrift
- Protobuf
- Web框架
- Nginx with FastCGI
- Apache
- Django
- 数据存储
- MySQL
- MongoDB
- Redis
- Hadoop
- HBase
- Kafka
- 网络编程
- 多线程同步
- 进程通信
- 流处理
- 分布式
- 数据同步
- Master-Slave
- 竞选机制
算法工程师
- Linux 基本命令及 Bash Shell
- C/C++
- 代码规范
- C++11新特性
推荐阅读:《踏潮C++代码规范》、《Effective C++/STL》
- 回归计算
- 最大似然估计
- 随机梯度下降
- 分布式计算
- MapReduce
- 并行计算
- 加速比评测
- 可扩放性标准
- PRAM模型
- POSIX Threads
- CUDA基础
数据挖掘工程师
- 数据转换
- 无量纲化
- 归一化
- 哑编码
- 数据清洗
- 判断异常值
- 缺失值计算
- 特征工程
- 可用性评估
- 采样
- PCA/LDA
- 衍生变量
- L1/L2正则
- SVD分解
- 提升
- Adaboost
- 加法模型
- xgboost
- SVM
- 软间隔
- 损失函数
- 核函数
- SMO算法
- libSVM
- 聚类
- K-Means
- 并查集
- K-Medoids
- KNN
- 聚谱类SC
- EM算法
- Jensen不等式
- 混合高斯分布
- pLSA
- 主题模型
- 共轭先验分布
- 贝叶斯
- 停止词和高频词
- TF-IDF
- 词向量
- word2vec
- n-gram
- HMM
- 前向/后向算法
- Baum-Welch
- Viterbi
- 中文分词
- 数据计算平台
- Spark
- Caffe
- Tensorflow
- 推荐阅读:周志华——《机器学习》
编辑于 2016-09-28 09:30