首发于SimonS's Algo
踏潮 BI 学习大纲

踏潮 BI 学习大纲

基本功

  • Python 开发
    • 控制语句(if, for, while, pass, assert, with, yield, import, in)
    • 类型(object, list, tuple, dict, set)
    • 表达式(lambda, 列表推导式)
    • 函数(map, reduce, filter, zip, sort, enumrate, isinstance)
    • 面向对象(类成员、实例化、构造函数、析构函数、继承、派生、多态、super)
    • 数值计算(numpy、scipy、pandas、sklearn、gensim)
    • 数据可视化(matplotlib、moviepy)
    • 爬虫(scrapy、beautifulsoup、urllib、requests、selenium)

推荐阅读:《Python手册》、官方文档、《Head First Python》

  • Git
    • commit
    • config
    • push
    • pull
    • diff
    • checkout
    • merge
    • stash
    • merge request

推荐阅读:《踏潮 Git 使用规范》

  • 传统算法和数据结构
    • 枚举(8皇后问题)
    • 递归(汉诺塔问题、树的前中后序遍历)
    • 分治(求中位数、快排)
    • 贪婪(Dijkstra 求最短路、Prim 最小生成树)
    • 动态规划(背包问题、Floyd 求最短路)
    • 链表(增删改查、循环链表、判环)
    • 栈(用队列模拟栈、售货员卖棒冰找零问题)
    • 队列(用栈模拟队列,双向队列、优先队列)
    • 二叉树(BST、平衡树、线段树)
    • 堆(最小/最大堆、堆排序)
    • 排序(冒泡、选择、插入、快速、归并、堆、桶)
    • 图论(DFS、BFS、最小生成树、最短路、关键路径、流网络)
    • 字符串(KMP、字典树、AC自动机)
    • 计算几何(线性规划、凸包)

推荐阅读:微软 —《编程之美》、《算法导论》

完成 Leetcode 中所有 easy / medium 难度的习题,编程语言 Python / C++ 自选。

  • 数学基础
    • 线性代数(矩阵、特征值、特征向量、秩)
    • 微积分(极限、导数、拉格朗日中值、泰勒级数展开、傅里叶变换)

推荐阅读:吴军 —《数学之美》、大学相关课程教材

  • 统计学基础
    • 相关性分析(相关系数r、皮尔逊相关系数、余弦相似度、互信息)
    • 回归分析(线性回归、L1/L2正则、PCA/LDA降维)
    • 聚类分析(KNN、K-Means)
    • 分布(正态分布、t分布、密度函数)
    • 指标(协方差、ROC曲线、AUC、变异系数、F1-Score)
    • 显著性检验(t检验、z检验、卡方检验)
    • A/B测试

推荐阅读:李航 —《统计学习方法》

  • 机器学习基础
    • 关联规则(Apriori、FP-Growth)
    • 回归(Linear Regression、Logistics Regression)
    • 决策树(ID3、C4.5、CART、GBDT、RandomForest)
    • SVM(各种核函数)
    • 推荐(User-CF、Item-CF)

推荐阅读:《集体智慧编程》、Andrew Ng — Machine Learning Coursera from Stanford

  • 广告业务知识
    • 了解各角色(Ad Exchange、DSP、SSP、DMP、监测)
    • 了解广告数据维度
    • 了解部门算法架构

推荐阅读:《踏潮算法培训》

基本功大考核:自主选题完成某一类数据抓取(如淘宝、携程、大众点评、58同城、百度竞价广告、世纪佳缘、链家等),对其进行统计分析并做 Presentation。

参考:

chenqin 答过的问题

小龙虾是怎么火遍全国的? - 数据冰山 - 知乎专栏

黄焖鸡米饭是怎么火起来的? - 何明科的回答

RIO是如何席卷大江南北的? - 数据冰山 - 知乎专栏

统一出品的调味茶饮料“小茗同学”能热卖有哪些因素? - 何明科的回答


特定岗位所需

系统工程师

  • Linux 基本命令及 Bash Shell

推荐阅读:《鸟哥的Linux私房菜》

  • C/C++
    • 代码规范
    • C++11新特性

推荐阅读:《踏潮C++代码规范》、《Effective C++/STL》

  • RPC框架
    • Thrift
    • Protobuf
  • Web框架
    • Nginx with FastCGI
    • Apache
    • Django
  • 数据存储
    • MySQL
    • MongoDB
    • Redis
    • Hadoop
    • HBase
    • Kafka
  • 网络编程
    • 多线程同步
    • 进程通信
    • 流处理
  • 分布式
    • 数据同步
    • Master-Slave
    • 竞选机制

算法工程师

  • Linux 基本命令及 Bash Shell
  • C/C++
    • 代码规范
    • C++11新特性

推荐阅读:《踏潮C++代码规范》、《Effective C++/STL》

  • 回归计算
    • 最大似然估计
    • 随机梯度下降
  • 分布式计算
    • MapReduce
  • 并行计算
    • 加速比评测
    • 可扩放性标准
    • PRAM模型
    • POSIX Threads
    • CUDA基础

数据挖掘工程师

  • 数据转换
    • 无量纲化
    • 归一化
    • 哑编码
  • 数据清洗
    • 判断异常值
    • 缺失值计算
  • 特征工程
    • 可用性评估
    • 采样
    • PCA/LDA
    • 衍生变量
    • L1/L2正则
    • SVD分解
  • 提升
    • Adaboost
    • 加法模型
    • xgboost
  • SVM
    • 软间隔
    • 损失函数
    • 核函数
    • SMO算法
    • libSVM
  • 聚类
    • K-Means
    • 并查集
    • K-Medoids
    • KNN
    • 聚谱类SC
  • EM算法
    • Jensen不等式
    • 混合高斯分布
    • pLSA
  • 主题模型
    • 共轭先验分布
    • 贝叶斯
    • 停止词和高频词
    • TF-IDF
  • 词向量
    • word2vec
    • n-gram
  • HMM
    • 前向/后向算法
    • Baum-Welch
    • Viterbi
    • 中文分词
  • 数据计算平台
    • Spark
    • Caffe
    • Tensorflow
  • 推荐阅读:周志华——《机器学习》
编辑于 2016-09-28 09:30