BAT机器学习面试1000题系列(106-110题)

106.做过什么样的机器学习项目?比如如何从零构建一个推荐系统 这里有一个推荐系统的公开课julyedu.com/video/play/,另,再推荐一个课程:机器学习项目班 [10次纯项目讲解,100%纯实战]


107.什么样的资料集不适合用深度学习? @抽象猴,来源:zhihu.com/question/4123

a.数据集太小,数据样本不足时,深度学习相对其它机器学习算法,没有明显优势。

b.数据集没有局部相关特性,目前深度学习表现比较好的领域主要是图像/语音/自然语言处理等领域,这些领域的一个共性是局部相关性。图像中像素组成物体,语音信号中音位组合成单词,文本数据中单词组合成句子,这些特征元素的组合一旦被打乱,表示的含义同时也被改变。对于没有这样的局部相关性的数据集,不适于使用深度学习算法进行处理。举个例子:预测一个人的健康状况,相关的参数会有年龄、职业、收入、家庭状况等各种元素,将这些元素打乱,并不会影响相关的结果。


108.广义线性模型是怎被应用在深度学习中? @许韩,来源:zhihu.com/question/4123
A Statistical View of Deep Learning (I): Recursive GLMs
深度学习从统计学角度,可以看做递归的广义线性模型。
广义线性模型相对于经典的线性模型(y=wx+b),核心在于引入了连接函数g(.),形式变为:y=g−1(wx+b)。
深度学习时递归的广义线性模型,神经元的激活函数,即为广义线性模型的链接函数。逻辑回归(广义线性模型的一种)的Logistic函数即为神经元激活函数中的Sigmoid函数,很多类似的方法在统计学和神经网络中的名称不一样,容易引起初学者(这里主要指我)的困惑。下图是一个对照表


109.准备机器学习面试应该了解哪些理论知识 @穆文,来源:zhihu.com/question/6248


看下来,这些问题的答案基本都在本BAT机器学习面试1000题系列里了。


110.标准化与归一化的区别?

简单来说,标准化是依照特征矩阵的列处理数据,其通过求z-score的方法,将样本的特征值转换到同一量纲下。归一化是依照特征矩阵的行处理数据,其目的在于样本向量在点乘运算或其他核函数计算相似性时,拥有统一的标准,也就是说都转化为“单位向量”。规则为l2的归一化公式如下:

特征向量的缺失值处理
1. 缺失值较多.直接将该特征舍弃掉,否则可能反倒会带入较大的noise,对结果造成不良影响。
2. 缺失值较少,其余的特征缺失值都在10%以内,我们可以采取很多的方式来处理:
1) 把NaN直接作为一个特征,假设用0表示;
2) 用均值填充;
3) 用随机森林等算法预测填充

编辑于 2017-12-01

文章被以下专栏收录