Gryffindor
首发于Gryffindor
斯坦福CS224N深度学习自然语言处理(四)--上

斯坦福CS224N深度学习自然语言处理(四)--上

国内视频地址斯坦福CS224N深度学习自然语言处理课程(四)词窗分类与神经网络
(这节课开始时用很大的篇幅去回顾些基础,分类的知识和softmax等。)
(对语义的vector做分类)
(SVM只选自己喜欢的男神,Softmax把所有备胎全部拉出来评分,最后还归一化一下。---知乎·王晨琛)

(从上面这里也可以看出softmax就是logistic的扩展。)

softmax相关参考:

softmax-ufldl
Softmax 函数的特点和作用是什么?
Softmax classifier (无隐含层)


关于KL散度:

(交叉熵=熵+KL散度。这里有些存疑。)

KL散度并非distance,具有非对称性,来刻画两个概率分布间的差异。

(既然是刻画两个分布的差异,为什么又具有非对称性呢?

在信息论中,D(P||Q)表示当用概率分布Q来拟合真实分布P时,产生的信息损耗,其中P表示真实分布,Q表示P的拟合分布。)

KL参考信息:相对熵_百度百科

(视频中,称这个图是ML学习过程中最重要的图之一。。)

(对一个word进行分类时,也要考虑其邻居。)

注意右侧的两个变量的维度。我的理解:input是window,即在这里为1*5d。w:C*5d,然后output为1*C。这里的C即为分类的个数。

由此,引出NN处理更加复杂的情形。

发布于 2017-06-08

文章被以下专栏收录