Gryffindor
首发于Gryffindor
(No.39)N问word2vec

(No.39)N问word2vec

写在前面

之前的《N问GBDT》是关注度比较高的,铺天盖地各种讲解资料伸手可得,但却没有一个checklist来检测自己到底了解多少的文章。

所以今天仿照前文,也写一篇《N问Word2Vec》,后续也会不断添加新的问题。


具体问题

  1. one-hot representation两个缺点。
  2. 从逻辑本质上,如何理解词向量。
  3. 训练word2vec的两种模型,以及两者框架。
  4. Word2vec的基础性假设。
  5. 简述神经概率模型的主体流程。
  6. 如何评估词向量的好坏。
  7. 与n-gram模型相比,神经概率模型有什么优势。
  8. 评估神经概率模型计算的训练量。
  9. 神经概率模型的运算开销主要在哪里,复杂度是多少。
  10. 神经概率模型如何更新作为输入的词向量。
  11. 为什么要是用huffman树。如何构建huffman树?
  12. output和huffman树表示的结果是如何匹配,计算loss的?
  13. 为什么要使用Hierarchical Softmax 或 Negative Sampling。
  14. Hierarchical Softmax的缺点。
  15. 简述Hierarchical Softmax+CBOW/skip-gram的整体流程。以及两个流程间的区别。
  16. CBOW和skip-gram相较而言,彼此相对适合哪些场景。
  17. Hierarchical Softmax+skip-gram,是等context(w)中所有词处理完后再刷新v(w),还是每处理一个词,就刷新一次v(w)?
  18. Hierarchical Softmax和Negative Sampling最大似然函数。
  19. Hierarchical Softmax梯度的推导。
  20. Hierarchical Softmax是如何更新参数和词向量的。
  21. Hierarchical Softmax的算法流程。
  22. Negative Sampling的算法流程。
  23. Negative Sampling梯度的推导。
  24. Negative Sampling是如何进行负采样的。
  25. word2vec如何处理语料中的高频词和低频词的。
  26. Hierarchical Softmax和Negative Sampling哪些代码是可以复用共享的。
  27. Mikolov实现的代码中有哪些trick。或者你有哪些trick。
  28. word2vec几个模型的目标函数中均未考虑正则项,如果加入正则的话,会怎么样。
  29. 若是动态语料库的话,增量进行训练,需要怎样调整现有的框架。

(会不断更新..)

文章被以下专栏收录