论智
首发于论智
ACL 2018资源:100+ 预训练的中文词向量

ACL 2018资源:100+ 预训练的中文词向量

编者按:之前论智曾出过一份自然语言处理(NLP)数据集整理,许多读者看完后都在留言中表达了对中文资源的期待,结果今天小编就在Gitbub上发现了个大宝贝。同样的,为了防止大家错过这份资料,小编把这篇100+ Chinese Word Vectors搬运过来,希望对大家有所帮助。

Github地址:github.com/Embedding/Chinese-Word-Vectors

我们先来了解一些基本背景:ACL 2018将于7月15日至20日在澳大利亚墨尔本举办,作为自然语言处理领域的顶级国际会议,今年大会共收到1018份long papers和526篇short papers,并从中收录了256篇long papers和126篇short papers,整体接受率为24.9%,和去年基本持平。

目前大会官网已列出所有收录的论文,但由于部分论文尚未公开,论智暂时无法总结收录情况。其中贡献本文资源的论文Analogical Reasoning on Chinese Morphological and Semantic Relations就是本届大会接受的一篇short paper,截至发文前小编还未在arxiv上找到相关内容。

以下内容由Shen Li, Zhe Zhao, Renfen Hu, Wensi Li, Tao Liu, Xiaoyong Du发布于github,感谢他们的分享。

ACL 2018:贡献数据集的论文

本项目提供了一些用不同语言表示(密集的、稀疏的)、上下文特征(单词、n-gram、字符等)和语料库训练好的中文词向量(嵌入),有需要的开发者可以把这些具有不同属性的预训练数据用于各类下游任务。

此外,我们也提供了一个中文类比推理数据集CA8和评估工具包,用户可以用它们来评估词向量的质量。

格式

预训练数据的格式是文本文档,文档的每一行包含一个词语和对应向量。每个值由空格分隔。第一行记录元信息:第一个数字表示文档中的词语个数,第二个表示向量大小。

除了密集词向量(用SGNS训练),我们同样也提供了稀疏词向量(用PPMI训练)。它们和liblinear的格式相同,前面的数字表示维度索引,冒号后面的数字表示具体值。

预训练的中文词向量

基础设置

Window Size(5)

Dynamic Window(Yes)

Sub-sampling(1e-5)

Low-Frequency Word(10)

Iteration(5)

各资源地址

用不同语言表示(密集的、稀疏的)、上下文特征(单词、n-gram、字符等)和语料库训练好的中文词向量。

百度百科:300300d300d,300d

中文维基百科:300d300d300d,300d

人民日报:300d300d300d,300d

搜狗新闻:300d300d300d,300d

金融新闻:300d300d,300d,300d

知乎问答:300d300d300d,300d

文学作品:300d300d,300d,300d

四库全书*:300d,300d,NAN,NAN

综合:300d,300d,300d,300d

百度百科:300d,300d,300d,300d

中文维基百科:300d300d300d,300d

人民日报:300d300d300d,300d

搜狗新闻:300d300d300d,300d

金融新闻:300d,300d,300d,300d

知乎问答:300d300d300d,300d

微博:300d,300d,300d,300d

文学作品:300d300d,300d,300d

四库全书*:300d,300d,NAN,NAN

综合:300d,300d,300d,300d

其中带*的提供了字符嵌入,因为大部分汉字都是繁体字。

各类共现信息

我们根据不同的共现数据制作了一些词向量,在一些相关论文中,下表中的Target Word Vectors和Context Word Vectors也常被描述为输入向量和输出向量。

用户可从下表中获得除了单词以外的任意语言单位的词向量,如上下文。所有向量都是用SGNS在百度百科语料库上训练所得。

Word——Word → Word:300d300d

Ngram——Word → Ngram (1-2):300d300d

Ngram——Word → Ngram (1-3):300d,300d

Ngram——Ngram (1-2) → Ngram (1-2):300d300d

Character——Word → Character (1):300d300d

Character——Word → Character (1-2):300d300d

Character——Word → Character (1-4):300d300d

Radical——Radical:300d,300d

Position——Word → Word (left/right):300d300d

Position——Word → Word (distance):300d300d

Global——Word → Text:300d,300d

Syntactic Feature——Word → POS:300d,300d

Syntactic Feature——Word → Dependency:300d,300d

表示

所有词的语言表示都分为密集稀疏两种,而SGNS模型(word2vec工具包中的一个模型)和PPMI模型是分别对应这两种表示的典型方法。SGNS模型通过浅层神经网络训练低维真实(密集)向量,它也被称为神经嵌入方法。PPMI模型则是一种稀疏的特征表示,通过PPM加权方案进行加权。

上下文特征

如表中所示,我们把上下文特征分成了三类:word、ngram和Character。其中word表示一般用词与词的共现数据统计,这被称为把单词作为上下文特征(单词特征)。受语言建模问题的启发,我们在上下文中引入了ngram特征,即把词与词和词与ngram共现统计都用于训练(ngram特征)。对于中文来说,汉字通常具有强烈的表意性,所以在之前的基础上,我们也试着使用词与词和词与字的共现统计来学习词向量。字符级ngram的长度范围是1—4(字符特征

除了word、ngram和Character之外,还有一些特征会对词向量产生具有实质性的影响,如把整个文本作为上下文特征可以把更多主题信息引入词向量;把依赖关系解析作为特征可以为词向量添加语法约束……本项目共统计了17中共现类型。

语料库

我们努力收集了各个领域的语料库,所有文本数据都已经通过删除html和xml标签进行了预处理,只保留纯文本,且经HanLP V1.5.3分词。详细的语料库信息如下所示:

百度百科:baike.baidu.com

中文维基百科:dumps.wikimedia.org/

人民日报:data.people.com.cn/

搜狗新闻:www.sogou.com/labs/

知乎问答:www.zhihu.com/

微博:www.nlpir.org/download/weibo.7z

囊括了所有词,包括低频词。

工具包

所有的单词向量都由ngram2vec工具包进行训练。

中文词类比基准

评价词向量质量的一种常见方法是评测模型在一些语义或语法类比问题上的余弦相似度距离。在这个项目中,我们提供了两个基准用于评估。一个是CA-translated,其中的大部分类比问题都是直接从英语转换而来。虽然CA-translated已被广泛使用,但它的缺点是只包含3个语义问题和134个中文词汇。相比之下,CA8是专为中文设计的,它包含17813个类比问题,涵盖几乎所有形态和语义关系。

参考

如果需要用到这些词向量和CA8数据集,请在参考文献中列出这篇论文:

Shen Li, Zhe Zhao, Renfen Hu, Wensi Li, Tao Liu, Xiaoyong Du, Analogical Reasoning on Chinese Morphological and Semantic Relations, ACL 2018.
发布于 2018-05-14

文章被以下专栏收录

    专注于人工智能新技术、新应用 【公众号:论智 (jqr_AI) 】