论智
首发于论智
自然语言处理(NLP)数据集整理

自然语言处理(NLP)数据集整理

编者按:近日,国外几名网友整理了一份自然语言处理的免费/公开数据集(包含文本数据)清单,为防止大家错过这个消息,论智暂且把清单内容搬运如下。有需要的读者可直接收藏本文,或去github点个星星以示感谢。

Github:github.com/niderhoff/nlp-datasets/blob/master/README.md

注:原文中有一些疑似失效/错误的链接,本文已做删除处理。如发现链接错误,欢迎留言指出。

数据集

Apache Software Foundation公共邮件存档:截至2011年7月11日所有公开可用的Apache Software Foundation邮件存档(200 GB)

博客作者身份语料库:由2004年8月从blogger.com收集的19,320位博主的文章组成,共计681,288篇,字数超过1.4亿——平均每人35篇、7250字(298 MB)

亚马逊食品评论[Kaggle] :数据跨越10年以上,包括截至2012年10月的568,454条评论。内容包括产品、用户信息、评分以及纯文本评论(240 MB)。附:斯坦福大学论文

亚马逊评论:斯坦福收集了3500万条亚马逊评论,跨度18年(11 GB)

arXiv:所有归档的论文全文(270 GB)+源文件(190 GB)

ASAP自动短文评分[Kaggle]:共八个作文集,每一集作文都围绕一个主题展开。短文的平均长度为150到550个字。一些文章依赖于主题信息,另一些则是自由发挥。所有文章都是由7年级到10年级的学生撰写的,并经相关人员手工评分,有些还进行了双重评分(100 MB)

ASAP自动简答题评分:共十个数据集,每个数据集都是由单个提示生成的。平均长度为50个字。一些回答依赖于问题信息,另一些则是自由发挥。所有答案都是由10年级的学生撰写的,并经相关人员手动分级并进行双重评分(35 MB)

美国政客的社交媒体消息分类:收集了来自美国参议员和其他美国政客的数千条社交媒体消息,可按内容分类为目标群众(国家或选民)、政治主张(中立/两党或偏见/党派)和实际内容(如攻击政敌等)(4 MB)注:该网站还有其他大量CV、NLP和语音方面的小型数据集

CSI语料库:荷兰语,该语料库包含两种类型的学生文本:作文和评论。涉及作者(性别、年龄、性取向、来源地区、性格概况)和文档(时间、流派、真实性、情绪、等级)等大量元数据。由安特卫普大学CLiPS研究中心提供,主要用于计量文体学分析。

ClueWeb09 FACC:带有Freebase注释的ClueWeb09ClueWeb12语料库(72 GB)

ClueWeb11 FACC:带有Freebase标识符注释的ClueWeb11(92 GB)

AWS爬虫数据:收集了从2008以来抓取的50亿个网页的数据。其中自2013年开始,所有爬虫只持续一个月,数据以WARC文件格式存储。从2012年开始,抓取的数据还包含元数据(WAT)和文本数据(WET)提取,大大简化了数据处理(541 TB)

康奈尔电影对话语料库(Cornell Movie Dialog Corpus):包含从原始电影脚本中提取的虚构对话集:10,292对电影角色之间的220,579次会话交流、涉及617部电影中的9,035个字符,共304,713个句子。元数据极其丰富,包含流派、发布年份、IMDB评级、IMDB票数、性别、在电影积分榜上的位置。

crosswikis:英语短语相关的维基百科文章数据库、论文(11 GB)

DBpedia:包含从维基百科中提取出的结构化信息,包括312,000个人、413,000个地点、94,000张音乐专辑、49,000部电影、15,000种电子游戏、140,000个组织、146,000个物种和4600种疾病。共计10亿多条信息,其中2.57亿条来自维基百科英文版,7.66亿条来自其他语言版本(17 GB)

Death Row:包含美国德州自1984年以来每个执行死刑罪犯的遗言(HTML表格)

Del.icio.us:包含delicious.com上的125万个书签(170 MB)

社交媒体上有关灾难的消息:包含10,000条和灾难事故相关的带注释推特(2 MB)

经济新闻报道的基调和相关性:包含从1951年到2014年的经济新闻,可根据新闻报道判断该文章是否与美国经济情况相关,如果是,报道的基调是什么(12 MB)

Enron电子邮件集:包含1,227,255封电子邮件,其中493,384份附件覆盖了151名托管人。该电子邮件的格式为Microsoft PST、IETF MIME和EDRM XML(210 GB)

Event Registry:可以实时访问全球100,000个新闻源的新闻文章,有API(免费查询工具)

垃圾邮件/标题党新闻数据集[Kaggle]:新闻网站The Examiner上的新闻汇编,包含超过6年的21000多位作者撰写的300万篇文章的标题(200 MB)

联邦采购数据中心的联邦合同:来自管理联邦采购数据系统(FPDS-NG)的联邦采购数据中心(FPDC)的转储,真实性和准确性已受承诺(180 GB)

Flickr Personal Taxonomies:社交媒体上用户按个人喜好分类内容的树形数据集,包含7,121位Flickr的树(40 MB)

Freebase数据转储:是一个开放的世界信息数据库,包含电影、音乐、人物、地域在内的数百个类别的数百万个主题(26GB)

Freebase简单主题转储:关于Freebase中每个主题的基本识别事实的数据转储(5 GB)

Freebase Quad Dump:Freebase中所有当前事实和主张的数据转储(35 GB)

GigaOM Wordpress Challenge [Kaggle]:预测有人会喜欢哪些博客文章。包含博客文章、元数据、用户喜欢情况等信息(1.5 GB)

Google Books Ngrams:包含在整个语料库中出现超过40次的n-gram,优化了快速查询小组短语的用法(2.2 TB)

Google Web 5gram:包含n-gram及其观察到的频率计数。n-gram的长度从unigrams(单个单词)到5-gram,主要用于统计语言建模(24 GB)

Gutenberg EBooks:电子书基本信息的注释列表(2 MB)

哈佛图书馆:哈佛图书馆藏书记录已超过1,200万册,包括书籍、期刊、电子资料、手稿、档案资料、乐谱、音频、视频和其他资料(4GB)

仇恨言语识别:ICWSM 2017论文“自动仇恨语音检测和无礼语言问题”的作者贡献。包含3类短文本:a)包含仇恨言论;b)是冒犯性的,但没有仇恨言论;c)根本没有冒犯性。由15,000行文本构成,每个字符串都经过3人判断(3 MB)

希拉里克林顿的电子邮件[Kaggle]:美国国务院发布的近7,000页的希拉里·克林顿精心编辑的电子邮件(12 MB)

Home Depot产品搜索相关性[Kaggle]:包含Home Depot网站上的许多产品和真实客户的搜索关键词。每对词都经3名评估人员评估,并给出1—3的相关性评分,可用来预测相关性(65 MB)

识别文本中的关键短语:Question / Answer pairs + context;如果与问题/答案有关,则判断上下文关系(8 MB)

Jeopardy:包含216,930个危险问题(53 MB)

20万英语笑话文本:来源于各个地方的208,000个纯文本笑话

欧洲语言机器翻译:(612 MB)

材料安全数据表:230,000份材料安全数据表,包含化学成分、急救措施、储存和处理等信息(3 GB)

澳大利亚新闻标题[Kaggle]:包含15年内(2003年初至2017年)澳大利亚广播公司发布的130万条新闻的标题,深入研究关键词,可以看到所有塑造了过去十年的重要事件,以及它们随着时间的演变历程(56 MB)

MCTest:免费提供一组660个故事和相关问题,用于研究机器对文本的理解、回答问题(1 MB)

NEGRA:德语报刊文本的句法注释语料库,适用于所有大学和非营利组织,需要签署并发送表格才能获得

印度新闻标题[Kaggle]:汇编了2001年至2017年印度“泰晤士报”发表的270万条新闻的标题(185 MB)

新闻文章/维基百科页面配对:阅读一篇简短文章,并选出它和两篇维基百科文章中的哪一篇最接近(6 MB)

NIPS2015论文(第2版)[Kaggle]:所有NIPS2015论文全文(335 MB)

NYTimes Facebook数据:所有《纽约时报》的Facebook帖子(5 MB)

一周全球新闻馈送[Kaggle]:一周内(2017年8月24日至2017年8月30日)全球在线发布的大多新闻内容的快照,包括大约140万篇文章、20,000个新闻来源和20多种语言(115 MB)

句子/概念对的真实含义:用两个概念来读一个句子,例如“一只狗是一种动物”或“船长可以与主人具有相同的含义”,判断这句话是否属实,然后将结果排列为1-5五个等级(700 KB)

Open Library数据转储:包含Open Library中所有记录的最新版本的转储(16 GB)

Personae语料库:收集用于作者信息和个性预测的实验,由145名不同学生编写的145篇荷兰语文章组成,每个学生还参加了在线MBTI性格测试

Reddit评论:截至2015年7月的每个公开可用的书签评论,共计17亿条评论(250 GB)

Reddit评论(15年5月)[Kaggle]:上个数据集的子集(8 GB)

Reddit推荐帖语料库:从2006年1月至2015年8月31日所有公开可用的Reddit推荐帖(42 GB)

路透社语料库:包含大量路透社新闻报道,主要用于研究和开发自然语言处理、信息检索和机器学习系统。在2004年秋季,NIST接管了RCV1,所以现在需要向NIST发送请求并签署协议来获取这些数据集(2.5 GB)

SaudiNewsNet:包含从各种在线沙特报纸中摘录的31,030份阿拉伯文报纸文章及其元数据(2 MB)

短信垃圾邮件收集:是一个包含5,574英文单词,真实的、未附带附件的短信内容集,已合法进行标记(200 KB)

SouthparkData:带有脚本信息的.csv文件,包含《南方公园》季数、剧集、角色等信息(3.6 MB)

Stackoverflow:730万个stackoverflow问题+其他stackexchanges(查询工具)

Twitter Cheng-Caverlee-Lee Scrape:包含2009年9月至2010年1月twitter收集的基于内容的用户地理定位信息,包含115,886位Twitter用户和3,844,612个位置更新:经度、纬度(400 MB)

Twitter上关于新英格兰爱国者队泄气门(Deflategate)事件的情绪:新英格兰爱国者队在美国橄榄球联合会(AFC)决赛中击败印第安纳波利斯小马队,将在2月1号的超级碗大赛中迎战西雅图海鹰队。但是爱国者队被发现在这次比赛中使用的12个橄榄球有11个充气不足。这个数据集可用于观察丑闻爆发Twitter用户的情绪,以衡量公众对整个事件的看法(2 MB)

Twitter上激进分子情绪分析:关于诸如堕胎合法化、女权主义、希拉里·克林顿等各种左倾问题的推文,如果所述推文对该问题赞成、反对或保持中立,则将其分类(600 KB)

Twitter Sentiment140:与品牌/关键字相关的推文,网站上包括论文和研究想思路(77 MB)

Twitter的情绪分析:自驾车:阅读推文,将其分为非常积极的、轻微积极的、中性的、轻微消极的或非常消极的,并标记其是否与自驾车相关(1 MB)

Twitter东京地理定位推文:来自东京的20万条推文(47 MB)

Twitter UK Geolocated Tweets:来自英国的17万条推文。(47 MB)

Twitter美国地理定位推文:来自美国的20万条推文(45 MB)

Twitter美国航空公司情绪[Kaggle]:收集了twitter用户对于一些美国主要航空公司的评价情况。数据始于从2015年2月,评论者需选择正面、负面和中性中的一类,如有负面评价,再进行原因分类(如“晚班”或“粗鲁服务”)(2.5 MB)

基于新闻文章判断美国经济表现:新闻文章的标题和摘要与美国经济相关程度的排名(5 MB)

Urban Dictionary词汇和定义[Kaggle]:截至2016年5月,包含全部260万个Urban Dictionary的词汇定义、提交者和点赞数量的CSV语料库(238 MB)

WestburyLab USENET语料库:2005—2010年47,860篇英语新闻的匿名汇总,文章长度在500字和500,000字之间,英文单词占比高达90%(40 GB)

WestburyLab维基百科语料库(2010):包含2010年4月以前维基百科英文部分中的所有文章的快照,已经去除了所有链接和不相关的材料(导航文本等),但未经标记,是原始文本(1.8 GB)

WEX:英文维基百科的处理转储(66 GB)

维基百科XML数据:维基媒体基金会提供的完整副本,以wikitext源代码和嵌入XML的元数据形式提供(500 GB)

Yahoo! Answers Comprehensive Questions and Answers:2017年10月25日创建,包含4,483,032个问题及其答案(3.6 GB)

Yahoo! Answers consisting of questions asked in French:Yahoo! Answers corpus from 2006 to 2015的子集,包含170万个法语问题以及相应的答案(3.8 GB)

Yahoo! Answers Manner Questions:Yahoo! Answers corpus的子集,并根据语言属性进行选择,包含142,627个问题及其答案。(104 MB)

Yahoo!从公开可用网页中提取的HTML表单:包含一小部分含有复杂HTML表单的页面,共计267万个复杂表单(50+ GB)

Yahoo!从公开可用网页中提取元数据:RDF数据(2 GB)

Yahoo! N-Gram Representations:包含n-gram表示形式,这些数据可以作为查询重写任务的测试平台,这是IR研究中的一个常见问题,也是NLP研究中常见的单词和句子相似性任务(2.6 GB)

Yahoo! N-Grams 2.0:n-gram(n = 1至5),从1260多个面向新闻的站点中检索到的1460万个文档(1.26亿条独特语句,34亿个运行词)(12 GB)

Yahoo!搜索日志与相关性判断:匿名化的Yahoo!搜索日志与相关性判断(1.3 GB)

Yahoo!英语维基百科的语义注释快照:英文维基百科从2006年11月4日开始使用一些公开的NLP工具进行处理,共1,490,688个条目(6 GB)

Yelp:包括餐厅排名和220万条评论

YouTube:170万个YouTube视频的简介

主要来源

发布于 2018-04-08

文章被以下专栏收录

    专注于人工智能新技术、新应用 【公众号:论智 (jqr_AI) 】