文本分类(情感分析)中文数据集汇总

文本分类(情感分析)中文数据集汇总

来自我的博客:

https://blog.csdn.net/alip39blog.csdn.net


1.THUCNews数据集:

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。使用THUCTC工具包在此数据集上进行评测,准确率可以达到88.6%。

数据集地址: thuctc.thunlp.org/

2.今日头条新闻文本分类数据集:

数据来源:今日头条客户端 数据规模:共382688条,分布于15个分类中。 数据格式:6552431613437805063_!_102_!_news_entertainment_!_谢娜为李浩菲澄清网络谣言,之后她的两个行为给自己加分_!_佟丽娅,网络谣言,快乐大本营,李浩菲,谢娜,观众们

每行为一条数据,以_!_分割的个字段,从前往后分别是 新闻ID,分类code(见下文),分类名称(见下文),新闻字符串(仅含标题),新闻关键词

数据集地址github.com/fate233/tout

3.全网新闻数据(SogouCA):

来自若干新闻站点2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供URL和正文信息

数据格式为

<doc>
<url>页面URL</url>
<docno>页面ID</docno>
<contenttitle>页面标题</contenttitle>
<content>页面内容</content>
</doc>
注意:content字段去除了HTML标签,保存的是新闻正文文本

数据集地址: sogou.com/labs/resource

4.搜狐新闻数据(SogouCS):

来自搜狐新闻2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供URL和正文信息

数据格式为
<doc>
<url>页面URL</url>
<docno>页面ID</docno>
<contenttitle>页面标题</contenttitle>
<content>页面内容</content>
</doc>
注意:content字段去除了HTML标签,保存的是新闻正文文本

数据集地址: sogou.com/labs/resource

5.ChnSentiCorp_htl_all数据集:

7000 多条酒店评论数据,5000 多条正向评论,2000 多条负向评论

数据字段:
Label:1表示正向评论,0表示负向评论
Review:评论内容


数据集地址: raw.githubusercontent.com

6.waimai_10k数据集:

某外卖平台收集的用户评价,正向4000 条,负向约 8000 条

数据字段:

Label:1表示正向评论,0表示负向评论
Review:评论内容


数据集地址: raw.githubusercontent.com

7.online_shopping_10_cats数据集:

10 个类别(书籍、平板、手机、水果、洗发水、热水器、蒙牛、衣服、计算机、酒店),共 6 万多条评论数据,正、负向评论各约 3 万条


数据集下载地址: github.com/SophonPlus/C

8.weibo_senti_100k数据集:

10 万多条,带情感标注 新浪微博,正负向评论约各 5 万条。


数据集下载地址: github.com/SophonPlus/C

9.simplifyweibo_4_moods数据集:

36 万多条,带情感标注 新浪微博,包含 4 种情感,其中喜悦约 20 万条,愤怒、厌恶、低落各约 5 万条




数据集下载地址: pan.baidu.com/s/16c93E5

10.dmsc_v2数据集:

28部电影,超70万用户,超200万条评分/评论数据




数据集地址pan.baidu.com/s/1c0yn3T

原始数据集地址kaggle.com/utmhikari/do

11.yf_dianping数据集:

24 万家餐馆,54 万用户,440 万条评论/评分数据

数据集地址pan.baidu.com/s/1yMNvHL 原始数据集地址yongfeng.me/dataset/

12.yf_amazon数据集:

52 万件商品,1100 多个类目,142 万用户,720 万条评论/评分数据


原始数据集地址yongfeng.me/dataset/ 数据集地址pan.baidu.com/s/1SbfpZb

13.Datahub数据中心:

包含文本分类、情感分析以及知识图谱的数据集

相关地址datahub.ileadall42.com/

14.知乎看山杯数据集:

数据集下载地址pan.baidu.com/s/1qUr6IQ 提取码: qbiw

15.AI_challenger情感分析数据集:

数据集分为训练、验证、测试A与测试B四部分。数据集中的评价对象按照粒度不同划分为两个层次,层次一为粗粒度的评价对象,例如评论文本中涉及的服务、位置等要素;层次二为细粒度的情感对象,例如“服务”属性中的“服务人员态度”、“排队等候时间”等细粒度要素。

数据集下载地址github.com/nju161250102

16.复旦中文文本分类语料库

数据链接:pan.baidu.com/s/1833mT2 密码:zyxa

发布于 2019-08-27