Python数据分析及可视化实例之文本处理词频统计(27)

Python数据分析及可视化实例之文本处理词频统计(27)

系列文章总目录:Python数据分析及可视化实例目录


1.项目背景:

原本计划着爬某房产网站的数据做点分析,

结果数据太烂了,链家网的数据干净点,

但都是新开楼盘,没有时间维度,分析意义不大。

学习的步伐不能ting,自然语言处理还的go on


2.分析步骤:

(1)停用词,1028个,哪都搜得到

(2)from collections import Counter

(3)from wordcloud import WordCloud

(4)找一个txt文档玩一下呗,红楼梦不大不小,秒杀!


3.分析结果:


4.源码:

上面已经Import了,

注意WordCloud的坑就行,

等自然语言拿下了补充源码。


('道', 6370), ('说', 6132), ('宝玉', 3748), ('人', 2659), ('笑', 2481), ('听', 1767), ('好', 1647), ('一个', 1451), ('只', 1301), ('贾母', 1228), ('凤姐', 1100), ('倒', 1059), ('罢', 1048), ('忙', 1021), ('王夫人', 1011), ('说道', 973), ('知道', 967), ('老太太', 966), ('吃', 952), ('问', 943), ('儿', 942), ('姑娘', 941), ('事', 918), ('再', 901), ('众人', 870), ('一面', 829), ('太太', 825), ('只见', 789), ('奶奶', 772), ('两个', 769), ('走', 738), ('不知', 708), ('请', 689), ('听见', 689), ('贾琏', 670), ('话', 621), ('想', 606), ('坐', 603), ('告诉', 602), ('东西', 599), ('平儿', 588), ('袭人', 585), ('宝钗', 567), ('回来', 566), ('黛玉', 560), ('老爷', 540), ('只得', 531), ('下', 524), ('里', 513), ('丫头', 509), ('却', 507), ('不敢', 496), ('家', 484), ('凤姐儿', 470), ('些', 466), ('回', 454), ('薛姨妈', 453), ('送', 445), ('不好', 444), ('姐姐', 442), ('已', 433), ('探春', 432), ('月', 426), ('鸳鸯', 425), ('一时', 421), ('过来', 420), ('做', 405), ('心里', 402), ('死', 400), ('中', 399), ('二爷', 399), ('时', 395), ('瞧', 392), ('李', 383), ('作', 372), ('纨', 371), ('今日', 370), ('银子', 366), ('小', 360), ('几个', 358), ('答应', 358), ('二人', 356), ('皆', 351), ('贾政', 350), ('哭', 344), ('只管', 343), ('说话', 340), ('一回', 338), ('晴雯', 336), ('子', 333), ('找', 329), ('湘云', 324), ('这话', 317), ('外头', 317), ('打发', 310), ('住', 309), ('茶', 308), ('自然', 306), ('亦', 298), ('今儿', 297), ('屋里', 295), ('刘姥姥', 293), ('听说', 290), ('钱', 289), ('无', 287), ('小丫头', 287), ('先', 286), ('邢夫人', 284), ('睡', 283), ('贾珍', 281), ('林黛玉', 280), ('问道', 277), ('看见', 274), ('紫鹃', 273), ('妹妹', 272), ('后', 265), ('不用', 264), ('媳妇', 263), ('香菱', 258), ('字', 257), ('原来', 257), ('一声', 253), ('一句', 253), ('家里', 252), ('闹', 250), ('心', 249), ('完', 248), ('这会子', 248), ('命', 245), ('病', 242), ('麝', 241), ('姊妹', 240), ('正', 238), ('袭', 237), ('回去', 237), ('劝', 236), ('明儿', 235), ('丫鬟', 234), ('过去', 232), ('连忙', 231), ('站', 230), ('心中', 229), ('婆子', 226), ('尤氏', 225), ('里头', 224), ('使', 222), ('毕', 222), ('小厮', 222), ('哥哥', 221), ('身上', 220), ('有人', 218), ('起身', 218), ('一件', 215), ('这是', 215), ('头', 213), ('写', 213), ('跑', 213), ('明白', 212), ('众', 211), ('一日', 211), ('已经', 210), ('遂', 209), ('气', 207), ('跟前', 204), ('瞧瞧', 201), ('早', 197), ('越发', 197), ('骂', 194), ('拉', 194), ('薛蟠', 193), ('不肯', 192), ('只怕', 191), ('主意', 189), ('喜欢', 188), ('好些', 188), ('吩咐', 187), ('贾赦', 183), ('便是', 181), ('母亲', 181), ('弄', 179), ('此时', 177), ('一处', 176), ('看着', 170), ('周瑞家', 170), ('贾政道', 170), ('不见', 168), ('想着', 168), ('放心', 166), ('素日', 166), ('手', 163), ('喝', 162), ('还要', 161), ('在家', 160), ('人来', 160), ('忘', 159), ('女儿', 159), ('明日', 159), ('不觉', 158), ('房中', 157), ('且说', 157), ('言语', 155), ('袭人道', 153), ('急', 152), ('放', 152), ('想起', 151), ('贾芸', 150), ('唬', 149), ('半日', 148), ('正是', 147), ('许多', 147), ('忽', 145), ('跟着', 145), ('走来', 144), ('原', 144), ('贾蓉', 143), ('林之孝', 143), ('一会', 142), ('正说', 141), ('雨村', 140), ('夫人', 140), ('迎春', 140), ('酒', 140), ('接', 139), ('偏', 139), ('打听', 137), ('大爷', 137), ('奴才', 137), ('点头', 136), ('顽', 135), ('预备', 135), ('下来', 135), ('前', 134), ('黛玉道', 134), ('天天', 134), ('请安', 134), ('日', 133), ('看时', 132), ('回家', 132), ('林姑娘', 132), ('赵姨娘', 132), ('父亲', 131), ('散', 131), ('嫂子', 131), ('收拾', 131), ('诗', 131), ('十分', 130), ('年纪', 129), ('孩子', 129), ('贾母笑', 129), ('坐下', 129), ('悄悄的', 129), ('昨儿', 129), ('疼', 128), ('喜', 127), ('前儿', 127), ('外面', 126), ('糊涂', 126), ('生气', 125), ('房里', 125), ('更新', 124), ('伏侍', 124), ('冷笑', 124), ('时间', 123), ('大学生', 122), ('小说网', 122), ('丢', 122), ('次日', 122), ('宝钗道', 122), ('手机', 121), ('电子书', 121), ('儿子', 121), ('一天', 121), ('2006', 120), ('26', 120), ('11', 120), ('43', 120),
('00', 120), ('本章', 120), ('字数',
120), ('不可', 120), ('忽见', 120),
('不许', 120), ('以后', 120), ('意思', 120), ('烟', 119), ('和尚', 118), ('坐在', 118), ('茗', 117), ('未', 116), ('知', 116), ('花', 116), ('回头', 116), ('各处', 116), ('安', 116), ('正在', 116), ('薛', 116), ('衣服', 116), ('园里', 116), ('反', 115), ('原故', 115), ('穿', 115), ('兄弟', 115), ('爱', 114), ('真', 114), ('大夫', 114), ('将来', 114), ('买', 114), ('叹', 113), ('却是', 113), ('莺', 113), ('家人', 112), ('要紧', 112), ('地下', 112), ('开', 112), ('早已', 111), ('少不得', 111), ('商议', 110), ('昨日', 110), ('里面', 110), ('姨太太', 110), ('脸', 110), ('一看', 109), ('甚', 109), ('吃饭', 109), ('派', 109), ('年', 108), ('处', 108), ('哥儿', 108), ('妈妈', 107), ('无人', 106), ('地方', 105), ('因问', 105), ('进', 105), ('官', 105), ('应', 105), ('老婆子', 105), ('捧', 104), ('愿意', 104), ('难', 104), ('园中', 104), ('书', 103), ('上头', 103), ('陪', 102), ('炕', 102), ('一想', 102), ('宝', 102), ('想来', 101), ('一夜', 101), ('哄', 101), ('赶着', 100), ('宝钗笑', 100), ('金桂', 100), ('信', 99), ('象', 99), ('算', 98), ('主子', 98), ('一遍', 97), ('遇见', 97), ('总', 97), ('事情', 97), ('亲戚', 97), ('拣', 97), ('提', 97), ('曾', 96), ('父母', 96), ('一口', 96), ('一年', 96), ('玉', 96), ('日子', 96), ('前日', 96), ('不依', 96), ('宝二爷', 96), ('芳官', 96), ('衣裳', 95), ('黛玉笑', 95), ('嘴', 95), ('娶', 94), ('认得', 94), ('三个', 94), ('香', 94), ('便命', 94), ('林妹妹', 94), ('手里', 94), ('可不是', 94), ('贾环', 94), ('一点', 93), ('四个', 93), ('赏', 93), ('实在', 92), ('恐', 92), ('家中', 92), ('干', 92), ('不想', 92), ('不便', 91), ('好生', 91), ('提起', 91), ('高兴', 91), ('尤二姐', 91), ('一场', 90), ('收', 90), ('可巧', 90), ('二则', 90), ('婶子', 90), ('园子', 90), ('几年', 89), ('竟是', 89), ('陪笑', 89), ('欲', 89), ('现在', 89), ('这件', 89), ('琏', 88), ('底下', 88), ('正要', 88), ('光景', 87), ('药', 87), ('伤心', 87), ('身子', 87), ('伺候', 87), ('太', 87), ('一齐', 87), ('女人', 87), ('下回分解', 87), ('上面', 86), ('俱', 86), ('心下', 86), ('歇', 86), ('小姐', 86), ('门', 86), ('姨娘', 86), ('宝琴', 86), ('只好', 85), ('一见', 85), ('递', 85), ('吃酒', 84), ('秦钟', 84), ('怡红院', 83), ('每日', 82), ('书房', 82), ('料理', 82), ('来回', 82), ('不理', 82), ('史湘云', 82), ('轿', 81), ('惜春', 81), ('饭', 81), ('少', 81), ('几日', 81), ('姨妈', 81), ('上卷', 80), ('生', 80), ('有个', 80), ('那日', 80), ('扶', 80), ('老祖宗', 80), ('笑话', 80), ('这般', 80), ('横竖', 80), ('两日', 79), ('最', 79), ('外', 79), ('来说', 79), ('侄


老鸟可去另一专栏:Python中文社区


新手可查阅历史目录:

yeayee:Python数据分析及可视化实例目录zhuanlan.zhihu.com图标



最后,别只收藏不关注哈

编辑于 2019-05-08

文章被以下专栏收录