手把手教你对抓取的文本进行分词、词频统计、词云可视化和情感分析

来源：步遥情感网

点击上方“Python爬虫与数据挖掘”，进行关注

回复“书籍”即可获赠Python从入门到进阶共10本电子书

今

日

鸡

汤

苍苍竹林寺，杳杳钟声晚。

大家好，我是Python进阶者。

前几天星耀群有个叫【小明】的粉丝在问了一道关于Python处理文本可视化+语义分析的问题，如下图所示。

关于词云的文章，历史文章已经写了十几篇了，感兴趣的话可以在公众号历史文章搜索关键字“词云”前往，但是关于分词和语义分析的文章，就分享过一篇，这个我在读研的时候写的，虽然有些时日，但是内容依旧精彩，欢迎前往查探：。

内容稍微有点多，大体思路如下，先将csv中的文本取出，之后使用停用词做分词处理，再做词云图，之后做情感分析。

1、将csv文件中的文本逐行取出，存新的txt文件，这里运行代码《读取csv文件中文本并存txt文档.py》进行实现，得到文件《职位表述文本.txt》

2、运行代码《使用停用词获取最后的文本内容.py》，得到使用停用词获取最后的文本内容，生成文件《职位表述文本分词后_outputs.txt》

3、运行代码《指定txt词云图.py》，可以得到词云图；

4、运行代码《jieba分词并统计词频后输出结果到Excel和txt文档.py》，得到《wordCount_all_lyrics.xls》和《分词结果.txt》文件，将《分词结果.txt》中的统计值可以去除，生成《情感分析用词.txt》，给第五步情感分析做准备

5、运行代码《情感分析.py》，得到情感分析的统计值，取平均值可以大致确认情感是正还是负。

关于本文的源码和数据我都已经打包好上传到git了，在公众号后台回复关键词小明的数据即可获取。

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文