python生成词云教程(附带QQ聊天记录生成词云实战)

关注公众号【算法码上来】,每日算法干货马上就来!

很多同学对词云很感兴趣,就是给一段文本,然后根据它的词频,生成出好看的词云,就像下面这张图一样:

生成这个其实很简单,python代码我已经放在github上面了,大家下载下来就能直接用:地址

下面我讲讲怎么使用这个代码。

环境配置

首先需要python3环境,推荐使用Anaconda安装。

然后需要jiebawordcloud库,所以运行下面两条命令安装两个库:
pip3 install jieba
pip3 install wordcloud

文件目录

这个代码文件夹是如下结构:

  • data
    • templates
      这个文件夹下放所有你词云想要的样式图片,背景色最好简单一点。
    • stopwords.txt
      这是停止词文件,对于你不想在词云中出现的词,你都可以添加到这个文件中过滤掉它。
  • fonts
    这个文件夹下放词云中显示的字体。
  • create_word_cloud.py
    这是词云的主代码。
  • preprocess.py
    这是用来预处理QQ聊天记录的。

使用方法

对于一般的文本文件,直接运行python3 create_word_cloud.py filename.txt就能生成词云了,效果如下:

生成QQ聊天记录词云

首先打开消息记录,点击下方的消息管理器:

然后在需要导出的聊天对象上面右键点击导出消息记录:

然后保存类型选择txt,点保存,并将文件保存在wordcloud根目录下:

然后打开命令行运行python3 preprocess.py filename.txt,用来去掉聊天记录中的昵称和时间等信息:

最后运行python3 create_word_cloud.py __filename.txt就能生成词云了。


   转载规则


《python生成词云教程(附带QQ聊天记录生成词云实战)》 韦阳 采用 知识共享署名 4.0 国际许可协议 进行许可。
 上一篇
Do latent tree learning models identify meaningful structure in sentences? Do latent tree learning models identify meaningful structure in sentences?
关注公众号【算法码上来】,每日算法干货马上就来! 论文地址:Do latent tree learning models identify meaningful structure in sentences? 本文是一篇分析类论文,主
2019-08-05
下一篇 
Unsupervised Latent Tree Induction with Deep Inside-Outside Recursive Autoencoders Unsupervised Latent Tree Induction with Deep Inside-Outside Recursive Autoencoders
关注公众号【算法码上来】,每日算法干货马上就来! 论文地址:Unsupervised Latent Tree Induction with Deep Inside-Outside Recursive Autoencoders代码地址:
2019-07-25
  目录