python使用jieba实现中文文档分词和去停用词

系统 1727 0
阅读更多

 

  分词工具的选择:

  现在对于中文分词,分词工具有很多种,比如说: jieba分词、thulac、SnowNLP等。在这篇文档中,笔者使用的jieba分词,并且基于python3环境,选择jieba分词的理由是其比较简单易学,容易上手,并且分词效果还很不错。

 

分词前的准备:

待分词的中文文档

存放分词之后的结果文档

中文停用词文档(用于去停用词,在网上可以找到很多)

 

分词之后的结果呈现:


python使用jieba实现中文文档分词和去停用词_第1张图片
 

图1  去停用词和分词前的中文文档


python使用jieba实现中文文档分词和去停用词_第2张图片
 

2去停用词和分词之后的结果文档

 

分词和去停用词代码实现:


python使用jieba实现中文文档分词和去停用词_第3张图片
 

3

转载自: https://www.cnblogs.com/zuixime0515/p/9221156.html

 

  • python使用jieba实现中文文档分词和去停用词_第4张图片
  • 大小: 8.9 KB
  • python使用jieba实现中文文档分词和去停用词_第5张图片
  • 大小: 7.5 KB
  • python使用jieba实现中文文档分词和去停用词_第6张图片
  • 大小: 83.6 KB
  • 查看图片附件

更多文章、技术交流、商务合作、联系博主

微信扫码或搜索:z360901061

微信扫一扫加我为好友

QQ号联系: 360901061

您的支持是博主写作最大的动力,如果您喜欢我的文章,感觉我的文章对您有帮助,请用微信扫描下面二维码支持博主2元、5元、10元、20元等您想捐的金额吧,狠狠点击下面给点支持吧,站长非常感激您!手机微信长按不能支付解决办法:请将微信支付二维码保存到相册,切换到微信,然后点击微信右上角扫一扫功能,选择支付二维码完成支付。

【本文对您有帮助就好】

您的支持是博主写作最大的动力,如果您喜欢我的文章,感觉我的文章对您有帮助,请用微信扫描上面二维码支持博主2元、5元、10元、自定义金额等您想捐的金额吧,站长会非常 感谢您的哦!!!

发表我的评论
最新评论 总共0条评论