微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

Python jieba分词怎么添加自定义词和去除不需要长尾词

这篇“Python jieba分词怎么添加自定义词和去除不需要长尾词”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“Python jieba分词怎么添加自定义词和去除不需要长尾词”文章吧。

通过如下代码,读取一个txt的高频词汇:

            # 找到高频词汇
            tmp_content = self.getContent(tmp_path)
            keyword_list = tmp_content.split('\n')
            word_count = dict()
            for keyword in keyword_list:
                for word,flag in jp.cut(keyword):
                    if word in word_count:
                        word_count[word] = word_count[word] +1
                    else:
                        word_count[word] =1
            for word, count in word_count.items():
                print('%s\t%s' % (word,count))

很多情况下 jieba它不知道一些词汇,比如说获得的词汇如下

建立可视化 是2个独立的单词

Python jieba分词怎么添加自定义词和去除不需要长尾词

一、添加自定义

通过添加自定义

import jieba
import jieba.posseg as jp
jieba.load_userdict(r'jieba_dict.txt')

Python jieba分词怎么添加自定义词和去除不需要长尾词

就可以看到,统计出来的词是这个自定义

Python jieba分词怎么添加自定义词和去除不需要长尾词

二、去除不需要长尾词

有时 统计出来的某些词汇jieba认为是一个词汇 但是此时 我想让他变为多个词汇 ,可以通过如下代码实现:

import jieba
import jieba.posseg as jp
jieba.del_word('创建活动')

此时 jieba 就会不认定 创建活动一个词,它会将它们分开统计

Python jieba分词怎么添加自定义词和去除不需要长尾词

以上就是关于“Python jieba分词怎么添加自定义词和去除不需要长尾词”这篇文章内容,相信大家都有了一定的了解,希望小编分享内容对大家有帮助,若想了解更多相关的知识内容,请关注编程之家行业资讯频道。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐