微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

Python jieba库分词模式怎么用?

Python是一种高级编程语言,具有简单易学、易维护、跨平台等优点,因此在数据分析、机器学习、自然语言处理等领域中被广泛使用。自然语言处理中最基本的就是分词,而jieba库就是Python中最常用的中文分词库之一。本文将从多个角度介绍Python jieba库分词模式的使用方法

1. 安装jieba库

在使用jieba库前,需要先安装。在命令行中输入以下命令即可:

```

pip install jieba

```

2. 简单分词

使用jieba库最简单的分词方法是cut()函数。这个函数接受两个参数,第一个参数是要分词的字符串,第二个参数是分词模式。认模式是精确模式,可以分出词语来。代码如下:

```

import jieba

sentence = "我喜欢Python"

words = jieba.cut(sentence)

print("/ ".join(words))

```

输出结果为:

```

我/ 喜欢/ Python

```

其中,/ 表示分词结果的分隔符。

3. 全模式分词

全模式分词是指将所有可能的词语都分出来,速度较快,但准确性较低。使用方法如下:

```

import jieba

sentence = "我喜欢Python"

words = jieba.cut(sentence,cut_all=True)

print("/ ".join(words))

```

输出结果为:

```

我/ 喜欢/ Python

```

4. 精确模式分词

精确模式是认的分词模式,速度较快,准确性较高。使用方法如下:

```

import jieba

sentence = "我喜欢Python"

words = jieba.cut(sentence,cut_all=False)

print("/ ".join(words))

```

输出结果与简单分词相同:

```

我/ 喜欢/ Python

```

5. 搜索引擎模式分词

搜索引擎模式在精确模式的基础上,对长词再次进行切分,增加了召回率。使用方法如下:

```

import jieba

sentence = "结过婚的和尚未结过婚的"

words = jieba.cut_for_search(sentence)

print("/ ".join(words))

```

输出结果为:

```

结/ 过婚/ 的/ 和/ 尚未/ 结过婚/ 的

```

6. 添加自定义词典

jieba库认的分词词典是基于大规模语料库和机器学习算法生成的,但是有些专业术语或者新词汇可能无法被分出。这时候可以添加自定义词典。

例如,我们要添加一个新词汇“黑马程序员”,可以在文件添加

```

黑马程序员 5 n

```

其中,“5”表示这个词汇的词频,可以自行设定;“n”表示这个词汇的词性,可以参考jieba库中的词性列表。

然后使用以下代码添加自定义词典:

```

import jieba

jieba.load_userdict("userdict.txt")

sentence = "黑马程序员是一家专业的IT培训机构"

words = jieba.cut(sentence)

print("/ ".join(words))

```

输出结果为:

```

黑马程序员/ 是/ 一家/ 专业/ 的/ IT/ 培训/ 机构

```

7. 关键词提取

除了分词之外,jieba库还可以提取文章的关键词。关键词提取是指从文章提取出最能反映文章主题的一些词汇。jieba库中的关键词提取方法是基于TF-IDF算法的。

使用方法如下:

```

import jieba.analyse

sentence = "结过婚的和尚未结过婚的"

keywords = jieba.analyse.extract_tags(sentence,topK=2)

print(keywords)

```

输出结果为:

```

['结过婚','未结']

```

其中,“topK”参数表示要提取的关键词数量

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐