微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

FoolNLTK 中文处理工具包

程序名称:FoolNLTK

授权协议: Apache

操作系统: 跨平台

开发语言: Python

FoolNLTK 介绍


FoolNLTK

中文处理工具包

特点

  • 可能不是最快的开源中文分词,但很可能是最准的开源中文分词

  • 基于BiLSTM模型训练而成

  • 包含分词,词性标注,实体识别, 都有比较高的准确率

  • 用户自定义词典

Install

pip install foolnltk

使用说明

分词

import fool

text = 一个傻子在北京
print(fool.cut(text))
# ['一个', '傻子', '在', '北京']

命令行分词

python -m fool [filename]

用户自定义词典

词典格式格式如下,词的权重越高,词的长度越长就越越可能出现, 权重值请大于1

难受香菇 10
什么鬼 10
分词工具 10
北京 10
北京天安门 10

加载词典

import fool
fool.load_userdict(path)
text = 我在北京天安门看你难受香菇
print(fool.cut(text))
# ['我', '在', '北京天安门', '看', '你', '难受香菇']

删除词典

fool.delete_userdict();

词性标注

import fool

text = 一个傻子在北京
print(fool.pos_cut(text))
#[('一个', 'm'), ('傻子', 'n'), ('在', 'p'), ('北京', 'ns')]

实体识别

import fool

text = 一个傻子在北京
words, ners = fool.analysis(text)
print(ners)
#[(5, 8, 'location', '北京')]
  • 暂时只在python3 Linux 平台测试通过

FoolNLTK 官网

https://gitee.com/rockyzheng/FoolNLTK

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐