微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

imdict-chinese-analyzer 智能中文分词模块

程序名称:imdict-chinese-analyzer

授权协议: Apache

操作系统: 跨平台

开发语言: Java

imdict-chinese-analyzer 介绍

imdict-chinese-analyzer 是 imdict智能词典
的智能中文分词模块,算法基于隐马尔科夫模型(Hidden Markov Model,
HMM),是中国科学院计算技术研究所的ictclas
文分词程序的重新实现(基于Java),可以直接为lucene搜索引擎提供 简体中文 分词支持

主要特点:

1. 完全Unicode支持

****分词核心模块完全采用Unicode编码,无须各种汉字编码的转换,极大的提升了分词的效率。

2. 提升搜索效率

****根据imdict智能词典的实践,在有智能中文分词的情况下,索引文件比没有中文分词的索引文件小1/3

3. 提高搜索准确度

****imdict-chinese-analyzer采用了HHMM分词模型,极大的提高了分词的准确率,在此基础上的搜索,比对汉字逐个切分要准确得多!

4. 更高效的数据结构

****为了提高效率,针对常用中文检索的应用场景,imdict-chinese-analyzer对一些不必要的功能进行了删减,例如词性标注、人名识别、时
间识别等等。另外还修改了算法的数据结构,在内存占用量缩减到1/3的情况下把效率提升了数倍。

imdict-chinese-analyzer 官网

http://code.google.com/p/imdict-chinese-analyzer/

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐