微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

text-classifier-collection Java 文本分类器集合

程序名称:text-classifier-collection

授权协议: GPL

操作系统: 跨平台

开发语言: Java

text-classifier-collection 介绍


文本分类器集合

一个强大易用的Java文本分类工具包

特色

  • 功能全面

    • 内置信息检索中各种常用的文本预处理方法,如语言感知分词、词干提取、繁简转换、停用词去除、同义词插入、n-gram生成等等

    • 内置SVM、kNN、朴素贝叶斯等多种分类

    • 内置支持CSV等格式数据的读取

  • 高度可定制

    • 你可以插入你编写的分词方法、单词规范化方法、停用词列表、同义词列表、TF-IDF公式等等

    • 可以轻易实现你自己的分类器而与工具包中其它工具一起使用

  • 容易使用

    • 自动按给定数据集选取最优分类

    • 与Java8引入的流和函数式API无缝结合

效果

数据集样本数分类准确率
[YouTube Spam Collection](http://archive.ics.uci.edu/ml/datasets/YouTube+Spam+Collection)1956292.1%
[SMS Spam Collection](http://archive.ics.uci.edu/ml/datasets/SMS+Spam+Collection)5574298.2%
[Sentence Classification](http://archive.ics.uci.edu/ml/datasets/Sentence+Classification)1510580.4%
[Reuters-21578 Text Categorization Collection](http://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection)2157813559.8%
[Reuters-21578 Text Categorization Collection](http://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection)2157817567.8%

text-classifier-collection 官网

https://github.com/chungkwong/text-classifier-collection

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐