AI导航网

技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

cwsharp-go go中文分词包

程序名称：cwsharp-go

授权协议: MIT

操作系统: 跨平台

开发语言: Google Go

cwsharp-go 介绍

cwsharp-go

cwsharp-go是golang的文本分词包，支持中文、英文以及中英混合词组，除此之外，提供自定义分词的扩展（比如日文、韩文或其它语种）。

.NET版：CWSharp-C#

安装&测试

$ go get github.com/zhengchun/cwsharp-go
$ cd main
$ go run main.go Hello,World!你好，世界!

分词算法

cwsharp-go支持多种分词算法，你可以根据需求选择适合自己的或者自定义新的分词算法。

mmseg-tokenizer

标准的基于词典的分词方法。

tips: 建议使用单一实例，避免每次分词都需重新加载字典

tokenizer, err := cwsharp.New("../data/cwsharp.dawg") //加载字典
iter := tokenizer.Tokenize(strings.NewReader("Hello,world!你好,世界!"))
for tok, ok := iter(); ok; tok, ok = iter() {
    fmt.Printf("%s/%s ", tok.Text, tok.Type)
}
>> hello/w ,/p world/w !/p 你好/w ,/p 世界/w !/p

bigram-tokenizer

二元分词方法，无需字典，速度快，支持完整的英文和数字切分。

iter := cwsharp.BigramTokenize(strings.NewReader("世界人民大团结万岁!"))
for token, ok := iter(); ok; token, ok = iter() {
    fmt.Printf("%s/%s ", token.Text, token.Type)
}
>> 世界/w 界人/w 人民/w 民大/w 大团/w 团结/w 结万/w 万岁/w !/p

whitespace-tokenizer

标准的英文分词，无需字典，适合切分英文的内容，中文会被当做独立的字符输出。

iter := cwsharp.Whitespacetokenize(strings.NewReader("Hello,world!你好!"))
for token, ok := iter(); ok; token, ok = iter() {
    fmt.Printf("%s/%s ", token.Text, token.Type)
}
>> hello/w ,/p world/w !/p 你/w 好/w !/p

TokenizerFunc

TokenizerFunc是自定义分词的扩展接口帮助类，允许你自定义新的分词。



type TokenizerFunc func(io.Reader) Iterator

cwsharp-go 官网

https://github.com/zhengchun/cwsharp-go

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 [email protected] 举报，一经查实，本站将立刻删除。

中文分词库

相关推荐

BlazeDS 是一个基于服务器的Java 远程控制(remoting)和Web消息传递(messaging)技术，它能够使得后端的Java应用程序和运行在浏览器上的Adobe

作者：编程之家时间：2022-07-02

OVal 是一个可扩展的Java对象数据验证框架，验证的规则可以通过配置文件、Annotation、POJOs 进行设定。可以使用纯 Java

作者：编程之家时间：2022-07-02

Volta 是一套开发工具，专为开发分布式、实时系统应用。它包括级联，控制流分析工具，

作者：编程之家时间：2022-07-02

OpenDDS 是一个开源的 C++ 实现的对象管理组织 OMG 的数据分布式服务 (DDS) 。OpenDDS利用自适应通信环境（ACE）提供一个跨平台的环境。

作者：编程之家时间：2022-07-02

JADE (Java Agent DEvelopment Framework) 是一个完全用Java语言实现的软件框架。它通过一个兼容 FIPA

作者：编程之家时间：2022-07-02

FastMM ,在D2006和2007中已代替了原来的内存管理器。

作者：编程之家时间：2022-07-02

WebRTC 是一项在浏览器内部进行实时视频和音频通信的技术，是谷歌于2010年以6820万美元收购VoIP软件开发商 Global IT

作者：编程之家时间：2022-07-02

gwtwiki - The Java Wikipedia API (Bliki engine)，是一个 Wikipedia/Mediawiki 语法解析器，可以把 wiki 的文本转换成 HTML。它支持 wiki 标签，例如 bold, italic, headers, nowiki,

作者：编程之家时间：2022-07-02

Esper 是一个复杂事件处理组件（CEP - Complex Event Processing），它有 Java 版本和 .NET 版本（NEsper）。

作者：编程之家时间：2022-07-02

LuaTinker 的作者是Kwon-il Lee韩国人写的，最新的版本是0.2.C,这个C++ wrapper For Lua能够方便和

作者：编程之家时间：2022-07-02