微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

linux – Stanford POS Tagger没有标记中文文本

我正在使用Stanford POS Tagger(这是第一次),虽然它正确地标记了英文,但即使更改模型参数,它也似乎无法识别(简体)中文.我忽略了什么吗?

我从这里下载并解压缩了最新的完整版本:
http://nlp.stanford.edu/software/tagger.shtml

然后我将样本文本输入“sample-input.txt”.

这是一个测试的句子.这是另一个句子.

然后我就跑了

./stanford-postagger.sh models/chinese-distsim.tagger sample-input.txt

预期的输出是用词性标记每个单词,而是将整个文本字符串识别为一个单词:

Loading default properties from tagger models/chinese-distsim.tagger

Reading POS tagger model from models/chinese-distsim.tagger … done [3.5 sec].

這是一個測試的句子.這是另一個句子.#NR

Tagged 1 words at 30.30 words per second.

我感谢任何帮助.

解决方法:

我终于意识到这个pos标记器中不包含标记化/分割.在将它们提供给标记器之前,它们似乎必须以空格分隔.对于那些对中文最大熵分词感兴趣的人,这里有一个单独的包:

http://nlp.stanford.edu/software/segmenter.shtml

感谢大家.

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐