我正在使用Stanford POS Tagger(这是第一次),虽然它正确地标记了英文,但即使更改模型参数,它也似乎无法识别(简体)中文.我忽略了什么吗?
我从这里下载并解压缩了最新的完整版本:
http://nlp.stanford.edu/software/tagger.shtml
然后我将样本文本输入“sample-input.txt”.
然后我就跑了
./stanford-postagger.sh models/chinese-distsim.tagger sample-input.txt
预期的输出是用词性标记每个单词,而是将整个文本字符串识别为一个单词:
Loading default properties from tagger models/chinese-distsim.tagger
Reading POS tagger model from models/chinese-distsim.tagger … done [3.5 sec].
這是一個測試的句子.這是另一個句子.#NR
Tagged 1 words at 30.30 words per second.
我感谢任何帮助.
解决方法:
我终于意识到这个pos标记器中不包含标记化/分割.在将它们提供给标记器之前,它们似乎必须以空格分隔.对于那些对中文最大熵分词感兴趣的人,这里有一个单独的包:
http://nlp.stanford.edu/software/segmenter.shtml
感谢大家.
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。