微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

python – NLTK词干产生奇怪的结果

在运行nltk.stem.porter.Porterstemmer().stem_word(word)后,我得到很多单词’ing’被切断或’y’用’i’交换.例如’质量’变成’Qualiti’和(甚至更奇怪)’价值’变成’价值’?

由于结果词不是真正的英语单词,我不确定我是怎么意思使用它们的?我最好的猜测是,我的意思是把词干放到另一个函数中,它将从这个词干中给出所有派生/子词(例如’valu’将返回[‘valuing’,’valu’,’values’,. ..].有这样的功能吗?

解决方法:

词干通过一系列转换规则来提取单词的词干,这些规则剥离了常见的后缀和前缀.因此,产生的结果可能不是真正的英语单词.
词干的一般用法是对单词进行标准化,使它们被认为是相同的.例如:

stem_word('value') == stem_word('valuing')

然后可以将词干单词编入索引以进行搜索.使用传入查询完成相同的词干,以便在执行查找时查询词匹配索引中的词干词.

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐