我有一个我已经标记过的文本,或者通常一个单词列表也可以.例如:
>>> from nltk.tokenize import word_tokenize
>>> s = '''Good muffins cost $3.88\nin New York. Please buy me
... two of them.\n\nThanks.'''
>>> word_tokenize(s)
['Good', 'muffins', 'cost', '$', '3.88', 'in', 'New', 'York', '.',
'Please', 'buy', 'me', 'two', 'of', 'them', '.', 'Thanks', '.']
如果我有一个包含单个单词和多字键的Python dict,我怎样才能有效和正确地检查它们在文本中的存在?理想的输出是关键:location_in_text对,或者方便的东西.
提前致谢!
附:解释“正确” – 如果我在我的词典中“租赁”,我不希望请标记.此外,需要识别复数.我想知道如果没有很多if-else条款可以优雅地解决这个问题.
解决方法:
如果您已经有一个多字表达式地名录列表,您可以使用MWetokenizer,例如:
>>> from nltk.tokenize import MWetokenizer
>>> from nltk import sent_tokenize, word_tokenize
>>> s = '''Good muffins cost $3.88\nin New York. Please buy me
... ... two of them.\n\nThanks.'''
>>> mwe = MWetokenizer([('New', 'York'), ('Hong', 'Kong')], separator='_')
>>> [mwe.tokenize(word_tokenize(sent)) for sent in sent_tokenize(s)]
[['Good', 'muffins', 'cost', '$', '3.88', 'in', 'New_York', '.'], ['Please', 'buy', 'me', '...', 'two', 'of', 'them', '.'], ['Thanks', '.']]
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。