我正在使用BeautifulSoup构建一个与HTML中的元数据一起收集的文本语料库.如果我可以从Python中调用Mallet并让它从Python字符串中模拟主题,而不是从目录中的文本文件中进行建模,那将会非常有用.这样我就可以将Mallet定位的n个关键字放入每个文件中.
我收到一条消息,说我跑的时候已经认出了Mallet:
from nltk.classify import mallet
from subprocess import call
mallet.config_mallet("malletdir/mallet-2.0.7/bin")
但是我对接下来的步骤没有任何好运,甚至不确定Mallet是否接受除保存文件以外的任何内容.
我无法找到任何我真正理解的文档.有人看过这个可摘文件吗? (NLTK书没有进入Mallet).我也很乐意学习Python中任何其他主题建模方法,我可以在没有深入Python知识的情况下进行操作.
对不起,这是我的第一个牛仔竞技表演.
解决方法:
如果您仍在寻找解决方案:Gensim(一个Python主题建模/机器学习包)有一个Mallet的包装器,它易于使用且记录良好. Here是一些Gensim教程和一个特定的tutorial用于Mallet包装器.您可能还想阅读一些安装说明(主要是关于设置Java内存的部分)here,然后您就可以开始了.
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。