我一直想学习python并做一些NLP,所以终于开始了.下载英文维基百科镜像,开始使用一个很好的大块数据集,并且已经玩了一段时间,在这个阶段只是将其中的一部分放入一个sqlite数据库(过去没有使用过dbs).
但我猜测sqlite不是一个完整的nlp项目(/实验:)的方式 – 我应该看看哪种东西? HBase(..和hadoop)看起来很有趣,我想我可以运行im java,python中的原型并且可能将真正的慢位迁移到java …或者只是运行MysqL ..但数据集是12gb,我想知道是否会有问题吗?还看了lucene,但不知道如何(除了将维基文章分成块)我会得到它的工作..
一个非常灵活的NLP平台会想到什么(我现在不知道我想要做什么…只想学习大规模的lang分析tbh)?
非常感谢.
解决方法:
NLTK是你应该从哪里开始的(它是基于Python的 – 不知道为什么你已经在考虑在这么早的阶段并行处理你的处理……从更灵活的实验设置开始,是我的建议). sqlite应该适用于几GB – 如果你需要更高级和标准的sql能力,你可以考虑postgresql.
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。