我正在构建一个大约有10,000条记录的MySQL数据库.每条记录都包含一个文本文档(大多数情况下是几页文本).我想在整个数据库中进行各种n-gram计数.我已经用Python编写了算法,这将是我想要的包含大量文本文件的目录,但要做到这一点,我需要从数据库中提取10,000个文本文件 – 这将产生性能问题.
我是MysqL的新手,所以我不确定它是否有任何内置功能进行n-gram分析,或者是否有好的插件可以做到这一点.请注意,在我的分析中,我需要达到至少4克(最好是5克),所以我见过的简单的2克插件在这里不起作用.我还需要能够在进行n-gram计数之前从文本文档中删除停用词.
来自社区的任何想法?
谢谢,
罗恩
解决方法:
我的建议是使用像lucene / solr这样的专用全文搜索索引程序,它对这类东西有更丰富和可扩展的支持.它需要你学习一点才能设置它,但听起来好像你想在一个难以在MysqL中自定义的水平上乱七八糟.
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。