微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

MySQL中的n-gram计数

我正在构建一个大约有10,000条记录的MySQL数据库.每条记录都包含一个文本文档(大多数情况下是几页文本).我想在整个数据库中进行各种n-gram计数.我已经用Python编写了算法,这将是我想要的包含大量文本文件的目录,但要做到这一点,我需要从数据库提取10,000个文本文件 – 这将产生性能问题.

我是MysqL的新手,所以我不确定它是否有任何内置功能进行n-gram分析,或者是否有好的插件可以做到这一点.请注意,在我的分析中,我需要达到至少4克(最好是5克),所以我见过的简单的2克插件在这里不起作用.我还需要能够在进行n-gram计数之前从文本文档中删除停用词.

来自社区的任何想法?

谢谢,

罗恩

解决方法:

我的建议是使用像lucene / solr这样的专用全文搜索索引程序,它对这类东西有更丰富和可扩展的支持.它需要你学习一点才能设置它,但听起来好像你想在一个难以在MysqL自定义的水平上乱七八糟.

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐