微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

大数据处理初窥

 当处理大规模数据时,例如进行全文搜索,近似文档搜索,数据挖掘等工作时,RDBMS往往不能满足我们的需求了。那么我们应该怎么做呢? 一种解决方案是:利用批处理从RDBMS中取出数据,建立索引服务器再让web应用程序通过RPC(Remote Procedure Call)或者web API(HTTP + JSON)进行查询

   我们称上述方法为“特殊用途索引”。创建特殊索引后就能处理RDBMS难以处理的事情。RDBMS是通用系统,能够进行数据排序、统计处理、JOIN等,其目的多种多样,如果仅为了特定目的,那么专门对数据结构进行调优,就会比RDBMS快得多。搜索用的倒排索引就是最典型的例子,索引之前先进行自然语言处理方法处理,无须查询RDBMS中全部数据,就能瞬间实现查找。

特殊用途索引:

   定期取出数据

       根据取出的数据创建数据结构

           搜索用的逆向索引

           关键字链接用的Trie等

   用C++开发保存结构化数据的服务器,通过RPC或者WEB API访问。

   RDBMS->信息搜索

  • 用批处理获得关系型数据库中的数据

  • 创建倒排索引,使用搜索算法

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐