AI导航网

技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

Astro HBase 的 Spark SQL

程序名称：Astro

授权协议: Apache

操作系统: 跨平台

开发语言: Java

Astro 介绍

华为2015年7月20日在O’Reilly Open Source Convention (OSCON) 上宣布Spark sql on HBase
package正式开源。Spark sql on HBase package 项目又名 Astro，端到端整合了
Spark，Spark
sql和HBase的能力，有助于推动帮助Spark进入Nosql的广泛客户群，并提供强大的在线查询和分析以及在垂直企业大规模数据处理能力。

Apache HBase 是数据在 HDFS 上的 Key-Value 存储。它用来给 Google 的 Big Table 建模，并提供了 API
用于查询数据。这些数据通过它的“row
keys”来组织、区分和发布。在每个分区上，数据被指定的“列”数据集合“列族”物理分区。这些数据模型是宽且零散的，在这些表中列是动态的，零散的。

尽管 HBase 是非常有用的大数据存储，但是它的访问机制非常原始，只能通过客户端的 API，Map/Reduce 接口和交互的 shell。sql 访问
HBase 数据可通过 Map/Reduce 或者接口机制，如 Apache Hive 和 Impala，或者一些“本地的” sql 技术，如 Apache
Phoenix。前者实现和使用起来通常比较便宜，它们的延迟和效率通常不如后者，并且只适用于离线分析。后者，与之相反，通常执行得更好，并且限定多个作为联机引擎。它们通常在特定的执行引擎的顶层。

当前的 Astro 1.0 依赖于 Spark 1.4.0,HBase 0.98

构建方法（要求 Maven）：

$ git clone https://github.com/HuaweiBigData/astro
$ cd astro
$ mvn -DskipTests clean install 
$ mvn clean install
$mvn -Phbase,hadoop-2.4 test  #运行测试

Astro 官网

https://github.com/HuaweiBigData/astro

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 [email protected] 举报，一经查实，本站将立刻删除。

大数据相关

相关推荐

RedHadoop 是一个持续优化的企业级Hadoop基础软件平台,让Hadoop大数据更简单! RedHadoop大数据工场企业版是RedHadoop公司第一款产品，简称BWE(RedHadoop BigData Works

作者：编程之家时间：2022-07-25

来自 Mozilla 的 Heka 是一个用来收集和整理来自多个不同源的数据的工具，通过对数据进行收集和整理后发送结果报告到不同的目标用于进一步分析。

作者：编程之家时间：2022-07-25

Apache HBase HFileHLogFile

HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC

作者：编程之家时间：2022-07-25

Mincemeat-node 是使用Node.js实现的极简MapReduce框架，可以快速的部署投入工作，免去Hadoop繁琐的配置，享受随心大数据。

作者：编程之家时间：2022-07-25

REEF 是微软开发的一个大数据框架。 REEF运行在YARN的上层。YARN是新一代Hadoop资源管理器，通过YARN，用户可以运行和管理同一个物理集群机上的多种作业，例如MapReduce批处理和图形处理作业。这样不仅可以巩固一个

作者：编程之家时间：2022-07-25

Scribe旨在帮助Facebook处理服务器上的大量数据，正像Scribe网页所述“如经常访问Facebook，请使用Scribe。”具体而言，Scribe就是一台服务器，实时收集用网站日志信息。

作者：编程之家时间：2022-07-25

HTools是一款专业的Hadoop管理工具，不管您是非专业IT人士，还是多年经验的技术人员，本工具都会为您提供优质的管理服务和轻松的操作过程，

作者：编程之家时间：2022-07-25

hive让大数据飞了起来，不再需要专人写MR。平常我们都可以用基于thrift的任意语言来调用hive。

作者：编程之家时间：2022-07-25

MapReduce是Google提出的一个软件架构，用于大规模数据集（大于1TB）的并行运算。概念”Map（映射）”和”Reduce（化简）”，和他们的主要思想，都是从函数式编程语言借来的，还有从矢量编程语言借来的特性。

作者：编程之家时间：2022-07-25

Netflix 开源了一个叫做Suro的工具，它能够在数据被发送到不同的数据平台（如Hadoop、Elasticsearch）之前，收集不同应用服务器上的事件数据，这项创新技术具备成为大数据主流实践的潜力

作者：编程之家时间：2022-07-25