微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

Hive架构原理

Hive架构原理

  • Hive是一个基于MapReduce的海量数据处理、分析工具,为我们利用Hadoop平台处理数据提供了一个简易途径
  • 我们利用MapReduce对数据所做的事大部分与关系型数据库中的sql语句所做的相同。Hive可以让我们用sql的方式描述对数据如何处理,并解析sql语句、转化成MapReduce job链、自动执行job链输出结果
  • Hive严重依赖Hadoop,它所处理的数据必须放在HDFS中,所以HDFS的缺点会影响对Hive所实现功能的取舍
  • 为了让用户以关系型数据库方式查询和计算数据,Hive提供了表结构管理服务
  • Hive支持的基本数据类型与其他数据库差不多。Hive会在数据文件之外独立地保存其表结构以及表的其他属性(这些叫做元数据Meta),这就是表结构管理服务所提供的,这个服务的名字叫做metastore(元数据存储)
  • 通过Hive处理文件中的数据时需要先创建表,并将表语文件关联(当然要保证表的结构与文件中的数据是一致的,否则就会出错),然后就可以用sql进行数据查询

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐