微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

spark19sparksql概述及其四大特性

sparksql概述

sparksql的前世今生

  • Shark是专门针对于spark的构建大规模数据仓库系统一个框架
  • Shark与Hive兼容、同时也依赖于Spark版本
  • Hivesql底层把sql解析成了mapreduce程序,Shark是把sql语句解析成了Spark任务
  • 随着性能优化的上限,以及集成sql的一些复杂的分析功能,发现Hive的MapReduce思想限制了Shark的发展。
  • 最后Databricks公司终止对Shark的开发
    • 决定单独开发一个框架,不在依赖hive,把重点转移到了sparksql这个框架上。

什么是sparksql

Spark sql is Apache Spark's module for working with structured data.

Sparksql是apache Spark用来处理结构化数据的一个模块。

1569468946521

@H_404_35@sparksql的四大特性

易整合

SQL查询与Spark程序无缝混合

可以使用不同的语言进行代码开发

  • java
  • scala
  • python
  • R

1569469087993

统一的数据源访问

以相同的方式连接到任何数据源,sparksql后期可以采用一种统一的方式去对接任意的外部数据源,不需要使用不同的Api

val  dataFrame = sparkSession.read.文件格式的方法名("该文件格式的路径")

1569469225309

兼容hive

sparksql可以支持hivesql这种语法 sparksql兼容hivesql

1569469413038

支持标准的数据库连接

sparksql支持标准的数据库连接JDBC或者ODBC

1569469446641

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐