AI导航网

技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

Spark-edshift Spark 和 Redshift 整合

程序名称：Spark-edshift

授权协议: Apache

操作系统: 跨平台

开发语言: Scala

Spark-edshift 介绍

Spark-edshift 是可以从 Amazon Redshift 加载数据到 Spark sql DataFrames 中的库，并且还可以写回到
Redshift 列表中。Amazon S3 可以让数据高效地转入或转出 Redshift，并且可以自动触发 Redshift 相应的 copY 和
UNLOAD 指令。

示例代码：

import org.apache.spark.sql._val sc = // existing SparkContextval sqlContext = new sqlContext(sc)// Get some data from a Redshift tableval df: DataFrame = sqlContext.read
    .format("com.databricks.spark.redshift")
    .option("url", "jdbc:redshift://redshifthost:5439/database?user=username&password=pass")
    .option("dbtable", "my_table")
    .option("tempdir", "s3n://path/for/temp/data")
    .load()// Can also load data from a Redshift queryval df: DataFrame = sqlContext.read
    .format("com.databricks.spark.redshift")
    .option("url", "jdbc:redshift://redshifthost:5439/database?user=username&password=pass")
    .option("query", "select x, count(*) my_table group by x")
    .option("tempdir", "s3n://path/for/temp/data")
    .load()// Apply some transformations to the data as per normal, then you can use the// Data Source API to write the data back to another tabledf.write
  .format("com.databricks.spark.redshift")
    .option("url", "jdbc:redshift://redshifthost:5439/database?user=username&password=pass")
    .option("dbtable", "my_table_copy")
    .option("tempdir", "s3n://path/for/temp/data")
  .mode("error")
  .save()

Spark-edshift 官网

https://github.com/databricks/spark-redshift

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 [email protected] 举报，一经查实，本站将立刻删除。

数据库管理工具

相关推荐

SchemaCrawler提供一组用于增强标准JDBC Metadata的API.SchemaCrawler还包含一个命令行工具能够将数据库结构和数据以一种易读的形式输出.

作者：编程之家时间：2021-10-24

ER Master 是一个用于设计ER模型图的Eclipse插件。提供的功能包括：从数据库导入关系生成ER图，导出设计图，导出DDL数据定义语句等。目前完整支持的数据库包括

作者：编程之家时间：2021-10-24

Eclipse下用于画数据库ER图的插件，主要特性如下：图形化编辑ER图从数据库结构中导入ER图

作者：编程之家时间：2021-10-24

PowerDesigner 是Sybase的企业建模和设计解决方案，采用模型驱动方法，将业务与IT结合起来，可帮助部署有效的企业体系架构，并为研发生命周期管理提供强大的分析与设计技术。PowerDesigner

作者：编程之家时间：2021-10-24

Mogwai ERDesigner NG是一个实体关系建模工具类似于ERWin。它设计成让数据库建模变得尽可能简易并为整个开发过程提供支持，从数据库设计到模式

作者：编程之家时间：2021-10-24

Power*Architect

Power*Architect 是一个数据建模工具，主要用在数据仓库和数据集市的模型设计。

作者：编程之家时间：2021-10-24

MySQL Workbench

MySQL Workbench是一款专为MySQL设计的ER/数据库建模工具。它是著名的数据库设计工具DBDesigner4的继任者。你可以用MySQL

作者：编程之家时间：2021-10-24

DbWrench 是一个数据库设计和同步软件，为数据库开发人员提升生产率，可轻松的创建和修改数据库。

作者：编程之家时间：2021-10-24

是一个采用Python开发的使用ER图的数据库建模工具

作者：编程之家时间：2021-10-24

CA Erwin Data Modeler

CA公司的数据库建模工具（非开源），为你提供一个易于使用的用户界面（UI）环境，简化数据库设计过程，并将许多令人疲惫的任务自动化，如创建高性能事务和数据仓库数据库。这是一款可以和PowerDesigner并驾齐驱的

作者：编程之家时间：2021-10-24