微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

开发PySpark 所需准备环境

1) 安装python环境

安装python有两种方式:原生安装、Ancona安装

以上安装路径中不能有中文,不能有空格

2) window中必须配置SPARK_HOME

3) 在python中安装py4j模块

两种安装方式:

(1)使用 pip install py4j

进入 Anaconda3的Scripts目录下,cmd

 

 

 输入:pip install py4j

(2)找到spark-2.3.1-bin-hadoop2.6\python\lib目录,

解压py4j-0.10.7-src.zip和pyspark.zip两个文件

 

 将py4j文件夹复制到

由于PyCharm开发spark 需要本地Spark环境,所以要在官网中下载Spark安装包到本地(这里我们下载Spark1.6版本)。

  1. 进入Spark官网,找到对应的Spark版本下载。

 

  1. 将下载好的安装包解压到本地某个路径(路径中不要有空格和中文
  2. 将解压的路径中的…spark….\python\lib下的以下两个压缩包解压

 

解压后:

 

注意

★py4j是一个用 Python和Java编写的库。通过Py4J,Python程序能够动态访问Java虚拟机中的Java对象,Java程序也能够回调Python对象。

★pyspark 是 Spark 为 Python 开发者提供的 API

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐