微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

spark单机模式安装

文章目录

环境

linuxubuntu20.04
javajdk1.8
sparkspark-2.4.7-bin-hadoop2.7
pythonpython3.7

安装

下载spark:https://spark.apache.org/downloads.html

sudo tar -zxvf spark-2.4.7-bin-hadoop2.7.tgz -C /usr/local/
cd /usr/local
mv spark-2.4.7-bin-hadoop2.7/ spark		# 更改文件夹名
sudo chown -R hadoop:hadoop spark		# hadoop是当前登录Linux系统的用户名

配置

(注意:像 spark-2.4.0-bin-without-hadoop 这种没有自带 hadoop 的需要做如下步骤)

cd /usr/local/spark/conf
cp spark-env.sh.template spark-env.sh
vi spark-env.sh
# 在文件最后面添加如下内容
export SPARK_disT_CLAsspATH=$(/usr/local/hadoop/bin/hadoop classpath)

保存配置文件后,就可以启动、运行 Spark 了
若需要使用 HDFS 中的文件,则在使用 Spark 前需要启动 Hadoop

设置环境变量

# set spark environment
export SPARK_HOME=/usr/local/spark
export PATH=${SPARK_HOME}/bin:$PATH

验证是否安装成功

# 为了快速找到我们想要的执行结果,可以通过 grep 命令进行过滤
bin/run-example SparkPi 2>&1 | grep "Pi is roughly"
# 结果
Pi is roughly 3.147475737378687

运行 pyspark

ubuntu20.04 自带 python3.8,现在需要安装 python3.7,否则会报错
见常见错误 2. pyspark 2.4.7 不支持python 3.8

在这里插入图片描述

常见错误

  1. 4040端口被占用

    sudo apt install net-tools
    netstat -ap | grep 4040
    kill -9 PID号
    
  2. pyspark 2.4.7 不支持python 3.8

    在这里插入图片描述

    现在降级到python3.7,应该没问题。

    # 安装python3.7
    sudo apt update
    sudo apt install software-properties-common
    sudo add-apt-repository ppa:deadsnakes/ppa
    sudo apt install python3.7
    # 测试是否安装成功
    python3.7 --version	
    # 删除原来的链接,指定新的链接
    sudo rm /usr/bin/python
    sudo ln -s /usr/bin/python3.7 /usr/bin/python
    
  3. 找不到 python 命令

    在这里插入图片描述

    sudo rm /usr/bin/python		# 删除原来认指向python2.7版本的链接
    sudo ln -s /usr/bin/python3.7 /usr/bin/python	# 指定新的链接
    

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐