文章目录
环境
linux | ubuntu20.04 |
---|---|
java | jdk1.8 |
spark | spark-2.4.7-bin-hadoop2.7 |
python | python3.7 |
安装
下载spark:https://spark.apache.org/downloads.html
sudo tar -zxvf spark-2.4.7-bin-hadoop2.7.tgz -C /usr/local/
cd /usr/local
mv spark-2.4.7-bin-hadoop2.7/ spark # 更改文件夹名
sudo chown -R hadoop:hadoop spark # hadoop是当前登录Linux系统的用户名
配置
(注意:像 spark-2.4.0-bin-without-hadoop 这种没有自带 hadoop 的需要做如下步骤)
cd /usr/local/spark/conf
cp spark-env.sh.template spark-env.sh
vi spark-env.sh
# 在文件最后面添加如下内容
export SPARK_disT_CLAsspATH=$(/usr/local/hadoop/bin/hadoop classpath)
保存配置文件后,就可以启动、运行 Spark 了
若需要使用 HDFS 中的文件,则在使用 Spark 前需要启动 Hadoop
设置环境变量
# set spark environment
export SPARK_HOME=/usr/local/spark
export PATH=${SPARK_HOME}/bin:$PATH
验证是否安装成功
# 为了快速找到我们想要的执行结果,可以通过 grep 命令进行过滤
bin/run-example SparkPi 2>&1 | grep "Pi is roughly"
# 结果
Pi is roughly 3.147475737378687
运行 pyspark
ubuntu20.04 自带 python3.8,现在需要安装 python3.7,否则会报错
见常见错误 2. pyspark 2.4.7 不支持python 3.8
常见错误
-
4040端口被占用
sudo apt install net-tools netstat -ap | grep 4040 kill -9 PID号
-
pyspark 2.4.7 不支持python 3.8
现在降级到python3.7,应该没问题。# 安装python3.7 sudo apt update sudo apt install software-properties-common sudo add-apt-repository ppa:deadsnakes/ppa sudo apt install python3.7 # 测试是否安装成功 python3.7 --version # 删除原来的链接,指定新的链接 sudo rm /usr/bin/python sudo ln -s /usr/bin/python3.7 /usr/bin/python
-
找不到 python 命令
sudo rm /usr/bin/python # 删除原来默认指向python2.7版本的链接 sudo ln -s /usr/bin/python3.7 /usr/bin/python # 指定新的链接
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。