微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

Spark的安装和部署

0.环境准备:

JDK 略

环境变量 略

Hadoop集群 略

1.单机模式

 解压jar包,单机模式完成;

 

验证方式:

(1)Jps查看进程;

(2)打开网页http://localhost:8080/查看;

(3)到spark的bin目录下./spark-shell命令查看;

 

2.基于standalone安装

主要配置conf/slaves,conf/spark-env.sh文件

(1)配置slaves(从节点)

Slave1

Slave2

Slave3

(2)配置spark-env.sh

export JAVA_HOME=xxx

export SPARK_MASTER_IP=master

export SPARK_MASTER_PORT=7077

export SPARK_WORKER_MEMORY=1G

 

分发给其他节点

scp -r conf/ root@slave1:/usr/local/spark

scp -r conf/ root@slave2:/usr/local/spark

scp -r conf/ root@slave3:/usr/local/spark

 

启动spark

./start-all.sh

3.基于yarn安装

修改spark-env.sh和yarn-site.xml文件

(1)修改spark-env.sh

YARN_CONF_DIR=/usr/local/hadoop-2.6.5/etc/hadoop

(2)修改 yarn-site.xml

<!-- spark 部署到 yarn 上需要这两个配置 -->
<!-- 是否启动一个线程检查每个任务正在使用的物理内存,如果超出分配值,则直接杀掉该任务,认为 true -->
<property>

        <name>yarn.nodemanager.pmem-check-enabled</name>

        <value>false</value>

 </property>

<!-- 是否启动一个线程检查每个任务正在试用的虚拟内存,如果超出分配值,则直接杀掉该任务,认为 true -->
<property>

        <name>yarn.nodemanager.vmem-check-enabled</name>

        <value>false</value>

 </property>

<!-- spark 部署到 yarn 上需要这两个配置 -->

操作yarn模式:

spark-shell --master yarn --deploy-mode client

spark-shell --master yarn --deploy-mode cluster

Webui是在:hadoop UI 上,地址为 http://localhost:8088

参考网址:https://www.cnblogs.com/yanshw/p/11614988.html

 

Spark3.0安装文档参考:

https://www.cnblogs.com/freeweb/p/13873225.html

目前spark稳定版本有3.0.1与2.4.7两个版本,这里我们选择3.0.1的版本,然后是hadoop版本目前支持2.7和3.2

 

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐