微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何使用python或jupyter笔记本电脑的火花

我正在尝试在python中使用12GB的数据,因为我非常需要使用Spark,但是我想我太愚蠢了,无法使用自己的命令行或使用互联网,这就是为什么我想我必须转向,

所以到目前为止,我已经下载了火花,并解压tar文件或任何(对语言抱歉,但我感到愚蠢和出),但现在我可以看到无处可去。 我已经看到了火花网站文档的说明,它说:

Spark还提供了一个Python API。 要在Python解释器中以交互方式运行Spark,请使用 bin/pyspark但是在何处执行此操作? 请请帮忙。 编辑:我正在使用Windows 10

注意::我总是遇到问题,当试图安装的东西主要是因为我似乎无法理解命令提示

Zookeeper工作

分布式软件使用gdb进行debugging

请推荐一个替代Microsoft HPC的

distcc像框架的Windows

用于交互式SSH会话的Java库(能够执行多部分命令)?

测量分布式应用程序的内存使用情况

体积图像数据的分布式处理

通过计算集群加载python模块

使用MPI.NET和Mono框架在超级计算机的linux节点上执行分布式计算

如何将Java文件安装到Windows服务中

如果你对jupyter笔记本比较熟悉,可以安装集成了pyspark,scala,sql和SparkR内核的Apache Toree。

安装toree

pip install toree jupyter toree install --spark_home=path/to/your/spark_directory --interpreters=PySpark

如果你想安装你可以使用的其他内核

jupyter toree install --interpreters=SparkR,sql,Scala

现在运行

jupyter notebook

用户界面选择新的笔记本,你应该看到以下内核可用

Apache Toree-Pyspark Apache Toree-SparkR Apache Toree-sql Apache Toree-Scala

当您解压文件时,会创建一个目录。

打开一个终端。

使用cd导航到该目录。

一个ls 。 你会看到它的内容。 bin必须放置在某个地方。

执行bin/pyspark或者./bin/pyspark 。

当然,实际上并不是那么简单,你可能需要设置一些路径,就像在TutorialsPoint中说的那样,但是有很多这样的链接

我知道你已经在Windows 10中安装了Spark。

你将需要有winutils.exe可用。 如果您还没有这样做,请从http://public-repo-1.hortonworks.com/hdp-win-alpha/winutils.exe下载该文件并安装,例如C: winutils bin

设置环境变量

HADOOP_HOME=C:winutils SPARK_HOME=C:spark or wherever. PYSPARK_DRIVER_PYTHON=ipython or jupyter notebook PYSPARK_DRIVER_PYTHON_OPTS=notebook

现在在命令提示符下导航到C: Spark目录并键入“pyspark”

Jupyter笔记本将在浏览器中启动。 创建一个spark上下文并运行一个count命令,如图所示。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐