如何使用python或jupyter笔记本电脑的火花

我正在尝试在python中使用12GB的数据，因为我非常需要使用Spark，但是我想我太愚蠢了，无法使用自己的命令行或使用互联网，这就是为什么我想我必须转向，

所以到目前为止，我已经下载了火花，并解压tar文件或任何（对语言抱歉，但我感到愚蠢和出），但现在我可以看到无处可去。我已经看到了火花网站文档的说明，它说：

Spark还提供了一个Python API。 要在Python解释器中以交互方式运行Spark，请使用 bin/pyspark但是在何处执行此操作？请请帮忙。编辑：我正在使用Windows 10

注意::我总是遇到问题，当试图安装的东西主要是因为我似乎无法理解命令提示符

Zookeeper工作

分布式软件使用gdb进行debugging

请推荐一个替代Microsoft HPC的

distcc像框架的Windows

用于交互式SSH会话的Java库（能够执行多部分命令）？

测量分布式应用程序的内存使用情况

体积图像数据的分布式处理

通过计算集群加载python模块

使用MPI.NET和Mono框架在超级计算机的linux节点上执行分布式计算

如何将Java文件安装到Windows服务中

如果你对jupyter笔记本比较熟悉，可以安装集成了pyspark，scala，sql和SparkR内核的Apache Toree。

安装toree

pip install toree jupyter toree install --spark_home=path/to/your/spark_directory --interpreters=PySpark

如果你想安装你可以使用的其他内核

jupyter toree install --interpreters=SparkR,sql,Scala

现在运行

jupyter notebook

在用户界面选择新的笔记本，你应该看到以下内核可用

Apache Toree-Pyspark Apache Toree-SparkR Apache Toree-sql Apache Toree-Scala

当您解压文件时，会创建一个目录。

打开一个终端。

使用cd导航到该目录。

做一个ls 。你会看到它的内容。 bin必须放置在某个地方。

执行bin/pyspark或者./bin/pyspark 。

当然，实际上并不是那么简单，你可能需要设置一些路径，就像在TutorialsPoint中说的那样，但是有很多这样的链接。

我知道你已经在Windows 10中安装了Spark。

你将需要有winutils.exe可用。如果您还没有这样做，请从http://public-repo-1.hortonworks.com/hdp-win-alpha/winutils.exe下载该文件并安装，例如C： winutils bin

设置环境变量

HADOOP_HOME=C:winutils SPARK_HOME=C:spark or wherever. PYSPARK_DRIVER_PYTHON=ipython or jupyter notebook PYSPARK_DRIVER_PYTHON_OPTS=notebook

现在在命令提示符下导航到C： Spark目录并键入“pyspark”

Jupyter笔记本将在浏览器中启动。创建一个spark上下文并运行一个count命令，如图所示。