我正在尝试在python中使用12GB的数据,因为我非常需要使用Spark,但是我想我太愚蠢了,无法使用自己的命令行或使用互联网,这就是为什么我想我必须转向,
所以到目前为止,我已经下载了火花,并解压tar文件或任何(对语言抱歉,但我感到愚蠢和出),但现在我可以看到无处可去。 我已经看到了火花网站文档的说明,它说:
Spark还提供了一个Python API。 要在Python解释器中以交互方式运行Spark,请使用 bin/pyspark但是在何处执行此操作? 请请帮忙。 编辑:我正在使用Windows 10
注意::我总是遇到问题,当试图安装的东西主要是因为我似乎无法理解命令提示符
Zookeeper工作
分布式软件使用gdb进行debugging
请推荐一个替代Microsoft HPC的
distcc像框架的Windows
用于交互式SSH会话的Java库(能够执行多部分命令)?
测量分布式应用程序的内存使用情况
体积图像数据的分布式处理
通过计算集群加载python模块
使用MPI.NET和Mono框架在超级计算机的linux节点上执行分布式计算
如何将Java文件安装到Windows服务中
如果你对jupyter笔记本比较熟悉,可以安装集成了pyspark,scala,sql和SparkR内核的Apache Toree。
安装toree
pip install toree jupyter toree install --spark_home=path/to/your/spark_directory --interpreters=PySpark
如果你想安装你可以使用的其他内核
jupyter toree install --interpreters=SparkR,sql,Scala
现在运行
jupyter notebook
在用户界面选择新的笔记本,你应该看到以下内核可用
Apache Toree-Pyspark Apache Toree-SparkR Apache Toree-sql Apache Toree-Scala
打开一个终端。
使用cd导航到该目录。
做一个ls 。 你会看到它的内容。 bin必须放置在某个地方。
执行bin/pyspark或者./bin/pyspark 。
当然,实际上并不是那么简单,你可能需要设置一些路径,就像在TutorialsPoint中说的那样,但是有很多这样的链接。
我知道你已经在Windows 10中安装了Spark。
你将需要有winutils.exe可用。 如果您还没有这样做,请从http://public-repo-1.hortonworks.com/hdp-win-alpha/winutils.exe下载该文件并安装,例如C: winutils bin
设置环境变量
HADOOP_HOME=C:winutils SPARK_HOME=C:spark or wherever. PYSPARK_DRIVER_PYTHON=ipython or jupyter notebook PYSPARK_DRIVER_PYTHON_OPTS=notebook
现在在命令提示符下导航到C: Spark目录并键入“pyspark”
Jupyter笔记本将在浏览器中启动。 创建一个spark上下文并运行一个count命令,如图所示。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。