微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

背景知识查阅

PySpark Documentation: https://spark.apache.org/docs/latest/api/python/index.html Beginner Tutorial: https://www.datacamp.com/community/tutorials/apache-spark-python Tutorial Example: https://github.com/apache/spark/blob/master/examples/src/main/scala/org/apache/spark/examples/ml/RandomForestClassifierExample.scala#L47 项目实例:https://zhuanlan.zhihu.com/p/52753778     学习建议: 我会把分布式计算的基础理论知识掌握好,把Java等语言掌握好。对于Hadoop,Spark,Flink等等,我只要知道它的原理(看它诞生的论文),知道它有什么用,适合用在什么场景,有什么优缺点,跑几个类HelloWorld程序等等,而不是花很多时间去学API。还有建立起整个大数据的知识框架(大数据基础理论,系统体系结构,存储,计算处理等等)

作者:Jack
链接:https://www.zhihu.com/question/56855021/answer/153480746
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐