我是使用多个cpu来处理作业的新手,想知道人们是否可以让我知道parallelpython(或任何类型的python模块)与hadoop流的优缺点?
我有一个非常大的cpu密集型过程,我希望将其分布在多台服务器上.
解决方法:
由于移动数据的大小变得越来越难;对于并行计算,数据本地化变得非常重要. Hadoop作为一种映射/缩减框架,可最大化处理数据的本地化.它还为您提供了一种在整个群集(hdfs)上高效分布数据的方法.因此,基本上,即使您使用其他并行模块,只要您不将数据本地化到正在处理的计算机上,或者只要您必须始终在集群中移动数据,就不会最大程度地受益于并行计算.这是hadoop的关键思想之一.
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。