Modin 介绍
Modin使用Ray提供了一种轻松的方式来加速您的Pandas笔记本,脚本和库。
与其他分布式DataFrame库不同,Modin提供与现有pandas代码的无缝集成和兼容性。 即使使用DataFrame构造函数也是如此。
import modin.pandas as pd import numpy as np frame_data = np.random.randint(0, 100, size=(2**10, 2**8)) df = pd.DataFrame(frame_data)
要使用Modin,您不需要知道系统有多少核心,也不需要指定如何分配数据。
实际上,即使在一台机器上,您也可以继续使用以前的pandas笔记本电脑,同时体验Modin的相当大的加速。
一旦你更改了import语句,你就可以像使用pandas一样使用Modin了。
modin.pandas DataFrame是一个非常轻量级的并行DataFrame。
Modin透明地分发数据和计算,因此您需要做的就是继续使用pandas API,就像安装Modin之前一样。
与其他并行DataFrame系统不同,Modin是一个非常轻量级,强大的DataFrame。
由于它的重量很轻,因此Modin可在具有4个物理内核的笔记本电脑上提供高达4倍的加速。
在pandas中,当你进行任何类型的计算时,你只能使用一个核心。 使用Modin,您可以使用计算机上的所有cpu核心。
即使在read_csv中,我们也可以通过在整个计算机上有效地分配工作来获得巨大收益。
import modin.pandas as pd df = pd.read_csv("my_dataset.csv")
Modin 官网
https://github.com/modin-project/modin
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。