微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

Modin 更改一行代码扩展 pandas 工作流

程序名称:Modin

授权协议: Apache

操作系统: 跨平台

开发语言: Python

Modin 介绍

Modin使用Ray提供了一种轻松的方式来加速您的Pandas笔记本,脚本和库。
与其他分布式DataFrame库不同,Modin提供与现有pandas代码的无缝集成和兼容性。 即使使用DataFrame构造函数也是如此。

import modin.pandas as pd
import numpy as np

frame_data = np.random.randint(0, 100, size=(2**10, 2**8))
df = pd.DataFrame(frame_data)

要使用Modin,您不需要知道系统有多少核心,也不需要指定如何分配数据。
实际上,即使在一台机器上,您也可以继续使用以前的pandas笔记本电脑,同时体验Modin的相当大的加速。
一旦你更改了import语句,你就可以像使用pandas一样使用Modin了。

modin.pandas DataFrame是一个非常轻量级的并行DataFrame。
Modin透明地分发数据和计算,因此您需要做的就是继续使用pandas API,就像安装Modin之前一样。
与其他并行DataFrame系统不同,Modin是一个非常轻量级,强大的DataFrame。
由于它的重量很轻,因此Modin可在具有4个物理内核的笔记本电脑上提供高达4倍的加速。

在pandas中,当你进行任何类型的计算时,你只能使用一个核心。 使用Modin,您可以使用计算机上的所有cpu核心。
即使在read_csv中,我们也可以通过在整个计算机上有效地分配工作来获得巨大收益。

import modin.pandas as pd

df = pd.read_csv("my_dataset.csv")

Modin 官网

https://github.com/modin-project/modin

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐