微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

python dask dataframe将元组列拆分为两列

我正在使用带有daskpython 2.7

我有一个数据框,其中包含我创建的一列元组,如下所示:

table[col] = table.apply(lambda x: (x[col1],x[col2]), axis = 1, Meta = pd.Dataframe) 

我想将此元组列重新转换为两个单独的列
在熊猫我会这样做:

table[[col1,col2]] = table[col].apply(pd.Series) 

这样做的一点是,dask数据帧不支持多索引,我想根据多个列使用groupby,并希望创建一个元组列,它将为我提供一个包含我需要的所有值的索引(请忽略)效率与多指数,因为还没有完全支持这是dask数据帧)

当我尝试使用此代码解压缩带有dask元组列时:

rxTable[["a","b"]] = rxTable["tup"].apply(lambda x: s(x), Meta = pd.DataFrame, axis = 1)

我收到这个错误

AttributeError: ‘Series’ object has no attribute ‘columns’

当我尝试

rxTable[["a","b"]] = rxTable["tup"].apply(dd.Series, axis = 1, Meta = pd.DataFrame)

我得到了同样的结果

我如何获取一列元组并将其转换为两列,就像我在Pandas中一样没有问题?

谢谢

解决方法:

我发现最好的是转换成pandas数据帧然后转换列,然后返回到dask

df1 = df.compute()
df1[["a","b"]] = df1["c"].apply(pd.Series)
df = dd.from_pandas(df1,npartitions=1)

这将很好,如果df对于内存来说太大,你可以:
1.仅计算所需列,将其转换为两列,然后使用merge将拆分结果转换为原始df
2.将df分成块,然后转换每个块并将其添加到hd5文件中,然后使用dask将整个hd5文件读入dask数据帧

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐