微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何删除0将pandas数据帧转换为记录

我正在寻找一种从pd.DataFrame创建的字典列表中删除零的有效方法请参考以下示例:

df = pd.DataFrame([[1, 2], [0, 4]], columns=['a', 'b'], index=['x', 'y'])
df.to_dict('records')

[{'a': 1, 'b': 2}, {'a': 0, 'b': 4}]

我想要的是:

[{'a': 1, 'b': 2}, {'b': 4}]

我有一个非常大的稀疏数据帧,存储所有的零都是低效的.因为数据帧很大,我正在寻找比循环字典的数据框并删除零更快的解决方案,例如以下工作,但是非常慢并且使用大量内存.

new_records = []
for record in df.to_dict('records'):
    new_records.append(dict((k, v) for k, v in record.items() if v))

有更有效的方法方法吗?

解决方法:

这看起来像是一个x-y问题:只使用稀疏矩阵表示.唯一的困难是你必须自己跟踪列:

In [8]: from scipy import sparse

In [9]: df
Out[9]:
   a  b
x  1  2
y  0  4

In [10]: column_names = df.columns

In [11]: sm = sparse.csc_matrix(df.values)

或者,更容易,正如pirsquared所指出的,pandas内置了这个功能

df.to_sparse(0)

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐