我正在寻找一种从pd.DataFrame创建的字典列表中删除零的有效方法请参考以下示例:
df = pd.DataFrame([[1, 2], [0, 4]], columns=['a', 'b'], index=['x', 'y'])
df.to_dict('records')
[{'a': 1, 'b': 2}, {'a': 0, 'b': 4}]
我想要的是:
[{'a': 1, 'b': 2}, {'b': 4}]
我有一个非常大的稀疏数据帧,存储所有的零都是低效的.因为数据帧很大,我正在寻找比循环字典的数据框并删除零更快的解决方案,例如以下工作,但是非常慢并且使用大量内存.
new_records = []
for record in df.to_dict('records'):
new_records.append(dict((k, v) for k, v in record.items() if v))
解决方法:
这看起来像是一个x-y问题:只使用稀疏矩阵表示.唯一的困难是你必须自己跟踪列:
In [8]: from scipy import sparse
In [9]: df
Out[9]:
a b
x 1 2
y 0 4
In [10]: column_names = df.columns
In [11]: sm = sparse.csc_matrix(df.values)
或者,更容易,正如pirsquared所指出的,pandas内置了这个功能:
df.to_sparse(0)
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。