微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

python – 将pandas数据框重塑为与重复行一样多的列

我有这个数据框:

>> df = pd.DataFrame({'Place' : ['A', 'A', 'B', 'B', 'C', 'C'], 'Var' : ['All', 'french', 'All', 'German', 'All', 'Spanish'], 'Values' : [250, 30, 120, 12, 200, 112]})

>> df
  Place  Values      Var
0     A     250      All
1     A      30   french
2     B     120      All
3     B      12   German
4     C     200      All
5     C     112  Spanish

每个Place都有两行的重复模式.我想重塑它,所以它是每个Place一行,Var列变成两列,一列用于“All”,另一列用于另一列.

像这样:

Place   All   Language   Value
    A   250     french      30
    B   120     German      12
    C   200     Spanish    112

数据透视表会为每个唯一值创建一列,我不希望这样.

什么是重塑方法

解决方法:

因为数据以交替模式出现,我们可以分两步概念化转换.

步骤1:

从…来

a,a,a
b,b,b

a,a,a,b,b,b

第2步:删除冗余列.

以下解决方案将reshape应用于DataFrame的值;重塑的参数是(-1,df.shape [1] * 2),它表示’给我一个框架,其中包含两倍的列和尽可能多的行.

然后,我根据您的数据布局硬连线过滤器的列索引:[0,1,4,5].生成的numpy数组有4列,因此我们将它与正确的列名一起传递给DataFrame构造函数.

这是一个不可读的解决方案,它依赖于df布局并以错误的顺序生成列;

import pandas as pd

df = pd.DataFrame({'Place' : ['A', 'A', 'B', 'B', 'C', 'C'], 'Var' : ['All', 'french', 'All', 'German', 'All', 'Spanish'], 'Values' : [250, 30, 120, 12, 200, 112]})

df = pd.DataFrame(df.values.reshape(-1, df.shape[1] * 2)[:,[0,1,4,5]],
    columns = ['Place', 'All', 'Value', 'Language'])

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐