微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

python – Pandas:如何在行上使用多个级别对count进行分组?

我有以下数据框

|----|----|
| A  | B  |
| a1 | b1 |
| a2 | b1 |
| a1 | b2 |
| a2 | b3 |

我希望按每A计算B并获得以下结果:

|----|----|-------|
| A  | B  | Count |
| a1 | b1 |  1    |
|    | b2 |  1    |
|    | b3 |  NaN  |
| a2 | b1 |  1    |
|    | b2 |  NaN  |
|    | b3 |  1    |

我通常使用df.groupby([B])[A] .count()执行此操作,但在这种情况下使用有点数据透视表对我来说很困惑

提前致谢.

UPDT:

df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 20422 entries, 180 to 96430
Data columns (total 2 columns):
B    20422 non-null object
A             20422 non-null object
dtypes: object(2)
memory usage: 478.6+ KB

我正在使用df.groupby([B])[A] .value_counts().unstack().stack(dropna = False).reset_index(name =“Count”):

|--|----|----|-------|
|  | A  | B  | Count |
|0 | a1 | b1 |  1    |
|1 | a1 | b2 |  1    |
|2 | a1 | b3 |  NaN  |
|3 | a2 | b1 |  1    |
|4 | a2 | b2 |  NaN  |
|5 | a2 | b3 |  1    |

解决方法:

1)一种方法是在“A”上进行分组并使用value_counts计算“B”下的元素的不同计数.然后使用dropna = False将unstack和stack融合以获得所需的DF:

df.groupby('A')['B'].value_counts().unstack().stack(dropna=False).reset_index(name="Count")

2)如果我们在堆叠后用np.NaN替换零计数元素,pd.crosstab也提供了一个很好的选择:

pd.crosstab(df['A'], df['B']).stack().replace({0:np.nan}).reset_index(name="Count")

两种方法都产生:

enter image description here

EDIT1:

要使分组键,“A”以某种格式显示(即保留第一次出现,同时用空字符串替换其余的)

df_g = pd.crosstab(df['A'], df['B']).stack().replace({0:np.nan}).reset_index(name="Count")
df_g.loc[df_g.duplicated('A'), "A"] = ""

enter image description here

EDIT2:

如果您希望“A”作为单个健康单元格成为多索引DF的一部分:

df.groupby('A')['B'].value_counts().unstack().stack(dropna=False
                    ).reset_index(name="Count").set_index(['A', 'B'])

enter image description here

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐