微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何使用Python pandas“分组”多个变量,消除重复

我有一个包含这种数据的输入文件

**> Due big size of input file, i need to take only unique pairs

userID-locationID (some kind of preprocessing)**

userID locationID
     1       loc1 
     1       loc2 
     1       loc3 
     2       loc1 
     3       loc4 
     3       loc3 
     3       loc1

我必须找到每个位置检查了多少个不同的用户,并获得带有值的新列.我已经试过了,但这不是我需要的.

DataFrame({'count': df.groupby(["userID","locationID",]).size()}).reset_index()

解决方法:

这应该是你想要的,但我不确定是否有一个更简单的方法

In [5]: df.groupby(['LociD','userId']).last().groupby(level='LociD').size()
Out[5]: 
LociD
loc1     3
loc2     1
loc3     2
loc4     1
dtype: int64

取每组的最后一个删除重复项

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐