微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

python – Pandas df操作:如果其他列行重复,则返回值列表的新列

参见英文答案 > grouping rows in list in pandas groupby                                    6个
我有这样的df:

ID   Cluster Product 
 1         4     'b'  
 1         4     'f'
 1         4     'w'
 2         7     'u'
 2         7     'b'
 3         5     'h'
 3         5     'f'
 3         5     'm'
 3         5     'd'
 4         7     's'
 4         7     'b'
 4         7     'g'

其中ID是另一个df的主键和唯一键,该df是此df的源.群集不是关键,不同的ID通常具有相同的群集值;无论如何,这是我必须要进行的信息.

我想要获得的是这个数据帧:

ID   Cluster    Product_List_by_ID 
 1         4     ['b','f','w'] 
 2         7     ['u','b']
 3         5     ['h','f','m','d']
 4         7     ['s','b','g']

如果这是不可能的,那么像这样的字典也可以:

d = {ID:[1,2,3,4], Cluster:[4,7,5,7], 
     Product_List_by_ID:[['b','f','w'],['u','b'],['h','f','m','d'],['s','b','g']]}

我尝试过很多方法都没有成功..似乎无法将列表作为pandas数据帧值插入..
无论如何,我认为以一些棘手的方式获得目标应该不会那么困难.抱歉,如果我不在乎,但我是新手编码

有什么建议吗?!谢谢

解决方法:

使用groupby

df.groupby(['ID', 'Cluster']).Product.apply(list)

ID  Cluster
1   4               ['b', 'f', 'w']
2   7                    ['u', 'b']
3   5          ['h', 'f', 'm', 'd']
4   7               ['s', 'b', 'g']
Name: Product, dtype: object

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐