微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何使用dict类型列中的键合并DataFrame?

假设我有两个这样的数据集:

In [2]: df_names = pd.DataFrame([
   ...:     ['alpha', {'key': 'a'}],
   ...:     ['beta', {'key': 'b'}],
   ...:     ['gamma', {'key': 'g'}],
   ...: ], columns=['name', 'data'])
   ...: df_names

Out[2]: 
    name          data
0  alpha  {'key': 'a'}
1   beta  {'key': 'b'}
2  gamma  {'key': 'g'}

In [3]: df_symbols = pd.DataFrame([
   ...:     ['α', {'english_letter': 'a'}],
   ...:     ['β', {'english_letter': 'b'}],
   ...:     ['γ', {'english_letter': 'g'}],
   ...: ], columns=['symbol', 'Meta'])
   ...: df_symbols

Out[3]: 
  symbol                     Meta
0      α  {'english_letter': 'a'}
1      β  {'english_letter': 'b'}
2      γ  {'english_letter': 'g'}

现在我想在左侧的[‘data’] [‘key’]和右侧的[‘Meta’] [‘english_letter’]加入这两个.

不确定要添加更多内容.你会如何以优雅的方式做到这一点?

我目前的做法:

In [4]: df_names['join_key'] = df_names.apply(lambda x: x['data']['key'], axis=1)
   ...: df_symbols['join_key'] = df_symbols.apply(lambda x: x['Meta']['english_letter'], axis=1)
   ...: result = pd.merge(df_names, df_symbols, on='join_key')
   ...: result[['name', 'symbol']]

Out[4]: 
    name symbol
0  alpha      α
1   beta      β
2  gamma      γ

我不喜欢的是需要修改两个源数据集.

解决方法:

您可以按列表推导创建列表,转换为数组并将其用作merge中left_on和right_on参数的输入:

a1 = np.array([x['key'] for x in df_names['data']])
a2 = np.array([x['english_letter'] for x in df_symbols['Meta']])

r = pd.merge(df_names, df_symbols, left_on=a1, right_on=a2)[['name', 'symbol']]
print (r)
    name symbol
0  alpha      α
1   beta      β
2  gamma      γ

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐