微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

python – 在pandas数据帧中进行行相关的正确方法

我想计算两个Pandas DataFrame行之间的相关性.当所有条目都是数字类型时,很容易计算两行之间的相关性,如下所示:

import pandas as pd
import numpy as np
example_df = pd.DataFrame(np.random.randn(10, 30), np.arange(10))
example_df.iloc[1, :].corr(example_df.iloc[2, :])

但是,如果DataFrame是混合类型,即使您只选择数字条目的子集,在计算相关性时也会出错:

example_df['Letter'] = 'A'
example_df.iloc[1, :-1].corr(example_df.iloc[2, :-1])

AttributeError:’numpy.float64’对象没有属性’sqrt’

Pearson的相关函数使用平方根函数,并且该函数对于对象类型不存在,因此它不能进行相关.您必须手动将类型更改为浮动,然后您可以计算相关性.

example_df.iloc[1, :-1].astype('float64').corr(example_df.iloc[2, :-1].astype('float64'))

一个更好的方法吗?

解决方法:

我不知道这些是否比你做的更好,但这里有一个numpy方式:

np.corrcoef(df_example.iloc[1:3, :-1])

array([[ 1.        , -0.37194563],
       [-0.37194563,  1.        ]])

这是大熊猫的一种方式:

df_example.iloc[1:3, :-1].T.corr()

          1         2
1  1.000000 -0.371946
2 -0.371946  1.000000

如果要比较非连续行,请像这样调整iloc:

df_example.iloc[[1, 4], :-1].T.corr()

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐