微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

python – Pandas Dataframe:根据文本列中单词出现次数计算ID数

我有一个像这样的pandas数据帧:

id   comment

1    its not proper
2    improvement needed
3    organization is proper
4    registration not done
5    timelines not proper

对于这些单词[‘proper’,’organization’,’done’],我想计算它们发生的id的数量.所以输出应该是这样的:

proper         3
organization   1
done           1

我使用for循环尝试了这个:

word_list = ['proper','organization','done']
final _list = {'proper':0,'organization':0,'done':0}
for index,row in data.iterrows():
    for word in word_list:
        if word in row['comment'].split(' '):
            final_list[word] += 1

没有使用任何for循环有没有办法做到这一点…

解决方法:

您可以使用str.contains并对单词列表理解中的bool值求和

In [23]: words = ['proper','organization','done']

In [24]: pd.DataFrame([[wrd, df['comment'].str.contains(wrd).sum()] for wrd in words])
Out[24]:
              0  1
0        proper  3
1  organization  1
2          done  1

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐