AI导航网

技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

python – Pandas – 在pd.merge时为缺少的值添加NaN

时间：2022-09-06分类：pandas作者：编程之家原文地址

我将目录中的所有文件连接成一个,但是一些文件具有不同数量的条目 – 当文件中没有该键的值时,如何放置NaN？

例如：

file1.cs

 NUM, NAME, ORG, DATA
 1,AAA,10,123.4
 1,AAB,20,176.5
 1,AAC,30,133.5

 NUM, NAME, ORG, DATA
 1,AAA,10,111.4
 1,AAC,30,122.5
 2,BBA,12,156.7

期望的输出

 NUM, NAME, ORG, File1, File2 ....
 1, AAA, 10, 123.4, 111.4
 1, AAB, 20, 176.5, NaN
 1, AAC, 30, 133.5, 122.5
 2, BBA, 12, NaN,   156.7
 .....

这就是我尝试过的：

import pandas as pd
import glob

writer = pd.ExcelWriter('analysis.xlsx', engine='xlsxwriter')
data = []
df1 = pd.read_csv("file1.cs", sep = ',', header = 'infer')    

for infile in glob.glob("*.cs"):
    df = pd.read_csv(infile, sep = ',', header = 'infer')
    name = infile[13:-7]
    df['filename'] = name
    data.append(df)
result = pd.merge(df1, data.to_frame(), on= 'NAME')
result.to_excel(writer, sheet_name=sheetname)
writer.save()

我也尝试过pd.concat(data,axis = 1,ignore_index = False),但这不会添加NaN,因为它只是根据列名连接文件.

使用merge参数如何等于’outer’：

df1.merge(df2, on=['NUM','NAME','ORG'], how='outer')

   NUM NAME  ORG  DATA_x  DATA_y
0    1  AAA   10   123.4   111.4
1    1  AAB   20   176.5     NaN
2    1  AAC   30   133.5   122.5
3    2  BBA   12     NaN   156.7

要获得您的确切输出,请使用：

df1.rename(columns={'DATA':'FILE'})\
   .merge(df2.rename(columns={'DATA':'FILE'}), 
         on=['NUM','NAME','ORG'],
         how='outer', 
         suffixes=('1','2'))

   NUM NAME  ORG  FILE1  FILE2
0    1  AAA   10  123.4  111.4
1    1  AAB   20  176.5    NaN
2    1  AAC   30  133.5  122.5
3    2  BBA   12    NaN  156.7

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 [email protected] 举报，一经查实，本站将立刻删除。

相关推荐

一文讲述Pandas库的数据读取、数据获取、数据拼接、数据写出！

转载：一文讲述Pandas库的数据读取、数据获取、数据拼接、数据写出！(qq.com)1.pandas介绍Pandas是一个强大的数据分析库，它的Series和DataFrame数据结构，使得处理起二维表格数据变得非常简单。基于后面需要对Excel...

作者：编程之家时间：2022-11-23

1.Pandas是什么

Pandas是一个开源的第三方Python库，从Numpy和Matplotlib的基础上构建而来，享有数据分析“三剑客之一”的盛名（NumPy、Matplotlib、Pandas）。Pandas已经成为Python数据分析的必备高级工具，它的目标是成为强大、灵...

作者：编程之家时间：2022-11-23

Python 筛选 Excel 数据练习

整体流程登录天池在线编程环境导入pandas和xrld操作EXCEL文件登录天池在线编程环境网址：tianchi.aliyun.com登陆后选择天池实验室-天池notebook天池实验室新手入门教程：https:/ianchi.aliyun.comotebook-ai/detail?...

作者：编程之家时间：2022-11-23

Python - numpy 和 pandas

一、numpy小结二、pandas2.1为什么要学习pandans

作者：编程之家时间：2022-11-23

Pandas：时序数据下

1、时间偏移DateOffset对象DateOffset类似于时间差Timedelta，但它使用日历中时间日期的规则，而不是直接进行时间性质的算术计算，让时间更符合实际生活。比如，有些地区使用夏令时时，每日偏移时间有可能是23或24小...

作者：编程之家时间：2022-11-23

1、pandas内置样式空值高亮highlight_null最大最小值高亮背景渐变background_gradient根据数值的大小背景颜色呈现梯度渐变，越深表示越大，越浅表示越小，类似于Excel的中的色阶样式。条形图bar2、pandas格式显示我们...

作者：编程之家时间：2022-11-23

ML第15周学习小结

本周收获总结一下本周学习内容：1、《深入浅出Pandas》的第14章：Pandas时序数据14.4时间偏移~14.6时间操作

作者：编程之家时间：2022-11-23

ML第16周小结

本周收获总结一下本周学习内容：1、《深入浅出Pandas》的第15章：Pandas样式15.1内置样式~15.3样式高级操作

作者：编程之家时间：2022-11-23

pandas快速入门

安装pip3installpandaspandas快速入门1pandas擅长处理哪些数据在处理表格数据时，例如存储在电子表格或数据库中的数据，pandas是适合您的工具。pandas将帮助您探索、清理和处理数据。在pandas中，数据表称为DataFram...

作者：编程之家时间：2022-11-23

数据分析之Pandas

一、Pandas介绍1、介绍pandas是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。Pandas纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷...

作者：编程之家时间：2022-09-06