pandas - 编程之家

关于零售商店,我有以下pandas交易数据集：print(df)productDateAssistant_nameproduct_12017-01-0211:45:00Johnproduct_22017-01-0211:45:00Johnproduct_32017-01-0211:55:00Mark...我想为MarketBasketAnalysi

作者：编程之家时间：2022-09-06

python – 将零值转换为Pandas中的空单元格

我有一个像这样的“单线”数据帧：Value1Value2Value3code12303231我想将零值变为空,所以它看起来像这样：Value1Value2Value3code1233231我怎么能这样做？解决方法:您可以使

作者：编程之家时间：2022-09-06

python – Pandas：聚合后加入分组密钥

是)我有的我有一个像这样的熊猫框架：df1=pd.DataFrame({'date':['31-05-2017','31-05-2017','31-05-2017','31-05-2017','01-06-2017','01-06-2017'],'tag':['A',&#03

作者：编程之家时间：2022-09-06

python – Pandas匹配多个列并将匹配值作为单个新列

我有一个大约5列的数据框.我希望匹配的值可以出现在最后3列中的任何一列中.Key|col1|col2|col3|col4----------------------------------------1abc2122232cde2221203fgh20

作者：编程之家时间：2022-09-06

python – Pandas将字典列表分成行

拥有这个：items,name0{[{'a':2,'b':1},{'a':4,'b':3}],this}1{[{'a':2,'b':1},{'a':4,'b':3}],that}但是希望将字典对象列表展开(展平？)到

作者：编程之家时间：2022-09-06

如何合并具有不同日期时间索引的两个pandas时间序列对象？

例如,我有两个不相交的时间序列对象-ts1DatePrice2010-01-011800.02010-01-041500.02010-01-081600.02010-01-091400.0Name:Price,dtype:float64-ts2DatePrice2010-01-022000.02010-01-032200.02

作者：编程之家时间：2022-09-06

python – 熊猫条形图

我刚刚搬到了pandas0.20/matplotlib2.0python3.6.(总共形成以下版本).我用pandas绘制条形图,因为matplotlib总是太低了.着色列的行为现在已经改变,我不知道如何解决这个问题.它曾经是以下：np.random.seed(42)d=pd.Series(data=np.random.rand(10),index=range(10))co

作者：编程之家时间：2022-09-06

python – 将一个pandas列文本拆分为多个列

例如,我有一个pandas列包含textA1V2B2C7Z1我想把它分成26个(A-Z)列,字母跟着值,如果缺少,则为-1.所以,它可以textABCD...ZA1V21-1-1-1...-1B2C7Z1-127-1...1有没有快速的方式,而不是使用df.apply()？跟进：感谢Psidom的精彩回答.当我使

作者：编程之家时间：2022-09-06

python – Pandas Group by和sum by行列出的时间

有趣的问题！我有一个包含许多列的数据框,但相关的是：id,event_timeID是可重复的.我试图计算在每行中id的时间之前数据帧中出现id的所有时间.因此,如果id=43且event_time=2016-01-0112:00:00,我想要在此event_time之前发生id43的所有次数.event_time已使用pd.to_datetime()格

作者：编程之家时间：2022-09-06

python – 根据同一行的其他列中的值将函数应用于dataframe列元素？

我有一个数据帧：df=pd.DataFrame({'number':['10','20','30','40'],'condition':['A','B','A','B']})df=numbercondition010A

作者：编程之家时间：2022-09-06

python – 组内的Pandas排序导致重复索引

我有一个pandasDataFrame,格式如下：C1C2A01.7640520.40015710.9787382.24089321.867558-0.97727830.950088-0.1513574-0.1032190.410599C00.1440441.45427410.7610380.12167520.4438630.33367431.49

作者：编程之家时间：2022-09-06

python – 将列的每个元素乘以同一数据帧中不同列的每个元素

我需要将列的每个元素乘以同一数据帧的不同列中的每个元素.我的原始数据集看起来像这样：originsumsum2a.21b.42c.63我期待的结果类似于：origindestresult(sum*sum2)a.a.

作者：编程之家时间：2022-09-06

python – 如何使用pandas对一系列值进行编码

我有一个pandas数据框,并且有一个列年龄.我想将其编码为由特定范围分隔的分类值,例如,15岁以下的年龄应为0,15到30之间应更改为1,依此类推.我找到了这样做的方法(在经历了关于使用&和and的巨大混乱之后)age=X.loc[:,'Age']age[age<15]=0age[(15<age)&(age<=30)]=

作者：编程之家时间：2022-09-06

python – 什么是从系列中删除零的最快方法

我几次遇到这个问题,每次都做不同的事情.其他人做什么？考虑一下这个系列s=pd.Series([1,0,2],list('abc'),name='s')什么是最快的生产方式a1c2Name:s,dtype:int64解决方法:布尔切片可能是最简单的方法：In[1]:s=pd.Series([1,0,2],list('abc'),

作者：编程之家时间：2022-09-06

Python中Pandas / Matplotlib中直方图和密度的叠加

我有一个名为clean的Pandas数据帧,其中包含一个列v,我想绘制一个直方图并叠加一个密度图.我知道我可以用这种方式在另一个下面绘制一个：importpandasaspdimportmatplotlib.pyplotaspltMaxv=200plt.subplot(211)plt.hist(clean['v'],bins=40,range=(0,Maxv),color='

作者：编程之家时间：2022-09-06

python – 如何只乘以列中的数值

>我使用pd.read_excel()读取Excel文件>其中一列称为“能量供应”,包含字符串和数字>我使用以下代码：能源中的x[‘能源供应’]：打印(式(X))结果样本是：<class'str'><class'int'><class'float'>我需要将此列中的数值乘以一百万.我尝试了以下代码,但它没有说明：

作者：编程之家时间：2022-09-06

python – Pandas：将特定的Excel单元格值读入变量

情况：我正在使用pandas在工作簿中使用以下设置解析单独的Excel(.xlsx)工作表：Windows7x64上的Python3.6.0和Anaconda4.3.1.问题：我一直无法找到如何将变量设置为特定的Excel工作表单元格值,例如var=Sheet[‘A3’].使用pandas从’Sheet2’获取值？题：这可能吗？如果是这样,怎么

作者：编程之家时间：2022-09-06

python – 为什么在使用loc分配时会得到nan

考虑数据帧dfdf=pd.DataFrame(np.arange(25).reshape(5,5),list('ABCDE'),list('abcde'))print(df)a b c d eA 0 1 2 3 4B 5 6 7 8 9C 10 11 12 13 14D 15 16 1

作者：编程之家时间：2022-09-06

python – pandas自定义idxmax()函数,具有特殊的相等处理

我正在处理一个充满选举数据的csv文件.我的原始样本可以表示为：cityparty1party2party30city1501071141city21813233262city32628753city432

作者：编程之家时间：2022-09-06

python – ValueError：不支持的pickle协议：4与pandas

我收到这个错误ValueError:unsupportedpickleprotocol:4从我的代码行full_df=pd.read_pickle('df_userID.pickle')使用python2.7运行脚本时(在Ubuntu14.04.5上,3.13.0-95-通用)感谢帮助.解决方法:看起来这个pickle文件的创建方式如下：pickle.dump(df,file_name,

作者：编程之家时间：2022-09-06

python – 堆积条形图更改x轴绘图编号值

题：如果我选择plot选项stacked=False,我的数据输出正确的x轴.但是,当我使用stacked=True时,我得到错误的输出,在x轴上显示更高(不正确)的值.除堆叠选项外,没有其他任何改变.我错过了一些明显的东西吗？数据DataFrame.to_dict()输出hereimportmatplotlib.pyplotasplti

作者：编程之家时间：2022-09-06

python – 在Pandas Dataframe中聚合,转置和引入值

InputDF:IDTimeValue015027038111124136OutputDF:12305781146目标：我目前有类似于输入DF的东西,我希望将其转换为输出DF.>输出DF的第1行等于唯一的时间数据点.>输出DF的第1列等于唯一ID.剩余

作者：编程之家时间：2022-09-06

python – “必须在Panda中显式设置引擎,如果没有传递缓冲区或路径为io”

运行以下PythonPanda代码时：xl=pd.ExcelFile(dataFileUrl)sheets=xl.sheet_namesdata=xl.parse(sheets[0])colheaders=list(data)我收到ValueError：Mustexplicitlysetengineifnotpassinginbufferorpathforio

作者：编程之家时间：2022-09-06

Pandas之处理 NaN

Pandas之处理NaN正如之前提到的，在能够使用大型数据集训练学习算法之前，我们通常需要先清理数据。也就是说，我们需要通过某个方法检测并更正数据中的错误。虽然任何给定数据集可能会出现各种糟糕的数据，例如离群值或不正确的值，但是我们几乎始终会遇到的糟糕数据类型是缺少值。正如之

作者：编程之家时间：2022-09-06

排序二维列表python

我有这样的二维列表a=[[42,206],[45,40],[45,205],[46,41],[46,205],[47,40],[47,202],[48,40],[48,202],[49,38]]实际上这些是2D-Euclidean空间中的坐标.我希望按照关闭点顺序排列的方式对其进行排序.因此,列表如下所示sorted_a=[[45,205],[42,206],

作者：编程之家时间：2022-09-06

多个过滤器Python Data.frame

我对python很新.我正试图像在R中那样过滤data.frame中的行.sub_df=df[df[main_id]==3]有效,但是df[df[main_id]in[3,7]]给我错误“ThetruthvalueofaSeriesisambiguous”你能建议我写一个正确的语法来编写类似的选择吗？解决方法:你可以使用pandasisin功能.

作者：编程之家时间：2022-09-06

如何排序格式错误的pandas Dataframe列？

我有一个超过10000列的pandasDataframe.这些列需要按顺序排序.通常这很简单：importnumpyasnpimportpandasaspddf=pd.read_csv("...*.csv")df.reindex_axis(sorted(df.columns),axis=1)#sortthecolumnsofthedataframe对于我的Dataframedf,这些列中的每一列

作者：编程之家时间：2022-09-06