pandas - 编程之家

这是一个python pandas DataFrame帖子排序情节bug吗？

当我创建一个DataFrame时,然后按列排序它似乎在迭代显示中排序(即无论repr给出),但是当我调用DataFrame.plot()函数时,它会绘制未排序的数组.调用matplotlib.pylab.plot可以正常工作.我怀疑这与聪明的指针重新排列没有被传递给绘图函数调用访问数据的任何东西有关…或者我可能只是

作者：编程之家时间：2022-09-06

python – .upper()和.apply(str.upper)上的括号

为什么df.apply(df.str.upper)中的upper不需要括号,但upper()方法需要它们在df.str.upper()中？我错过了一些概念吗？解决方法:()表示“立即调用此函数”.print(str.upper())引用没有()的函数不会立即调用该函数.map(str.upper)str.upper函数被传递给map函数.map函数现在可以

作者：编程之家时间：2022-09-06

如何在计算中直接使用Pandas日期时间索引？

我有以下代码：table['CALC_DOM']=table.indextable['CALC_DOM']=table['END_DATE']-['CALC_DOM']不应该有更好的方法直接从table.index转换？喜欢：table['CALC_DOM']=table.indextable['CALC_DOM']=table['END_DATE']

作者：编程之家时间：2022-09-06

python – 根据列使用Pandas保存其他列的值,在DataFrame中对日期进行排序

我有一个像这样的数据集(额外的这里意味着多个额外的列)：>>>df=pd.DataFrame({'id_police':['p123','p123','p123','b123','b123'],'dateeffe':['24/01/2018','24/11/2017&#0

作者：编程之家时间：2022-09-06

如何将标量广播到pandas数据帧中的过滤列

我希望将表达式的结果广播到数据帧,但不是整个列,只是过滤子集.简化如下：In[6]:df1=DataFrame({"A":[1,2,3,4],"B":["w","x","y","z"],"C":(numpy.zeros((4),dtype='S1'))})In[7]:df1Out[7]:ABC

作者：编程之家时间：2022-09-06

python – 使用group by并使用前一行值应用lambda函数

我有以下数据框,每个日期,每小时,我想创建一个新列“结果”,这样如果列“B”中的值是>=0,那么使用A列中的值;否则使用列B中0和前一行值之间的最大值DateHourABresult1/1/2018159551/1/201811679161/1/2018185

作者：编程之家时间：2022-09-06

从数据Pandas Python Numpy中删除序列

我尝试过以下方法：>>>importpandasaspd>>>importnumpyasnp>>>df=pd.read_csv("training.csv")>>>data_raw=df.values>>>data=[]>>>seq_len=5>>>forindexinrange(len(data_

作者：编程之家时间：2022-09-06

将数字转换为二进制并使用python存储在pandas中的多个列中

我想使用Python将数字转换为二进制并存储在Pandas中的多个列中.这是一个例子.df=pd.DataFrame([['a',1],['b',2],['c',0]],columns=["Col_A","Col_B"])foriinrange(0,len(df)):df.loc[i,'Col_C'],df.loc[i,'Col_D

作者：编程之家时间：2022-09-06

python – Pandas：将WinZipped csv文件转换为Data Frame

我有几个WinZippedcsv文件,并希望将其作为Pandas数据帧阅读.问题是,解压缩选项(‘gzip’或’bz2’)似乎都不起作用.这是文件的样子：00000000011!00023011!89011!20081200000000012!00023011!89011!20081200000000013!00023011!89011!200812因此,似乎我将不得不使用Python的zi

作者：编程之家时间：2022-09-06

python – 更改DataFrame中的子图颜色？

我想改变个别子情节的颜色：1.手动指定所需的颜色2.使用随机颜色基本代码(摘自1)df=DataFrame(np.random.randn(1000,4),index=ts.index,columns=list('ABCD'))df=df.cumsum()df.plot(subplots=True)plt.legend(loc='best')plt.show()我试过这个：colors=

作者：编程之家时间：2022-09-06

python – 计算数据框列中字符串的最大连续出现次数

我有一个熊猫数据帧,我想在其中计算一列中特定字符串的连续出现次数.假设我有以下数据帧.col10string11string12string13string24string35string36string1我想将a定义为最大连续出现次数,例如string1或col1中的任何其他字符串.在这种情况下,如果我想

作者：编程之家时间：2022-09-06

python – Pandas df.describe() – 如何将值提取到Dataframe中？

我试图做一个朴素的贝叶斯,并在将一些数据加载到Pandas的数据帧后,describe函数捕获我想要的数据.我想从表格的每一列中捕捉均值和标准但我不确定如何做到这一点.我尝试过这样的事情：df.describe([mean])df.describe(['mean'])df.describe().mean没有人工作.我能够在R中用类似

作者：编程之家时间：2022-09-06

python – Pandas：计算每列2行的平均值并将其放入新列中

我想平均列一列,但我希望将平均值放入带有pandas的新列中.我想从这种格式出发：values105872567对于这种格式：valuesaverage10nan57.586.577.524.553.565.576.5这里有类似的解决方案：Averagingeverytwoconsecutiveindexvalues(

作者：编程之家时间：2022-09-06

使用numpy.median与其他函数聚合pandas groupby对象的结果不一致

使用DataFrame(pandasaspd,numpyasnp)：test=pd.DataFrame({'A':[10,11,12,13,15,25,43,70],'B':[1,2,3,4,5,6,7,8],'C':[1,1,1,1,2,2,2,2]})In[39]:testOut[39]:AB

作者：编程之家时间：2022-09-06

python – pandas和文件系统可以用作数据库的替代品吗？

我用pandas处理数据.我喜欢这种方法,因为在pandas中操作数据非常容易(选择行,添加行,删除列,分组,连接表等).我的问题是,如果数据庞大,大熊猫也是一个很好的方法.特别是我担心修改和提取数据.在我可以修改数据或从数据中提取某些东西之前,我需要从文件中读取(加载)数据,然后,在我

作者：编程之家时间：2022-09-06

python – pandas透视数据帧,重复行

参见英文答案>Howtopivotadataframe 1个在熊猫中旋转我有点麻烦.我正在处理的数据框(日期,位置,数据)如下所示：dateslocationdatadate1AXdate2AYdate

作者：编程之家时间：2022-09-06

python – Pandas：计算仅在两列中不同的所有条目的平均值

我刚拿起大熊猫,以为它能让我在python中很好地进行数据分析.现在我有一个以下形式的pandas数据框：pandas.DataFrame({"p1":[1,1,2,2,3,3]*2,"p2":[1]*6+[2]*6,"run":[1,2]*6,"result":xrange(12)})

作者：编程之家时间：2022-09-06

机器学习之pandas 索引笔记

1importpandasaspd2importnumpyasnp34s=pd.Series(np.random.rand(5),index=list('abcde'))5＃创建序列，其中index=list('abcde')为每一行添加索引6s.index.name='alpha'#为行索引添加名称标签78df=pd.DataFrame(np.random.randn(4,3),

作者：编程之家时间：2022-09-06

python – 以相反的顺序迭代DataFrame行索引

我知道如何遍历pandasDataFrame的行：forid,valueindf.iterrows():但现在我想以相反的顺序遍历行(id是数字,但与行号不一致).首先,我考虑对索引data.sort(升序=假)进行排序,然后运行相同的迭代过程,但它不起作用(它似乎仍然从较小的id变为较大的id).我怎么能做到这一点？解决

作者：编程之家时间：2022-09-06

python – 删除基于两列的重复项,同时删除不一致的数据

我有一个像这样的pandas数据帧：abc01111110224133504350前两列(‘a’和’b’)是ID,而最后一列(‘c’)是验证(0=neg,1=pos).我知道如何根据前2列的值删除重复项,但在这种情况下,我还想摆脱不一致的数据,即重复数据验证为正面

作者：编程之家时间：2022-09-06

python – 第一次出现’ – ‘时拆分列

我有一个带有列的pandas数据框,其中包含门牌号和后缀.门牌号和后缀用’–‘分隔,但许多后缀也包含’–‘.我试过这个：dfhouse_nr(x):y=x['house_nr'].split('-',maxsplit=1)returnydf['suffix']=df.apply(house_nr,axis=1)得到以下错误：KeyError:(

作者：编程之家时间：2022-09-06

如何忽略Python中词云中的某些单词？

在Python3和Pandas中,我有一个程序可以从列中创建文字云：importpandasaspdimportnumpyasnpfromwordcloudimportWordCloudimportmatplotlib.pyplotaspltautores_atuais=pd.read_csv("deputados_autores_projetos.csv",sep=',',encoding='utf-8&#

作者：编程之家时间：2022-09-06

python – pandas groupby并在多列上应用函数

如果我有一个函数f,我不止一次应用于一组列,那么更多的Pythonic方法是什么.现在,我正在做的是这个.newdf=df.groupby(['a','b']).apply(lambdax:f(x,1))newdf.columns=['1']newdf['2']=df.groupby(['a','b']).apply(lambdax:f(x,2))newdf[&

作者：编程之家时间：2022-09-06

python – 删除具有N个或更多连续NaN的pandas数据帧中的所有行

这个问题的推论：replacevaluesinpandascolumnwhenNnumberofNaNsexistinanothercolumnabcde2018-05-250.0003810.264318land2018-05-252018-05-260.0000000.264447land2018-05-262018-05-27

作者：编程之家时间：2022-09-06

从Python的数组生成pandas数据帧

我正在使用Python(3.6)开发一个项目,其中我有一个USA状态数组,我想从该数组生成一个具有列名状态的数据框.以下是美国各州：['NE','NY','ID','ID','NY','ID','ID','ID','WD','ID','ID','ID&

作者：编程之家时间：2022-09-06

如何创建一个新的数据帧来存储原始数据帧的列的平均值？

假设我有一个数据帧,df：>>>dfAgeScore191202243192243241243201191203222221我想构建一个新的数据框,其中包含Age并将其平均分数存储在Score中：AgeScore19-211.666722-242

作者：编程之家时间：2022-09-06

python – Pandas：每n行累计和

我有一个数据框,其列“日期”类型为dtypeM8[ns],另一个是“expected_response”.然后,有一列“cumulative_expected”,它使具有相同日期的行之间的expected_response的累积和.数据框在每个月的每一秒都有一行.如下所示：dateExpected_responsecumulative_expect

作者：编程之家时间：2022-09-06

python – pandas idxmax：在绑定的情况下返回所有行

我正在处理一个数据帧,其中每行按其概率加权.现在,我想选择具有最高概率的行,并且我使用pandasidxmax()来执行此操作,但是当存在tie时,它只返回绑定的第一行.就我而言,我希望得到所有相关的行.此外,我这样做是作为一个研究项目的一部分,我正在处理数百万个数据帧,如下所示,所以保

作者：编程之家时间：2022-09-06

python – 如何在pandas数据帧中移动列

我想把一个索引为’length’的列,并将其作为我的第二列.它目前作为第5列存在.我试过了：colnames=big_df.columns.tolist()#makeindex"length"thesecondcolumninthebig_dfcolnames=colnames[0]+colnames[4]+colnames[:-1]big_df=big_df[colnames]我看到

作者：编程之家时间：2022-09-06

python – 从pandas系列列表中获取唯一值

我在DataFrame中有一个包含类别列表的列.例如：0[Pizza]1[Mexican,Bars,Nightlife]2[American,New,Barbeque]3

作者：编程之家时间：2022-09-06