微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

python – 识别某些分位数的观察:数据科学熊猫

我有一个很大的df,这是一个说明我的问题的例子.我想从这个数据框架知道哪个id在工作方面的第一个百分比.我想确定(我正在考虑一个假人)百分之一的分配中有更多的工作

例如

id  year  rap  cohort    jobs  year_of_life  rap_new
1   2009    0     NaN      10      NaN       0  
2   2012    0     2012     12      0         0   
3   2013    0     2012     12      1         1
4   2014    0     2012     13      2         1
5   2015    1     2012     15      3         1
6   2016    0     2012     17      4         0
7   2017    0     2012     19      5         0
8   2009    0     2009     15      0         1
9   2010    0     2009     2       1         1
10  2011    0     2009     3       2         1
11  2012    1     2009     3       3         0
12  2013    0     2009     15      4         0
13  2014    0     2009     12      5         0
14  2015    0     2009     13      6         0
15  2016    0     2009     13      7         0
16  2011    0     2009     3       2         1
17  2012    1     2009     3       3         0
18  2013    0     2009     18      4         0
19  2014    0     2009     12      5         0
20  2015    0     2009     13      6         0
.....
100 2009    0     2007     5       6         1

转换为这样的东西也许,在这个数据框中,因为我们有100个百分比,百分之一是百分之一,然后寻找工作中最大的id.我真的df改变了观察次数,这就是为什么即时寻找一些标准代码,无论观察次数多少都会适用

id  year  rap  cohort    jobs  year_of_life  rap_new  new_var
1   2009    0     NaN      10      NaN       0          0
2   2012    0     2012     12      0         0          0
3   2013    0     2012     12      1         1          0
4   2014    0     2012     13      2         1          0
5   2015    1     2012     15      3         1          0
6   2016    0     2012     17      4         0          0
7   2017    0     2012     18      5         0          0
8   2009    0     2009     15      0         1          0
9   2010    0     2009     2       1         1          0
10  2011    0     2009     3       2         1          0
11  2012    1     2009     3       3         0          0
12  2013    0     2009     15      4         0          0
13  2014    0     2009     12      5         0          0
14  2015    0     2009     13      6         0          0
15  2016    0     2009     13      7         0          0
16  2011    0     2009     3       2         1          0
17  2012    1     2009     3       3         0          0
18  2013    0     2009     19      4         0          1
19  2014    0     2009     12      5         0          0
20  2015    0     2009     13      6         0          0
.....
100 2009    0     2007     5       6         1          0

解决方法:

您可以使用pd.Series.quantile来识别截止

建立

import numpy as np
import pandas as pd

np.random.seed([3, 1415])
df = pd.DataFrame(dict(
    id=range(1, 201),
    jobs=np.random.randint(100, 10000, size=200)
))

df[df.jobs >= df.jobs.quantile(.99)]

      id  jobs
23    24  9768
182  183  9965

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐