AI导航网

技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

python – 通过使用pandas中groupby()的百分比从Train集中获取验证集

时间：2022-09-06分类：pandas作者：编程之家原文地址

拥有具有多类目标变量类别的训练数据集

train.groupby('category').size()

0     2220
1     4060
2      760
3     1480
4      220
5      440
6    23120
7     1960
8    64840
@H_502_6@


我想通过获得每个类的百分比(比如说20％)从列车集中获取新的验证数据集,以避免在验证集中丢失类并破坏模型.所以基本上理想的输出将是df具有相同的结构和信息,如火车组,但具有如下参数：

0     444
1     812
2     152
3     296
4      44
5      88
6    4624
7     392
8   12968
@H_502_6@

在熊猫中解决它是否有任何直接的方法？
解决方法:
Groupby和sample应该为您做到这一点

df = pd.DataFrame({'category': np.random.choice(['a', 'b', 'c', 'd', 'e'], 100), 'val': np.random.randn(100)})

idx = df.groupby('category').apply(lambda x: x.sample(frac=0.2, random_state = 0)).index.get_level_values(1)

test = df.iloc[idx, :].reset_index(drop = True)
train = df.drop(idx).reset_index(drop = True)
@H_502_6@

编辑：你也可以用scikit学习,

df = pd.DataFrame({'category': np.random.choice(['a', 'b', 'c', 'd', 'e'], 100), 'val': np.random.randn(100)})

X = df.iloc[:, :1].values
y = df.iloc[:, -1].values
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, stratify = X)

X_train.shape, X_test.shape, y_train.shape, y_test.shape

((80, 1), (20, 1), (80,), (20,))
@H_502_6@

                
                                 版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容， 请发送邮件至 [email protected] 举报，一经查实，本站将立刻删除。


                
                    
                        
                            相关推荐
                            

                                 一文讲述Pandas库的数据读取、数据获取、数据拼接、数据写出！
                                转载：一文讲述Pandas库的数据读取、数据获取、数据拼接、数据写出！(qq.com)1.pandas介绍Pandas是一个强大的数据分析库，它的Series和DataFrame数据结构，使得处理起二维表格数据变得非常简单。基于后面需要对Excel...
                  作者：编程之家 时间：2022-11-23
                                
                            

                                 1.Pandas是什么
                                Pandas是一个开源的第三方Python库，从Numpy和Matplotlib的基础上构建而来，享有数据分析“三剑客之一”的盛名（NumPy、Matplotlib、Pandas）。Pandas已经成为Python数据分析的必备高级工具，它的目标是成为强大、灵...
                  作者：编程之家 时间：2022-11-23
                                
                            

                                 Python 筛选 Excel 数据练习
                                整体流程登录天池在线编程环境导入pandas和xrld操作EXCEL文件登录天池在线编程环境网址：tianchi.aliyun.com登陆后选择天池实验室-天池notebook天池实验室新手入门教程：https:/ianchi.aliyun.comotebook-ai/detail?...
                  作者：编程之家 时间：2022-11-23
                                
                            

                                 Python - numpy 和 pandas
                                 一、numpy小结             二、pandas2.1为什么要学习pandans 
                  作者：编程之家 时间：2022-11-23
                                
                            

                                 Pandas：时序数据下
                                1、时间偏移DateOffset对象DateOffset类似于时间差Timedelta，但它使用日历中时间日期的规则，而不是直接进行时间性质的算术计算，让时间更符合实际生活。比如，有些地区使用夏令时时，每日偏移时间有可能是23或24小...
                  作者：编程之家 时间：2022-11-23
                                
                            

                                 Pandas样式
                                1、pandas内置样式空值高亮highlight_null最大最小值高亮背景渐变background_gradient根据数值的大小背景颜色呈现梯度渐变，越深表示越大，越浅表示越小，类似于Excel的中的色阶样式。条形图bar2、pandas格式显示我们...
                  作者：编程之家 时间：2022-11-23
                                
                            

                                 ML第15周学习小结
                                本周收获总结一下本周学习内容：1、《深入浅出Pandas》的第14章：Pandas时序数据14.4时间偏移~14.6时间操作
                  作者：编程之家 时间：2022-11-23
                                
                            

                                 ML第16周小结
                                本周收获总结一下本周学习内容：1、《深入浅出Pandas》的第15章：Pandas样式15.1内置样式~15.3样式高级操作
                  作者：编程之家 时间：2022-11-23
                                
                            

                                 pandas快速入门
                                安装pip3installpandaspandas快速入门1pandas擅长处理哪些数据在处理表格数据时，例如存储在电子表格或数据库中的数据，pandas是适合您的工具。pandas将帮助您探索、清理和处理数据。在pandas中，数据表称为DataFram...
                  作者：编程之家 时间：2022-11-23
                                
                            

                                 数据分析之Pandas
                                一、Pandas介绍1、介绍pandas是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。Pandas纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷...
                  作者：编程之家 时间：2022-09-06


            
              
          
            
              



              
            
          
          
           
          
            
              
                小编推荐
              
            
          
          
          
          
            
              
                热门标签更多
                
                pythonJavaScriptjavaHTMLreactjsC#AndroidCSSNode.jssqlrpython-3.xMysqLjQueryc++pandasFlutterangularIOSdjangolinuxswifttypescript路由器JSON路由器设置无线路由器h3c华三华三路由器设置华三路由器电脑软件教程arraysdocker软件图文教程Cvue.jslaravelspring-bootreact-native


    
    
        
            
                
                    友情链接:
                
                    编程之家
-我要投稿
-广告合作
-联系我们
-免责声明
-网站地图
                
                版权所有 © 2018编程之家闽ICP备13020303号-8
                
            
            
                微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！