微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

pandas 模块

数据读取结构 -  DataFrame 

可以理解为一个矩阵结构

样本文件 food_info.csv

表示食品中的各种营养素指标

样本文件 food_info.csv

泰坦尼克号船员获救案例

属性

.dtypes 属性

查看  DataFrame  结构的内部数据类型

常见的属性

.columns  属性

查看  DataFrame  的列名 (对应样本文件的每个营养素指标,得到一个 list 结构

也可以继续执行  .tolist()  方法返回一个列表

.shape 属性

查看维度, 空间结构表示 (行, 列)

用于查看规模

 

 

 

 

 

 

操作方法

read_csv 方法

读取 csv 文件转为为  DataFrame  类型

help 方法

获取传入方法名的使用帮助

 head 方法 / tail 方法

输出 头 / 尾 n 行数据

传入参数  count(int)  未指定时, 输出 5 行, 制定后输入指定行数 

传给参数后会简化输出结果

 取行 - loc 方法

指定索引取值, 此处不直接使用索引而是用  loc  方法再次封装了一下

传入参数为 索引号, 当然指定不存在的索引是会报错的

 

 使用此方法也可以基于索引进行切片, 

也可以直接定位到属性值而不是一行的样本

 

取列 - ["..."]

按照字段字符串来取这一列的值, 想取多个列就传入多个值

运算 

类似于  numpy  中的运算, 都是对一列全部的数据进行运算

如果运算值也是列. 则列之间如果数据对应(维度一样)的话则每行的多列进行运算

运算后的结果可以再保存进去, 但是必须要求维度一致

运算函数

取到列之后进行函数调用, 可以进行最大值  .max  , 最小值  .min  , 均值  .mean  等运算

 

排序操作 - sort_values

参数 :

  列名,

  inplace - 在原有基础上还是新拿出来

  ascending - 升序, 认是True表示升序, 把 NaN 放在最后面

判断空值(缺失值) - isnull

  pd.isnull( )  传入一列, 进行判断空值输出 True/False 的列名映照序列

在 [] 中使用可以取出反向过滤非空值及行号, 也可以进行统计

丢弃指定值  - dropna

指定列的指定值进行丢弃

  axis  指定丢弃值

  subset  指定丢弃列

 

 

列关系运算 - pivot_table

正常思路按照  python  中的语法要进行比较繁琐的操作, 而  pandas  中进行了相应的封装 

参数:

   index   按照分类的列名, 基准, 不可以填入多个值

   values   统计结果所用的变量, 可以填入多个值

   aggfunc   统计结果的方式, 认是  mean 均值方式

此处的案例: 求分析不同  Pclass (船舱等级) 的  Survived  (获救人数) 的几率

 此处的案例: 求分析不同  Pclass  (船舱等级) 的  Age  (年龄) 的平均值

 

  此处的案例: 求分析不同码头之间的船票价格以及获救与否之间的关系

 

 

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐