数据读取结构 - DataFrame
可以理解为一个矩阵结构
样本文件 food_info.csv
表示食品中的各种营养素指标
样本文件 food_info.csv
泰坦尼克号船员获救案例
属性
.dtypes 属性
查看 DataFrame 结构的内部数据类型
常见的属性值
.columns 属性
查看 DataFrame 的列名 (对应样本文件的每个营养素指标,得到一个 list 结构
.shape 属性
查看维度, 空间结构表示 (行, 列)
用于查看规模
操作方法
read_csv 方法
读取 csv 文件转为为 DataFrame 类型
help 方法
head 方法 / tail 方法
输出 头 / 尾 n 行数据
传入参数 count(int) 未指定时, 默认输出 5 行, 制定后输入指定行数
传给参数后会简化输出结果
取行 - loc 方法
指定索引取值, 此处不直接使用索引而是用 loc 方法再次封装了一下
传入参数为 索引号, 当然指定不存在的索引是会报错的
使用此方法也可以基于索引进行切片,
也可以直接定位到属性值而不是一行的样本
取列 - ["..."]
按照字段字符串来取这一列的值, 想取多个列就传入多个值
运算
类似于 numpy 中的运算, 都是对一列全部的数据进行运算
如果运算值也是列. 则列之间如果数据对应(维度一样)的话则每行的多列进行运算
运算后的结果可以再保存进去, 但是必须要求维度一致
运算函数
取到列之后进行函数调用, 可以进行最大值 .max , 最小值 .min , 均值 .mean 等运算
排序操作 - sort_values
参数 :
列名,
inplace - 在原有基础上还是新拿出来
ascending - 升序, 默认是True表示升序, 把 NaN 放在最后面
判断空值(缺失值) - isnull
pd.isnull( ) 传入一列, 进行判断空值输出 True/False 的列名映照序列
在 [] 中使用可以取出反向过滤非空值及行号, 也可以进行统计
丢弃指定值 - dropna
指定列的指定值进行丢弃
axis 指定丢弃值
subset 指定丢弃列
列关系运算 - pivot_table
正常思路按照 python 中的语法要进行比较繁琐的操作, 而 pandas 中进行了相应的封装
参数:
index 按照分类的列名, 基准, 不可以填入多个值
values 统计结果所用的变量, 可以填入多个值
aggfunc 统计结果的方式, 默认是 mean 均值方式
此处的案例: 求分析不同 Pclass (船舱等级) 的 Survived (获救人数) 的几率
此处的案例: 求分析不同 Pclass (船舱等级) 的 Age (年龄) 的平均值
此处的案例: 求分析不同码头之间的船票价格以及获救与否之间的关系
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。