Pandas 数据结构 - DataFrame
@H_404_2@DataFrame 是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型值)。DataFrame 既有行索引也有列索引,它可以被看做由 Series 组成的字典(共同用一个索引)。 @H_404_2@pandas.DataFrame( data, index, columns, dtype, copy)
@H_404_2@参数说明:
- @H_404_2@data:一组数据(ndarray、series, map, lists, dict 等类型)。
- @H_404_2@index:索引值,或者可以称为行标签。
- @H_404_2@columns:列标签,默认为 RangeIndex (0, 1, 2, …, n) 。
- @H_404_2@dtype:数据类型。
- @H_404_2@copy:拷贝数据,默认为 False。
实例 - 使用列表创建
Site Age
0 Google 10.0
1 Run 12.0
2 Wiki 13.0
实例 - 使用 ndarrays 创建
import pandas as pd data = {'Site':['Google', 'Run', 'Wiki'], 'Age':[10, 12, 13]} df = pd.DataFrame(data) print (df)
Site Age
0 Google 10
1 Run 12
2 Wiki 13
实例 - 使用字典创建
import pandas as pd data = [{'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20}] df = pd.DataFrame(data) print (df)
a b c
0 1 2 NaN
1 5 10 20.0
@H_404_2@没有对应的部分数据为 NaN。
@H_404_2@
@H_404_2@Pandas 可以使用 loc 属性返回指定行的数据,如果没有设置索引,第一行索引为 0,第二行索引为 1,以此类推:
实例
import pandas as pd data = { "calories": [420, 380, 390], "duration": [50, 40, 45] } # 数据载入到 DataFrame 对象 df = pd.DataFrame(data) # 返回第一行 print(df.loc[0]) # 返回第二行 print(df.loc[1])
calories 420
duration 50
Name: 0, dtype: int64
calories 380
duration 40
Name: 1, dtype: int64
@H_404_2@注意:返回结果其实就是一个 Pandas Series 数据。
@H_404_2@
@H_404_2@也可以返回多行数据,使用 [[ ... ]] 格式,... 为各行的索引,以逗号隔开:
实例
calories duration
0 420 50
1 380 40
@H_404_2@注意:返回结果其实就是一个 Pandas DataFrame 数据。
@H_404_2@我们可以指定索引值,如下实例:
实例
import pandas as pd data = { "calories": [420, 380, 390], "duration": [50, 40, 45] } df = pd.DataFrame(data, index = ["day1", "day2", "day3"]) print(df)
calories duration
day1 420 50
day2 380 40
day3 390 45
@H_404_2@Pandas 可以使用 loc 属性返回指定索引对应到某一行:
实例
calories 380
duration 40
Name: day2, dtype: int64
@H_404_2@
@H_502_1017@data.head() #返回data的前几行数据,默认为前五行,需要前十行则data.head(10)
data.tail() #返回data的后几行数据,默认为后五行,需要后十行则data.tail(10)
@H_404_2@
@H_404_2@REF
@H_404_2@https://www.runoob.com/pandas/pandas-dataframe.html
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。