Pandas学习笔记常用功能.doc
- 格式:doc
- 大小:214.01 KB
- 文档页数:21
pythonpandas库用法Pandas是一个用于数据分析和处理的强大库,它在Python中广泛使用。
Pandas提供了一个易于使用的API,用于读取、清理、分析和可视化大型数据集。
本篇文章将详细介绍Pandas库的基本用法和常见操作。
一、安装Pandas库要使用Pandas库,首先需要在Python环境中安装该库。
可以通过pip命令在终端或命令提示符中安装Pandas库。
例如,在命令行中输入以下命令即可安装最新版本的Pandas库:```shellpipinstallpandas```二、Pandas库的基本用法1.导入Pandas库:在Python脚本或交互式环境中,需要导入Pandas库才能使用其功能。
可以使用以下语句导入Pandas库:```pythonimportpandasaspd```2.创建数据帧(DataFrame):Pandas库的核心是数据帧,它是一个二维标签化的数据结构,可以存储不同类型的数据。
可以使用DataFrame()函数创建数据帧,并指定数据类型和列名等参数。
例如:```pythondf=pd.DataFrame({'姓名':['张三','李四','王五'],'年龄':[25,30,35]})```这将创建一个包含姓名和年龄两列的数据帧。
3.数据帧的读取和写入:Pandas库提供了多种方法来读取和写入数据帧,包括从CSV文件、Excel文件、数据库等不同格式的数据源中读取数据。
可以使用read_csv()、read_excel()、read_sql()等方法读取数据,并使用to_csv()、to_excel()等方法将数据帧写入文件。
例如:```python#读取CSV文件df=pd.read_csv('data.csv')#将数据帧写入CSV文件df.to_csv('output.csv',index=False)```4.数据帧的筛选和操作:Pandas数据帧提供了丰富的筛选和操作功能,可以使用条件表达式筛选数据帧中的行和列,并进行各种数学运算、统计分析和可视化操作。
pandas库用法Pandas库是一个数据分析工具包,提供了快速、灵活和富有表现力的数据结构用于处理和分析数据。
它是Python编程语言的一个开源库,因其广泛使用和良好的文档而受到欢迎。
本文将详细介绍Pandas库的用法,以及如何使用它来处理和分析数据。
一、安装Pandas库在使用Pandas库之前,您需要先通过以下命令在Python中安装这个库:```python !pip install pandas ```请注意,`!`符号是为了在Jupyter Notebook中安装库而不是在Python本身中安装库。
如果您不使用Jupyter Notebook,则不需要使用此符号。
二、创建Pandas DataFramePandas库最重要的数据结构是DataFrame和Series。
DataFrame是二维表格数据结构,其中每个列可以是不同的数据类型(例如数字、字符串和布尔值)。
Series是一维标记数组,可以保存任何数据类型的数据,并且有一个与之相关联的标签或索引。
要创建一个Pandas DataFrame,您可以使用以下Python代码:```python import pandas as pddata = {'country': ['China', 'USA', 'Japan','Germany'], 'population': [1439, 331, 126, 83], 'GDP': [14.34, 21.44, 4.97, 3.95], 'area': [9597, 9834, 377, 357]} df =pd.DataFrame(data) print(df) ```上述代码将创建一个名为“data”的字典,其中包含四个键和值对。
通过传递此字典来创建数据框。
“country”列包含四个国家的名称,而“population”列包含它们的人口。
高二信息技术知识点pandas 高二信息技术知识点:PandasPandas是一个开源的Python库,用于数据分析和数据操作。
它提供了丰富的数据结构和数据处理工具,使得数据的处理更加高效和方便。
下面将介绍Pandas的一些重要知识点。
一、Pandas数据结构Pandas主要有两种数据结构:Series和DataFrame。
1. Series:Series是一维的数据结构,类似于带标签的数组。
它可以存储任意类型的数据,如整数、浮点数、字符串等。
Series可以通过传入列表或NumPy数组来创建。
2. DataFrame:DataFrame是一个二维的表格型数据结构,类似于电子表格或关系型数据库。
它由多个列组成,每列可以是不同的数据类型。
DataFrame可以通过传入字典、NumPy数组或从外部文件读取数据来创建。
二、Pandas的常用功能1. 数据的读取和写入:Pandas可以读取和写入各种格式的数据,如CSV文件、Excel文件、SQL数据库等。
使用Pandas读取数据非常简便,只需一行代码即可完成。
2. 数据清洗:在实际的数据分析中,数据往往存在缺失值、异常值等问题。
Pandas提供了强大的数据清洗功能,可以快速处理数据中的缺失值、重复值、异常值等。
3. 数据选择和过滤:Pandas提供了丰富的数据选择和过滤方法,可以通过标签、索引、条件等方式对数据进行选择和筛选。
4. 数据统计和计算:Pandas可以进行各种统计和计算操作,如求和、均值、标准差等。
此外,Pandas还支持自定义函数的应用。
5. 数据合并和重塑:当需要将多个数据集合并成一个数据集时,可以使用Pandas提供的数据合并和重塑操作。
例如,可以通过列或行的连接、拼接和重塑来实现。
6. 数据可视化:Pandas结合Matplotlib库可以对数据进行可视化,生成图表、柱状图、散点图等,更直观地展示数据特征和分布。
三、使用Pandas的步骤要使用Pandas进行数据分析,通常需要按照以下步骤进行:1. 导入Pandas库:使用import语句导入Pandas库。
pythonpandas库用法Pandas是一个强大的数据分析工具,提供了灵活高效的数据结构和数据分析功能。
以下是Pandas库的用法的详细介绍。
一、Pandas的基本概念1. 数据结构:Pandas提供了两种主要的数据结构:Series和DataFrame。
Series是一维数组,可保存任何数据类型;DataFrame是二维表格数据结构,可保存多种类型的列。
这两种数据结构非常类似于Numpy的ndarray。
2. 索引:Pandas的数据结构都有一个索引,它提供了对数据的快速访问。
索引可以是整数、字符串或任何自定义数据类型的值。
Series的索引由默认生成,DataFrame的索引通常是由行名称和列名称组成。
4. 缺失数据处理:Pandas提供了方法处理缺失数据,如删除或填充缺失值。
可以使用isnull(和notnull(方法来检查数据是否为缺失值。
二、Series的用法1. 创建Series:可以将列表、字典或Numpy数组传递给Series(函数来创建Series对象。
可以指定索引,也可以使用默认索引。
2. 访问数据:可以使用索引或位置访问Series对象中的数据,也可以使用切片选择多个元素。
还可以使用布尔索引根据条件选择数据。
3. Series的运算:可以对Series对象进行算术运算、元素级运算、使用numpy函数或apply(方法应用自定义函数。
4. 数据对齐:在多个Series对象之间进行运算时,Pandas会自动根据索引对齐数据。
三、DataFrame的用法3. DataFrame的操作:可以对DataFrame对象进行转置、重命名列、添加新列或删除列。
还可以对行或列进行排序。
4. DataFrame的运算:可以对DataFrame对象进行算术运算、元素级运算、使用numpy函数或apply(方法应用自定义函数。
还可以对多个DataFrame对象进行合并或连接。
四、数据清洗和预处理1. 处理缺失数据:可以使用dropna(方法删除包含缺失值的行或列,也可以使用fillna(方法填充缺失值。
pandas技术手册Pandas是一个强大的开源数据分析和处理库,它提供了高效、灵活的数据结构和数据操作方法,使得数据分析师和科学家能够快速地处理和分析大型数据集。
本手册将介绍Pandas库的基本概念、常用数据结构和常见操作,以帮助读者快速入门和掌握Pandas的使用技巧。
1. Pandas库简介Pandas是基于NumPy库开发的,可以看作是NumPy数组的扩展功能。
相比NumPy,Pandas提供了更为灵活和丰富的数据结构,例如Series和DataFrame,使数据分析更加简单和高效。
2. 数据结构概述2.1 SeriesSeries是一种一维的数据结构,类似于数组或列表,每个元素包含一个值和与之相关的索引。
可以使用Series来存储时间序列数据、一维标签数据、任意类型的数据等。
2.2 DataFrameDataFrame是一种二维的数据结构,可以看作是一系列Series对象的集合,每列可以是不同类型的数据。
DataFrame结构类似于关系型数据库的表格,可以进行快速的查询和操作。
3. 数据操作3.1 数据导入与导出Pandas支持多种数据格式的导入和导出,包括CSV、Excel、SQL数据库、JSON等。
可以使用read_csv、read_excel、read_sql等函数进行数据导入,使用to_csv、to_excel、to_sql等函数进行数据导出。
3.2 数据选择与过滤在DataFrame中,可以使用逻辑表达式、标签、位置等方式对数据进行选择和过滤。
可以使用索引操作符[]、loc、iloc等方法进行数据的切片、筛选和分组操作。
3.3 数据清洗与处理Pandas提供了丰富的数据清洗和处理方法,例如缺失值处理、重复值处理、数据转换、数据合并、数据排序等。
可以使用dropna、fillna、drop_duplicates、merge等函数来处理数据中的异常值和重复值。
4. 数据分析与统计4.1 数据分组与聚合Pandas可以对数据进行分组和聚合操作,例如对数据进行分组统计、分组计数、分组求和等。
pandas常用函数Pandas常用函数________________________Pandas是Python中用于数据分析的库,它提供了强大的功能来处理和分析数据。
Pandas函数是它的主要功能,它们可以极大地简化数据分析过程。
本文将介绍Pandas中常用的几种函数,以及它们如何帮助数据分析人员。
### 一、基础函数#### 1. head()head()函数用于从DataFrame中返回前n行的数据。
它的参数n表示要返回的行数,默认值为5。
例如:```df = pandas.read_csv('data.csv')df.head() # 返回DataFrame中的前5行数据```#### 2. tail()tail()函数与head()函数相反,用于从DataFrame中返回后n行的数据。
它的参数n也表示要返回的行数,默认值为5。
例如:```df = pandas.read_csv('data.csv')df.tail() # 返回DataFrame中的后5行数据#### 3. info()info()函数用于打印DataFrame中的列名、类型和非空值的计数。
它非常有用,可以帮助我们了解数据集的基本情况。
例如:```df = pandas.read_csv('data.csv')() # 打印DataFrame中的列名、类型和非空值的计数```### 二、描述性统计函数#### 1. describe()describe()函数用于计算DataFrame中各列的描述性统计信息,包括计数、平均值、标准差、最小值、四分位数和最大值。
例如:```df = pandas.read_csv('data.csv')df.describe() # 计算DataFrame中各列的描述性统计信息```#### 2. value_counts()value_counts()函数用于计算DataFrame中每一列中不同取值的个数。
panda在python中的用法Pandas是一个强大的数据分析工具,被广泛应用于Python编程环境中。
通过Pandas库,我们可以轻松地对数据进行处理、分析和操作。
本文将介绍Pandas在Python中的用法,并为读者提供一些示例来帮助理解。
一、Pandas简介Pandas是一个开源的数据分析工具,它提供了一系列数据结构和函数,使我们能够高效地处理和操作数据。
Pandas最重要的两个数据结构是Series和DataFrame。
1.1 SeriesSeries是由一维数组和与之相关的数据标签组成的数据结构。
我们可以将Series视为一个带有索引的数组,其中每个元素都可以通过索引标签进行访问。
以下是创建Series的示例代码:```pythonimport pandas as pddata = [1.2, 2.4, 3.6, 4.8, 6.0]index = ['a', 'b', 'c', 'd', 'e']series = pd.Series(data, index)print(series)```输出结果如下:```a 1.2b 2.4c 3.6d 4.8e 6.0dtype: float64```1.2 DataFrameDataFrame是Pandas中最常用的数据结构,它由二维表格组成,每个列可以是不同的数据类型(例如数字、字符串或布尔值)。
DataFrame可以通过多种方式创建,包括使用字典、CSV文件等。
以下是创建DataFrame的示例代码:```pythonimport pandas as pddata = {'Name': ['Tom', 'Jerry', 'Spike', 'Tyke'],'Age': [5, 6, 8, 2],'Gender': ['Male', 'Male', 'Male', 'Female']}df = pd.DataFrame(data)print(df)```输出结果如下:```Name Age Gender0 Tom 5 Male1 Jerry 6 Male2 Spike 8 Male3 Tyke 2 Female```二、Pandas常用功能2.1 数据读取与写入Pandas提供了丰富的数据读取和写入功能,包括从CSV文件、Excel文件、数据库等读取数据,并将数据导出为不同格式的文件。
pandas 基本操作模块导入import pandas as pd1.Series 创建一维数组s = pd.Series(['张三','李四','王五'])2.DataFrame二维数据表格,通过列表、字典或二维数组创建。
1)通过列表创建DataFramea=pd.DataFrame([[1,2],[3,4],[5,6]],columns = ['data','score'],index = ['A','B','C']) print(a)运行结果如下:data scoreA 1 2B 3 4C 5 6●columns:用于指定列索引名称;●index:用于指定行索引名称。
2)通过字典创建DataFrame,默认以字典的键名作为列索引。
data = pd.DataFrame( { ‘a’:[1,3,5], ‘b’:[2,4,6] },index = [‘x’, ‘y’, ‘z’ ] )print(data) #运行结果如下:a bx 1 2y 3 4z 5 6如果想以字典的键名作为行索引,可以用from_dict()函数将字典转换成DataFrame,同时设置参数orient的值为index,代码如下:data = pd.DataFrame.from_dict( { ‘a’:[1,3,5], ‘b’:[2,4,6] }, orient = ’index’ )3)通过二维数组创建DataFrameimport numpy as npimport pandas as pda = np.arange(9).reshape(3,3)b = pd.DataFrame(a,index = [‘x’,’y’,’z’], columns = [‘A’,’B’,’C’])print(b) #运行结果如下:A B Cx 0 1 2y 3 4 5z 6 7 83.DataFrame索引修改1)通过设置index_name属性的值可以修改行索引那一列的名称。
Python学习笔记:Pandas数据类型转化⼀、Pandas读取剪切板数据import pandas as pddf = pd.read_clipboard()'''国家受欢迎度评分向往度0 中国 10 10.0 10.01 美国 6 5.8 7.02 ⽇本 2 1.2 7.03 德国 8 6.8 6.04 英国 7 6.6 NaN'''df.dtypes'''国家 object受欢迎度 int64评分 float64向往度 float64dtype: object'''object 类型int 整数类型float 浮点数类型string 字符串类型⼆、加载数据时指定数据类型最简单的加载数据: pd.DataFrame(data) 和 pd.read_csv(file_name)# 读取数据时指定import pandas as pddf = pd.read_csv('data.csv',dtype={'a':'string','b':'int64'})# 创建 DataFrame 类型数据时通过 dtype 参数设定df = pd.DataFrame({'a':[1,2,3],'b':[4,5,6]},dtype='float32')df'''a b0 1.0 4.01 2.0 5.02 3.0 6.0'''三、astype转换数据类型df.受欢迎度.astype('float')df.astype({'国家':'string','向往度':'Int64'})四、pd.to_xx 转换数据类型to_datetimeto_numericto_pickleto_timedelta4.1 pd.to_datetime 转换为时间类型转换为⽇期转换为时间戳按照 format 转换为⽇期pd.to_datetime(date['date'], format="%m%d%Y")针对⽇期列混合多种⽇期类型,可考虑:# 添加⽇期长度辅助列df['col'] = df['date'].apply(len)df_new = df.loc[df['col'] > 10]df_new['col2'] = pd.to_datetime(df_new['date'], format="%m%d%Y")另外两种⽅式均可实现:# 转换时遇到不能转换的数据转化为 NaNdf['date_new'] = pd.to_datetime(df['date'], format="%m%d%Y", errors='coerce')# 尝试转换为⽇期类型df['date_new'] = pd.to_datetime(df['date'], infer_datetime_format=True)实例:# 转换⽇期ss = pd.Series(['3/11/2000', '3/12/2000', '3/13/2000'])pd.to_datetime(ss, format="%m/%d/%Y")pd.to_datetime(ss, infer_datetime_format=True) # ⾃动识别# 转换时间戳aa = pd.Series([1490195805, 1590195805, 1690195805])pd.to_datetime(aa, unit='s')bb = pd.Series([1490195805433502912, 1590195805433502912, 1690195805433502912])pd.to_datetime(bb, unit='ns')# 转换字符串cc = pd.Series(['20200101', '20200202', '202003'])pd.to_datetime(cc, format='%Y%m%d', errors='ignore') # 不转换pd.to_datetime(cc, format='%Y%m%d', errors='coerce') # 错误置为 NaT需要注意的是,对于上述时间戳的⽇期转化,起始时间默认是1970-01-01,对于国内时间来说会相差8⼩时,可以⼿动加上。
pandas使用手册摘要:1.引言2.pandas 的安装与基本概念3.pandas 的数据结构4.pandas 的数据操作5.pandas 的数据分析与可视化6.pandas 的高级功能7.pandas 的应用案例8.总结正文:【引言】pandas 是一个强大的数据处理库,广泛应用于数据分析、数据清洗和数据可视化等领域。
本文将详细介绍pandas 的使用手册,帮助读者更好地理解和运用这个库。
【pandas 的安装与基本概念】首先,我们需要安装pandas 库。
可以使用pip 命令进行安装:`pip install pandas`。
pandas 主要由以下几个部分组成:Series(序列)、DataFrame(数据框)、Index(索引)和Timedelta(时间间隔)。
【pandas 的数据结构】pandas 提供了两种主要的数据结构:Series 和DataFrame。
Series 是一维数据结构,类似于字典,可以存储任意类型的数据。
DataFrame 是二维数据结构,类似于表格,可以存储多列数据。
【pandas 的数据操作】pandas 提供了丰富的数据操作函数,包括数据导入、数据清洗、数据转换、数据筛选、数据排序等。
例如,可以使用`read_csv()`函数导入CSV 文件,使用`fillna()`函数填充缺失值,使用`astype()`函数转换数据类型,使用`loc[]`和`iloc[]`函数选取数据等。
【pandas 的数据分析与可视化】pandas 内置了基本的数据分析功能,例如统计描述、数据透视表、分组聚合等。
此外,pandas 还提供了与matplotlib 和seaborn 等可视化库的接口,方便进行数据可视化。
【pandas 的高级功能】pandas 还提供了许多高级功能,例如时间序列分析、数据透视表、分组聚合等。
这些功能可以帮助用户处理更复杂的数据分析任务。
【pandas 的应用案例】最后,我们将通过一个实际案例,演示如何使用pandas 进行数据处理、分析和可视化。
Pandas 学习笔记常用功能本文是关于pandas 的学习笔记,由于pandas 会用到numpy ,可能需要读者简单了解一下numpy 的内容,不过有用到的部分我会在文中进行简单解释说明。
资料来源主要是两块,一是pandas: powerful Python data analysis toolkit ;另一个《利用python 进行数据分析》( Wes McKinney )目录一、pandas 的安装和使用二、python 数据结构三、对数据类型的操作四、总结一、 pandas 的安装和使用 Pandas 和其他 python 的库安装方式一样, whl 、源码或者 pip ,在此就不赘述了, Python Data Analysis Library 上面有 github 源码和 whl 文件。
注意: pandas安装会用到 numpy 库,因此在安装 pandas 之前一定要安装好numpy 。
Pandas 安装的时候还有两个大坑:如果如果是 VC++is required ,说明要装 Visual Studio ,这个百度Visual Studio 安装即可;如果是excention is required ,比如我碰到的CExcention ,说明需要安装对应的拓展包,这个情况可以通过Python Extension Packages for Windows这个网站下载。
由于欧皇血统,安装过程不算崎岖,希望踩到其他坑的小伙伴可以多留言让我们整理一下碰到的问题。
Pandas 在使用的时候一般会和 numpy 一起使用,并且官方给pandas 简称 pd ,numpy 简称 np ,原因我就不知道了。
二、 python 数据结构说明:pandas 当中数据类型会具体涉及到int32 、int64 等等,没有进行设置的时候pandas 默认输出64 位,如果考虑内存使用效率的话可以自行修改。
1、SeriesSeries 可以理解为一个一维的数组,只是index 可以自己改动。
创建的方法统一为pd.Series(data,index=)。
打印的时候按照index 赋值的顺序,有的时候会看着很别扭。
某个 index 对应的值为空就用 NaN 。
index 参数默认从 0 开始的整数,也是 Series 的绝对位置,即使 index 被赋值之后,绝对位置不会被覆盖。
Series 可以通过三种形式创建:python 的 dict 、numpy 当中的 ndarray ( numpy 中的基本数据结构)、具体某个数值。
index 赋值必须是 list 类型。
Python的dict 创建:s = pd.Series({‘ a’ =1,’ b’ =2,’ d’ =3},index = [‘ a’ ,’ d’ ,输出: a 1d 3c NaNb 2dtype : int64numpy 中的 ndarray :s = pd.Series(np.random.randn(5), index = list('ABCDE')输出: A-1.130657B-1.539251C 1.503126D 1.266908E0.335561dtype: float64具体某个值:s=pd.Series(5)输出: 0 5dtype: int64s=pd.Series([5,4])输出: 0 51 4dtype: int64s=pd.Series([5,4],index=list[‘ abcd ’ ])输出: ERRORS=pd.Series(5,index=list(‘ abcd ’ ))a 5b 5c 5d 5dtype:int64像这种具体某个值的创建方法,保证每行数据精准性的话很麻烦,并且用起来会不小心把其他数据覆盖掉,因此我个人用的比较少。
注意:创建 Series 的时候要注意创建行数和索引数量匹配的问题,如果默认的话会自动匹配创建的行数。
除了创建肯定需要查询,这时候会用到s.values 和 s.index ,分别查询值和索引。
2、 DataFrameDataFrame是一个类似于表格的数据类型,如图:有这样一些参数:data(方框内的数据): numpy ndarray (structured or homogeneous), dict, or DataFrameindex (行索引索引) : Index or array-likecolumns (列索引) : Index or array-likedtype ( data 的数据类型): dtype, default NoneDataFrame 可以理解为一个二维数组, index 有两个维度,可更改。
DataFrame统一的创建形式为:pd.DataFrame(data,columns=,index=) 其中columns 为列的索引, index 为行的索引。
index 或者 columns 如果不进行设置则默认为0 开始的整数,也是行的绝对位置,不会被覆盖;而通过外部数据(比如打开文件)创建DataFrame的话需要注意列名匹配的问题,给 columns 赋的值如果和数据来源当中列名不一样的话,对应的列下面会出现NAN 。
还有个常用参数为orient ,默认为空,如果赋值’index ’则将输入Series 的 index 值作为 DataFrame的columns。
栗子如下:a = pd.read_csv('c:/users/15418/Desktop/bajiao.csv')pd.DataFrame(a,columns = ['a','b','commentsNum'])输出: ab commentsNum0 NaN NaN 97951 NaN NaN 210882 NaN NaN 41073 NaN NaN 41154 NaN NaN 39300Data 的创建形式有以下几种:一维数据类型进行创建、二维ndarray 创建、外部输入。
二维数组创建,由于比较简单就先说:pd.DataFrame(二维数组,columns = ,index=),由于比较简单就不举代码了。
外部输入就是读取文件等手段,如csv、excel 等文件:上面那个例子已经说明了读取文件创建过程。
概括来说就是先读取一个文件对象(pd.read_xxx ,xxx 是对应的文件类型,常用有csv 、 excel 、table 等) 的对象,然后再通过该对象创建DataFrame ,但要注意columns 列名的命名。
一维数据类型创建(一维数据类型主要有:一维ndarray 、列表、字典、 Series 等):首先是字典和 Series 类型创建 DataFrame :一个是将字典或者 Series 组合成列表进行创建;另一个是将两者放入字典里面创建。
例子如下:第一种方法:a = {'a':1,'b':2}b = pd.Series([1,2,3],index=list('abc'))pd.DataFrame([a,b],columns = list('abcd'))输出: a b c d0 1 2 NaN NaN1 12 3.0 NaN第二种方法:a = {'a':1,'b':2}b = pd.Series([1,2,3],index=list('abc'))data = {'one':a,'two':b}pd.DataFrame(data,columns = ['one','two','a','d'])输出: one two a da 1.0 1 NaN NaNb 2.0 2 NaN NaNc NaN 3 NaN NaN这两种方法都要注意列名匹配的问题。
然后是数组和列表类型的创建:列表或者一维的ndarray 可以通过转化为Series (见 1、 Series )或者字典进行创建,或者变为对应的二维的数据类型进行处理,在此不佳赘述了。
强烈给个建议:在创建之前最好把data 变量先写好然后放到DataFrame方法里面,包括对原始数据的改动也最好写在data 里面。
类似于Series , DataFrame.index,DataFrame.columns可以查询DataFrame二维参数的数值。
3、Panel/PanelNDPanel可以理解为三维数组, panelND 可以理解为N 维数组。
高维的数组就是在三维的基础上加入更多维度参数,基本方法相同,具体差异在此就不深入展开,这里以三维为例介绍。
统一的创建方法就是pd.Panel(data,items=,major_axis=,minor_axis=),三个维度就分别是 items 、major_axis 、minor_axis ,还有个常用参数就是 orient 后面会提到。
跟DataFrame类似的,三维参数如果不进行设置则默认为0 开始的整数,也是行的绝对位置,不会被覆盖;如果希望把输入的DataFrame的columns作为panel 的 items 就需要吧 orient 赋值为’ minor ’。
在创建 panel 的时候一般会采用两种形式(和DataFrame 类似,照搬就行):采用字典;使用 items 参数创建具体举例如下:字典: data = {'Item1' : pd.DataFrame(np.random.randn(4, 3)),'Item2' : pd.DataFrame(np.random.randn(4, 2))}pd.Panel(data)输出:Dimensions: 2 (items) x 4 (major_axis) x 3 (minor_axis)Items axis: Item1 to Item2Major_axis axis: 0 to 3Minor_axis axis: 0 to 2这里面的键就是对应items 参数,当然panel 这个没办法通过表的形式打印。
Items 参数: df = pd.DataFrame({'a': ['foo', 'bar', 'baz'],'b':np.random.randn(3)}) data = {'item1': df, 'item2': df}pd.Panel.from_dict(data, orient='minor')输出:Dimensions: 2 (items) x 3 (major_axis) x 2 (minor_axis) Items axis: a to bMajor_axis axis: 0 to 2Minor_axis axis: item1 to item2三、对数据类型的操作1、对 Series 操作查看:简单来说就是通过索引查看:一种是通过index 对应的标签;另一种就是通过绝对位置查看。