Python数据分析与应用 第7章 航空公司客户价值分析(最新整理).ppt
- 格式:ppt
- 大小:3.72 MB
- 文档页数:31
数据变换由于原始数据没有直接给出LRFMC五个指标,需要自己计算,具体的计算方式为:(1)L=LOAD_TIME-FFP_DATE(2)R=LAST_TO_END(3)F=FLIGHT_COUNT(4) M=SEG_KM_SUM(5)C=avg_discount数据变换的Python代码如下:1.def reduction_data(datafile,reoutfile):2. data=(cleanoutfile,encoding='utf-8')3.data=data[['LOAD_TIME','FFP_DATE','LAST_TO_END','FLIGHT_COUNT','SEG _KM_SUM','avg_discount']]4.# data['L']=(data['LOAD_TIME'])(data['FFP_DATE'])5.#data['L']=int(((parse(data['LOAD_TIME'])-parse(data['FFP_ADTE'])).d ays)/30)6.####这四行代码费了我3个小时7. d_ffp=(data['FFP_DATE'])8. d_load=(data['LOAD_TIME'])9. res=d_load-d_ffp10. data['L']=(lambda x:x/(30*24*60,'m'))11.12. data['R']=data['LAST_TO_END']13. data['F']=data['FLIGHT_COUNT']14. data['M']=data['SEG_KM_SUM']15. data['C']=data['avg_discount']16. data=data[['L','R','F','M','C']]17.(reoutfile)变换结果如下:客户聚类采纳kMeans聚类算法对客户数据进行客户分组,聚成5组,Python代码如下:1.import pandas as pd2.from import KMeans3.import as plt4.from itertools import cycle5.6.datafile='./tmp/'7.k=58.classoutfile='./tmp/'9.resoutfile='./tmp/'10.data=(datafile)11.12.kmodel=KMeans(n_clusters=k,max_iter=1000)13.(data)14.15.# print16.r1=.value_counts()17.r2=18.r=([r2,r1],axis=1)19.=list+['类别数量']20.# print(r)21.# (classoutfile,index=False)22.23.r=([data,,index=],axis=1)24.=list+['聚类类别']25.# (resoutfile,index=False)对数据进行聚类分群的结果如下表所示:。
Python数据分析与应用- 客户价值分析航空公司客户价值分析目录;航空公司现状分析;民航行业的竞争;除了三大航空公司之间的竞争,它还将加入各种新兴的小型航空公司、私人航空公司,甚至外国航空巨头。
航空产品生产过剩的同质性越来越明显,航空公司逐渐从价格、服务的竞争转向客户的竞争。
航空公司现状分析;行业外的竞争;随着高铁、子弹头列车等铁路运输的建设,航空公司受到了极大的冲击。
目前,航空公司已经积累了大量的会员档案信息和航班记录。
对于结束时间,选择宽度为两年的时间段作为分析观察窗口,以提取所有客户的详细数据,这些客户利用观察窗口中的记录机会,形成总共4个历史数据特征。
右表显示了数据特征及其描述。
分析航空公司的现状、航空公司数据、特征、描述、特征、名称、特征、客户基本信息、会员编号、会员时间、首飞日期、首飞日期、性别、会员卡级别、工作城市、工作国家的工作提供情况,年龄年份年龄航空公司客户数据描述表名称特征名称特征描述航班信息飞行时间计数观察窗结束时间装货时间观察窗结束时间最后一次飞行时间观察窗结束时间A VGDISCOUNT平均折扣率票价收入SUMYR观察窗SEGMSUM总飞行公里数SEGMSUM观察窗最后一次飞行日期A VGINTERV AL平均飞行时间间隔MAXINTERV AL最大飞行间隔点信息交换点交换点交换号EPSUM总精英点PROMOPTIVESUM PARTNERSUM总累积点不飞行非飞行点改变号BPSUM总基本点连续表原始我们应该如何处理这些特性?我们应该从什么开始?考虑用航空公司客户数据对客户进行分类。
分析不同类型客户的特征,比较不同类型客户的客户价值。
为不同价值的客户类别提供个性化服务,并制定相应的营销策略。
项目目标可以结合当前的航空公司数据实现以下目标。
该公司的收入来自顶级客户。
我们客户的利润率。
上述收入来自现有客户。
大部分营销预算通常花在不存在的客户身上。
客户金字塔中有升级潜力的客户。
Python数据分析与应用教案Python数据分析实例航空公司客户价值分析教案第一章:Python数据分析概述1.1 Python数据分析背景及意义1.2 Python数据分析常用库介绍1.3 数据分析的一般流程第二章:航空公司客户价值分析简介2.1 航空公司客户价值分析背景2.2 航空公司客户价值分析目标2.3 航空公司客户价值分析方法第三章:数据收集与预处理3.1 数据来源及收集方法3.2 数据预处理方法3.3 数据清洗与转换第四章:航空公司客户价值指标体系构建4.1 客户价值指标构建原则4.2 客户价值指标体系构建方法4.3 航空公司客户价值指标体系示例第五章:Python数据分析实例:航空公司客户价值分析5.1 实例背景及目标5.2 数据处理与分析方法5.3 分析结果展示与解读本教案以航空公司客户价值分析为例,旨在帮助学员了解并掌握Python数据分析的方法和技巧。
通过五个章节的学习,学员可以对Python数据分析有一个全面的了解,并能够运用Python进行简单的数据分析。
我们将进一步学习如何利用Python进行更深入的数据分析,以实现航空公司客户价值分析的目标。
第六章:数据可视化与报表制作6.1 数据可视化概述6.2 Python可视化库介绍6.3 航空公司客户价值分析数据可视化实例第七章:描述性统计分析7.1 描述性统计分析概念7.2 Python描述性统计分析方法7.3 航空公司客户价值分析中的描述性统计实例第八章:推断性统计分析与假设检验8.1 推断性统计分析概述8.2 假设检验方法介绍8.3 航空公司客户价值分析中的假设检验实例第九章:Python数据分析进阶技巧9.1 数据聚类分析9.2 关联规则挖掘9.3 机器学习与预测分析10.2 分析报告结构与内容第十一章:Python数据分析实战案例解析11.1 实战案例介绍11.2 实战案例数据处理与分析11.3 实战案例结果解读与应用第十二章:航空公司客户价值分析的策略与应用12.1 航空公司客户价值分析策略12.2 客户价值分析在航空公司的应用12.3 案例研究:航空公司客户价值分析策略与应用第十三章:大数据分析与云计算13.1 大数据概念与技术13.2 云计算与大数据分析13.3 航空公司客户价值分析在大数据与云计算环境下的应用第十四章:数据安全与隐私保护14.1 数据安全与隐私概述14.2 数据安全与隐私保护技术14.3 航空公司客户价值分析中的数据安全与隐私保护实践第十五章:航空公司客户价值分析的未来趋势15.1 在客户价值分析中的应用15.2 分布式分析与边缘计算15.3 航空公司客户价值分析的发展前景重点和难点解析难点内容包括:Python数据分析方法的深入理解与应用、航空公司客户价值指标体系构建、数据清洗与转换、假设检验方法的运用、数据聚类分析、关联规则挖掘、机器学习与预测分析等。
Python数据分析与应用教案Python数据分析实例航空公司客户价值分析教案教案章节一:Python数据分析概述1.1 教学目标了解Python在数据分析领域的应用掌握Python数据分析的基本流程理解航空公司客户价值分析的意义1.2 教学内容Python数据分析的应用领域Python数据分析的基本流程航空公司客户价值分析的定义和重要性1.3 教学方法讲解和案例展示学生互动讨论实践操作练习1.4 教学资源Python数据分析相关资料航空公司客户价值分析案例教案章节二:Python数据分析环境搭建2.1 教学目标学会安装和配置Python数据分析环境掌握Python数据分析相关库的基本使用方法2.2 教学内容Python数据分析环境的安装和配置Python数据分析相关库的基本使用方法2.3 教学方法讲解和演示学生实践操作问题解答和讨论2.4 教学资源Python数据分析环境的安装和配置指南Python数据分析相关库的文档和教程教案章节三:航空公司客户数据处理3.1 教学目标学会处理航空公司客户数据掌握数据清洗和数据转换的方法3.2 教学内容航空公司客户数据的获取和导入数据清洗和数据转换的方法3.3 教学方法讲解和演示学生实践操作问题解答和讨论3.4 教学资源航空公司客户数据集数据清洗和数据转换的相关工具和库教案章节四:航空公司客户价值分析方法4.1 教学目标学会使用Python进行航空公司客户价值分析掌握客户价值分析的方法和模型4.2 教学内容客户价值分析的定义和重要性客户价值分析的方法和模型4.3 教学方法讲解和演示学生实践操作问题解答和讨论4.4 教学资源Python客户价值分析相关库和工具航空公司客户价值分析案例和数据集教案章节五:航空公司客户价值分析实践5.1 教学目标学会应用Python进行航空公司客户价值分析的实践5.2 教学内容航空公司客户价值分析实践案例5.3 教学方法讲解和演示学生实践操作问题解答和讨论5.4 教学资源航空公司客户价值分析实践案例和数据集教案章节六:Python数据分析可视化6.1 教学目标学会使用Python进行数据分析的可视化掌握常用的数据可视化库和工具6.2 教学内容Python数据分析可视化的概念和重要性常用的数据可视化库和工具(如Matplotlib、Seaborn等)6.3 教学方法讲解和演示学生实践操作问题解答和讨论6.4 教学资源Python数据可视化库和工具的文档和教程实际案例和数据集教案章节七:航空公司客户价值分析案例研究7.1 教学目标学会应用Python进行航空公司客户价值分析的案例研究掌握案例研究的方法和技巧航空公司客户价值分析的案例研究流程案例研究的方法和技巧7.3 教学方法讲解和演示学生实践操作问题解答和讨论7.4 教学资源航空公司客户价值分析的案例研究资料实际案例数据集8.1 教学目标8.2 教学内容8.3 教学方法讲解和演示学生实践操作问题解答和讨论8.4 教学资源实际案例报告模板教案章节九:项目实践与讨论9.1 教学目标学生能够独立完成一个航空公司客户价值分析项目学会在团队中协作和交流学生独立完成航空公司客户价值分析项目团队协作和交流的技巧9.3 教学方法学生独立完成项目团队协作和讨论问题解答和指导9.4 教学资源航空公司客户价值分析项目案例团队协作工具和指南教案章节十:总结与展望10.1 教学目标总结所学内容,巩固知识展望未来航空公司客户价值分析的发展趋势10.2 教学内容回顾整个课程的重点内容展望航空公司客户价值分析的未来发展趋势10.3 教学方法讲解和总结学生互动讨论实践操作练习10.4 教学资源课程回顾资料航空公司客户价值分析的未来发展趋势相关资料重点解析重点在于:1. Python数据分析的基本流程和应用领域。
python数据分析与挖掘实战---航空公司客户价值分析航空公司客户价值分析⼀、背景与挖掘⽬标客户关系管理是企业的核⼼问题,关键在于客户的分类:区别⽆价值客户,⾼价值客户,针对不同客户群体有的放⽮投放具体服务⽅案,实现企业利润最⼤化的⽬标。
各⼤航空公司采取优惠措施喜迎更多客户,国内航司⾯对客户流失和资源未完全利⽤等危机,因此建⽴⼀个客户价值评估模型来实现对客户的分类。
⼆、分析⽅法与过程本次的分析⽬的在于客户价值识别,客户价值识别最常⽤的模型是RFM模型:R(最近消费时间间隔)F(消费频率)M(消费⾦额)。
飞机票价取决于飞⾏距离和仓位等级,消费同等⾦额票价的旅客对航司的价值不⼀定相同:购买短程头等舱的旅客和购买长途经济舱的旅客,明显前者对航司的贡献更⼤。
所以对M(消费⾦额)建模时要进⾏修改:⽤⾥程数平均值M和仓位折扣系数平均值C来代替消费的⾦额。
同时,考虑旅客中,加⼊会员的时间越长,客户的潜在价值⼀般越⾼,所以定义⼀个客户关系长度L,作为区分客户的另⼀指标。
接下来针对LRFMC模型,对客户进⾏区分。
LRFMC模型:(1)客户关系长度L:航空公司会员时间的长短。
(2)是消费时间间隔R。
(3)消费频率F。
(4) 飞⾏⾥程M。
(5) 折扣系数的平均值C。
LRFMC模型指标含义:(1) L:会员⼊会时间距观测窗⼝结束的⽉数。
(2) R:客户最近⼀次乘坐公司飞机距离观测窗⼝结束的⽉数。
(3) F:客户在观测窗⼝内乘坐公司飞机的次数。
(4) M:客户在观测窗⼝内累计的飞⾏⾥程碑。
(5) C:客户在观测窗⼝内乘坐仓位所对应的折扣系数的平均值。
⽅法:本案例采⽤聚类的⽅法,通过对航空公司客户价值的LRFMC模型的五个指标进⾏K-Means聚类,识别客户价值。
三、数据描述给出所有属性的基本信息,共25个属性,均⽆⼤量缺失现象或缺失现象很少。
四、建模1、数据探索分析对数据进⾏缺失值分析与异常值分析,分析出数据的规律以及异常值查找每列属性观测值个数,最⼤值,最⼩值。
Python数据分析与应用- 客户价值分析航空公司客户价值分析目录;航空公司现状分析;民航行业的竞争;除了三大航空公司之间的竞争,它还将加入各种新兴的小型航空公司、私人航空公司,甚至外国航空巨头。
航空产品生产过剩的同质性越来越明显,航空公司逐渐从价格、服务的竞争转向客户的竞争。
航空公司现状分析;行业外的竞争;随着高铁、子弹头列车等铁路运输的建设,航空公司受到了极大的冲击。
目前,航空公司已经积累了大量的会员档案信息和航班记录。
对于结束时间,选择宽度为两年的时间段作为分析观察窗口,以提取所有客户的详细数据,这些客户利用观察窗口中的记录机会,形成总共4个历史数据特征。
右表显示了数据特征及其描述。
分析航空公司的现状、航空公司数据、特征、描述、特征、名称、特征、客户基本信息、会员编号、会员时间、首飞日期、首飞日期、性别、会员卡级别、工作城市、工作国家的工作提供情况,年龄年份年龄航空公司客户数据描述表名称特征名称特征描述航班信息飞行时间计数观察窗结束时间装货时间观察窗结束时间最后一次飞行时间观察窗结束时间A VGDISCOUNT平均折扣率票价收入SUMYR观察窗SEGMSUM总飞行公里数SEGMSUM观察窗最后一次飞行日期A VGINTERV AL平均飞行时间间隔MAXINTERV AL最大飞行间隔点信息交换点交换点交换号EPSUM总精英点PROMOPTIVESUM PARTNERSUM总累积点不飞行非飞行点改变号BPSUM总基本点连续表原始我们应该如何处理这些特性?我们应该从什么开始?考虑用航空公司客户数据对客户进行分类。
分析不同类型客户的特征,比较不同类型客户的客户价值。
为不同价值的客户类别提供个性化服务,并制定相应的营销策略。
项目目标可以结合当前的航空公司数据实现以下目标。
该公司的收入来自顶级客户。
我们客户的利润率。
上述收入来自现有客户。
大部分营销预算通常花在不存在的客户身上。
客户金字塔中有升级潜力的客户。
RFM模型是衡量客户价值和客户创利能力的重要工具和手段,它通过一个客户的近期购买行为、购买的总体频次以及购买的总体金额三个指标来描述客户的价值状况。
分别为:最近消费时间间隔(Recently)、消费频率(Frequency)、消费金额(Money)。
在RFM模型的基础上,结合具体的业务背景,来对航空公司进行客户价值分析。
我们选择在一定时间内累积的飞行里程数(M)和客户在一定时间内乘坐舱位对应的折扣系数的平均值C来代替消费金额指标。
此外,航空公司会员入会时间的长短在一定时间内会影响客户价值,模型中增加了客户关系长度指标L。
利用客户入会时长L、消费时间间隔R、消费频率F、飞行里程数M以及折扣系数的平均值C来作为航空公司识别客户价值指标,见表1,记为LRFMC模型。
采用聚类分析的方法识别客户价值。
通过对航空公司客户价值LRFMC五个指标进行K-Means聚类,识别最有价值客户。
1、数据抽取以2014年3月31日为结束时间,选取宽度为两年的时间段作为分析观测窗口,抽取观测窗口内有乘机记录的所有客户的详细数据形成历史数据。
对于后续新增的客户详细信息,以后续新增数据中最新的时间点作为结束时间,采用上述同样的方法进行抽取,形成增量数据。
2、数据探索分析主要是进行缺失值分析和异常值分析,通过对数据的观察,发现原始数据中存在票价为空值,票价最小值为0、折扣率最小值为0、总飞行公里数大于0的记录,这个都是属于缺失值和异常值的范畴。
# 设置工作空间# 把“数据及程序”文件夹拷贝到F盘下,再用setwd设置工作空间setwd("F:/数据及程序/chapter7/示例程序")# 数据读取datafile <- read.csv('./data/air_data.csv', header = TRUE)# 确定要探索分析的变量col <- c(15:18, 20:29) # 去掉日期型变量# 输出变量最值、缺失情况summary(datafile[, col])#探索缺失数据的模式md.pattern(datafile[,col])#以图形方式描述缺失数据aggr(datafile[,col],number=T)3、数据预处理由于原始数据量比较大,上述被定义为缺失值和异常值的样本量很小,对问题的分学习影响不大,因此选择的是剔除缺失值和异常值。
Python技术与数据分析在航空航天领域的应用教程航空航天领域是科技创新的重要领域之一,而数据分析在这个领域中的应用也变得越来越重要。
Python作为一种强大的编程语言,提供了丰富的库和工具来进行数据分析。
在本篇文章中,我们将探讨如何使用Python技术进行航空航天领域的数据分析。
1. 数据获取与处理在开始数据分析之前,首先需要获取数据并进行处理。
航空航天领域的数据通常来自多个来源,如传感器、航空器上的设备、气象监测等。
对于大规模的数据集,我们可以使用Python中的pandas库来进行数据的读取和处理。
pandas提供了灵活的数据结构和数据操作方法,可以方便地处理和分析各种数据类型。
2. 数据可视化数据可视化是数据分析过程中不可或缺的一环。
在航空航天领域,我们常常需要对飞行数据、气象数据等进行可视化,以帮助我们更好地理解数据。
Python中的matplotlib和seaborn库是两个常用的数据可视化工具,可以用来绘制各种图表,如折线图、柱状图、散点图等。
通过可视化,我们可以更直观地观察和分析数据。
3. 数据建模与预测在航空航天领域中,数据建模和预测是非常重要的任务。
通过建立合适的模型,我们可以对飞行性能、航线规划、燃油消耗等进行预测和优化。
Python中的scikit-learn库提供了丰富的机器学习算法和工具,可以用来构建和训练预测模型。
同时,Python中的numpy库也为数学计算提供了便捷的工具,可以方便地进行矩阵运算和数值计算。
4. 数据挖掘与优化航空航天领域的数据通常包含大量的信息,通过数据挖掘可以发现其中的隐藏规律和趋势。
Python中的数据挖掘库如scikit-learn、pandas和numpy都可以用来进行数据挖掘,通过特定的算法和技术,可以提取出有用的信息和模式。
同时,优化算法在航空航天领域也有广泛的应用,通过对数据进行数学建模和求解,可以实现最优化。
5. 实时数据处理与监测在航空航天领域中,实时数据处理和监测是非常关键的。
大数据分析技术-航空公司客户价值分析(一)实验内容:1.复习第一节课讲述的数据挖掘建模总体流程2.对航空公司客户数据进行分析,了解航空公司现状和客户情况3.完成航空公司客户价值分析总体流程步骤的构建4.对数据中存在的缺失值和异常值进行处理5.结合RFM模型进行特征筛选6.对筛选后的数据进行标准化7.练习使用python选取构建LRFMC模型所需的特征实验过程(请用简单的文字描述):1.复习第一节课讲述的数据挖掘建模总体流程2.对航空公司客户数据进行分析,了解航空公司现状和客户情况3.完成航空公司客户价值分析总体流程步骤的构建4.对数据中存在的缺失值和异常值进行处理5.结合RFM模型进行特征筛选6.对筛选后的数据进行标准化7.练习使用python选取构建LRFMC模型所需的特征# 这里简单的说明一下数据挖掘建模总体流程# 1.问题定义# 2.数据获取# 3.数据清洗# 4.缺失值处理# 5.特征选择# 6.数据集划分# 7.模型建立# 8.模型性能检测与分析# 9.预测结果实验详细操作步骤或程序清单:# 该程序主要用于实现练习使用python选取构建LRFMC模型所需的特征import numpy as npimport pandas as pdfrom sklearn.cluster import KMeans #导入kmeans算法airline_scale = np.load('F:\火线时刻\\airline_scale.npz')['arr_0']k = 5 ## 确定聚类中心数#构建模型kmeans_model = KMeans(n_clusters = k,n_jobs=4,random_state=123)fit_kmeans = kmeans_model.fit(airline_scale) #模型训练kmeans_model.cluster_centers_ #查看聚类中心kmeans_bels_ #查看样本的类别标签#统计不同类别样本的数目r1 = pd.Series(kmeans_bels_).value_counts()print('最终每个类别的数目为:\n',r1)# 该程序主要用于实现结合RFM模型进行特征筛选import pandas as pdimport numpy as np# 1.读取数据集data = pd.read_csv('F:\火线时刻\\air_data.csv',encoding='gb18030')# 2.数据清洗# 2.1缺失值处理data1 = data['SUM_YR_1'].notnull()data2 = data['SUM_YR_2'].notnull()data3 = data1 & data2env_data = data.loc[data3,:]# 2.2异常值处理index1 = env_data['SUM_YR_1'] != 0idnex2 = env_data['SUM_YR_2'] != 0index3 = (env_data['SEG_KM_SUM'] > 0) & (env_data['avg_discount'] != 0)airline = env_data[(index1 | idnex2) & index3]# 3.选取需求特征airline_selection = airline[["FFP_DATE","LOAD_TIME","FLIGHT_COUNT","LAST_TO_END","avg_discount" ,"SEG_KM_SUM"]]# 4.构建L特征L = pd.to_datetime(airline_selection["LOAD_TIME"]) - pd.to_datetime(airline_selection["FFP_DATE"])L = L.astype("str").str.split().str[0]L = L.astype("int")/30# 5.合并特征airline_features = pd.concat([L,airline_selection.iloc[:,2:]],axis = 1)print('构建的LRFMC特征前5行为:\n',airline_features.head())# 该程序主要用于实现对航空公司客户数据进行分析,了解航空公司现状和客户情况# 主要分析数据中的一些最大值,最小值,均值等这些数据特征,其中由于数据中的很多列没有分析的必要,所以我们只对一些列数据进行分析# 对于数据分析的具体操作,这里采用sklearn进行import pandas as pdimport numpy as npfrom sklearn.preprocessing import StandardScaler # 用于对数据进行标准差标准化from sklearn.model_selection import train_test_split # 用于划分数据集# 1.读取数据集data = pd.read_csv('F:\火线时刻\\air_data.csv',encoding='gb18030')# 2.分析数据# 2.1分析数据的基本信息print('air_data数据集的长度为:', len(data))print('air_data数据集的类型为:', type(data))# 2.2分析数据的数值特征信息# a.先获取数据,此时获取EP_SUM_YR_2air_data = np.array(data[['EP_SUM_YR_2']])print('EP_SUM_YR_2列列数据的最大值为:', np.max(air_data))print('EP_SUM_YR_2列列数据的最小值为:', np.min(air_data))print('EP_SUM_YR_2列列数据的平均值为:',np.mean(air_data))# b.然后获取数据,此时获取Points_Sumair_data = np.array(data[['Points_Sum']])print('Points_Sum列数据的最大值为:', np.max(air_data))print('Points_Sum列数据的最小值为:', np.min(air_data))print('Points_Sum列数据的平均值为:',np.mean(air_data))# c.然后获取数据,此时获取PPoint_NotFlightair_data = np.array(data[['Point_NotFlight']])print('PPoint_NotFlight列数据的最大值为:', np.max(air_data))print('PPoint_NotFlight列数据的最小值为:', np.min(air_data))print('PPoint_NotFlight列数据的平均值为:',np.mean(air_data))# 该程序主要用于实现对数据中存在的缺失值和异常值进行处理import pandas as pdimport numpy as np# 1.读取数据data = pd.read_csv('F:\火线时刻\\air_data.csv',encoding='gb18030')# print(data.shape)# print(data)# 2.数据清洗(在读取完数据之后,我们开始进行数据的清洗)# 在分析完数据集之后,发现数据集中存在票价为空的数据,显然这些数据是一些缺失值# 发现此时的数据集中存在两个数据列是关于票价的SUM_YR_1,SUM_YR_2,所以我们要分别进行处理# 2.1缺失值处理data1 = data['SUM_YR_1'].notnull()data2 = data['SUM_YR_2'].notnull()data3 = data1 & data2env_data = data.loc[data3,:]# print(env_data)print('删除缺失记录之后数据集的形状为:',env_data.shape)# 2.2异常值处理# 进行对数据集的观察,发现此时的数据集中存在票价为零的,和平均折扣率为0且总飞行公里数等于0的记录# 所以此时我们要对这些数据进行处理,即进行删除index1 = env_data['SUM_YR_1'] != 0idnex2 = env_data['SUM_YR_2'] != 0index3 = (env_data['SEG_KM_SUM'] > 0) & (env_data['avg_discount'] != 0)airline = env_data[(index1 | idnex2) & index3]print('删除异常记录之后的数据集的形状为:',airline.shape)# 该程序主要用于实现对筛选后的数据进行标准化import pandas as pdimport numpy as npfrom sklearn.preprocessing import StandardScaler# 1.读取数据集data = pd.read_csv('F:\火线时刻\\air_data.csv',encoding='gb18030')# 2.数据清洗# 2.1缺失值处理data1 = data['SUM_YR_1'].notnull()data2 = data['SUM_YR_2'].notnull()data3 = data1 & data2env_data = data.loc[data3,:]# 2.2异常值处理index1 = env_data['SUM_YR_1'] != 0idnex2 = env_data['SUM_YR_2'] != 0index3 = (env_data['SEG_KM_SUM'] > 0) & (env_data['avg_discount'] != 0)airline = env_data[(index1 | idnex2) & index3]# 3.选取需求特征airline_selection = airline[["FFP_DATE","LOAD_TIME","FLIGHT_COUNT","LAST_TO_END","avg_discount" ,"SEG_KM_SUM"]]# 4.构建L特征L = pd.to_datetime(airline_selection["LOAD_TIME"]) - pd.to_datetime(airline_selection["FFP_DATE"])L = L.astype("str").str.split().str[0]L = L.astype("int")/30# 5.合并特征airline_features = pd.concat([L,airline_selection.iloc[:,2:]],axis = 1)# 6.对数据进行标准化data = StandardScaler().fit_transform(airline_features)np.savez('F:\火线时刻\\airline_scale.npz',data)print('标准化后LRFMC五个特征为:\n',data[:5,:])实验环境:pycharm Python实验结果(上传实验结果截图或者简单文字描述):疑难小结(总结个人在实验中遇到的问题或者心得体会):心得体会:明白了对航空公司客户价值分析总体流程步骤的构建1.从数据源中获取数据1.1选择性获取(历史数据)1.2新增信息提取(增量数据)2.读数据进行预处理2.1数据清洗2.2特征构建2.3数据标准化3.分析与建模3.1建模数据基于客户LRFMC的分群3.2预处理后的增量数据模型分析客户价值排名模型应用4.结果反馈应用结果。