数据分析应用模拟题(二)(附答案)

  • 格式:docx
  • 大小:287.97 KB
  • 文档页数:8

下载文档原格式

  / 8
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1(50.0分)

某金融机构为了研究其信用卡发放风险,收集整理了一些客户的数据,包括他们的基本信息,经济情况,以及是否拖欠还款等,具体如附表所示(已经将客户分为了训练集和测试集)。

Microsoft Office

Excel 2007 工作表

数据分析应用1训练数据.xlsx

数据分析应用1测试

数据

数据分析应用1测试数据.xlsx

进行数据预处理,并用不同的算法模型(逻辑回归、神经网络等)分析信用卡拖欠还款情况,结合测试数据对比模型的拟合优度,要求写出具体的思路过程。

答案:

1、由题意,可以确定本题中年龄、教育水平、当前工作年限、当前居住年限、家庭收入、债务占收入比例、信用卡负债、其他负债等为自变量,还款拖欠情况为因变量。

2、对数据进行预处理:

本案例数据均为数值型,符合模型建设要求;

本案例数据不存在缺失值,故此项不用处理;

通过datahoop平台箱形图可知,家庭年收入一项异常值较多,但是结合实际情况认为可能是有特殊人群存在,故此处不做处理。

观察训练集数据可知,本案例样本均衡,可以进行模型建设。

下边分别用逻辑回归、神经网络、SVM进行模型测试。

3、(1)逻辑回归:

首先进行变量的相关性检查,将训练集导入平台,通过datahoop平台相关系数矩阵分析得出如下相关系数矩阵

由相关系数矩阵得知变量之间虽有相关性但相关性不高,可以直接进行逻辑回归分析.

打开datahoop平台预测分析,将训练数据放入训练表,测试数据放入测试表,选择相应的自变量和因变量,选择逻辑回归。结果如下:

由模型训练结果可知Accuracy,AUC值,准确率召回率F1值都比较高,模型拟合效果较好,训练误差不大。

将模型预测结果中的预测数据和测试集中的实际数据对比,得到混淆矩阵并计算出相应的准确率和召回率如下:

由混淆矩阵计算得出的准确率和召回率都比较高,模型泛化误差不大,模型整体预测效果较好。

(2)神经网络:

具体描述同逻辑回归,模型训练结果如下:

将测试结果和测试集中的实际分类对比,得到的混淆矩阵及准确率、召回率、预测率,F1值结果如下:

由训练结果可以看到Accuracy、AUC、准确率召回率等都较大,模型拟合效果较好,训练误差不大;

由测试结果可知Accuracy、AUC、准确率召回率等都较大,模型测试效果较好,泛化误差不大。

(3)SVM:

导入datehoop平台得到如下训练结果:

将测试结果和测试集中的实际分类对比,得到混淆矩阵如下:

SVM模型训练结果可知Accuracy、AUC值均较高,准确率和召回率都较大,模型拟合效果较好,训练误差不大;

由预测结果和测试集中的实际结果对比,模型ACCURACY值不高,预测为1召回率和F1值较小,模型预测效果不好,泛化误差较大。

4、通过对比以上3种分类模型的比较,逻辑回归整体精确度最高,SVM模型最差,在此案例中,我们更关注客户是不是会拖欠贷款这一点,即我们更关注分类结果为欠款(即为1)的召回率的大小,对比三个模型可知,神经网络这一模型1的召回率最大,因此三个模型中神经网络的预测效果最好。

2(50.0分)

为了研究手机好评率与品牌、价格的关系,某公司收集如附表所示数据,数据收集的信息包含手机的评论得分和评论内容以及手机品牌和价格等信息。

手机数据

手机数据.xlsx

对数据进行预处理,选择合适的模型分析手机好评率与品牌、价格的关系,要求写出详细的思路和过程。

答案:

1、首先对数据进行预处理:

观察数据可知不存在缺失值,故此项不用处理。

因为手机品牌中存在非数值型数据,因此对手机品牌数据进行数值化,编码如下:

手机价格属于连续型变量,因此需要离散化,离散结果如下:

由题意可知分析手机好评率同价格和品牌、价格等的关系,因此根据已知数据构建新的变

量好评率(好评率=好评数/总评论数*100%),计算出的好评率依旧是连续型数据,进行离

将数据导入datehoop平台进行异常值处理,通过箱线图可以看到虽然有异常值,但是属于温和异常值,此项不做处理。

2、对应分析

手机好评率处理后

数据

将手机品牌和好评率进行对应分析,交叉图及因子贡献率如下

从因子贡献率可以看到提取两个因子的贡献率就达到了80%以上,因此提取两个因子即可。根据对应分析的图表可以看到处于hp1也就是低好评度的品牌主要有品牌3、9。接着较低好评度品牌有1、2、8、11。较高好评度品牌包括5、10、12。高好评度品牌有6、7、4。

因此品牌好评率分布为:

好评率等级品牌

低级HTC飞利浦

较低360,21KE、锤子、金立

较高oppo、华为、酷派

高级VIVO、LG、ZUK

然后对价格等级和好评率等级进行对应分析,可以看到提取了3个因子,前两个因子贡献率达到将近80%,因此这里选取两个因子就可以。

通过对应分析图表可以看到不同价位的手机的好评情况:

好评等级价位:

低级第一区间价位(500-1000),第二区间价位(1000-1500)第八区间(5000-6000);

较低第三区间价位(1500-2000);

较高第四区间价位(2000-2500)第六区间(3000-3500)第九区间价位(6000-7000);

高级第五区间(2500-3000)第七区间(3500-4000);

从表中可以看到用户评论中500-1500价格区间的手机好评率最低,500-6000价位的手机好评率也最低。1500-2000价位的手机好评率较低;2000-2500价位/3000-3500价位和6000-7000价位手机好评率较高,好评率最高的是价位2500-3000价位手机和3500-4000价位。

【以下为平台答案解析】

1答案解析: