EXCEL和SPSS在回归分析、正交试验设计和判别分析中应用
- 格式:docx
- 大小:1.10 MB
- 文档页数:12
实验2指导:EXCEL和SPSS在回归分析、正交试验设计和判别分析中的应用
实验目的
1. 熟悉EXCEL和SPSS在数据分析中的操作;
2. 使用EXCEL和SPSS进行回归分析、正交试验设计和判别分析。
实验内容
1.一元线性回归分析
例:近年来国家教育部决定将各高校的后勤社会化。某从事饮食业的企业家认为这是一个很好的投资机会,他得到十组高校人数与周边饭店的季销售额的数据资料,并想根据高校的数据决策其投资规模,数据见data.xls的Sheet1。
1)选择数据区域B2:C11,从“插入”菜单中选择“散点图”。Excel将显示相应
散点图。
2)选择图上的点,右键菜单,选择添加趋势线,如下图所示:
3)在趋势线选项,将“显示公式”和“显示R平方”选项打勾,如下图:
结果不仅显示散点图的趋势线,还会显示相应公式,即一元线性回归的回归函数,同时显示R平方值,R即相关系数,其绝对值越接近1,表示两组数据的线性相关程度越高。一元线性回归函数描述了两组数据间存在的线性关系,在上述例子中只要知道其它高校的人数即可根据该公式预测大概的季度销售额。而R 的大小能够用于度量这种预测的准确度。
另外,使用EXCEL自带的函数也能实现一元线性回归:
截距函数INTERCEPT
功能:利用已知的x 值与y 值计算回归直线在y 轴的截距。
语法结构:INTERCEPT(known_y's,known_x's)
斜率函数SLOPE
功能:返回根据known_y‘s 和known_x’s 中的数据点拟合的线性回归直线的斜率。
语法结构:SLOPE(known_y's,known_x's)
相关系数函数RSQ
功能:返回根据known_y‘s 和known_x’s 中数据点计算得出的相关系数的平方。
语法结构:RSQ(known_y's,known_x's)
试比较图表法和函数法计算得出的一元线性回归方程是否一致。
2.多元线性回归分析
例:一家房地产评估公司想对某城市的房地产销售价格(y)与地产的评估价值(x1)和使用面积(x2)建立一个模型,一边对销售价格作出合理的预测。为此收集20栋住宅的房地产评估数据(data.xls的Sheet2)。
由于本问题有两个自变量,因此需要使用多元线性回归,需要借助于Excel 的数据分析功能。
1)点击“数据分析”,跳出回归分析对话框;
2)填充应变量y和自变量x1,x2对应的区域和输出区域,如下图:
3)点击确定后将出现多元线性回归的结果,对于结果(如下图a,b,c)的一些重
要项解释如下:
图a
图b
图c
图b中的Significance F及线性回归的p value,该值小于0.05表示此线性回归结果显著,及回归方程可信,房地产的销售价格与地产估价和使用面积是有关
系的。图c 中的Coefficients 为回归方程的系数,因此,回归结果为y=—285.0094+1.5598x1+03145x2,在使用面积不变的情况下,地产估价每增加1万元,房产销售的平均价格就会提高1.5598万元;在房地产估价不变的条件下,使用面积每增加1平方米,房产销售的平均价格就会提高0.3145元;图a 中Adjusted R Square 为调整复测定系数,本例中约为0.71,它表示两个变量x1,x2对导致结果y 的贡献,也就是说还有导致结果y 的原因中有29%是由除了x1,x2以外的因素造成的。
习题:在黄芪提取工艺的研究中,选择了前煮时间、煎煮次数和加水量进行考察,实验数据见data.xls 的Sheet3,试对实验数据进行多元线性回归,对结果进行讨论。
3. logistic 回归分析
质量性状(qualitative character)是指能观察到而不能直接测量的,只能用文字来描述其特征的性状,如食品颜色、 风味等等。这类性状本身不能直接用数值表示,要获得这类性状的数据资料,须对其观察结果作数量化处理。例如: 是否抽烟,是否患病。采用线性回归分析显然不太合适,而logistic 回归能较好地解决质量性状分析的问题。
例:我们有一组数据,45个观测值,四个变量,包括:age (年龄,数值型);vision (视力状况,分类型,1表示好,0表示有问题);drive (驾车教育,分类型,1表示参加过驾车教育,0表示没有)和一个分类型输出变量accident (去年是否出过事故,1表示出过事故,0表示没有)。我们的目的就是要考察前三个变量与发生事故的关系。数据见data.xls 的Sheet4.
3.1 计算优势比
优势(odds )是指某影响因素控制在某种水平时,事件发生率与事件不发生率的比值,即P/(1-P)。某影响因素的两个不同水平的优势的比值称为优势比,如某影响因素的一个水平为c1,另一个水平为c0,则这两个水平的优势比为:
1
100/(1)/(1)P P OR P P -=-126/3690.52243/369
==非吸烟的优势309/517 1.49208/517==吸烟的优势
⏹ OR 表示影响因素对事件发生的影响方向和影响能力大小。
⏹ OR >1表示该因素取值越大,事件发生的概率越大,又称危险因素。 ⏹ OR<1表示该因素取值越大,事件发生的概率越小,又称保护因素。 ⏹ OR =1表示该因素与事件的发生无关。
试计算视力和驾车教育对发生事故的优势比。
3.2 SPSS 的安装
1) 启动虚拟机,并拷贝安装文件至虚拟机中;
2) 按缺省方式安装SPSS, 最后在注册环节点取消即可;
3) 运行安装文件夹下spss_19_patch_V2目录中的SPSS19crack20100825.exe 即可获得破解过的SPSS 。
3.2 SPSS 数据的导入
在spss 中导入Excel 文件中数据方法如下:点击SPSS 中的文件—打开—数据,文件类型选*.xls,*xlsx ,选择实验指导文件夹中的data.xls ,确定,然后工作表选Sheet4即可。
3.3 SPSS 用于logistic 回归
1) 数据导入以后,菜单栏上依次点击:分析—回归—二元logistic 回归,打开相应对话框对话框。
1.49
2.870.52
OR ==