研究生《生物统计学》课程
第六讲相关分析与回归分析
主要内容:
一、线性相关分析
1、两变量相关分析
2、多变量相关分析
二、回归分析
1、一元线性回归分析
2、多元线性回归分析
3、曲线回归分析
一、线性相关分析:用于研究变量之间密切程度的统计方法使用SPSS中Correlate模块
相关系数是以数值的方式精确地反映两个变量之间线性关系的强弱程度,利用相关系数进行变量间线性关系的分析,即相关分析。包括两个步骤:①计算样本的相关系数r;
②对两样本来自的总体是否存在显著的线性关系进行推断。
Pearson简单相关系数:计算连续变量或等间距测度的变量之间的相关系数(系统默认);Kendall τ相关系数:等级相关系数,只能在两变量均属于有序分类时使用;Spearman等级相关系数:度量定序型变量间的线性相关关系,非参数相关分析。
(一)两变量相关分析
1、案例分析:有人研究黏虫孵化历期平均温度(x, ℃)与历期天数(y, d)之间的关系,求出平均温度与历期天数的线性相关系数
x,平均温度(℃)
y, 历期天数(d)
(1) 建立数据文件,在Variable Vew 中定义变量“平均温度”、“历期天数”,小数位
数均为1,输入数据;
(2) 相关分析:[Analyze]=>[Correlate]=>[Bivariate](两变量相关分析),打开[Bivariate
Correlation]主对话,将“平均温度”、“历期天数”引进[Variables](变量)框; (3) 在[Correlation Coefficients]复选框中选择“Pearson ”(系统默认),选中[Flag
significant correlations],将对显著的相关系数加“*”标志(若为1个星号*,表示P<,差异显著;若为2个星号**,表示P<,差异极显著);
(4) 单击[Options]进入“选项”对话框,选择[Means and standard deviations]计算各变
量的平均值与标准差,[Continue]返回; (5) 单击[OK],运行相关分析。 SPSS 分析结果
Correlations
1
-.968**.000
88-.968**1.00088
Pearson Correlation
Sig. (2-tailed)N
Pearson Correlation Sig. (2-tailed)N
平均温度
历期天数
平均温度
历期天数
Correlation is significant at the 0.01 level (2-tailed).
**.
(相关系数肩标**表示在概率为(双侧)水平上具有显著性意义)
2、练习:研究小白鼠体内丧失水分与温度变化之间的关系,随机抽取一群小白鼠,在一系列温度下,规定时间内测定这群小白鼠散发出来的水分,得到如下数据,试分析温度与散发出来的水分之间的相关性是否显著。
X (温度,℃) 15 20 25 30 35 Y (水分蒸发量,g )
(二)多个变量间相关分析:
1、案例:测定13块某品种水稻每亩的穗数(x 1,万)、每穗粒数(x 2)、每亩稻谷产量(y ,kg ),结果如下表,试进行相关分析。
编号
穗数x 1
粒数x 2
产量y 1 504 2 480 3 526 4
511
5 549
6 552
7 496
8 473
9 537 10 515 11 502 12 498 13
523
操作与两变量间相关分析基本相同,将“穗数x 1”、“粒数x 2”、“产量y ”引进[Variables](变量)框
SPSS 相关分析结果如下:
Correlations
1
-.719**.627*.006.022131313-.719**1
.013.006.966131313.627*.0131
.022.96613
13
13
Pearson Correlation
Sig. (2-tailed)N
Pearson Correlation Sig. (2-tailed)N
Pearson Correlation Sig. (2-tailed)N
穗数x1
粒数x2
产量y
穗数x1
粒数x2
产量y
Correlation is significant at the 0.01 level (2-tailed).**. Correlation is significant at the 0.05 level (2-tailed).
*.
(结果表明:穗数与粒数之间存在极显著的线性负相关关系,穗数与产量之间存在显著的正相关关系。)
二、回归分析:用一个或多个变量去估计另一个变量,SPSS 中”Regression ”模块 (一)一元线性回归
1、案例分析:有人研究黏虫孵化历期平均温度(x, ℃ )与历期天数(y, d )之间的关系,求出平均温度与历期天数的线性回归方程。 x ,平均温度(℃) y, 历期天数(d )
(1) 建立数据文件,在Variable Vew 中定义变量“平均温度”、“历期天数”,小数位
数均为1,输入数据;
(2) 回归分析:[Analyze]=>[Regression](回归分析)=>[Linear](线性回归),打开
[Linear Regression]主对话,将“历期天数”引进[Dependent](因变量),将“平均温度”引进[Independent](自变量);
(3) 点击[Statistics …],打开描述统计对话框,选择“Descriptive ”、“Estimates ”(可输
出回归系数b 及其标准误差)、“Model fit ”,[Continue]返回;
(4) 单击[Options]进入“选项”对话框,选择系统默认,[Continue]返回; (5) 单击[OK],运行线性回归分析。 SPSS 分析结果
回归关系的方差分析(结果表明p<,存在极显著的线性回归关系)
ANOVA b
353.6571353.65789.868
.000a
23.6126 3.935
377.269
7
Regression Residual Total
Model 1
Sum of Squares df
Mean Square
F Sig.Pred ict ors: (Con stant), 平均温度a. Dep enden t Vari able: 历期天数
b.
回归系数及回归系数的t 检验
Coefficients a
57.039 4.55112.534.000-2.532.267
-.968
-9.480.000
(Constant)平均温度
Model 1
B Std. Error Unstandardized Coefficients Beta
Standardized
Coefficients
t
Sig.Dep ende nt Vari able: 历期天数
a.
黏虫孵化历期平均温度(x, ℃ )与历期天数(y, d )之间存在极显著的线性回归方程: Y=、练习:研究小白鼠体内丧失水分与温度变化之间的关系,随机抽取一群小白鼠,在一系列温度下,规定时间内测定这群小白鼠散发出来的水分,得到如下数据,求温度与水分蒸发量的线性关系。
X (温度,℃) 15 20 25 30 35 Y (水分蒸发量,g )
(二)、多元线性回归:研究一个因变量与多个自变量之间的线性依存关系
1、案例分析:调查8个地区某商品的销售额与该地区购买力和该商品流通量的资料如下表,试对其进行多元线性回归。
地区
销售额Y 购买力X1 流入量X2
1 6800 1300 400
2 1900 350 1200
3 2800 180 700
4 1000 340 400
5 700 70 1600
6 500 200 1200
7 60 30 240 8
50
20
400
(1) 建立数据文件,在Variable Vew 中定义变量“购买力X1”、“流入量X2”、“销售
额Y ”,小数位数均为0,输入数据;
(2) 回归分析:[Analyze]=>[Regression](回归分析)=>[Linear](线性回归),打开
[Linear Regression]主对话,将“销售额Y ”引进[Dependent](因变量),将“购买力X1”、“流入量X2”引进[Independent](自变量),[Method]列表中选择“Enter ”; (3) 单击[OK],运行线性回归分析。 SPSS 分析结果
Coefficients a
37.085746.031.050.9625.075.862.944 5.888.002.143.722
.032
.198
.851
(Constant)购买力x1流通量x2
Model 1
B Std. Error Unstandardized
Coefficients Beta
Standardized
Coefficients
t Sig.Dep ende nt Vari able: 销售额y
a.
由上表可见,“流通量x2”进行t 检验,其p=>,说明其系数不显著,可采用逐步回归的方法得到最佳的回归方差,如下:
[Analyze]=>[Regression](回归分析)=>[Linear](线性回归),打开[Linear Regression]主对话,将“销售额Y ”引进[Dependent](因变量),将“购买力X1”、“流入量X2”引进[Independent](自变量),[Method]列表中选择“Stepwise ”;[OK] 分析结果:
Coefficients a
158.881384.817.413.6945.036.768
.937
6.554
.001
(Constant)购买力x1
Model 1
B Std. Error Unstandardized
Coefficients Beta
Standardized
Coefficients
t Sig.Dep ende nt Vari able: 销售额y
a.
“流入量X2”未被选入方程,逐步回归方程为:
Y=+
2、练习:一家百货公司在10个地区设有经销分公司。公司认为商品销售额与该地区的人口数和年人均收入有关,并希望建立它们之间的数量关系式,以预测销售额。有关数据如下表。试确定销售额对人口数和年人均收入的线性回归方程。
地区编号销售额(万元)y人口数(万人) x1 年人均收入(元)x2
1 2 3 4 5 6 7 8 9 10 1250 1650 1450 1310 1310 1580 1490 1520 1620 1570
3、练习:某研究机构为研究儿童的智力状况,调查了16所小学的平均语言测试得分(y)与家庭社会经济状况综合指标(x1)、教师语言测试得分(x2)及母亲教育水平(x3)的数据,如下表所示,试进行多元回归。
平均语言测试得分y 家庭综合指数x1 教师语言测验分x2 母亲教育水平x3
(三)曲线回归法分析:变量间并非线性关系,而是各种曲线关系
[Analyze]=>[Regression](回归分析)=>[Curve Estimation](曲线估计)
SPSS列出11种曲线类型:
?Linear 线性模型
?Logarithmic 对数曲线模型
?Inverse 倒数曲线模型
?Quadratic 二次曲线模型
?Cubic 三次曲线模型
?Power 幂函数模型
?Compound 复合曲线模型
?S S形曲线模型
?Logistic Logistic曲线模型
1、案例分析:测定了8尾雌性鲟鱼的体长(cm)和体重(kg),结果如下表,试对鲟鱼
的体重与体长进行回归分析。
序号 1 2 3 4 5 6 7 8 体长 x
体重 y
SPSS操作:
(1)建立数据文件,在Variable Vew中定义变量“x”、“y”、在label中分别定义为“体长”和“体重”,输入数据;
(2)绘制散点图:选择[Graphs] => [Scatter/Dot],打开[Scatter/Dot]对话框,选择“Simple”图例后单击“Define”按钮,打开“Simple Scatterplot”(简单散点图)对话框,将变量y移动到“Y Axis”框,变量x移动到“X Axis”框,OK。
(3)曲线回归分析:[Analyze]=>[Regression](回归分析)=>[Curve Estimation](曲线估计),打开[Curve Estimation]主对话,将“y”引进[Dependent](因变量),将
“x”引进[Independent](自变量)的“Variable”框中,在[Models]中选择所需的
曲线方程。因无法确知体重y与体长x的曲线拟合适用哪一种曲线方程,故选中
除Logistic曲线外的10种曲线方程。选中“Display ANOVA Table”(显示方差
分析表)选项。
(4)单击[OK],运行线性回归分析。
SPSS分析结果
1、散点图:
2、模型描述:
Model Description
Model Name MOD_1
Dependent Variable 1 ì???
Equation 1 Linear
2 Logarithmic
3 Inverse
4 Quadratic
5 Cubic
6 Compound(a)
7 Power(a)
8 S(a)
9 Growth(a)
10 Exponential(a)
Independent Variable ì?3¤
Constant Included
Variable Whose Values Label Observations in Plots
Unspecified
Tolerance for Entering Terms in Equations .0001
a The model requires all non-missing values to be positive.
3、拟合曲线的参数
Model Summary and Parameter Estimates
Dependent Variable: ì???
Equation Model Summary Parameter Estimates R Square F df1 df2 Sig. Constant b1 b2 b3 Linear .914 1 6 .000 .237
Logarithmic .846 1 6 .001
Inverse .759 1 6 .005
Quadratic .969 2 5 .000 .002
Cubic .970 2 5 .000 .224 .000 .000 Compound .950 1 6 .000 .149
Power .984 1 6 .000
S .989 1 6 .000
Growth .950 1 6 .000 .032
Exponential .950 1 6 .000 .149 .032
The independent variable is ì?3¤.
经过检验,所有曲线拟合的p均小于,均达到极显著水平,但10条曲线的相关指数R2是S 形曲线(S)的最大,为,故S形曲线方程是描述鲟鱼体重与体长关系的最优方程。
练习:
1、测定细砂土中毛管水的上升高度(y,mm)和经历时数(x,h)的关系,其结果如下表所示,试做回归分析。
x 12 24 48 96 144 192 240
y 21 34 42 48 53 57 60 问:该题用那种方程拟合最优?