第四章分析数据间的相关性

  • 格式:ppt
  • 大小:1005.02 KB
  • 文档页数:61

下载文档原格式

  / 61
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

在Excel中,用Intercept(known_y’s,known_x’s)
函数用来计算回归方程的截距 ˆ0
用Slope(known_y’s,known_x’s)函数来计算回归方
程的回归系数 ˆ1
• 因此,得到该数据的一 元线性回归方程为:
•y=124.15+0.42x
在散点图中,选中数据点,单击右键,选择“添加趋势 线”-“线性”,并在选项标签中要求给出公式和相关系数 等,可以得到拟合的直线,如下图所示。
高尔顿由此的出结论,人的生理结构是稳定的,所有有机 组织都趋于标准状态,这种效应叫回归效应
一元回归的例子
人均收入是否会显著影响人均食品消费支出; 贷款余额是否会影响到不良贷款; 航班正点率是否对顾客投诉次数有显著影响; 广告费用支出是否对销售额有显著影响;
回归分析的概念
因变量与自变量之间的关系用一条线性方程来表示; 因变量(dependent variable):被预测或被解释的变量,
(2)回归方程的显著性检验 回归方程的显著性检验是检验因变量与自变量
之间的线性关系是否显著,是否可以用线性模型 来描述因变量与自变量之间的关系。
线性关系的检验步骤
提出假设 H0:1=0 所有回归系数与零无显著差异,y与全 体x的线性关系不显著
计算检验统计量F
F SSR 1 MSR ~ F (1 , n 2) SSE n 2 MSE
列联表示例
获不获得学分与性别是有关系的,男生获得学分的可能更大一些
列联表示例
获得 未获得 合计
公共选修课


合计
30
10
30
10
60
20
专业选修课 男
40 获得 40 未获得 80 合计
女 5 15 20
合计
10
15
30
45
40
60
获不获得学分与性别是不相关的???
4.4 相关的可靠性检验
方法一:利用卡方分析
1)计算 f e
2)计算 2 3)计算 CHIINV 4)比较及结论
方法二:利用Chitest函数
(1)假设性别与高等教育程度无关,得到期望频数区域。 (2)利用Chitest函数,求得chitest (实际频数,期望频数)
的值,该值代表假设成立的概率。 (3)若该概率为小概率事件,则认为假设不成立,反之,
Excel数据统计与分析
第四章 分析数据间的相关性
世间万物总是存在不同程度的联系
函数关系
统计关系
例:正方形体积与边长,年龄与身高,父 母身高与孩子身高,身高与体重,考试成 绩与学习时间,学历与收入,收入与幸福 感,物品价格与质量
线性相关
Y 正线性相关
负线性相关 X
非线性相关
Y
X
4.2两数值型数据间的相关性
第三:对线性回归方程的统计检验
对回归方程检验的内容
(1)回归方程的拟合优度检验 回归方程的拟合优度检验就是要检验样本数据点 聚集在回归直线周围的密集程度,从而评价回归 方程对样本数据的代表程度。
1.判定系数 因变量的各个观测值之间的差异主要由两个方面 的原因造成的,一是由自变量的不同值造成的, 二是其他因素造成的。
实践
2019年31个省市自治区个人购买商品住房住宅面 积与商品来自百度文库宅销售额的数据,现要求利用散点图法 分析个人购买商品住房住宅面积与商品住宅销售额 之间的相关性。
(2)数值分析法 图形能够直观展现数据间的相关关系,但并不精确。 简单相关系数通过数字准确描述数据间线性相关的方 向和强弱程度。
(3)决策。若差距足够小,则当前的假设成立。若差距较 大,说明提出的假设是站不住脚的。 统计中,通常的把握程度为0.95,0.90,0.99
计算差距
2
f0 fe 2 fe
f 0 为列联表每个单元格中的实际频数
f 为列联表每个单元格中的期望频数 e
实践
对性别与受高等教育程度之间的相关性进行可靠 性检验。
用y表示。 自变量(independent variable):预测或解释因变量的一
个或多个变量,用x表示 。 涉及一个自变量的回归为一元回归分析
回归分析的步骤
步骤1
步骤 2
步骤 3
步骤 4
确定回归 方程中的 解释变量
和 被解释变量
确定 回归模型
建立 回归方程
对 回归方程 进行各种
检验
利用 回归方程 进行预测
(1)图形分析法 复式柱形图是柱形图 的扩展,主要用于对 事物两个或多个特征 的分类对比。
**实践
(2)数值分析法---列联表
在该图基础上进一步计算一些简单的百分比。 **分别按行与按列对上表进行分析。
实践
给定的性别与受教育程度数据进行相关性分析, 做出他们的列联表。 请进行分析,并得出结论
残差平方和(SSE)
反映除 x 以外的其他因素对 y 取值的影响,也称为 不可解释的平方和或剩余平方和;
n
n
n
yi y 2 yˆi y 2 yi yˆ 2
i 1
i 1
i 1
{ { {
总平方和 (SST)
回归平方和 (SSR)
残差平方和 (SSE)
yˆ ˆ0 ˆ1x
其中:ˆ0 是估计的回归直线在 y 轴上的截距,ˆ1是直线
的斜率,它表示对于一个给定的 x 的值,yˆ 是 y 的估
计值,也表示 x 每变动一个单位时, y 的平均变动值 。
使因变量的观察值与估计值之间的离差平方和 达到最小来求得ˆ0和ˆ1 的方法。即
n
n
则成立。
实践
实验内容 (一)随机抽取由10名大学生组成的样本,研究他们在高
中与大学的英语成绩得出下表结果:(单位:分)
试测定其相关程度。
(二)下面是几家百货商店销售额和利润率的资料:
1.以纵轴表示利润率,横轴表示每人月平均销售额,画出 散点图,观察并说明两变量之间存在何种关系。
2.计算每人月平均销售额与利润率之间的相关系数,并说 明其相关的密切程度。
简单相关系数
简单相关系数取值范围[-1,1] 简单相关系数>0,表示两个数据正线性相关 简单相关系数<0,表示两个数据负线性相关 简单相关系数=0,表示两个数据不存在线性相关 简单相关系数>0.8,表示两个数据相关性很强 简单相关系数<0.3,表示两个数据相关性较弱
求简单相关系数的方法: (1)简单相关系数可通过函数Correl或Pearson实现 (2)“数据分析”中相关系数命令
可靠性研究的就是分析样本数据所体现的相关或 不相关在总体数据间是否依然存在
假设检验的基本原理
显著性水平
显著性水平α是当原假设正确却被拒绝的概率 通常人们取0.05或0.01 这表明,当做出接受原假设的决定时,其正确的
可能性(概率)为95%或99%
(1)数值型数据相关的可靠性检验
数值型数据相关的可靠性检验步骤如下: (1)首先提出两总体是否相关的假设,通常假设是两总体
R2 1,说明回归方程拟合的越好;R20,
说明回归方程拟合的越差
一元线性回归中,判定系数等于y和x相关系
数的平方,即R2=(r)2;
在Excel中,判定系数可用 Rsq(known_y’s,known_x’s)函数来计算。
判定系数=0.85,说 明样本数据点紧密的聚 集在回归直线周围,该 回归方程对数据的拟合 度较好。
总体与样本
常常存在这样的情况,我们所观察的只是部分或有限的个体, 而需要判断的总体对象范围却是大量的,甚至是无限的。比如 说为了考察某公司生产的一批电脑芯片的质量,需要了解芯片 使用寿命这一指标。我们关心的是这一整批芯片的质量,但由 于各种原因,只能抽取其中的一小部分进行测试。这时,这一 整批芯片的质量和被抽取出来的那一部分的质量就构成了“整 体”和“部分”的关系了。
实践
个人购买商品住在面积与商品住宅销售额之间的相关性 进行可靠性检验。
1)求差距 2)求95%决策标准 3)求99%决策标准 4)比较与结论
(2)品质型数据相关的可靠性检验
卡方分析的主要步骤:
(1)首先提出两总体是否相关的假设,通常假设行变量总 体与列变量总体不相关。
(2)计算差距。计算目前列联表中的频数数据所呈现的实 际相关性与行列变量总体不相关之间的差距有多少
( yi yˆ)2 ( yi ˆ0 ˆ1xi )2 最小
i 1
i 1
用最小二乘法拟合的直线来代表x与y之间的 关系与实际数据的误差比其他任何直线都小
y
(xn , yn)



(x2 , y2)

} ei = yi-^yi

(x1 , y1)
(xi , yi)
某一个观测值的变差的分解
y
(xi , yi )
{ } y yˆ
yy
} yˆ y
yˆ ˆ0 ˆ1x
y
x
离差平方和的分解
总平方和(SST)
反映因变量的 n 个观察值与其均值的总离差;
回归平方和(SSR)
反映自变量 x 的变化对因变量 y 取值变化的影响, 是由于 x 与 y 之间的线性关系引起的 y 的取值变化, 也称为可解释的平方和;
yˆ ˆ0 ˆ1x
x
根据最小二乘法的要求,可得求解ˆ0和 ˆ1的公式
如下

n
n
xi yi
n
xi
n
yi
ˆ1

i 1
i1 i1
n
n
xi2
n
2 xi
i 1
i1

ˆ0 y ˆ1x
(1)图形分析法 散点图是统计关系分析中最常用的图形工具,它将数 据以点的形式画在直角平面上,它将一组数据作为纵轴, 将另一组数据作为纵轴,事物对象的每个个体以点的形 式出现。
5000000 4500000 4000000 3500000 3000000 2500000 2000000 1500000 1000000
SST = SSR + SSE
回归平方和占总离差平方和的比例
n
n
R2

SSR SST

yˆi
i 1
n
yi
y 2 y 2
1
yi yˆ 2
i 1 n
yi y 2
i 1
i 1
反映回归方程的拟合程度;
取值范围在 [ 0 , 1 ] 之间;
实践
2019年31个省市自治区个人购买商品住房住宅面 积与商品住宅销售额的数据,现要求函数和“数据 分析”命令分析个人购买商品住房住宅面积与商品 住宅销售额之间的相关性。
思考:是否容易受到极端值的影响? “练习”sheet中求两组的相关性
4.3两品质数据间的相关性
分析性别跟职称是否相关?学历与收入是否相关?
500000 0
0
500
1000
1500
(1)若所有点落在一条直线上,说明数据间是线性相关, 是函数关系,不是统计关系。
(2)所有点杂乱无章,从形态上看不出任何特征和规律, 表明数据间不相关
(3)图形点大致呈某种曲线形态,表明数据间存在非线 性相关
(4)所有点大致落在一条直线周围,表明数据间有线性 相关性。
实例分析
为便于控制某产品的生产成本,需要研究该产品 产量与生产成本之间的数量变化关系,并预算当 产量达到一定水平时的成本是多少。
第一:确定自变量和因变量
200 150 100
50 0 0
系列1
20
40
60
80
100
120
140
160
第二:确定回归方程
根据收集的数据确定自变量与因变量之间的数学关 系式,一元线性回归中估计的回归方程为:
不相关。 (2)计算差距。计算当前相关系数与所提假设成立之间的
差距。 (3)决策。若差距足够小,则当前的假设成立。若差距较
大,说明提出的假设是站不住脚的。 统计中国,通常的把握程度为0.95,0.90,0.99
相关系数的差距
n2 r
1 r2
0.95把握度下的差距 TINV函数:TINV(probability,degrees_freedom), probability为1-把握程度; degrees_freedom为n-1
3.检验每人月平均销售额与利润率之间的相关程度,显著性 水平取0.01
4.5数据的线性回归分析
回归效应
1887年生物统计学家高尔顿在研究豌豆和人体的身高 遗传规律时,首先提出“回归”的思想 。1888年他又引 入“相关”(Correlation)的概念。原来,他在研究人 类身高的遗传时发现,不管祖先的身高是高还是低,成年 后代的身高总有向一般人口的平均身高回归的倾向。