非参数统计学讲义(第五章)相关与回归
- 格式:doc
- 大小:615.00 KB
- 文档页数:23
非参数统计学讲义主讲:统计系 袁靖第五章 相关和回归§1 引言所谓相关,是指两组或两组以上观察结果之间的连带性或联系。
换句话说,也就是各组观察结果所反映的特性之间有关系。
如几个亲生兄弟间的智商与出生顺序有关系,受教育程度与性别有关系,出生率X 和文盲率Y 之间的关系等等。
在实际问题的研究中,人们常常想知道两组或两组以上的观察结果是否有联系,同时也想知道联系的程度如何。
前面的统计检验能够在一定的显著性水平上,确定各组观察值的关系是否存在。
相关方法被用来度量两个或更多变量之间的线性关系的强度,是回归分析的基础。
在数理统计学中,我们使用相关系数定义变量X 和变量Y 之间的相关性。
)var()var(),cov(),(Y X Y X Y X corr ==ρ1(0.1)对于样本),(11Y X ,),(22Y X ,……,),(n n Y X 来说,Pearson 相关系数为∑∑∑∑∑∑----=----=222211)()())(()()())((Y Y X X Y Y X X Y Y X X Y Y X X r i i i i i i ni i n (0.2)如果在这个样本中的n 个观察值独立,则r 是ρ的渐近无偏估计;如果它又是二元正态分布,则r 是ρ的ML 估计。
为了检验0:0=ρH ,0:1≠ρH ,可以选取统计量)2(~122---=n t r n rt结论:Pearson 相关系数度量的是一种线性关系,而我们所要介绍的非参数的Spearman 秩相关系数s r 和Kendall τ相关系数实际上度量的是一种形式的相依联系,或是更广义的单调关系。
因此相关的概念被推广,不仅指线性相关,而泛指相依或联系。
§2 两个样本的相关分析一、等级相关等级相关(Rank Correlation)也称作级序相关,用于两个至少是定序尺度测量的样本问相关程度的测定研究背景1ρ度量了总体样本点在标准差线周围的聚集程度,详见笔记P38。
第五章非参数统计第五章非参数统计第一节符号检验和Wilcoxon符号秩检验第二节Wilcoxon秩和检验第三节Kruskal-Wallis秩和检验第四节Spearman等级相关分析补:列联表分析非参数统计非正态非数值观测值第一节符号检验和Wilcoxon符号秩检验配对资料符号检验配对资料Wilcoxon符号秩检验符号检验背景:例5-1 素质训练效果配对比较等级数据非正态分布符号检验的计算步骤定义成对数据指定正号或负号的规则;计数正号的个数及负号的个数(如果配对资料的前后没有变化,此时仅需要将这些观察值从资料中剔除,当然样本大小也随之减少);,计算正号个数的概率分布和相应P值样本较小时,应使用二项分布确切概率计算法;样本较大时,常利用二项分布的正态近似。
:0.5H p=例5-1训练可以“提高”身体素质?单侧检验计数正号的个数11,样本量15-1P 值=原假设下“计数正号的个数>=11”的概率,按二项分布B(14,0.5)计算P 值=0.0288<0.05 拒绝原假设利用SAS 软件:先数值化, 再使用univariate (修改程序Chap5_01R, 课本程序对但解释错,光盘程序错)注意:本题单侧检验。
单侧P 值=双侧P 值/20:0.5H p =5.0:1>p H Wilcoxon 符号秩检验例5-2 两种方法的生产时间是否有差异?配对资料数值数据非正态分布符号检验缺点: 丢失了数字大小信息。
Wilcoxon 符号秩检验方法既考虑了正、负号,又利用了差值大小,故效率较符号检验法高(就是说,在固定第一类错误概率α时,犯第二类错误的概率β较小)。
例5-2H0:任务完成时间的两个总体是相同的。
按差值绝对值|D |从秩1开始由小到大排列并给秩R差值为0在排秩中丢弃,样本数目修正遇到相等|D |(tie 结值),用平均秩符号秩和,W=min (T +,T -),W 服从Wilcoxon 符号秩分布, W 太小就拒绝H0例5-2: W =5.5<临界值8,拒绝H0∑++=R T ∑−−=R T Wilcoxon 符号秩检验Wilcoxon 符号秩统计量太大的S 值或太小的S 值都是拒绝的依据对于n>20,可用正态检验近似, z 太大或太小就拒绝H0例5-2: z=2.24>临界值1.96 ,拒绝H0(由于本题n=10, 近似法不一定可靠))1,0(~24)12)(1(4)1(N n n n n n T z +++−=+4)1(+−=+n n T S H0平均SAS 实现Chap5_02使用Proc univariate normal本题双侧检验,直接用双侧P 值与α比较符号检验,接受H0 (较保守,倾向接受, 稳妥)符号秩检验,拒绝H0(较中庸)正态性检验通过,所以也可用t 检验,拒绝H0(较激进,倾向拒绝, 效率最高)综合结论:拒绝H0小结:配对样本的检验符号检验:差值不是具体数字;Wilcoxon 符号秩检验:差值是具体数字,但不服从正态分布差值t 检验:差值是具体数字,且服从正态分布第二节Wilcoxon 秩和检验例5-3 机票Cancel 问题检验两个独立样本是否来自相同的总体。
非参数回归分析非参数回归分析是一种无需对数据分布做出假设的统计方法,它通过学习数据的内在结构来建立模型。
与传统的参数回归分析相比,非参数回归分析更加灵活,适用于各种复杂的数据分布。
本文将介绍非参数回归分析的基本原理和应用场景,并通过实例来说明其实际应用。
一、非参数回归分析的原理非参数回归分析是通过将目标变量与自变量之间的关系建模为一个未知的、非线性的函数形式,并通过样本数据来估计这个函数。
与参数回归分析不同的是,非参数回归模型不需要表示目标变量与自变量之间的具体函数形式,而是通过样本数据来学习函数的结构和特征。
在非参数回归分析中,最常用的方法是核密度估计和局部加权回归。
核密度估计使用核函数对数据进行平滑处理,从而得到目标变量在不同自变量取值处的概率密度估计。
局部加权回归则是通过在拟合过程中给予靠近目标变量较近的样本点更大的权重,从而对目标变量与自变量之间的关系进行拟合。
二、非参数回归分析的应用场景1. 数据分布未知或复杂的情况下,非参数回归分析可以灵活地适应不同的数据分布,从而得到较为准确的模型。
2. 非线性关系的建模,非参数回归分析可以对目标变量与自变量之间的非线性关系进行拟合,从而获得更准确的预测结果。
3. 数据量较小或样本信息有限的情况下,非参数回归分析不需要对数据分布做出假设,并且可以通过样本数据来学习模型的结构,因此对数据量较小的情况下也具有一定的优势。
三、非参数回归分析的实际应用为了更好地理解非参数回归分析的实际应用,以下通过一个实例来说明。
假设我们有一组汽车销售数据,包括了汽车的价格和其对应的里程数。
我们希望通过这些数据预测汽车的价格与里程数之间的关系。
首先,我们可以使用核密度估计方法来估计汽车价格与里程数之间的概率密度关系。
通过对价格和里程数进行核密度估计,我们可以得到一个二维概率密度图,显示了不同价格和里程数组合的概率密度。
接下来,我们可以使用局部加权回归方法来拟合汽车价格与里程数之间的关系。
统计学中的非参数回归方法统计学中的回归方法是一种通过分析自变量与因变量之间的关系来预测或解释观测数据的统计技术。
传统的回归方法通常假设自变量和因变量之间的关系是线性的,并且需要对数据分布进行一些假设。
然而,在某些情况下,这些假设可能不被满足,因此需要使用非参数回归方法。
非参数回归方法是一种无需对数据分布作出假设的回归技术。
它允许我们根据观测数据的特征来建立自变量和因变量之间的关系,而不需要事先假设参数模型。
以下将介绍几种常见的非参数回归方法。
1. 核密度估计核密度估计是一种常见的非参数回归方法,它通过在每个数据点周围放置一个核函数,并将这些核函数的加权平均值作为回归函数的估计。
核密度估计方法可以对数据中的任意非线性形式进行建模,因此在处理曲线或非线性关系时非常有用。
2. 局部加权回归局部加权回归是一种基于最近邻原理的非参数回归方法,它根据每个数据点的邻域范围对回归函数进行估计。
具体而言,对于每个预测点,该方法会根据其邻域内的数据点进行加权,距离预测点越近的数据点权重越大。
局部加权回归方法可以很好地处理数据中的异方差性和异态性。
3. 树回归方法树回归方法将自变量和因变量之间的关系表示为一棵决策树,每个叶节点对应一个预测值。
通过拆分数据并构建最优的决策规则,树回归方法可以将数据划分成不同的子区域,并对每个子区域进行回归估计。
树回归方法具备较好的灵活性和解释性,并能够应对变量之间的非线性关系。
4. 基于基函数的回归方法基于基函数的回归方法假设回归函数可以由一组基函数的线性组合来表示。
这些基函数可以是多项式函数、三角函数、高斯函数等,通过在基函数上进行线性组合,并利用观测数据进行参数估计,可以得到回归函数的估计。
基于基函数的回归方法可以灵活地适应不同形状和模式的数据。
总结起来,非参数回归方法在统计学中起着重要的作用,可以灵活地建模处理各种类型的数据,并且不需要对数据分布进行假设。
核密度估计、局部加权回归、树回归方法和基于基函数的回归方法是常见的非参数回归技术。
非参数统计秩相关分析和秩回归非参数统计方法是一类不依赖于总体分布形式的统计方法,它们通常基于样本数据的秩次(rank)或者置换(permutation)来进行统计推断。
秩相关分析和秩回归是非参数统计中常见的两种方法,本文将对它们进行详细介绍。
一、秩相关分析秩相关分析是用于测量两个变量间相关性的方法,它适用于总体分布不满足正态分布假设或无法假设总体分布形式的情况。
秩相关系数可以反映两个变量之间的关系的强度和方向。
常见的秩相关系数包括Spearman相关系数、Kendall相关系数等。
Spearman相关系数是一种非参数的秩相关系数,它将原始数据转换为秩次,然后计算秩次之间的皮尔逊相关系数。
Spearman相关系数的取值范围在-1到1之间,当Spearman相关系数为0时,表示两个变量之间不存在线性关系;当Spearman相关系数为正值时,表示两个变量呈正相关关系;当Spearman相关系数为负值时,表示两个变量呈负相关关系。
Kendall相关系数也是一种非参数的秩相关系数,它与Spearman相关系数类似,但是不考虑秩次之间的距离。
Kendall相关系数的取值范围在-1到1之间,具有与Spearman相关系数类似的解释。
秩相关分析的步骤如下:1.对原始数据进行秩次转换,将每个变量的观测值按照从小到大的顺序进行排列,并用相应的秩次替代原始观测值。
2.计算秩次之间的秩相关系数。
3.使用适当的统计检验方法对秩相关系数进行显著性检验。
秩相关分析的优点是不依赖于总体分布形式,对异常值不敏感,而且可以比较有序变量和无序变量的相关性。
但是它也有一些限制,比如只能检测线性相关性,不能检测非线性相关性。
二、秩回归秩回归是一种非参数的回归分析方法,它用于研究自变量和因变量之间的关系,并不要求总体分布的形式。
秩回归与普通回归的区别在与秩回归是基于秩次转换后的数据进行建模分析的。
秩回归的优点是可以适用于各种类型的数据,不需要对数据进行正态化变换,对异常值不敏感。
第一章 绪 论第一章主要是通过与所学的参数统计的比较来介绍非参数统计的概念、背景、理论与应用的价值,目的是激发学生学习本课程的兴趣。
为更好地掌握本课程的内容,本章将介绍和回忆所需的基本概念、基本公式和方法。
本章主要内容: 1.非参数方法介绍2.预备知识第一节 非参数方法介绍一. 非参数方法的概念和实例我们从接触数理统计开始,一直学习的都是参数统计,比如参数估计,总体 为正态时的假设检验等等。
首先回忆什么是参数方法?定义:设总体X 的分布函数的形式是已知的,而未知的仅仅是分布函数具体的参数值,用样本对这些未知参数进行估计或进行某种形式的假设检验,这类推断方法称为参数方法。
先来看两个实例。
例1.1 供应商供应的产品是否合格?某工厂产品的零件由某个供应商供应。
合格零件标准长度为(8.5±0.1)cm 。
这也就是说合格零件长度的中心位置为8.5cm ,允许误差界为0.1cm ,即长度在8.4-8.6cm 之间的零件是合格的。
为评估近年来供应的零件是否合格,随机抽查了n=100个零件,它们的长度数据X 见第一章附表1.1。
解答:根据我们已学过的参数统计的方法,如何根据数据来判断这批零件合格否? 用参数数据分析方法,在参数统计中,运用得最多的是正态分布,所以考虑假设供应商供应的零件长度X 服从正态分布,即X ~),(2σμN其中两个参数均未知,但可用样本均值估计μ,样本方差估计2σ。
由已知的数据计算可得:零件的平均长度,即样本均值为x =8.4958cm ,样本标准差为s=0.1047cm 。
则零件合格的可能性近似等于)/)4.8(()/)6.8(()6.84.8(σμσμ-Φ--Φ=≤≤X P)1047.0/)4958.84.8(()1047.0/)9458.86.8((-Φ--Φ≈%66≈这个说明:约有三分之一的零件不合格,该工厂需要换另一个供销商了。
但这个结论与实际数据符不符合呢?这是我们要思考的问题。
非参数统计学讲义主讲:统计系 袁靖第五章 相关和回归§1 引言所谓相关,是指两组或两组以上观察结果之间的连带性或联系。
换句话说,也就是各组观察结果所反映的特性之间有关系。
如几个亲生兄弟间的智商与出生顺序有关系,受教育程度与性别有关系,出生率X 和文盲率Y 之间的关系等等。
在实际问题的研究中,人们常常想知道两组或两组以上的观察结果是否有联系,同时也想知道联系的程度如何。
前面的统计检验能够在一定的显著性水平上,确定各组观察值的关系是否存在。
相关方法被用来度量两个或更多变量之间的线性关系的强度,是回归分析的基础。
在数理统计学中,我们使用相关系数定义变量X 和变量Y 之间的相关性。
)var()var(),cov(),(Y X Y X Y X corr ==ρ1(0.1)对于样本),(11Y X ,),(22Y X ,……,),(n n Y X 来说,Pearson 相关系数为∑∑∑∑∑∑----=----=222211)()())(()()())((Y Y X X Y Y X X Y Y X X Y Y X X r i i i i i i ni i n (0.2)如果在这个样本中的n 个观察值独立,则r 是ρ的渐近无偏估计;如果它又是二元正态分布,则r 是ρ的ML 估计。
为了检验0:0=ρH ,0:1≠ρH ,可以选取统计量)2(~122---=n t r n rt结论:Pearson 相关系数度量的是一种线性关系,而我们所要介绍的非参数的Spearman 秩相关系数s r 和Kendall τ相关系数实际上度量的是一种形式的相依联系,或是更广义的单调关系。
因此相关的概念被推广,不仅指线性相关,而泛指相依或联系。
§2 两个样本的相关分析一、等级相关等级相关(Rank Correlation)也称作级序相关,用于两个至少是定序尺度测量的样本问相关程度的测定研究背景1ρ度量了总体样本点在标准差线周围的聚集程度,详见笔记P38。
1.基本方法两个样本X 、Y ,其观察数据可以配对为),(11Y X ,),(22Y X ,……,),(n n Y X 。
将n x x x ,,,21 排序后评秩,其秩记作U ,与i x 相对应的秩为),,2,1(n i U i =;同样,n y y y ,,,21 排序后评秩,秩记作V ,与i y 相对应的秩为),,2,1(n i V i =。
这样得到的n 对秩),(11V U ,),(22V U ,…,),(n n V U 可能每一对完全相等,也可能不等。
由于每一样本都是n 个数据评秩,因此i U 与i V 的取值都是从1到n 。
X 、Y 的秩可能完全一致,即对于所有的i 来说,有i U =i V ,表5—1是完全一致的评秩结果。
X 、Y 的秩可能完全相反,表5—2是完全相反的评秩结果。
如果X 、Y 完全相关,应该对于所有的i 有i U =i V ,即i U —i V =0。
因此,i U 与i V 之差可以用来度量X 、Y 的相关程度。
定义i i i V U D -=X 的秩 Y 的秩 1 1 2 2 ……n -1 n -1 nn X 的秩 1 n 2 n -1 …… n -1 2 n 1i i i D 可正可负,直接用∑=ni i D 1测度相关,会出现正负i D 抵消,而不能真实反映i U 与i V 差值的大小,所以宜采用∑=ni i D 12,即∑∑==-=ni i i ni i V U D 1212)((0.3)(5.3)式的这个秩差值平方和的大小既受到n 的多少的影响,又受到两组秩不一致程度的影响,因此,采用相对的测量指标有利于说明X 、Y 的相关程度。
因为∑2i D 的最大值反映X 、Y 完全不相关的情况,所以,用(5.3)式除以∑2i D 的最大值,可用来评价X 、Y 之间秩的差值是否与完全不相关时接近。
若实际计算的∑2i D 与X 、Y 完全不相关情况下的∑-2)(i i V U 接近,那么两个样本的相关程度较低,若实际计算的∑2i D 与∑2i D 最大值的比越小,则两个样本的相关程度越高。
∑2i D 的最大值即X 、Y 间完全不相关情况下的秩差值平方和,可以根据表5—2所列的数据计算。
因为这是X 、Y 完全不相关的评秩结果。
∑2i D 的最大值为3/)1(])3()1[(2)1()]1(2[]2)1[()1(2222222-=+-+-=-+--++--+-n n n n n n n n(0.4)(5.4)式的中括号内最后一项,当n 为奇数时是22;n 为偶数时是12。
(5.3)式除以(5.4)式得到)1(33/)1(2222-=-∑∑n n D n n D i i (0.5)(5.5)式的取值从0到1。
根据表5-1中的数据计算(5.5)式值为0,表5-2中的数据计算的(5.5)式值为1,即X 、Y 的秩完全一致时,(5.5)式的值为0,X 、Y 的秩完全不一致时,(5.5)式的值为1。
测度两个样本等级相关程度可以象参数方法一样,定义等级相关系数作为标准。
斯皮尔曼的等级相关系数(Spearman coefficient of rank correlation)是测定两个样本相关强度的重要指标。
其计算公式为)1(6122--=∑n n D R i (0.6)斯皮尔曼相关系数也写为s r ,在有下标注以s 是为表明这个相关系数r 不是积矩相关的简单相关系数,而是等级相关的Spearman 相关系数。
注:①由于(5.6)式与(5.5)式不同,所以,R 的取值从一1到十1,1=R 表明X 、Y 完全相关,R =十l 为完全正相关,R =一1为完全负相关。
R 越接近于l ,表明相关程度越高,反之,R 越接近于零,表明相关程度越低,R =0为完全不相关。
R >0为正相关,R <0为负相关。
通常认为8.0>R 为相关程度较高。
②Spearman 秩相关系数检验临界值查表可得,P198。
③存在打结时,Spearman 统计量要作相应修正。
④在大样本时,可用正态近似作检验。
)1,0(1N n n r Z s ∞→-=2.应用【例5-1】经济发展水平和卫生水平之间的相关分析对某地区12个街道进行调查,并对经济发展水平和卫生水平按规定的标准打分,评定结果如表5—4。
街道号 经济水平卫生水平 街道号 经济水平 卫生水平1 82 86 7 84 80 2 87 78 8 78 773 60 65 9 80 754 98 88 10 94 96 575641185856 89 90 12 68 70序尺度测量的样本进行相关分析,可以采用等级相关系数测定。
必要的计算过程如表5—5所列。
根据(5—6)式可得8881.01119.01)112(123261)1(61222=-=-⨯-=--=∑n n D R i由于R =0.888l >0.8,所以该地区的经济发展水平和卫生水平存在着正相关关系,相关程度较高,为88.81%。
街道号 经济水平(U ) 卫生水平(V )D=U-V D 1 6 9 -3 9 2 9 6 3 9 3 1 2 -1 1 4 12 10 2 4 5 3 1 2 4 6 10 11 -1 1 7 7 7 0 0 8 4 5 -1 1 9 5 4 1 1 10 11 12 -1 1 11 8 8 0 0 12 2 3 -1 1 合 计323.同分处理当观察值是评的分数时,可能在同一个样本中出现相同的评分,如成绩都是80等等。
同分的秩仍旧是等于几个同分值应有秩的平均值。
如果同分的比例不大,它们对秩相关系数及的影响可以忽略。
但若同分的比例较大,则计算只时应加入一个校正因子。
对于X 的同分校正因子为12)(3∑∑-='i i u u u ,Y 的同分校正因子为12)(3∑∑-='i i v v v 。
于是斯皮尔曼秩相关系数的计算公式为:v n n u n n v u D n n R i '--'--'+'---=∑12)1(12)1()(66)1(2222 (0.7)式中,u 是X 中同分的观察值数目,v 是Y 中同分的观察值数目。
【例5-2】经济发展水平和卫生水平之间的相关分析某地区对24个区县进行调查,并对经济发展水平和卫生水平按规定标准评分,结果如表5—6。
分析:将表5—6的评分转换为秩次,从高往低排序,同分的秩取平均值,结果见表5—7。
根据公式5.6计算8491.01509.01)124(2434761)1(61222=-=-⨯⨯-=--=∑n n D R i由于经济水平和卫生水平的评分中均有同分,应采用校正因子修正。
利用5.7式计算修正的R 为8490.012)575(2416)575(24)1216(2/1)347(6)575(2412)1(12)1()(66)1(2222=-⨯-⨯+⨯-⨯-⨯='--'--'+'---=∑v n n u n n v u D n n R i对比两个R 值可知,由于同分的观察值数目占观察值总数目的比例不是很大,因而校正后的R 与校正前的R 变化不大。
但是,校正前的只略大于校正后的R ,这说明同分对只的影响虽然很小,但同分的影响是夸大R 值。
因此。
在X 、Y 中至少有一个存在大量同分时,应进行校正。
区县编号X的秩次(U)Y的秩次(V)D=U-V D1 1 14 -13 1692 2.5 3.5 -1 13 2.5 2 0.5 0.254 4 1 3 95 5 5 0 06 6 6 0 07 7 11 -4 168 8 3.5 4.5 20.259 9.5 9 0.5 0.2510 9.5 10 -0.5 0.2511 11 16.5 -5.5 30.2512 12.5 8 4.5 20.2513 12.5 15 -2.5 6.2514 14 7 7 4915 15 12 3 916 16 13 3 917 17 18 -1 118 18 16.5 1.5 2.2519 19 20 -1 120 20 19 1 121 21 21 0 022 22 22 0 023 23 24 -1 124 24 23 1 1 合计347.004.R的显著性检验利用相关系数及其修正的公式计算的R值,是抽自两个总体的样本数据计算的结果,从这一相关系数的大小,可猜测总体的秩相关系数是否与零有显著差异,但是否为真,应进行假设检验。
对R的显著性检验正是为了回答这一问题。
检验可以仅研究两个总体是否存在相关,也可以分别研究相关的方向,即是正相关,还是负相关。
针对研究问题的不同,可以建立不同的假设组。