第十一章 两变量的关联性分析
- 格式:ppt
- 大小:232.00 KB
- 文档页数:33
可编辑修改精选全文完整版变量之间的关联性分析六、两个变量之间的关联性分析1.两个变量均为连续型变量1)小样本并且两个变量服从双正态分布,则用Pearson相关系数做统计分析2)大样本或两个变量不服从双正态分布,则用Spearman相关系数进行统计分析2.两个变量均为有序分类变量,可以用Spearman相关系数进行统计分析3.一个变量为有序分类变量,另一个变量为连续型变量,可以用Spearman相关系数进行统计分析七、回归分析1.直线回归:如果回归分析中的残差服从正态分布(大样本时无需正态性),残差与自变量无趋势变化,则直线回归(单个自变量的线性回归,称为简单回归),否则应作适当的变换,使其满足上述条件。
2.多重线性回归:应变量(Y)为连续型变量(即计量资料),自变量(X1,X2, (X))可以为连续型变量、有序分类变量或二分类变量。
如果回归分析中的残差服从正态分布(大样本时无需正态性),残差与自变量无趋势变化,可以作多重线性回归。
1)观察性研究:可以用逐步线性回归寻找(拟)主要的影响因素2)实验性研究:在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用3二分类的Logistic回归:应变量为二分类变量,自变量(X1,X2,…,Xp)可以为连续型变量、有序分类变量或二分类变量。
1)非配对的情况:用非条件Logistic回归(1)观察性研究:可以用逐步线性回归寻找(拟)主要的影响因素(2)实验性研究:在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用2)配对的情况:用条件Logistic回归(1)观察性研究:可以用逐步线性回归寻找(拟)主要的影响因素(2)实验性研究:在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用4.有序多分类有序的Logistic回归:应变量为有序多分类变量,自变量(X1,X2,…,Xp)可以为连续型变量、有序分类变量或二分类变量。
第十一章两变量关联性分析习题
一、是非题
1、Pearson相关系数的假设检验.苦结论为不拒绝H0,可以认为两变量间无关系. ()
2、在同样样本量的情况下.Pearson相关系数|r|越接近1(P<0.05).说明两变量间直线关系越密切. ( )
3、计算关联系数时两随机变量不能为无序分类资料. ()
4、|r|越大(P<0.05),说明X对Y的影响幅度越大. ()
5、ρ≠0,意味着X和Y之间的因果关系成立. ()
二、选择题
1.下列式中可以取负值的是:
A.l xx B.l xy C.l yy D.关联系数
2.直线相关系数的假没检验,其自由度为:
A.n B.n-1 C.n-2 D.2n-1
3.计算Pearson相关系数要求:
A.应变量Y是正态变量.而自变量X可以不满足正态的要求
B.自变量X是正态变量.而应变量Y可以不满足正态的要求
C.应变量Y是定量指标.而自变量X可以是任何类型的数据
D.两变量都要求为满足正态分布规律的随机变量
4.两组资料进行相关性分析.一个r0.01,v1>r1>r0.05,v1,另一个r2>r0.01,v2,可认为:A.第l组资料两变量关系密切
B.第2组资料两变量关系密切
C.很难说哪一组变量关系密切
D.t r1>t r2
三、筒答题
1.r、r s和列联系数的应用条件有何不同?
2.应用线性相关分析时应该意哪些问题?
3.线性相关分析的基本步骤是什么?
4.关联性分析的χ2检验与两个或多个频数分布比较的χ2检验的设计和意义有什么区别?
5.线性相关分析中绘制散点图的目的是什么?能否用散点图来代替相关系数?。
一章1. 解:回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。
回归分析按照涉及的变量的多少,分为一元回归和多元回归分析;在线性回归中,按照因变量的多少,可分为简单回归分析和多重回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。
如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。
如果回归分析中包括两个或两个以上的自变量,且自变量之间存在线性相关,则称为多元线性回归分析。
相关分析,相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。
相关分析和回归分析是研究客观现象之间数量联系的重要统计方法。
既可以从描述统计的角度,也可以从推断统计的角度来说明。
所谓相关分析,就是用一个指标来表明现象间相互依存关系的密切程度。
所谓回归分析,就是根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量间的平均变化关系。
它们具有共同的研究对象,在具体应用时,相关分析需要依靠回归分析来表明现象数量相关的具体形式,而回归分析则需要依靠相关分析来表明现象数量变化的相关程度。
只有当变量之间存在着高度相关时,进行回归分析寻求其相关的具体形式才有意义。
由于相关分析不能指出变量间相互关系的具体形式,所以回归分析要对具有相关关系的变量之间的数量联系进行测定,从而为估算和预测提供了一个重要的方法。
在有关管理问题的定量分析中,推断统计加具有更加广泛的应用价值。
需要指出的是,相关分析和回归分析只是定量分析的手段。
通过相关与回归分析,虽然可以从数量上反映现象之间的联系形式及其密切程度,但是现象内在联系的判断和因果关系的确定,必须以有关学科的理论为指导,结合专业知识和实际经验进行分析研究,才能正确解决。
因此,在应用时要把定性分析和定量分析结合起来,在定性分析的基础上开展定量分析。
第十章 两变量关联性分析[教学要求]了解:利用散点图分析样本相关系数可能出现的各种假象,并作出合理解释。
熟悉:对不同类型的变量,用不同的统计方法去分析它们之间的关系。
掌握:利用散点图确定两个定量变量之间有否线性关系;能把握利用Pearson 积差相关、Spearman 等级相关的应用条件并能计算相应的相关系数,同时进行假设检验;对分类计数频数表资料的两变量间的关联性作定量分析。
[重点难点]第一节 线性相关对服从正态分布的两变量随机样本,可通过绘制散点图,观察发现有线性趋势之后,进而计算Pearson 积差相关系数;∑∑∑===−−−−==n i n i n i yy xx xyy y x x y y x x l l l r 11221)()())(( 对积差相关系数r 的假设检验可用查表法或t 检验。
这里要注意的是不可用相关系数检验所得P 值的大小来判断有否线性关系。
一定要先绘制散点图,看出两变量间有线性趋势时,再计算积差相关系数,这应该视为一种规范的做法。
第二节 秩相关对不满足正态分布的两变量随机样本,可采用Spearman 秩相关来分析。
这里的不满足正态分布包括非正态变量,也包括总体分布规律未知的变量;不满足正态分布的可以是双变量中的一个,也可以是两个。
教材中的例10-5是研究2~7岁急性白血病患儿的血小板数与出血症状程度之间的相关性,其中,血小板数是定量资料,是否正态暂且不论,而出血症状是一个等级资料,因而这一对变量不满足Pearson 积差相关的应用条件,只能采用秩相关性系数作相关的量化分析。
Spearman秩相关系数或等级相关系数的计算公式同Pearson积差相关系数的计算公式形式上一样,但在计算秩相关性时不再用原来的数据,而是对两变量分别排序编秩,以各数据对应的秩次代入Pearson积差相关系数的计算公式中去计算;秩相关系数用表示,对其检验也是用查表法或t 检验。
若以表示X s r i p i 秩次;表示Y i q i 的秩次,d i =-表示成对秩次的差值,则Spearman秩相关系数的计算也可采用下式:i p i q )1(6112−−=∑=n n d r ni i s显然Pearson 积差相关与Spearman 秩相关之间有联系也有区别。