双变量关联性分析(研)
- 格式:pps
- 大小:633.00 KB
- 文档页数:40
第十三章双变量关联性分析【思考与习题】一、思考题1.两变量间的关联性是否可解释为因果关系2.2⨯2列联表的关联性分析与两样本率比较的2χ检验有何不同3.相关系数r经假设检验有统计学意义,且得到的P值很小,是否表示两变量间一定有很强的直线关系4.简述Pearson积矩相关与Spearman秩相关的区别与联系。
二、案例辨析题为研究年龄与牙齿AKP酶反应活性之间的关系,某医生在其接诊的患者中随机抽取281例,按年龄(岁)分为三组进行观测,测量各患者牙齿的AKP酶反应活性,如表13-1所示。
问年龄与牙齿AKP酶反应活性之间有无关系表13-1 281例患者年龄与牙齿AKP酶反应活性的分布年龄AKP酶反应活性合计—+++<31517365831~234549051~249712133合计31148102 281按照R×C表的2χ检验结果,得2χ=,005.0<P,故按α=水准,拒绝H,可认为不同年龄患者的AKP酶反应活性不同,两者之间有关系。
以上分析正确吗三、最佳选择题1.Pearson积矩相关系数的假设检验,其自由度为A.1-nB.2-nC .12-nD .)1(2-nE .n2.积矩相关系数的计算公式是 A .xy xy yyl r l l =B.r =C.l r =D.l r =E.r =3. 直线相关分析中,若0.05,||r r ν>,则可认为两变量之间 A. 有一定关系B. 不存在直线相关关系C. 有直线相关关系D. 有直线相关关系,且为正相关E. 有直线相关关系,且为负相关 4.下列指标中可正可负的是 A .F 统计量 B .2χ统计量 C .21()nxx i l x x ==-∑D .1()()nxy i l x x y y ==--∑E .21()nyy i l y y ==-∑5.研究18岁女大学生体重和肺活量的关系时,表达正确的无效假设是 A .体重与肺活量无关联 B .体重与肺活量有关联 C .体重与肺活量有直线关系 D .体重与肺活量有因果关系 E .体重与肺活量无因果关系 6.计算Pearson 列联系数的公式为 A.l r =B .nr +=22χχC .22χχnr +=D .12-=n r χE .nr +=22χχ7.某放射科医师收集脑外伤患者30例,观察脑出血直径和病人昏迷的程度(轻度、中度、重度),欲分析昏迷程度是否与病灶大小有关,可进行 A .Pearson 相关分析 B .Spearman 秩相关分析 C .两小样本比较的t 检验 D .方差分析 E .2χ检验8.对两个分类变量的频数表资料作关联性分析,可用 A .积矩相关或等级相关B .积矩相关或列联系数C .列联系数或等级相关D .积矩相关E .等级相关9.两组数据分别进行直线相关分析,对1r 进行假设检验得到P <,对2r 进行假设检验,得到P <,可以认为A .第一组的两个变量关系比第二组密切B .第二组的两个变量关系比第一组密切C .更有理由认为第一组的两个变量之间有直线关系D .更有理由认为第二组的两个变量之间有直线关系E .两组变量关系同样密切四、综合分析题1.为研究某病成年男性患者血浆清蛋白含量与血红蛋白含量的关系,某医生测得10名患者血浆清蛋白含量(g/L)及血红蛋白含量(g/L)见表13-2所示,试分析二者是否有关联。
双变量相关性分析方法
双变量相关性分析方法是一种通过检验两个变量之间的相关性,来研究它们之间是否存在某种关联关系的统计方法。
它可以帮助我们了解两个变量之间的关系密切程度,从而对变量进行评估和预测。
双变量相关性分析的常用方法有:
1. 相关系数:相关系数是衡量变量之间关系强弱的指标,它是一个介于-1到+1之间的数字,当相关系数等于0时表明两个变量之间没有任何相关性,当相关系数大于0时表明两个变量之间存在正相关,当相关系数小于0时表明两个变量之间存在负相关。
2. 回归分析:回归分析是一种用来预测一个变量随另一变量变化情况的方法,它可以用来研究变量之间的关系及影响程度。
3. 卡方检验:卡方检验是一种用来检验两个变量之间关系的方法,它可以用来比较不同变量之间的关联情况,从而得出两个变量之间的相关度。
4. t检验:t检验是一种用来检验某一组数据是否服从正态分布的方法,它可以用来比较两组数据之间的差异情况,从而得出它们之间的相关性。
第十二章广东医学院公共卫生学院统计与流行病学教研室黄志刚•前面描述性统计及假设检验只涉及到一个变量,如体重、红细胞数、血压下降值等,着重于描述某一变量的统计特征或比较该变量的组间差别。
•在大量的医学问题研究中常常还要分析两个随机变量之间的关系,如体重与肺活量、年龄与血压之间是否存在线性联系,此联系是正向还是负向以及联系的程度如何?•如果两个连续型变量X和Y 都随机变动且不分主次,可通过线性相关(linear correlation)分析来估计它们之间可能存在的线性联系的方向与程度。
•两个随机变量X 和Y ,可以是对同一观察单位同时测量X 与Y 的数值,也可以是测量成对观察单位的同一变量或不同变量的数值,而产生一对观察值。
•为讨论父子身高间的线性相关程度,南方某地在应届中学毕业生花名册中随机抽取20 名男生,分别测量他们和他们的父亲的身高(cm),得样本资料如下表所示:•考察相关性最简单而直观的办法是散点图(scatter plot)•以两条互相垂直的座标轴分别表示两个变量,n 对观察值对应于座标平面的n 个点,便构成一幅散点图。
散点图第一节直线相关一、概述概念又称简单相关或Pearson相关分析,用于研究具有直线关系的两个变量间相关关系的密切程度与相关方向的一种统计分析方法应用条件要求两个变量均服从正态分布(双变量正态分布)相关系数的意义及计算又称积差相关系数或Pearson相关系数,说明具有直线关系的两个变量间相关关系的密切程度与相关方向的指标r表示样本相关系数,ρ表示总体相关系数•没有单位,取值介于-1与1之间•相关方向用正负号表示•相关的密切程度用绝对值表示()()()()22xyxx yyl x x y y r l l x x y y --==--∑∑∑•-1 ≤ r ≤1r 值为正——正相关为负——负相关|r|=1 ---完全相关r=0 ---零相关相关关系密切程度的判断低度相关中度相关高度相关4.0≤r 7.04.0<<r 7.0≥r相关关系图示变量相关关系的类型•【例12-1】2000年测得某地16名7岁男孩体重与胸围资料,见表12-1。
表12-1 2000年某地16名7岁男孩体重与胸围资料编号12345678 910111213141516体重(kg)24.527.023.528.523.026.726.824.624.819.719.517.220.019.020.221.0胸围(cm)61.062.060.064.059.358.458.658.758.556.055.654.553.052.058.057.0散点图计算例12-1中体重与胸围间相关系数●计算基础数据,并列成相关系数计算表●求出、、、、(见表12-2)●代入公式,求出相关系数值∑x ∑y ∑2x ∑2y ∑xy r表12-2 2000年某地16名7岁男孩体重与胸围相关系数计算表编号(1)x体重(kg)(2)y胸围(cm)(3)x2(4)=(2)2y2(5)=(3)2xy(6)=(2)×(3)124.561.0600.253721.001494.50 227.062.0725.003844.001674.00 323.560.0552.253600.001410.00 428.564.0812.254096.001824.00………………1520.258.0408.043364.001171.60 1621.057.0441.003249.001197.00合计366.0926.68548.3053813.5621332.38∑x∑y∑2x∑2y∑xy•x 的离均差平方和•y 的离均差平方和•x 与y 间的离均差积和()()222yy y l y y yn=-=-∑∑∑()()222xx x l x x xn=-=-∑∑∑()()()()xy x y l x x y y xy n=--=-∑∑∑∑22366926.621332.38160.8343366926.68548.3053813.561616r ⨯-==⎛⎫⎛⎫-- ⎪⎪⎝⎭⎝⎭()()()()22xy xx yyl x x y y r l l x x y y --==--∑∑∑r ≠0原因:①由于抽样误差引起,ρ=0②存在相关关系,ρ≠0t 检验查表法,按v=n-2查r 界值表,做出推断结论二、相关系数的假设检验0r rr t S -=•查表法–根据自由度 =n-2,查附表14,将所得r 值与某概率水平(如0.05)对应的r界值相比较,若r值小于r 界值,则P大于相应的概率水平,反之,P小于相应的概率水平,然后作出推断•t 检验方法2-=n ν0r rr t S -=212--=n r S r【检验步骤】1. 建立检验假设,确定检验水准0:0Hρ=1:0Hρ≠05.0=α2.计算检验统计量值r t 6623.52168343.018343.021022=--=---=n r r t r3.确定P值,做出统计推断•按自由度ν=n-2=16-2=14 ,查附表4,得P<0.001,按α= 0.05水准,拒绝H0,接受H1,差异有统计学意义,可认为2000年该地7岁男孩体重与胸围之间有相关关系总体相关系数ρ的区间估计*必须先对r 作z 变换 r z 1tanh-= 或 )1()1(ln21r r z -+=公式中tanh 为双曲(hyperbolic)正切函数;tanh -1为反双曲正切函数,r 的取值范围 -1<r <1,相应的z 值范围 -∞< z < +∞。
按正态近似原理,z 的1-α可信区间为:/2/2(3,3)z u n z u n αα--+-然后z r tanh = 或 1122+-=z ze e r ,将z 可信区间变换回到r 尺度。
决定系数的意义•决定系数即相关系数r 的平方r2–它反映应变量y 的总变异中可用回归关系解释的比例–反映回归直线的拟合程度,即回归方程估计可靠程度的高低。
取值范围在[ 0 , 1 ] 之间r 2 1,说明回归方程拟合的越好r 2 0,说明回归方程拟合的越差总回SS SS l l l l l lr yyxx xyyyxx xy===/222相关分析应用中应注意的问题一、散点图的重要性010********60020406080住院天数X预后指数Y二、变量取值非随机时莫作相关•某些医学问题研究中,一个变量随机变动,另一个变量的数值却是人为选定的。
–研究药物的剂量反应关系,人们选定n 种剂量,观察每种剂量下动物的反应;–摸索化学反应的适宜条件,人们选定几种温度,观察各温度下生成物的数量。
三、对相关的解释•相关分析中对变量的选择及统计结果的解释一定要结合专业背景,切不可把任意两个变量拉在一起盲目下结论。
•例如,某人喜得贵子,庭前种一小树,每月测子高与树高,计算发现子高与树高间的相关有统计意义(r=0.89),难道两者真有内在联系?•时间变量与两者的潜在联系造成了子高与树高相关的假象。
•即使专业上有理由作相关,两变量的地位也是平等的,所揭示的可能仅仅是一种统计学上的关联性,不一定是因果联系。
偶然联系:树高---身高(专业常识判断)伴随联系:兄弟身高因果联系:父子身高四、慎重合并分层资料第二节等级相关(秩相关,Spearman相关)一、适用条件不服从双变量正态分布而不宜作积差相关分析(Pearson相关)总体分布型未知开口型或半开口型的资料原始数据是用等级表示二、方法步骤•编秩、求秩次的差值d •计算等级相关系数:d 每对观察值x i ,y i 所对应的秩次之差 n 为对子数r s 样本秩相关系数)1(6122--=∑n n dr s表12-3 肝癌死亡率与黄曲霉毒素相对含量黄曲霉毒素相对含量肝癌死亡率(1/10万)d2d 乡编号(1) x(2)秩次(3)y(4)秩次(5) (6)=(3)-(5) (7)=(6)21 0.7 1 21.5 32 42 1.0 2 18.9 2 0 03 1.7 3 14.4 1 2 44 3.7 4 46.5 7 -3 95 4.0 5 27.3 4 1 16 5.1 6 64.6 9 -3 97 5.5 7 46.3 6 1 18 5.7 8 34.2 5 3 99 5.9 9 77.6 10 1 110 10.0 10 55.1 8 2 4 合计-----42746.0)110(1042612=-⨯⨯-=s r )1(6122--=∑n n dr ssr ()()()()32'33/6/62/62x y s x yn n T T d r n n T n n T --+-=----∑()∑-=12/3t t T T y x 或当x 或y 中相同秩次较多时,宜对进行校正:t 为x 或y 中相同秩次的个数是总体等级相关系数的估计值当时,可查界值表(p350)作出判断s r s ρ50≤n 1s z r n =-存在着抽样误差,故计算出后,需作是否为0的假设检验:当n >50时,可用正态近似法进行检验检验统计量z 的计算公式为:s ρs r s r补充例题407.0)112(125.40261)1(615.402122222=-⨯-=--===∑∑n n d r d n s相同秩次较多时r s 的校正当X 及Y 中,相同秩次均较多( 均超过n ×25%)时,用下式进行校正:式中,T x (或T Y )=Σ(t 3-t )/12;t :X (或Y )中相同秩次的个数()()()()32'33/6/62/62x y s x yn n T T d r n n T n n T --+-=----∑计算分析过程H 0:ρs =0,即血小板数与出血症状无相关关系H 1:ρs ≠0,即血小板数与出血症状有相关关系α=0.05分别依实测值X i ,Y i 从小到大编秩求每对数据秩次之差d因出血症状Y 中,相同秩次较多,需计算校正r`s 值T X =0T Y =Σ(t 3-t)/12=[(63-6)+(23-2)+( 23-2)]/12=18.5计算校正相关系数:依n=12,查r s 界值表,得0.10>P >0.05,按α=0.05 水准,不拒绝H 0,尚不能认为血小板数与出血症状有相关关系。
[][][]()[]()()[]()[]5095.05.1826/121206/12125.4025.1806/121226)(26)()(6)(3333323'=⨯-----+--=-----+--=∑Y X Y X s T n n T n n d T T n n r第三节列联表的关联性分析•【例12-4】某研究者欲研究幽门螺杆菌感染(HP)与家庭成员胃病史的关联性,随机抽取599例慢性胃炎或胃溃疡的患者,分成家庭成员有胃病史组和家庭成员无胃病史组,结果家庭成员有胃病史组182例,HP阳性125例;家庭成员无胃病史组417例,HP阳性198例。