第十一章双变量统计分析
- 格式:doc
- 大小:85.00 KB
- 文档页数:7
资料的统计分析——双变量及多变量分析双变量及多变量分析是指在统计分析中,同时考察两个或多个变量之间的关系。
通过对多个变量进行综合分析,可以更全面地了解变量之间的相互作用和影响。
双变量分析是指考察两个变量之间的关系,常用的方法包括相关分析和回归分析。
相关分析是用来评价两个变量之间的线性关系的强度和方向。
常用的相关系数有皮尔逊相关系数和斯皮尔曼相关系数。
皮尔逊相关系数适用于两个变量都为连续型变量的情况,而斯皮尔曼相关系数适用于至少一个变量为有序分类变量或者两个变量都为有序分类变量的情况。
回归分析是用来探究一个变量(因变量)与一个或多个变量(自变量)之间的关系的强度和方向。
常用的回归分析方法有简单线性回归分析和多元线性回归分析。
简单线性回归分析是用来研究一个自变量与一个因变量之间的线性关系的情况,而多元线性回归分析则可以同时研究多个自变量与一个因变量之间的关系。
在进行双变量分析之前,需要先进行数据的描述性分析。
描述性分析是对数据的基本特征进行总结和描述,包括样本数量、均值、方差、最小值、最大值等。
多变量分析是指同时考虑多个变量之间的关系。
常用的方法包括多元方差分析、聚类分析和因子分析。
多元方差分析是用来比较多个因素对于一个或多个因变量的影响的强度和方向。
聚类分析是用来将样本按照其中一种相似度划分为不同的群组,从而研究变量之间的内部关系。
因子分析是用来探究多个变量之间的潜在结构,从而找出变量之间的共性和差异。
除了以上方法,还可以采用交叉表分析、卡方检验和回归分析等方法来研究多个变量之间的关系。
在进行双变量及多变量分析时,需要注意以下几个问题:首先,需要选择合适的统计方法,根据变量的类型和变量之间的关系特点来选择合适的分析方法。
其次,需要注意变量之间的相关性,避免多重共线性的问题。
此外,还需要注意样本的选择和样本量的大小,以及结果的解释和推断的注意事项。
总之,双变量及多变量分析是一种重要的统计方法,可以帮助我们更全面地了解变量之间的相互作用和影响。
《卫生统计学》思考题参考答案第一章绪论1、统计资料可以分为那几种类型?举例说明不同类型资料之间是如何转换的?答:(1)1定量资料(离散型变量、连续型变量)、2无序分类资料(二项分类资料、无序多项分类资料)、3有序分类资料(即等级资料);(2)例如人的健康状况可分为“非常好、较好、一般、差、非常差”5个等级,应归为等级资料,若将该五个等级赋值为5、4、3、2、1,就可按定量资料处理。
2、统计工作可分为那几个步骤?答:设计、收集资料、整理资料、分析资料四个步骤。
3、举例说明小概率事件的含义。
答:某人打靶100次,中靶次数少于等于5,那么该人一次打中靶的概率≤0.05,即可称该人一次打中靶的事件为小概率事件,可以视为很可能不发生。
第二章调查研究设计1、调查研究有何特点?答:(1)不能人为施加干预措施(2)不能随机分组(3)很难控制干扰因素(4)一般不能下因果结论2、四种常用的抽样方法各有什么特点?答:(1)单纯随机抽样:优点是操作简单,统计量的计算较简便;缺点是当总体观察单位数量庞大时,逐一编号繁复,有时难以做到。
(2)系统抽样:优点是易于理解、操作简便,被抽到的观察单位在总体中分布均匀,抽样误差较单纯随机抽样小;缺点是在某些情况下会出现偏性或周期性变化。
(3)分层抽样:优点是抽样误差小,各层可以独立进行统计分析,适合大规模统计;缺点是事先要进行分层,操作麻烦。
(4)整群抽样:优点是易于组织和操作大规模抽样调查;缺点是抽样误差大。
3、调查设计包括那些基本内容?答:(1)明确调查目的和指标(2)确定调查对象和观察单位(3)选择调查方法和技术(4)估计样本大小(5)编制调查表(6)评价问卷的信度和效度(7)制定资料的收集计划(8)指定资料的整理与分析计划(9)制定调查的组织措施4、调查表中包含那几种项目?答:(1)分析项目直接整理计算的必须的内容;(2)备查项目保证分析项目填写得完整和准确的内容;(3)其他项目大型调查表的前言和表底附注。
单变量统计与双变量统计方法研究统计学是一门研究数据收集、整理、分析和解释的学科。
在统计学中,单变量统计和双变量统计是两个重要的研究方法。
本文将探讨这两种方法的定义、应用和优势。
首先,我们来了解一下单变量统计。
单变量统计是指对一个变量进行分析和描述的方法。
它主要关注一个变量的特征和分布情况,比如平均数、中位数、众数、方差等。
单变量统计方法可以帮助我们了解一个变量的集中趋势、离散程度和分布形状。
例如,我们可以通过计算一个班级学生的平均分来了解他们的整体学习水平。
单变量统计方法在各个领域都有广泛的应用,如医学、经济学、社会学等。
它可以帮助我们总结和概括大量数据,提取有用的信息。
接下来,我们来讨论一下双变量统计方法。
双变量统计是指对两个变量之间的关系进行研究的方法。
它可以帮助我们了解两个变量之间是否存在相关性或者差异。
双变量统计方法主要包括相关分析和差异分析。
相关分析可以帮助我们确定两个变量之间的相关程度,常用的方法有皮尔逊相关系数和斯皮尔曼相关系数。
差异分析可以帮助我们比较两个或多个组别之间的差异,常用的方法有t检验和方差分析。
双变量统计方法在实际应用中非常重要,例如,我们可以通过相关分析来研究吸烟与肺癌之间的关系,通过差异分析来比较男性和女性在某个特定指标上的差异。
单变量统计和双变量统计方法在研究中有各自的优势。
单变量统计方法简单直观,可以对一个变量的特征进行全面的描述和分析。
它适用于对一个变量的研究,能够提供详细的统计指标和图表,帮助我们了解数据的分布情况。
双变量统计方法可以帮助我们研究两个变量之间的关系,揭示变量之间的相互作用和影响。
它适用于比较和分析两个或多个组别之间的差异,帮助我们发现变量之间的联系和规律。
单变量统计和双变量统计方法在实际应用中常常结合使用,以获得更全面和准确的研究结果。
总结起来,单变量统计和双变量统计是两种重要的统计方法。
单变量统计主要关注一个变量的特征和分布情况,可以帮助我们了解一个变量的集中趋势和离散程度。
第十一章双变量统计分析在社会学研究中,不但要了解一个变量的情况,更要进一步了解一个变量与另一个变量之间的关系。
在这一讲中我们介绍几种双变量的统计分析方法。
一、交互分类表交互分类表又称列联表,是指同时依据两个变量的值,将所研究的个案分类。
交互分类的目的是将两变量分组,然后比较各组的分布状况,以寻找变量间的关系。
1、条件次数表:表10-1是交互分类表的一个例子:表10-1 500名工人的文化水平与工资收入交互分类表(人)(1)表中的次数分布是同时根据文化水平和工资收入而定,如大专以上高收入的有26人。
从表中可以清楚地知道每种文化水平的工资收入的次数分布,因此这样的表又称为条件次数表。
在表的最下一行和最右一列分别是不同文化水平和不同收入的总次数,称为边缘次数,它们的分布情况称为边缘分布;表中的其它次数,称为条件次数,每一条件下的分布称为条件分布。
(2)条件次数表有大小之分,计算的方法,通常是将因变量的数目乘上自变量的数目。
如果我们将因变量放在表的旁边,将自变量放于表的上端,则表的大小就是横行数目(rows简写r)乘上纵行数目(columns简写c),即表的大小=r ×c。
这个先后次序的用意是表示前者(因变量)是受后者(自变量)影响的。
要注意的是,3×2表不同于2×3表,因为前后两个数值代表不同的变量,包含不同类别数。
2、条件百分表:条件次数表中的数字是绝对数字,由于各个类别的基数不同,相互之间无法进行比较,因而不能看出两变量之间的关系。
为克服条件次数表的这一缺点,使各个类别之间可以比较,应将表中的绝对数字转变成相对数字——百分数,这样制成的表称为条件百分表。
如上表可改成百分表为:表10-2 500名工人文化水平与工资收入的交互百分表(%)在计算条件百分表时,最好能依据下列准则:(1)每个表的顶端要有表号和标题。
加上表号,可以方便讨论和减少混乱。
简明标题,能使读者容易领会表内统计数值的意义。
(2)绘表时所用的线条,要尽可能简短。
舍去不必要的线条,可以节省绘制的功夫,也会令人对表中的数值一目了然。
(3)在表上层的自变量每个值之下的%号,表示下列的数值是百分率。
如果表内每个数值都附有%符号,就太繁复了。
(4)计算百分比表通常是按照自变量的方向,因为研究的目的是要了解自变量对因变量的影响,理应计算在不同的自变量情况下,因变量的变化如何。
如上表是要分析教育水平对工资收入的影响,各个百分率所表示的,是在不同的教育水平中的工资收入情况。
如果教育水平不同,工资收入也不同,就表示教育对工资是有影响的了。
(5)表下层括弧内的数值,表示在计算百分率时所依据的个案总数。
写出这些数值,可以使我们知道各列百分率的基础,同时也使我们可以随时将百分率数值变回原来的次数值。
(6)表内百分率数值的小数位要保留多少,视乎研究的需要,但最好是有一致性。
例如上表既然用6.5与73.5,就要用20.0而不是20,这个小数点后的0是有意义的,它表示全部百分率的计算都是以保留一位小数作准则。
二、相关分析(一)统计相关的性质1、所谓相关,是指一个变量的值与另一个变量的值有连带性。
也就是一个变量的值发生变化,另一个变量的值也发生变化,则两个变量就是相关的了。
2、两个变量之间的相关程度有强弱之分,可用统计法予以测量。
大多数统计0代表无相关,1代表完全相关,介于0和1之间的数值越大,表示相关程度越强。
3、另一种值得注意的性质是相关方向,也可用统计法予以测量。
变量之间的关系可以分为正与负两个方向。
所谓正相关表示当一个变量的值增大时,另一个变量的值也增大;所谓负相关则表示当一个变量的值增加时,另一个变量的值却减少。
这里要注意,相关方向的分析只限于定序以上层次的变量,因为这些变量的值有高低或多少之分。
至于定类变量,则没有相关方向的问题。
4、虽然相关系数可以描述变量间关系的有无、大小和方向,但相关系数多大时才能断定两个变量有必然的、规律性的联系,是很难说的,在统计学中需要大于0.7以上,但社会现象间很少有这样密切的联系,所以研究人员一般要结合定性分析来断定事物内在的、本质的联系。
5、数据所显示的相关(或无关)关系,实际上也可能并不反映变量间存在(或不存在)有意义的关系。
(二)相关测量法1、相关测量法就是以一个统计值表示变量与变量间的关系,这个统计值称为相关系数。
相关测量法有很多种,我们在选择时首先要注意变量的测量层次,不同层次的变量要用不同的相关测量法。
其次,要注意两个变量之间的关系是否对称。
对称关系是指两个变量X与Y,我们不确定或不区分两变量之间影响的方向。
反之,如果我们认为X影响Y,而Y不会影响X,这种情况称为不对称关系。
有些相关测量法假定变量之间具有对程关系,有些则假定是不对称关系。
另一项选择标准,就是统计值的意义。
有些相关测量法所计算出来的统计值除相关程度外,还含有其它意义,我们最好选择统计值有意义的相关测量法。
在统计学中有一组相关测量法,其统计值具有消减误差比例的意义,称为PRE测量法。
这组测量法常用在社会学研究中。
2、消减误差比例社会学研究的主要目标是预测或解释社会现象的变化。
比如有一种社会现象是Y(例如工资收入),我们就要预测或理解其变化的情况。
预测或解释时,难免会有误差(即错误)。
假定另一种社会现象X(例如文化水平)是与Y有关系的,如果我们根据X的值来预测Y的值(例如根据文化来估计其工资水平),理应可以减少若干误差。
而且,X与Y的关系愈强,所能减少的预测误差就会愈多。
换言之,所消减的误差有多少,可以反映X与Y的相关强弱程度。
现在假定不知道X的值,我们在预测Y值时所产生的全部误差是E1。
如果知道X的值,我们可以根据X的每个值来预测Y值;假定误差的总数是E2,则以X值来预测Y值时所减少的误差就是:E1—E2。
这个数值(E1—E2)与原来全部误差(E1)相比,就是消减误差比例。
可用下面的公式表示:PRE=121 E EEPRE的数值越大,就表示以X值预测Y值时能够减少的误差所占的比例愈大;也就是说,X与Y的关系愈强。
消减误差比例适用于各种测量层次的变量,但公式中的E1 与E2的具体定义在不同层次的变量间,或同一层次的变量内部有所不同。
3、相关测量法测量不同层次的变量有不同形式的相关系数。
下面介绍几种相关系数:(1)、λ相关:用于测量两个定类变量间的相关关系。
λ相关测量法的基本逻辑是计算以一个定类变量的值来预测另一个定类变量的值时,如果以众数作为预测的准则,可以减除多少误差。
消减的误差在全部误差中所占的比例愈大,就表示这两个变量的关系愈强。
λ相关测量法有两种形式:一种是对称形式,用λ表示,即用于测量的两个变量间的关系是对等的,没有自变量与因变量之分;另一种是非对等的,用λy 表示,即所测量的两个变量有自变量与因变量之分,X 是自变量,Y 是因变量。
公式如下:(公式写错了)λ=)(2)(y x y x y x M M n M M m m --+-+∑∑ λy =y yy M n M m --∑其中,My=Y 变量的众数次数Mx=X 变量的众数次数my=X 变量的每个值(类别)之下Y 变量的众数次数mx=Y 变量的每个值(类别)之下X 变量的众数次数n 全部个案数目例1:根据下表(表10-3)的资料计算λ系数表10-3性别与吸烟态度的交互分类(人)根据λy 系数公式有λy =y yy M n M m --∑=114200114)6296(--+=0.51 因此,我们可以说,性别与对吸烟态度之间存在中等程度的相关。
例2:研究青年人的志愿与他们的知心朋友的志愿是否相关,得到下表的统计资料。
试计算λ系数。
表4 青年人与其知心朋友的志愿由于青年人的志愿与他们的知心朋友的志愿可能是相互影响的,难于区分何者是自变量或因变量,故用λ相关测量法的对称形式。
根据λ系数公式有:λ=)(2)(y x y x y x M M n M M m m --+-+∑∑=2、G 相关:用于测量两个定序变量间的关系,用G 来表示。
G 系数值在-1至+1之间,既表示相关的程度,也表示相关的方向,而且也都有消减误差比例的意义。
G 相关测量法的基本逻辑是:根据任何两个个案在某变量上的等级来预测他们在另一个变量上的等级时,可以减少的误差是多少。
换言之,G 相关测量法是以每对个案之间的相对等级作为预测的准则。
G 系数的计算公式是:G=ds d s N N N N +- 式中Ns 表示同序对数目,Nd 表示异序对数目。
所谓同序对是指某对个案在两个变量上的相对等级相同,如果不相同,则称为异序对。
下面举例说明Ns 和Nd 的计算方法。
例2:根据下表(10-4)的资料计算G 系数表10- 文化程度与收入的交互分类表表中计算同序对数量等于表内每个频数乘以其右下方全部频数之和,然后加总,而异序对数量则等于表内每个频数乘以其左下方全部频数之和,然后加总。
因而上例中:Ns=12(30+5+16+12)+10(5+12)+8(16+12)+30(12)=1510 Nd=3(30+8+16+4)+10(8+4)+5(4+16)+30(4)=514 G==d s d s N N N N +-=51415105141510+-=0.49 说明用文化程度去预测收入水平,可以消减49%的误差。