第十一章双变量统计分析
- 格式:doc
- 大小:85.00 KB
- 文档页数:7
有用的统计学Statistics第3讲描述分析中央财经大学统计与数学学院学习目标:•单个变量时,用哪些统计表和统计图•两个变量时,用哪些统计表和统计图3.4用统计表和统计图做描述分析:双变量1.两个定性变量:(1)使用列联表–依据两个定性变量的取值交互情况,分别统计每种取值实际被观测到的频次表2六个城区不同楼层的二手房数量楼层低楼层中楼层高楼层城区东城丰台朝阳海淀石景山西城444546512129 443749413960 4965465337471.两个定性变量:(2)使用堆积柱形图–可以对比各个城区中不同楼层的二手房数量分布情况图1六个城区不同楼层二手房数量的堆积柱形图1.两个定性变量:(3)表示比例的堆积柱形图–横轴上的6根柱子高度是一致的,每根柱子内部的色块高度表示对应城区中不同楼层二手房所占的比例图2六个城区不同楼层二手房比例的堆积柱形图2.两个定量变量:使用散点图–将定量变量的观测值绘制在二维平面上–判断定量变量之间的相关关系:✓相关方向:正相关、负相关;✓相关形态:线性相关、非线形相关;✓相关关系的密切程度:强相关,弱相关,基本不相关图3面积与房价的散点图3.一个定量变量+一个定性变量:使用分组箱线图图4不同城区房价的分组箱线图–对定性变量的每个取值,单独绘制对应的定量变量数据的箱线图,把所有的箱线图放在一起做横向比较。
–如图4所示,可以在一个图内同时观察到:不同城区的房价在集中趋势、离散程度上是否有差异,不同城区是否都存在极端房价的情况小结描述两个变量时,按照它们的组合情况来选择恰当的统计表和统计图:•对于两个定性变量,可以绘制列联表、堆积柱形图来展示两个变量的观测值分布情况•对于两个定量变量,可以绘制散点图,帮助判断两个变量的相关方向、相关形态、相关关系的紧密程度。
•对于一个定性变量、一个定量变量的情况,可以绘制分组箱线图本章总结•描述统计可以帮助我们快速地从数据中提取有用信息。
卫生统计学习题第二章定量资料的统计描述1. 1985年某省农村30例6-7岁正常男童胸围(cm)测量结果如下:51.6 54.1 54.0 56.9 57.7 55.558.3 55.4 53.8 57.7 51.3 53.8 57.3 54.8 52.1 55.3 54.8 54.7 53.4 57.1 53.1 55.9 51.4 54.6 56.1 61.859.3 56.8 59.8 53.9(1)试编制以上数据的频数表,绘制直方图,概括其分布特征。
(2)用合适的统计量描述其集中趋势和离散趋势。
(3)对样本进行正态性检验第三章定性资料的统计描述1.某地通过卫生服务的基线调查得到如下资料,试作如下分析:(1)计算全人口的性别比;(2)计算育龄妇女(15~49岁)占总人口的百分比;(3)计算总负担系数;(4)计算老年人口系数某地人口构成情况年龄组(岁)男(%)女(%)年龄组(岁)男(%)女(%)0~ 4.2 4.0 45~ 2.4 2.75~ 3.2 3.1 50~ 2.1 2.410~ 4.4 4.2 55~ 1.2 2.215~ 5.5 5.3 60~ 1.3 2.420~ 5.1 5.2 65~ 1.1 1.425~ 6.0 6.1 70~ 0.8 1.230~ 4.3 4.5 75~ 0.5 0.935~ 3.2 3.3 80~ 0.2 0.540~ 2.3 2.5 85~ 0.1 0.2第四章常用概率分布1.假定虚症患者中,气虚型占30%。
现随机抽查30名虚症患者,求其中没有1名气虚型的概率、有4名气虚型的概率。
2.某溶液平均1毫升中含有大肠杆菌3个。
摇均后,随机抽取1毫升该溶液,内含大肠杆菌2个和低于2个的概率各是多少?3.某人群中12岁男童身高的分布近似正态分布,均数为144.00cm,标准差为5.77cm,试估计(1)该人群中12岁男童身高集中在哪个范围?(2)求人群中12岁男童身高的95%和99%参考值范围;(3)求人群中12岁男童身高低于140cm的概率;(4)求人群中12岁男童身高超过160cm的概率;第五章参数估计基础1.某研究表明新研制的一种安眠药比旧安眠药增加睡眠时间。
第十一章双变量统计分析在社会学研究中,不但要了解一个变量的情况,更要进一步了解一个变量与另一个变量之间的关系。
在这一讲中我们介绍几种双变量的统计分析方法。
一、交互分类表交互分类表又称列联表,是指同时依据两个变量的值,将所研究的个案分类。
交互分类的目的是将两变量分组,然后比较各组的分布状况,以寻找变量间的关系。
1、条件次数表:表10-1是交互分类表的一个例子:表10-1 500名工人的文化水平与工资收入交互分类表〔人〕〔1〕表中的次数分布是同时根据文化水平和工资收入而定,如大专以上高收入的有26人。
从表中可以清楚地知道每种文化水平的工资收入的次数分布,因此这样的表又称为条件次数表。
在表的最下一行和最右一列分别是不同文化水平和不同收入的总次数,称为边缘次数,它们的分布情况称为边缘分布;表中的其它次数,称为条件次数,每一条件下的分布称为条件分布。
(2)条件次数表有大小之分,计算的方法,通常是将因变量的数目乘上自变量的数目。
如果我们将因变量放在表的旁边,将自变量放于表的上端,则表的大小就是横行数目〔rows简写r〕乘上纵行数目〔columns简写c〕,即表的大小=r ×c。
这个先后次序的用意是表示前者〔因变量〕是受后者〔自变量〕影响的。
要注意的是,3×2表不同于2×3表,因为前后两个数值代表不同的变量,包含不同类别数。
2、条件百分表:条件次数表中的数字是绝对数字,由于各个类别的基数不同,相互之间无法进行比较,因而不能看出两变量之间的关系。
为克服条件次数表的这一缺点,使各个类别之间可以比较,应将表中的绝对数字转变成相对数字——百分数,这样制成的表称为条件百分表。
如上表可改成百分表为:表10-2 500名工人文化水平与工资收入的交互百分表〔%〕在计算条件百分表时,最好能依据下列准则:〔1〕每个表的顶端要有表号和标题。
加上表号,可以方便讨论和减少混乱。
简明标题,能使读者容易领会表内统计数值的意义。
第十一章双变量统计分析在社会学研究中,不但要了解一个变量的情况,更要进一步了解一个变量与另一个变量之间的关系。
在这一讲中我们介绍几种双变量的统计分析方法。
一、交互分类表交互分类表又称列联表,是指同时依据两个变量的值,将所研究的个案分类。
交互分类的目的是将两变量分组,然后比较各组的分布状况,以寻找变量间的关系。
1、条件次数表:表10-1是交互分类表的一个例子:表10-1 500名工人的文化水平与工资收入交互分类表(人)(1)表中的次数分布是同时根据文化水平和工资收入而定,如大专以上高收入的有26人。
从表中可以清楚地知道每种文化水平的工资收入的次数分布,因此这样的表又称为条件次数表。
在表的最下一行和最右一列分别是不同文化水平和不同收入的总次数,称为边缘次数,它们的分布情况称为边缘分布;表中的其它次数,称为条件次数,每一条件下的分布称为条件分布。
(2)条件次数表有大小之分,计算的方法,通常是将因变量的数目乘上自变量的数目。
如果我们将因变量放在表的旁边,将自变量放于表的上端,则表的大小就是横行数目(rows简写r)乘上纵行数目(columns简写c),即表的大小=r ×c。
这个先后次序的用意是表示前者(因变量)是受后者(自变量)影响的。
要注意的是,3×2表不同于2×3表,因为前后两个数值代表不同的变量,包含不同类别数。
2、条件百分表:条件次数表中的数字是绝对数字,由于各个类别的基数不同,相互之间无法进行比较,因而不能看出两变量之间的关系。
为克服条件次数表的这一缺点,使各个类别之间可以比较,应将表中的绝对数字转变成相对数字——百分数,这样制成的表称为条件百分表。
如上表可改成百分表为:表10-2 500名工人文化水平与工资收入的交互百分表(%)在计算条件百分表时,最好能依据下列准则:(1)每个表的顶端要有表号和标题。
加上表号,可以方便讨论和减少混乱。
简明标题,能使读者容易领会表内统计数值的意义。
(2)绘表时所用的线条,要尽可能简短。
舍去不必要的线条,可以节省绘制的功夫,也会令人对表中的数值一目了然。
(3)在表上层的自变量每个值之下的%号,表示下列的数值是百分率。
如果表内每个数值都附有%符号,就太繁复了。
(4)计算百分比表通常是按照自变量的方向,因为研究的目的是要了解自变量对因变量的影响,理应计算在不同的自变量情况下,因变量的变化如何。
如上表是要分析教育水平对工资收入的影响,各个百分率所表示的,是在不同的教育水平中的工资收入情况。
如果教育水平不同,工资收入也不同,就表示教育对工资是有影响的了。
(5)表下层括弧内的数值,表示在计算百分率时所依据的个案总数。
写出这些数值,可以使我们知道各列百分率的基础,同时也使我们可以随时将百分率数值变回原来的次数值。
(6)表内百分率数值的小数位要保留多少,视乎研究的需要,但最好是有一致性。
例如上表既然用6.5与73.5,就要用20.0而不是20,这个小数点后的0是有意义的,它表示全部百分率的计算都是以保留一位小数作准则。
二、相关分析(一)统计相关的性质1、所谓相关,是指一个变量的值与另一个变量的值有连带性。
也就是一个变量的值发生变化,另一个变量的值也发生变化,则两个变量就是相关的了。
2、两个变量之间的相关程度有强弱之分,可用统计法予以测量。
大多数统计0代表无相关,1代表完全相关,介于0和1之间的数值越大,表示相关程度越强。
3、另一种值得注意的性质是相关方向,也可用统计法予以测量。
变量之间的关系可以分为正与负两个方向。
所谓正相关表示当一个变量的值增大时,另一个变量的值也增大;所谓负相关则表示当一个变量的值增加时,另一个变量的值却减少。
这里要注意,相关方向的分析只限于定序以上层次的变量,因为这些变量的值有高低或多少之分。
至于定类变量,则没有相关方向的问题。
4、虽然相关系数可以描述变量间关系的有无、大小和方向,但相关系数多大时才能断定两个变量有必然的、规律性的联系,是很难说的,在统计学中需要大于0.7以上,但社会现象间很少有这样密切的联系,所以研究人员一般要结合定性分析来断定事物内在的、本质的联系。
5、数据所显示的相关(或无关)关系,实际上也可能并不反映变量间存在(或不存在)有意义的关系。
(二)相关测量法1、相关测量法就是以一个统计值表示变量与变量间的关系,这个统计值称为相关系数。
相关测量法有很多种,我们在选择时首先要注意变量的测量层次,不同层次的变量要用不同的相关测量法。
其次,要注意两个变量之间的关系是否对称。
对称关系是指两个变量X与Y,我们不确定或不区分两变量之间影响的方向。
反之,如果我们认为X影响Y,而Y不会影响X,这种情况称为不对称关系。
有些相关测量法假定变量之间具有对程关系,有些则假定是不对称关系。
另一项选择标准,就是统计值的意义。
有些相关测量法所计算出来的统计值除相关程度外,还含有其它意义,我们最好选择统计值有意义的相关测量法。
在统计学中有一组相关测量法,其统计值具有消减误差比例的意义,称为PRE测量法。
这组测量法常用在社会学研究中。
2、消减误差比例社会学研究的主要目标是预测或解释社会现象的变化。
比如有一种社会现象是Y(例如工资收入),我们就要预测或理解其变化的情况。
预测或解释时,难免会有误差(即错误)。
假定另一种社会现象X(例如文化水平)是与Y有关系的,如果我们根据X的值来预测Y的值(例如根据文化来估计其工资水平),理应可以减少若干误差。
而且,X与Y的关系愈强,所能减少的预测误差就会愈多。
换言之,所消减的误差有多少,可以反映X与Y的相关强弱程度。
现在假定不知道X的值,我们在预测Y值时所产生的全部误差是E1。
如果知道X的值,我们可以根据X的每个值来预测Y值;假定误差的总数是E2,则以X值来预测Y值时所减少的误差就是:E1—E2。
这个数值(E1—E2)与原来全部误差(E1)相比,就是消减误差比例。
可用下面的公式表示:PRE=121 E EEPRE的数值越大,就表示以X值预测Y值时能够减少的误差所占的比例愈大;也就是说,X与Y的关系愈强。
消减误差比例适用于各种测量层次的变量,但公式中的E1 与E2的具体定义在不同层次的变量间,或同一层次的变量内部有所不同。
3、相关测量法测量不同层次的变量有不同形式的相关系数。
下面介绍几种相关系数:(1)、λ相关:用于测量两个定类变量间的相关关系。
λ相关测量法的基本逻辑是计算以一个定类变量的值来预测另一个定类变量的值时,如果以众数作为预测的准则,可以减除多少误差。
消减的误差在全部误差中所占的比例愈大,就表示这两个变量的关系愈强。
λ相关测量法有两种形式:一种是对称形式,用λ表示,即用于测量的两个变量间的关系是对等的,没有自变量与因变量之分;另一种是非对等的,用λy 表示,即所测量的两个变量有自变量与因变量之分,X 是自变量,Y 是因变量。
公式如下:(公式写错了)λ=)(2)(y x y x y x M M n M M m m --+-+∑∑ λy =y yy M n M m --∑其中,My=Y 变量的众数次数Mx=X 变量的众数次数my=X 变量的每个值(类别)之下Y 变量的众数次数mx=Y 变量的每个值(类别)之下X 变量的众数次数n 全部个案数目例1:根据下表(表10-3)的资料计算λ系数表10-3性别与吸烟态度的交互分类(人)根据λy 系数公式有λy =y yy M n M m --∑=114200114)6296(--+=0.51 因此,我们可以说,性别与对吸烟态度之间存在中等程度的相关。
例2:研究青年人的志愿与他们的知心朋友的志愿是否相关,得到下表的统计资料。
试计算λ系数。
表4 青年人与其知心朋友的志愿由于青年人的志愿与他们的知心朋友的志愿可能是相互影响的,难于区分何者是自变量或因变量,故用λ相关测量法的对称形式。
根据λ系数公式有:λ=)(2)(y x y x y x M M n M M m m --+-+∑∑=2、G 相关:用于测量两个定序变量间的关系,用G 来表示。
G 系数值在-1至+1之间,既表示相关的程度,也表示相关的方向,而且也都有消减误差比例的意义。
G 相关测量法的基本逻辑是:根据任何两个个案在某变量上的等级来预测他们在另一个变量上的等级时,可以减少的误差是多少。
换言之,G 相关测量法是以每对个案之间的相对等级作为预测的准则。
G 系数的计算公式是:G=ds d s N N N N +- 式中Ns 表示同序对数目,Nd 表示异序对数目。
所谓同序对是指某对个案在两个变量上的相对等级相同,如果不相同,则称为异序对。
下面举例说明Ns 和Nd 的计算方法。
例2:根据下表(10-4)的资料计算G 系数表10- 文化程度与收入的交互分类表表中计算同序对数量等于表内每个频数乘以其右下方全部频数之和,然后加总,而异序对数量则等于表内每个频数乘以其左下方全部频数之和,然后加总。
因而上例中:Ns=12(30+5+16+12)+10(5+12)+8(16+12)+30(12)=1510 Nd=3(30+8+16+4)+10(8+4)+5(4+16)+30(4)=514 G==d s d s N N N N +-=51415105141510+-=0.49 说明用文化程度去预测收入水平,可以消减49%的误差。