第十章单变量描述统计
- 格式:doc
- 大小:212.50 KB
- 文档页数:12
第十章单变量的描述统计调查所得的原始资料经过审核、整理与汇总后,还需要进行系统的统计分析,才能揭示出调查资料所包含的众多信息,才能得出调查的结论。
根据变量数量的差别统计分析划分为单变量分析、双变量分析和多变量分析。
在这一讲中我们先介绍单变量的统计分析。
单变量统计分析可以分为两个大的方面,即描述统计和推论统计。
描述统计是用最简单的概括形式反映出大量数据资料所容纳的基本信息。
推论统计是用样本调查中所得到的数据资料来推断总体的情况。
这一讲我们讲解单变量的描述统计方法。
一、变量的分布(Distributions)变量的分布分为两类,一类是频数分布,一类是频率分布。
频数分布就是变量的每一取值出现的次数;频率分布是用变量每一取值的频数除以总个案数,它是一个相对指标,可以用来比较不同样本。
频数分布与频率分布一般以统计表与统计图的形式表达。
1、统计表(1)统计表就是以表格的形式来表示变量的分布。
如下表所示:表9-1甲校学生的父亲职业职业 f p工人农民干部1522881100.2760.5240.20027.652.420.0总数550 1.000 100.0数值中的小数的取舍:通俗的做法是“四舍五入”。
“四舍”没有问题,但无原则的“五入”就会产生一定的误差。
例如数值6.25、4.45、3.75、和7.15的总合是21.60。
如果对原数的最后一位小数作简单的四舍五入,原数就变成 6.3、4.5、3.8、7.2,其总合是21.8,把原来的总合变大了。
近代统计学有一项新原则,就是“前单五入”,即“五”前面是单数就进位,若是双数就舍掉(0也算双数)。
(2)对于定序及以上层次的变量我们更多的是使用累加频数和累加频率。
如下所示:表9-2甲校学生之父亲教育水平教育 f cf ↑ cf ↓ % c % ↑ c %↓ 一级 二级 三级 四级 五级 68 550 68 90 482 158 106 392 264 193 286 457 93 93 550 12.4 100.0 12.4 16.3 87.6 28.7 19.3 71.3 48.0 35.1 52.0 83.1 16.9 16.9 100.0 总数 550100.02、统计图统计图是以图形表示变量的分布情况。
统计学-单变量描述性统计复习⼀遍统计学基础,准备spss的考试。
拿到⼀组陌⽣的数据,就像遇见⼀个陌⽣⼈,我们遇到⼀个陌⽣⼈,第⼀件事往往就是打量打量ta,处理数据也是如此。
描述性统计就是在打量⼀组数据,对数据有个⼤概对了解。
⼀般来说,对数据做三个处理:集中趋势central tendency,离散趋势dispersion tendency,分布形态distribution tendency。
虽然简单,但是最为基础,是我们后续数据分析的前提,通过对数据的描述性统计,我们才能选择合适的统计⽅法,以防误⽤。
单变量统计分析在⼀些书上⼜被叫做⼀元统计,只⾯对⼀个变量,⽅法⽐较死板固定单⼀。
part one:central tendency⼀种位置的统计量,把⼀个变量的不同观测(observation)集中到⼀个值上来表⽰。
1.mean(x-bar),算数均值(the average)⼀个东西。
——注意,使⽤时,数据要呈现正态分布,即使不满⾜,也应该要单峰&基本对称分布。
有极端值时不要选择⽤算数均值2.median,位置的中间数的值。
先找位置,再找值。
位置:(n+1)/2,奇数位置对应值,偶数?.5左右两个数字的mean。
——任意分布形态均可使⽤3.mode,众数4.其他:4.1截尾均数trimmed mean,⼜叫修正均数。
去除Max、Min5%。
好处是去掉了极端值的影响——有极端值时可以选⽤。
缺点是,10%的数据本⾝是真实信息,去掉了使得信息减少。
4.2⼏何均数 G(geometric mean)医学统计学中多使⽤,当data分布不对称,但是转换后呈现对称分布可以使⽤。
4.3调和均数mean和median相⽐,应该说mean的使⽤更⼴,使⽤的信息更全,在抽样调查中,mean的值随样本的变化⽽变化的幅度⼩,更为稳定,应该说是⼀个更好的统计量,但是⼀旦有极端值的存在,mean将会受到很⼤影响,因此此时应该使⽤median。
单变量:描述性统计(1)(1)数据(2)数据描述(3)分布统计的地位科学测量•可重复的数据测量是科学与工程共同的基本假设。
使数据测量的行为相似,即满足四个基本假设:①数据是随机的(Stochastic//Random) 。
②数据来自特定的分布。
③数据在分布中有特定位置,即测量结果可表达为一个确定性常数与一个随机性误差之和。
④数据在分布中的变异是固定的,即测量的随机误差服从特定的概率分布。
•如果上述四个假设均满足,则科学与工程的所有重要目标都具有可预见性,实现概率意义上的可预知。
因此,科学与工程过程可以说是“在统计控制中”。
理性基础上,所有的判断都是统计学。
•随机性是测量过程的4个基本假设之一。
随机性假设之所以非常重要。
是因为:①多数标准统计检验依赖随机性。
检验结论的有效性直接与随机性假设的有效性有关。
②许多常用的统计公式依赖于随机性假设,最常见的公式是样本均值的标准误差计算公式其中s是数据标准差。
尽管这些公式大量使用,如果不具有随机性假设,则公式的计算结果就没有意义。
③单变量数据的缺省模型是:x=常数+误差。
如果数据没有随机性,该模型就是错误的无效模型,参数估计也就变得没有意义和无效。
如何描述?•位置:分布的中心趋势•尺度:以中心趋势为中心的散度•形状:和对称分布比较?和正态峰值的比较‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐描述分布,………描述什么样的数据分布?尺度尺度(scale)一词来自拉丁文“scala”或“ladder”,指一系列的等级或水平。
拉丁文中,尺度是指特定的图形倾向。
尺度的可视化表达,即数轴及其标记,看上去象一个梯子。
尺度是一个函数类型,我们依此在一定维度上完成变量集制图。
简单地说,尺度就是我们选择制图的数值范围及其标记间隔。
尺度决定如何感知图形大小、形状和位置。
选择一个尺度,需要我们考虑我们正在测量什么?我们测量的意义是什么?尺度的选择,决定我们如何解释图形的意义。
描述什么样的数据?要选择合适的统计工具,分析数据,要求:(1)理解不同统计分析方法应用的基本假设。
第十章单变量的描述统计调查所得的原始资料经过审核、整理与汇总后,还需要进行系统的统计分析,才能揭示出调查资料所包含的众多信息,才能得出调查的结论。
根据变量数量的差别统计分析划分为单变量分析、双变量分析和多变量分析。
在这一讲中我们先介绍单变量的统计分析。
单变量统计分析可以分为两个大的方面,即描述统计和推论统计。
描述统计是用最简单的概括形式反映出大量数据资料所容纳的基本信息。
推论统计是用样本调查中所得到的数据资料来推断总体的情况。
这一讲我们讲解单变量的描述统计方法。
一、变量的分布(Distributions)变量的分布分为两类,一类是频数分布,一类是频率分布。
频数分布就是变量的每一取值出现的次数;频率分布是用变量每一取值的频数除以总个案数,它是一个相对指标,可以用来比较不同样本。
频数分布与频率分布一般以统计表与统计图的形式表达。
1、统计表(1)统计表就是以表格的形式来表示变量的分布。
如下表所示:表9-1甲校学生的父亲职业数值中的小数的取舍:通俗的做法是“四舍五入”。
“四舍”没有问题,但无原则的“五入”就会产生一定的误差。
例如数值6.25、4.45、3.75、和7.15的总合是21.60。
如果对原数的最后一位小数作简单的四舍五入,原数就变成6.3、4.5、3.8、7.2,其总合是21.8,把原来的总合变大了。
近代统计学有一项新原则,就是“前单五入”,即“五”前面是单数就进位,若是双数就舍掉(0也算双数)。
(2)对于定序及以上层次的变量我们更多的是使用累加频数和累加频率。
如下所示:表9-2甲校学生之父亲教育水平f cf cf c c2、统计图统计图是以图形表示变量的分布情况。
与统计表相比,统计图更直观、生动、醒目,但不够精确。
统计图有圆瓣图、条形图、直方图和折线图。
(1)圆瓣图:多用于描述定类变量的分布,主要目的为显示各部分在整体中所占的比重,以及各部分之间的比较。
如表9-1的资料可用下图(图1)所示:农民部分=360°×52.4%=188.64°工人部分=360°×27.6%=99.36°干部部分=360°×20.2%=72°(图一)甲校学生的父亲职业分布(2)条形图:多用于描述定类与定序变量的分布,它是以长条的高度表示变量不同取值的频数(率)分布的,其中长条的宽度没有意义,一般均画成等宽长条。
对单变量量别数据进行描述统计的主要方法单变量数据是指只有一个变量的数据集,即只有一个属性或特征的数据。
对于单变量数据,描述统计是一种通过一些关键的统计指标来总结和描述数据集的方法。
描述统计的主要方法包括测量中心趋势、测量离散程度、测量分布形态以及进行数据可视化等。
一、测量中心趋势测量中心趋势是指通过一个代表性的数值来描述数据的集中程度,常用的方法包括:1. 平均数(Mean):平均数是将所有数据相加后再除以数据的总数,表示数据的平均水平。
2. 中位数(Median):中位数是将数据按照大小排序后的中间值,可以排除极端值对数据的影响。
3. 众数(Mode):众数是数据集中出现次数最多的数值,用于描述数据的典型值。
二、测量离散程度测量离散程度是指度量数据的变异程度或分散程度,常用的方法包括:1. 方差(Variance):方差是数据偏离平均数的平均平方差,用于度量数据的离散程度。
2. 标准差(Standard Deviation):标准差是方差的平方根,表示数据的平均偏离程度。
3. 范围(Range):范围是数据集中最大值和最小值之间的差别,用于衡量数据的全局变化。
4. 四分位数(Quartiles):四分位数可以将数据分成四等份,用于描述数据的分布情况。
三、测量分布形态测量分布形态是描述数据分布的形状和特征,常用的方法包括:1. 偏态(Skewness):偏态是数据分布偏离正态分布的程度,可以判断数据的对称性和偏斜性。
2. 峰度(Kurtosis):峰度是数据分布的尖峰程度,可以判断数据的平峰或尖峰性。
四、数据可视化数据可视化是将数据以图像的形式展示出来,以便更好地理解和分析数据集,常用的方法包括:1. 直方图(Histogram):直方图用于展示数据的分布情况,可以看出数据的集中和离散程度。
2. 箱线图(Box Plot):箱线图用于展示数据的统计特征,包括中位数、四分位数、离群值等。
3. 折线图(Line Plot):折线图用于展示数据随时间或其他变量的变化趋势。
第十章单变量的描述统计调查所得的原始资料经过审核、整理与汇总后,还需要进行系统的统计分析,才能揭示出调查资料所包含的众多信息,才能得出调查的结论。
根据变量数量的差别统计分析划分为单变量分析、双变量分析和多变量分析。
在这一讲中我们先介绍单变量的统计分析。
单变量统计分析可以分为两个大的方面,即描述统计和推论统计。
描述统计是用最简单的概括形式反映出大量数据资料所容纳的基本信息。
推论统计是用样本调查中所得到的数据资料来推断总体的情况。
这一讲我们讲解单变量的描述统计方法。
一、变量的分布(Distributions)变量的分布分为两类,一类是频数分布,一类是频率分布。
频数分布就是变量的每一取值出现的次数;频率分布是用变量每一取值的频数除以总个案数,它是一个相对指标,可以用来比较不同样本。
频数分布与频率分布一般以统计表与统计图的形式表达。
1、统计表(1)统计表就是以表格的形式来表示变量的分布。
如下表所示:表9-1甲校学生的父亲职业数值中的小数的取舍:通俗的做法是“四舍五入”。
“四舍”没有问题,但无原则的“五入”就会产生一定的误差。
例如数值6.25、4.45、3.75、和7.15的总合是21.60。
如果对原数的最后一位小数作简单的四舍五入,原数就变成 6.3、4.5、3.8、7.2,其总合是21.8,把原来的总合变大了。
近代统计学有一项新原则,就是“前单五入”,即“五”前面是单数就进位,若是双数就舍掉(0也算双数)。
(2)对于定序及以上层次的变量我们更多的是使用累加频数和累加频率。
如下所示:表9-2甲校学生之父亲教育水平2、统计图统计图是以图形表示变量的分布情况。
与统计表相比,统计图更直观、生动、醒目,但不够精确。
统计图有圆瓣图、条形图、直方图和折线图。
(1)圆瓣图:多用于描述定类变量的分布,主要目的为显示各部分在整体中所占的比重,以及各部分之间的比较。
如表9-1的资料可用下图(图1)所示:农民部分=360°×52.4%=188.64°工人部分=360°×27.6%=99.36°干部部分=360°×20.2%=72°(图一)甲校学生的父亲职业分布变量不同取值的频数(率)分布的,其中长条的宽度没有意义,一般均画成等宽长条。
为求清楚,长条之间可以分开。
如表9-2的资料可用下图(图2)所示:(图二)甲校学生的父亲教育水平的宽度表示组距。
直方图仅适用于定距变量。
如表9-3的资料可用下图(图3)所示:表9-3 甲校学生的家庭每月总收入组限(class limits),就是每组的范围,包括上限(upper limit)和下限(lower limit)。
例如表9-3中的“700~899”组,上限是899,下限是700。
但要注意,统计表上所标示的组限(stated limits)是让读者容易领会,但不是真实的组限(real limits)。
上表的真实组限是499.5~699.5、699.5~899.5、899.5~1099.5、1099.5~1299.5等等。
如果某家庭的收入与真实组限之值相同,一般是采用四舍五入的原则,如把699.5元归“700~899”组。
真实组限与标示组限的关系,可以下式表示:真实下限=标示下限-0.5真实上限=标示上限+0.5组距(class width),就是组的真实上限与真实下限之差,如上表的“700~899”组的组距是:899.5-699.5=200。
组中点(class midpoint),就是真实上限与真实下限的平均数,如“700~899”组的中点是:(699.5+899.5)÷2=799.5。
(4)折线图:折线图是用直线连接直方图中条形顶端的中点而成的。
二、集中趋势分析集中趋势是从一组数据中抽象出一个代表值,代表现象的共性和一般水平。
这种方法有一个特殊意义,就是可以根据这个代表值(或称典型值)来估计或预测每个研究对象(即个案)的数值。
这样的估计或预测,当然会有错误,但由于所根据的数值最有代表性,故所发生之错误的总和理应是最小的。
集中趋势测量指标有三类:众数、中位值、平均数。
1、众数众数(M。
)就是出现频数或频率最多的变量值。
因为众数最有代表性,故此具有估计或预测的意义,长远来说,以众数作预测所犯的错误总数是最小的。
求众数的方法如下:(1)对原始资料:如下例:1,2,3,5,5,5,6,6,7,9其M。
=5(2)对单值分组资料:如下表9-3某实验小组成员的年龄分布:表9-3某实验小组成员年龄分布年龄数量13 314 415 616 817 418 319 3其M。
=16(3)组距分组资料:众数是频数最大的区间的组中值。
如对于表9-5所示的资料其M。
=3502、中位数中位数(Md)是最中间的数值。
它用于描述定序变量以上层次的变量。
长远来说,以中位数去估计定序变量的数值,所犯的错误总数是最小的。
求中位数的方法如下:(1)对原始资料:原始资料计算中位值的公式是:Md位置= 21+n例:9个人的日工资分别如下:47,42,50,51,92,112,71,83,108 首先,从小到大排列:42,47,50,51,71,83,92,108,112。
其次,由中位值的位置公式可知Md=21+n= 219+=5最后,求Md=71如果n为偶数,则将位于最中央的两个数值的平均值作为中位值。
(2)对单值分组资料:如下表9-4的资料:表9-4学生的学业成绩由公式可知Md位置= 21+n=2180+=40.5从累加频数中可知这个位置的值在丙值内,故Md=丙。
(3)对组距分组资料:组距分组资料的中位值公式为:Md=L+mm f cfn)1(2--×i其中L 为中位数所在组的下限值,cf(m-1)为中位数所在组以上的累计频数,fm 为中位数所在组的频数,i 为中位数所在组的组距。
例:表9-5某企业100名职工收入的分布收入(元) 职工数(人) 累计频数 组中值 Xf 100—199 10 10 150 1500 200—299 10 20 250 2500 300—399 40 60 350 14000 400—499 20 80 450 9000 500—599 20 100 550 11000 合 合计 100首先求出中间位置为(100+1)=50.5,再从累计频数栏中找到中位数所在组为“300—399”这一组,最后利用公式计算Md=300+402050-×100=375平均数:仅适用于定距及定距以上变量,但有时也可用于定序变量,如求平均等级。
长远来说,以平均数估计定距变量的资料,错误最小。
(1)对原始资料:平均数的公式为X =nX∑其中∑x 为各个个案数值之和,n 表示全部个案数。
(2)对单值分组资料:平均数的公式用加权平均数公式:X =nxf∑如对下表9-6中的资料求平均数: 表9-6某年级150名学生的年龄分布年龄 频数 累积频数 ↓ 累积频数↑17 10 10 15018 25 35 14019 50 85 11520 40 125 6521 20 145 2522 5 150 5合计150平均年龄为:X=15052220214020501925181017⨯+⨯+⨯+⨯+⨯+⨯=19.3(3)对组距分组资料:一般用组中值来代替变量值,然后按加权平均数公式来计算平均数。
总之,如要测量集中趋势,即找出一个最有代表性之值,定类变项的资料可用众数;定序变项可用众数,但以中位数较适宜,因为后者能够应用资料中所具有的等级数学特质。
定距变项可用众数,也可用中位数,但以均值最适宜,因为均值能应用资料中所具有的分组资料中的加减数学特质。
然而,有两种情况下不宜用均值:一种是在分组资料中的极端没有组限时(如表9-的资料),不能求出均值,只能用中位值;另一种情况是变项中有个别的数值非常特殊(过高或过低),则均值的代表性就有疑问,用中位值较为合适。
1表9- 青年人阅读小说的数目1李沛良.社会研究的统计应用.社会科学文献出版社2001,51。
三、离散趋势分析离散趋势是要求出一个值来表示个案与个案之间的差异情况。
这种测量法,与集中趋势测量法有互补的作用。
资料的离散程度表明了集中趋势的代表性如何,凡离散程度愈大,则集中趋势的代表性就愈小,离散程度愈小,则集中趋势的代表性愈大。
1、异众比率:异众比率(Vr )就是非众数的次数与全部个案数目的比率。
可见异众比率是对众数的补充,异众比率越小,说明众数的代表性越好;反之,异众比率越大,则说明众数的代表性越差。
公式如下:Vr=n f n mo-其中fmo 为众数的次数。
如对于表9-1的资料其Vr =n f n mo -=550288550-2、极差:极差又称全距,它是一组数据中最大值与最小值之差。
极差是对定序?及以上尺度的变量离散程度的测量。
极差越小,表明资料越集中,集中趋势统计量的代表性越高。
但由于它的值是由端点的差决定的,因此个别远离群体的极值会极大改变极差,以至使它不能真实反映资料的分散程度。
例:某校3个系各选5名同学,参加智力竞赛,他们的成绩分别如下: 中文系:78、79、80、81、82 数学系:65、72、80、88、95 英语系:35、78、89、98、100 则三个代表队的全距分别为: 中文系:82-78=4(分) 数学系:95-65=30(分) 英语系:100-35=65(分)3、四分位差:四分位差是对定序及定序以上测量尺度的变量离散程度的测量指标。
四分位差的计算方法是先将一组数据按大小排列成序,然后四等分,各段分界点上的数叫做四分位数,第一个四分位置的值(Q1)与第三四分位置的值(Q3)的差异,就是四分位差(Q)。
Q2就是中位值(Md),两边各有50%的个案,也就是在中位值两旁的Q1和Q3之间,共有50%的个案。
因此,四分位差越大,表示有50%的个案越远离中位值,因而中位值的代表性就越小。
计算四分位差时,先求出Q1和Q3的位置,然后计算在这两个位置上的差异。
Q1和Q3的位置公式是:Q1位置=41+ nQ3位置=4)1(3+n以下是计算四分位差的方法:(1)对原始资料:例:调查11位同学的年龄如下:17岁、18岁、18岁、19岁、19岁、20岁、20岁、21岁、21岁、22岁、。
首先,求出Q1和Q3的位置:Q1 的位置=41+n=4111+=3Q3的位置=4)1(3+n=4)111(3+⨯=9其次,从数序中找出Q1=18,Q3=21则四分位差Q= Q3—Q1=21—18=3例:甲村有8户人家,每户人数如下:2,3,4,7,9,10,12,12首先,求出Q1位置= 418+=2.25Q1=3+0.25(4—3)=3.25Q3 位置=418(3)+⨯ =6.75Q3=10+0.75(12—10)=11.5 所以Q=11.5— 3.25=8.25 (2)对单值分组资料:如表9-4所示的学生学业成绩,据公式可知:Q1位置= 4180+ =20.25Q3位置= 4)180(3+⨯ =60.75从累积次数分布表中,很易看到在这两个位置上的值分别是丁级和乙级,所以Q=乙—丁=两个等级 (3)对组距分组资料:对组距分组资料Q1和Q3的计算公式为:Q1=L1+[114f cf n-]w1Q3=L3+[3433f cf n-]w3 其中 L1=Q1属组之真实下限L3= Q3属组之真实下限 f1=Q1属组之次数 f3= Q3属组之次数cf1=低于Q1属组下限之累积次数 cf3=低于Q3属组下限之累积次数 w1=Q1属组之组距 w3=Q3属组之组距 n 为全部个案数如表9-5所示的资料,其Q1位置= 41+n =41100+ =25.25,所以Q1在300—399组内;Q3位置=4)1(3+n =4)1100(3+ =75.75,所以Q3在400—499组内。