一、统计数据的分类
(按计量尺度分)
1.分类数据(categorical data) :
只能归于某一类别的非数字型数据;对事物进行分类的结果,数据表现为类别,用文字来表述。例如,性别分为男、女、质量的合格与不合格、产品大类
2.顺序数据(rank data)
只能归于某一有序类别的非数字型数据;对事物类别顺序的测度,数据表现为类别,用文字来表述。例如,产品分为一等品、二等品、三等品、次品等、优良中可差、受教育程度
3.数值型数据(metric data)
按数字尺度测量的观察值;结果表现为具体的数值,对事物的精确测度。例如:身高为175cm、168cm、183cm
(按收集方法分)
1.观测的数据(observational data)
通过调查或观测而收集到的数据;在没有对事物人为控制的条件下而得到的;有关社会经济现象的统计数据几乎都是观测数据。
2.试验的数据(experimental data)
在试验中控制试验对象而收集到的数据;比如,对一种新药疗效的试验,对一种新的农作物品种的试验等;自然科学领域的数据大多数都为试验数据
(按时间状况分)
1.截面数据(cross-sectional data)
在相同或近似相同的时间点上收集的数据;描述现象在某一时刻的变化情况。比如,2005年我国各地区的国内生产总值数据
2.时间序列数据(time series data)
在不同时间上收集到的数据;描述现象随时间变化的情况。比如,2000年至2005年国内生产总值数据
二、数据的收集方法和数据整理
第一、访问调查
1. 调查者与被调查者通过面对面地交谈而获得资料。
2. 有标准式访问和非标准式访问:标准式访问通常按事先设计好的问卷进行,非标准式访问事先一般不制作问卷
邮寄调查
1.也称邮寄问卷调查,是一种标准化调查;调查者与被调查者没有直接的语言交流,信息的传递依赖于问卷
2.通过某种方式将调查表或问卷送至某调查者手中,由被调查者填写,然后将问卷寄回指定收集点
3.问卷或表格的发放方式有邮寄、宣传媒介传送、专门场所分发三种
电话调查
1.调查者利用电话与被调查者进行语言交流以获得信息 2 时效快、成本低,问题的数量不宜过多
电脑辅助调查
1.又称电脑辅助电话调查,电脑与电话相结合完成调查的全过程2一般需借助专门的软件进行,硬件设备要求较高
座谈会
1.也称集体访谈,将一组被调查者集中在调查现场,让他们对调查的主题发表意见以获得资料
2.参加座谈会的人数不宜过多,一般为6~10人,侧重于定性研究
个别深度访问
一次只有一名受访者参加、针对特殊问题的调查;适合于较隐秘的问题,如个人隐私问题;或较敏感的问题,如政治方面的问题。侧重于定性研究
第二、观察法
1就调查对象的行动和意识,调查人员边观察边记录以收集所需信息2.调查人员不是强行介入
3.能够在被调查者不察觉的情况下获得资料
第三、实验法
1. 在设定的特殊实验场所、特殊状态下,对调查对象进行实验以获得所需资料
2. 有室内实验法和市场实验法
数据整理
(1)统计数据整理,按照统计研究的要求,对调查所搜集到的原始资料进行分组、汇总,十七条理化、系统化的工作过程。
统计资料整理就是人们对社会经济现象从感性认识上升到理性认识的过渡阶段,及时统计调查阶段的继续和深入,有时统计分析阶段的基础,起着承前启后的作用。
(2)统计整理的内容:
统计资料的审核、资料的分组和汇总、编制统计表或绘制统计图,描述整理的结果。
数据的预处理
数据审核:检查数据中的错误。数据筛选:找出符合条件的数据
数据排序:升序和降序、寻找数据的基本特征。数据透视:按需要汇总
三、抽样误差
抽样误差
由于抽样的随机性所带来的误差,所有样本可能的结果与总体真值之间的平均性差异,影响抽样误差的大小的因素:样本量的大小、总体的变异性。
非抽样误差
相对抽样误差而言,除抽样误差之外的,由于其他原因造成的样本观察结果与总体真值之间的差异,存在于所有的调查之中:概率抽样、非概率抽样、全面性调查;有抽样框误差、回答误差、无回答误差、调查员误差、测量误差。
误差的控制
(1)抽样误差可计算和控制
(2)非抽样误差的控制:调查员的挑选,调查员的培训,督导员的调查专业水平,调查过程控制:调查结果进行检验、评估;现场调查人员进行奖惩的制度
四、三类数据的整理和图示
数据的整理与显示(基本问题)
1.要弄清所面对的数据类型。不同类型的数据,采取不同的处理方式和方法
2.对分类数据和顺序数据主要是作分类整理
3.对数值型数据则主要是作分组整理
第一、分类数据的整理与图示
(一)分类数据的整理
(基本过程)
1. 列出各类别
2. 计算各类别的频数
3. 制作频数分布表
4. 用图形显示数据
(可计算的统计量)
1.频数(frequency) :落在各类别中的数据个数。比例(proportion) :某一类别数据占全部数据的比值
2.百分比(percentage) :将对比的基数作为100而计算的比值。比率(ratio) :不同类别数值的比值
(二)分类数据的图示
(条形图)
1.用宽度相同的条形的高度或长短来表示各类别数据的图形;有单式条形图、复式条形图等形式
2.主要用于反映分类数据的频数分布;绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图
(帕雷托图)
按各类别数据出现的频数多少排序后绘制的柱形图,主要用于展示分类数据的分布
(对比条形图)
分类变量在不同时间或不同空间上有多个取值,对比分类变量的取值在不同时间或不同空间上的差异或变化趋势
(饼图)
1也称圆形图,是用圆形及圆内扇形的角度来表示数值大小的图形 2主要用于表示样本或总体中各组成部分所占的比例,用于研究结构性问题
3绘制圆形图时,样本或总体中各部分所占的百分比用圆内的各个扇形角度表示,这些扇形的中心角度,按各部分数据百分比占3600的相应比例确定
第二、顺序数据的整理与图示
(可计算的统计量)
1. 累积频数(cumulative frequencies):各类别频数的逐级累加;
2.累积频率(cumulative percentages):各类别频率(百分比)的逐级累加 (顺序数据的图示):频数分布表、累计频数分布图
第三、数值型数据的整理与展示
(一)数据分组——方法 (单变量值分组)
1. 将一个变量值作为一组
2. 适合于离散变量
3. 适合于变量值较少的情况 (组距分组)
将变量值的一个区间作为一组,适合于连续变量、变量值较多的情况;需要遵循“不重不漏”的原则,可采用等距分组,也可采用不等距分组;分为等距分组和异距分组 步骤:
1. 确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,组数一般为5≤K ≤15,可以按 Sturges 提
出的经验公式确定组数K
2
lg lg 1n
K +
= 2. 确定组距:组距(class width)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即 组距=( 最大值 - 最小值)÷ 组数
3. 统计出各组的频数并整理成频数分布表 几个概念:
下限:一个组的最小值。 上限:一个组的最大值。 组距:上限与下限之差。 组中值:下限与上限之间的中点值 (二)数值型数据的图示
(分组数据—直方图和折线图) 直方图:
1用于展示分组数据分布的一种图形。用矩形的宽度和高度来表示频数分布,本质上是用矩形的面积来表示频数分布。 2在直角坐标系中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图。 3直方图下的总面积等于1 直方图与条形图的区别
1. 条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的
2. 直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均
有意义
3. 直方图的各矩形通常是连续排列,条形图则是分开排列
4. 条形图主要用于展示分类数据,直方图则主要用于展示数值型数据 折线图:
1. 折线图也称频数多边形图,是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉。
2. 折线图的两个终点要与横轴相交,具体的做法是:
先是,第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴。然后,折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布一致
(未分组数据—茎叶图和箱线图)
茎叶图:
用于显示未分组的原始数据的分布,由“茎”和“叶”两部分构成,其图形是由数字组成的。以该组数据的高位数值作树茎,低位数字作树叶。树叶上只保留最后一位数字。对于n(20≤n≤300)个数据,茎叶图最大行数不超过:
L = [ 10 ×lg n ]
.茎叶图类似于横置的直方图,但又有区别:
1直方图可观察一组数据的分布状况,但没有给出具体的数值;
2茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息;
3直方图适用于大批量数据,茎叶图适用于小批量数据
箱线图:
1.用于显示未分组的原始数据的分布。由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成
2.绘制方法:
首先找出一组数据的5个特征值,即最大值、最小值、中位数Me和两个四分位数(下四分位数Q L和上四分位数Q U)。
连接两个四分位数画出箱子,再将两个极值点与箱子相连接。该箱线图也称为Median/Quart./Range箱线图。
(时间序列数据—线图)
表示时间序列数据趋势的图形,时间一般绘在横轴,数据绘在纵轴,图形的长宽比例大致为10 : 7。一般情况下,纵轴数据下端应从“0”开始,以便于比较。数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断
(多变量数据的图示)
两个变量间的关系—二维散点图、散点图矩阵
三个变量间的关系—三维散点图、气泡图
多变量数据—雷达图:
也称为蜘蛛图(spider chart),显示多个变量的图示方法,在显示或对比各变量的数值总和时十分有用,假定各变量的取值具有相同的正负号,总的绝对值与图形所围成的区域成正比,可用于研究多个样本之间的相似程度。
五、三类数据集中趋势和离散趋势的度量及偏态和峰态的度量
第一、 集中趋势的度量
一组数据向其中心值靠拢的倾向和程度,测度集中趋势就是寻找数据水平的代表值或中心值。不同类型的数据用不同的集中趋势测度值,低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据。
分类数据以众数作为统计量;顺序数据是中位数和分位数;数值型数据是平均数。
众数:一组数据中出现次数最多的变量值,适合于数据量较多时使用,不受极端值的影响。一组数据可能没有众数或有几个众数,
主要用于分类数据,也可用于顺序数据和数值型数据。
中位数:排序后处于中间位置上的值,不受极端值的影响,主要用于顺序数据,也可用数值型数据,但不能用于分类数据
位置确定:21n 中位数位置+= 数值确定:????
?????
??
??????+=??? ??+??? ????
?
??+为偶数
为奇数
n x x n x M n n n e 1222121
例题分析:
1、顺序数据的中位数
2、数值型数据的中位数
【例1】 9个家庭的人均月收入数据
原始数据: 1500 750 780 1080 850 960 2000 1250 1630 排 序: 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9
解:52
1
921=+=+=
n 位置 中位数 = 1080 【例2】:10个家庭的人均月收入数据
排 序: 660 750 780 850 960 1080 1250 1500 1630 2000
位 置: 1 2 3 4 5 6 7 8 9 10
解:5.5211021=+=+=
n 位置 10202
1080
960=+=中位数 四分位数:排序后处于25%和75%位置上的值,不受极端值的影响,主要用于顺序数据,也可用数值型数据,但不能用于分类数
据。 位置确定:
1、定义算法:???????==434U L n Q n Q 位置位置
2、较准确算法???
????+=
+=4)1(34
1U L n Q n Q 位置位置
3、2
121+??
????+=n Q 位置
其中[ ]表示中位数的位置取整。这样计算出的四分位数的位置,要么是整数,要么在两个数之间
0.5
的位置上
4、Excel 给出的四分位数位置的确定方法
43L +=
n Q 位置 4
1
3U +=n Q 位置 如果位置不是整数,则按比例分摊位置两侧数值的差值 例题分析:
1、顺序数据的四分位数
2、数值型数据的四分位数
【例】:9个家庭的人均月收入数据(4种方法计算)
原始数据: 1500 750 780 1080 850 960 2000 1250 1630 排 序: 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9 解:方法1 75.64
9
325.24
9
U L =?=
==
位置位置Q Q 5
.79725.0)780850(780L =?-+=Q
5.1437
75.0)12501500(1250U =?-+=Q
方法2 5.74
)
19(35.2419U L =+==+=
位置位置Q Q 1565
21630
15008152850780U L =+==+=Q Q
方法3 32
1219=+???
???+=
位置Q 1500
850U L ==Q Q 方法4
74
1
933439U L =+?==+=
位置位置Q Q 850L =Q 1500U =Q 平均数:也称为均值,集中趋势的最常用测度值,一组数据的均衡点所在。体现了数据的必然性特征,易受极端值的影响。有简
单平均数和加权平均数之分,根据总体数据计算的,称为平均数,记为μ;根据样本数据计算的,称为样本平均数,记为?x 。 性质:各变量值与平均数的离差之和等于零,各变量值与平均数的离差平方和最小。
∑==-n i i
x x 1
0)( ∑==-n
i i
x x 1
2
m i n
)
( 1、简单平均数
样本平均数
n
x
n
x x x x n
i i
n
∑==
+++=1
21 总体平均数
N
x N x x x N
i i
N ∑==+++=121 μ
2、加权平均数
设各组的组中值为:M 1 ,M 2 ,… ,M k 相应的频数为: f 1 , f 2 ,… ,f k
样本加权平均
n
f
M
f f f f M f M f M x k
i i
i k
k
k ∑==
++++++=1
212211
总体加权平均
N
f
M
f f f f M f M f M k
i i
i k
k
k ∑==
++++++=1
212211 μ
例题分析:例
1
185120
222001
===
∑=n
f
M
x k
i i
i 例2、 甲乙两组各有10名学生,他们的考试成绩及其分布数据如下 甲组: 考试成绩(x ): 0 20 100 人数分布(f ):1 1 8 乙组: 考试成绩(x ):
0 20 100
人数分布(f ):8 1 1
解: )(8210
8100120101
分甲=?+?+?==
∑=n
x
x n
i i
)(1210
1
100120801
分乙=?+?+?=
=
∑=n
x
x n
i i
3、几何平均数
n 个变量值乘积的 n 次方根,适用于对比率数据的平均,主要用于计算平均增长率,计算公式为:
n
n
i i
n n m x
x x x G ∏==???=1
21
例题分析:
【例1】某水泥生产企业1999年的水泥产量为100万吨,2000年与1999年相比增长率为9%,2001年与2000年相比增长率为16%,2002年与2001年相比增长率为20%。求各年的年平均增长率。
解:
%
91.114%120%116%109321=??=???=n n
m x x x G 年平均增长率=114.91%-1=14.91% 【例2】一位投资者购持有一种股票,在2000、2001、2002和2003年收益率分别为4.5%、2.1%、25.5%、1.9%。计算该投资者在这四年内的平均收益率。 解:几何平均
%0787
.81%9.101%5.125%1.102%5.1044=-???=G
算术平均 ()%5.84%9.1%5.25%1.2%5.4=÷+++=G
众数:不受极端值影响,具有不惟一性,数据分布偏斜程度较大且有明显峰值时应用 中位数:不受极端值影响,数据分布偏斜程度较大时应用。
平均数:易受极端值影响,数学性质优良,数据对称分布或接近对称分布时应用。
第二、 离散程度的度量
数据分布的另一个重要特征,反映各变量值远离其中心值的程度(离散程度)。从另一个侧面说明了集中趋势测度值的代表程度,不同类型的数据有不同的离散程度测度值。
分类数据是异众比率,顺序数据是四分位差,数值型数据是方差和标准差,相对离散程度是离散系数。
异众比率:对分类数据离散程度的测度,非众数组的频数占总频数的比例,用于衡量众数的代表性。
计算公式为 ∑∑∑-
=-=
i
m
i
m
i
r
f f f
f f v 1 四分位数:对顺序数据离散程度的测度,也称为内距或四分间距。上四分位数与下四分位数之差:Q d = Q U – Q L
反映了中间50%数据的离散程度,不受极端值的影响,用于衡量中位数的代表性。
方差和标准差:数据离散程度的最常用测度值,反映了各变量值与均值的平均差异。根据总体数据计算的,称为总体方差或标准
差,记为σ2(σ);根据样本数据计算的,称为样本方差或标准差,记为s 2(s)
第三、偏态和峰态的度量
1、偏态:数据分布不对称性称为偏态(数据分布偏斜程度的测度)
根据原始数据计算
()
3
3)2)(1(s
n n x x n SK i ---=
∑ 根据分组数据计算 3
1
3)(ns
f x M
SK k
i i
i
∑=-=
偏态系数=0为对称分布;偏态系数> 0为右偏分布;偏态系数< 0为左偏分布;偏态系数大于1或小于-1,被称为高度偏态分布;偏态系数在0.5~1或-0.5~-1之间,被认为是中等偏态分布;偏态系数越接近0,偏斜程度就越低
例题分析:异众比例
例题分析:四分位数
例题分析:偏态和峰态系数
448.0)58.21(120540000)58.21(120)185()(3
310
1
3
3
1
3
=?=?-=
-=
∑∑==i i i k
i i
i f M ns f x M SK 结论:偏态系数为正值,但与0的差异不大,说明电脑销售量为轻微右偏分
布,即销售量较少的天数占据多数,而销售量较多的天数则占少数
306
.03694.23)
58.21(12070100000
3)(4
4
1
4-=-=-?=
--=
∑=ns
f x M
K k
i i
i
结论:峰态系数为负值,但与0的差异不大,说明电脑销售量为轻微扁平
分布
2、峰态:数据分布的平峰或尖峰的程度,称为峰态。数据分布扁平程度的测度,峰态通常是与标准正态分布比较而言的
根据原始数据 [
]4
2
24
)3)(2)(1()1()
(3)()1(s
n n n n x x x x n n K i i -------+=
∑∑ 根据分组数据 3)(4
1
4--=
∑=ns
f x M
K k
i i
i
峰态系数=0扁平峰度适中;峰态系数<0为扁平分布;峰态系数>0为尖峰分布
六、概率抽样的类型、样本均值和样本比例的抽样分布
第一、概率抽样的类型(简单随机抽样、分层抽样、系统抽样、整群抽样、多阶段抽样)
根据一个已知的概率来抽取样本单位,也称随机抽样。特点:按一定的概率以随机原则抽取样本;抽取样本时使每个单位都有一定的机会被抽中;每个单位被抽中的概率是已知的,或是可以计算出来的;一般的抽样推断都是建立在概率抽样的基础上。 1、 简单随机抽样
从总体N 个单位(元素)中随机地抽取n 个单位作为样本,使得总体中每一个元素都有相同的机会(概率)被抽中,也称为纯随机抽样。抽取元素的具体方法有重复抽样和不重复抽样。
特点:简单、直观,在抽样框完整时,可直接从中抽取样本;用样本统计量对目标量进行估计比较方便。
局限性:当N 很大时,不易构造抽样框;抽出的单位很分散,给实施调查增加了困难;没有利用其他辅助信息以提高估计的效率。 2、 分层抽样
将总体单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本(性别、年级、城乡) 层内各元素差异尽可能小,层间尽可能大。
优点:保证样本的结构与总体的结构比较相近,从而提高估计的精度;组织实施调查方便;既可以对总体参数进行估计,也可以对各层的目标量进行估计。 3、系统抽样
将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位:先从数字1到k 之间随机抽取一个数字r 作为初始单位,以后依次取r +k ,r +2k 等单位 优点:操作简便,可提高估计的精度。缺点:对估计量方差的估计比较困难 4、整群抽样
将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查。
特点:抽样时只需群的抽样框,可简化工作量;调查的地点相对集中,节省调查费用,方便调查的实施。缺点:估计的精度较差。 5、多阶段抽样
先抽取群,但并不是调查群内的所有单位,而是再进行一步抽样,从选中的群中抽取出若干个单位进行调查:群是初级抽样单位,第二阶段抽取的是最终抽样单位。将该方法推广,使抽样的段数增多,就称为多阶段抽样。
具有整群抽样的优点,保证样本相对集中,节约调查费用。需要包含所有低阶段抽样单位的抽样框;同时由于实行了再抽样,使调查单位在更广泛的范围内展开。在大规模的抽样调查中,经常被采用的方法。
第三、 样本均值的抽样分布
在重复选取容量为n 的样本时,由样本均值的所有可能取值形成的相对频数分布,一种理论概率分布,是推断总体均值μ的理论基础 。
1、数学期望与方差 样本均值的数学期望
μ=)(x E
样本均值的方差 重复抽样:n
x
2
2
σσ=
不重复抽样:??
?
??--=
122N n N n x
σσ
当总体无限大或N 很大n/N 很小时,其修正系数趋于1。
μμ==+++=
=
∑=5.216
.45.10.11
M
x
n
i i
x
为样本数目
M n
M
x n
i x
i
x 2221
2
2625.016)5.20.4()5.20.1()(σμ
σ=
=-++-=-=
∑=
比较及结论:样本均值的均值(数学期望) 等于总体均值;样本均值的方差等于总体方差的1/n 2、中心极限定理
当总体服从正态分布N (μ,σ2)时,来自该总体的所有容量为n 的样本的均值?x 也服从正态分布,?x 的数学期望为μ,方差为σ2/n 。即?x ~N (μ,σ2/n )。
从均值为μ,方差为σ 2的一个任意总体中抽取容量为n 的样本,当n 充分大时,样本均值的抽样分布近似服从均值为μ,方差为σ2/n 的正态分布
第四、样本比例的抽样分布
在重复选取容量为n 的样本时,由样本比例的所有可能取值形成的相对频数分布。一种理论概率分布,当样本容量很大时,样本比例的抽样分布可用正态分布近似,推断总体比例π的理论基础。 数学期望与方差: 样本比例的数学期望
π
=)(p E
样本比例的方差 重复抽样:n
p
)
1(2
ππσ-=
不重复抽样:??
?
??---=
1)1(2
N n N n
p
ππσ
七、评估估计量的标准
1、无偏性:估计量抽样分布的数学期望等于被估计的总体参数
2、有效性:对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效
3、一致性:随着样本容量的增大,估计量的值越来越接近被估计的总体参数
八、一个参数的区间估计
总体均值的区间估计:当用原始数据构建置信区间时,置信区间的计算结果应保留的小数点位数要比原始数据中使用的小数点多一位。如,原始数据有一位小数,置信区间的结果应保留两位小数(结果的四舍五入原则)。 1、正态总体、s 2
已知,或非正态总体、大样本
假定条件:总体服从正态分布,且方差(σ2
) 已知;如果不是正态分布,可由正态分布来近似 (n 3 30) 使用正态分布统计量 z :
)1,0(~N n
x z σμ
-=
总体均值 μ 在1-α 置信水平下的置信区间为:)(2
未知或σσ
αα
n
s
z x n
z x ±± 例题分析:
【 例1 】一家食品生产企业以生产袋装食品为主,为对产量质量进行监测,企业质检部门经常要进行抽检,以分析每袋重量是否符合要求。现从某天生产的一批食品中随机抽取了25袋,测得每袋重量(单位:g )如下表所示。已知产品重量的分布服从正态分布,且总体标准差为10g 。试估计该批产品平均重量的置信区间,置信水平为
95%
解:已知X~N (μ,102),n =25, 1-α = 95%,z α/2=1.96。根据样本数据计算得:36.105=x ,由于是正态总体,且方差已知。总体
均值μ在1-α置信水平下的置信区间为:
()
28.109,44.10192.336.10525
1096.136.1052
=±=?±=±n
z x σ
α,所以该食品平均重量的置信区间为101.44g~109.28g
【例2】一家保险公司收集到由36投保个人组成的随机样本,得到每个投保人的年龄(单位:周岁)数据如下表。试建立投保人年龄90%的置信区间
解:已知n =36, 1-α = 90%,z α/2=1.645。根据样本数据计算得:5.39=x
,77.7=s ,总体均值μ在1-α 置信水平下的置信区间:
()
63.41,37.3713.25.3936
77.7645.15.392
=±=?±=±n s z x α,所以投保人平均年龄的置信区间为37.37岁~41.63岁 2、正态总体、s 2
未知、小样本
假定条件:总体服从正态分布,但方差(σ2
) 未知,小样本 (n < 30) 使用 t 分布统计量:
)1(~--=
n t n
s x t μ
总体均值 μ 在1-α置信水平下的置信区间为:n
s t x 2
α
± 例题分析:
【例1】已知某种灯泡的寿命服从正态分布,现从一批灯泡中随机抽取16只,测得其使用寿命(单位:h)如下。建立该批灯泡平均使用寿命95%的置信区间
解:已知X~N (μ,σ2),n =16, 1-α = 95%,t α/2=2.131,根据样本数据计算得:1490=x ,77.24=s ,总体均值μ在1-α置信水平
下的置信区间为
()
2.1503,8.14762.13149016
77.24131.214902
=±=?±=±n s t x α,该种灯泡平均使用寿命的置信区间为1476.8h ~1503.2h 九、样本容量的确定
1、估计总体均值时样本容量的确定 估计总体均值时样本容量n 为:
2
2
22)(E z n σα=
,其中 n
z E σ
α
2
=
样本容量n 与总体方差σ 2、边际误差E 、可靠性系数Z 或t 之间的关系为:与总体方差成正比、与边际误差的平方成反比、与可
靠性系数成正比。
样本容量的圆整法则:当计算出的样本容量不是整数时,将小数点后面的数值一律进位成整数,如24.68取25,24.32也取25等。 例题分析:
【例】拥有工商管理学士学位的大学毕业生年薪的标准差大约为2000元,假定想要估计年薪95%的置信区间,希望边际误差为400元,应抽取多大的样本容量?
解: 已知σ =2000,E =400, 1-α=95%, z α/2=1.96
应抽取的样本容量为97
04.964002000)96.1()(22
222
22≈=?==E z n σα,即应抽取97人作为样本 2、估计总体比例时样本容量的确定
根据比例区间估计公式可得样本容量n 为:2
22)
1()(E
z n ππα-?=
,其中n
z E )
1(2
ππα
-=
E 的取值一般小于0.1,π未知时,可取使方差最大值0.5 例题分析:
【例】根据以往的生产统计,某种产品的合格率约为90%,现要求边际误差为5%,在求95%的置信区间时,应抽取多少个产品作为样本?
解:已知π=90%,α=0.05, z α/2=1.96,E =5%,应抽取的样本容量为
139
3.13805.0)9.01(9.0)96.1()
1()(2
22
22≈=-??=-?=
E z n ππα, 应抽取139个产品作为样本
十、左侧检验和右侧检验
假设:对总体参数的具体数值所作的陈述
假设检验:先对总体的参数(或分布形式)提出某种假设,然后利用样本信息判断假设是否成立的过程。有参数检验和非参数检验,
逻辑上运用反证法,统计上依据小概率原理。
原假设:研究者想收集证据予以反对的假设,又称“0假设”。总是有符号 =,≤ 或≥,表示为 H 0:H 0 : m = 某一数值 ;指定为
符号 =,≤ 或≥。例如, H 0 :u = 10cm
备择假设:研究者想收集证据予以支持的假设,也称“研究假设”。总是有符号 ≠, < 或 >。表示为 H 1:H 1 :u <某一数值,或u >
某一数值;例如, H 1 :u < 10cm ,或u >10cm
提出假设:原假设和备择假设是一个完备事件组,而且相互对立。在一项假设检验中,原假设和备择假设必有一个成立,而且只有一个成立。先确定备择假设,再确定原假设。等号“=”总是放在原假设上。因研究目的不同,对同一问题可能提出不同的假设(也可能得出不同的结论)。 例题分析:
【例1】一种零件的生产标准是直径应为10cm ,为对生产过程进行控制,质量监测人员定期对一台加工机床检查,确定这台机床生产的零件是否符合标准要求。如果零件的平均直径大于或小于10cm ,则表明生产过程不正常,必须进行调整。试陈述用来检验生产过程是否正常的原假设和备择假设
解:研究者想收集证据予以证明的假设应该是“生产过程不正常”。建立的原假设和备择假设为 H 0 :u = 10cm H 1 : u ≠10cm
【例2】某品牌洗涤剂在它的产品说明书中声称:平均净含量不少于500g 。从消费者的利益出发,有关研究人员要通过抽检其中的
一批产品来验证该产品制造商的说明是否属实。试陈述用于检验的原假设与备择假设
解:研究者抽检的意图是倾向于证实这种洗涤剂的平均净含量并不符合说明书中的陈述。建立的原假设和备择假设为H0 :u ≥500 H1 :u < 500
【例3】一家研究机构估计,某城市中家庭拥有汽车的比例超过30%。为验证这一估计是否正确,该研究机构随机抽取了一个样本进行检验。试陈述用于检验的原假设与备择假设
解:研究者想收集证据予以支持的假设是“该城市中家庭拥有汽车的比例超过30%”。建立的原假设和备择假设为H0 :u≤30% H1 :u > 30%
备择假设具有特定的方向性,并含有符号“>”或“<”的假设检验,称为单侧检验或单尾检验。其中:备择假设的方向为“<”,称为左侧检验;备择假设的方向为“>”,称为右侧检验。
11、弃真和取伪错误
1、弃真错误:原假设为正确时拒绝原假设,第Ⅰ类错误的概率记为a,被称为显著性水平
2、取伪错误:原假设为错误时未拒绝原假设,第Ⅱ类错误的概率记为?(Beta)
二者关系:a小?就大,a大?就小。
同时减少两类错误的惟一办法是增加样本容量。
两类错误的控制:
一般来说,对于一个给定的样本,如果犯第Ι类错误的代价比犯第Ⅱ类错误的代价相对较高,则将犯第Ⅰ类错误的概率定得低些较为合理;反之,如果犯第Ι类错误的代价比犯第Ⅱ类错误的代价相对较低,则将犯第Ⅰ类错误的概率定得高些
一般来说,发生哪一类错误的后果更为严重,就应该首要控制哪类错误发生的概率。但由于犯第Ι类错误的概率是可以由研究者控制的,因此在假设检验中,人们往往先控制第Ι类错误的发生概率
12、如何利用P值进行决策
P值:如果原假设为真,所得到的样本结果会像实际观测结果那么极端或更极端的概率。
P值告诉我们:如果原假设是正确的话,我们得到目前这个样本数据的可能性有多大,如果这个可能性很小,就应该拒绝原假设。决策规则:若p值< a,拒绝H0。
多大的P 值合适:
(1)原假设的可信度有多高?如果H0所代表的假设是人们多年来一直相信的,就需要很强的证据(小的P值)才能说服他们
(2)拒绝的结论是什么?如果拒绝H0而肯定H1,就需要有很强的证据显示要支持H1。比如,H1代表要花很多钱把产品包装改换成
另一种包装,你就要有很强的证据显示新包装一定会增加销售量(因为拒绝H 0要花很高的成本)
13、一个参数的假设检验
总体均值的检验:
1、 大样本
假定条件:正态总体或非正态总体大样本(n ≥30) 使用Z 检验统计量 σ2
已知:)1,0(~0N n x z
σμ-=
σ2
未知:)1,0(~0
N n
s x z μ-=
例题分析:
【例1】(σ2
已知)一种罐装饮料采用自动生产线生产,每罐的容量是255ml ,标准差为5ml 。为检验每罐容量是否符合要求,质检
人员在某天生产的饮料中随机抽取了40罐进行检验,测得每罐平均容量为255.8ml 。取显著性水平α=0.05 ,检验该天生产的饮料容量是否符合标准要求?
解:H 0 :u = 255,H 1 :u ≠ 255,a = 0.05,n = 40
临界值(c ):如左图
检验统计量:
01.140
5255
8.2550=-=-=
n x z σμ 决策: 不拒绝H 0
结论: 样本提供的证据还不足以推翻“该天生产的饮料符合标准要求 ”的看法
【例2】(左侧检验σ2
未知)
解:H 0 :u ≥1.35,H 1 :u <1.35,a = 0.01,n = 50
临界值(c ): 检验统计量:
6061.250
365749.035
.13152.1-=-=
z 决策:拒绝H 0
结论:新机床加工的零件尺寸的平均误差与旧机床相比有显著降低
【例3】(右侧检验σ2
未知)某一小麦品种的平均产量为5200kg/hm 2
。一家研究机构对小麦品种进行了改良以期提高产量。为检
验改良后的新品种产量是否有显著提高,随机抽取了36个地块进行试种,得到的样本平均产量为5275kg/hm 2,标准差为120/hm 2
。试检验改良后的新品种产量是否有显著提高? (α=0.05) 解:H 0 :u ≤5200,H 1 :u >5200,a = 0.05,n = 36
临界值(c ):如左图
检验统计量:
75.336
1205200
5275=-=
z 决策:拒绝H 0
(P = 0.000088 < a = 0.05)
结论:改良后的新品种产量有显著提高
2、 小样本
假定条件:总体服从正态分布,小样本(n < 30) 检验统计量: σ2
已知 )1,0(~0N n x z
σμ-=
σ2
未知 )1(~0
--=n t n
s x t μ
例题分析:
【例】一种汽车配件的平均长度要求为12cm ,高于或低于该标准均被认为是不合格的。汽车生产企业在购进配件时,通常是经过招标,然后对中标的配件提供商提供的样品进行检验,以决定是否购进。现对一个配件提供商提供的10个样本进行了检验。假定该供货商生产的配件长度服从正态分布,在0.05的显著性水平下,检验该供货商提供的配件是否符合要求?
解:H 0 :u =12,H 1 :u ≠112,a = 0.05,df = 10 - 1= 9
临界值(c ): 检验统计量:
7035.010
4932.012
89.11-=-=
t 决策: 不拒绝H 0
结论:样本提供的证据还不足以推翻“该供货商提供的零件符合要求 ”的看法
14、相关系数的计算及性质
相关系数:度量变量之间关系强度的一个统计量,对两个变量之间线性相关强度的度量称为简单相关系数。若相关系数是根据总体全部数据计算的,称为总体相关系数,记为ρ;若相关系数是根据样本数据计算的,则称为样本相关系数,简称为相关系数,记为 r 。也称为线性相关系数或称为Pearson 相关系数 计算公式:
∑∑∑-?---=
2
2
)
()()
)((y y x x y y x x r 或者 ()()
2
22
2∑∑∑∑∑∑∑-?--=
y y n x x n y
x xy n r
性质:
性质1:r 的取值范围是 [-1,1]。 |r |=1,为完全相关;r =1,为完全正相关;r =-1,为完全负正相关; r = 0,不存在线性相关关系;
-1≤r <0,为负相关;0 性质2:r 具有对称性。即x 与y 之间的相关系数和y 与x 之间的相关系数相等,即r xy = r yx 性质3:r 数值大小与x 和y 原点及尺度无关,即改变x 和y 的数据原点及计量尺度,并不改变r 数值大小 性质4:仅仅是x 与y 之间线性关系的一个度量,它不能用于描述非线性关系。这意味着, r =0只表示两个变量之间不存在线性相 关关系,并不说明变量之间没有任何关系 性质5:r 虽然是两个变量之间线性关系的一个度量,却不一定意味着x 与y 一定有因果关系 相关系数的经验解释:|r |≥0.8时,可视为两个变量之间高度相关;0.5≤|r |<0.8时,可视为中度相关;0.3≤|r |<0.5时,视为低度相关;|r |<0.3时,说明两个变量之间的相关程度极弱,可视为不相关。上述解释必须建立在对相关系数的显著性进行检验的基础之上 15、回归方程的估计 参数的最小二乘估计: 德国科学家提出用最小化图中垂直方向的误差平方和来估计参数,使因变量的观察值与估计值之间的误差平方和达到最小来求 得0 ?β 和1?β 的方法。即 最小=--=-∑∑==n i i i n i i x y y y 1 210 1 2 )??()?(ββ 用最小二乘法拟合的直线来代表x 与 y 之间的关系与实际数据的误差比其他任何直线都小。 根据最小二乘法,可得求解0 ?β和1?β的公式如下: ???????=---==---=?∑∑====0)??(20)??(212 10?1 1210?01 10 0n i i i i n i i i x y x Q x y Q ββ?β?βββ?ββββ x y x x n y x y x n n i n i i i n i i n i i n i i i 1 01212111 1???βββ-=?? ? ??-??? ????? ??-=∑∑∑∑∑===== 【例】求不良贷款对贷款余额的回归方程。 ()?????-=?-==-??-?=8295.0268.120037895 .0728.3?037895.07.300637.516543252.937.300614.17080 25?021 ββ 回归方程为:y = -0.8295 + 0.037895 x 回归系数1 ?β=0.037895 表示,贷款余额每增加1亿元,不良贷款平均增加0.037895亿元 16、判断系数的计算及取值范围 判定系数R 2 :回归平方和占总误差平方和的比例 ()() ()() ∑∑∑∑====--- =--== n i i n i i n i i n i i y y y y y y y y SST SSR R 12 12 1 2 12 2??1? 反映回归直线的拟合程度,取值范围在 [ 0 , 1 ] 之间。 R 2 →1,说明回归方程拟合的越好;R 2→0,说明回归方程拟合的越 差。判定系数等于相关系数的平方,即R 2 =r 2 例题分析: 【例】计算不良贷款对贷款余额回归的判定系数,并解释其意义。 %16.717116.06504 .3124860 .2222==== SST SSR R 判定系数的实际意义是:在不良贷款取值的变差中,有71.16%可以由不良贷款与贷款余额之间的线性关系来解释,或者说,在不良贷款取值的变动中,有71.16%是由贷款余额所决定的。也就是说,不良贷款取值的差异有2/3以上是由贷款余额决定的。可见不良贷款与贷款余额之间有较强的线性关系 17、回归方程及参数的显著性检验 1、线性关系的检验:(F 检验) 检验自变量与因变量之间的线性关系是否显著,将回归均方(MSR )同残差均方(MSE )加以比较,应用F 检验来分析二者之间的差别是否显著。回归均方:回归平方和SSR 除以相应的自由度(自变量的个数k ) 。残差均方:残差平方和SSE 除以相应的自由度(n -k -1)。 步骤: 提出假设: H 0:β1=0 线性关系不显著 计算检验统计量F )2,1(~21-=-= n F MSE MSR n SSE SSR F 确定显著性水平α,并根据分子自由度1和分母自由度n -2找出临界值F α 做出决策:若F >F α,拒绝H 0;若F 1提出假设:H 0:β1=0 不良贷款与贷款余额之间的线性关系不显著 2计算检验统计量F 753844.562 25164421.901 48598.22221=-=-= n SSE SSR F 3确定显著性水平α=0.05,并根据分子自由度1和分母自由度25-2找出临界值F α=4.28 4作出决策:若F >F α,拒绝H 0,线性关系显著 2、回归系数的检验(T 检验) 检验 x 与 y 之间是否具有线性关系,或者说,检验自变量 x 对因变量 y 的影响是否显著,理论基础是回归系数1 ?β的抽样分布 在一元线性回归中,等价于线性关系的显著性检验,采用T 检验。 样本统计量1 ?β的分布: 根据最小二乘法求出的样本统计量,它有自己的分布。1?β的分布具有如下性质:分布形式是正态分布; 数学期望:11)?(ββ=E 标准差:() ∑-= 2 ?1 x x i σ σβ 由于σ 未知,需用其估计量s e 来代替得到1?β的估计的标准差 () ∑-= 2 ?1 x x s s i e β 检验步骤: 1提出假设:H 0: b 1 = 0 (没有线性关系) ,H 1: b 1 ≠ 0 (有线性关系) 2计算检验的统计量:)2(~?1 ? 1-= n t s t ββ 3确定显著性水平α,并进行决策。? t ?>t α/2,拒绝H 0;? t ? 2计算检验的统计量:533515.7005030 .0037895 .0== t 3 t =7.533515>t α/2=2.201,拒绝H 0,表明不良贷款与贷款余额之间有显著的线性关系 3、 区间估计 置信区间估计: ()() ∑=--+-±n i i e x x x x n s n t y 1 2 20201 )2(?α 式中:s e 为估计标准误差 【例】求出贷款余额为100亿元时,不良贷款95%置信水平下的置信区间 解:根据前面的计算结果,已知n =25, 96.2?0=y s e =1.9799,t α/2(25-2)=2.069,置信区间为: 5744 .154933)268.120100(2519799.1069.296.22 -+ ??± 8059.3)(1141.20≤≤y E 当贷款余额为100亿元时,不良贷款的平均值在2.1141亿元到3.8059亿元之间