当前位置：文档之家› 统计学整理讲解

统计学整理讲解

1章

。

统计知识能够帮助我们把随机性归纳于可能的规律性
统计从我们如何观察事物和事物本身如何真正发生这两个方面帮助我们理解随机性和规律

偏差问题的研究。根据作为统计基础的数学理论，
以及在下一次的重复调查中，这个比例
我们还可以指出，两个比例之间的差异是否大到了随机性本身所不能解释

0到1之间的数，它告诉我们某一事件发生的机会有多大。
概率为统计学的第三个方面——如何从数据中得出结论——奠定了基石。
我们可能永远不能确定两个数字的差异是否超出了随机性本身所预期的范围，但是我们

(variable)

(value)
1.1列出了一些变量、变量的取值及其所测量的个体的例子。从表中可知，性别

变量的值个体
男，女人
小学，中学，本科，
人
有工作，无工作人
0， 1， 2， 3，… 家庭
严重，一般，边缘，
地区
上面介绍的是经验变量，级处理的对像是我们周围可观测到的物质世界中的事物。
用数学方法推导的变量称为理论变量——z，t，和F变量。
与变量相对的概念是常数。在统计中经常使用的一种被称做参数的常数。
定量变量或数值变量
可以用阿拉伯数据来记录其观察结果
如“企业销售额”、“上涨股票的家数”、“生活费支出”、“投掷一枚骰子出

定量变量的观察结果称为定量数据或数值型数据
分类变量
表现为不同的类别
如“性别”、“企业所属的行业”、“学生所在的学院” 等
分类变量的观察结果就是分类数据
顺序变量或有序分类变量
具有一定顺序的类别变量
如考试成绩按等级，一个人对事物的态度
顺序变量的观察结果就是顺序数据或有序分类数据
定性变量

换句话说，变量必须有一个明确的适合研究目

其中一种是当我们观测现实世界时收集到的数据，如在不同城市中
观测数据是指仅通过对世界的观察(而没有操纵或控制它)所得到的数据。

抽样调查（sample survey）
普查（census）
抽样的精髓：从检查一部分来得知全体。
抽样调查是一种很重要的观测研究，选中这些人是因为他们具有代表性局限性：time

收集数据是为了从收集的个体中得出结论。
所有我们感兴趣的个体就组成了总体。比如，你读本教材这一时刻，我国所有居民就构

有时我们能够收集到总体中所有个体的数据。在这种情况下，我们就是对总体做了普查
。我国进行的第六次全国人口普查就是希望确定我国所有居民数。
然而，在苛刻的现实生活中，由于资金、时间有限以及不断变化的环境条件，普查通常
此时，我们需要把收集数

据限制在总体的一个样本上，样本是总体的中的一

我们希望基于样本得出的结论能够适用于该样本所属的总体，这依赖于获得一个"好"

由于样本选择对于结果的可信度有重要作用，所以根据正确的统计原理选择样本是非常

根据一个已知的概率来抽取样本单位，也称随机抽样
特点
按一定的概率以随机原则抽取样本

每个单位被抽中的概率是已知的，或是可以计算出来的
当用样本对总体目标量进行估计时，要考虑到每个样本单位被抽中的概率

搅拌均匀，并随机抽取，其结果就是一个简

从总体N个单位(元素)中随机地抽取n个单位作为样本，使得总体中每一个元素都有相
(概率)被抽中 ——帽子抽签法
抽取元素的具体方法有重复抽样和不重复抽样
可以使用随机数表或电脑产生的随机数字来实现
特点
简单、直观。
用样本统计量对目标量进行估计比较方便
局限性
抽出的单位很分散，给实施调查增加了困难
没有利用其他辅助信息以提高估计的效率

由简单随机抽样形成的样本
从总体N个单位中随机地抽取n个单位作为样本，使得每一个容量为n样本都有相同的
(概率)被抽中
参数估计和假设检验所依据的主要是简单随机样本

将总体单位按某种特征或某种规则划分为不同的层，然后从不同的层中独立、随机地抽

优点
保证样本的结构与总体的结构比较相近，从而提高估计的精度
组织实施调查方便
既可以对总体参数进行估计，也可以对各层的目标量进行估计

将总体中的所有单位(抽样单位)按一定顺序排列，在规定的范围内随机地抽取一个单位

先从数字1到k之间随机抽取一个数字r作为初始单位，以后依次取r+k，r+2k…等单位
优点：操作简便，可提高估计的精度
缺点：对估计量方差的估计比较困难

将总体中若干个单位合并为组(群)，抽样时直接抽取群，然后对中选群中的所有单位全

特点
抽样时只需群的抽样框，可简化工作量
调查的地点相对集中，节省调查费用，方便调查的实施
缺点是估计的精度较差

又称“清点”。企图把整个总体纳入样本的抽样调查。
即使有政府的强大后盾，普查也不是一定做得到的。
但一个糟糕的普查往往比不上一个设计和实施都比较好的抽样调查。
"坏的"样本
方便样本
从方便样本中得出的结果有时候很难推广到整个总体。

随机抽样误差是样本统计量和总体参数之间的差距，是在选取样本时因机遇造成的。
非抽样误差是和“从总体取样本”这个动作无关的误差。非抽样误差即使在人口普杳中

抽样误差。
"误差"

一些经验表明，在大

部分情况下，未响应者和响应者并无多大差别。如果我们开始时有
那么可假定未响应者也依同样的比例作出回答。但是如果响应率很低，
50%，那么不响应的影响可能会很大。

由于问题的提问方式、问题所处的位置或访员的影响而使得响应者

实验数据是指在实验中控制实验对象而收集到的变量的数据。实验是检验变量间因果关
在实验中，研究者试图控制某一情形的所有相关方面，操纵少数感兴趣

我们不只是观察个体或问他们问题，而是刻意加上某些处理，以期能观察其反应。
VS实验
实验比观测研究更有优势，因为实验可以为“因果关系”提供良好的证据。
如果我们适当的设计实验，例如使得两组对象的其他变量——年龄、教育程度等基本接

2章分类数据的描述方法

频数表
统计图
列联表

这可以帮助我们对数据进行简化。简化使得理解数据和从数据中提取信息变得容易了。
但是数据简化有一个不足之处，就是难以从简化的形式中恢复原始数据，因此，当我们

、绘制一个图。图像可以帮助你看到从数据表里看不到的信息，有助于你选择分析的方法，

、绘制一个图。精心设计的图像在分析工作中很重要。它能够展现重要的特征和模式，有时

、绘制一个图。使用一个精心挑选的图像是向其他人汇报你的数据分析结果的最佳方式。

频数：落在各类别中的数据个数
比例：某一类别数据个数占全部数据个数的比值
百分比：将对比的基数作为100而计算的比值
比率：不同类别数值个数的比值

如果想获得更生动的展示，我们可以使用统计图。
统计图是用几何图形或具体事物的形象来表现统计数据的一种形式。
统计图既可以节省大量文字叙述，又可便于数据的对比分析与积累。利用统计图表现统

按照图形的形式，统计图大体上可以分为几何图、象形图和统计地图三种。
1）几何图。几何图是利用几何的形和线来表明统计数据的图形，包括条形图、饼图等。
2）象形图。象形图是以表示现象本身形象的长度、大小、多少来表示数值大小的一种图形。
1990年、2000年和2005年三年的原油产量
3）统计地图。统计地图是用不同的颜色或纹理表示变量或某种指标在地域上的分布特征及
用以显示不同地域事物数量的分布情况。例如可以利用颜色的深浅来表示某地区各县某

在得到频数表之后，我们就可以按照数据分析的三个原则来对数据进行绘图。但是不能

获得最佳数据展示的一个基础原则就是面积原则，即图像一部分所占的面积应该与数据

分类数据的一个常用统计图是条形图。
条形图是用等

宽直条的长短来表示各个相互独立的指标大小的图形，适用于相互独立的
。
条形图可以描述那些已经用频数或频率汇总了的定性变量。一个坐标轴代表定性变量的

条形图分为单式和复式两种，单式适用于只有一组观察数据，复式适用于有若干组观察

条形图有很多变种。比如，纵轴和横轴可以互换，这决定条形是垂直放置（柱形图）还

饼图(pie chart)又叫圆形图，是一个圆面积为100%，由许多扇形组成的圆，各个扇形
(或类别)的频率或比例，即表示了不同组成部分的相对重

列联表是由两个或两个以上变量进行交叉分类得到的频数分布表。
列联表中间的各个变量不同水平的交汇处，就是这种水平组合出现的频数或计数
构成列联表的变量都是定性变量或定序变量。一个 r 行 c 列的列联表称为 r×c 列联
2×2的二维列联表又称为交叉表。
列联表可以有很多维。维数多的叫做高维列联表
行百分数。
列百分数。
百分数。
使用列联表更感兴趣的问题是了解变量之间有没有关联。
在列联表里还有一种情况是，如果一个变量的分布对于另一个变量的所有取值保持不
则我们可以说这个两个变量是独立的（independent），这表明这些变量之间没有关

3章定量数据的描述方法
统计数据的分组

将数据按其分组标志进行分组的过程，就是次数分配形成的过程。

1步，确定组的个数。太多或太少的组都不能揭示数据集的基本形状，确定组数的一个有用
“2的k次方法则”，选择使2k 大于观测值个数（n）的最小值（k）作为组的个数。在
6。
2步，确定组距。组距是每一组最大值与最小值之差。一般地，所有各组的组距或组宽都应
，其
i是组距，Max是最大观测值，Min是最小观测值，k是组数。在实际中，组距大小通常四
比如10或100的倍数。在这个案例中，将更乐于使用10元作为组距。
3步，确定各组的组限。每个观测值只归入一个组，必须避免重叠的或者不清楚的组限。由
所以我们覆盖了比需要的范围要大的范围。当
10的倍数作为组限。
4步，把股价变化值分配到相应的组内，数出每组中的项目个数。在-10元~0元这一组中有
个观测值，在10元~20元这一组中有1个观测值。于是得到下表3.2。
(histogram)主要用以表示分组数据的频数分布特征，是分析总体数据分布特征最有用的

把横轴分成若干通常是等距的区间（区间可以不等距，但是只有等距分组的直方
，然后计算数

frequency polygon）类似于直方图，它以各组标志值的中点位置作为该组标志的

但是直方图的优点是用矩形条描述每一组，矩形条的高度表

(stem-and-leaf plot)是一种可

以较简练的表现数据信息的图表，类似于直方图，但包含

(line chart)经常用来描述时间序列数据，用以反映某些指标或变量随时间的变化趋势，有
时间序列图(time series plot)。
它以度量值为纵轴，以度量值发生的

箱线图
众数

取两个众数比取一个仅有几个观测值

众数具有不受极端大值或者极端小值影响的优点。在某些情况下，众数是一个较好的代

因此只用众数，数据集中的信

这个值出现的次数比其它的值出现的次数多，但它并未告诉我们它较
100人组成的群体，无论它有51个女人(和49个男人)或者99个
(和1个男人)，其性别变量的众数都是女人。这两种情况是非常不同的，但是众数并

中位数

中位数对极端值不敏感，在某些情况下这将是一种优点。中位数不易受极端值影响的性
稳健性(robust)。

就是数据值与中位数之差的绝对值之和最小，也就是说，如果用其

3.3.4 众数、中位数和均值间的关系
分布的离散程度
极差和四分位差
是极大值和极小值之间的差。
50cm和32cm。
称为四分位数极差或四分位间距。它描述了中间半数

标准差和方差
标准差。度量样本中各数值到均值距离的一种平均。
方差的平方根。

变异系数
。

数据的标准得分
但是可以把它们进行标准化，再比较标准
score）和该样本均值之
标准得分(standard score，又称为z-score、
第四章、概率
什么是概率

就是一个数字。介于0和1之间，描述一个事件发生的经常性。
小概率(接近零)的事件很少发生，而大概率(接近1)的事件则经常发生。
是导致所有可能观测中有且仅有一个出现的过程。在统计学中一个试验有两个或两个以上

（outcome）是指一个试验的特定结果。例如，抛硬币是一个试验，你可以观察抛硬币，
“正面”或是“反面”，因为一个结果是“正面”，另一个是“反面”。
事件。
正态分布
。正态分布也是一族分布，各

N(,) 表示；其中为均值，而为方差（标准差的平方）。也常用N(,)
为标准差。
1的正态分布N(0, 1)称为标准正态分布
(x)表示。
N(,)的随机变量X都可以用简单的变换（减去其均值，再除以标准差）：
=(X-，而成为标准正态随机变量。这种变换和标准得分的意义类似。
t-分布
得到的结果分布就不再是标准正态分布了。它的密
t-分布
，
t分布也不同, 这样就形成一族分布。
分布族中的成员是以自由度来区分的。这里的自由度等于样本量减去1（如果样本量为n，刚
t分布的自由度为n-1）。
t分布的方式很多，简单说自由度就是样本量减1是不准确的。自由度甚至

不一定是