人大统计学
专业课读书笔记
—By fan
(声明:这是fan的个人读书笔记,仅供参考。)
https://www.doczj.com/doc/8912118894.html,
https://www.doczj.com/doc/8912118894.html,
《统计学》(贾俊平)
1 参数估计
1.参数估计:统计推断的重要内容之一,以抽样和抽样分布为基础,用样本统计量来估
计未知总体参数。
2.估计量:估计总体参数的统计量。
3.估计值:用具体样本计算出的估计量的值,即估计量的实现。
4.点估计:用某个估计值作为总体参数的估计。
5.区间估计:以点估计为基础,给出总体参数估计的一个区间范围,由点估计量加减边际误差得到。能由抽样分布给出估计量与总体参数接近程度的概率度量,即置信水平。
6.置信区间:总体参数的估计区间。统计学家在某种程度上确信它会包含总体参数真值,是随机区间。
7.置信水平(置信度):重复构造置信区间多次,其中包含总体参数真值的区间个数所占的比例。它是针对随机区间而言的。
8.估计量评价标准:无偏性、有效性、一致性。
9.理论基础
①大数定律:揭示了大量随机现象均值的稳定性。常见的有伯努利大数定律(频率稳定性),辛钦大数定律(简单随机样本均值依概率收敛于总体均值),切比雪夫大数定律。是用样本估计总体的理论基础。
②中心极限定理:揭示了独立同分布随机变量之和的极限分布是正态分布。常见的有伯努利试验场合、独立同分布试验场合的中心极限定理。是区间估计和假设检验的理论基础。
③抽样分布基本定理(正态假定)
a. 2~(,/)X N n μσ;
b. 222(1)/~(1)n S n σχ--;
c. X 与2S 相互独立;
d.
~(1)X t n -; e. 22
12
122212
/~(1,1) ()/S S F n n σσ--独立样本;
f.
22
1212~(2) (=)X Y t n n σσ+-独立样本,。
https://www.doczj.com/doc/8912118894.html,
10.单总体参数估计
①目标量:μ,π,2σ。
②影响因素:a.是否是正态总体;b.总体方差是否已知;c.是大样本还是小样本。 ③抽样分布 a.
~(0,1)X Z N =
; b.
~(1) ~~(0,1) () t n X t N -?=?
? ,
大样本; c.
~(0,1) (5()5)Z N np n n p =
≥-≥ 大样本,,;
d. 2222(1)/~(1)n S n χσχ=--。
11.两总体参数估计
①目标量:12μμ-,12ππ-,22
12σσ-。
②影响因素:a.是否是正态总体;b.两总体总体方差是否已知、是否相等;c.是大样
本还是小样本,两样本量是否相等;d.是独立样本还是匹配样本。
③抽样分布
a.
~(0,1) ()X X Z N =
独立样本;
b.
~(0,1) ()X X Z N =
独立大样本;
c.
221212~(2) ()X X t t n n σσ=
+-独立样本,=;
d.
~(0,1) ()d Z N =
匹配样本;
e.
~(0,1) ()d Z N =
匹配大样本;
f.
~(0,1) ()Z N =
独立大样本;
https://www.doczj.com/doc/8912118894.html,
g. 22
12
2212
/~(1,2) ()/S S F F n n σσ=--独立样本。
12.
确定样本量:22/2/22 (1)z E z n E E αασα=?=-表示可靠性,表示精度。
2 假设检验
1.假设检验:统计推断的重要内容之一,先对总体参数提出一个假设,然后利用样本来
检验该假设是否成立。
2.原假设与备择假设:假设检验是围绕原假设是否成立展开的,若拒绝原假设,就用备择假设来替换。推翻原假设需要样本落入否定域,这是小概率事件,故在一次试验中原假设具有优势而备择假设不易发生,一旦发生,我们就有足够的理由推翻原假设,这意味着新结论的诞生。
3.弃真错误(α错误)与取伪错误(β错误):前者是原假设为真却被拒绝所犯的错误,后者是原假设为假却没被拒绝所犯的错误。样本量一定时,两者是此消彼长的关系;若增大样本量,则两者同时变小。假设检验中遵循“首先控制犯α错误”的原则。
4.小概率原理:发生概率很小的随机事件在一次试验中几乎不可能发生。
5.统计量检验与P 值检验
①否定域:由一个直观上有明确意义的统计量确定。
②P 值:当原假设为真时,得到所观测结果或更极端结果的概率。
③比较:统计量检验是先确定一个显著性水平α从而获得一个否定域,进行决策的界限清晰但面临的风险是笼统的,确定临界值要查表,检验统计量一般与自由度有关因而可比性较差;P 值是检验的真实显著性水平,可利用P 值直接决策或将P 值与α进行比较,不需要查表,具有可比性。
6.假设检验流程图(见图1)
3 方差分析
1.基本思想:表面上是检验多总体均值是否相等,本质上是研究变量间的关系,即通过各总体均值是否相等来判断分类型自变量对数值型因变量是否有显著影响,其中需要分析数据变异的来源。观察到的数据一般是参差不齐的,我们用SST 度量数据总的变异,将它分解为可追溯到来源的部分变异SSE 与SSA 之和,若后者的平均MSA 明显比前者的平均MSE 大,
https://www.doczj.com/doc/8912118894.html,
图1
就认为自变量对因变量有显著影响。在方差分析的基本假定下,上述问题形式上就转化为检验各总体均值是否相等的问题。
2.基本假定:a.各总体服从正态分布;b.各总体方差相同;c.各观测值相互独立。
3.方差分析与两两均值检验:两两均值检验会增加犯第Ⅰ累错误的概率((1)/21(1)n n αα--->),而且随着检验次数的增多,偶然因素导致差别的可能性也会增加;方差分析是同时考虑所有样本,排除了错误的累积,减少了偶然因素的不利影响,也简化了检验的过程。
4.单因素方差分析 ①数据结构
1C 2C k C
11x 12x 1k x 21x 22x 2k x
1
1n x 2
1n x k
n k x
表1
②方差分析模型
由基本假定,2~(,), 1,,;1,,ij j j x N i n j k μσ==
https://www.doczj.com/doc/8912118894.html,
令2~(0,)ij ij j x N εμσ=- 有ij j ij x με=+
令总均值11
1 ()k
k
j j j j j n n n n μμ====∑∑
有1
1
()0k k
j j j j j j n n μμα==-==∑∑ (j α称为第j 个水平的效应)
得单因素方差分析模型
2
1, 1,,;1,,~(0,), 0ij j ij j
ij ij k
j j j x i n j k N n μαεεσεα=?=++==????=??∑ 各相互独立
③步骤
a.提出假设:0111:0:(1,,)k k j H H j k μμααμ==?===?= 不全相等;
b.构造检验统计量:0
~ (1,)H MSA F F k n k MSE
=
--; c.统计决策。 ④方差分析表
5.有交互作用的双因素方差分析(等重复试验情况): ①数据结构(见表3) ②方差分析模型
由基本假定,2~(,), 1,,;1,,;1,,ijl ij x N i s j k l m μσ=== 令2~(0,)ijl ijl ij x N εμσ=- 有ijl ij ijl x με=+
https://www.doczj.com/doc/8912118894.html,
令1111
111, , s k k s
ij i ij j ij i j j i sk k s μμμμμμ??=======∑∑∑∑
令行、列、交互效应, , ()i i j j ij ij i j αμμβμμαβμμμμ????=-=-=--+ 得有交互作用因素方差分析模型
2
111
1(), 1,,;1,,;1,,~(0,), ()()0ijl i j ij ijl
ijl ijl s k s k
j j ij ij i j i j x i s j k l m
N μαβαβεεσεαβαβαβ====?=++++===????====??∑∑∑∑ 各相互独立
③原假设与检验统计量
0111021103
11:0:0
:()()0
s s k s sk H H H μμααμμββαβαβ????==?===??
==?===???===? 两因素个水平间无交互作用 /(1)/(1)/[(1)(1)]
, , /[(1)]/[(1)]/[(1)]
R C RC SSR s SSC k SSRC s k F F F SSE sk m SSE sk m SSE sk m ----=
==---
6.无交互作用的双因素方差分析
①数据结构(见表4) ②方差分析模型
由基本假定,2~(,), 1,,;1,,ij ij x N i s j k μσ== 令2~(0,)ij ij ij x N εμσ=-
https://www.doczj.com/doc/8912118894.html,
有ij ij ij x με=+
令1111
111, , s k k s
ij i ij j ij i j j i sk k s μμμμμμ??=======∑∑∑∑
令行、列、交互效应, , ()0i i j j ij ij i j αμμβμμαβμμμμ????=-=-=--+= 得无交互作用因素方差分析模型
2
11, 1,,;1,,~(0,), 0ij i j ij
ij ij s k
j j
i j x i s j k
N μαβεεσεαβ==?=+++==????==??∑∑ 各相互独立
③原假设与检验统计量
01110211:0
:0
s s k s H H μμααμμββ????==?===??
==?===? /(1)/(1)
, /[(1)(1)]/[(1)(1)]
R C SSR s SSC k F F SSE s k SSE s k --=
=----
7.多重比较:当方差分析拒绝原假设时,为进一步分析到底是哪些均值不相等,于是将
各均值配对检验,但检验统计量不是t 统计量。
8.试验设计
①含义:收集样本的计划,通过科学安排试验,用尽可能少的试验获得尽可能多的信息。主要数据分析方法是方差分析。
②完全随机化设计:将各种处理随机指派给试验单元。数据分析方法是单因素方差分析。
③随机化区组设计:将试样单元划分为若干区组,再将各种处理随机指派给各区组。划分区组可消除试验单元的差异造成的影响。因每个区组只做一次试验,故只能采用无交互作用双因素方差分析方法。
④因子设计:考虑两个或多个因素搭配的试验设计,每种搭配可重复试验。数据分析方法是有交互作用双因素方差分析。
4 数据整理与展示
1.数据类型与图示法
图2
2.几种图示法的比较
①条形图与直方图:前者用长度表视频数(率),宽度固定,各矩形分开排列,主要展示分类数据;后者用面积表示频数(率),宽度为组距,各矩形连续排列,主要展示数值型数据。
②茎叶图与直方图:前者类似于横直直方图,既能展示数据分布状况,又保留了原始数据,适用于小批量数据;后者也能很好显示数据分布状况,但不能保留原始数据,适用于大批量数据。
③饼图与环形图:前者只能显示一个样本或总体的比例数据;后者可以同时显示多个样本或总体的比例数据,有利于比较。
5 数据分布特征
1. 描述统计量(见图3)
2.众数、中位数、平均数的比较
①众数:一组数据分布的峰值,不受极端值影响,不具有唯一性,没有利用全部数据,适用于较大量的分类数据。
②中位数:一组数据中间位置的代表值,不受极端值影响,只利用了一个数据,信息
https://www.doczj.com/doc/8912118894.html,
图3
浪费严重,适用于偏斜度较大的顺序数据。
③平均数:一组数据的重心,应用最广泛的集中趋势测度值,具有优良的数学性质,是统计推断的基础,利用了全部数据,易受极端值影响,适用于偏斜度不大的数值型数据。
https://www.doczj.com/doc/8912118894.html,
https://www.doczj.com/doc/8912118894.html,
《应用时间序列分析》(王燕)
1.时间序列:按时间顺序记录的观察值序列。理论上用一组按时间顺序排列的随机变量{,}t X t T ∈表示一个随机事件的时间序列,
用{,1,,}t x t n = 表示{,}t X t T ∈的长度为n 的观察值序列。
2.平稳时间序列:基本上只包含随机波动的时间序列。分为严平稳与宽平稳两种。严平稳要求序列所有统计性质(联合概率分布族)不随时间推移而发生变化。宽平稳认为序列统计性质主要由二阶矩决定,只要保证二阶矩平稳,就能保证序列主要性质近似平稳。存在二阶矩的严平稳序列一定是宽平稳序列,宽平稳正态序列也是严平稳序列。时间序列的每个随机变量在任一时刻只能获得一个观察值,样本信息太少,若序列平稳,则能得到基于全体观察值的均值和自协方差的估计值,从而极大地简化了分析的难度,也提高了估计的精度。
3.非平稳时间序列:包含趋势、季节性或周期性的时间序列。
4.时间序列成分
①趋势:时间序列在长期中呈现出来的某种持续上升或下降的变动。
②季节性:时间序列在一年中呈现出来的和季节变化相关的稳定的周期性变动。比较有规律,周期多为一年。
③周期性:时间序列呈现出来的围绕长期趋势的某种波浪式变动。无固定规律,周期多为一年以上且长短不一。
④随机性:时间序列中除去趋势、季节性、周期性之外的偶然性波动。
5.时间序列模型
①加法模型:t t t t x T S I =++。 ②乘法模型:t t t t x T S I =??。 ③混合模型:t t t t x S T I =?+,()t t t t x S T I =?+。
④季节多元回归模型: 01112233 t t x a a t b Q b Q b Q I =+++++
趋势
随机波动
季节成分
。 ⑤ARMA(p,q)模型(自回归移动平均模型)
011112
(,0)()0, (), ()0 ()
()0 ()
t t p t p t t q t q p q t t s t s t x x x E Var E s t E x s t ???εθεθε?θεεσεεε----=++++---≠??===≠??=
⑥ARIMA(p,q,d,T)模型(求和自回归移动平均模型)
2
()()()0, (), ()0 ()()0 ()
d T t t t t s t s t B x B E Var E s t E x s t εεεσεεε?Φ??=Θ?===≠??=
符号说明
https://www.doczj.com/doc/8912118894.html,
a. B 为一阶延迟算子(1t t Bx x -=);
b. 1()1 (0)p p p B B B ???Φ=---≠ 为自回归系数多项式;
c. 1()1 (0)q q q B B B θθθΘ=---≠ 为移动平均系数多项式;
d. (1)d d B ?=-为d 阶差分算子;
e. T ?为步长为周期T 的T 步差分算子。
6.平滑法:利用修匀技术,削弱短期随机波动,使序列平滑而显示出变化规律。分为简
单平均法、移动平均法、指数平滑法。可短期预测平稳序列,也可使序列平滑以描述其趋势。
7.季节指数:用简单平均法计算的周期内各时期季节性影响的相对数,反映了该季节平均值与总平均值之间的一种比较稳定的关系,可以用来确定并分离季节成分。计算步骤如下
a.计算周期内各期平均值(m 期为一周期,共n 个周期)
11, 1,,n
k ik i x x k m n
===∑
b.计算总平均值
111n m
ik
i k x x nm
===∑∑ c.计算各期季节指数
, 1,,k k x
S k m x
==
8.时间序列分析过程
图4
①预处理:平稳性检验与白噪声检验。前者有图检验法(时序图、自相关图)和单位
根检验法;后者用Q统计量检验。
②平稳时间序列分析(见图5)
图5
③非平稳时间序列分析
a.确定性分析:将序列进行确定性因素分解。该方法重点提取确定性信息,而对随机信息浪费严重,使得模型拟合精度不高;
b.随机性分析:拟合ARIMA模型,大大提高拟合精度,但直观解释比较困难。
https://www.doczj.com/doc/8912118894.html,
https://www.doczj.com/doc/8912118894.html,
《应用回归分析》(何晓群)
1 概述
1.回归分析的任务:用观测数据来估计回归方程,以揭示因变量对自变量的依赖关系,
讨论有关的点估计、区间估计和假设检验等问题,应用于结构分析、预测和控制。
2.回归分析的步骤
图6
2 一元线性回归
1.一元线性回归是很多实际现象的近似,能较好地反映回归分析的核心思想。
2.回归模型与方程 ①理论回归模型
012
()0, ()y x E Var ββε
εεσ
=++??==? ②理论回归方程
01(|)E y x x ββ=+
https://www.doczj.com/doc/8912118894.html,
③样本回归模型
012
, 1,,()0, (,)i i i i i j ij y x i n
E Cov ββεεεεσδ=++=???==??
④经验回归方程
01
???y x ββ=+
3.参数估计
①普通最小二乘估计(OLSE )
01
00
1100
11222
010********
01,?01?0?01?1(,)(())()?????(,)min (,)()()1??2()200??2()2i i i i i i i i i i i i
i i i i i i
i i Q y E y y x Q Q y x y y e Q y x e e e n Q x y x x e ββββββββββββββεββββββββββββ=====-=--===--=-=?=---=-=?==??=---=-?∑∑∑∑∑∑∑∑∑∑∑01201011
200??()??()()??()()?()i i i i i i
i i xy
i i i xx x e n x y x x x y y x L x x y y x x L β
ββββββ??????=?=???
?+=???
+=???=-?
?--?=?-?
∑∑∑∑∑∑∑∑∑ ②最大似然估计(MLE ):利用总体密度函数或概率分布及样本信息来估计参数,使得样本落在已知样本值附近的概率最大。
2/220
12
22012222011(2)exp{()}
21
ln ln(2)ln ()22211???()n i
i i i M i i i L y x n n L y x y x e n n
πσβ
βσ
πσββσσββ-=-
--=-----=--=∑∑∑∑
4.OLSE 的性质
①无偏性:??(), ()j j
i i E E y y ββ==。 ②有效性(Guass-Markov 定理):在G-M 条件下,?j
β是j β的唯一最小方差线性无偏估计。
③估计量(协)方差
https://www.doczj.com/doc/8912118894.html,
22
21
22201222222
22
01()?()()()()11??()()(())()()2()11 ()()()1??(,)((i i i xx xx xx
i i i
xx xx i i xx xx xx i x x x x Var Var y L L L x x x x x x Var Var y x Var y n L n L x x x x x x x n L nL n L x x x Cov Cov n L σβσββσσσββ--===--=-=-=---=+-=+-=-∑∑∑∑∑22
0001000),)()1 ()()1???()()(())()()
1 (())
()()1 (i i i
xx xx i i xx xx xx
i i
i xx xx i i xx i x x x y y L x x x x x x
n L L L x x x x x Var y Var x Var y y n L L x x x x Var y n L x x x x n L σσββ---=-=---=+=-+--=+--=+∑∑∑∑∑∑22
22
2
000)()1 ()x xx
x x h n L σ
σσ-=+∑
5.区间估计(正态假定)
2
11
1/2
?~(,)?~(2)??xx
N L t t n t ασβββ=-
6.假设检验(正态假定)
①必要性:检验经验回归方程是否真正描述了因变量与自变量之间的统计规律性。 ②t 检验 a. 0111:0:0H H ββ=?≠; b.
? ~ (2)H t t n =
-。
③F 检验:0
/1
~ (1,2)/(2)
H SSR F F n SSE n =--。
④相关系数检验
a.
0:0
Hρ=;
b.
~(2)
H
t t n
=-。
⑤t统计量与F统计量的关系
2
2
1
2
?
??
?
/1
?
/(2)
xx
t
L
SSR
F t
SSE n
β
σ
===
==
===
-
⑥拟合优度检验
a.决定系数:2
SSR
r
SST
=,反映了因变量变异中能用自变量解释的比例,描述了回归直线拟合样本观测值的优劣程度;
b.调整决定系数:当n较小时,2r接近于1,包含虚假成分,可结合n和p对2r进行调整;
c.拟合优度检验与F检验的比较:F统计量与2r统计量是等价的,但不能相互代替。F统计量有精确的分布,F检验可在给定显著性水平下给出严格的统计结论;2r统计量没有精确的分布,拟合优度检验得出的结论比较模糊。
2
(2)
(2)
22
n SSR
F SSR
SSE r
n SSR
F n SST
n
SSE
-
===
-
+-+-
7.残差分析
①残差与随机误差的比较
01
01
() ()
??
? ()
i i i i i
i i i i i
y E y y x
e y y y x
εββ
ββ
=-=--
=-=--
总体模型误差
样本模型误差
②残差的性质
a.期望:?
()()0
i i i
E e E y y
=-=;
https://www.doczj.com/doc/8912118894.html,
https://www.doczj.com/doc/8912118894.html,
b.方差
012222???()()()()()
1 (())
()()
()11 ((1)())
()()()11 (1)()i i i i i i j i j j
xx i j i i j j i xx xx i j i j i xx xx Var e Var y y Var y x x x x x Var y y n L x x x x x x Var y y n L n L x x x x x x n L n L ββσ≠≠=-=----=-+---=---+---=--++∑∑2
2222
2222
22
2
()()2()21 (1)()2()()21 (1)()()1 (1)(1)i j i j xx xx i i xx xx i ii xx
x x x x x x n L n L x x x x n L n L x x h n L σ
σσ
σσ
σσ---=--++--=--++-=--=-∑∑
c. 2210, 0, ()2
i i i i i e e e x e E n n σ====-∑∑∑∑。
2222
22
111
(
)()()(1)2222
()1()
2
i
i i
ii i xx
e E E e Var e h n n n n x x n n L n σσσ=
==-------+==-∑∑∑∑ ③改进残差
a.标准化残差(半学生化残差):?i
i e ZRE σ
=; b.学生化残差
:i SRE =
。
④残差图:诊断模型是否满足基本假定,是否存在异常值,因变量与自变量是否线性
相关,等等。
8.预测与控制
①单值预测:2001001000
???~(,)y x N x h ββββσ=++。 ②0y 的预测区间(随机变量)
20000?~(0,(1))y y
N h σ-+
https://www.doczj.com/doc/8912118894.html,
0/20?~(2)
???2)t t n y
t y ασσ=
-
③0()E y 的置信区间(未知参数)
200000/2?()~(0,)?E y y N h y
t ασσ-
④控制
100212????22{}1T y
y y T P T y T σσα
≤-<<+≤<<=-
3 多元线性回归
1.多元线性回归模型:y X βε=+。
2.基本假定:
①解释变量为非随机变量,不存在多重共线性,与随机扰动项不相关。 ②Guass-Markov 假定:2()0, ()n E Var I εεσ==。 ③正态假定:2~(0,)n N I εσ。
3.参数估计 ①OLSE
a. 1?()X X X y β-''=;
b. 2?/(1)SSE n p σ=--。 ②MLE
2/22
22121(2)exp{()()}
21
ln ln(2)ln ()()222?()/n M M L y X y X n n L y X y X X X X y SSE n
πσββσπσββσβσ--'=-
--'=-----?''=??=??
③OLSE 的性质
https://www.doczj.com/doc/8912118894.html,
a.无偏性:2?(), ()1
SSE E E n p β
βσ==--; 111()()(())(()) (())() ()()()()()(())((())) ((()))((())) SSE y X y X y X X X X y y X X X X y y I X X X X y y I H y X I H X I H E SSE E I H E tr I H E tr I H tr E I H βββεβεεεεεεεεεεε---'''''=--=--'''=--''=+-+=-''=-=-''=-=- 2222 (()())(()) ()(()) (1)
n tr I H E tr I H I tr I H n tr H n p εεσσσσ'=-=-=-=-=--
b.有效性(Guass-Markov 定理):在G-M 条件下,?c β
'是c β'的唯一最小方差线性无偏估计(正态假定下是最小方差无偏估计);
c.估计量(协)方差:21??()(), (,)0Var X X Cov e βσβ
-'==; 12
1
? (,)((),()) ()()0
Cov e Cov X X X y I H y X X X I H β
σ--''=-''=-=
d.正态假定下:2122?~(,()), /~(1)N X X SSE n p ββσσχ-'--。
4.假设检验
①回归方程显著性检验
a. 01:0p H ββ=== ;
b. 0
/ ~ (,1)/(1)
H SSR p
F F p n p SSE n p =----。
②回归系数显著性检验 a. 0:0, 1,,j j H j p β== ;
b.
00()2
?/1 ~ (1), ~ (1,1)/(1)
j
j
H H j j j j
SSR t t n p F t F n p SSE n p β?=
--=
=----。
③拟合优度检验 a.决定系数:2SSR
R SST
=; b.调整决定系数