当前位置：文档之家› 卢淑华讲义

卢淑华讲义

社会统计学讲义（卢淑华）

第一章社会学研究与统计分析

一、社会调查资料的特点（随时掌握）

随机性、统计规律性；

二、统计学的作用：为社会研究提供数据分析和推论的方法

三、统计分析的作用及其前提。

四、统计分析方法的选择

1、全面调查和抽样调查的分析方法

2、单变量和多变量的统计分析方法

五、不同变量层次的比较；定类、定序、定距、定比

定义、数学特征、运算特性、涵盖关系、等

第二章单变量统计描述分析

一、统计图表，熟悉不同层次变量对应的分析图表，不能混淆。尤其是直方图的意义。

二、标明组限与真实组限的换算，重要。

三、集中趋势测量法

1、定义、优缺点、注意事项；

2、众值：定义、计算公式、解释、运用，注意事项；

3、中位值：定义、计算公式（频数和比例两种公式）、解释、运用，注意事项；

4、均值：定义、计算公式（分组与加权）、解释、运用，注意事项；

5、众值、中位值和均值的关系及其相互比较，会用众值和中位值估算均值；

四、离散趋势测量法

1、定义、优缺点、注意事项，与集中趋势的关系；

2、异众比例：定义、计算公式、解释、运用，注意事项；

3、质异指数：定义、计算公式、解释、运用，注意事项；

4、四分位差：定义、计算公式（频数和比例两种公式）、解释、运用，注意事项；要会举一反三，如求十分位差、以及根据数据求其在总体中的位置。

4、方差及标准差：定义、计算公式（分组与加权）、解释、运用，注意事项；

第三章概率

一、概率：就是指随机现象发生的可能性大小。随机现象具有不确定性和随机性。

二、概率的性质：

1、不可能事件的概率为0；

2、必然事件的概率为1；

3、随机事件的概率在0-1之间；

三、概率的计算方法：

1、古典法：计算等概率事件，P＝有效样本点数/样本空间数；

2、频率法：求随机事件在多次试验后的极限频率。

3、概率是理论值，只有一个，频率是试验值，不同的试验有不同的频率。

四、概率的运算：会画文氏图

1、加法公式：两个或多个随机事件的求和概率‘

2、乘法公式：两个或多个随机时间共同发生的概率。分为独立事件的乘法和条件概率的乘法公式。

（1）独立：P(AB)=P(A)*P(B)

（2）条件：PAB)=P(A)*P(A/B)=P(B)*P(B/A)

3、条件概率：将（2）反过来即可。P(B/A)是指在A发生的条件下B发生的概率。

4、全概公式：互不相容的完备事件组，求任意一个事件的发生

相反。4、逆概公式：与5．

五、离散型随机变量和连续型随机变量的概率分布及密度函数。

六、数学期望：

1、离散型变量数学期望的计算

2、连续型变量数学期望的计算，可以忽略

3、数学期望的性质，6点，重要

七、方差：

1、简化公式，一个变量的方差等于变量平方的期望减去变量期望的平方。

2、方差的性质，4点，重要，经常在参数估计和假设检验中用到。

第四章二项分布及其离散型随机变量的分布

一、二点分布，0-1分布，

1、定义，

2、概率分布、期望、方差

二、二项分布，贝努里分布：

1、定义，

2、概率分布公式

3、期望、方差

4、会求不同条件下的概率，如至多、至少出项多少次？

5、二项分布的讨论

三、多项分布，重点是三项分布，了解。

1、三项分布的公式

2、每个变量的期望和方差，注意n项分布，分别有n-1个期望和方差。

四、超几何分布：

1、定义，跟二项分布的区别

2、概率分布、期望、方差。

五、泊松分布

1、定义、分布形式

2、期望、方差，与二项分布的关系。

3、应用范围及条件。

第五章正态分布、常用统计分布和极限定理

一、正态分布，常态分布：

1、定义、密度分布、性质

2、均值、方差，正态曲线下方面积的意义。

3、正态分布标准化及实际意义。

4、正态分布表的查法（注意对称性）。

二、常用统计分布

1、卡方分布：定义，自由度，均值、方差，性质，换算。

2、t分布，定义，自由度，均值、方差，性质，换算。

3、F分布，定义，自由度，均值、方差，性质，换算。

4、三种常用分布适用范围的比较。

三、大数定理

1、大数定理的含义

2、切贝谢夫不等式：用于保守估计某事件发生的概率

3、贝努里大数定理。

4、切贝谢夫大数定理。

四、中心极限定理：重点

、极限定理的含义。1．

2、中心极限定理的含义，在何种情况下，何种变量趋向于正态分布。

3、中心极限定理的4个推论，灵活运用。

五、二项分布、泊松分布、正态分布三者的近似关系

第六章参数估计

一、统计推论

1、统计推论的定义

2、统计推论的特点（优缺点），考题

3、统计推论的理论基础及内容。

二、参数的点估计：（定义）

1、什么是点估计（样本中称统计值，总体中称为参数）

2、点估计的评价标准：3点或4点。

3、总体均值的点估计

4、总体方差（或标准差）的点估计

5、总体成数的点估计。

三、抽样分布：统计量的抽样分布，如均值、方差的抽样分布

1、样本均值的抽样分布：不同的抽样，其均值是不一样的，在具体抽样之前，均值是一个变量，抽样之后，均值就是一个具体的观察指（或统计值）。

2、总体分布为正态分布、总体方差已知情况下的均值分布：可以用中心极限定理推演出来。（一般指小样本）

3、总体分布为正态分布，总体方差未知、样本方差可知情况下的均值分布：（一般指小样本）。

4、大样本、总体未知（或已知都无所谓），总体方差未知（或已知无所谓）情况下的均值分布：凡是提到大样本，均可用正态分布计算，用样本方差替代总体方差

5、样本成数的抽样分布：凡是提到样本成数p，都是特指大样本，小样本提成数没有意义。在大样本情况下，无论其分布如何，成数的分布都可以确定。

6、样本方差的分布，这里特指总体是正态总体的情况。这个运用很多，其分布形式以及卡方换算，重要。

四、区间估计：根据样本大小、总体情况、样本个数情况，待估参数，可以将需要计算的区间估计划分为9种类型，同假设检验。

1、小样本、正态总体、总体方差已知，总体均值的区间估计：Z分布

2、小样本、正态总体、总体方差未知，总体均值的区间估计：t分布

3、小样本（一般不包括大样本）、正态总体，总体方差的区间估计，卡方分布。

4、小样本、正态二总体，总体方差已知，总体均值差的区间估计，Z分布

5、小样本，正态二总体，总体方差未知，总体均值差的区间估计，t分布

6、大样本，分布未知（或已知无所谓），方差未知（或已知无所谓），总体均值的区间，Z分布。

7、大样本，分布未知（或已知无所谓），方差未知（或已知无所谓），二总体均值差的区间，Z 分布。

8、大样本，分布未知（或已知无所谓），总体成数的区间估计，Z分布

9、大样本，分布未知（或已知无所谓），二总体成数差的区间估计，Z分布

第七章假设检验的基本概念

一、假设检验的思想：

二、假设检验的原理：小概率原理和大数定理

三、基本假定：总体、抽样等假定。

四、基本概念：原假设、备择假设、单边检验、双边检验、显著性水平、临界值、接受域、拒绝域、两类错误（是指针对原假设而言的弃真和纳伪错误）。

五、假设检验的基本步骤：4步。做题时候，要严格按照步骤及作出解释。

六、纳伪错误的计算原理，熟悉，多年没有考，计算相对复杂。．

第八章单总体假设检验

一、跟参数估计类似，原则上有多少参数估计就会有多少对应的假设检验。

二、假设检验的类型：本章只讨论单总体，注意单边/双边及拒绝域

1、大样本、总体均值检验，无论总体分布、方差已知与否：Z检验

2、大样本，总体成数检验，不考虑分布，Z检验

3、小样本、正态总体、总体方差已知，均值检验，Z检验

4、小样本、正态总体、总体方差未知，样本方差已知，均值检验：Z检验。

5、小样本、正态总体，总体方差检验：卡方检验。

6、小样本、正态总体、总体标准差检验：同5，直接在5后开方即可。

三、纳伪错误的计算，见书上例题。

第九章二总体假设检验（二分vs.二分，二分vs.定距变量）

一、二总体假设检验的类型：

1、大样本、二总体分布未知（或已知无所谓）、二总体方差未知（或已知无所谓）：二均值差检验：Z检验

2、大样本、二总体成数差检验：Z检验

3、小样本、正态总体、二总体方差已知，二总体均值差检验：Z检验

4、小样本、正态总体，二总体方差未知，但相等，二总体均值差检验：t检验。注意，在未知二总体方差相等时，要检验二总体方差是否相等？

5、小样本、正态总体、二总体方差比检验：F检验

二、配对样本的比较：t检验，重点。

第十章列联表（定类变量vs.定类变量）

一、列联表的定义：

二、列联表中的分布情况：（分频次，概率分布两种情况）

1、联合分布：

2、边缘分布：2个，自变量和因变量各一个。

3、条件分布：r+c个，通常只求因变量的条件分布，控制自变量。

三、列联表中变量的独立性：条件概率分布等于边缘概率分布，那么自变量和因变量相互独立。

四、对于列联表的检验：

1、原假设：H：p＝pp *jiji*0

2、选择统计量：卡方变量，注意公式，自由度。

3、计算样本统计值。

4、比较统计值和临界值的大小，决定原假设的取舍（即统计决策）。

五、关于列联表统计量的几点补充讨论说明：

1、对于2×2的列联表，由于格数的限制，需要为减少作为离散观测值与作为连续型变量x值之间的偏差，需要对其进行连续性修正。

2、卡方检验适用于单变量二项总体或多总体的检验（重点，06考）

3、列联表格值的取值范围。

4、列联表就其检验的内容来看是双边检验，就其形式而言是右侧单边检验。

5、列联表的检验只能通过频次来检验而不能通过频率（相对频次）来检验。当相对频次不变2时，样本容量增加K倍时，卡方X值也增加K倍。（也即相对频次的统计表必须注明调查总数的原因）

六、列联强度的含义：表示变量间相关程度，程度越高，说明社会现象与社会现象间的关系越密切。

七、2×2表的列联强度计算：

1、Φ系数：（费系数），公式，取值范围[-1,+1]，当bc＝0，且bc相等时Φ＝1，二变量完全相关；ad＝0，且ad相等时，Φ＝-1，二变量完全相关；ad＝bc时，Φ＝0，二变量相互独立。说明：二定类变量的相关没有方向之分。．

2、尤拉Q系数：公式，取值范围，注意Q＝1时候的情况。

3、如何选择Φ系数和Q系数？取决于研究对象，当自变量的不同取值都会影响因变量时，则用Φ系数。

八、r×c列联表的列联强度计算：

为基础的相关性测量：Φ，C X，V系数等，注意公式，取值范围的临界值，相、以卡方值1互222

比较其优缺点。

2、以减少误差比例为基础的相关性测量：

（1）何为减少误差比例？PRE

（2）PRE的取值范围：[0，1]

（3）PRE的优点及意义。

3、λ系数

（1）根据PRE原理得出E和E的值，得出λ的公式。可与李沛良书对照。21（2）λ的取值范围：[0,1],跟PRE的取值范围一致。注意取极端值时候列联表的情况。（06年考）

（3）λ的非对称性讨论。默认情况下，用自变量预测因变量。

4、τ系数（由Goodman和Kruksal所创）

（1）根据PRE原理得出E和E的值，得出τ的公式。可与李沛良书对照。21（2）τ值的取值范围，[0,1],跟PRE的取值范围一致。注意取极端值时候列联表的情况。（06年考）

（3）τ系数也是非对称性系数。

（4）比较τ系数与λ系数：τ充分考虑了定类变量的信息，较λ值更准确，更佳，但是λ较τ更容易计算。二者都具有PRE性质。

九、在计算列联表强度时，必须先对列联表进行卡方检验，有显著性差异才有计算列联强度的必要。

第十一章等级相关（定序变量vs.定序变量）

一、斯皮尔曼等级相关系数：r s1、含义及公式。

2、取值范围及意义。r＝+1和-1的列联表情况。s2具有PRE的特例，其平方r性质。

3、r是积距相关系数r ss

4、斯皮尔曼等级相关对总体分布没有特别要求。

5、适用范围及前提。

6、等级相关系数r 的检验。两种情况s二、Gamma等级相关：G系数

1、同序对：两个变量在xy上的变化方向一致。

2、异序对：两个变量在xy上的变化方向相反。

3、同分对：包括x方向，y方向和xy方向上的同分对，两个变量在xy上的一个或二个等级相

同。

4、根据列联表重的频次计算同序对、异序对和同分对的个数。

5、Gamma系数的公式，取值范围，及其PRE性质。