社会统计学讲义(卢淑华)
第一章社会学研究与统计分析
一、社会调查资料的特点(随时掌握)
随机性、统计规律性;
二、统计学的作用:为社会研究提供数据分析和推论的方法
三、统计分析的作用及其前提。
四、统计分析方法的选择
1、全面调查和抽样调查的分析方法
2、单变量和多变量的统计分析方法
五、不同变量层次的比较;定类、定序、定距、定比
定义、数学特征、运算特性、涵盖关系、等
第二章单变量统计描述分析
一、统计图表,熟悉不同层次变量对应的分析图表,不能混淆。尤其是直方图的意义。
二、标明组限与真实组限的换算,重要。
三、集中趋势测量法
1、定义、优缺点、注意事项;
2、众值:定义、计算公式、解释、运用,注意事项;
3、中位值:定义、计算公式(频数和比例两种公式)、解释、运用,注意事项;
4、均值:定义、计算公式(分组与加权)、解释、运用,注意事项;
5、众值、中位值和均值的关系及其相互比较,会用众值和中位值估算均值;
四、离散趋势测量法
1、定义、优缺点、注意事项,与集中趋势的关系;
2、异众比例:定义、计算公式、解释、运用,注意事项;
3、质异指数:定义、计算公式、解释、运用,注意事项;
4、四分位差:定义、计算公式(频数和比例两种公式)、解释、运用,注意事项;要会举一反三,如求十分位差、以及根据数据求其在总体中的位置。
4、方差及标准差:定义、计算公式(分组与加权)、解释、运用,注意事项;
第三章概率
一、概率:就是指随机现象发生的可能性大小。随机现象具有不确定性和随机性。
二、概率的性质:
1、不可能事件的概率为0;
2、必然事件的概率为1;
3、随机事件的概率在0-1之间;
三、概率的计算方法:
1、古典法:计算等概率事件,P=有效样本点数/样本空间数;
2、频率法:求随机事件在多次试验后的极限频率。
3、概率是理论值,只有一个,频率是试验值,不同的试验有不同的频率。
四、概率的运算:会画文氏图
1、加法公式:两个或多个随机事件的求和概率‘
2、乘法公式:两个或多个随机时间共同发生的概率。分为独立事件的乘法和条件概率的乘法公式。
(1)独立:P(AB)=P(A)*P(B)
(2)条件:PAB)=P(A)*P(A/B)=P(B)*P(B/A)
3、条件概率:将(2)反过来即可。P(B/A)是指在A发生的条件下B发生的概率。
4、全概公式:互不相容的完备事件组,求任意一个事件的发生
相反。4、逆概公式:与5.
五、离散型随机变量和连续型随机变量的概率分布及密度函数。
六、数学期望:
1、离散型变量数学期望的计算
2、连续型变量数学期望的计算,可以忽略
3、数学期望的性质,6点,重要
七、方差:
1、简化公式,一个变量的方差等于变量平方的期望减去变量期望的平方。
2、方差的性质,4点,重要,经常在参数估计和假设检验中用到。
第四章二项分布及其离散型随机变量的分布
一、二点分布,0-1分布,
1、定义,
2、概率分布、期望、方差
二、二项分布,贝努里分布:
1、定义,
2、概率分布公式
3、期望、方差
4、会求不同条件下的概率,如至多、至少出项多少次?
5、二项分布的讨论
三、多项分布,重点是三项分布,了解。
1、三项分布的公式
2、每个变量的期望和方差,注意n项分布,分别有n-1个期望和方差。
四、超几何分布:
1、定义,跟二项分布的区别
2、概率分布、期望、方差。
五、泊松分布
1、定义、分布形式
2、期望、方差,与二项分布的关系。
3、应用范围及条件。
第五章正态分布、常用统计分布和极限定理
一、正态分布,常态分布:
1、定义、密度分布、性质
2、均值、方差,正态曲线下方面积的意义。
3、正态分布标准化及实际意义。
4、正态分布表的查法(注意对称性)。
二、常用统计分布
1、卡方分布:定义,自由度,均值、方差,性质,换算。
2、t分布,定义,自由度,均值、方差,性质,换算。
3、F分布,定义,自由度,均值、方差,性质,换算。
4、三种常用分布适用范围的比较。
三、大数定理
1、大数定理的含义
2、切贝谢夫不等式:用于保守估计某事件发生的概率
3、贝努里大数定理。
4、切贝谢夫大数定理。
四、中心极限定理:重点
、极限定理的含义。1.
2、中心极限定理的含义,在何种情况下,何种变量趋向于正态分布。
3、中心极限定理的4个推论,灵活运用。
五、二项分布、泊松分布、正态分布三者的近似关系
第六章参数估计
一、统计推论
1、统计推论的定义
2、统计推论的特点(优缺点),考题
3、统计推论的理论基础及内容。
二、参数的点估计:(定义)
1、什么是点估计(样本中称统计值,总体中称为参数)
2、点估计的评价标准:3点或4点。
3、总体均值的点估计
4、总体方差(或标准差)的点估计
5、总体成数的点估计。
三、抽样分布:统计量的抽样分布,如均值、方差的抽样分布
1、样本均值的抽样分布:不同的抽样,其均值是不一样的,在具体抽样之前,均值是一个变量,抽样之后,均值就是一个具体的观察指(或统计值)。
2、总体分布为正态分布、总体方差已知情况下的均值分布:可以用中心极限定理推演出来。(一般指小样本)
3、总体分布为正态分布,总体方差未知、样本方差可知情况下的均值分布:(一般指小样本)。
4、大样本、总体未知(或已知都无所谓),总体方差未知(或已知无所谓)情况下的均值分布:凡是提到大样本,均可用正态分布计算,用样本方差替代总体方差
5、样本成数的抽样分布:凡是提到样本成数p,都是特指大样本,小样本提成数没有意义。在大样本情况下,无论其分布如何,成数的分布都可以确定。
6、样本方差的分布,这里特指总体是正态总体的情况。这个运用很多,其分布形式以及卡方换算,重要。
四、区间估计:根据样本大小、总体情况、样本个数情况,待估参数,可以将需要计算的区间估计划分为9种类型,同假设检验。
1、小样本、正态总体、总体方差已知,总体均值的区间估计:Z分布
2、小样本、正态总体、总体方差未知,总体均值的区间估计:t分布
3、小样本(一般不包括大样本)、正态总体,总体方差的区间估计,卡方分布。
4、小样本、正态二总体,总体方差已知,总体均值差的区间估计,Z分布
5、小样本,正态二总体,总体方差未知,总体均值差的区间估计,t分布
6、大样本,分布未知(或已知无所谓),方差未知(或已知无所谓),总体均值的区间,Z分布。
7、大样本,分布未知(或已知无所谓),方差未知(或已知无所谓),二总体均值差的区间,Z 分布。
8、大样本,分布未知(或已知无所谓),总体成数的区间估计,Z分布
9、大样本,分布未知(或已知无所谓),二总体成数差的区间估计,Z分布
第七章假设检验的基本概念
一、假设检验的思想:
二、假设检验的原理:小概率原理和大数定理
三、基本假定:总体、抽样等假定。
四、基本概念:原假设、备择假设、单边检验、双边检验、显著性水平、临界值、接受域、拒绝域、两类错误(是指针对原假设而言的弃真和纳伪错误)。
五、假设检验的基本步骤:4步。做题时候,要严格按照步骤及作出解释。
六、纳伪错误的计算原理,熟悉,多年没有考,计算相对复杂。.
第八章单总体假设检验
一、跟参数估计类似,原则上有多少参数估计就会有多少对应的假设检验。
二、假设检验的类型:本章只讨论单总体,注意单边/双边及拒绝域
1、大样本、总体均值检验,无论总体分布、方差已知与否:Z检验
2、大样本,总体成数检验,不考虑分布,Z检验
3、小样本、正态总体、总体方差已知,均值检验,Z检验
4、小样本、正态总体、总体方差未知,样本方差已知,均值检验:Z检验。
5、小样本、正态总体,总体方差检验:卡方检验。
6、小样本、正态总体、总体标准差检验:同5,直接在5后开方即可。
三、纳伪错误的计算,见书上例题。
第九章二总体假设检验(二分vs.二分,二分vs.定距变量)
一、二总体假设检验的类型:
1、大样本、二总体分布未知(或已知无所谓)、二总体方差未知(或已知无所谓):二均值差检验:Z检验
2、大样本、二总体成数差检验:Z检验
3、小样本、正态总体、二总体方差已知,二总体均值差检验:Z检验
4、小样本、正态总体,二总体方差未知,但相等,二总体均值差检验:t检验。注意,在未知二总体方差相等时,要检验二总体方差是否相等?
5、小样本、正态总体、二总体方差比检验:F检验
二、配对样本的比较:t检验,重点。
第十章列联表(定类变量vs.定类变量)
一、列联表的定义:
二、列联表中的分布情况:(分频次,概率分布两种情况)
1、联合分布:
2、边缘分布:2个,自变量和因变量各一个。
3、条件分布:r+c个,通常只求因变量的条件分布,控制自变量。
三、列联表中变量的独立性:条件概率分布等于边缘概率分布,那么自变量和因变量相互独立。
四、对于列联表的检验:
1、原假设:H:p=pp *jiji*0
2、选择统计量:卡方变量,注意公式,自由度。
3、计算样本统计值。
4、比较统计值和临界值的大小,决定原假设的取舍(即统计决策)。
五、关于列联表统计量的几点补充讨论说明:
1、对于2×2的列联表,由于格数的限制,需要为减少作为离散观测值与作为连续型变量x值之间的偏差,需要对其进行连续性修正。
2、卡方检验适用于单变量二项总体或多总体的检验(重点,06考)
3、列联表格值的取值范围。
4、列联表就其检验的内容来看是双边检验,就其形式而言是右侧单边检验。
5、列联表的检验只能通过频次来检验而不能通过频率(相对频次)来检验。当相对频次不变2时,样本容量增加K倍时,卡方X值也增加K倍。(也即相对频次的统计表必须注明调查总数的原因)
六、列联强度的含义:表示变量间相关程度,程度越高,说明社会现象与社会现象间的关系越密切。
七、2×2表的列联强度计算:
1、Φ系数:(费系数),公式,取值范围[-1,+1],当bc=0,且bc相等时Φ=1,二变量完全相关;ad=0,且ad相等时,Φ=-1,二变量完全相关;ad=bc时,Φ=0,二变量相互独立。说明:二定类变量的相关没有方向之分。.
2、尤拉Q系数:公式,取值范围,注意Q=1时候的情况。
3、如何选择Φ系数和Q系数?取决于研究对象,当自变量的不同取值都会影响因变量时,则用Φ系数。
八、r×c列联表的列联强度计算:
为基础的相关性测量:Φ,C X,V系数等,注意公式,取值范围的临界值,相、以卡方值1互222
比较其优缺点。
2、以减少误差比例为基础的相关性测量:
(1)何为减少误差比例?PRE
(2)PRE的取值范围:[0,1]
(3)PRE的优点及意义。
3、λ系数
(1)根据PRE原理得出E和E的值,得出λ的公式。可与李沛良书对照。21(2)λ的取值范围:[0,1],跟PRE的取值范围一致。注意取极端值时候列联表的情况。(06年考)
(3)λ的非对称性讨论。默认情况下,用自变量预测因变量。
4、τ系数(由Goodman和Kruksal所创)
(1)根据PRE原理得出E和E的值,得出τ的公式。可与李沛良书对照。21(2)τ值的取值范围,[0,1],跟PRE的取值范围一致。注意取极端值时候列联表的情况。(06年考)
(3)τ系数也是非对称性系数。
(4)比较τ系数与λ系数:τ充分考虑了定类变量的信息,较λ值更准确,更佳,但是λ较τ更容易计算。二者都具有PRE性质。
九、在计算列联表强度时,必须先对列联表进行卡方检验,有显著性差异才有计算列联强度的必要。
第十一章等级相关(定序变量vs.定序变量)
一、斯皮尔曼等级相关系数:r s1、含义及公式。
2、取值范围及意义。r=+1和-1的列联表情况。s2具有PRE的特例,其平方r性质。
3、r是积距相关系数r ss
4、斯皮尔曼等级相关对总体分布没有特别要求。
5、适用范围及前提。
6、等级相关系数r 的检验。两种情况s二、Gamma等级相关:G系数
1、同序对:两个变量在xy上的变化方向一致。
2、异序对:两个变量在xy上的变化方向相反。
3、同分对:包括x方向,y方向和xy方向上的同分对,两个变量在xy上的一个或二个等级相
同。
4、根据列联表重的频次计算同序对、异序对和同分对的个数。
5、Gamma系数的公式,取值范围,及其PRE性质。