当前位置:文档之家› 社会统计学复习整理

社会统计学复习整理

社会统计学复习整理
社会统计学复习整理

社会统计学复习整理

一、变量的测量层次

二、判断变量层次的技巧

1.首先所有的变量都是定类变量。

2.其次看变量的取值能否比较大小,不能这个变量只能是定类变量。

3.最后如果这个变量能够比较大小,那么就看变量取值加减乘除是否有意义,如果有意义就是定距变量,如果没有意义就只能是定序变量。

三、变量层次的比较

定类变量、定序变量和定比变量的数层次是从低到高排列的,高层次的变量同时具有低层次变量的功能。

四、相关分析方法

第二节简化一个变项的分布

一、定类变量

1.统计表:用表格的形式来表示变量频次(或频率)分布的一种工具。

2.统计表必备的内容:

(1)表号、标题

(2)标识行:变量名、对应数据说明(频次、频率)

(3)主题行:变量取值的统计数据

(4)表尾:如果是引用必须说明资料来源

二、定序变量

1.适合定序变量的简化资料的方法

(1)累加次数:把次数逐渐相加起来,分为向上累加次数(cf↑)和向下累加次数(cf↓)。

(2)累加频率:把各级的百分率逐渐相加。也分为向下累加百分率和向下累加百分率。

2.cf↑的计算方法就是按照变量取值的等级从低往高逐层相加。

3.cf↓计算方法就是按照变量取值的等级从高往低逐层相加。

cf↑表示低于某个等级的频数有多少

cf↓表示高于某个等级的频数有多少

三、定距变量

1.定距变量的简化工具是:分组、直方图和折线图。

2.连续型定距变量的分组统计

(1)组数:分组的数量,一般5到7组合适,分为等距分组和非等距分组。

(2)组限:包括上限(up)和下限(low)

(3)标识下限和标识上限,例500—699

(4)真实下限:标识下限—0.5;真实上限:标识上限+0.5.

(5)组距:真实上限与真实下限之差。

(6)组中值:真实上限与真实下限的平均值。

第三节集中趋势测量法

1.集中趋势:用一个典型的变量值或特征值来代表全体变量的问题,用这个数

值来代表变项的资料分布,以反映资料的集结情况。

2.集中趋势测量的意义就是可以根据这个代表值来估计或预测每个研究对象

的数值。

一、定类变量

1.众值(Mode)Mo:用具有频数最多的变量的取值来表示变量的集中值。

2.众值的特征:

(1):众值理论上可以用于定类、定序和定距三个层次的变量来描述

集中趋势,但是由于众指不精确,一般只用于定类层次的变量。

(2):众值最好找,是最容易求出的值,但它精确度也是最差的。

二、定序变量

1.中位值(Md)。

2.分组数据求中位值公式:Md=L+(n/2- cf↑/n)(U-L)

L:中位值的真实下界值

U:中位值的真实上界值

n:中位值组的频数

cf↑:低于中位值所在组的累加(向上)频次

N:调查总数

Md位值:N/2

二、定距变量

1.均值(Mean):将变量的各个数值相加起来,除以总个数,求取一个

平均值的数值,一般用ˉx来表示。

2.均值的特征:

●仅适合定距层次的变量

●它最灵敏,预测的精确度最高

●对资料所提供的信息运用得最充分

3.均值的求法

(一)原始数据求均值:X=∑X1/N

(X表示变量x的均值;∑X1表示变量观察值的总和。)

(二)根据频次分布求均值:ˉx=

(ˉx表示变量X的均值;表示变量的每一个取值

和该变量频数相乘的和;表示把变量的每个取值下的

频次都加起来,即调查总数N)

(三) 分组数据求均值:ˉx=

(n1表示每组次数,b表示每组的组中值,表示个案数目)

第四节离散趋势测量法

●离散趋势测量法:是求出一个值来表示个案与个案之间的差异情况。

●离散趋势或离散特征可以告诉我们估计值误差的大小。

一、定类变量(异众比率V)

V就是非众值的次数与全部个案数目的比率。

V=(N-全部个案数目;-众值的次数) V值越小,众值代表性越好。

二、定序变量

1.极差(R)—观察的最大值与最小值之差。

2.四分互差:将数值排序,分为四个等分,第一个四分位置的值与第三

个四分位置的值的差异。

四分位差Q=Q75-Q25

(一)未分组数据:2 2 3 4 6 9 10 10 11 13 15

Md的位置=N+1/2=11+1/2=6

Q25的位置=N+1/4=11+1/4=3(第三位数)

Q75的位置=(N+1)=(11+1)=9(第九位数)

所以,四分位差Q= Q75-Q25=11-3=8

(二)分组数据

1.中位值公式=Md=L+(-cf↑)/n(U-L)

2.Q25=L+(-cf↑)/n(U-L)

L:四分之一位值组的真实下界值

U:四分之一位值组的真实上界值

n:四分之一位值组的频数

cf↑:低于四分之一位值组的向上累加频次

N:调查总数

Q25位置=N/4;

3.Q75=L+(- cf↑)/n(U-L)

L:四分之三位值组的真实下界值

U:四分之三位值组的真实上界值

n:四分之三位值组的频数

cf↑:低于四分之三位值组的向上累加频次

N:调查总数

Q75位置=3N/4;

三、定距变量

(一)标准差σ与方差σ2

σ=2 (δ即对均值的偏差平方均值的平方

(2

根)σ2=

(二)根据未分组的频次分布求方差

σ=2

N-调查总数;Xi-表示变量的每个取值;ni-表示每个取值的频次

(三)分组数据求方差——用组中值代替bi代替xi代入公式中

σ=2

第三章概率

一、概率

1.不可能事件的概率:P(O)=0

2.必然事件的概率:P(S)=1

3.随机事件的概率:0≦P(E)≦1

二、两个重要概念

1.普查:对统计总体的全部单位进行调查以搜集资料统计资料的工作。

2.抽查:按照某种方法以总体中抽取一部分样本进行调查,以搜集统计资料的工作。

三、频率分布于概率分布的关系

1.频率分布是实验值,是可以变化的,称之为统计分布或经验分布。

2.概率分布是理论值,是唯一的,称之为理论分布。

3.当观测次数很大时,随机变量取值的频率接近于其概率,这时随机变量的统计分布与理论分布将大致相符。

四、总体均值和方差

1.总体均值(E):随机变量各取值分别乘取值的概率的总和。

E(ξ)=μ=∑PiXi

2.总体方差(D):就是随机变量偏离总体均值的程度。

D=S2=E(X2)-[E(x)]2

3.总体均值和样本均值的区别:

●总体均值是对研究对象进行普查后得出的均值。

●样本均值是对从总体中抽取的样本数据计算出来的均值。

4.总体方差与样本方差的区别:

●总体方差是对研究对象进行普查后,利用数据算出来的方

差。

●样本方差是根据从总体中抽取出的样本的调查总数据,计

算出来的方差。

5.总体均值方差和样本均值方差表示法

1.总体均值E=μ,总体方差D=σ2,总体标准差=σ

2.样本均值=ˉx,样本方差=s2,样本标准差=S

6.结论

1.通过普查,可以得出概率、总体均值E(μ)、总体方差D(σ2),这些值我们称为参数值。

2.通过抽查,可以得出频率、样本均值ˉx、样本方差s2,

这些值我们称为统计值。

3.当样本为大样本(N≧30),频率≈概率、样本均值≈总体均值、样本方差≈总体方差。

4.当样本数无穷接近总体数的时候,频率=概率、样本均值=总体均值、样本方差=总体方差。

5.统计学的任务就是如何利用统计值来推论参数值(统计推论),实现我们的研究目的。

第四章常见统计分布

第一节二点分布

一、二点分布(0-1分布):就是变量的取值只有两类的分布。如:性别。

二、二分变量的分布律:随机变量如果满足二点分布,则其概率分布为——P(ξ=0)=q;P(ξ=1)=P;P+q=1

第二节二项分布

一、二项分布:在相同条件下进行n次独立试验,每次试验

只有两种可能的结果,事件A出现的概率P(A)=P,事件A不出

现的概率P(A)=1-p=q.

第三节正态分布

一、什么是正态分布?

中心极限定理:对于任何变量,不管其原有分布如何,如果把它们n个加在一起,当n大于一定数之后(n>30),那么其和的分布必然接近正态分布。

二、正态分布密度曲线的特点

1.一个高峰

2.一个对称轴——X=μ

3.一个渐近线——X轴

4.正态分布曲线是单峰值对称的,因此这种分布的变量,其众值、中位值和均值是重叠的。

5.正态分布下的面积为1.

三、正态曲线的参数意义

1.正态分布的两个参数是μ(总体均值)和σ(总体方差)。

2.两个参数对曲线形状的影响:

(1)φ(X)在x=μ处达到峰值,以直线x=μ为对称轴。在σ一定的情况下,若μ增大,图形右移;若μ减小,则左移,但形状不变。

(2)当μ值一定时,值越小,则对应的图形越尖越瘦。

第四节标准正态分布

标准正态分布:标准正态分布就是通过公式把一般正态分布转化而来,这样把不同的正态分布都统一为(0,1)的正态分布,然后再

通过查表求出两点之间的概率。

公式:

Ζ=

1.标准正态分布的μ=0,σ=1,其图形以Ζ=0为对称轴。

2.标准正态分布记作X~N(0,1),一般正态分布记作X~N(μ~σ2)

3.标准正态分布的图形唯一的,其值可以通过查表(附表4)

求得。(只有标准正态分布才能查表,如果是一般正态分布

则先用公式转化为标准正态分布)

4.正态分布N(μ~σ2)和标准正态分布N(0,1)面积之间的

对应关系:

当X=μ+σ时,Ζ==1

当X=μ-σ时,Ζ==-1

第五节常用统计分布

一、X2分布(卡方分布)

设变量ξ1、ξ2,、、、、、、ξk相互独立,且都服从N(0,1),则

X2=(ξ1)2+(ξ2)2+…+(ξk)2称为自由度为K的X2分

布。记作:ξ~X2(k)

二、t分布

设随机变量ξ和η独立,且ξ~N(0,1),η~X2(k),则随机变量t (t=)服从自由度为k的t分布,记作t~t(k)。

三、F分布

设随机变量ξ和η独立,且ξ~X2(k1)η~X2(k2),则随机变量F (F=) 服从自由度(k1,k2)的分布记作F~F(k1,k2)。

第五章参数估计

一、关于抽样的一些概念

1.总体:构成总体的所有元素的集合,元素则是构成总体的最基本的单位。

2.样本:从总体中按一定方式抽取出来的一部分元素的集合。

3.抽样:从总体中,按一定的方式选择或抽取样本的过程。

4.抽样单位:一次直接抽样所使用的基本单位。

二、统计推论

1.统计推论:根据局部资料(样本资料)对总体进行推断的过程。

2.样本资料的特点:

(1)样本资料来源于总体,因此局部资料的特性在某种程度上能反映总体的特征。

(2)由于抽样的随机性,则抽样的结果有可能不等于总体的结果。(3)当样本达到一定规模的时候(大样本),呈现规律性。

3.统计值:从样本中计算出来的数值。

4.参数值:总体的数值。

5.统计推论的内容分为两个部分:

(1)通过样本的统计值对总体的未知参数进行估计,称为参数估计。

(2)通过样本对总体的某种假设进行检验,称为假设检验。 三、抽样分布

1.样本均值 的分布:我们按照简单随机抽样的方法,从总体

中抽取样本,因为每一个个体被抽中的机会具有随机性,所以每一次抽出的样本其均值都不同,那么在同一个总体中,抽取n 次就有n 个样本均值( ),而样本均值 的分布就是这n 个样本均值的分布。

2.样本方差S 2的分布:就是n 个样本方差的分布。

第三节 参数的点估计

点估计:直接用样本计算出来的统计值来估计总体的参数值,由于它只是一个点值,所以称参数的点估计。 一、 总体参数的点估计公式

1.总体均值μ的点估计值为样本均值X

n x x x ,,,21 x

x 2

2~(,

)

x ==,=

x N n

n

x x Z σμσμμσσμ

μ

σσ

=

--=

2

我们把进行标准化即,

X=

2.总体方差σ2 的点估计值为样本方差S 2

S 2

=

3.总体标准差σ的点估计值为样本标准差S

第五节 正态总体的区间估计

一、 区间估计:通过样本计算出一个范围来对总体未知参数进行估

计。

二、 区间估计的概率表达式: ? Q ——未知参数(总体值); ? ^Q ——统计值(样本值);

? 【^Q-ε,^Q+ε】置信区间为Q 的可能取值范围);

?

1-α——置信度(置信区间包含Q 可靠性程度);一般是根据

研究者想让自己的研究达到什么样的精确度而自己给定的。

?

α——显著性水平(significant ),表示用置信区间估计不可

靠的概率。

第六节 大样本区间估计

(一)σ2 已知时,样本均值呈正态分布

αεε-=≤≤-+∧

1)

(Q Q Q P P εεαεμεα≤≤≤≤(Q-Q Q+)=1-P(x-x+)=1-

整理后得出μ的区间估计概率公式:

所以,μ的双侧置信区间为:

(二)大样本,总体分布满足x ~ N(μ , σ2 ), 但σ2 未知时对μ进行区间估计:

Z=

ˉ

(用样本标准差s 代替总体标准差σ)

整理后得出μ的区间估计概率公式:

所以,μ的双侧置信区间为:

? 故总体成数P 的区间估计公式为

如果P 未知,可以用^P 取代。

2

Z Z α

α

μα

≤≤P(x-x+

)=1-2

2

[,Z Z α

α

x-

x+P(x-x+)=1-2

2

Z Z α

αμα≤

≤x-x +2

2

[,Z Z α

αQ-Q Q+=1-P(p-+)=1-P(()P P p p P Z Z p P p Z P p Z αααεεαεεα

ε

α≤≤≤≤-=?=-=?-≤≤+

(三)常用置信度下的置信区间

当1-α=0.95时,置信区间为:

1-α=0.99时,置信区间为:

第六章 假设检验的基本概念

一、统计假设:依靠抽样数据对总体分布进行验证的假设,包括原假设和备择假设。 二、原假设和备择假设

1.原假设H 0:又称之为虚无假设,根据已有的资料,或周密考虑后确定的,如果没有充分根据,是不会被轻易否定的。

2.备选假设H 1:又称研究假设,经过抽样调查,有充分根据否定原假设H 0时,产生的假设。 三、假设检验的基本原理 大数定理:

1.对事件进行大量观察时,事件的发生是有规律的,这种有规律性的数量成为概率。

10.90[,x x α-+当-=

时,置信区间为:[ 1.96

, 1.96

x x -

+[ 2.58

2.58

x x -+

2.在大量观察中,频繁出现的事件具有较大的概率,反之,则具有小的概率。

小概率原理:

认为小概率事件在一次观察中是不可能出现的,称为小概率原理。

如果在一次观察中出现了小概率事件,就否定原有事件具有小概率事件的假设。

四、假设检验的思想

1.经过抽样调查获得数据后,如果根据样本计算的某个统计量

表明在原假设H0成立的条件下几乎是不可能发生的,我们就拒

绝原假设,而接受备选假设。

2.如果在原假设成立的条件下,根据样本所计算的某个统计量,

发生的可能性很大的话,我们就接受原假设。

五、相关名词:

1.统计检验中的假定(前提):是进行检验的前提或要求。如计算时,要求时正态分布,样本的抽取应该是随机抽样。

2.统计量:用来检验总体的样本的函数f(x1,x2,…xn),常用的统计量有服从Z分布、t分布、F分布、X2分布等,他们的统计量分别对应为Z、t、F、 X2。

3.显著性水平(significance) α =小概率

小概率的标准,小概率的数量界限。常用的显著性水平有α=0.10、0.05或0.01。

4.临界值、接受域和拒绝域

根据原假设作出统计量的分布图

六、假设检验的两类错误

1.弃真的错误——是在拒绝原假设时出现的错误,即将正确的原假设当作假的所犯的错误。弃真错误的大小就是

2.纳伪的错误——是接受原假设时出现的错误,即接受了实际上错误的原假设的错误。称为第二类错误。

七、两类错误的关系——弃真错误减少导致纳伪错误的增大反之亦然。即,当显著性水平α减小时,由于拒绝域的减小,弃真的错误会减小,但由此而来的是接受域增大了,因而纳伪的概率增大,反之亦然。

八、解决的方法--增加样本容量。

九、假设检验的四个步骤:

1.成立原假设

2.成立备择假设

3.统计量

4.拒绝域和接受域

第九章列联表

一、什么是列联表

(一)相关:是指一个变项的值与另一个变项的值有连带性。即如果一个变项的值发生变化,另一个变项的值也有变化。

(1)正相关(正比):是指一个变项的值增加时,另一个变项的值

也增加。

(2)负相关(反比):是指一个变项的值增加时,另一个变项的值却减少。

(二)自变量、因变量:科学研究中,我们成立假设,一般假定某变项是因,另一变项是果,那么前者称之为自变量,后者称为因变量。(1)不对称关系:自变量影响因变量,因变量不影响自变量(2)对称关系:自变量和因变量互相影响。

(三)列联表(交互分类表):按照两个变量进行交互分类的频次分布表,其综合了两个变项的共同分布。

即:我们先将数据按自变量x分类,然后分别统计自变量的每一取值下的因变量y的取值,然后形成的统计表。

二、列联表要注意的问题

1.线条要尽量的少,舍去不必要的线条。

2.每个表的顶端要有表号和标题。

3. 表的顶端为自变量,表的左旁边为因变量。

4.表的大小=表的横行数目(rows,简写为r)×表的纵行数目(columns,简写为c)。

5.表的下端和表的右边称为边缘分布。

6.联合次数分布表和联合频率分布表可以互换。

7.联合频率分布表中,一定要注明样本总数。

8.应以自变量的方向计算百分比的方向。

三、边缘分布

1.边缘分布:只研究联合分布中某一变量的分布,而不管另一个变量的取值。

2.关于y的边缘分布( N*j ):把联合分布中的概率,次数按行的方向加总起来的分布。

3.关于x的边缘分布( Ni* ):把联合分布中的概率,次数按列的方向加总起来的分布。

四、条件分布

将其中一个变量控制起来取固定值,研究另一变量的分布,即得到第二个变量的条件分布。

关于y的条件分布(控制x的取值),最多有c个。

关于x的条件分布(控制y的取值),最多有r个。

五、列联表中变量的相互独立性(自变量与因变量无关时)

列联表中变量相互独立性时,则如下等式成立:

=

Pij=Pi*P*j

六、列联表的检验

1.检验的内容:x与y是否有关

总体参数: p N (总体概率及总数)

样本参数:^P n (样本频率及频次)

2.列联表检验的原假设

H0:P ij = p i* p*j i=1,2,…,c

= j=1,2,…,r

七、列联表检验的统计量

1.期望格值Eij是假定H0成立的条件下,每格内期望发生的频次(理论值);

2.样本格值nij是样本实测频次或观察频次。

3.原假设成立的情况下,有下面的的等式:

Eij≈

八、统计量X 2

九、列联强度

1.r × c 列联表——PRE测量法

E1:不知道y与x的关系时,预测y的全部误差

E2:知道y与x的关系后,用x去预测y的全部误差

E1-E2:知道y与x的关系后预测y所减少的误差

PRE(Proportional reduction in error)称为减少误差比例,表示用x解释y时可以减少的误差的百分比。

2.PRE的取值范围:

PRE=0 E1=E2则x与y无关

PRE=1 E2=0 x与y完全相关

统计学20个重点知识整理

一、统计的含义及其之间的关系 统计一词一般有三种含义,即统计工作、统计资料和统计学。 1、统计工作即统计实践活动,是指按照调查研究的任务,对社会经济现象的数量方面进行搜集资料、整理资料和分析运用资料等一系列调查研究的工作过程。 2、统计资料是指反映社会经济现象特征的各项数字资料以及与之有联系的其他资料,包括调查阶段搜集的原始资料,经过加工整理和分析后的图标和文字资料等系统资料。 3、统计学是研究怎样进行社会经济统计活动的方法论科学,它阐述了统计研究社会经济现象的数量和数量关系时应该遵循的原理、原则和采用的方法等,是系统化的知识体系。 4、关系:统计资料是统计工作的成果,是对社会经济现象进行统计研究的基础;统计学是统计活动经验的科学总结和理论概括,统计学来源于实践,又高于实践,对统计实践起着指导的作用;统计工作要以统计学的理论为指导,并检验和发展统计理论。 二、统计总体和统计单位及其之间的关系 1、统计总体:是由客观存在的、具有某种共同性质的许多个别单位所构成的整体,简称总体。 2、统计总体的特征:大量性、同质性、差异性 3、总体单位:构成统计总体的个别事物 4、例:要研究某一乡镇企业的职工素质情况,则该乡镇企业的全体人员构成一个总体,其中每一个职工就是总体单位。 5、关系:a.总体由总体单位组成; b.组成总体的个体是有差别的; C.根据统计研究目的的不同,总体与总体单位是可以相互转化的。 三、统计指标和统计标志之间的关系 两者之间既有明显的区别,又有密切的联系。主要区别在于: 1、指标说明总体特征;而标志则说明总体单位特征; 2、统计指标必须是可量的;统计标志未必都是可量的; 3、统计指标具有综合性;而统计标志一般不具有综合性; 两者之间的主要联系在于: 1、许多统计指标的指标数值是从总体单位的数量标志值汇总而来; 2、指标与标志之间存在着变换关系; 例如:要了解我国粮食生产状况,则我国的粮食总产量是指标,而某省的粮食总产量是标志。 四、一个完整的统计调查方案包括的内容 1、确定调查目的; 2、确定调查对象和调查单位; 3、确定调查项目,设计调查表; 4、确定调查时间和方法; 5、制定调查工作的组织实施计划 五、统计调查的分类 1、按统计调查方式的不同,可分为定期统计报表和专门调查; 2、按调查总体包括的范围不同,可分为全面调查和非全面调查; 3、按调查登记的时间是否具有连续性,可分为经常性调查和一次性调查; 4、按统计调查是否具有强制性,可分为政府统计调查、民间统计调查和涉外社会调查; 5、按收集资料的方法,可分为直接观察法、报告法、采访法和问卷法

广东财经社会统计学期末考试试卷(A卷)

广东财经社会统计学期末考试试卷(A卷) 一、单项选择题(请将正确选项的序号填在答题纸相应的位置。) 1.社会统计中的变量一般分四个层次,其中最高层次的变量是 D 。 A、定类变量 B、定序变量 C、定距变量 D、定比变量 2.标准正态分布的均值一定 C 。 A、等于1 B、等于-1 C、等于0 D、不等于0 3.计算中位值时,对于未分组资料,先把原始资料按大小顺序排列成数列,然后用公式 D 确定中位值所在位置。 A、n/2 B、(n-1)/2 C、(n+2)/2 D、(n+1)/2 4.下列统计指标中,对极端值的变化最不敏感的是 A 。 A、众值 B、中位值 C、四分位差 D、均值 5.如果原假设是总体参数不小于某一数值,即大于和等于某一数值,应采用的检验是。 A、两端检验 B、右端检验 C、左端检验 D、无法判断 6.在一个右偏的分布中,大于均值的数据个数将。 A、不到一半 B、等于一半 C、超过一半 D、视情况而定 7.下列关于“回归分析和相关分析的关系”的说法中不正确的是。 A、回归分析可用于估计和预测 B、相关分析是研究变量之间的相互依存关系的密切程度 C、相关分析不需区分自变量和因变量 D、回归分析是相关分析的基础 8.假定男性总是与比自己年轻3岁的女性结婚,那么夫妻年龄之间的积距相关系数r为。 A、-1 < r< 0 B、0 < r< 1 C、r = 1 D、r = -1 9.“4、6、8、10、12、26”这组数据的集中趋势宜用测量。 A、众值 B、中位值 C、均值 D、平均差 10.某校期末考试,全校语文平均成绩为80分,标准差为4.5分,数学平均成绩为87分,标准差为9.5分。某学生语文得了83分,数学得了92分,从相对名次的角度看,该生的成绩考得更好。 A、数学 B、语文 C、两门课程一样 D、无法判断 三、判断题(请在答题纸相应位置打√或?。) 1.无论分布曲线是正偏还是负偏,中位值都居于均值和众值之间。 2.一组数据的均值代表了该组数据中大多数的数据。 3.对于连续型随机变量,讨论某一点取值的概率是没有意义的。 4.异众比率越大,各变量值相对于众值越离散,众值的代表性越好。 5.只要样本量足够大,则不论总体分布如何,样本均值的抽样分布都服从正态分布。 6.检验均值差异时,独立样本采用“差的均值”、关联样本采用“均值的差”进行检验。 7.在显著性水平既定的情况下,一端检验比两端检验更容易拒绝H0。 8.不管相关关系表现形式如何,当r=1时,变量X和变量Y都是完全相关;当r=0时,变量X 和变量Y都是完全不相关。 9.方差分析就其内容来说,是分析或检验总体间的均值是否存在差异。 10.纳伪的概率β可以根据原假设H0所设的分布计算出来。 1

《概率论与数理统计》笔记

《概率论和数理统计》笔记 一、课程导读 “概率论和数理统计”是研究随机现象的规律性的一门学科 在自然界,在人们的实践活动中,所遇到的现象一般可以分为两类: 确定性现象随机现象 确定性现象 在一定的条件下,必然会出现某种确定的结果.例如,向上抛一枚硬币,由于受到地心引力的作用,硬币上升到某一高度后必定会下落.我们把这类现象称为确定性现象(或必然现象).同样,任何物体没有受到外力作用时,必定保持其原有的静止或等速运动状态;导线通电后,必定会发热;等等也都是确定性现象. 随机现象 在一定的条件下,可能会出现各种不同的结果,也就是说,在完全相同的条件下,进行一系列观测或实验,却未必出现相同的结果.例如,抛掷一枚硬币,当硬币落在地面上时,可能是正面(有国徽的一面)朝上,也可能是反面朝上,在硬币落地前我们不能预知究竟哪一面朝上.我们把这类现象称为随机现象(或偶然现象).同样,自动机床加工制造一个零件,可能是合格品,也可能是不合格品;射击运

动员一次射击,可能击中10环,也可能击中9环8环……甚至脱靶;等等也都是随机现象. 统计规律性 对随机现象,从表面上看,由于人们事先不能知道会出现哪一种结果,似乎是不可捉摸的;其实不然.人们通过实践观察到并且证明了,在相同的条件下,对随机现象进行大量的重复试验(观测),其结果总能呈现出某种规律性.例如,多次重复抛一枚硬币,正面 朝上和反面朝上的次数几乎相等;对某个靶进行多次射击,虽然各次弹着点不完全相同,但这些点却按一定的规律分布;等等.我们把随机现象的这种规律性称为统计规律性. ●使用例子 摸球游戏中谁是真正的赢家 在街头巷尾常见一类“摸球游戏”.游戏是这样的:一袋中装有16个大小、形状相同,光滑程度一致的玻璃球.其中8个红色、8个白色.游戏者从中一次摸出8个,8个球中.当红白两种颜色出现以下比数时.摸球者可得到相应的“奖励”或“处罚”: 结果(比数) A (8:0) B (7:1) C (6:2) D (5:3) E (4:4) 奖金(元)10 1 0.5 0.2 -2 注:表中“-2”表示受罚2元

社会统计学复习题(有答案)复习课程

社会统计学复习题(有 答案)

社会统计学课程期末复习题 一、填空题(计算结果一般保留两位小数) 1、第五次人口普查南京市和上海市的人口总数之比为 比较 相对指标;某企业男女职工人数之比为 比例 相对指标;某产品的废品率为 结构 相对指标;某地区福利机构网点密度为 强度 相对指标。 2、各变量值与其算术平均数离差之和为 零 ;各变量值与其算术平均数离差的平方和为 最小值 。 3、在回归分析中,各实际观测值y 与估计值y ?的离差平方和称为 剩余 变差。 4、平均增长速度= 平均发展速度 —1(或100%)。 5、 正J 形 反J 形 曲线的特征是变量值分布的次数随变量值的增大而逐步增多; 曲线的特征是变量值分布的次数随变量值的增大而逐步减少。 6、调查宝钢、鞍钢等几家主要钢铁企业来了解我国钢铁生产的基本情况,这种调查方式属于 重点 调查。 7、要了解某市大学多媒体教学设备情况,则总体是 该市大学中的全部多媒体教学设备 ;总体单位是 该市大学中的每一套多媒体教学设备; 。 8、若某厂计划规定A 产品单位成本较上年降低6%,实际降低了7%,则A 产品单位成本计划超额完成程度为 100%7% A 100% 1.06%100%6% -=- =-产品单位成本计划超额完成程度 ;若某厂计划规定B 产 品产量较上年增长5%,实际增长了10%,则B 产品产量计划超额完成程度为 100%10% 100% 4.76%100%5% += -=+B 产品产量计划超额完成程度 。 9、按照标志表现划分,学生的民族、性别、籍贯属于 品质 标志;学生的体重、年龄、成绩属于 数量 标志。

周飞舟《社会统计学》课程大纲

《社会统计学》课程大纲 讲授教师:周飞舟Email: sociologist@https://www.doczj.com/doc/3a6102495.html, 助教:廖勤樱Email:liaoqinying@https://www.doczj.com/doc/3a6102495.html, 课程介绍 统计是社会科学研究中广泛采用的定量分析方法。本课程系统地介绍了社会统计学的基本原理、基本概念和主要内容,按照变量的四个测量层次(定类、定序、定距和定比),课程详细阐述了统计描述和统计推论的操作程序和具体方法,并结合生动的实例说明了统计分析在社会研究中的作用和地位。作为一门初中级社会统计学课程,本课程内容限定在单变量和双变量统计范围之内。 教学大纲 指导思想: 社会现象的独特性和社会研究方法的特点决定了统计在社会研究中的重要地位,统计也因此而成为社会研究的重要工具和重要手段。近十几年来,统计理论、统计方法和统计手段迅速发展,其应用范围也越来越广泛。本课程的目的就是为深入这一领域建立一个基础和平台,即对统计的基本概念、原理、类型、方法、程序、作用等有基本的和概括了解与把握,并能应用这些知识对研究问题进行简单的统计分析。本课程的教与学强调:第一,社会研究是一项系统的和严谨的工作,从研究设计→资料收集→资料整理分析→撰写研究报告,各个步骤之间相互联系、相互影响,密不可分。统计分析作为研究的一个重要环节,只有放在社会研究过程的背景之下,注重其与研究问题及研究方法的联系,才能更准确地掌握每一种统计类型和统计方法的特征,才能针对具体的研究问题选择恰当的统计方法。 第二,作为一门应用性极强的课程,本课程特别强调理论联系实际的原则,在教与学的过程中,一方面教师要通过列举和分析大量研究和应用实例,深化学生对统计原理的和统计思想的理解;另一方面要求学生将学习到的知识不断运用到对实际社会问题的分析中去。为此,要求学生在学习课程讲授的知识的同时,认真完成每一讲后面所指定的“实践性”的练习。 第三,在实际的社会研究中,资料的统计分析都是通过计算机完成的。各种统计描述和统计分析方法被制作成用于计算机的专门的和通用的统计软件,如SPSS、SAS、STATE等。本课程将熟练掌握和灵活运用上述统计软件作为本课程教与学的不可分割的一部分,课程所指定的各种“实践性”练习(包括作业)要求尽量在计算机上完成。 第四,课程中介绍的各种具体的统计方法和统计技术,都有其优点和某些局限性,适用于一定的研究目的和分析要求。因此,在课程学习过程中,不仅需要对每一种方法和技术的特点、实施程序和适用范围有清楚的了解,而且也需要认识各种方法与技术之间的异同点,以便能够在面对不同的社会现象和不同的研究目的时,正确、灵活地选择和运用相应的方法与技术。 第五,统计分析是一种定量分析方法,对于统计结果的理解和解释需要联系其它调查资料,如研究对象所处社会的背景状况、所研究问题的特定意义、调查对象的特点等等来进行。对统计结果的解释和使用应当遵循实事求是的原则,杜绝弄虚作假,这是每一个从事社会研究的人员均应该严格遵循的规范。 目的要求: 通过本课程的学习,掌握统计的基本概念、原理、类型、方法、程序、作用以及应用等。能

统计学知识点汇总情况

统计学知识点汇总 一、统计学 统计学是一门关于数据资料的收集、整理、分析和推断的科学。 三、统计的特点 (1)数量性: 社会经济统计的认识对象是社会经济现象的数量方面,包括现象的数量表现、现象之间的数量关系和质量互变的数量界限。 (2)总体性: 社会经济统计的认识对象是社会经济现象的总体的数量方面。例如,国民经济总体的数量方面、社会总体的数量方面、地区国民经济和社会总体的数量方面、各企事业单位总体数量方面等等。 (3)具体性: 社会经济统计的认识对象是具体事物的数量方面,而不是抽象的量。这是统计与数学的区别。(4)社会性: 社会经济现象是人类有意识的社会活动,是人类社会活动的条件、过程和结果,社会经济统计以社会经济现象作为研究对象,自然具有明显的社会性。 四、统计工作过程 (1)统计设计 根据所要研究问题的性质,在有关学科理论的指导下,制定统计指标、指标体系和统计分类,给出统一的定义、标准。同时提出收集、整理和分析数据的方案和工作进度等。 (2)收集数据 统计数据的收集有两种基本方法,实验法和调查法。 (3)整理与分析

描述统计是指对采集的数据进行登记、审核、整理、归类,在此基础上进一步计算出各种能反映总体数量特征的综合指标,并用图表的形式表示经过归纳分析而得到的各种有用的统计信息。 推断统计是在对样本数据进行描述的基础上,利用一定的方法根据样本数据去估计或检验总体的数量特征。 (4)统计资料的积累、开发与应用 对于已经公布的统计资料需要加以积累,同时还可以进行进一步的加工,结合相关的实质性学科的理论知识去进行分析和利用。 五、统计总体的特点 (1)大量性 大量性是指构成总体的总体单位数要足够的多,总体应由大量的总体单位所构成,大量性是对统计总体的基本要求; (2)同质性 同质性是指总体中各单位至少有一个或一个以上不变标志,即至少有一个具有某一共同标志表现的标志,使它们可以结合起来构成总体,同质性是构成统计总体的前提条件; (3)变异性 变异性就是指总体中各单位至少有一个或一个以上变异标志,即至少有一个不同标志表现的标志,作为所要研究问题的对象。变异性是统计研究的重点。 六、标志与指标的区别与联系 ■区别: 标志是说明总体单位特征的;指标是说明总体特征的。 标志中的品质标志不能用数量表示;而所有的指标都能用数量表示。 标志(指数量标志)不一定经过汇总,可直接取得;而指标(指数量指标)一定要经过汇总才能取得。

社会统计学期末复习提纲

《社会统计学》课程期末复习提纲 ·考试题型: 一、填空题(10×1分=10分)二、判断题(10×1分=10分) 三、单项选择题(20×1分=20分)四、简答题(2×6分=12分)五、计算题(4题共48分) ·各章复习要点 第一章总论 P.2 统计的含义:统计工作·统计资料·统计学。其中:统计工作和统计资料是活动过程和成果的关系;统计学和统计工作是理论和实践的关系。 “统计”一词包含三种涵义,并且具有密切的联系。其中:统计工作和统计资料之间是工作与成果的关系;统计学和统计工作之间是理论和实践的关系。(y ) P.11—P.13 定类尺度;定序尺度;定距尺度;定比尺度(结合课件相关内容) 量化尺度特征功能举例 1、定类尺度确定类别分类民族的测量 2、定序尺度确定类别排列顺序分类排序考试成绩等级的测量 3、定距尺度确定类别排列顺序测数量差别和间隔距离无绝对零点分类排序加减智商的测量 4、定比尺度确定类别有序排序测数量差别和间隔距离有绝对零点分类排序加减乘除体重的测量何谓定类尺度和定序尺度?两者有何区别?1定类尺度是确定事物类别的计量尺度---高一个层次 2定类只能区分不同性质的现象并予以归类---可将所区分的类别按高低,大小,好坏,强弱,优劣等顺序做有序排列。 3定类不能进行数的比较和数学运算--能进行大小比较。 何谓定距尺度和定比尺度?两者区别定距尺度是确定研究对象之间某些数值相差的距离的尺度---最高的数据计量尺度 缺乏绝对零点---有,0 2. 0只表示一个值,即0值---0是绝对零点,表示没有 3.只能加减,不能乘除---加减乘除,高层次的各种统计分析。 P.13—P.14 总体和总体单位 一、总体和总体单位 (一)总体 1、概念总体(也称为统计总体)是指客观存在的、在同一性质基础上结合起来的许多个别单位的整体(同质个体的集团)。 2、特点·客观性·大量性同质性·差异性 1、总体单位除了必须具备同质性外,还必须具备1、差异性(或变异性)性,否则

贾俊平《统计学》复习笔记课后习题详解及典型题详解(数据的搜集)【圣才出品】

第2章数据的搜集 2.1 复习笔记 一、数据的来源 1.数据的直接来源 数据的直接来源是指通过直接调查或实验活动直接获得一手数据,直接来源的数据又分为调查数据和实验数据。它们的不同之处在于: (1)调查数据为通过调查方法得到的数据,而实验数据为通过实验方法得到的数据。 (2)调查数据通常是针对社会现象而获取的,而实验数据大多是针对自然现象而获取的; (3)调查数据通常取自有限总体,即总体所包含的个体单位是有限的;而实验数据是指在实验中通过控制实验对象所搜集到的变量的数据。 2.数据的间接来源 (1)间接来源的数据(二手资料) 如果与研究内容有关的原信息已经客观存在,只是对这些原信息重新加工、整理,使之成为进行统计分析可以使用的数据,则称为间接来源的数据。 (2)二手资料的优点 搜集方便;数据采集快;采集成本低。 (3)二手资料的作用

分析所要研究的问题;提供研究问题的背景,帮助研究者更好地定义问题,检验和回答某些假设和疑问,寻找研究问题的思路和途径。 (4)二手资料的局限性 针对性不够;资料的相关性不够;口径可能不一致;数据也许不准确,也许过时等。 (5)对二手资料进行评估的内容 ①资料是谁搜集的?数据搜集者的实力和社会信誉度会在一定程度上影响数据说服力; ②搜集的目的是什么?为了某种特殊的利益而搜集的数据是值得怀疑的; ③数据是怎样搜集的?搜集数据的方法有很多,不同方法所采集到的数据,其解释力和说服力都是不同的。如果不了解搜集数据所用的方法,很难对数据的质量做出客观的评价。数据的质量来源于数据的产生过程; ④什么时候搜集的?过时的数据的说服力会受到质疑。 (6)使用二手数据的注意事项 使用二手数据,要注意数据的定义、含义、计算口径和计算方法,避免错用、误用、滥用。在引用二手数据时,应注明数据的来源,以尊重他人的劳动成果。 二、调查方法 1.概率抽样和非概率抽样 (1)概率抽样 概率抽样(随机抽样):指遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。 ①概率抽样的特点 a.抽样时是按一定的概率以随机原则抽取样本,随机原则就是在抽取样本时排除主观

社会统计学复习题(有答案)

社会统计学课程期末复习题 一、填空题(计算结果一般保留两位小数) 1、第五次人口普查南京市和上海市的人口总数之比为 比较 相对指标;某企业男女职工人数之比为 比例 相对指标;某产品的废品率为 结构 相对指标;某地区福利机构网点密度为 强度 相对指标。 2、各变量值与其算术平均数离差之和为 零 ;各变量值与其算术平均数离差的平方和为 最小值 。 3、在回归分析中,各实际观测值y 与估计值y ?的离差平方和称为 剩余 变差。 4、平均增长速度= 平均发展速度 —1(或100%)。 5、 正J 形 反J 形 曲线的特征是变量值分布的次数随变量值的增大而逐步增多; 曲线的特征是变量值分布的次数随变量值的增大而逐步减少。 6、调查宝钢、鞍钢等几家主要钢铁企业来了解我国钢铁生产的基本情况,这种调查方式属于 重点 调查。 7、要了解某市大学多媒体教学设备情况,则总体是 该市大学中的全部多媒体教学设备 ;总体单位是 该市大学中的每一套多媒体教学设备; 。 8、若某厂计划规定A 产品单位成本较上年降低6%,实际降低了7%,则A 产品单位成本计划超额完成程度为 100%7% A 100% 1.06%100%6% -=-=-产品单位成本计划超额完成程度 ;若某厂计划规定B 产品产量较上年增长5%,实际增长了10%,则B 产品产量计划超额完成程度为 100%10% 100% 4.76%100%5% +=-=+B 产品产量计划超额完成程度 。 9、按照标志表现划分,学生的民族、性别、籍贯属于 品质 标志;学生的体重、年龄、成绩属于 数量 标志。 10、从内容上看,统计表由 主词 和 宾词 两个部分组成;从格式上看,统计表由 总标题 、 横行标题 、 纵栏标题 和 指标数值(或统计数值); 四个部分组成。 11、从变量间的变化方向来看,企业广告费支出与销售额的相关关系,单位产品成本与单位产品原材料消耗量的相关关系属于 正 相关;而市场价格与消费者需求数量的相关关系,单位产品成本与产品产量的相关关系属于 负 相关。 12、按指标所反映的数量性质不同划分,国民生产总值属于 数量 指标;单位成本属于 质量 指标。 13、如果相关系数r=0,则表明两个变量之间 不存在线性相关关系 。 二、判断题

统计学笔记(精修版)

绪论 第一节统计学的含义和作用 一、什么是统计学 1.统计学的含义 统计学是有效收集、处理、分析和解释数据,发现规律,以便更好决策的一门方法论学科。 2. 分析数据的方法有描述统计、推断统计。 ⑴描述统计 ①描述统计是将所收集的数据处理后,用数值、表格或图形形式表现的有用信息。 ②描述统计是基础,它为推断统计、统计咨询、统计决策提供必要 ⑵推断统计就是根据样本数据特征去估计或检验总体的数据特征。 二、统计学的作用和重要性 1.统计学的作用 人们用数据发现的规律做出更好的决策。 2.要发现规律,对统计数据通常有要求:客观性、适用性、准确性和及时性。 三、统计学是如何解决实际问题的? 统计学解决实际问题的基本思路是: ①提出与统计有关的实际问题; ②建立有效的指标体系; ③收集数据; ④选用或创造有效的统计方法处理、显示所收集数据的特征; ⑤根据所收集数据的特征、结合定性、定量知识作出总体特征的合理推断; ⑥根据推断给出更好决策的建议; 不解决问题时,重复第②-⑥步。 第二节统计学的基本概念 一、总体、单位和样本 1.总体 统计总体是根据一定目的确定的,由客观存在的、具有某种同质性的许多个别事物构成的整体。 ⑴同质性是确定统计总体的基本标准,它是根据统计的研究目的而定的。研究目的不同,所确定的总体也不同,其同质性的意义也随之变化。 ⑵统计总体还应具备大量性,即统计总体应应该由足够数量的同质性单位构成。 2.总体单位(简称单位)是组成总体的各个个体。如典型案例1中英军的每架战机;事例4中的每个居民。 3.由总体的部分单位组成的集合称为样本(又称子样)。构成样本的单位称为样品,样本中样品的数目称为样本容量。 4. 统计学解决问题的目的是认识总体的数据特征。但是,当调查是破坏性的,或者出于成本、时间等因素考虑时,不必要或不可能对构成总体的所有单位都进行调查。

社会统计学重点

1.社会调查研究的步骤:1.确定课题。 2.了解情况。 3.建立假设。 4.确定概念和测量方法。 5.涉及问卷。 6.试填问卷。 7.调查实施。 8.校核与登录。 9.统计分析与命题的检验。资料的整理归纳分析以及如何收集资料正是统计分析所要谈论的内容。 2.社会调查资料的特点:随机性和统计规律性。 3.怎样选用统计分析方法:1.全面调查和非全面调查。2.单变量和多变量。3.变量层次. 4.分布概念:指一个概念或变量,它的各个情况出现的次数或频次,又称频次分布。表现形式:数对的集合. 5.变量取值的要求—⑴变量取值必须完备;⑵变量取值必须互斥。 6.统计表:是用表格形式来标识前面所说变量的分布。它不需要文字叙述,就能反应出资料的特性以及资料之间的关系,在编印,传递方面有很大优点,比统计表更精确,但不及统计图直观。 7.统计表必须具备的内容:1.表号。2.表头。3.标识行。4.主体行。5.表尾。 8.根据变量的层次,可以选择以下不同的统计图形:定类变量:圆瓣图、条形图。定序变量:条形图。定距变量:直方图、折线图。 9.圆瓣图:是将资料展示在一个圆的平面上,通常用圆形代表现象的总体,用圆瓣代表现象中一种情况,其大小代表变量取值在总体中所占的百分数。 10.条形图:是用长条的高度来表示资料类别的次数或百分数。定类:离散。定序:离散或紧挨着的。 11.直方图:直方图从图形来看,也是紧挨着的长条形所组成,它与条形图不同,宽度有意义,一般来说,直方图是以长条的面积来表示频次或相对频次,而条形的长度。即纵轴高度表示是频次密度或相对频次密度。频次密度=频次/组距。 12.折线图:如果用直线连接直方图中条形顶端的中点,就是折线图。折线图可使资料的频次分布趋势更一目了然。 13.累计图和累计表:表示的是大于某个变量值的频次是多少或小于某个变量值的频次是多少。 14.众值:就是用具有频数最多的变量值来表示变量的集中值。 15.中位值:是数据序列之中央位置之变量值。未分组:N为奇数时:中位值等于n+1/2. N 为偶数时:中位值等于中间两变量和/2. 根据频次分布求中位值:中位值等于频次的和+1/2.中位值等于求出所对应值所在的区域。分组:1.计算出累计频次,得到累计百分比。2.确定最高频次所在组。 均值:总体各单位数值之和除以总体单位数目所得之商。 统计分析中习惯以X 来表示。 离散趋势测量法:

2018年春社会统计学期末复习训练题 (4)

2018年春社会统计学期末复习题 一、单项选择题 1.以下关于因变量与自变量的表述不正确的是() A.自变量是引起其他变量变化的变量 B.因变量是由于其他变量的变化而导致自身发生变化的变量 C.自变量的变化是以因变量的变化为前提 D.因变量的变化是以自变量的变化为前提 2.在频数分布表中,将各个有序类别或组的百分比逐级累加起来称为() A.频率 B.累积频数 C.累积频率 D.比率 3.离散系数的主要目的是() A.反映一组数据的平均水平 B.比较多组数据的平均水平 C.反映一组数据的离散程度 D.比较多组数据的离散程度 4.经验法则表明,当一组数据正态分布时,在平均数加减2个标准差的范围之内大约有() A.50%的数据 B.68%的数据 C.95%的数据

D.99%的数据 5.在某市随机抽取10家企业,7月份利润额(单位:万元)分别为 72.0、63.1、20.0、23.0、54.7、54.3、23.9、25.0、26.9、29.0,那么这10家企业7月份利润额均值为() A.39.19 B.28.90 C.19.54 D.27.95 6.用样本统计量的值直接作为总体参数的估计值,这种方法称为() A.点估计 B.区间估计 C.有效估计 D.无偏估计 7.在频数分布表中,比率是指() A.各组频数与上一组频数之比 B.各组频数与下一组频数之比 C.各组频数与总频数之比 D.不同小组的频数之比 8.下面哪一项不是方差分析中的假定() A.每个总体都服从正态分布 B.观察值是相互独立的 C.各总体的方差相等 D.各总体的方差等于0

9.判断下列哪一个不可能是相关系数() A.-0.9 B.0 C.0.5 D.1.2 10.用于说明回归方程中拟合优度的统计量主要是() A.相关系数 B.离散系数 C.回归系数 D.判定系数 11.在假设检验中,不拒绝虚无假设意味着() A.虚无假设是肯定正确的 B.虚无假设肯定是错误的 C.没有证据证明虚无假设是正确的 D.没有证据证明虚无假设是错误的 12.下列变量属于数值型变量的是() A.工资收入 B.产品等级 C.学生对考试改革的态度 D.企业的类型 13.如果用一个图形描述比较两个或多个样本或总体的结构性问题时,适合选用哪种图形()

统计学原理读书笔记

统计学原理读书笔记 1、统计工作是指对社会经济现象数量方面进行搜集、整理和分析工作的总称,它是一种社会调查研究活动。统计资料也即统计信息,是统计部门或单位进行工作所搜集、整理、编制的各种统计数据资料的总称,它是进行国民经济宏观调控的决策依据,是社会公众了解国情、国力和社会经济发展状况的信息主题。统计学是关于统计过程的理论和方法的科学。 2、统计学在研究社会经济现象时,首先从定性研究开始,即在搜集原始统计资料(统计调查)之前,就要根据所要研究对象的性质和研究任务、目的,确定调查对象的范围,规定分析这个对象的统计指标、指标体系和分组方法。——定性工作,为定量分析做准备。在定量分析基础上再达到认识社会经济现象的本质、特征或规律。 3、质——量——质 4、统计学特点: ①数量性(用大量数字资料说明事物的规模、水平、结构、比例关系、差别程度、普遍程度、发展速度、平均规模和水平、平均发展速度等) ②总体性(针对总体,研究过程是从个体到总体,即必须对足够大量的个体进行登记、整理和综合,是它过度到总体的数量方面,从而把握社会经济现象的总规模、总水平及其变化与发展的总趋势。 ③具体性(一定的质规定一定的量,一定的量表现一定的质。) ④社会性 5、统计工作的基本任务 ①全面、准确、及时地提供有关社会经济发展情况的资料为决策管理服务。 会议记录 买单率X 客单价 ‖‖ 商圈人流X20%=进店客流X(买单人数/进店客流数)X(营收/买单人数)=营收 进店客流少——行销品牌问题 买单率低——产品组合问题 客单价高——商圈和选址问题 选址在远离市区,开大商场,要求开车来,这样买单率和客单价会高,件单价会低,一买一车。选址在市内,开便利店,要求件单价高,客单价低,客流大。 人口变项——目的是做市调 人口结构——消费结构。 人口 品 项

(完整版)社会统计学简答题与计算题复习资料

社会统计学复习材料 简答题 1、统计数据的质量要求: 1、精度:最低的抽样误差或随机误差; 2、准确性:最小的非抽样误差或偏差; 3、关联性:满足用户决策、管理和研究的需要; 4、及时性:在最短的时间里取得并公布数据; 5、一致性:保持时间序列的可比性; 6、最低成本:以最经济的方式取得数据。 2、抽样误差及其影响因素: 1、由于抽样的随机性所带来的误差; 2、所有样本可能的结果与总体真值之间的平均性差异; 3、影响抽样误差的大小的因素:样本量的大小,总体的变异性。 3、判断计量优劣的评判标准: 用样本的估计量直接作为总体参数的估计值, 无偏性:估计量抽样分布的数学期望等于被估计的总体参数; 有效性:对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效;一致性:随着样本容量的增大,估计量的值越来越接近被估计的总体参数。4、假设检验的一般步骤: (1)陈述原假设和备择假设; (2)从所研究的总体中抽出一个随机样本; (3)确定一个适当的检验统计量,并利用样本数据算出其具体数值;

(4)确定一个适当的显著性水平,并计算出其临界值,指定拒绝域; (5)将统计量的值与临界值进行比较,作出决策; (6)统计量的值落在拒绝域,拒绝H0,否则不拒绝H0。 5、假设检验中的两类错误及其之间的关系 错误: 1、第Ⅰ类错误(弃真错误)原假设为真时拒绝原假设,第Ⅰ类错误的概率记为a ,即显著性 水平; 2、第Ⅱ类错误(取伪错误)原假设为假时未拒绝原假设,第Ⅱ类错误的概率记为b 。 a 和 b 的关系就像翘翘板,a 小b 就大,a 大b 就小。因此,在样本容量n 固定情况下, 不能同时减少两类错误!一般采用增加样本容量的办法来解决。 关系:当显著性水平a 减小时,由于拒绝域的减小,弃真的错误会减小,但由此而来的是 接受域增大了,因此纳伪的概率b 要增大。反之亦然(P235)。也就是说如果要减小b ,就 增大显著性水平a 。 6、置信区间与置信度的关系表达式: ()αεθθεθ -=+≤≤-1??P []εθεθ+-?,?称作置信区间。α-1称作置信度,可信度,或置信水平。α称置信水平。在样本容量一定的情况下,置信区间和置信度是相互制约的。置 信度愈大,则相应的置信区间也域宽。当把区间估计得小一些,估计的精确程度提高了,但换取的代价将是估错的可能性增加了,也就是可靠性或置信度 α-1下降了。(P201) 7、正态分布曲线的特征: (1)一个高峰:曲线是单峰,有一个最高点。 (2)一个对称轴。曲线的高峰处有一个对称轴,在轴的左右两边是对称的。

黄良文《统计学》(第2版)笔记和课后习题(含考研真题)详解 第1章 导 论【圣才出品】

第1章导论 1.1复习笔记 一、统计学的对象和方法 1.统计和统计学 (1)统计工作的产生和发展 统计工作就是通过社会调查或科学实验,搜集客观现象的现实数据,用来描述和分析自然、社会、经济、政治、文化现象的变化情况。其产生和发展过程包括: ①适应市场经济的发展以及国家对外扩张的需要,大大拓展了统计的活动范围。 ②设立统计专业机构,促成统计活动专业化、独立化。 ③统计方法的完善,大大提高了统计的认识能力。 ④电子计算技术为统计活动的现代化进程提供了手段。 (2)统计学的产生和发展 最初的统计学是作为国家重大事项的记述。这一学派称为国势学派或记述学派,其创始人是17、18世纪德国的海尔曼·康令(H.Conring,1606—1681)和高特弗洛里特·阿亨瓦尔(G.Achenwall,1719—1772)。 经历18世纪到19世纪中叶,把概率论引入统计学,使统计方法发生了重大的飞跃。其代表人物有法国的拉普拉斯(https://www.doczj.com/doc/3a6102495.html,place,1749—1827)和比利时统计学家阿道夫·凯特勒(A.Quetelet,1796—1874)。政治算术派是以总体数量比较的方法对社会经济问题进行分析,代表人物有威廉·配第(W.Petty,1623—1687)和约翰·格朗特(J.Graunt,1620—1674)。 此后,应用概率论研究随机现象数量规律的数理统计方法及其在各个领域的应用迅速得

到发展。描述统计学以卡尔·皮尔逊(K.Pearson,1857—1936)为代表,到了20世纪20年代的推断统计学以费歇尔(R.A.Fisher,1880一1962)为创始人。 2.统计学的研究对象 统计学的研究对象是指统计研究所要认识的事物客体。统计对象的特点包括数量性、总体性、单位的变异性的特点。而社会经济统计学的研究对象除了具有上述的数量性、总体性、变异性外还具有社会性。 3.统计学的研究方法 (1)统计的组织系统 ①统计的社会系统 统计活动系统包括统计主体、统计客体和统计宿体三个组成部分。其统计流程图,如图1-1所示。 图1-1统计流程图 ②统计工作系统 统计主体的认识活动,有一个严密的工作系统。这个系统具有明显的层次性和阶段性。 统计工作过程一般分为统计设计、统计资料搜集、统计资料整理、统计资料分析、统计资料提供和管理等阶段。 2.统计研究的方法 (1)大量观察法 大量观察法:统计研究客观现象和过程的规律,是从现象总体上加以考察,就总体中的

社会统计学综合练习题资料

社会统计学期末复习训练 一、单项选择题 1.为了解IT行业从业者收入水平,某研究机构从全市IT行业从业者随机抽取800人作为样本进行调查,其中44%回答他们的月收入在6000元以上,30%回答他们每月用于娱乐消费在1000元以上。此处800人是()A.样本 B. 总体 C. 统计量 D. 变量 2.在频数分布表中,将各个有序类别或组的百分比逐级累加起来称为() A.频率 B. 累积频数 C. 累积频率 D. 比率 3.离散系数的主要目的是() A.反映一组数据的平均水平 B.比较多组数据的平均水平 C.反映一组数据的离散程度 D.比较多组数据的离散程度 4.经验法则表明,当一组数据正态分布时,在平均数加减1个标准差的范围之内大约有 ( ) A. 50%的数据 B. 68%的数据 C. 95%的数据 D. 99%的数据 5.在某市随机抽取10家企业,7月份利润额(单位:万元)分别为72.0、63.1、20.0、23.0、54.7、54.3、23.9、25.0、26.9、29.0,那么这10家企业

7月份利润额均值为( ) A. 39.19 B. 28.90 C .19.54 D .27.95 6.用样本统计量的值直接作为总体参数的估计值,这种方法称为( ) A .点估计 B .区间估计 C .有效估计 D .无偏估计 7.某单位对该厂第一加工车间残品率的估计高达10%,而该车间主任认为该比例(π)偏高。如果要检验该说法是否正确,则假设形式应该为( ) A .0H :π≥0.1;1H :π<0.1 B .0H :π≤0.1;1H :π>0.1 C .0H :π=0.1;1H :π≠0.1 D .0H :π>0.1;1H :π≤0.1 8.下面哪一项不是方差分析中的假定( ) A .每个总体都服从正态分布 B .观察值是相互独立的 C .各总体的方差相等 D .各总体的方差等于0 9.判断下列哪一个不可能是相关系数( ) A .-0.9 B .0 C .0.5 D .1.2 10.用于说明回归方程中拟合优度的统计量主要是( ) A. 相关系数

社会统计学00278

社会工作与管理社会统计学(00278) 一、(1)单项选择 1.社会统计学与教育统计学、医学统计学一样都是数理统计学应用于自身的结果统计学。其中推断统计学最终创立者是(B) A、B、C、D、 2.在统计中,现象总体中最常遇到的数,也就是在一个变量列中,出现次数最多的标志值是(C) A.均值 B.方差 C.众值 D.极差 3.取值只有列别层次之分。而无大小、程度之分的变量是(D) A.定比变量 B.定距变量 C.定序变量 D.定类变量 4.大样本是指样本容量大于等于(A).100 C D1000 5.统计量的第一个特征是,可以保证统计量可作为衡量小概率时间工具的前提之一是(C) A.可操作性 B.可检查性 C.可技术性 D.可忽略性 6.四分位差可以用来度量哪种变量的分散程度(C) A.定类变量何定距变量B定序变量和定距变量C.定距变量和定比变量D.定序变量和定比变量 7.将离散型随即变量的全部可能取值极其对应概率列举出来,即为离散型随机变量的(B) A.期望 B.概率分布 C.方差 D.均值 8.数学期望本意即为随机变量分布的(A) A.总体均值 B.总体方差 C.概率 D.均值 9.若事件A与事件B为互不相容事件,且在以此试验或观察中都必有其一发生,则称事件A与事件B为(B) A.相等 B.对立事件 C.概率 D.均值 10.某小组5人考试成绩为,则该组成绩的极差是(D) .15 C 11.某国企工人月工资收入平均值是798元众值是元,标准差为元,则偏态系数是(C) B.0.255 C. 12.箱中共有20个小球,其中白色为两个,问抽取两个都是白球的概率是多少(A) B.0.0526 C. 13.有两组数据A.:12.12.13.;B:,比较A、B两组数据众值大小(A)组众值大组众值大C.两组众值相等D.无法确定 14.当纳伪概率是时,每一百次抽样中有多少次采纳伪的错误被接受(D) A.0.07次次次次 15.大样本抽样中,有9位同学的成绩作为样本,分别为,对这组数据的计算正确的是(A)A.方差是 B.标准差是16.5 C.均值是92 D.中位值是58 16.甲乙丙丁四种螺丝的出现频次分别为5.20.30.25,、则这组数据的四分位差是(B) A.甲-乙 B.乙-丁 C.乙-丙 D.丙-丁 17.抛两枚硬币,两枚都是朝上的概率是(B) %%%D100%18.数据4.5.6.,众值是(C) .5 C D2 19.每次抽样经观测后将抽到的个体放 回,允许再次被抽到,这种抽样叫做 (B) A.随机抽样 B.重复抽样 C.无回置抽样 D.简单抽样 20.抽样统计量落入拒绝域时可能发生 的错误是(D) A.抽样错误 B.计算错误 C.纳伪错误 D. 弃真错误 一(2)单项选择 1.政治算数学派是统计学发展史中的 主要流派之一,该学派的鼻祖是(B) 非众值的次数之和在总体中 所占的比例叫做(C) A.众值 B.均值 C.异众比率 D.方差 3.变量中最高级层次的变量是(D) A.定类变量 B.定序变量 C.定距变量 D. 定比变量 4.有两组数据A:12.12.13.;B:,比较 A、B两组数据中位值大小。(C)组中 位值大组中位值大 C.两组中位值相等 D、无法确定 5.物理学常用的数据摄氏度属于哪种 变量(C) A.定类变量 B.定序变量 C.定距变量 D. 定比变量 6.当纳伪概率是时,每一百次抽样中有 多次纳伪的错误被接受(A) 次次次次 7.在度量定居变量和定比变量的分散 程度时我们常使用(A) A.四分位差 B.极差 C.均值 D.异众比率 8.抛两枚硬币,一枚朝上一枚朝下的概 率是(B) A..10%%%% 9.将离散型随即变量的全部可能取值 及其对应概率列举出来,即为离散型 随即变量的(B) A.期望 B.概率分布 C.方差 D.均值 10.数据4.5.6.,众值是(C) .5 C 11.在一个变量数列中,两个极端数值 之差称为(B) A.数学期望 B.全距 C.方差 D.标准差 12.若事件A与事件B为互不相容事件, 且在以此实验或观察中都必有其一发 生,则称事件A与事件B为(A)A. 对立事件B.相等事件C.包含事件D.互 不相容事件 13.某小组五人考试成绩为,则该组成 绩的算数平均值是。(C) .70 C 14.某国企业工人月工作收入平均值是 798元众值是元,标准差为元,则偏态 系数是(C) B.0.255 C. 在假设检验中接受原假设 时出现的错误,接受了位置的不真实 状态称为(C) A、抽样错误B.计算错误C.包含错误 D.弃真错误 16.箱中共有20个小球,其中白色为小 球为两个,问抽取第二个才是白球的 概率是(B) B.0.095 C. 大样本是指样本容量 大于等于(A) .100 C 18.有9位同学的成绩分别为,对这组 数据的统计算正确的是(B) A.方差是 B.标准差是14.48 C.均值是 92 D.中位值是58 19.一组数据排列如下:2.2.3.,则这组 数据的四分位差是(B) .3 C 20.每次抽样经观测后将抽到的个体放 回,允许再次被抽到,这种抽样叫做 (D) A.随机抽样 B.简单抽样 C.无回置抽样 D重复抽样 一、(3)单项选择 1.统计学发展史中的国势学派又名(D) A.算数学派 B.理论学派 C.定量学派 D. 记述学派 2.政治算术学派统计学是在哪个世纪 兴起的(C) 世纪世纪世纪世纪 3.统计学发展史上,只讲观念不谈数学 数量的学派是(A) A.国势学派 B.算术学派 C.政治学派 D. 描述学派 4.小样本的简阳方法又称为(C) 简阳检验检验检验 5.二战以后,什么研究称为数理统计学 的主流(B) A.描述研究 B.推断研究 C.概念统计研 究D.学派史研究 6.社会统计学的内容多为抽象概念,必 须经过什么定义才能形成问题便于收 集资料(A) A.操作化 B.概念化 C.数量化 D.命题化 7.对所有研究对象都进行调查,从而掌 握整个单位的全部资料的调查方法称 为(D) A.概率调查 B.抽样调查 C.非全面调查 D.全面调查 8.抽样调查是以什么为基础的( C) A.概念 B.指标 C.概率论 D.结构论 9.在社会统计学研究中,一共有几层次 的变量(C) 种种种种 10.社会统计学中的最低级别的变量是 (A) A.定类 B.定序 C.定距 D.定比 11.纯粹意义上的定距变量是(B) A.收入 B.智商 C.教育程度 D.年龄 12.下列哪个是属于离散型变量的(C) A.均值 B.身高 C.家庭子女数 D.年龄 13.在一个数量数列中,出现次数最多 的标志值称为(C) A.均值 B.标准差 C.众值 D.极差 14.极差的另一个名称为(A) A.全距 B.分位差 C.众值 D.标准差 15.标准差系数属于度量什么的变异指 标(B) A.相对聚合程度 B.相对离散趋势 C.相 对集中趋势D.稳定性 16.若事件A与事件B为互不相容事件, 且在一次试验中都必有其一发生,则 称事件A与事件B为(D) A.事件和 B.特殊事件 C.事件积 D.对立 事件 17.逆概公式是对事件发生后导致事件 发生的各种什么的分析(A)

相关主题
文本预览
相关文档 最新文档