当前位置:文档之家› 社会统计学期末复习题与答案整理

社会统计学期末复习题与答案整理

社会统计学期末复习题与答案整理
社会统计学期末复习题与答案整理

社会统计学期末复习训练

一、单项选择题(20=2×10)

1.为了解IT行业从业者收入水平,某研究机构从全市IT行业从业者随机抽取800人作为样

本进行调查,其中44%回答他们的月收入在6000元以上,30%回答他们每月用于娱乐消费在1000元以上。此处800人是.样本

2.某地区政府想了解全市332.1万户家庭年均收入水平,从中抽取3000户家庭进行调查,

以推断所有家庭的年均收入水平。这项研究的总体是 332.1户家庭的年均收入

3.学校后勤集团想了解学校22000学生的每月生活费用,从中抽取2200名学生进行调查,

以推断所有学生的每月生活费用水平。这项研究的总体是 22000名学生的每月生活费用

4.为了解地区的消费,从该地区随机抽取5000户进行调查,其中30%回答他们的月消费在5000元以上,40%回答他们每月用于通讯、网络的费用在300元以上。此处5000户是样本5.从变量分类看,下列变量属于定序变量的是产品等级

6.下列变量属于数值型变量的是工资收入

7.从含有N个元素的总体中,抽取n个元素作为样本,同时保证总体中每个元素都有相同的

机会入选样本,这样的抽样方式称为.简单随机抽样

8.某班级有60名男生,40名女生,为了了解学生购书支出,从男生中抽取12名学生,从

女生中抽取8名学生进行调查。这种调查方法属于分层抽样

9.先将总体按某标志分为不同的类别或层次,然后在各个类别中采用简单随机抽样或系统抽

样的方式抽取子样本,这样的抽样方式称为分层抽样

10.某班级有100名学生,为了了解学生消费水平,将所有学生按照学习成绩排序后,在前

十名学生中随机抽出成绩为第3名的学生,后面依次选出第13、23、33、43、53、63、73、83、93九名同学进行调查。这种调查方法属于系统抽样

11.在频数分布表中,某一小组中数据个数占总数据个数的比例称为频率

12.在频数分布表中,将各个有序类别或组的百分比逐级累加起来称为累积频率

13.在频数分布表中,频率是指各组频数与总频数之比

14.在频数分布表中,比率是指不同小组的频数之比

15.如果用一个图形描述比较两个或多个样本或总体的结构性问题时,适合选用环形图16.某地区2001-2010年人口总量(单位:万人)分别为98,102,103,106,108,109,110,111,114,115,下列哪种图形最适合描述这些数据线图

17.当我们用图形描述甲乙两地区的人口年龄结构时,适合选用哪种图形环形图

18.在某市随机抽取10家企业,7月份利润额(单位:万元)分别为72.0、63.1、20.0、23.0、54.7、54.3、23.9、25.0、26.9、29.0,那么这10家企业7月份利润额均值为 39.19 19.某班级10名同学期末统计课考试分数分别为76、93、95、80、92、83、88、90、92、72,那么该班考试成绩的中位数是 89

20.某企业职工的月收入水平分为五组:1)1500元及以下;2)1500-2000元;3)2000-2500元;4)2500-3000元;5)3000元及以上,则3000元及以上这一组的组中值为 3250元21.为了解某行业12月份利润状况,随机抽取5家企业,12月份利润额(单位:万元)分

别为65、23、54、45、39,那么这5家企业12月份利润额均值为 45.2

22.某专业共8名同学,他们的统计课成绩分别为86、77、97、94、82、90、83、92,那

么该班考试成绩的中位数是88

23.某班级学生平均每天上网时间可以分为以下六组:1)1小时及以下;2)1-2小时;3)2-3小时;4)3-4小时;5)4-5小时;6)5小时及以上,则5小时及以上这一组的组中值

近似为5.5小时

24.对于左偏分布,平均数、中位数和众数之间的关系是众数>中位数>平均数 25.对于右偏分布,平均数、中位数和众数之间的关系是平均数>中位数>众数 26.离散系数的主要目的是比较多组数据的离散程度

27.两组数据的平均数不相等,但是标准差相等。那么 平均数大的,离散程度小

28.已知某单位平均月收入为3500元,离散系数为0.2,那么他们月收入的标准差为700 29.一班学生的平均体重均为55千克,二班学生的平均体重为52千克,两个班级学生体重的标准差均为5千克。那么 二班学生体重的离散程度大 30.已知某单位平均月收入标准差为700元,离散系数为0.2,那么他们月收入的均值为3500 31. 正态分布中,σ值越小,则 离散趋势越小

32.已知某单位职工平均每月工资为3000元,标准差为500元。如果职工的月收入是正态分布,可以判断月收入在2500元—3500元之间的职工人数大约占总体的68% 33.如果一组数据中某一个数值的标准分值为-1.5,这表明该数值比平均数低1.5个标准差 34.某班级学生期末英语考试平均成绩为75分,标准差为10分。如果已知这个班学生的考试分数服从正态分布,可以判断成绩在65-85之间的学生大约占全班学生的68%

35.经验法则表明,当一组数据正太分布时,在平均数加减2个标准差的范围之内大约有 95%的数据

36.期中考试中,某班级学生统计学平均成绩为80分,标准差为4分。如果学生的成绩是正太分布,可以判断成绩在72分-88分之间的学生大约占总体的95%

37.如果一组数据中某个数值的标准分值为1.8,这表明该数值比平均数高出1.8个标准差 38.某班级学生期末统计学考试平均成绩为82分,标准差为5分。如果已知这个班学生的考试分数服从正态分布,可以判断成绩在77-87之间的学生大约占全班学生的68%

39.经验法则表明,当一组数据正态分布时,在平均数加减1个标准差的范围之内大约有 68%的数据

40.用样本统计量的值直接作为总体参数的估计值,这种方法称为点估计

41.用样本统计量的值构造一个置信区间,作为总体参数的估计,这种方法称为区间估计 42.某单位对该厂第一加工车间残品率的估计高达10%,而该车间主任认为该比例(π)偏高。如果要检验该说法是否正确,则假设形式应该是

0H :π≥0.1;错误!未找到引用源。

π<0.1

43.某单位对该厂第一加工车间残品率估计高达13%,而该车间主任认为该比例(π)偏高。如果要检验该说法是否正确,则假设形式应该为

0H :π≥0.13;错误!未找到引用源。

π<0.13

44.在假设检验中,不拒绝虚无假设意味着没有证据证明虚无假设是错误的 45.在假设检验中,虚无假设和备择假设有且只有一个成立

46.在假设检验中,如果所计算出的P 值越大,那么检验的结果 越不显著 47.在假设检验中,如果所计算出的P 值越小,那么检验的结果 越显著

48.根据一个具体的样本求出的总体均值90%的置信区间以90%的概率包含总体均值

49.根据一个样本均值求出的90%的置信区间表明总体均值有90%的概率会落入该区间内 50.根据一个具体的样本求出的总体均值95%的置信区间以95%的概率包含总体均值 51.用于说明回归方程中拟合优度的统计量主要是判定系数 52.两个定类变量之间的相关分析可以使用λ系数 53.判断下列哪一个不可能是相关系数1.2

54.判断下列哪一个不可能是相关系数1.32

55.如果收入与支出之间的线性相关系数为0.92,那么二者之间存在着高度相关

56.如果物价与销售量之间的线性相关系数为-0.87,而且二者之间具有统计显著性,那么二者之间存在着高度相关

57. 某项研究中欲分析受教育年限每增长一年,收入如何变化,下列哪种方法最合适回归58.在回归方程中,若回归系数等于0,这表明自变量x对因变量y的影响是不显著的59.对消费的回归分析中,学历、年龄、户口、性别、收入都是因变量,其中收入的回归系数为0.8,这表明消费每增加1元,收入增加0.8元

60.在因变量的总离差平方和中,如果回归和所占的比例越大,则两变量之间相关程度越高61.回归平方和(SSR)反映y的总变差中由于x与y之间的线性关系引起的y的变化部分62.对于线性回归,在因变量的总离差平方和中,如果残差平方和所占比例越大,那么两个变量之间相关程度越小

63.对于线性回归,在因变量的总离差平方和中,如果回归平方和所占比例越大,那么两个变量之间相关程度越大

64.在因变量的总离差平方和中,如果回归平方和所占的比例越小,则自变量和因变量之间相关程度越低

65.方差分析的目的是研究各分类自变量对数值型因变量的影响是否显著

66.下面哪一项不是方差分析中的假定各总体的方差等于0

67.下列哪种情况不适合用方差分析年龄对收入的影响

68.从两个总体中各选取了6个观察值,得到组间平方和为234,组内平方和为484,则组间方差和组内方差分别为234,48.4

69.从两个总体中共选取了8个观察值,得到组间平方和为432,组内平方和为426,则组间均方和组内均方分别为432,71

70.在方差分析中,某一水平下样本数据之间的误差称为组内误差

二、名词解释

1.离散变量与连续变量P10

(1)离散变量如果一个变量的变量值是间断的,可以一一列举的,这种变量称为离散变量。例如,某人兄弟姐妹数、结婚次数、工厂生产产品的数量等,其变量值的取值是0,1,2,3…。离散变量的取值是有限个值,而且其取值都是以整数位断开的,是有最小计量单位的。例如,某人的兄弟姐妹数,只能是1个、2个、3个等,而不能是1.3个、2.5个等。

(2)连续变量

如果一个变量的变量值是连续不断的,即可以取无数多个数值,这种变量称为连续变量。例如,年龄、温度、灯泡的寿命等,它们的取值是连续不断的。连续变量可以取无数多个值,其取值是连续不断,不可以一一列举的,而且,它们没有最小计量单位。例如,年龄可以是1岁整,也可以是1.2岁、1.45岁、2.544岁等。

2.总体与样本 P11

总体是构成它的所有个体的集合,个体则是构成总体的最基本的单位。样本就是从总体中按照一定方式抽取的一部分个体的集合。例如,要从某省所有育龄妇女中抽取1000人进行调查进行调查,那么,该省所有育龄妇女就是研究总体,其中每一位育龄妇女就是个体,而抽取出的1000名育龄妇女就构成为了该总体的一个样本。

3.抽样单位与抽样框 P11

抽样单位就是一次直接的抽样所使用的基本单位。抽样单位有时与构成总体的个体是相同的,有时是不同的。例如对育龄妇女的调查,当直接抽取育龄妇女时,两者是相同的;当我们从总体中一次直接抽取户时,以抽中的户中的育龄妇女作为样本时,抽样单位(户)与个体(育龄妇女)就不相同了。

抽样框是指一次直接抽样时样本中所有抽样单位的名单。例如,从某校中抽取200名学生进行就业观的调查,那么这所学校的所有学生的名单就是这次抽样的抽样框。但是,当我们先抽取班级,以抽中班级中的所有学生作为样本时,这所学校所有班级的名单就是这次抽样的抽样框。

4.普查与抽样调查P12

(1)普查

普查是一种专门的调查,它是为了某种特定的目的而对总体中所有的个体进行的一次全面调查。例如,我们历年进行的人口普查、工业普查、农业普查、第三产业普查、经济普查、统计基本单位普查等。

(2)抽样调查

抽样调查是从总体中选取部分个体组成样本进行调查的一种方式,其目的在于根据样本的调查结果推断总体特征。根据抽取样本的方法不同,抽样调查可以分为:概率抽样和非概率抽样。

5.普查P12

普查是一种专门的调查,它是为了某种特定的目的而对总体中所有的个体进行的一次全面调查。例如,我们历年进行的人口普查、工业普查、农业普查、第三产业普查、经济普查、统计基本单位普查等。

6.概率抽样 P13

概率抽样就是按照随机原则进行的抽样,总体中每个个体都有一定的、非零的概率入选样本,并且入选样本的概率都是已知的或可以计算的。包括:简单随机抽样、系统抽样、分层抽样、整群抽样、多阶段抽样。

7.众数P68

1、众数

众数是一组数据中出现频数最多的数值,用Mo表示。例如,一个城市有多种产业,但如果以旅游业为最多,那么旅游业就是众数,这个城市也被称为旅游城市。

8.中位数 P73

2、中位数

中位数是中心趋势的一种测量,是将一组数据排序后,处于中间位置的变量值,用Me表示。中位数处于中间位置,前后每部分均包括50%的数据,而且前面部分小于中位数、后面部分大于中位数。例如,在职工收入水平差异比较大的单位,要了解职工收入的一般水平,用职工收入分布的中位数作为收入水平的代表值要比用算术平均数更恰当,因为它排除了极端数据的影响。

9.均值 P78

4、均值

均值是集中趋势最主要的测量值,它是将全部数据进行加总然后除以数据总

个数,也称为算数平均数。均值包含一组数据中所有数值,它是先将所有数值进行加总,然后进行平均,在均值中所有数值都有所体现。因而,我们说均值是集中趋势最主要的测量值。

10.方差与标准差 P95

6、方差

方差是各数值与均值离差平方的平均数,它是数值型数据离散趋势最主要的测量值。与平均差不同的是,方差采用平方的方式避免避免正、负抵消带来的问题,但是采用平方的方式给方差的解释带来一定的困难。

7、标准差

标准差是方差的平方根,用于测量数值型数据离散趋势。标准差克服了方差面临的夸大离散程度、不容易解释的问题。与方差相比,标准差是有量纲的,它与变量值的单位相同,容易解释。在实际中,标准差使用更为普遍。

11.离散系数P100

8、离散系数

离散系数是一组数据的标准差与该组数据均值之比,也称为变异系数。离散系数是测量数据离散程度的相对指标,通常用Vs适用于数值型数据离散程度的测量。

12.正态分布P103

1、正态分布

连续性随机变量中重要的分布是钟型概率分布,就是正态分布(normal distribution),也称为常态分布,是一种连续型随机变量的概率分布。学生的身高、体重、成绩等都是正态分布常见的例子,很高、很矮的都比较少,多数处于正常身高;很胖、很瘦的也较少,多数是正常体重;成绩很高和很低的是少数,多数同学属于中等成绩。

13.参数与统计量P127,P128

4、参数与统计量

参数是研究者想要了解的总体的某种特征值。通常情况下,我们关心的总体的参数主

要有总体平均数(μ)、标准差(σ)、比例(π)等。

统计量是根据样本数据计算出来的一个量。样本统计量主要有样本平均数(X )、样本

标准差(S )、样本比例(P )等。与参数不同,统计量是根据样本数据计算出来的、有关样本的特征值,因而统计量是知道的、可以计算的,是估计总体参数的依据。

14.抽样分布 P129 5、抽样分布

抽样分布是指样本统计量的概率分布,它是在重复选取容量为n 的样本时,由每个样本计算出来的统计量数值的相对频数分布。例如样本均值的分布、样本比例分

布等。

15. 中心极限定理 P130 1、中心极限定理

中心极限定理具体内容为:不论总体分布是否服从正态分布,从均值为μ、方差为σ

2

的总体中,抽取容量为n 的随机样本,当n 充分大时(通常要求n ≥30),样本均值X 的抽样分布近似服从均值为μ、方差为σ2/n 的正态分布。

16.区间估计 P134

区间估计是在估计总体参数时给出的不是一个数值,而是一个区间,是根据统计量的抽样分布的特点进行估计,同时给出总体参数落入这一区间的可能

性大小。也就是要在给定α值的前提下,去寻找两个统计量1?θ和2?θ,使其满足上述不等式。从而知道θ落在区间12??(,)θθ内的概率为1α-,故也称12??

(,)θθ为θ的区间估计。

17.置信水平 P135

置信水平就是将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例。

18. 假设检验 P140

假设检验是首先对总体参数建立一个假设,然后根据样本信息区检验这一假设是否正确。假设检验和参数估计都是建立在抽样分布的基础上。例如,某品牌

灯泡的寿命X 服从正态分布(μ,125),厂方说它的平均工作寿命是1800小时。随机测试16次,得到的平均工作温度是1750度。样本结果与厂方所说的是否有显著差异?厂方的说法是否可以接受?这就是假设检

验要解决的问题。

19. 虚无假设与替换假设 P140 P141

将需要通过样本信息来推断其正确与否的命题称为虚无假设,也成为原假设或者零假设,通常用0H 表示。如果虚无假设不成立,我们就拒绝虚无假设,需要在另个一假设中进行选择,这就是替换假设,替换假设通常用1H 表示。

上面例子中,虚无假设为:0H :μ=1800替换假设为:1H :μ≠1800a

20.二维表 P152 二维表

二维表就是行列交叉的表格,将两个变量一个分行排放,一个分列排放,行列交叉处就是同属于两个变量的不同类的数据,也称为列联表。例如,对某单位

职工学历进行分析,随机抽取262名进行调查,性别、学历二维表如下所示:

对某项政策态度的调查结果

21.误差减少比例 P158 1、误差减少比例

在预测变量Y 的值时,知道变量X 的值时所减少的误差(1E -2E )与总误差1E 的比值称为误差减少比例(proportional reduction of error ),简称PRE 。取值范围为0~1,PRE 值越大,说明用变量X 去预测变量Y 是能够减少的误差所占的比例越大,即变量X 与变量Y 之间的相关性越大。

公式为:PRE=12

1E E E

例如,PRE=0.7,说明以变量X 预测变量Y 时能减少70%的误差,说明二者之间关系较强。

22.散点图 P165 散点图

散点图是在坐标系中,用X 轴表示自变量x ,用Y 轴表示因变量y ,而变量组(x ,y )则用坐标系中的点表示,不同的变量组在坐标系中形成不同的散点,用坐标系及其坐标系中的散点形成的二维图就是散点图。

散点图是描述变量关系的一种直观方法,从散点图中直观的看出两个变量之间是否存在相关关系、是正线性相关还是负线性相关,也可以大致看出变量之间关系强度如何,但是对于具体关系强度则需要相关系数来判断。

23.相关系数 P170

相关系数就是对变量之间相关关系程度和方向的度量。当研究两个变量之间的相关关系时我们称之为简单相关系数。总体相关系数用ρ表示,样本相关系数一般用r 表示。

24.最小二乘法 P180

对于变量x 和y 的观察值,有多条直线可以描述,其中距离各观测值最近的一条直线对x 与y 之间的关系的描述与实际的误差最小。最小二乘法是使因变

量的观察值与估计值之间的离差平方和达到最小来求参数0?β合1?

β的方法,即使得:

()()∑∑=--=-最小

2

102???i

i n i x y y y ββ

25.独立样本与配对样本 P207,P203 独立样本

独立样本(independent sample )是指我们得到的样本总体之间是相互独立的。比

如我们要研究一个地区百姓的生活水平,要同时考察家庭的子女数x ,父母的教育水平y ,这就可以看做是独立样本。两个样本容量1n 和2n 都小于30,或其中一个小于30的两独立样本为独立小样本。

当总体标准差

1σ和2σ未知时,独立小样本均值之差的检验采用t 检验。

配对样本

配对样本(matched sample )就是一个样本中的数据与另一个样本中的数据相对应的两个样本。配对样本可以消除由于样本指定的不公平造成的差异。在选择配对样本时,可以将两种同质对象分别接受两种不同的处理。

26. 组内均方 P218

组内误差的自由度为全部观察值个数减去因素水平个数,即n -k ,其中n 为全部观察值个数,k 为因素水平的个数。SSE 的均方记作MSE ,称为组

内均方。其计算公式为:

MSE=

=自由度

组内平方和k n SS -E

三、简答题

1.举例简要说明社会研究过程。 P4

系统、完整的社会研究通常遵循着比较固定的过程,一般包括五个主要过程:提出问题、形成假设、收集数据、分析数据、检验假设。 1、提出问题:是社会研究的第一步,研究者应首先明确要做什么,或者说进行研究的目的是什么。 2、形成假设:研究问题往往是无法直接检验的,而是要把研究问题形成假设才可以进行检验。也就是对两个变量间关系进行尝试性回答。 3、收集数据:是社会研究的关键步骤。 4、分析数据:对收集的原始数据进行系统的审核、整理、归类、统计和分析。 5、检验假设:完成对数据的统计分析后,我们要开始进行最后一步——根据对数据的分析来检验我们之前的假设和理论。

2.按测度水平,变量可分为哪几类?并举例说明。 P7

变量分类(按测度水平): (1)定类变量

当变量值的含义仅表示个体的不同类别,而不能说明个体的大小、程度等其它特征时,这种变量称为定类变量。定类变量是最低层次的变量。在社会调查中,定类变量有很多,如性别、婚姻状态、民族、地区、职业.等。 性别可以分为男、女两类,我们可以用1表示男性,用2表示女性。民族可以分为汉族和少数民族,我们可以用1表示汉族,用2表示少数民族。 (2)定序变量

当变量值的含义不仅表示个体的不同类别,还可以区分个体之间大小、程度等序次差异时,这种变量称为定序变量。社会调查中,受教育程度是定序变量,可以分为文盲、小学、初中、高中、大专及以上等;人们对某种制度的态度可以分为非常同意、同意、中立、不同意、非常不同意等。 我们也可以用不同的数值1、2、3等表示不同的类别,但是这时候1、2、3等是包含大小的比较意义的,例如,用“1”表示文盲,用“2”表示小学,用“3”表示初中,用“4”表示高中,用“5”表示大专及以上。此处,数字1、2等不仅仅表示文化程度的分类,还表示文化程度的高低,1还代表最低的文化程度,2表示的文化程度要高于1,5表示最高的文化程度。 (3)定距变量

当变量值不仅可以将个体区分为不同类型并进行排序,而且可以确定不同类别之间的数量差别和间隔差距时,这样的变量称为定距变量。定距变量具有

测量单位,这些测量单位具有不变的相等区间的标准,使个体之间的比较更具客观性。智商、温度等都是定距变量。定距变量的变量值是用数值表示的,同一度量单位之间我们可以准确的计算出个体之间的差值。例如,地区甲的温度是0°,地区乙的温度是8°,则甲的温度比乙的温度低8°,而在定类和定序变量中则不能这样。在定距变量中,0的选取只是为了方便或习惯,0只表示一个数值,而不表示该现象不存在。如地区乙的温度=0°,并不是说地区乙没有温度;一个人的智商=0,并不是说这个人没有智商。

(4)定比变量

除了上述三种变量的全部特征外,还可以计算两个变量值之间的比值时,这样的变量称为定比变量。定比变量是最高层次的变量。在社会调查中,很多情况下我们使用的都是定比变量,例如身高、年龄、收入、一个地区的人口数、某产品的生产量等。定比变量的变量值也是用数值表示,但是与定距变量相比,两者的唯一区别是,定比变量有绝对零点,即定比变量中的“0”是有实际意义的数值。例如,一个人的身高是0米,则表示这个人不存在;一个人的收入是0元,则表示这个人没有收入。同样,由于定比变量中有绝对零点,除可以进行“=”或“≠”、“>”或“<”比较外,它还可以进行“+”、“-”、“×”、“÷”运算。例如,职工甲每月收入是7500元,职工乙每月收入是2500元,我们可以说职工甲比职工乙每月多收入5000元,也可以说职工甲每月的收入是职工乙的3倍。

3.判断以下随机变量是定性变量还是定量变量,如果是定量变量,确定是离散变量还是连续变量。

(1)网络供应商的姓名定性变量

(2)每月的网络服务费定量变量连续变量

(3)每月上网时间定量变量连续变量

(4)上网的主要目的定性变量

(5)上周收到的电子邮件数量定量变量离散变量

(6)每月用于网上购物的金额定量变量连续变量

(7)上月网上购物的次数定量变量离散变量

(8)使用的电脑的品牌定性变量

(9)上网是否玩游戏定性变量

(10)电脑是否带有光盘刻录机定性变量

4.判断以下随机变量是定性变量还是定量变量,如果是定量变量,确定是离散变量还是连续变量。

(1)考研辅导班参加者的姓名定性变量

(2)家庭月消费定量变量连续变量

(3)温度定量变量连续变量

(4)上个月外出吃饭的次数定量变量离散变量

(5)产品等级定性变量

5.举例说明什么是自变量和因变量,二者之间是什么关系? P10

变量分类(按变量间关系)——自变量与因变量

两个变量之间,如果一个变量的变化能引起其他变量变化则称之为自变量,而将由于其他变量的变化而导致自身发生变化的变量称为因变量。

自变量与因变量之间的关系既有时间上的先后关系,即现因后果,同时还有因果关系,即因变量的变化是以自变量的变化为前提。例如我们常说的“小树长高,我也长高”,但是不能说“我长高”是因变量,“小树长高”是自变量,两者只是有时间上的先后关系,而没有必然联系。自变量与因变量之间还必须是例如,受教育程度增加,收入增加,这两者就是因果关系,受教育程度是自变量,收入是因变量。

6.举例说明什么是离散变量和连续变量。P10

(1)离散变量

如果一个变量的变量值是间断的,可以一一列举的,这种变量称为离散变量。例如,某人兄弟姐妹数、结婚次数、工厂生产产品的数量等,其变量值的取值是0,1,2,3…。离散变量的取值是有限个值,而且其取值都是以整数位断开的,是有最小计量单位的。例如,某人的兄弟姐妹数,只能是1个、2个、3个等,而不能是1.3个、2.5个等。

(2)连续变量

如果一个变量的变量值是连续不断的,即可以取无数多个数值,这种变量称为连续变量。例如,年龄、温度、灯泡的寿命等,它们的取值是连续不断的。连续变量可以取无数多个值,其取值是连续不断,不可以一一列举的,而且,它们没有最小计量单位。例如,年龄可以是1岁整,也可以是1.2岁、1.45岁、2.544岁等。

7.概率抽样方法主要包括哪几种?

答:概率抽样主要的方式有:简单随机抽样、系统抽样、分层抽样、整群抽样、多阶段抽样等。

8.调查方法主要包括哪几种?简要说明各种方法的优缺点。 P16

(1)问卷法

问卷法是调查者根据一定的目的和要求,采用事先设计好的问卷,向被调查者了解情况,征询意见的一种方法。问卷法广泛应用于社会学、人口学、教育学、管理学、心理学等领域中。

(2)访谈法

访谈法是指由调查员直接对被调查员进行访问和交谈,并记录调查结果的方法。访谈法是以口头语言为中介、调查者与被调查者面对面的交谈和互动的过程。

(3)观察法

观察法是指研究者深入到所要研究对象的生活背景中,在实际参与研究对象的日常生活的过程中直接记录研究对象的有关资料的方法。

(4)典型组讨论

典型组讨论是由8~12个具有某些共同特征或经历的人,在一个经过专门培训主持人的引导下、围绕着某一专门话题进行互动小组讨论的一种定性调查

方式。目前有地方使用的电话典型组、网络典型组、视频典型组都是典型组讨论的方式之一。

9.数据分析中的归纳法和演绎法分别是什么?P19

数据分析法

(1)归纳法与演绎法

归纳法与演绎法是社会研究的两种基本推理方式。归纳法是从特殊到一般,也就是从一组具体的观察结果推导出一般性的规律或法则;演绎法则与归纳法正好相反,是从一般到特殊,也就是研究者从想要检验的一般性理论开始,然后去观察、收集资料,通过这些资料来检验这个理论。

10.SPSS主要有哪些功能?P25统计分析功能和数据管理功能。

11.在SPSS中如何定义变量属性?P30

变量属性 SPSS中变量有三种基本类型:数值型、字符型、日期型。

(1)数值型变量

数值型变量是SPSS中最常用的变量类型。数值型变量包括标准数值型、逗号数值型、圆点数值型、科学计数法型、美元数值型、自定义型。

(2)字符型变量

字符型变量也是SPSS中比较常用的数据类型,默认长度为8。例如姓名、地点等都可以定义为字符型变量,字符型变量不能参与运算。

(3)日期型变量

日期型变量可以用来表示日期,也可以表示时间,例如调查时间、出生日期等都可以定义为日期型变量。

12.等距分组和不等距分组有什么区别?请举例说明。P46

在分组时,如果分组组距相等,就是等距分组,如:学生平均每天上网时间:组距设3,分成3-6,6-9,9-12,12-15共4个小组。如果分组组距不相等,就是不等距分组。如:人口分析,分婴幼儿组(0-6),少儿组(7-17),中青年组(18-59),老人组(60-130),组距不相等。

13.统计表主要由哪几部分构成?

答:统计表主要有标题、标目、线条、数字四部分构成,有些统计表还有备注。

14.条形图和直方图有什么区别? P63

(1)条形图:用宽度相同的条形的高度或者长短来表示数据多少的图形。条形图既可以横置也可以纵置,纵置时也可以称为柱形图。

条形图的绘制

在绘制条形图时,如果将类别放在纵轴,即条形图横置,称为条形图;如果将类别放在横轴,即纵置,称为柱形图。绘制条形图是既可以绘制成二维平面图,也可以绘制成三维立体图。

直方图的定义

直方图:就是用矩形的宽度和高度来表示频数分布的图形。

在平面直角坐标系中,我们用横轴表示数据分组,用纵轴表示频数或频率,各个组的频数与频率形成一个小矩形,就是直方图。

15. 简述众数、中位数和平均数作为测量中心趋势的指标所适用的数据类型。P82,P83

众数只与变量值出现的次数有关,适用于定序数据、定类数据和数值型数据中心趋势的测量。但主要适用于定类数据中心趋势的测量,

中位数只与变量值的排序有关,因而它适用于定序数据和数值型数据中心趋势的测量。但主要适用于定序数据中心趋势的测量,

平均数是将所有数据加总后除以数据总个数得出的。主要适用于数值型数据中心趋势的测量。

数值型数据也可以用众数和中位数测量中心趋势,但均值最佳。

16. 简述定类变量、定序变量和数值型变量集中趋势测量的方法。与第二题一样 P83的表格

17.简述相关系数的取值与意义。P174

相关系数

相关系数就是对变量之间相关关系程度和方向的度量。当研究两个变量之间的相关关系时我们称之为简单相关系数。总体相关系数用ρ表示,样本相关系数一般用r表示。1、符号:如果为正号,则表示正相关,如果为负号,则表示负相关。通俗点说,正相关就是变量会与参照数同方向变动,负相关就是变量与参照数反向变动;2、取值为0,这是极端,表示不相关;3、取值为1,表示完全正相关,而且呈同向变动的幅度是一样的;4、如果为-1,表示完全负相关,以同样的幅度反向变动;5、取值范围:[-1,1].相关系数的绝对值越大,相关程度越强,相关系数的绝对值越小,相关程度越弱。

18. 什么是回归分析?其作用是什么?P177

4、回归分析

回归分析是通过一定的数学表达式将变量间的关系进行描述,确定一个变量或几个变量的变化对另一个特定变量的影响,是进行估计或预测的一种方法,侧重于考察变量之间的数量伴随关系。

回归分析的作用是①从一组数据出发确定某些变量之间的定量关系式,

②对变量间这些关系式进行统计检验。并从影响某一个变量的多个变量中找出影响显著的变量③利用所求出的关系式,根据一个变量或多个变量取值估计或预测另一个特定变量的取值。

19. 什么是简单一元线性回归分析?其作用是什么?P178

一元线性回归就是对具有线性相关关系的两个变量之间(其中一个为自变量)数量变化的一般关系进行预测,确定相应的数学关系式,以便进行估计或预测。通常将描述因变量y如何依赖自变量x和误差项e的方程称为回归模型。一元线性回归模型表达式为:β

β+

ε

y

=x

+

1

20. 一元线性回归模型中有哪些基本假定P179

一元回归模型的三个基本假定

(1)误差项ε是一个期望值为0的随机变量,即E(ε)=0。在一个回归模型

中,0β和1β都是常数,因而,对于一个特定的x 值,y 的期望值为E(y)= x 10ββ+。

(2)对于所有的x 值,ε的方差2

σ都是相同的。

(3)误差项ε是一个服从正态分布的随机变量,而且互相独立,即ε~N (0,1)。

21.如何对配对样本进行t 检验。 P203 (1)配对样本T 检验方法

配对样本检验主要是判断不同的处理或试验结果是否有差异。配对样本T 检验(Paired —Sample T test )用于检验两个相关的样本(配对样本)是否来自具有相同均值的总体,因此针对配对样本我们可以首先计算出两个样本每个对应变量间的差值,然后再检验其差值的均值是否为零,若均值接近于零(即在给定的置信区间内),说明两个样本均值在给定的置信水平上没有差异;若均值在给定置信区间以外,说明两个样本均值在给定的置信水平上有差异。 (2)利用SPSS 进行配对样本T 检验

在SPSS 主菜单选中Analyze —>Compare Means —>Paired —Sample T Test ,出现图11—4所示窗口。“Paired Variables ”框中的变量作为分析变量,总是成对出现,指定要检验的两个变量到“Paired Variables ”输入栏里的“Variable1”和“Variable2”中,在“Current Selections ”栏中就会显示被选中的成对变量,在“Options ”选项中可以进行置信水平和缺失值的设置,同单样本T 检验。

22.简要举例说明在分析双变量的关系时,t 检验和卡方检验的主要区别。 P207

T 检验(T Test )是最常见的一种假设检验类型,主要验证总体均值间是否存在显著性差异。T 检验属于参数假设检验,所以它适用的范围是数值型的数据,在网站分析中可以是访问数、独立访客数、停留时间等,电子商务的订单数、销售额等。T 检验还需要符合一个条件——总体符合正态分布。

卡方检验(chi-square test ),也就是χ2检验,用来验证两个总体间某个比率之间是否存在显著性差异。卡方检验属于非参数假设检验,适用于布尔型或二项分布数据,基于两个概率间的比较,早期用于生产企业的产品合格率等,在网站分析中可以用于转化率、Bounce Rate 等所有比率度量的比较分析,

23. 简要说明卡方的拟合优度检验和独立性检验的含义。 P178 2、拟合优度检验

(1)拟合优度检验

从总体的不同类别中抽取元素构成样本,样本包含总体中各个类别的元素,对不同类别的目标量之间是否存在显著性差异进行的检验称为拟合优度检验。拟合优度检验是2

χ检验中重要的一部分,可以同时对多个总体进行比较。在2

χ检验中,如果2

χ

统计量小于给定的2

αχ,那么就不能拒绝原假设,如果大于则拒绝。即2

χ检验的拒绝域是2

χ>2αχ(k -1),其中k -1是自由度。自由度是可以自由变动的变量个数,在列

联表中,自由度=(R-1)*(C-1)。

独立性检验

χ检验还可用于判断两个分类变量之间是否存在联系,例如,对(1)独立性检验:2

宿舍管理改革的态度是否与专业有关、对性行为的态度是否与学历有关等。如果两个

χ判断它们之间是否关联,这时称为独分类变量之间没有关系,则称为独立,我们用2

立性检验。

四、计算题(每题15分,共30分) 12-16题题型一样,公式自己抄

1.某校社会学专业同学统计课成绩如下表所示。

要求:

(1)对考试成绩按由低到高进行排序,求出众数、中位数和平均数。

(2)对考试成绩进行适当分组,编制频数分布表,并计算累计频数和累计频率。

解答:(1) 对考试成绩按由低到高进行排序如下:

62,66,68,70,70,75,76,76,76,76,76,77,78,79,80,80,80,81,82,82,83,83,85,86,86,87,87,88,88,90,90,90,91,91,92,93,93,94,95,95,96,97

其中,众数为76,中位数为83,平均数为83.1

(2)对考试成绩进行适当分组,编制频数分布表如下:

2.某行业管理局所属40个企业2011年产品销售额数据如下所示。

要求:

(1)对2011年销售额按由低到高进行排序,求出众数、中位数和平均数。

(2)如果按照规定,销售额在125万元以上的为先进企业,115万-125万之间的为良好企业,105万-115万之间的为一般企业,105万以下的为落后企业,请按先进企业、良好企业、一般企业、落后企业进行分组,编制频数分布表,并计算累积频数和累积频率。

解答:(1) 对2011年销售额按由低到高进行排序如下:

87,88,91,95,97,100,103,103,104,105,105,107,108,108,110,112,113,115,115,115,116,117,117,118,119,119,120,123,124,125,126,127,129,135,136,137,138,142,146,152

得到众数为115 ;中位数为115.5 ;平均数为116.175 。

(2)对企业按销售额进行适当分组,编制频数分布表如下:

3.甲单位人均月收入4500元,标准差1200元。乙单位月收入分布如下所示。

要求:

(1)计算乙单位员工月收入的均值和标准差。

(2)比较甲单位和乙单位哪个单位员工月收入的离散程度更大?(提示:使用离散系数)

解答:对分组数据先求出各组的组中值

(1) 乙单位员工月收入的均值为

25001203500420450054055004206500300

47001800

x ?+?+?+?+?=

=乙

乙单位员工月收入的标准差为

1166

σ=

=

=乙(2)甲单位员工收入的离散系数1200

0.2674500

V =

=甲,乙单位员工收入的离散系数1166

0.2484700

V =

=乙,故甲单位员工月收入的离散程度大。

4.某校社会学专业共有两个班级。期末考试时,一班同学社会学理论平均成绩为86分,标准差为12分。二班同学成绩如下所示。

二班同学社会学理论成绩分组数据表

要求:

(1)计算二班同学考试成绩的均值和标准差。

(2)比较一班和二班哪个班成绩的离散程度更大?(提示:使用离散系数)

解答:对分组数据先求出各组的组中值

广东财经社会统计学期末考试试卷(A卷)

广东财经社会统计学期末考试试卷(A卷) 一、单项选择题(请将正确选项的序号填在答题纸相应的位置。) 1.社会统计中的变量一般分四个层次,其中最高层次的变量是 D 。 A、定类变量 B、定序变量 C、定距变量 D、定比变量 2.标准正态分布的均值一定 C 。 A、等于1 B、等于-1 C、等于0 D、不等于0 3.计算中位值时,对于未分组资料,先把原始资料按大小顺序排列成数列,然后用公式 D 确定中位值所在位置。 A、n/2 B、(n-1)/2 C、(n+2)/2 D、(n+1)/2 4.下列统计指标中,对极端值的变化最不敏感的是 A 。 A、众值 B、中位值 C、四分位差 D、均值 5.如果原假设是总体参数不小于某一数值,即大于和等于某一数值,应采用的检验是。 A、两端检验 B、右端检验 C、左端检验 D、无法判断 6.在一个右偏的分布中,大于均值的数据个数将。 A、不到一半 B、等于一半 C、超过一半 D、视情况而定 7.下列关于“回归分析和相关分析的关系”的说法中不正确的是。 A、回归分析可用于估计和预测 B、相关分析是研究变量之间的相互依存关系的密切程度 C、相关分析不需区分自变量和因变量 D、回归分析是相关分析的基础 8.假定男性总是与比自己年轻3岁的女性结婚,那么夫妻年龄之间的积距相关系数r为。 A、-1 < r< 0 B、0 < r< 1 C、r = 1 D、r = -1 9.“4、6、8、10、12、26”这组数据的集中趋势宜用测量。 A、众值 B、中位值 C、均值 D、平均差 10.某校期末考试,全校语文平均成绩为80分,标准差为4.5分,数学平均成绩为87分,标准差为9.5分。某学生语文得了83分,数学得了92分,从相对名次的角度看,该生的成绩考得更好。 A、数学 B、语文 C、两门课程一样 D、无法判断 三、判断题(请在答题纸相应位置打√或?。) 1.无论分布曲线是正偏还是负偏,中位值都居于均值和众值之间。 2.一组数据的均值代表了该组数据中大多数的数据。 3.对于连续型随机变量,讨论某一点取值的概率是没有意义的。 4.异众比率越大,各变量值相对于众值越离散,众值的代表性越好。 5.只要样本量足够大,则不论总体分布如何,样本均值的抽样分布都服从正态分布。 6.检验均值差异时,独立样本采用“差的均值”、关联样本采用“均值的差”进行检验。 7.在显著性水平既定的情况下,一端检验比两端检验更容易拒绝H0。 8.不管相关关系表现形式如何,当r=1时,变量X和变量Y都是完全相关;当r=0时,变量X 和变量Y都是完全不相关。 9.方差分析就其内容来说,是分析或检验总体间的均值是否存在差异。 10.纳伪的概率β可以根据原假设H0所设的分布计算出来。 1

社会统计复习题

第一章 1.一般来说,统计这个词包括三个含义:统计工作、统计资料和()。 4.统计按其内容主要包括两个方面:描述统计和()。 5.推断统计有两个基本内容:参数估计和()。 7.总体的每个单位都具有许多属性和特性,说明总体单位属性或数量特征的名称在统计上称为()。凡能用数量的多少来表示的标志,称为()。凡不能用数量的多少来表示而只能文字表述的标志,称为()。 9.统计指标和标志的区别与联系在于:统计指标是说明()特征的,标志则是说明()特征的;统计指标的数值是由标志的数值()而成的。 1.统计总体同时具备三个特征( ) 。 A 同质性、大量性、可比性 B 同质性、大量性、变异性 C 数量性、具体性、综合性 D 数量性、具体性、可比性 8.按变量的性质,可把变量分为( ) 。 A 连续变量和随机变量 B 离散变量和确定性定量 C 连续变量和离散变量 D 确定性变量和随机变量 14.统计一般有三个含义,即()。 A 统计调查、统计整理、统计分析 B 统计工作、统计资料、统计学 C 统计活动、统计管理、统计预测 D 统计咨询、统计监督、统计信息 名词解释:大数规律社会统计学 第二章 4.()误差,是指在调查和统计过程中由于各种主客观因素而引起的技术性、操作性误差以及由于责任心缘故而造成的误差等。()误差,是指由调查方式本身所决定的统计指标和总体指标之间存在的差数。 5.统计误差有()和()两类,其中()在全面调查和非全面调查中都可能发生。 7.统计调查从调查范围上分,可分为()和()。 8.统计调查按调查登记时间是否连续,可分为()和()。 9.统计调查从调查目的上,可分为()和专项调查。 1.将总体按与研究有关的标志进行分组,然后再随机地从各组中抽选单位组成样本。这种抽样方式叫()。 A 简单随机抽样 B 类型抽样 C 等距抽样 D 整群抽样。 6.下面能进行除法运算的测量尺度是()。 A 定比尺度 B 定类尺度 C 定距尺度 D 定序尺度 7.教育程度是()的测量。 A 定比尺度 B 定类尺度 C 定距尺度 D 定序尺度 8.智商是()的测量。 A 定比尺度 B 定类尺度 C 定距尺度 D 定序尺度 9.籍贯是()的测量。 A 定比尺度 B 定类尺度 C 定距尺度 D 定序尺度 简答:何谓抽样调查?抽样调查的优点是什么?

(完整版)社会统计学试卷A及答案解析

级专业2010学年第 1 学期《社会统计学》试卷 A 姓名:学号: (□开卷□闭卷) 一、选择题:2*10=20分 1、要了解400个学生的学习情况,则总体单位是( B ) 。 A 400个学生 B 每一个学生 C 400个学生的成绩 D 每一个学生的成绩 2、只与一个自由度有关的是( A ) χ分布 B 超几何分布C 泊松分布 D F分布 A 2 3、将总体按与研究有关的标志进行分组,然后再随机地从各组中抽选单位组成样本。这种 抽样方式叫( B )。 A 简单随机抽样 B 类型抽样 C 等距抽样 D 整群抽样。 4、在方差分析中,自变量是(A )。 A 定类变量 B 定序变量 C 定距变量 D 定比变量 5、某城市男性青年27岁结婚的人最多,该城市男性青年结婚平均年龄为26.2岁,则该城 市男性青年结婚的年龄分布为(B)。 A.正偏B.负偏 C.对称D.不能作出结论 6、分析统计资料,可能不存在的平均指标是( A )。 A 众数 B 算术平均数 C 中位数 D 几何平均数 7、在一个左偏的分布中,小于平均数的数据个数将( C )。 A 超过一半 B 等于一半 C 不到一半 D 视情况而定 8、若P(A)=0.2,P(B)=0.6,P(A/B)=0.4,则) P I=( D )。 A (B A 0.8 B 0.08 C 0.12 D 0.24。 9、关于学生t分布,下面哪种说法不正确(B )。 A 要求随机样本 B 适用于任何形式的总体分布

C 可用于小样本 D 可用样本标准差S 代替总体标准差σ 10、对于大样本双侧检验,如果根据显著性水平查正态分布表得 Z α/2=1.96,则当零假 设被否定时,犯第一类错误的概率是( C )。 A 20% B 10% C 5% D .1% 二、判断题:2*10=20分 1、所有的统计指标都是变量。 ( 对 ) 2、统计所研究的对象就是社会经济现象的数量方面。 (错 ) 3、随机变量在相同的条件下进行观测,其可能实现的值不止一个。 (对 ) 4、在社会现象中,即使相同的意识作用也完全可能有不确定的结果,这就提供了概率论应用的可能性。 ( 对 ) 5、成功次数的期望值λ是决定泊松分布的关键因素。 ( 对 ) 6、进行区间估计,置信水平总是预先给定的。 ( 对 ) 7、可以对置信水平作如下解释:“总体参数落在置信区间的概率是(1-α)”。(错 ) 8、将收集到得的数据分组,组数越多,丧失的信息越多。 (错 ) 9、N 个变量值连乘积的平方根,即为几何平均数。 (错 ) 10、当样本容量n 无限增大时,样本均值与总体均值的绝对离差小于任意正数的概率趋于零。 (错 ) 三、简答题:5*7=35分 1、大数规律 大数规律是随机现象出现的基本规律,它的一般意义是:观察过程中每次取得的结果可能不同(因为具有偶然性),但大量重复观察结果的平均值却几乎接近某个确定的数值。 2、配对样本 所谓配对样本,指只有一个总体,双样本是由于样本中的个体两两匹配成对而产生的。 3、消减误差比例 变量间的相关程度,可以用不知Y 与X 有关系时预测Y 的误差0E ,减去知道Y 与X 有关 系时预测Y 的误差1E ,再将其化为比例来度量。将削减误差比例记为PRE 。 4、同分对 如果在X 序列中,我们观察到i j X =X (此时Y 序列中无i j Y =Y ),则这个配对仅是X 方向而非Y 方向的同分对;如果在Y 序列中,我们观察到i j Y =Y (此时X 序列中无i j X =X ),则这个配对仅是Y 方向而非X 方向的同分对;我们观察到i j X =X ,也观察到i j Y =Y ,则称这个配对为X 与Y 同分对。 5、什么是分层抽样? 分层抽样也叫类型抽样,就是先将总体按某种特征或属性分若干类别或层次,再按照一定比 例在各个子类别或层次中随机抽取,最后将各抽取的单位合并成样本。 6、简述回归分析和相关分析之间的密切联系。 一般说来,只有当两个变量之间存在着较高程度的相关关系时,回归分析才变得有意义和有价值。相关程度越高,回归预测越准确。因此,往往先进行相关分析,然后才选用有明显相关关系的变量作回归分析。与此同时,相关关系往往要通过回归分析才能阐释清楚,例如皮尔逊相关系数的PRE 性质。回归分析具有推理的性质,而相关分析从本质上讲只是对客观事物的一种描述,知其然而不知其所以然。因而从分析层次上讲,回归分析更深刻一些。 7、P 值决策与统计量的比较 P 值是被称为观察到的(或实测的)显著性水平。用P 值进行检验比根据统计量检验提供更多

2018年春社会统计学期末复习训练题

2018年春社会统计学期末复习题 、单项选择题 1. 以下关于因变量与自变量的表述不正确的是() A. 自变量是引起其他变量变化的变量 B. 因变量是由于其他变量的变化而导致自身发生变化的变量 C. 自变量的变化是以因变量的变化为前提 D. 因变量的变化是以自变量的变化为前提 2. 在频数分布表中,将各个有序类别或组的百分比逐级累加起来称为 () A. 频率 B. 累积频数 C. 累积频率 D. 比率 3. 离散系数的主要目的是() A. 反映一组数据的平均水平 B. 比较多组数据的平均水平 C?反映一组数据的离散程度 D.比较多组数据的离散程度 4. 经验法则表明,当一组数据正态分布时,在平均数加减2个标准差的范围之内大约有() A. 50%勺数据

B. 68%勺数据 C. 95%勺数据 D. 99%勺数据 5?在某市随机抽取10家企业,7月份利润额(单位:万元)分别为 72.0、63.1、20.0、23.0、54.7、54.3、23.9、25. 0、26.9、29.0,那么这10家企业7月份利润额均值为() A. 39.19 B. 28.90 C. 19.54 D. 27.95 6. 用样本统计量的值直接作为总体参数的估计值,这种方法称为() A. 点估计 B?区间估计 C. 有效估计 D. 无偏估计 7. 在频数分布表中,比率是指() A. 各组频数与上一组频数之比 B. 各组频数与下一组频数之比 C?各组频数与总频数之比 D.不同小组的频数之比 8. 下面哪一项不是方差分析中的假定() A. 每个总体都服从正态分布

B. 观察值是相互独立的 C?各总体的方差相等 D.各总体的方差等于0 9. 判断下列哪一个不可能是相关系数( A. -0.9 B. 0 C. 0.5 D. 1.2 10. 用于说明回归方程中拟合优度的统计量主要是() A. 相关系数 B. 离散系数 C?回归系数 D.判定系数 11. 在假设检验中,不拒绝虚无假设意味着() A. 虚无假设是肯定正确的 B?虚无假设肯定是错误的 C?没有证据证明虚无假设是正确的 D.没有证据证明虚无假设是错误的 12. 下列变量属于数值型变量的是() A. 工资收入 B?产品等级 C?学生对考试改革的态度

社会统计学复习题(有答案)复习课程

社会统计学复习题(有 答案)

社会统计学课程期末复习题 一、填空题(计算结果一般保留两位小数) 1、第五次人口普查南京市和上海市的人口总数之比为 比较 相对指标;某企业男女职工人数之比为 比例 相对指标;某产品的废品率为 结构 相对指标;某地区福利机构网点密度为 强度 相对指标。 2、各变量值与其算术平均数离差之和为 零 ;各变量值与其算术平均数离差的平方和为 最小值 。 3、在回归分析中,各实际观测值y 与估计值y ?的离差平方和称为 剩余 变差。 4、平均增长速度= 平均发展速度 —1(或100%)。 5、 正J 形 反J 形 曲线的特征是变量值分布的次数随变量值的增大而逐步增多; 曲线的特征是变量值分布的次数随变量值的增大而逐步减少。 6、调查宝钢、鞍钢等几家主要钢铁企业来了解我国钢铁生产的基本情况,这种调查方式属于 重点 调查。 7、要了解某市大学多媒体教学设备情况,则总体是 该市大学中的全部多媒体教学设备 ;总体单位是 该市大学中的每一套多媒体教学设备; 。 8、若某厂计划规定A 产品单位成本较上年降低6%,实际降低了7%,则A 产品单位成本计划超额完成程度为 100%7% A 100% 1.06%100%6% -=- =-产品单位成本计划超额完成程度 ;若某厂计划规定B 产 品产量较上年增长5%,实际增长了10%,则B 产品产量计划超额完成程度为 100%10% 100% 4.76%100%5% += -=+B 产品产量计划超额完成程度 。 9、按照标志表现划分,学生的民族、性别、籍贯属于 品质 标志;学生的体重、年龄、成绩属于 数量 标志。

统计学知识点汇总情况

统计学知识点汇总 一、统计学 统计学是一门关于数据资料的收集、整理、分析和推断的科学。 三、统计的特点 (1)数量性: 社会经济统计的认识对象是社会经济现象的数量方面,包括现象的数量表现、现象之间的数量关系和质量互变的数量界限。 (2)总体性: 社会经济统计的认识对象是社会经济现象的总体的数量方面。例如,国民经济总体的数量方面、社会总体的数量方面、地区国民经济和社会总体的数量方面、各企事业单位总体数量方面等等。 (3)具体性: 社会经济统计的认识对象是具体事物的数量方面,而不是抽象的量。这是统计与数学的区别。(4)社会性: 社会经济现象是人类有意识的社会活动,是人类社会活动的条件、过程和结果,社会经济统计以社会经济现象作为研究对象,自然具有明显的社会性。 四、统计工作过程 (1)统计设计 根据所要研究问题的性质,在有关学科理论的指导下,制定统计指标、指标体系和统计分类,给出统一的定义、标准。同时提出收集、整理和分析数据的方案和工作进度等。 (2)收集数据 统计数据的收集有两种基本方法,实验法和调查法。 (3)整理与分析

描述统计是指对采集的数据进行登记、审核、整理、归类,在此基础上进一步计算出各种能反映总体数量特征的综合指标,并用图表的形式表示经过归纳分析而得到的各种有用的统计信息。 推断统计是在对样本数据进行描述的基础上,利用一定的方法根据样本数据去估计或检验总体的数量特征。 (4)统计资料的积累、开发与应用 对于已经公布的统计资料需要加以积累,同时还可以进行进一步的加工,结合相关的实质性学科的理论知识去进行分析和利用。 五、统计总体的特点 (1)大量性 大量性是指构成总体的总体单位数要足够的多,总体应由大量的总体单位所构成,大量性是对统计总体的基本要求; (2)同质性 同质性是指总体中各单位至少有一个或一个以上不变标志,即至少有一个具有某一共同标志表现的标志,使它们可以结合起来构成总体,同质性是构成统计总体的前提条件; (3)变异性 变异性就是指总体中各单位至少有一个或一个以上变异标志,即至少有一个不同标志表现的标志,作为所要研究问题的对象。变异性是统计研究的重点。 六、标志与指标的区别与联系 ■区别: 标志是说明总体单位特征的;指标是说明总体特征的。 标志中的品质标志不能用数量表示;而所有的指标都能用数量表示。 标志(指数量标志)不一定经过汇总,可直接取得;而指标(指数量指标)一定要经过汇总才能取得。

社会统计学自考真题

浙江省2006年4月高等教育自学考试 社会统计学试题 课程代码:00278 一、填空题(本大题共8小题,每空1分,共10分) 请在每小题的空格中填上正确答案。错填、不填均无分。 1.统计资料整理阶段的基本方法是________。 2.调查人员从记录社会现象的各种载体中获取所需信息的调查方法,称为________。 3.若采用异距分组,________用来反映单位组距内分布的频数。 4.将所有变量值按大小顺序排列,中位数就是________的变量值。 5.已知各期的环比发展速度,应采用________法计算平均发展速度。 6.时间数列的两个基本构成要素是________和________。 7.推论统计的两个基本内容是________和________。 8.在数据的各种测量尺度中,既可进行加减运算,也可进行乘除运算的测量尺度是________。 二、单项选择题(本大题共30小题,每小题1分,共30分) 在每小题列出的四个备选项中只有一个是符合题目要求的,请将其代码填写在题后的括号内。错选、多选或未选均无分。 1.一个总体单位( ) A.只能有一个标志 B.只能有一个指标 C.可以有多个标志 D.可以有多个指标 2.政治算术学派的代表人物是( ) A.康令 B.格朗特 C.凯特勒 D.恩格尔 3.要了解某企业员工的收入,则总体单位是( ) A.该企业的全部员工 B.该企业每个员工的收入水平 C.该企业的每一个员工 D.该企业全部员工的平均收入水平 4.下列属于品质标志的是( ) A.工人年龄 B.工人性别 C.工人体重 D.工人工资等级 5.实际工作中,最常用的分类抽样是( ) A.定额分配 B.等额分配 C.定比分配 D.异比分配 6.抽样调查应遵循的原则是( ) A.灵活性 B.准确性 C.可靠性 D.随机性

社会统计学期末复习提纲

《社会统计学》课程期末复习提纲 ·考试题型: 一、填空题(10×1分=10分)二、判断题(10×1分=10分) 三、单项选择题(20×1分=20分)四、简答题(2×6分=12分)五、计算题(4题共48分) ·各章复习要点 第一章总论 P.2 统计的含义:统计工作·统计资料·统计学。其中:统计工作和统计资料是活动过程和成果的关系;统计学和统计工作是理论和实践的关系。 “统计”一词包含三种涵义,并且具有密切的联系。其中:统计工作和统计资料之间是工作与成果的关系;统计学和统计工作之间是理论和实践的关系。(y ) P.11—P.13 定类尺度;定序尺度;定距尺度;定比尺度(结合课件相关内容) 量化尺度特征功能举例 1、定类尺度确定类别分类民族的测量 2、定序尺度确定类别排列顺序分类排序考试成绩等级的测量 3、定距尺度确定类别排列顺序测数量差别和间隔距离无绝对零点分类排序加减智商的测量 4、定比尺度确定类别有序排序测数量差别和间隔距离有绝对零点分类排序加减乘除体重的测量何谓定类尺度和定序尺度?两者有何区别?1定类尺度是确定事物类别的计量尺度---高一个层次 2定类只能区分不同性质的现象并予以归类---可将所区分的类别按高低,大小,好坏,强弱,优劣等顺序做有序排列。 3定类不能进行数的比较和数学运算--能进行大小比较。 何谓定距尺度和定比尺度?两者区别定距尺度是确定研究对象之间某些数值相差的距离的尺度---最高的数据计量尺度 缺乏绝对零点---有,0 2. 0只表示一个值,即0值---0是绝对零点,表示没有 3.只能加减,不能乘除---加减乘除,高层次的各种统计分析。 P.13—P.14 总体和总体单位 一、总体和总体单位 (一)总体 1、概念总体(也称为统计总体)是指客观存在的、在同一性质基础上结合起来的许多个别单位的整体(同质个体的集团)。 2、特点·客观性·大量性同质性·差异性 1、总体单位除了必须具备同质性外,还必须具备1、差异性(或变异性)性,否则

《统计学原理》期末复习资料(1)

2015秋季学期《统计学原理》复习资料 一、单选题 1. 某厂4月份产量与1月份产量相比增长了10%,若已知4月份产量为1000,那么1月份的产量为(A )。 A.909.09 B.976.45 C.968.73 D.1032.28 2.以下各项属于品质标志的有(B )。 A.工龄 B.健康状况 C.工资水平 D.劳动时间利用率 3.连续变量( C)。 A.表现形式为整数 B.取值可一一列举 C.取值连续不断,不能一一列举 D.一般都四舍五入取整数 4.了解某公司职工文化程度情况,总体单位是( B)。 A.该公司全体职工 B.该公司每一位职工 C.该公司全体职工文化程度 D.该公司每一位职工文化程度 5.在某市工业设备普查中,调查单位是(D )。 A. 该市每一家工业企业 B. 该市全部工业设备 C. 该市全部工业企业 D. 某公司新推出了一种饮料产品,欲了解该产品在市场上的受欢迎程度,公司派人到各商 场、超市随机调查了200 名顾客。该公司采用的调查方法是(C )。 A. 直接观察法 B. 报告法 C. 访问调查法 D.很难判断 7.企业要对流水生产线上的产品质量实行严格把关,那么,在质量检验时最合适采用的调 查组织方式是( D)。 A. 普查 B. 重点调查 C.典型调查 D. 抽样调查 8. 统计资料按数量标志分组后,处于每组两端的数值叫(C )。 A. 组距

C. 组限 D. 组中值 9.统计分组的核心问题是(A )。 A.选择分组的标志 B.划分各组界限 C.区分事物的性质 D.对分组资料再分组 10. 在分组的情况下,总体平均指标数值的大小(C )。 A. 只受各组变量值水平的影响,与各组单位数无关 B. 只受各组单位数的影响,与各组变量值水平无关 C. 既受各组变量值水平的影响,又与各组次数有关 D. 既不受各组变量值水平的影响,也部受各组次数的影响 11. 在组距数列中,用组中值作为计算算术平均数直接依据的假定条件是(D )。 A. 各组次数必须相等 B. 各组必须是闭口组 C. 总体各单位变量值水平相等 D. 总体各单位变量值水平在各组内呈均匀分布 12. 标志变异指标反映了总体各单位变量值分布的(B )。 A. 集中趋势 B. 离散趋势 C. 变动趋势 D. 长期趋势 13. 抽样误差( D)。 A.既可以避免,也可以控制 B. 既不可以避免,也不可以控制 C. 可以避免, 但不可以控制 D. 不能避免, 但可以控制 14. 抽样平均误差反映了样本估计量与总体参数之间的(C )。 A. 实际误差 B. 可能误差范围 C. 平均差异程度 D. 实际误差的绝对值 15.凡是用来反映现象数量对比关系的相对数被称为( C)。 A. 增(减)量 B. 增加速度 C. 广义指数 D. 狭义指数 16.用来反映个别事物数量对比的相对数称为( C)。 A. 总指数 B. 类指数 C. 个体指数 D. 平均指数 17.在综合指数的变形中,加权算术平均指数所用权数是(D )。

2013春社会统计学期末复习训练

2013春社会统计学期末复习训练 一、单项选择题 1.为了解IT行业从业者收入水平,某研究机构从全市IT行业从业者随机抽取800人作为样本进行调查,其中44%回答他们的月收入在6000元以上,30%回答他们每月用于娱乐消费在1000元以上。此处800人是() A.样本B.总体C.统计量D.变量 2.在频数分布表中,将各个有序类别或组的百分比逐级累加起来称为() A.频率B.累积频数C.累积频率D.比率 3.离散系数的主要目的是() A.反映一组数据的平均水平B.比较多组数据的平均水平 C.反映一组数据的离散程度D.比较多组数据的离散程度 4.经验法则表明,当一组数据正态分布时,在平均数加减1个标准差的范围之内大约有() A.50%的数据B.68%的数据C.95%的数据D.99%的数据 5.在某市随机抽取10家企业,7月份利润额(单位:万元)分别为72.0、63.1、20.0、23.0、54.7、54.3、23.9、25.0、26.9、29.0,那么这10家企业7月份利润额均值为() A.39.19 B.28.90 C.19.54 D.27.95 6.用样本统计量的值直接作为总体参数的估计值,这种方法称为() A.点估计B.区间估计C.有效估计D.无偏估计 7.某单位对该厂第一加工车间残品率的估计高达10%,而该车间主任认为该比例 ()偏高。如果要检验该说法是否正确,则假设形式应该6为() A.:≥0.1; :<;0.1 B.:≤0.1; :>0.1 C.:=0.1; :≠0.1 D.:>0.1; :≤0.1 8.下面哪一项不是方差分析中的假定() A.每个总体都服从正态分布B.观察值是相互独立的 C.各总体的方差相等D.各总体的方差等于0 9.判断下列哪一个不可能是相关系数() A.-0.9 B.0 C.0.5 D.1.2 10.用于说明回归方程中拟合优度的统计量主要是()

社会统计学复习题(有答案)

社会统计学课程期末复习题 一、填空题(计算结果一般保留两位小数) 1、第五次人口普查南京市和上海市的人口总数之比为 比较 相对指标;某企业男女职工人数之比为 比例 相对指标;某产品的废品率为 结构 相对指标;某地区福利机构网点密度为 强度 相对指标。 2、各变量值与其算术平均数离差之和为 零 ;各变量值与其算术平均数离差的平方和为 最小值 。 3、在回归分析中,各实际观测值y 与估计值y ?的离差平方和称为 剩余 变差。 4、平均增长速度= 平均发展速度 —1(或100%)。 5、 正J 形 反J 形 曲线的特征是变量值分布的次数随变量值的增大而逐步增多; 曲线的特征是变量值分布的次数随变量值的增大而逐步减少。 6、调查宝钢、鞍钢等几家主要钢铁企业来了解我国钢铁生产的基本情况,这种调查方式属于 重点 调查。 7、要了解某市大学多媒体教学设备情况,则总体是 该市大学中的全部多媒体教学设备 ;总体单位是 该市大学中的每一套多媒体教学设备; 。 8、若某厂计划规定A 产品单位成本较上年降低6%,实际降低了7%,则A 产品单位成本计划超额完成程度为 100%7% A 100% 1.06%100%6% -=-=-产品单位成本计划超额完成程度 ;若某厂计划规定B 产品产量较上年增长5%,实际增长了10%,则B 产品产量计划超额完成程度为 100%10% 100% 4.76%100%5% +=-=+B 产品产量计划超额完成程度 。 9、按照标志表现划分,学生的民族、性别、籍贯属于 品质 标志;学生的体重、年龄、成绩属于 数量 标志。 10、从内容上看,统计表由 主词 和 宾词 两个部分组成;从格式上看,统计表由 总标题 、 横行标题 、 纵栏标题 和 指标数值(或统计数值); 四个部分组成。 11、从变量间的变化方向来看,企业广告费支出与销售额的相关关系,单位产品成本与单位产品原材料消耗量的相关关系属于 正 相关;而市场价格与消费者需求数量的相关关系,单位产品成本与产品产量的相关关系属于 负 相关。 12、按指标所反映的数量性质不同划分,国民生产总值属于 数量 指标;单位成本属于 质量 指标。 13、如果相关系数r=0,则表明两个变量之间 不存在线性相关关系 。 二、判断题

社会统计学复习整理

社会统计学复习整理 一、变量的测量层次 二、判断变量层次的技巧 1.首先所有的变量都是定类变量。 2.其次看变量的取值能否比较大小,不能这个变量只能是定类变量。 3.最后如果这个变量能够比较大小,那么就看变量取值加减乘除是否有意义,如果有意义就是定距变量,如果没有意义就只能是定序变量。 三、变量层次的比较 定类变量、定序变量和定比变量的数层次是从低到高排列的,高层次的变量同时具有低层次变量的功能。

四、相关分析方法 第二节简化一个变项的分布 一、定类变量 1.统计表:用表格的形式来表示变量频次(或频率)分布的一种工具。 2.统计表必备的容: (1)表号、标题 (2)标识行:变量名、对应数据说明(频次、频率) (3)主题行:变量取值的统计数据 (4)表尾:如果是引用必须说明资料来源 二、定序变量 1.适合定序变量的简化资料的方法 (1)累加次数:把次数逐渐相加起来,分为向上累加次数(cf↑)和

向下累加次数(cf↓)。 (2)累加频率:把各级的百分率逐渐相加。也分为向下累加百分率和向下累加百分率。 2.cf↑的计算方法就是按照变量取值的等级从低往高逐层相加。 3.cf↓计算方法就是按照变量取值的等级从高往低逐层相加。 ?cf↑表示低于某个等级的频数有多少 ?cf↓表示高于某个等级的频数有多少 三、定距变量 1.定距变量的简化工具是:分组、直方图和折线图。 2.连续型定距变量的分组统计 (1)组数:分组的数量,一般5到7组合适,分为等距分组和非等距分组。 (2)组限:包括上限(up)和下限(low) (3)标识下限和标识上限,例500—699 (4)真实下限:标识下限—0.5;真实上限:标识上限+0.5. (5)组距:真实上限与真实下限之差。 (6)组中值:真实上限与真实下限的平均值。 第三节集中趋势测量法 1.集中趋势:用一个典型的变量值或特征值来代表全体变量的问题,用这个数 值来代表变项的资料分布,以反映资料的集结情况。 2.集中趋势测量的意义就是可以根据这个代表值来估计或预测每个研究对象的 数值。

2018年春社会统计学期末复习训练题 (4)

2018年春社会统计学期末复习题 一、单项选择题 1.以下关于因变量与自变量的表述不正确的是() A.自变量是引起其他变量变化的变量 B.因变量是由于其他变量的变化而导致自身发生变化的变量 C.自变量的变化是以因变量的变化为前提 D.因变量的变化是以自变量的变化为前提 2.在频数分布表中,将各个有序类别或组的百分比逐级累加起来称为() A.频率 B.累积频数 C.累积频率 D.比率 3.离散系数的主要目的是() A.反映一组数据的平均水平 B.比较多组数据的平均水平 C.反映一组数据的离散程度 D.比较多组数据的离散程度 4.经验法则表明,当一组数据正态分布时,在平均数加减2个标准差的范围之内大约有() A.50%的数据 B.68%的数据 C.95%的数据

D.99%的数据 5.在某市随机抽取10家企业,7月份利润额(单位:万元)分别为 72.0、63.1、20.0、23.0、54.7、54.3、23.9、25.0、26.9、29.0,那么这10家企业7月份利润额均值为() A.39.19 B.28.90 C.19.54 D.27.95 6.用样本统计量的值直接作为总体参数的估计值,这种方法称为() A.点估计 B.区间估计 C.有效估计 D.无偏估计 7.在频数分布表中,比率是指() A.各组频数与上一组频数之比 B.各组频数与下一组频数之比 C.各组频数与总频数之比 D.不同小组的频数之比 8.下面哪一项不是方差分析中的假定() A.每个总体都服从正态分布 B.观察值是相互独立的 C.各总体的方差相等 D.各总体的方差等于0

9.判断下列哪一个不可能是相关系数() A.-0.9 B.0 C.0.5 D.1.2 10.用于说明回归方程中拟合优度的统计量主要是() A.相关系数 B.离散系数 C.回归系数 D.判定系数 11.在假设检验中,不拒绝虚无假设意味着() A.虚无假设是肯定正确的 B.虚无假设肯定是错误的 C.没有证据证明虚无假设是正确的 D.没有证据证明虚无假设是错误的 12.下列变量属于数值型变量的是() A.工资收入 B.产品等级 C.学生对考试改革的态度 D.企业的类型 13.如果用一个图形描述比较两个或多个样本或总体的结构性问题时,适合选用哪种图形()

社会统计学_1_试题卷

山东工商学院 2020学年第一学期社会统计学课程试题 A卷 (考试时间:120分钟,满分100分) 特别提醒:1、所有答案均须填写在960数字加起来827参考答案207上,写在试题纸上无效。 2、每份答卷上均须准确填写函授站、专业、年级、学号、姓名、课程名称。 一单选题 (共20题,总分值40分 ) 1. 标准差的大小取决与()(2 分) A. 平均水平的高低 B. 各标志值与平均水平离差的大小 C. 标志值水平的高低 D. 各标志值与平均水平离差的大小和平均水平的高低 2. 当变量X的值减少时,变量Y的值也随之减少,则变量X与变量Y之间存在()(2 分) A. 直线相关关系 B. 曲线相关关系 C. 正相关关系 D. 负相关关系 3. 抽样调查和典型调查都是非全面调查,二者的根本区别在于()。(2 分) A. 灵活程度不同 B. 作用不同 C. 组织方式不同 D. 选取调查单位的方法不同 4. 统计报表大多数属于()。(2 分) A. 一次性全面调查 B. 经常性全面调查 C. 经常性非全面调查 D. 一次性非全面调查 5. 分配数列中,当标志值较小的一组权数较大时,计算出来的算术平均数()。(2 分) A. 接近标志值大的一方 B. 接近标志值小的一方 C. 不受权数的影响 D. 不能确定其移动方向 6. 在一定的抽样平均误差条件下,()(2 分)

A. 扩大极限误差范围,可以提高推断的可靠程度 B. 扩大极限误差范围,会降低推断的可靠程度 C. 缩小极限误差范围,可以提高推断的可靠程度 D. 缩小极限误差范围,不改变推断的可靠程度 7. 对于不同水平的总体不能直接用标准差比较其标志变动度,这时需分别计算各自的()来比较。(2 分) A. 标准差系数 B. 平均差 C. 全距 D. 均方差 8. 反映样本指标与总体指标之间的平均误差程度的指标是()(2 分) A. 抽样误差系数 B. 概率度 C. 抽样平均误差 D. 抽样极限误差 9. 下列相对指标中,可以用有名数表示的有()。(2 分) A. 计划完成相对指标 B. 结构相对指标 C. 动态相对指标 D. 强度相对指标 10. 在销售量综合指数中,表示()(2 分) A. 商品价格变动引起销售额变动的绝对额 B. 价格不变的情况下,销售量变动引起销售额变动的绝对额 C. 价格不变的情况下,销售量变动的绝对额 D. 销售量和价格变动引起销售额变动的绝对额 11. 下列调查中,调查单位与填报单位一致的是()(2 分) A. 企业设备调查 B. 人口普查 C. 农村耕地调查 D. 工业企业现状调查 12. 已知某企业总产值2001年比1998年增长187.5%,2000年比1998年增长150%,则2001年比2000年增长()(2 分) A. 37.5% B. 125% C. 115% D. 15% 13. 如果两变量之间的相关系数为-1,说明两变量之间存在()(2 分)

统计学期末复习

2、解释分类数据、顺序数据、数值型数据的含义 分类数据,是只能归于某一类别的非数字型数据,他是对数据分类的结果,数据表现为类别, 是用文字表述的。 顺序数据,是只能归于某一有序别的非数字型数据。 数字型数据,是按数字尺度测量的观察值,其结果表现为具体的数值。 2、按照统计数据的收集方法,可以将其分为观测数据和实验数据。(会区分) 观测数据:是通过调查或观测而收集到的数据,这类数据是在没有对事物人为控制的条件 下得到的,有关社会经济现象的统计数据几乎都是观测数据。 实验数据:是在实验中控制实验对象而收集的数据 6、非抽样误差的类型有? (1)抽样框误差(2)回答误差(3)无回答误差(4)调查员误差(5)测量误差 8直方图与条形图有何区别 区别:1)条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度则表示各组的组距,因此其高度与宽度均有意义。2)由于分组数据具有连续性,直方 图的各矩形通常是连续排练,而条形图则是分开排列。3)条形图主要用于展示分类数据, 而直方图则主要用于展示数值型数据。 9、饼图和环形图有什么不同 饼图是用圆形及圆内扇形的面积来表示数值大小的图形,它主要用于表示总体中各组成 部分所占的比例,对于研究结构性问题十分有用。 环形图与饼图类似,但它们之间也有区别。环形图中间有一个“空洞”,总体或样本中 的每一部分数据由环中的一段表示。饼图只能显示一个总体和样本各部分所占的比例,而环形图则可以同时绘制多个总体或样本的数据系列,每一个总体或样本的数据系列为一个环。因此环形图可显示多个总体或样本各部分所占的相应比例,从而有利于我们进行比较研究。 13、简述中心极限定理的内容 设从均值为卩、方差为d 2 (有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值一的抽样分布近似服从均值为□、方差为d 2/n的正态分布。 14、假设检验和参数估计有什么相同点和不同点?解:参数估计与假设检验是统计推断的两个组成部分。 相同点:它们都是利用样本对总体进行某种推断。 不同点:推断的角度不同。参数估计讨论的是用样本统计量估计总体参数的方法, 总体参数卩在估计前是未知的。而在假设检验中,则是先对卩的值提出一个假设,然后利用样本信息去检验这个假设是否成立。 15、置信区间的理解,有以下几点需要注意: (1 )如果用某种方法构造的所有区间中有95%的区间包含总体参数的真值,5%勺区间不包含总体参数的真值,那么,用该方法构造的区间称为置信水平的95%勺置信区间。 16、简述评价估计量好坏的标准 (1 )无偏性:是指估计量抽样分布的期望值等于被估计的总体参数。 (2 )有效性:是指估计量的方差尽可能小。对同一总体参数的两个无偏估计量,有更小方差的估计量更有效。 (3)一致性:是指随着样本量的增大,点估计量的值越来越接近被估总体的参数。

(完整版)社会统计学简答题与计算题复习资料

社会统计学复习材料 简答题 1、统计数据的质量要求: 1、精度:最低的抽样误差或随机误差; 2、准确性:最小的非抽样误差或偏差; 3、关联性:满足用户决策、管理和研究的需要; 4、及时性:在最短的时间里取得并公布数据; 5、一致性:保持时间序列的可比性; 6、最低成本:以最经济的方式取得数据。 2、抽样误差及其影响因素: 1、由于抽样的随机性所带来的误差; 2、所有样本可能的结果与总体真值之间的平均性差异; 3、影响抽样误差的大小的因素:样本量的大小,总体的变异性。 3、判断计量优劣的评判标准: 用样本的估计量直接作为总体参数的估计值, 无偏性:估计量抽样分布的数学期望等于被估计的总体参数; 有效性:对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效;一致性:随着样本容量的增大,估计量的值越来越接近被估计的总体参数。4、假设检验的一般步骤: (1)陈述原假设和备择假设; (2)从所研究的总体中抽出一个随机样本; (3)确定一个适当的检验统计量,并利用样本数据算出其具体数值;

(4)确定一个适当的显著性水平,并计算出其临界值,指定拒绝域; (5)将统计量的值与临界值进行比较,作出决策; (6)统计量的值落在拒绝域,拒绝H0,否则不拒绝H0。 5、假设检验中的两类错误及其之间的关系 错误: 1、第Ⅰ类错误(弃真错误)原假设为真时拒绝原假设,第Ⅰ类错误的概率记为a ,即显著性 水平; 2、第Ⅱ类错误(取伪错误)原假设为假时未拒绝原假设,第Ⅱ类错误的概率记为b 。 a 和 b 的关系就像翘翘板,a 小b 就大,a 大b 就小。因此,在样本容量n 固定情况下, 不能同时减少两类错误!一般采用增加样本容量的办法来解决。 关系:当显著性水平a 减小时,由于拒绝域的减小,弃真的错误会减小,但由此而来的是 接受域增大了,因此纳伪的概率b 要增大。反之亦然(P235)。也就是说如果要减小b ,就 增大显著性水平a 。 6、置信区间与置信度的关系表达式: ()αεθθεθ -=+≤≤-1??P []εθεθ+-?,?称作置信区间。α-1称作置信度,可信度,或置信水平。α称置信水平。在样本容量一定的情况下,置信区间和置信度是相互制约的。置 信度愈大,则相应的置信区间也域宽。当把区间估计得小一些,估计的精确程度提高了,但换取的代价将是估错的可能性增加了,也就是可靠性或置信度 α-1下降了。(P201) 7、正态分布曲线的特征: (1)一个高峰:曲线是单峰,有一个最高点。 (2)一个对称轴。曲线的高峰处有一个对称轴,在轴的左右两边是对称的。

秋社会统计学期末复习训练题

秋社会统计学期末复习训练 一、单项选择题 1.为了解IT行业从业者收入水平, 某研究机构从全市IT行业从业者随机抽取800人作为样本进行调查, 其中44%回答她们的月收入在6000元以上, 30%回答她们每月用于娱乐消费在1000元以上。此处800人是( ) A.样本 B. 总体 C. 统计量 D. 变量 2.在频数分布表中, 将各个有序类别或组的百分比逐级累加起来称为( ) A.频率 B. 累积频数 C. 累积频率 D. 比率 3.离散系数的主要目的是( ) A.反映一组数据的平均水平 B.比较多组数据的平均水平 C.反映一组数据的离散程度

D.比较多组数据的离散程度 4.经验法则表明, 当一组数据正态分布时, 在平均数加减1个标准差的范围之内大约有 ( ) A. 50%的数据 B. 68%的数据 C. 95%的数据 D. 99%的数据 5.在某市随机抽取10家企业, 7月份利润额( 单位: 万元) 分别为72.0、 63.1、 20.0、 23.0、 54.7、 54.3、 23.9、 25.0、 26.9、 29.0, 那么这10家企业7月份利润额均值为( ) A. 39.19 B. 28.90 C.19.54 D.27.95 6.用样本统计量的值直接作为总体参数的估计值, 这种方法称为( ) A.点估计 B.区间估计 C.有效估计 D.无偏估计 7.某单位对该厂第一加工车间残品率的估计高达10%, 而该

车间主任认为该比例( π) 偏高。如果要检验该说法是否正确, 则假设形式应该为( ) A. H: π≥0.1; 1H: π<0.1 B. H: π≤0.1; 1H: π>0.1 C. H: π=0.1; 1H: π≠0.1 D. H: π>0.1; 1H: π≤0.1 8.下面哪一项不是方差分析中的假定( ) A.每个总体都服从正态分布 B.观察值是相互独立的 C.各总体的方差相等 D.各总体的方差等于0 9.判断下列哪一个不可能是相关系数( ) A.-0.9 B.0 C.0.5 D.1.2 10.用于说明回归方程中拟合优度的统计量主要是( ) A. 相关系数 B. 离散系数 C. 回归系数 D. 判定系数

11级本科社会统计学试题A

2011—2012学年第二学期期末考试 2011级社会工作本科专业《社会统计学》试题A (本试卷满分100分,考试时间110分钟) 特殊说明:本考试允许使用计算器。 一、填空题(每小题1分,共10分) 1.凡不能用数量的多少来表示而只能文字表述的标志,称为________。 2. 变量数列中各组标志值出现的次数称,各组单位数占单位总数的比重称_____。 3. 在位置平均数中,出现频率最高的变量值称为__________。 4. 各变量值对其算术平均数离差的平方的算术平均数,称之为________。 5.不论总体是否服从正态分布,只要样本容量n足够大,样本平均数的抽样分布就趋于________分布。 6.假设检验中若其他条件不变,显著性水平的取值越小,接受原假设的可能性越________,原假设为真而被拒绝的概率越________. 7.参数估计,即由样本的指标数值推断总体的相应的指标数值,它包括点估计和_______。8.如果其他条件不变,抽样平均误差要减小到原来的1/4,则样本容量应增大到____倍. 9.符号检验的零假设就是配对观察结果的差平均起来等于________。 10.对于表现为因果关系的相关关系来说,自变量一般都是确定性变量,因变量则一般是________变量。 二、判断题(每小题1分,共10分) ( )1. 重点调查的单位是有意识的从总体中挑选出来的,通常是那些地位较特殊的单位。( )2. 将收集到得的数据分组,组数越少,丧失的信息越多。 ( )3.根据组距式数列计算得到的算术平均数只能是一个近似值。 ( )4.标准差的数值越小,则其平均数的代表性越大,说明该组变量值分布越集中。( )5. 把随机现象的全部结果及其概率,或者把随机现象的或几个结果及其概率列举出来,就可以称作概率分布。 ( )6.统计检验可以帮助我们否定一个假设,却不能帮助我们肯定一个假设。 ( )7.泊松分布的数学期望和方差是相等的。 ( )8.样本均值是总体均值的一个无偏估计量。 ( )9.在参数估计中,概率度的大小由显著性水平 所决定,它可以认为是决定区间估计信度的关键因素。 ( )10.配对样本均值差的区间估计是两个的单样本区间估计。 三、单项选择题(每小题2分,共20分) 1.按变量的连续性,可把变量分为( ) 。 A 连续变量和随机变量 B 离散变量和确定性定量

相关主题
文本预览
相关文档 最新文档