当前位置:文档之家› 社会统计学----教材

社会统计学----教材

社会统计学----教材
社会统计学----教材

《社会统计学》全书目录

第一章导论

第一节什么是社会统计学

社会统计的产生与发展?社会统计学的对象与特点?社会统计的方法?社会统计工作的程序

第二节社会统计学的几个基本概念

总体与单位?标志与变量?指标与指标体系

第二章社会统计资料的搜集

第一节统计调查的方法及种类

原始资料与次级资料?静态资料与静态资料?全面调查与非全面调查?一般调查与专项调查?经常性调查与一次性调查

第二节统计调查的组织形式

普查?重点调查?典型调查?抽样调查

第三节概念的操作化与测量

概念的操作化?定类尺度?定序尺度?定距尺度?定比尺度

第四节统计误差

登记性误差?代表性误差?抽样误差

第三章社会统计资料的整理

第一节统计分组的原则与标准

“穷举”与“互斥”?频数(或次数)分布数列?品质数列与变量数列

第二节统计表

统计表的格式、内容与种类?统计表的制作规则

第三节变量数列的编制

对于离散变量?对于连续变量?组距和组数的确定?累计频数

第四节统计图

直方图?折线图?曲线图?累计顿数分布曲线?洛仑兹曲线与基尼系数

第四章集中趋势测量法

第一节算术平均数

对于未分组资料的算术平均数计算?对于分组资料的算术平均数计算?算术平均数的性质

第二节中位数

对于未分组资料的中位数计算?对于分组资料的中位数计算?中位数的性质?其他分割法

第三节众数

对于未分组资料的众数计算?对于分组资料的众数计算?众数的性质

第四节几何平均数、调和平均数及其他

几何平均数?调和平均数?各种平均数的关系

第五章离中趋势测量法

第一节全距与四分位差

全距?四分位差

第二节平均差

对于未分组资料A?D的计算?对于分组资料A?D的计算?平均差的性质

第三节标准差

对于未分组资科S的计算?对于分组资料S的计算?标准差的性质?标准分

第四节相对离势

变异系数?异众比率?偏态系数

第六章概率与概率分布

第一节概率论

随机现象和随机事件?事件之间的关系?先验概率?经验概率

第二节概率的数学性质

概率的数学性质?排列与样本点的计数?运用概率方法进行统计推断的前提

第三节概率分布、期望值与变异数

离数型随机变量及其概率分布?连续型随机变量的概率分布?分布函数?数学期望?变异数

第七章假设检验

第一节二项分布

二项分布的数学形式?二项分布的讨论

第二节统计检验的基本步骤

建立假设?求抽样分布?选择显著性水平和否定域?计算检验统计量?判定

第三节正态分布

正态分布的数学形式?标准正态分布?正态曲线下的面积?二项分布的正态近似法

第四节中心极限定理

抽样分布?中心极限定理

第五节总体均值和成数的单样本检验

σ已知,对总体均值的检验?学生t分布(小样本总体均值的检验)?关于总体成数的检验

第八章常用统计分布

第一节超几何分布

超几何分布的数学形式?超几何分布的数学期望与方差?关于超几何分布的近似

第二节泊松分布

泊松分布的数学形式?泊松分布的性质?关于泊松分布的近似

第三节卡方分布( 分布)

卡方分布的数学形式?卡方分布的性质?样本方差的抽样分布

第四节F分布

F分布数学形式?F分布的性质?关于F分布的近似

第九章参数估计

第一节点估计

无偏性?一致性?有效性

第二节区间估计

精确性和可靠性?抽样平均误差与概率度?区间估计的步骤

第三节其他类型的置信区间

未知,小样本总体均值的区间估计?总体成数的估计?总体方差的区间估计

第四节抽样平均误差

简单随机抽祥的抽样误差?分层抽样的抽样误差?整群抽样的抽样误差?等距抽祥的抽样误差

第五节样本容量的确定

影响样本容量的因素?确定样本容量

第十章双样本假设检验及区间估计

第一节两总体大样本假设检验

大样本均值差检验?大样本成数差检验

第二节两总体小样本假设检验

小样本均值差检验?小样本方差比检验

第三节配对样本的假设检验

单一实验组的假设检验?一实验组与一控制组的假设检验?对实验设计与相关检验的评论

第四节双样本区间估计

σ12和σ22已知,对均值差的区间估计?σ12和σ22未知,对均值差的区间估计?大样本成数区间估计?配对样本均值差的区间估计

第十一章非参数检验

第一节符号检验

配对样本的“符号检验”?符号检验与二项检验?简便检验?“符号检验”的作用

第二节配对符号秩检验

配对样本的符号秩检验?配对符号秩检验的步骤?符号秩检验的效力

第三节秩和检验

独立样本的秩和检验?秩和?秩和检验的具体步骤?U检验

第四节游程检验

独立样本的游程检验?游程?游程检验的具体步骤?差符号游程检验

第五节累计频数检验

独立样本的累计频数检验?累计频数检验的步骤?没有预测方向和已经预测方向?经验分布与理论分布之比较第十二章相关与回归分析

第一节变量之间的相互关系

相关程度与方向?因果关系

第二节定类变量的相关分析

列联表?削减误差比例?系数?系数

第三节定序变量的相关分析

同序对、异序对、同分对?Gamma系数?肯德尔等级相关系数?萨默斯(d系数)?斯皮尔曼等级相关系数?肯德尔和谐系数

第四节定距变量的相关分析

相关表和相关图?积差系数的导出和计算?积差系数的性质

第五节回归分析

线性回归?积差系数的PRE性质?相关指数R

第六节曲线相关与回归

第十三章检验与方差分析

第一节拟合优度检验

问题的导出?拟合优度检验(比率拟合检验) ?正态拟合检验

第二节无关联性检验

独立性、理论频数及自由度?关于频数比较和连续性修正?列联表的卡方分解?关系强度的量度

第三节方差分析

总变差及其分解?关于自由度?关于检验统计量Fo的计算?相关比率?关于方差分析的几点讨论第四节回归方程与相关系数的检验

回归系数的检验?积差系数的检验?回归方程的区间估计

第十四章动态分析与指数分析

第一节时间数列及其指标分析

时间数列的构成与分类?动态比较指标?动态平均指标

第二节时间数列的趋势分析

随手绘法?移动平均法?半数平均法?最小平方法

第三节指数分析法

动态指数及其分类?质量指标综合指数?数量指标综合指数?用与个体指数的联系来求综合指数?其他权数形式的质量和数量综合指数?指数体系和因素分析?静态指数

第一章导论

统计是关于数字和数据合成的学问。马克思说,科学只有当它利用了数学的时候,它才达到了完善的程度。恩格斯也说,数字是我们所知道的最纯粹的量的规定,但是它充满了质的差异。毛泽东则反复告诫我们,如果不懂得注意事物的数量方面,不懂得注意基本的统计、主要的百分比,不懂得注意决定事物质量的数量界限,一切都是胸中无“数”,结果就不能不犯错误。

第一节什么是社会统计学

“统计”一词,英语为statistics,用作复数名词时,意思是统计资料,用作单数名词时,指的是统计学。一般来说,统计这个词包括三个含义:统计工作、统计资料和统计学。这三者之间存在着密切的联系,统计资料是统计工作的成果,统计学来源于统计工作。

1.社会统计的产生与发展

社会统计的实践已有几千年的历史,是最早产生的统计。古埃及在建造金字塔时,为征集建筑费用对全国人口和财产进行过简单的调查和统计。古希腊在公元前400年就进行过人口普查。古罗马则在公元前400年就建立了出生、死亡登记制度。从奴隶社会到封建社会这段漫长的时期,社会统计主要局限于对事物进行原始的调查登记和简单的计算汇总,这是奴隶主或封建王朝为实现征税或服兵役和服劳役的需要而进行的。

华夏文化是世界上有数的几大文明之一,有关统计的方法、思想及工作,与中国的文化渊源紧密相连,都可以追溯到远古时代。例如,公元前2000多年大禹治水时,依据山川土质、人口物产等分全国为九州,从而有了九州人口和土地的数字,称为九州表。又如,汉代司马迁在他编的《史记》中多次用到统计表,晋代在分组上所采用的两端开口组,宋代对中位数的应用等等,这一切都远远走在当时的西欧诸国之前。尽管如此,由于中国始终没有进入资本主义社会,商品经济始终没有形成一种社会经济形态,中国统计工作尤如一条流入沙漠的河流,慢慢地消失、衰亡了。

17世纪后,由于资本主义生产关系和商品经济形态的形成,在西方各国,简单的人口、土地、资源统计已不能满足社会发展的需要,因而产生了以工业、农业、贸易、交通等方面统计为主的社会经济统计。在不断丰富的统计实践经验的基础上,比较系统的统计理论知识逐步形成,这便产生了统计学。目前在统计分析中经常使用的一些基本方法和术语都始于这一个时期,比如最小平方法、正态分布曲线、误差计算等等。

但在近代统计学的初创阶段,由于统计学者所处的历史环境不同,对统计实践的理解不同,从而总结出来的经验和概括出来的理论也有所差别,这就产生了不同的统计学派。统计学的发展,很大程度上正是在不同学派的争论中得以实现的。

国势学派这一学派产生于德国,其创始人为康令(1606—1681)和阿享瓦尔(1719—1772)。阿享瓦尔在1749年所著《欧洲最主要各国新国势学概要》一书绪言中,把国势学定名为“Statistik”(统计)这个词。国势学派又可称为记述学派和历史学派。该学派有一句名言:“统计是静止的历史,历史是流动的统计。”但由于其特征是只用文字记述,不用数字计量,所以历史上人们又将这一学派称为“有名无实”的学派。

政治算术学派该学派的创始人是英国人格朗特(1620—1674)和威廉·配第(1623—1687),它以后者的著作《政治算术》而得名。676年《政治算术》一书问世,威廉·配第运用有关人口、土地税收和国家收入等方面的数字资料,对英国、法国、荷兰的经济实力进行比较,首创了一种数字对比分析的方法。用配第自己的话来说,“即用数字、重量、尺度来表达自己想说的问题”。配第没有使用统计学这一名词,但他使用的社会宏观数量对比和分析方法揭示了统计学所要研究的内容,因此历史上人们又将这一学派称为“有实无名”学派。马克思对配第评价很高,誉他为“政治经济学之父,在某种程度上也可以说是统计学的创始人”。

数理统计学派和社会统计学派19世纪末20世纪初,随着资本主义的发展,统计理论没等上述两个学派争论结束,又有了新发展。数理统计学派的创始人是比利时的凯特勒(1796—1874),其最大的贡献就是将法国的古典概率论引入统计学,用纯数学的方法对社会现象进行研究。由于把概率论引进统计学,使社会随机现象

数量方面的研究提高了准确性。凯特勒应用大量观察法研究犯罪、人口等现象,曾准确地预测到1830年法国犯罪行为的种类和数量。1867年,一门兼有数学和统计学双重性质的学科被命名为“数理统计学”,凯特勒也被人称为“现代统计学之父”。

凯特勒的另一个重要贡献,是他把政治经济学、数学和当时政府统计工作的方法结合在一起,建立了一个专门研究社会现象的统计学派。后来这个学派传到德国,就出现了以克尼斯(1821—1898)、梅尔(1841—l 923)和恩格尔(1821—1896)为代表的德国社会统计学派。但在近代统计学的发展过程中,数理统计学派和社会统计学派的争论也是比较大的。

社会统计学在广义和狭义两方面的实践意义得到公认,二次大战后,世界政治格局发生重大变化的结果。众所周知,20世纪下半叶,科学技术迅速进步,经济发展成为全人类面临的共同问题。但在注重经济增长的同时,在工业发达国家出现了一系列难以解决的社会问题,诸如环境污染、犯罪率和离婚率上升、失业和贫困加剧等等。在发展中国家,经济增长反而带来了政治的不稳定、社会动荡和国内的贫富差距。这一切使人们逐渐认识到,经济增长并不一定意味着社会发展,经济高涨不等于社会进步,经济效益好不等于社会效益佳。这就要求从社会整体发展的观点出发,应用社会调查和各种统计方法,收集大量的、更全面的事实来描述、分析、研究社会发展状况和发展趋势,从而监测社会发展和采取相应措施,达到统计为社会服务的目的。

20世纪60年代以来,西方发达资本主义国家先后都制定了社会发展计划。法国较早地强调了计划的社会方面,在1962—1965年的战后第四个计划中,法国政府把原来的计划名称“经济现代化与投资计划”改为“经济与社会发展计划”。

垄断资本主义国家制定与实施社会发展计划的活动直接推动了社会统计的发展。20世纪60年代首先在美国掀起了一个颇有声势的“社会指标运动”。从20世纪70年代起,一些区域性或世界性的组织开始颁发统一使用的社会统计指标体系。1976年经互会为各成员国颁发了《社会统计基本指标体系》。同年,联合国经济合作与发展组织(OECD)编制了《社会生活质量的计量》的社会统计指标体系。

建国以来,我国已经建立了以社会主义计划经济为基础的统计组织机构和统计制度方法,在社会经济统计的实际工作和理论研究方面,积累了不少适合我国国情的宝贵经验,取得了很大成就。但也应该看到,我国过去的统计工作,存在着反映物质生产领域情况多、反映非物质生产领域情况少的弊病。1982年,我国把国民经济发展计划改为国民经济与社会发展计划。为了适应这一状况,我国的统计工作发生了一系列变化。首先,是统计组织机构与统计制度的变化。其次,是统计指标与制度化报表的变化。

2.社会统计学的对象与特点

社会统计学是运用统计的一般原理,对社会各种静态结构与动态趋势进行定量描述或推断的一种专门方法与技术。任何一门独立的学科,都有区别于其他学科的独特研究对象。社会统计学的研究对象,概括而言是指社会现象的数量方面。但值得注意的是,由于客观需要和具体任务的不同,社会统计学具有广义与狭义之分,它们的对象范围是不同的。

广义的社会统计学,在我国实际上就是社会经济统计学。而从社会经济统计学中独立出来的社会统计学便是狭义的社会统计学,它是本书讨论的重点。那么狭义的社会统计学同经济统计学是怎样一种关系呢?

3.社会统计的方法

所谓社会统计方法,简单地说就是指搜集、整理与分析资料的研究技术或手段。同众多定量研究方法一样,社会统计方法的根本特征也是数量分析。但社会统计学所研究的对象具有大量性、变异性的特点,这就决定了社会统计研究必须采用大量观察法。所谓大量观察,即是就总体中足够多的单位进行调查和综合分析,用以反映社会总体的数量特征。大量观察法是统计调查阶段的重要方法。

大量观察法之所以成为统计上特有的方法,是与大数规律的作用分不开的。大数规律是随机现象出现的基本规律,它的一般意义是:观察过程中每次取得的结果可能不同(因为具有偶然性),但大量重复观察结果的平均值却几乎接近某个确定的数值。

统计的重点是统计分析,这是在统计资料收集和整理之后展开的。统计按其内容主要包括两个方面:描述统计和推论统计。实际上,描述统计和推论统计也就是统计分析的两种基本方法,它们之间有紧密联系也有重要差别。描述统计是统计分析方法的基础。

推论统计是对抽样调查来讲的。描述统计固然对处理样本资料也有效,但样本能否代表总体,能在多大的

程度上代表总体,只有通过统计推论才能得出结论。所以抽样调查一定要有推论统计。推论统计有两个基本内容:①参数估计,即由样本的指标数值推断总体的相应的指标数值,它包括点估计和区间估计。②假设检验,即就社会研究中提出的某种假设应用抽样法来加以统计检定。

4.社会统计工作的程序

统计工作的程序,须视具体情况具体对待,一般可分为以下五步:(1)制定计划;(2)统计调查;(3)统计整理;(4)统计分析;(5)统计报告。应该指出,统计工作的程序,从宏观上讲离不开统计立法,而且统计活动的首要前提是统计立法。按国际惯例,统计立法应明确、具体地规定出统计活动所涉及的各方面的法律责任,以保证统计资料的准确性和客观性。例如对提供虚假数据的被调查对象,统计法应具体规定出惩罚条款,违法必究。

第二节社会统计学的几个基本概念

每一门学科都有它自己的专门术语和概念,统计学也是如此。本节我们叙述的概念有总体和单位、标志和变量、指标和指标体系,它们是各门统计学都少不了的基本概念。

1.总体与单位

统计是大量观察的结果。统计所研究的不是个别的数量关系而是总体的数量关系,而没有大量个体的数量特征当然就谈不上总体的数量表现。所以总体和总体单位是统计学的两个基本概念。所谓总体,就是作为统计研究对象的、由许多具有共性的单位构成的整体。总体也有人称之为母体。构成总体的每一个个体称为总体单位,简称单位,也称为个体。

总体作为统计研究的对象,显然具有三个基本特征:大量性、同质性和变异性。总体必须由足够多的单位所组成,个别或少数几个单位不足以构成总体。

总体按其包括的单位的数目是有限还是无限,分成有限总体和无限总体。

总体在抽样调查及推论统计中,还引出了它与样本总体这个概念的联系与区别。推论统计有“部分推断总体”的特征。通过抽样得到的用以推断总体特征的那个“部分”,在统计学上称为样本或样本总体。样本中所含的单位数,在统计学上称为样本大小,也叫做样本容量。从总体抽选出样本的过程叫抽样,也有叫取样的。

在推论统计中,当要研究概率及概率分布时,就接触到现实总体和想象总体这一对概念。想象总体都是无限总体。想象总体对应着先验概率。

总体和总体单位的概念是相对于一定的统计研究的目的而言的。随着研究目的的不同,同一事物可以作为总体,也可以当作总体单位。总体是统计的研究对象,但大量观察却必须从总体中的个别单位开始。而把观察得来的个别事实综合起来,结果所反映的却是整个总体的规律。

2.标志与变量

总体的每个单位都具有许多属性和特性,说明总体单位属性或数量特征的名称在统计上称为标志。凡能用数量的多少来表示的标志,称为数量标志,如年龄,它们用以说明事物量的规定性。凡不能用数量的多少来表示而只能文字表述的标志,称为品质标志,如性别,它们用以说明事物质的规定性。

标志按变异情况可以分为不变标志和可变标志。不变标志是构成总体同质性的基础,任何个体只有在某些预设的不变标志的基础上才能集合成一个总体。但统计研究之所以成为必要,是在于总体的变异性。因此可变标志才是统计研究真正所关心的。可变的品质标志无法用数值表示,我们称之为变项;可变的数量标志能够用

X。通过调查得来的关于某一数量标志的一系列数值,在统计数值表示,我们称之为变量。变量值一般记作

i

上又称数据。

变量的取值有连续和非连续之分。凡是相邻的两个变量值之间可以连续不断分割的变量,称为连续变量。凡是各变量值之间是以整数断开的变量,称为离散变量。离散变量可以精确计量,其值可以是精确值。连续变量不可能精确计量,其值都是近似值。

如果变量之间存在着—定的函数关系,我们就可以区别出自变量和因变量。自变量是作为变化根据的变量,而因变量是随自变量而发生对应变化的变量。

变量按其性质又可分为确定性变量和随机变量。在相同的条件下进行观测,其可能实现的值(或观测值)不止一个,有这种性质的变量称为随机变量,随机变量正是统计要处理的对象。

3.指标与指标体系

统计指标是反映总体(或样本总体)的数量特征的概念或范畴。如人口数、湿地面积、就业率、性比例等等,这些概念用于反映一定总体的数量方面时,就是统计指标。在实际应用时。一个完整的统计指标总是由两个部分构成:指标名称和指标数值。

统计指标按其内容或作用不同,可分为数量指标和质量指标。数量指标说明总体在外延上的数量特征,如人口总数、居民收入、产品产量等,一般都以总量指标的形式出现。质量指标说明总体在内涵上的数量特征,如人口密度、劳动生产率、产品价格等,一般都以相对指标或平均指标的形式出现。通常,数量指标数值的大小随总体范围的大小而增减变动,而质量指标数值的大小与总体范围的大小没有直接关系。

统计指标和标志都是质的规定性和量的规定性的结合,它们之间有联系也有区别。主要区别是:①指标是说明总体特征的,标志是说明总体中各单位特征的;②指标只能用数值表示,而标志中有不用数值而用文字表示的品质标志这种情况。主要联系是:①指标名称和标志名称具有对应关系,在统计研究中两者往往是同一概念;②指标数值是由总体单位的个数和数量标志的标志值汇总而来的。

统计指标按其数值的三种表现形式(即绝对数、相对数、平均数),又有总量指标、相对指标和平均指标之分。总量指标一般由统计汇总而来,它是研究问题的基础。相对指标和平均指标一般由总量指标派生而来。

社会现象都是错综复杂的矛盾体,任何一个指标都只能反映对象总体的一个侧面。在社会统计中,如要全面把握对象总体情况,就不能单凭一个指标,而要靠一组相互联系的并与之相适应的指标来完整地反映对象总体。指标体系就是一系列有内在联系的统计指标的集合体。

第二章社会统计资料的搜集

统计作为认识社会的有力工具,首先要对社会实际情况作周密的调查。统计调查是根据统计目的和任务,取得相应统计资料的活动。就每项具体的调查而言,就是对总体各个单位的有关标志的具体表现进行登记,搜集关于总体单位个别特征的大量资料。

第一节统计调查的方法及种类

在社会统计中,统计调查包括对原始资料和次级资料的搜集。所谓原始资料,是指由调查者直接搜集的、未经加工整理而保持其原本状态的资料。原始资料又称第一手资料或初级资料。所谓次级资料,是指经他人加工整理,可以在一定程度上被引用来说明总体特征的资料。次级资料又称第二手资料或间接资料。

统计资料的分类,可以就资料的来源来分,也可以就资料的时间过程来分。如果考虑到资料的时间过程,凡某一特定时刻的资料称为静态资料;凡某时期内变动累计的资料称为动态资料。

由于社会现象和表明这种现象的标志是复杂多变的,研究者所具备的客观条件又有不同,因而在社会调查和社会统计中,调查方法是多种多样的。调查必须适应调查任务和对象特点的要求,并且随着客观条件的变化而不断改进和完善。统计调查从调查目的上分,可以分成一般调查和专项调查;统计调查从调查范围上分,可以分成全面调查和非全面调查;统计调查按调查登记的时间是否连续,可以分成经常性调查和一次性调查。

统计调查按照搜集资料的具体方法来分,可以分为问询法、观察法、报告法、实验法、文献法等。

第二节统计调查的组织形式

1.普查

普查即全面调查,顾名思义,就是对研究对象的全体作无一遗漏的逐个调查。普查的优点在于它是全面调查,得来的资料是全面的,也是比较可靠的。但这种方法的局限性也很明显:首先,普查调查范围广、工作量大,费时、费力,耗资巨大;其次,普查工作量大,参与人多,发生错误的机会也多。所以这种方法得来的一些资料不一定比抽样调查来得可靠。

2.重点调查

重点调查就是在研究现象的总体中,选取其中的重点单位进行调查。一般说来,当调查任务只要求掌握基本情况,而部分重点单位又能够比较集中地反映被研究总体情况时,采用重点调查比较合适。但是,由于重点单位与一般单位差别很大,所以重点调查的结果不能用来推断总体的指标数值。

3.典型调查

典型调查就是根据调查的目的和要求,在对所研究对象进行初步全面分析的基础上,从中选择有代表性的单位,做周密细致的调查。典型调查具有调查单位少、调查范围小、省时省力、方法多样灵活、重点深入等特点。满足一定条件,典型调查的结果可以用来推断总体的指标数值。

4.抽样调查

抽样调查是在社会学研究中最常用的调查组织方式,它属于非全面调查的范畴。抽样调查是按照科学的原理和计算,从若干单位组成的事物总体中,抽取部分样本单位来进行调查、观察,然后用所得到的调查结果来

推断总体。抽样调查虽非全面调查,其目的却在于取得反映全面情况的统计资料。由于大数规律,抽样调查在很多场合可以起到全面调查的作用。

抽样调查的最大优点是省时、省力和节省经费。此外,由于抽样调查的范围较小,调查工作可能做得更加深入细致。错误发生的机会减少,资料的可信程度提高,这也是抽样调查的一个优点。

抽样按其具体组织形式可分为两大类:随机抽样和非随机抽样。遵循随机原则的抽样叫随机抽样,否则是非随机抽样。随机抽样有以下几种:(1)简单随机抽样,又称纯随机抽样;(2)等距抽样,也叫机械抽样或系统抽样;

(3)分层抽样,又称类型抽样;(4)整群抽样,又称聚类抽样。如果总体过于庞大,在整群抽样的基础上可以发展出一种多段抽样。

在社会调查和社会统计中,除运用随机抽样之外,还运用非随机抽样。非随机抽样建立在调查者对总体有所了解的基础上,是不严格遵循随机原则的抽样调查。非随机抽样的代表性不能正确估计,但由于它做起来方便,省时省力省钱,因此在探索性研究中常为研究者所用。

第三节概念的操作化与测量

要展开社会研究,一个必要的步骤就是要把理论层次上的抽象定义,变为经验层次上的可操作定义。概念的操作化就是指这一过程。与理论定义不同,操作性定义要从实际上说明概念的量度。温度的操作性定义要说明一个物体的温度是怎样测量的。生活水平的操作性定义也要具体为人均收入、平均摄热量、寿命等这些可以观察、可以测量的指标。由此可见.理论概念通过操作化才能得到测量。也就是说,操作化是社会调查和社会统计围绕某一研究课题展开的必要前提。

最好的理论定义和操作性定义应该是一一对应的。也就是说,如果改变操作,就要改用新概念。但操作性定义就其本质来说,只是对理论概念的间接测量。因此,操作性定义对于同一个理论概念往往不是唯一的。这就引出了效度和信度两个概念。前者要求操作性定义应该精确到足以使所有使用这一量度的人得到同样的结果;后者要求一个操作性定义应尽量拟合和表达理论定义的内容。

有了操作性定义,接下来在统计调查中我们就可以对总体单位的相关标志进行测量了。测量是从研究对象中获取资料或数据的一种观察和登记过程,它是分层次的。自然科学以物理、化学及生物现象的某些特征为对象,这些特征大多有精密的仪器作为测量工具,故测量层次较高。社会学以人类行为、社会关系、社会群体等为研究对象,测量的问题就比较复杂了。在社会调查和社会统计中,测量被分为四个水平:①定类尺度;②定序尺度;②定距尺度;①定比尺度。

第四节统计误差

测量是一种人的作业,测量的结果常与实际情况有出入而造成测量误差。任何一项统计工作都不可能完全避免误差,关键是误差要得到控制。在调查和统计过程中所得数据(或指标)与实际值之间存在的差别,统称统计误差。

根据产生统计误差的原因不同,统计误差分为登记性误差和代表性误差两大类。所谓登记性误差,是指在调查和统计过程中由于各种主客观因素而引起的技术性、操作性误差以及由于责任心缘故而造成的误差等。所谓代表性误差,是指由调查方式本身所决定的统计指标和总体指标之间存在的差数。

由于抽样调查在社会调查研究的特殊地位,就概率抽样所存在的代表性误差而言,习惯上又被称为抽样误差。抽样误差是在遵守随机原则的条件下,用样本指标代表总体指标不可避免存在的误差,它表示抽样估计的精度。一般抽样误差越小,抽样估计的精度就越高,反之就越低。由于抽样误差是概率抽样固有的、不可避免的误差,它本身又是随机变量,所以可以按数理统计的方法计算,确定其数量界限(平均值)并加以一定控制。进一步学习后我们将了解,抽样误差与总体各单位的差异程度成正比,与样本单位的数目成反比。只有使样本

单位数达到一定数量,抽样误差才能得到有效控制。反之,在总体包括的调查单位较多的情况下,抽样调查结果的准确性一般高于全面调查。

第三章社会统计资料的整理

原始资料杂乱无章,需加整理,才能为人所用。统计资料的整理,其基础是统计分组。所谓统计分组.就是按统计研究的目的和要求,将总体单位或全部调查数据按一定的标志划分成若干组,使组内差异尽量小,而组与组之间则有明显差异,从而使原本杂乱无章的资料有序化,以便为在统计分析中提炼各种有用信息打下基础。

第一节统计分组的原则与标准

统计分组的标志分为数量标志和品质标志两大类。按国际惯例,无论采用何种标志进行统计分组,都应遵循以下一般原则:(1)分组应使各类别构成之和等于总体;(2)分组设计应能反映统计总体的分布规律性。

在统计资料搜集的基础上,按分组原则,将总体中所有单位依一定顺序归类整理,即可得到能够表明总体单位总数在各组分配情况的频数(或次数)分布数列,简称数列。频数分布数列是统计分组工作的产物。显然,按品质标志进行分组,我们可以得到品质数列;按数量标志进行分组,我们可以得到变量数列。

统计分组的关键在于选择分组标志和划分各组界限。一般来讲,按品质标志来分组,其差别比较明确,区分也较容易。按数量标志来分组则不同,对于划分各组界限,变量数列有较大的任意性。如果划分不当,不仅容易混淆各组的差别,也可能无法反映变量的分布特征。在统计整理和统计分析中,广泛应用变量数列,借以观察某一数量标志的变动及其分布状况。因此,如何编制变量数列是我们重点需要掌握的。

第二节统计表

统计调查搜集来的资料往往是没有次序的原始资料,使原始资料有序化,列表和作图是两种基本方法,得到的分别就是统计表和统计图。变量数列是统计表的一种常用形式。

1.统计表的格式、内容与种类

统计表是表示统计资料的表格,在由横行、纵栏交叉结合而成的表格上,它能系统地组织和合理地安排大量数字资料。统计表的主要功用是汇总和积累统计资料,以简捷和有条理的方式表示统计资料的特征,从而使统计资料易于查对、比较、分析和记忆。

统计表通常有一定格式:总标题、横行标题(表侧)、纵栏标题(表头)、统计数值(表身)。统计表从内容上看,是由主词和宾词两部分构成的。主词是统计表所要说明的对象,它可以是总体各单位的名称、总体的各个组或总体单位的全部。宾词是用来说明主词的标志和标志值(或指标名称和指标数值)。主词通常列于表的左瑞,宾词通常列于表的上端。但有时为了编排合理和阅读方便,也可以互换位置,将主词置于表的上端,将宾词置于表的左瑞。

统计表的种类是按主词和宾词交叉划分的。统计表按主词是否分组以及分组的程度,可分为简单表、简单分组表和复合分组表。统计表按宾词如何表达和配置,可分为简单设计两种。

2.统计表的制作规则

第三节变量数列的编制

在社会统计学中,总体中各单位的分布特征首先是用统计表来表示的。能够表示变量分布及其特征的统计表,即变量数列。它的编制,在社会统计资料的整理中有特殊的意义。

X表变量数列有两个构成要素;①变量值——用来分组并按大小顺序排列的数量标志的具体数值,用符号

i

f表示。将各组频数除以总体单位总数N(也称总体容示;②频数——总体单位在各组中出现的次数,用符号

i

P表示。用频率也可以将变量分布的状况清晰地表示出来。

量),就得到相对频数,简称频率.用符号

i

变量数列的编制比较复杂,这不仅因为划分各组界限有较大弹性,而且因为因变量有离散变量和连续变量之别,需分别加以讨论。

1.对于离散变量

离散变量所描述的对象的数量特征,可以按一定次序列出它的整数值,相邻两变量值不会出现小数.因而能编制出单项式和组距式两种变量数列。所谓单项数列,是指数列中每一个变量值一组,有几个变量值就有几组;所谓组距数列,是指数列中每一组由两个变量值的一个差值范围来表示。

首先,离散变量的整数值如果变动幅度较小,可以将每一个变量值列为一组,编制单项数列。其次,离散变量的整数值如果变动幅度较大,而且总体单位数N又很大,则要编制组距数列。组距数列又有等距和异距两种。组距数列的首组和末组还有开口组和闭口组之别。

对离散变量编制组距数列的具体做法是:在变量值变动的最大范围内,将全部变量值依次划分为几个区间,一个区间内的所有变量归为一组。

变量值变动的最大范围称为全距(R);区间距离(i h)称为组距;组距两端的数值称为组限;上限与下限之

m)称为组中值。

差就是组距;上限和下限之间的中点数值(

i

2.对于连续变量

连续变量因其数学特征,在一个区间可以有无限多数值,无法按顺序一一列举,所以只能编制组距数列。与离散变量组距数列不同之处在于,根据连续变量的特征,此时组距数列中相邻两组的上限和下限共有一个组限,即相邻两组交界处的组限重合。至于恰等于某一组限的数据归于哪一组,应该按照“上限不包括在内”的原则处理。有了这一规定,就不会在编制连续变量的数列时,发生违背“穷举”与“互斥”这两个基本原则的情况了。

3.组距和组数的确定

显然,组距和组数两者成反比关系。因为等距分组和闭口组有编制方便、便于计算和便于绘制统计图等优点,因而统计分组应尽量采用等距分组以及闭口组。但是如果碰到有极端值的情况,就要采取首组“向下开口”或末组“向上开口”的方式来处理。异距分组主要在变量变动很不均匀而有急剧上升或突然下降之类情况发生时考虑。有时,为了适应某项专门工作的需要,也采用异距分组。

4.累计频数

累计频数一般用大写字母F来表示。累计又分向上累计和向下累计。所谓向上累计,是以变量数列首组的频数为始点,逐个累计各组的频数,每组累计频数展示了小于该组上限的频数合计有多少。所谓向下累计,则是以变量数列末组的频数为始点,逐个累计各组的频数,每组累计频数展示了大于该组下限的频数合计有多少。当然,累计也可以根据相对频数分布来进行,得到的便是相对频数累计(或百分数累计)了。

第四节统计图

频数分布不但可以用统计表的形式表现,也可以用统计图的形式表现。用统计图表示频数分布,较之用统计表,要直观便捷得多。但缺点是不及统计表精确。统计图的种类很多,本书使用的统计图有频数(频率)分布图、时间数列的历史曲线、相关关系的散点图等等。

根据编制好的频数分布数列,可以绘制出相应的统计图,最常用的有频数分布直方图、折线图、曲线图以及累计频数分布曲线。具体方法是:先画直角坐标,横轴代表分组或各组组限,纵轴代表各组频数或频率,然后再根据相应的分配数列作图。

洛仑兹(Lorenz)曲线是一种用来反映社会收入分配平均程度的累计百分数曲线。洛仑兹曲线的特点是在纵轴和横袖两个方向上都进行累计。

20世纪初意大利经济学家基尼(Gini)根据洛仑兹曲线提出了一种判断社会收入分配平均程度的指标,用G 表示。设实际收入分配曲线和收入分配绝对平均线之间的面积为A,实际收入分配曲线右下方的面积为B。并以A除以A+B的商表示不平均程度。这个数值被称为基尼系数。

第四章集中趋势测量法

统计资料经分类整理后,已经使杂乱无章的资料成为有系统有条理的资料。为从中获取有用信息,寻求一简单数值以代表总体(或样本)是最起码的,这就提出了平均指标的计算问题。平均指标的功用是表明现象总体在一定条件下某一数量标志所达到的一般水平。

第一节算术平均数

在社会统计学中.算术平均数是反映集中趋势最常用、最基本的平均指标。由于统计总体的标志总量通常都是各总体单位标志值之和,而且是与其总体单位数相对应的,因此用总体标志总量除以总体单位数即得算术

平均数。算术平均数一般用X表示,它在推论统计中被称为均值。

算术平均数表示某一总体之总体单位平均所得的标志值的水平。在实际工作中,由于统计资料整理的情况不尽相同,我们在运用定义计算算术平均数时,要视资料有没有分组加以区别对待。在形式上,分组资料的计算式与未分组资料的计算式是有区别的,尽管它们在本质上并没有什么不同。以后我们将看到,其他平均和变异指标的计算也同样如此。

1.对于未分组资料

对于未分组资料,计算算术平均数要用原始式。

2.对于分组资料

对于分组资料,计算算术平均数要用加权式。

对于单项数列,很显然,算术平均数X 不仅受各变量值(i X )大小的影响,而且受各组单位数(频数)的影响。由于i X 对于总体的影响要由频数(i f )大小所决定,所以i f 也被称为权数。值得注意的是,在统计计算中,权数不仅用来衡量总体中各标志值在总体中作用,同时反映了指标的结构,所以它有两种表现形式:绝对数(频数)和相对数(频率)。这样一来,在统计学中,凡对应于分组资料的计算式,都被称为加权式。

对于组距数列,由于每一组变量值不止一个,因此先要用每一组的组中值权充该组统一的变量值,然后再计算给定数列的算术平均数。

3.算术平均数的性质

(1) 各变量值与算术平均数的离差之和等于0。

(2)各变量值对算术平均数的离差的平方和,小于它们对任何其他数(X ’)偏差的平方和。也就是说,各变量值与算术平均数的离差的平方和为最小值。在统计学中,这被称为“最小平方”性质。

(3)算术平均数受抽样变动影响微小,通常它是反映总体分布集中趋势的最佳指标。

(4)算术平均数受极端值的影响颇大,遇到这种情况时,就不宜用它来代表集中趋势了。

(5)分组资料如通有开放组距时,不经特殊处理,算术平均数将无法得到。

第二节 中位数

把总体单位某一数量标志的各个数值按大小顺序排列,位于正中处的变量值,即为中位数,用d M 表示。中位数是把某一变量的全部数值分成了相等的两部分,一半数值比它大,一半数值比它小,它居中。所以,中位数也是一种能够反映现象一般水平和集中趋势的代表性数值。中位数只与变量值的排序有关,因而它可以用于定距、定比资料,也可以用于定序资料。

1.对于未分组资科

先把所有数据按大小顺序排列,如果总体单位数N 为奇数,则取第

2

1+N 位上的变量值为中位数,如果总体单位数N 为偶数。因为居中的数值不存在,按惯例,取第2N 位和第2N +1位上的两个变量值的平均作为中位数。

2.对于分组资料

当根据单项数列求中位数时,先根据N /2在累计频数分布中判定中位数所在组,然后便知该组所属的变量值就是中位数了。

当根据组距数列求中位数时,要采用所谓的比例插值法:先根据N /2在累计频数分布中找到中位数所在组,然后假定该组中各变量值是均匀分布的,再用相应公式求出中位数。

3.中位数的性质

(1)各变量值对中位数之差的绝对值总和,小于它们对任何其他数(X ’)之差的绝对值总和。

(2)中位数不受极端值的影响。

(3)分组资料有不确定组距时,仍可求得中位数。

(4)中位数受抽样变动的影响较算术平均数略大,因此中位数作为表示总体资料集中趋势的指标,使用也很广泛。

4.其他分割法

变量值经顺序排列后,中位数系将研究总体的所有单位分为相等的两部分,所以它又被称为二分位数。类似于求中位数,我们还可以很容易求出四分位数、十分位数、百分位数等等。

第三节众数

“众”即多的意思。众数是在一组资料中,出现次数(或频数)呈现出“峰”值的那些变量值,用M o表示。众数也是一个比较常用的反映现象集中趋势的代表性数值。众数只与变量值出现的次数有关,因而它可以用于定距、定比资料,也可以用于定序、定类资料。

1.对于未分组资料

对于未分组资料,确定众数的方法比较简单,可直接观察。首先,将所有数据顺序排列;然后,只要观察到某些变量值(与相邻变量值相比较)出现的次数(或频数)呈现“峰”值,这些变量值就是众数。从这个意义上,众数和中位数被统称为位置平均数。

2.对于分组资料

对于分组资料,如果是单项数列,众数确定方法同未分组的情况,只是更直观、更容易,观察频数分布就可以了。当根据组距式变量数列求众数时,也要采取比例插值法求众数。

3.众数的性质

(1)在分组资料中,众数仅受上下相邻两组频数大小的影响。而不受极端值的影响,因而对开口组资料,仍可计算众数。

(2)受抽样变动影响大。

(3)对于给定资料,其反映集中趋势的指标,只有众数不唯一确定。有的资料只有一个众数,有的资料没有众数,有的资料则存在好几个众数。

(4)在频数分布中,众数标示为其“峰”值所对应的变量值,它的优点是帮助我们很容易区分出偏态以及单峰分布和多峰分布。

第四节几何平均数、调和平均数及其他

集中趋势还有两种常见的测定方法,这就是几何平均数和调和平均数。

1.几何平均数

几何平均数也是测定集中趋势的一种平均指标,它被定义为:N个变量值连乘积的N次方根,用M g表示。

几何平均数是一种具有特殊用途的平均数。主要适用于两种场合:①用以计算某种比率的平均数,如用于指数分析;②用以计算大致具有几何级数关系的一组数字的平均数,如世界各国都用这种平均法计算经济指标的平均发展速度。几何平均数亦可分为未加权式和加权式。

必须指出,用以计算几何平均数的各项数值必须大于0,否则就不能计算几何平均数或计算结果无实际意义。

2.调和平均数

调和平均数也是测定集中趋势的一种平均指标,它被定义为:N个变量值倒数算术平均数的倒数,也称倒数平均数,用M h表示。

调和平均数也是一种具有特殊用途的平均数。作为算术平均数的变形而使用的调和平均数适用于以下场合:如掌握的情况是总体标志总量而缺少总体单位数的资料,则可以采用调和平均数的公式计算平均数。调和平均数亦有未加权式和加权式之分。

必须指出,用以计算调和平均效的各项数值不能出现0,否则不能就资料算出调和平均数。

3.各种平均数的关系

首先,算术平均数与中位数、众数之间存在着一定关系,这种关系决定于总体中频数分布状况。在统计中,最多最常见的频数分布形式是所谓钟形分布。如前所述,钟形分布又分为对称的正态分布和不对称的偏态分布。当总体呈对称的正态分布时,算术平均数、中位数和众数三者完全相等。当总体呈不对称的偏态分布时,M d

总是位于X和M o之间。当X―M o>0时为正偏;当X―M o<0时为负偏。

另外,算术平均数、几何平均数和调和平均数可统称为数值平均数。从数量关系的角度分析,算术平均数和调和平均数易受极端值影响,算术平均数受极大值的影响较大,调和平均数受极小值的影响较大,而几何平均数

受极端值的影响相对较小。因此,如用同一资料计算这三种平均数,其结果可用下述不等式表示:X≥M g≥M h 。只有当所有变量值都相同时,上述三种平均数才相等。

第五章离中趋势测量法

平均指标对总体的共性和一般水平作了概括,以此来说明总体标志值分布的集中趋势。但是总体作为统计对象,还有其变异性的一面。变异指标用以反映总体各单位标志值的变动范围或参差程度,与平均指标相对应,从另一个侧面反映了总体的特征。变异指标不仅可以综合地显示变量值的离中趋势,还可以用来判别平均数的代表性。所谓离中趋势,是指数列中各变量值之间的差距和离散程度。离势小,平均数的代表性高;离势大,平均数代表性低。

变异指标的种类较多,如按计算的基准来分有以下两类:

(1)以两数之差来表达的有全距和四分位差等。

(2)以对平均数偏差来表达的有平均差、标准差等。

变异指标如按数量关系来分有以下两类;

(1)凡用绝对数来表达的变异指标,统称绝对离势,主要有极差、平均差、四分位差、标准差等。

(2)凡用相对数来表达的变异指标,统称相对离势,主要有异众比率、标准差系数、平均差系数和一些常用的偏态系数。

第一节全距与四分位差

1.全距

全矩是最大变量值与最小变量值之差,用R来表示。对未分组资料,计算全距用原始式。由于全距是一组数据中两个极端值之差,所以它又称极差。

全距的最大优点是:计算简单,便于直观。缺点是;①受极端值影响大,遇含开口组的资料时将无法计算;

②由于没有量度中间各个单位间的差异性,所以数据利用率很低,信息丧失严重;③受抽样变动影响很大。一般说来,大样本全距要比小样本全距大些,因为大样本有较多的机会包含最极端的变量值。

2.四分位差

四分位是用第三四分位数和第一四分位数的半距作为测定离中趋势的一种变异指标,它可以避免全距测量离中趋势受极端值影响大这个缺点。但由于它仅以两数之差为基准,全距的另两个缺点依然无法避免。

第二节平均差

要测定变量值的离中趋势,尤其是要测定各变量值相对于平均数的差异情况,一个很自然的想法就是计算各变量值与算术平均数的离差。但由于算术平均数的性质,各变量值与其算术平均数离差的代数和恒为零,所以用这个性质无法构造出能够测定离中趋势的变异指标。为此,我们采取处理离差绝对值的办法,如此构造出来的变异指标,称为平均差

1.对于未分组资料A·D的计算

平均差被定义为各变量值对其算术平均数(或中位数)离差绝对值的算术平均数,用A·D表示。对于未分组资料,求平均差用原始式。

2.对于分组资料A·D的计算

对于分组资料,计算平均差需用加权式。

3.平均差的性质

平均差以及接下来要讨论的标准差,虽都是变异指标,但就其计算的数学方法来看,仍属于算术平均数。所以,平均差在受抽样变动影响、受极端值影响和处理不确定组距这三方面,它的性质均同于算术平均数。与此同时,平均差由于计算时采用了取绝对值来消除正负号的影响的方法,它不便于代数运算,而且平均差的意义在理论上也不容易作出阐述。所以,平均差作为变异指标,其运用比下面的标准差要少得多。

另外,根据中位数的性质可知,各变量值对中位数之差的绝对值总和为最小。因而,有时以中位数为基准来计算平均差反倒比以算术平均数为基准来计算平均差更合理。

第三节标准差

为了克服平均差带有绝对值计算的缺点,同时保留平均差的优点(即它已将总体中各个单位标志值的差异全部包括在内),故将各离差平方后求算术平均,再求平方根,来构造变异指标,这样就得到一个常用的而且也是最重要的变异指标——标准差,用S表示。

1.对于未分组资科S的计算

标准差被定义为各变量值对其算术平均数的离差平方的算术平均数的平方根,又称均方差。对于未分组资料,求标准差用原始式。

2.对于分组资料S的计算

对分组资料,计算标准差要用加权式。

3. 标准差的性质

标准差是测定总体各单位标志值的离散状况和差异程度的最佳指标,这是因为它在数学上便于代数运算,并且具有许多特有的性质:

(1)以算术平均数为基准计算的标准差,较之以任何其他数值为基准计算的标准差要小,这是因为算术平均数的“最小平方”性质。

(2) 标准差同平均差一样,虽都是变异指标,但就其计算的数学方法来看,仍属于算术平均数。因为它已将总体中各单位标志值的差异全部包括在内了,所以它受抽样变动的影响小。但是,标准差在受极端值影响和处理不确定组距这两方面,缺点均与算术平均数相同。

值得注意的是,在推论统计中我们将发现,方差是比标准差更有理论价值的概念。所谓方差,即标准差的平方,它直接写成S2。

4.标准分

运用标准差.还可将原来不能直接比较的离差标准化,使之可以相加、相减、平均或者相互比较。为此我们引入一个新的变量,用符号Z 表示。由公式可以看到,Z 分数是以离差与标准差的比值来测定变量X 与X 的相对位置的。

第四节 相对离势

上述各种反映离中趋势的变异指标,都具有和原资料相同的计算单位,称绝对离势。但欲比较具有不同单位的资料的参差程度,或比较单位虽相同而均值不相同的资料的参差程度,离势的绝对指标则很可能导致某些错误结论。所以,我们还得了解和学习相对离势。

1.变异系数

用离势的绝对指标除以其平均指标来求离势的相对指标,就可以在计量单位不同或平均水平不一的对象之间进行直接比较。这种由绝对离势转化而来的相对离势称为变异系数,用符号V 表示。变异系数指绝对离势统计量与其算术平均数(或其他适当数值)的比值,变异系数是最具有代表性的相对离势。

(1) 全距系数,是众数据的全距与其算术平均数之比。

(2) 平均差系数,是众数据的平均差与其算术平均数之比。

(3) 标准差系数,是众数据的标准差与其算术平均数之比。

用绝对数表示离中趋势,对于描述数列的频数分布状况来说,其意义明显而易于理解。但是,绝对离势只有在研究性质相同的总体且其平均水平也大体一致的情况下,才能用来在不同总体间进行比较。我们知道,实际上,不同总体不但在水平上往往相差很大,而且它们的性质也往往互不相同。在这种情况下,我们便要用离势的相对指标作为比较的依据了。

2.异众比率

所谓异众比率,是指非众数的频数与总体单位数的比值,用V · R 来表示 。异众比率的意义在于能够表明众数不能代表的那一部分变量值在总体中的比重。异众比率越大,各变量值相对于众数越离散;异众比率越小,各变量值相对于众数越集中。

异众比率计算简单,只要知道众数的频数和总体单位数就可以了。因而,这种相对离势的测定不但适用于定距资料,也适用于定比、定类资料。

3.偏态系数

偏态系数是以标准差为单位的算术平均数与众数的离差,其取值一般在0与土3之间。偏态系数为0表示对称

分布,偏态系数为3+或3-则表示极右或极左偏态。

第六章 概率与概率分布

推论统计研究如何依据样本资料对总体性质作出推断,这是以概率论为基础的。通过概率论,可以知道在一定条件下,总体的各种抽样结果所具有的概率特性。然后,推论统计依据这些概率特性,研究在发生了某种抽样结果的情况下总体参数是什么,或者对社会研究中提出的某种假设进行检定。学习推论统计必须首先对概率论有所了解。

第一节概率论

1.随机现象和随机事件

概率是与随机现象相联系的一个概念。所谓随机现象,是指事先不能精确预言其结果的现象。随机现象具有非确定性,但内中也有一定的规律性。例如,事先我们虽不能准确预言一个婴儿出生后的性别,但大量观察,我们会发现妇女生男生女的可能性几乎一样大,都是0.5,这就是概率。

随机现象具有在一定条件下呈现多种可能结果的特性。但由于到底出现哪种结果,却又无法事先预言。因此,人们把随机现象的结果以及这些结果的集合体称作随机事件,简称事件。当随机事件发生的可能性能用数量大小表示出来时,我们就得到了概率。

在统计学中,我们把类似掷一枚硬币的行为(或对某一随机现象进行观察)称之为随机试验。随机试验必须符合以下三个条件:①它可以在相同条件下重复进行;②试验的所有结果事先已知;③每次试验只出现这些可能结果中的一个,但不能预先断定出现哪个结果。随机试验的每一个可能的结果,称为基本事件(或称样本点);所有可能出现的基本事件的集合,称为样本空间,记为Ω。

随机事件(可记为A、B、C等)如果仅含样本空间中的一个样本点,该事件称为简单事件;随机事件如果含样本空间中的一个以上的样本点,该事件称为复合事件。换言之,复合事件是样本空间Ω的某个子集。

随机事件有两种极端的情况:一种是必然会出现的结果,称为必然事件;另一种是不可能出现的结果,称为不可能事件。从样本空间来看,必然事件是由其全部基本事件组成的,可记为S;不可能事件则不含任何基本事件,可记为Φ。

2.事件之间的关系

客观事物之间总是存在着一定的关系,随机事件之间也不例外。以下是随机事件之间的基本关系,它们也可以直观地用图形表示出来。

(1)事件和

(2)事件积

(3)事件的包含与相等

(4)互斥事件

(5)对立事件

(6)互相独立事件

3.先验概率

在统计学中,有两种常见的确定概率的方法:古典法和频率法。用古典法求算概率,必须基于以下两个条件:①在一样本空间中,各样本点出现的机会均等;②该样本空间只有有限(n)个样本点。由于古典法求出的概率是先验概率,它可以用作估计,但不可能用经验法准确求得,

4.经验概率

用古典法求算概率,在应用上有两个缺点:①它只适用于有限样本点的情况;②它假设机会均等,但这些条件实际上往往不能得到满足。求算概率的另一途径就是运用频率法。

设想有一个与某试验相联系的事件A ,把这个试验一次又一次地做下去,每次都记录事件A 是否发生了。

假如做了n 次试验,而记录到事件A 发生了m 次(即成功m 次),则频数m 与试验次数n 的比值n

m ,称作n 次试验中事件A 发生的频率。由于试验(或观察)次数n 为无限是做不到的,因此实际中是将试验次数n 充分大时的频率作为概率的近似值,这就是所谓经验概率。经验概率是依据大量的统计数据而得到的。事件发生的频率(即成功的频率)随试验次数增大而逐步稳定到某一数值这个经验事实,在概率论中就是大数规律。频率稳定到概率这个事实,给了“机会大小”即概率一个浅显而说得通的解释,这在统计学上具有很重要的意义。坚持这种观点的统计学派也就被称为频率学派

第二节 概率的数学性质

1.概率的数学性质

(1) 非负性

(2)加法规则

(3)乘法规则

在抽样方法中还经常涉及到回置抽样和不回置抽样。所谓回置抽样,就是抽取的单位登记后又被放回总体中去,然后再进行下一次抽取。使用回置抽样法,先后两次抽取是彼此独立的。因为每一次抽取后抽取到的单位都得返还,总体保持不变,前一次的结果不可能影响到后一次。所谓不回置抽样,就是不再把抽取到的单位退还总体。这样先后两次抽取就不再独立了,必须使用条件概率的概念。

2.排列与样本点的计数

要正确解决概率问题,往往光考虑乘法规则还不够,还要同时考虑使用加法规则。用古典法对复合事件求先验概率的问题,概括起来是两点:首先在一样本空间中,就一样本点或基本事件计算其实现的概率,这由乘法规则来解决;然后就一特定的复合事件,列出它所包含的所有的样本点。列出所有的样本点,就是要确定给定复合事件含有的排列方式数,也就是要考虑使用加法规则。

第三节 概率分布、期望值与变异数

随机事件及其概率回答的是随机现象某一局部结果,例如对给定的复合事件求先验概率。而概率分布则要在满足完备性(穷举)和互不相容性(互斥)的前提下,回答随机现象一共会出现多少种结果,以及每种结果所伴随的概率是多少。

概率分布与频率分布有着如同古典法与频率法那样的联系。随着观测次数加大,随机变量取值的频率分布将接近其概率分布。与此同时,只要对频率分布加以引伸,概率分布就很快可以理解。

当然,概率分布与频率分布也有重要区别:频率分布是经资料整理而来的,概率分布却是先验的;频率分布随样本不同而有所不同,概率分布却是唯一的;频率分布有对应的频数分布,概率分布则没有。因此频率分布被称为随机变量的统计分布或经验分布,而概率分布则被称为随机变量的理论分布。

1.离数型随机变量及其概率分布

离散型随机变量是指X的取值是可数的。如果对X的每个可能取值x i计算其实现的概率P I,我们便得到了离散型随机变量的概率分布,即P(X=x i)=P I。

2.连续型随机变量的概率分布

连续型随机变量X的取值充满某一区间,甚至可以是一切实数。所以讨论X的一取值x i的概率是没有意义的,其概率分布也无法用表的形式表示出来。为此,我们引进概率密度?(x)的概念来表达连续型随机变量的概率分布。对于连续型随机变量X,它的取值在区间{x1 ,x2}上的概率等于概率密度曲线?(x)下面x1与x2两点之间面积,即

P(x1 ≤X≤x2 )=?2

1)

x

x

dx

x

?。

3.分布函数

为了能把对随机变量的概率的研究在数学上统一起来,我们引入分布函数的概念。分布函数F(x)被定义为F(x)=P(X≤x),它表示随机变量X小于某一取值x的概率,即随机变量从最远的起点(―∞)到所研究的x 点所有概率的总和。有了分布函数,就可以很容易得到随机变量X取值在任意区间{x1 ,x2}上的概率,即P(x1 ≤X≤x2 )=F(x2 )-F(x1 ) 。

分布函数和概率分布或概率密度有一一对应的关系。概率分布(离散变量)或概率密度(连续变量)换算成分布函数是很容易。反过来,知道了分布函数,可以很容易得到随机变量X的取值在任意区间{x1,x2}上的概率。分布函数也可以很容易换算成概率分布(离散变量)或概率密度(连续变量)。F(x)和P(X=x i)或?(x)的关系,就像向上累计频率和频率的关系一样。不同之处在于,F(x)累计的是概率。但使用分布函数的好处是很明显的,它不仅在数学上统一了对离散型随机变量和连续型随机变量概率的研究,而且由于它计算概率的起点都固定为―∞,因而可以把概率值换算成表,以易于求得任何区间的概率,从而达到计算快捷和应用广泛之目的。

4.数学期望

所谓数学期望,是反映随机变量X取值的集中趋势的理论均值(算术平均),记作E(X)。

数学期望也常常记为μ,在推论统计中同总体均值的记号,而则在推论统计中被作为样本均值的记号。数学期望和总体均值一样,都是唯一的,不过它是一个先验的理论值。由于它是用随机变量各取值分别乘以取值的概率来计算的,因此数学期望又可称为随机变量的加权算术平均数。样本均值X依据统计数据计算而来,但它具有随机性。在统计推论中,E(X)和都是为μ服务的:E(X)是“期望”,是“估计”。

5.变异数

变异数是综合反映随机变量取值分散程度的指标,其功能相当于描述统计中已讨论过的方差及标准差,记为D(X)。由于变异数的单位是随机变量单位的平方。为了使随机变量变异指标的单位与其本身的单位相同,将D(X)开方(取正值)称作随机变量X的标准差σ;同时为了更明确的表示D(X)与标准差之间只是开方关系,索性把D(X)写成σ2,并直接称D(X)为随机变量X的方差。

在推论统计中,随机变量变异数的记号常常同总体方差的记号,即用σ 2 表示之。而S 2则被作为样本方差的记号。变异数和总体方差一样,都是唯一的,不过它是一个先验的理论值。样本方差S 2依据统计数据计算而来,

社会统计学复习题(有答案)

社会统计学课程期末复习题 一、填空题(计算结果一般保留两位小数) 1、第五次人口普查南京市和上海市的人口总数之比为 比较 相对指标;某企业男女职工人数之比为 比例 相对指标;某产品的废品率为 结构 相对指标;某地区福利机构网点密度为 强度 相对指标。 2、各变量值与其算术平均数离差之和为 零 ;各变量值与其算术平均数离差的平方和为 最小值 。 3、在回归分析中,各实际观测值y 与估计值y ?的离差平方和称为 剩余 变差。 4、平均增长速度= 平均发展速度 —1(或100%)。 5、 正J 形 反J 形 曲线的特征是变量值分布的次数随变量值的增大而逐步增多; 曲线的特征是变量值分布的次数随变量值的增大而逐步减少。 6、调查宝钢、鞍钢等几家主要钢铁企业来了解我国钢铁生产的基本情况,这种调查方式属于 重点 调查。 7、要了解某市大学多媒体教学设备情况,则总体是 该市大学中的全部多媒体教学设备 ;总体单位是 该市大学中的每一套多媒体教学设备; 。 8、若某厂计划规定A 产品单位成本较上年降低6%,实际降低了7%,则A 产品单位成本计划超额完成程度为 100%7% A 100% 1.06%100%6% -=-=-产品单位成本计划超额完成程度 ;若某厂计划规定B 产品产量较上年增长5%,实际增长了10%,则B 产品产量计划超额完成程度为 100%10% 100% 4.76%100%5% +=-=+B 产品产量计划超额完成程度 。 9、按照标志表现划分,学生的民族、性别、籍贯属于 品质 标志;学生的体重、年龄、成绩属于 数量 标志。 10、从内容上看,统计表由 主词 和 宾词 两个部分组成;从格式上看,统计表由 总标题 、 横行标题 、 纵栏标题 和 指标数值(或统计数值); 四个部分组成。 11、从变量间的变化方向来看,企业广告费支出与销售额的相关关系,单位产品成本与单位产品原材料消耗量的相关关系属于 正 相关;而市场价格与消费者需求数量的相关关系,单位产品成本与产品产量的相关关系属于 负 相关。 12、按指标所反映的数量性质不同划分,国民生产总值属于 数量 指标;单位成本属于 质量 指标。 13、如果相关系数r=0,则表明两个变量之间 不存在线性相关关系 。 二、判断题

广东财经社会统计学期末考试试卷(A卷)

广东财经社会统计学期末考试试卷(A卷) 一、单项选择题(请将正确选项的序号填在答题纸相应的位置。) 1.社会统计中的变量一般分四个层次,其中最高层次的变量是 D 。 A、定类变量 B、定序变量 C、定距变量 D、定比变量 2.标准正态分布的均值一定 C 。 A、等于1 B、等于-1 C、等于0 D、不等于0 3.计算中位值时,对于未分组资料,先把原始资料按大小顺序排列成数列,然后用公式 D 确定中位值所在位置。 A、n/2 B、(n-1)/2 C、(n+2)/2 D、(n+1)/2 4.下列统计指标中,对极端值的变化最不敏感的是 A 。 A、众值 B、中位值 C、四分位差 D、均值 5.如果原假设是总体参数不小于某一数值,即大于和等于某一数值,应采用的检验是。 A、两端检验 B、右端检验 C、左端检验 D、无法判断 6.在一个右偏的分布中,大于均值的数据个数将。 A、不到一半 B、等于一半 C、超过一半 D、视情况而定 7.下列关于“回归分析和相关分析的关系”的说法中不正确的是。 A、回归分析可用于估计和预测 B、相关分析是研究变量之间的相互依存关系的密切程度 C、相关分析不需区分自变量和因变量 D、回归分析是相关分析的基础 8.假定男性总是与比自己年轻3岁的女性结婚,那么夫妻年龄之间的积距相关系数r为。 A、-1 < r< 0 B、0 < r< 1 C、r = 1 D、r = -1 9.“4、6、8、10、12、26”这组数据的集中趋势宜用测量。 A、众值 B、中位值 C、均值 D、平均差 10.某校期末考试,全校语文平均成绩为80分,标准差为4.5分,数学平均成绩为87分,标准差为9.5分。某学生语文得了83分,数学得了92分,从相对名次的角度看,该生的成绩考得更好。 A、数学 B、语文 C、两门课程一样 D、无法判断 三、判断题(请在答题纸相应位置打√或?。) 1.无论分布曲线是正偏还是负偏,中位值都居于均值和众值之间。 2.一组数据的均值代表了该组数据中大多数的数据。 3.对于连续型随机变量,讨论某一点取值的概率是没有意义的。 4.异众比率越大,各变量值相对于众值越离散,众值的代表性越好。 5.只要样本量足够大,则不论总体分布如何,样本均值的抽样分布都服从正态分布。 6.检验均值差异时,独立样本采用“差的均值”、关联样本采用“均值的差”进行检验。 7.在显著性水平既定的情况下,一端检验比两端检验更容易拒绝H0。 8.不管相关关系表现形式如何,当r=1时,变量X和变量Y都是完全相关;当r=0时,变量X 和变量Y都是完全不相关。 9.方差分析就其内容来说,是分析或检验总体间的均值是否存在差异。 10.纳伪的概率β可以根据原假设H0所设的分布计算出来。 1

统计学实习报告范文4篇

统计学实习报告范文4篇 实习是统计学专业教学计划的重要组成部分,是对学生进行实际统计工作能力初步训练的基本形式,是培养学生职业技能与能力的重要环节,是全面检验和提高我校教育教学质量的必要措施。 实习的目的是使学生巩固和运用所学的基础知识和基本技能,建立统计意识和思想,运用收集数据的方法,并能够根据数据的特点选用恰当的统计方法进行分析和推断,获得相关经验,进一步理解统计的特点与规律,培养与提高学生独立从事统计工作的能力,并使学生接受深刻的专业思想教育。 到邯郸市统计局的第一天我就学到了不少。那天统计局的领导为我们精心安排了一天的实习培训。初步介绍了统计工作的有关情况,包括向我们传达了关于建立统计报表关系和开展统计报表网上直报工作的通知。几个部门的领导还分别向我们具体讲解了工业企业、服务业批发和零售业、住宿和餐饮业等如何进行调查询问和填表的情况,告诉我们如何简单快捷的区分三个产业以及大中小企业。为了让我们增强统计工作的法律意识,领导们还特别向我们介绍了统计法。所谓统计法,是指调整国家统计机关行使统计职能而产生的统计关系的法律规范的总称。统计关系,是指国家机关、社会团体和公民在有关搜集、整理、分析、提供、颁布和管理统计资料的统计活动中所产生的社会经济关系。统计的基本任务是对国民经济和社会发展情况进

行统计调查、统计分析,提供统计资料,实行统计监督。统计法是国家统计机关行使职能的法律依据,也是国家进行社会经济监督的有力工具。为了有效地、科学地组织统计工作,保障统计资料的准确性和及时性,发挥统计在了解国情国力、指导国民经济和社会发展中的重要作用,促进社会主义现代化建设事业的顺利发展,1983年11月8日第六届全国人民代表大会常务委员会第三次会议通过了《中华人民共和国统计法》,自1984年1月1日起施行。1987年2月15日,经国务院批准,国家统计局又发布了《中华人民共和国统计法实施细则》。另外,还强调了统计工作者的职业道德,要实事求是,依法统计,严守秘密公正透明,服务社会等等。也许他们的讲解不如学校老师那么系统与规范,但平实的语言中却透露了他们丰富的实际经验,我们听起来也觉得易于理解。由于一部分人第二天就要到各区里去做实际调查工作,所以领导们强调了一些工作的具体事项,为了能够完成好工作,我仔细的记录下了每一点,巴望着第二天能把它们用于实践中。而然很可惜的是我并没有被分到区里做调查,而是被留在了局里,分到了服务业。对此我虽然觉得没能把那些刚学来的新知识付诸实践有一点遗憾,但同时对我未来的新工作也充满了期待。 刚到服务业的时候,我的心里很没底。因为这对我来说是完全陌生的,我甚至不知道服务业做哪些主要工作。但也正因为是这样,我也很确定自己能在这里学到很多以前根本不可能知道的东西。刚进入服务业的时候,主任并没有马上让我们做一些复杂的工作,而是由易到难,循序渐进。先让我们在电脑上熟悉了有关文件的路径和数据

社会统计学期末复习提纲

《社会统计学》课程期末复习提纲 ·考试题型: 一、填空题(10×1分=10分)二、判断题(10×1分=10分) 三、单项选择题(20×1分=20分)四、简答题(2×6分=12分)五、计算题(4题共48分) ·各章复习要点 第一章总论 P.2 统计的含义:统计工作·统计资料·统计学。其中:统计工作和统计资料是活动过程和成果的关系;统计学和统计工作是理论和实践的关系。 “统计”一词包含三种涵义,并且具有密切的联系。其中:统计工作和统计资料之间是工作与成果的关系;统计学和统计工作之间是理论和实践的关系。(y ) P.11—P.13 定类尺度;定序尺度;定距尺度;定比尺度(结合课件相关内容) 量化尺度特征功能举例 1、定类尺度确定类别分类民族的测量 2、定序尺度确定类别排列顺序分类排序考试成绩等级的测量 3、定距尺度确定类别排列顺序测数量差别和间隔距离无绝对零点分类排序加减智商的测量 4、定比尺度确定类别有序排序测数量差别和间隔距离有绝对零点分类排序加减乘除体重的测量何谓定类尺度和定序尺度?两者有何区别?1定类尺度是确定事物类别的计量尺度---高一个层次 2定类只能区分不同性质的现象并予以归类---可将所区分的类别按高低,大小,好坏,强弱,优劣等顺序做有序排列。 3定类不能进行数的比较和数学运算--能进行大小比较。 何谓定距尺度和定比尺度?两者区别定距尺度是确定研究对象之间某些数值相差的距离的尺度---最高的数据计量尺度 缺乏绝对零点---有,0 2. 0只表示一个值,即0值---0是绝对零点,表示没有 3.只能加减,不能乘除---加减乘除,高层次的各种统计分析。 P.13—P.14 总体和总体单位 一、总体和总体单位 (一)总体 1、概念总体(也称为统计总体)是指客观存在的、在同一性质基础上结合起来的许多个别单位的整体(同质个体的集团)。 2、特点·客观性·大量性同质性·差异性 1、总体单位除了必须具备同质性外,还必须具备1、差异性(或变异性)性,否则

社会统计学 复习资料

1、参数:是一个变量。我们在研究当前问题的时候,关心某几个变量的变化以及它们之间的相互关系,用自变量和因变量来表示。如果我们引入一个或一些另外的变量来描述自变量与因变量的变化,引入的变量本来并不是当前问题必须研究的变量,我们把这样的变量叫做参变量或参数。 ?2、列联表:又称交互列表,是一种专门用来测量两个变量关系的方法,将研究所得的数据按两个变量进行交叉分类的频次分配表。 ?3、备择假设:又称研究假设,是我们在社会学研究中事先安排的假设。通过抽样调查有充分根据否定原假设,是与原假设相反的假设,用H1表示,是当原假设被推翻时需要接受的假设。备择假设有三种形式,以H0为=Z0为例,当H0被否定,可能被采用的H1为>Z0,?

20xx统计学认识实习报告通用范本

内部编号:AN-QP-HT197 版本/ 修改状态:01 / 00 In Order T o Standardize The Management, Let All Personnel Enhance The Executive Power, Avoid Self- Development And Collective Work Planning Violation, According To The Fixed Mode To Form Daily Report To Hand In, Finally Realize The Effect Of Timely Update Progress, Quickly Grasp The Required Situation. 编辑:__________________ 审核:__________________ 单位:__________________ 20xx统计学认识实习报告通用范本

20xx统计学认识实习报告通用范本 使用指引:本报告文件可用于为规范管理,让所有人员增强自身的执行力,避免自身发展与集体的工作规划相违背,按固定模式形成日常报告进行上交最终实现及时更新进度,快速掌握所需了解情况的效果。资料下载后可以进行自定义修改,可按照所需进行删减和使用。 本人系福州大学统计学专业的一名学生,于xx年6月27日——7月8日到福建省统计局科研所认识实习,在两周的时间里,我所做的每一项工作都是以前从来没有做过的,在领导和同事的耐心帮助下,我学习到了很多实用的、有价值的东西,在积累了一些实际工作经验的同时也更深刻的理解到了统计理论知识体系,为今后的学习奠定了坚实基础。 在认识实习期里,我所做的工作内容比较具体、感受和体会也比较多。下面,我仅把实习期里的主要情况做一下汇报。如有不妥之处,欢迎给予批评和指正。

社会统计学习题和答案--相关与回归分析报告

第十二章 相关与回归分析 第一节 变量之间的相关关系 相关程度与方向·因果关系与对称关系 第二节 定类变量的相关 双变量交互分类(列联表)·削减误差比例(PRE )·λ系数与τ系数 第三节 定序变量的相关分析 同序对、异序对和同分对·Gamma 系数·肯德尔等级相关系数(τa 系数、τb 与τc 系数)·萨默斯系数(d 系数)·斯皮尔曼等级相关(ρ相关)·肯德尔和谐系数 第四节 定距变量的相关分析 相关表和相关图·积差系数的导出和计算·积差系数的性质 第五节 回归分析 线性回归·积差系数的PRE 性质·相关指数R 第六节 曲线相关与回归 可线性化的非线性函数·实例分析(二次曲线指数曲线) 一、填空 1.对于表现为因果关系的相关关系来说,自变量一般都是确定性变量,依变量则一般是( 随机性 )变量。 2.变量间的相关程度,可以用不知Y 与X 有关系时预测Y 的全部误差E 1,减去知道Y 与X 有关系时预测Y 的联系误差E 2,再将其化为比例来度量,这就是( 削减误差比例 )。 3.依据数理统计原理,在样本容量较大的情况下,可以作出以下两个假定:(1)实际观察值Y 围绕每个估计值c Y 是服从( );(2)分布中围绕每个可能的c Y 值的( )是相同的。 4.在数量上表现为现象依存关系的两个变量,通常称为自变量和因变量。自变量是作为( 变化根据 )的变量,因变量是随( 自变量 )的变化而发生相应变化的变量。 5.根据资料,分析现象之间是否存在相关关系,其表现形式或类型如何,并对具有相关关系的现象之间数量变化的议案关系进行测定,即建立一个相关的数学表达式,称为( 回归方程 ),并据以进行估计和预测。这种分析方法,通常又称为( 回归分析 )。 6.积差系数r 是( 协方差 )与X 和Y 的标准差的乘积之比。 二、单项选择 1.当x 按一定数额增加时,y 也近似地按一定数额随之增加,那么可以说x 与y 之间 存在( A )关系。 A 直线正相关 B 直线负相关 C 曲线正相关 D 曲线负相关

周飞舟《社会统计学》课程大纲

《社会统计学》课程大纲 讲授教师:周飞舟Email: sociologist@https://www.doczj.com/doc/d68690551.html, 助教:廖勤樱Email:liaoqinying@https://www.doczj.com/doc/d68690551.html, 课程介绍 统计是社会科学研究中广泛采用的定量分析方法。本课程系统地介绍了社会统计学的基本原理、基本概念和主要内容,按照变量的四个测量层次(定类、定序、定距和定比),课程详细阐述了统计描述和统计推论的操作程序和具体方法,并结合生动的实例说明了统计分析在社会研究中的作用和地位。作为一门初中级社会统计学课程,本课程内容限定在单变量和双变量统计范围之内。 教学大纲 指导思想: 社会现象的独特性和社会研究方法的特点决定了统计在社会研究中的重要地位,统计也因此而成为社会研究的重要工具和重要手段。近十几年来,统计理论、统计方法和统计手段迅速发展,其应用范围也越来越广泛。本课程的目的就是为深入这一领域建立一个基础和平台,即对统计的基本概念、原理、类型、方法、程序、作用等有基本的和概括了解与把握,并能应用这些知识对研究问题进行简单的统计分析。本课程的教与学强调:第一,社会研究是一项系统的和严谨的工作,从研究设计→资料收集→资料整理分析→撰写研究报告,各个步骤之间相互联系、相互影响,密不可分。统计分析作为研究的一个重要环节,只有放在社会研究过程的背景之下,注重其与研究问题及研究方法的联系,才能更准确地掌握每一种统计类型和统计方法的特征,才能针对具体的研究问题选择恰当的统计方法。 第二,作为一门应用性极强的课程,本课程特别强调理论联系实际的原则,在教与学的过程中,一方面教师要通过列举和分析大量研究和应用实例,深化学生对统计原理的和统计思想的理解;另一方面要求学生将学习到的知识不断运用到对实际社会问题的分析中去。为此,要求学生在学习课程讲授的知识的同时,认真完成每一讲后面所指定的“实践性”的练习。 第三,在实际的社会研究中,资料的统计分析都是通过计算机完成的。各种统计描述和统计分析方法被制作成用于计算机的专门的和通用的统计软件,如SPSS、SAS、STATE等。本课程将熟练掌握和灵活运用上述统计软件作为本课程教与学的不可分割的一部分,课程所指定的各种“实践性”练习(包括作业)要求尽量在计算机上完成。 第四,课程中介绍的各种具体的统计方法和统计技术,都有其优点和某些局限性,适用于一定的研究目的和分析要求。因此,在课程学习过程中,不仅需要对每一种方法和技术的特点、实施程序和适用范围有清楚的了解,而且也需要认识各种方法与技术之间的异同点,以便能够在面对不同的社会现象和不同的研究目的时,正确、灵活地选择和运用相应的方法与技术。 第五,统计分析是一种定量分析方法,对于统计结果的理解和解释需要联系其它调查资料,如研究对象所处社会的背景状况、所研究问题的特定意义、调查对象的特点等等来进行。对统计结果的解释和使用应当遵循实事求是的原则,杜绝弄虚作假,这是每一个从事社会研究的人员均应该严格遵循的规范。 目的要求: 通过本课程的学习,掌握统计的基本概念、原理、类型、方法、程序、作用以及应用等。能

2014年秋社会统计学期末复习训练题

2014年秋社会统计学期末复习训练题 一、单项选择题 1.某地区政府想了解全市332.1万户家庭年均收入水平,从中抽取3000户家庭进行调查,以推断所有家庭的年均收入水平。这项研究的总体是() A.332.1万户家庭B.3000户家庭 C.332.1户家庭的年均收入D.3000户家庭的年均收入 2.在频数分布表中,将各个有序类别或组的百分比逐级累加起来称为()A.频率B.累积频数C.累积频率D.比率 3.离散系数的主要目的是() A.反映一组数据的平均水平B.比较多组数据的平均水平 C.反映一组数据的离散程度D.比较多组数据的离散程度 4.经验法则表明,当一组数据正态分布时,在平均数加减2个标准差的范围之内大约有( ) A.50%的数据B.68%的数据C.95%的数据D.99%的数据 5.在某市随机抽取10家企业,7月份利润额(单位:万元)分别为72.0、63.1、20.0、23.0、54.7、 54.3、23.9、25.0、26.9、29.0,那么这10家企业7月份利润额均值为() A.39.19B.28.90C.19.54D.27.95 6.用样本统计量的值直接作为总体参数的估计值,这种方法称为() A.点估计B.区间估计C.有效估计D.无偏估计 7.在频数分布表中,比率是指() A.各组频数与上一组频数之比B.各组频数与下一组频数之比 C.各组频数与总频数之比D.不同小组的频数之比 8.下面哪一项不是方差分析中的假定() A.每个总体都服从正态分布B.观察值是相互独立的 C.各总体的方差相等D.各总体的方差等于0 9.判断下列哪一个不可能是相关系数() A.-0.9B.0C.0.5D.1.2 10.用于说明回归方程中拟合优度的统计量主要是() A.相关系数B.离散系数C.回归系数D.判定系数 11.在假设检验中,不拒绝虚无假设意味着() A.虚无假设是肯定正确的B.虚无假设肯定是错误的 C.没有证据证明虚无假设是正确的D.没有证据证明虚无假设是错误的

统计学期末考试试题(含答案)

西安交大统计学考试试卷 一、单项选择题(每小题2分,共20分) 1.在企业统计中,下列统计标志中属于数量标志的是(C) A、文化程度 B、职业 C、月工资 D、行业 2.下列属于相对数的综合指标有(B ) A、国民收入 B、人均国民收入 C、国内生产净值 D、设备台数 3.有三个企业的年利润额分别是5000万元、8000万元和3900万元,则这句话中有(B)个变量? A、0个 B、两个 C、1个 D、3个 4.下列变量中属于连续型变量的是(A ) A、身高 B、产品件数 C、企业人数 D、产品品种 5.下列各项中,属于时点指标的有(A ) A、库存额 B、总收入 C、平均收入 D、人均收入 6.典型调查是(B )确定调查单位的 A、随机 B、主观 C、随意D盲目 7.总体标准差未知时总体均值的假设检验要用到(A ): A、Z统计量 B、t统计量 C、统计量 D、X统计量 8. 把样本总体中全部单位数的集合称为(A ) A、样本 B、小总体 C、样本容量 D、总体容量 9.概率的取值范围是p(D ) A、大于1 B、大于-1 C、小于1 D、在0与1之间 10. 算术平均数的离差之和等于(A ) A、零 B、1 C、-1 D、2 二、多项选择题(每小题2分,共10分。每题全部答对才给分,否则不计分) 1.数据的计量尺度包括(ABCD ): A、定类尺度 B、定序尺度 C、定距尺度 D、定比尺度 E、测量尺度 2.下列属于连续型变量的有(BE ): A、工人人数 B、商品销售额 C、商品库存额 D、商品库存量 E、总产值 3.测量变量离中趋势的指标有(ABE ) A、极差 B、平均差 C、几何平均数 D、众数 E、标准差 4.在工业企业的设备调查中(BDE ) A、工业企业是调查对象 B、工业企业的所有设备是调查对象 C、每台设备是 填报单位D、每台设备是调查单位E、每个工业企业是填报单位 5.下列平均数中,容易受数列中极端值影响的平均数有(ABC ) A、算术平均数 B、调和平均数 C、几何平均数 D、中位数 E、众数 三、判断题(在正确答案后写“对”,在错误答案后写“错”。每小题1分,共10分) 1、“性别”是品质标志。(对) 2、方差是离差平方和与相应的自由度之比。(错) 3、标准差系数是标准差与均值之比。(对) 4、算术平均数的离差平方和是一个最大值。(错)

《统计学》-第五章-时间数列

第五章 时间数列 (一)填空题 1、增长量可分为逐期增长量、累积增长量。两者的关系是累积增长量是相应的逐期增长量之和。 2、时间数列按其排列的指标不同可分为总量指标时间数列(绝对数时序)、相对指标时间数列(相对数时序)、平均指标时间数列(平均数时序)三种,其中总量指标时间数列是基本数列。 3、根据时间数列中不同时间的发展水平所求的平均数叫平均发展水平,又称序时平均数。 4、计算平均发展速度的方法有水平法和累计法。且两种方法计算的结果一般是不相同的。必须按照动态数列的性质和研究目的来决定采用哪种方法。如果动态分析中侧重于考察最末一年达到的水平,采用水平法为好;如果动态分析中侧重于考察各年发展水平的总和,宜采用累计法。 5、进行长期性趋势测定的方法有时距扩大法、移动平均法、趋势线配合法、曲线趋势的测定与分析等。 (二)单项选择题(在每小题备选答案中,选出一个正确答案) 1、某企业2000年利润为2000万元,2003年利润增加到2480万元,则2480万元是( A ) A. 发展水平 B. 逐期增长量 C. 累积增长量 D. 平均增长量 2、对时间数列进行动态分析的基础是( A ) A 、发展水平 B 、发展速度 C 、平均发展水平 D 、增长速度 3、已知某企业连续三年的环比增长速度分别为6%,7%,8%,则该企业这三年的平均增长速度为 ( D ) A. B. 4、序时平均数又称作( B ) A 、平均发展速度 B 、平均发展水平 C 、平均增长速度 D 、静态平均数 5 、假定某产品产量2002年比1998年增加50%, 那么1998-2002年的平均发展速度为( D ) 6、现有5年各个季度的资料,用四项移动平均对其进行修匀,则修匀后的时间数列项数为( B ) A 、12项 B 、16项 C 、17项 D 、18项 7、累积增长量与其相应的各个逐期增长量的关系是( A ) A. 累积增长量等于其相应的各个逐期增长量之和 B. 累积增长量等于其相应的各个逐期增长量之积 C. 累积增长率与其相应增长量之差 D. 两者不存在任何关系 8、最基本的时间数列是( A ) A 、绝对数时间数列 B 、相对数时间数列 C 、平均数时间数列 D 、时点数列 %8%7%6??%8%7%6++

社会统计学复习题有答案

社会统计学复习题有答 案 集团标准化工作小组 #Q8QGGQT-GX8G08Q8-GNQGJ8-MHHGN#

社会统计学课程期末复习题 一、填空题(计算结果一般保留两位小数) 1、第五次人口普查南京市和上海市的人口总数之比为 比较 相对指标;某企业男女职工人数之比为 比例 相对指标;某产品的废品率为 结构 相对指标;某地区福利机构网点密度为 强度 相对指标。 2、各变量值与其算术平均数离差之和为 零 ;各变量值与其算术平均数离差的平方和为 最小值 。 3、在回归分析中,各实际观测值y 与估计值y ?的离差平方和称为 剩余 变差。 4、平均增长速度= 平均发展速度 —1(或100%)。 5、 正J 形 反J 形 曲线的特征是变量值分布的次数随变量值的增大而逐步增多; 曲线的特征是变量值分布的次数随变量值的增大而逐步减少。 6、调查宝钢、鞍钢等几家主要钢铁企业来了解我国钢铁生产的基本情况,这种调查方式属于 重点 调查。 7、要了解某市大学多媒体教学设备情况,则总体是 该市大学中的全部多媒体教学设备 ;总体单位是 该市大学中的每一套多媒体教学设备; 。 8、若某厂计划规定A 产品单位成本较上年降低6%,实际降低了7%,则A 产品单位成本计划超额完成程度为 100%7% A 100% 1.06%100%6% -=- =-产品单位成本计划超额完成程度 ;若某厂计划规定B 产品产量较上年增长5%,实际增长了10%,则B 产品产量计划超额完成程度为 100%10% 100% 4.76%100%5% += -=+B 产品产量计划超额完成程度 。

9、按照标志表现划分,学生的民族、性别、籍贯属于品质标志;学生的体重、年龄、成绩属于数量标志。 10、从内容上看,统计表由主词和宾词两个部分组成;从格式上看,统计表由 总标题、横行标题、纵栏标题和指标数值(或统计数值); 四个部分组成。 11、从变量间的变化方向来看,企业广告费支出与销售额的相关关系,单位产品成本与单位产品原材料消耗量的相关关系属于正相关;而市场价格与消费者需求数量的相关关系,单位产品成本与产品产量的相关关系属于负相关。 12、按指标所反映的数量性质不同划分,国民生产总值属于数量指标;单位成本属于质量指标。 13、如果相关系数r=0,则表明两个变量之间不存在线性相关关系。 二、判断题 1、在季节变动分析中,若季节比率大于100%,说明现象处在淡季;若季节比率小于100%,说明现象处在旺季。(×;答案提示:在季节变动分析中,若季节比率大于100%,说明现象处在旺季;若季节比率小于100%,说明现象处在淡季。 ) 2、工业产值属于离散变量;设备数量属于连续变量。(×;答案提示:工业产值属于连续变量;设备数量属于离散变量) 3、中位数与众数不容易受到原始数据中极值的影响。(√;) 4、有意识地选择十个具有代表性的城市调查居民消费情况,这种调查方式属于典型调查。(√)

(完整word版)统计学学习总结

统计学学习总结 统计学学习感想 通过半个多学期的学习,我对统计学这门课程有了一定的了解,对学习这门课程也有了一定的感想。 首先,我谈谈我对这门课程的理解。 一)对统计学新的认识 在学习统计学之前,谈起统计我脑袋中就浮现出计数,一大堆枯燥的数字,还有一长串的数学计算式。在我眼中,统计学是一门非常枯燥非常单调的学科,它不像数学那样强调严密的推理和逻辑,而是仅仅需要搜集原始资料,套用数学公式而已,我甚至不是很喜欢这门课程。 但是经过半个学期的学习,我对统计学有了全新的认识。统计学是研究总体在一定天脚下的数量特征及其规律性的方法论学科。我开始意识到统计学在学术研究中,在公司决策中,在国家制定方针政策时??在社会生活的各个方面都发挥着重要作用,我开始了解到统计学是一个理论联系实际的学科,非常具有实践性,统计的原始资料全部来源于实际生活。统计学也是一种成熟的学科,它有它独立而完备的理论体系,它是相当科学的,它是以数学作为它的基本工具,但它有比数学更有实际用途,它可以对生活中大量的无序的数据进行分析,找出它们的规律,从而为研究、决策提供基本的依据,它是其他学科的一切理论的基础和来源。

二)统计学和经济学的关系 统计学并不是一门浅显的学科,人们从事统计工作已经有几千年的历史了,但是统计作为一门学科而存在仅有300多年的历史。统计学这个名称起始于国家管理,起始于社会经济的数量考察。于是统计学就和经济学就有了密不可分的联系。 经济学来源于统计学。我们知道经济现象是现实世界的一个重要组成部分,和自然界的现象有很大的不同。自然界的现象基本上都按其本身的机制机理形成和发展的,容易通过实验解剖等方法来被人们掌握。但是人类社会的经济现象就大不一样,它们是由人的活动而形成的,复杂多样,变化多端,没有任何实验的方法可以来准确的研究。因此我们就只有借助于统计学,通过统计分析社会经济的各种数据,我们就可以发现社会的经济问题,为经济学的研究提供了素材。这就是所谓的理论源于实践。 同时,统计学也是检验经济学的理论是否符合客观事物的发展规律的重要工具。实践是检验真理的唯一标准。运用各种经济理论所制定的方针政策、计划方案的是否正确,是否符合实际,能否达到预期的目的,只有依靠实践来检验,然而对实践要取得了解,又只能依靠统计。统计是沟通经济学与实际的一个重要桥梁。没有统计学,就没有经济学今天的发展。

社会统计学习题和答案--相关与回归分析

第十二章 相关与回归分析 第一节 变量之间的相关关系 相关程度与方向·因果关系与对称关系 第二节 定类变量的相关 双变量交互分类(列联表)·削减误差比例(PRE)·λ系数与τ系数 第三节 定序变量的相关分析 同序对、异序对与同分对·Gamma 系数·肯德尔等级相关系数(τa 系数、τb 与τc 系数)·萨默斯系数(d 系数)·斯皮尔曼等级相关(ρ相关)·肯德尔与谐系数 第四节 定距变量的相关分析 相关表与相关图·积差系数的导出与计算·积差系数的性质 第五节 回归分析 线性回归·积差系数的PRE 性质·相关指数R 第六节 曲线相关与回归 可线性化的非线性函数·实例分析(二次曲线指数曲线) 一、填空 1.对于表现为因果关系的相关关系来说,自变量一般都就是确定性变量,依变量则一般就是( 随机性 )变量。 2.变量间的相关程度,可以用不知Y 与X 有关系时预测Y 的全部误差E 1,减去知道Y 与X 有关系时预测Y 的联系误差E 2,再将其化为比例来度量,这就就是( 削减误差比例 )。 3.依据数理统计原理,在样本容量较大的情况下,可以作出以下两个假定:(1)实际观察值Y 围绕每个估计值c Y 就是服从( );(2)分布中围绕每个可能的c Y 值的( )就是相同的。 4.在数量上表现为现象依存关系的两个变量,通常称为自变量与因变量。自变量就是作为( 变化根据 )的变量,因变量就是随( 自变量 )的变化而发生相应变化的变量。 5.根据资料,分析现象之间就是否存在相关关系,其表现形式或类型如何,并对具有相关关系的现象之间数量变化的议案关系进行测定,即建立一个相关的数学表达式,称为( 回归方程 ),并据以进行估计与预测。这种分析方法,通常又称为( 回归分析 )。 6.积差系数r 就是( 协方差 )与X 与Y 的标准差的乘积之比。 二、单项选择 1.当x 按一定数额增加时,y 也近似地按一定数额随之增加,那么可以说x 与y 之间 存在( A )关系。 A 直线正相关 B 直线负相关 C 曲线正相关 D 曲线负相关 2.评价直线相关关系的密切程度,当r 在0、5~0、8之间时,表示( C )。 A 无相关 B 低度相关 C 中等相关 D 高度相关 3.相关分析与回归分析相辅相成,又各有特点,下面正确的描述有( D )。 A 在相关分析中,相关的两变量都不就是随机的;

2018年春社会统计学期末复习训练题(4)报告.doc

2018年春社会统计学期末复习题 一、单项选择题 1.以下关于因变量与自变量的表述不正确的是() A.自变量是引起其他变量变化的变量 B.因变量是由于其他变量的变化而导致自身发生变化的变量 C.自变量的变化是以因变量的变化为前提 D.因变量的变化是以自变量的变化为前提 2.在频数分布表中,将各个有序类别或组的百分比逐级累加起来称为() A.频率 B.累积频数 C.累积频率 D.比率 3.离散系数的主要目的是() A.反映一组数据的平均水平 B.比较多组数据的平均水平 C.反映一组数据的离散程度 D.比较多组数据的离散程度 4.经验法则表明,当一组数据正态分布时,在平均数加减2个标准差的范围之内大约有() A.50%的数据 B.68%的数据 C.95%的数据

D.99%的数据 5.在某市随机抽取10家企业,7月份利润额(单位:万元)分别为 72.0、63.1、20.0、23.0、54.7、54.3、23.9、25.0、26.9、29.0,那么这10家企业7月份利润额均值为() A.39.19 B.28.90 C.19.54 D.27.95 6.用样本统计量的值直接作为总体参数的估计值,这种方法称为() A.点估计 B.区间估计 C.有效估计 D.无偏估计 7.在频数分布表中,比率是指() A.各组频数与上一组频数之比 B.各组频数与下一组频数之比 C.各组频数与总频数之比 D.不同小组的频数之比 8.下面哪一项不是方差分析中的假定() A.每个总体都服从正态分布 B.观察值是相互独立的 C.各总体的方差相等 D.各总体的方差等于0

9.判断下列哪一个不可能是相关系数() A.-0.9 B.0 C.0.5 D.1.2 10.用于说明回归方程中拟合优度的统计量主要是() A.相关系数 B.离散系数 C.回归系数 D.判定系数 11.在假设检验中,不拒绝虚无假设意味着() A.虚无假设是肯定正确的 B.虚无假设肯定是错误的 C.没有证据证明虚无假设是正确的 D.没有证据证明虚无假设是错误的 12.下列变量属于数值型变量的是() A.工资收入 B.产品等级 C.学生对考试改革的态度 D.企业的类型 13.如果用一个图形描述比较两个或多个样本或总体的结构性问题时,适合选用哪种图形()

统计学暑期实践报告4000字(优质版)

统计学暑期实践报告4000字(优 质版) Statistics summer practice report 4000 words ( 实习报告 ) 汇报人:_________________________ 职务:_________________________ 日期:_________________________ 适用于工作总结/工作汇报/年终总结/全文可改

统计学暑期实践报告4000字(优质版) 统计学暑期实践报告4000字 实习是统计学专业教学计划的重要组成部分,是对学生进行实际统计工作能力初步训练的基本形式,是培养学生职业技能与能力的重要环节,是全面检验和提高我校教育教学质量的必要措施。 一、实习目的 实习是使学生巩固和运用所学的基础知识和基本技能,建立统计意识和思想,运用收集数据的方法,并能够根据数据的特点选用恰当的统计方法进行分析和推断,获得相关经验,进一步理解统计的特点与规律,培养与提高学生独立从事统计工作的能力,并使学生接受深刻的专业思想教育。 到邯郸市统计局的第一天我就学到了不少。那天统计局的领导为我们精心安排了一天的实习培训。初步介绍了统计工作的有关情况,包括向我们传达了关于建立统计报表关系和开展统计报表网上

直报工作的通知。几个部门的领导还分别向我们具体讲解了工业企业、服务业批发和零售业、住宿和餐饮业等如何进行调查询问和填表的情况,告诉我们如何简单快捷的区分三个产业以及大中小企业。 为了让我们增强统计工作的法律意识,领导们还特别向我们介绍了统计法。所谓统计法,是指调整国家统计机关行使统计职能而产生的统计关系的法律规范的总称。统计关系,是指国家机关、社会团体和公民在有关搜集、整理、分析、提供、颁布和管理统计资料的统计活动中所产生的社会经济关系。统计的基本任务是对国民经济和社会发展情况进行统计调查、统计分析,提供统计资料,实行统计监督。统计法是国家统计机关行使职能的法律依据,也是国家进行社会经济监督的有力工具。 为了有效地、科学地组织统计工作,保障统计资料的准确性和及时性,发挥统计在了解国情国力、指导国民经济和社会发展中的重要作用,促进社会主义现代化建设事业的顺利发展,1983年11月8日第六届全国人民代表大会常务委员会第三次会议通过了《中华人民共和国统计法》,自1984年1月1日起施行。1987年2月15日,

(完整版)社会统计学复习题(有答案),DOC

o o 海量资源,欢迎共阅 社会统计学课程期末复习题 一、填空题(计算结果一般保留两位小数) 1、第五次人口普查南京市和上海市的人口总数之比为比较相对指标;某企业男女职工人数之比为比例相对指标;某产品的废品率为结构相对指标;某地区福利机构网点密度为强度相 对指标。2最小 值。345、正J 6于 重点7;总 8计划超额完成程度为;若某 100%7% A 100% 1.06%100%6% -=- =-产品单位成本计划超额完成程度厂计划规定B 产品产量较上年增长5%,实际增长了10%,则B 产品产量计划超额完成程 度为。 100%10% 100% 4.76%100%5% += -=+B 产品产量计划超额完成程度9、按照标志表现划分,学生的民族、性别、籍贯属于品质标志;学生的体重、年龄、成绩属于数量标志。

海量资源,欢迎共阅 10、从内容上看,统计表由主词和宾词两个部分组成;从格式上看,统计表由 总标题、横行标题、纵栏标题和指标数值(或统计数值); 四个部分组成。 11、从变量间的变化方向来看,企业广告费支出与销售额的相关关系,单位产品成本与单位产品原材料消耗量的相关关系属于正相关;而市场价格与消费者需求数量的相关关系,单位 13 1 100%, ) 2 3 4、有意识地选择十个具有代表性的城市调查居民消费情况,这种调查方式属于典型调查。(√) 5、统计调查按调查范围划分可以分为全面调查和非全面调查。(√) 6、用移动平均法修匀时间数列时,如果移动项数为偶数项,只要进行一次移动平均;如果移动项数为奇数项,则要进行二次移动平均。(×;答案提示:用移动平均法修匀时间数列 时,如果移动项数为奇数项,只要进行一次移动平均;如果移动项数为偶数项,则要进行二

最新国家开放大学电大本科《社会统计学》期末标准题库及答案(试卷号:1318)

最新国家开放大学电大本科《社会统计学》期末标准题库及答案(试卷号:1318) 考试说明:本人汇总了历年来该科所有的试题及答案,形成了一个完整的标准考试题库,对考生的复习和考试起着非常重要的作用,会给您节省大量的时间。内容包含:单项选择题、名词解释题、简答题、计算题。做考题时,利用本文档中的查找工具(Ctrl+F),把考题中的关键字输到查找工具的查找内容框内,就可迅速查找到该题答案。本文库还有其他网核、机考及教学考一体化试题答案,敬请查看。 一、单项选择题 1.某班级有100名学生,为了了解学生消费水平,将所有学生按照学习成绩排序后,在前十名学生 中随机抽出成绩为第3名的学生,后面以10为间隔依次选出第13、23、33、43、53、63、73、83、93九 名同学进行调查。这种调查方法属于( )。 A.简单随机抽样 B.整群抽样 C.分层抽样 D.系统抽样 2.以下关于因变量与自变量的表述不正确的是( )。 A.自变量是引起其他变量变化的变量 B.因变量是由于其他变量的变化而导致自身发生变化的变量 C.自变量的变化是以因变量的变化为前提 D.因变量的变化不以自变量的变化为前提 3.某地区2001- 2010年人口总量(单位:万人)分别为98,102,103,106,108,109,110,111, 114,115,下列哪种图形最适合描述这些数据?( ) A.茎叶图 B.环形图 C.饼图 D.线图 4.以下关于条形图的表述,不正确的是( )。 A.条形图中条形的宽度是固定的 B.条形图中条形的长度(或高度)表示各类别频数的多少 C.条形图的矩形通常是紧密排列的 D.条形图通常是适用于所有类型数据 5.某校期末考试,全校语文平均成绩为80分,标准差为3分,数学平均成绩为87分,标准差为5 分。某学生语文得了83分,数学得了97分,从相对名次的角度看,该生( )的成绩考得更好。 A.数学

相关主题
文本预览
相关文档 最新文档