社会统计学第二章单变量

格式：ppt
大小：1.90 MB
文档页数：72

下载文档原格式

社会统计学2

第二章单变量的统计描计
第一节分布、统计表和统计图
• 一、变量及其测量划分 • 变量是所研究问题的特征或性质，也称作指标。在自然科学中，
变量是可以通过仪器进行测量的。在社会学研究中，变量往往通过向被访者问问题来进行测量。落实在变量的设计上，就需要根据调查研究的问题的不同，设计出不同层次的变量，具体划分为定类变量、定序变量、定距变量、定比变量。
• １、定类变量
• 定类变量是最低的变量层次，它的取值只有类别属性之分，而无大小程度之别，如民族、婚姻、职业等变量。
• ２、定序变量
• 定序变量的取值除了有类别属性之外，还有等级次序的差别，其层次高于定类变量，常见的定序变量，如受教育程度、满意度、幸福感、社会经济地位等。在使用量表测量时，往往是基于定序变量。
如贫困问题，需要对低收入段分得细一些。研究老龄化问题，则需要对老年群体分得细一些。这些都会带来非等距分组。
• ３、组限
• 组限是指每组的范围，即每组的上限和下限。对于离散型变量一般采取相邻组限不重叠的原则，而对于连续型变量，可能出现相邻组限重叠的情况，这时采取的原则就是“上组限不在内”原则。对于开口组求组中值，是依据相邻组的组距加减其一半求得。
• 箱体图反映数据的集中程度，也反映出均值的代表性程度。
• 图2-8显示，流动人口中，女性的平均年龄略低于男性，女性的年龄更加集中。
第二节集中趋势测量法
• 集中趋势测量法是找出一个数值来代表该变量数据集结情况的方法。该方法的优劣在于，由于是根据一个代表值来估计或预测每个研究对象的数值，因此运用该方法要舍去变量的某些信息，但由于该数据是最有代表性的数值，以该数值做代表所产生的误差最小。
• １、点线图
• 线代表变量，线上标明的是变量的取值，线上方的每一个点代表一个观测值。点线图的优点是直接，能够看到哪些地方观测值密集，哪些地方观测值稀少，不丢失任何信息。

社会经济统计学各章重点知识

《社会经济统计学》各种重点知识第二章1、总体是根据一定的目的要求所需研究事物的全体，它由客观存在的具有某种共同性质的许多个别事物所组成。

2、总体单位是指组成总体的基本单位，它是所要统计的各种数量特征的承担者。

3、确定总体和总体单位，必须注意：构成总体的单位必须是同质的；构成总体的单位必须是大量的、足够多的；总体与总体单位具有相对性；随着研究目的的不同，总体和总体单位可以相互转化。

4、标志是指用来说明总体单位数量特征或属性特征的概念或名称。

5、标志分为品质标志与数量标志，品质标志表示事物质的特征，一般用文字说明；数量标志表示事物量的特征，一般用数值说明6、指标是用来反映总体数量特征的概念，应该包括他的概念和数值。

7、指标按其所反映总体的内容不同分为数量指标和质量指标。

数量指标是指反映社会经济现象总体规模或工作总量的统计指标；质量指标是指反映社会经济现象的相对水平或工作质量的统计指标。

8、指标按其功能和作用分为描述指标、评价指标和预警指标。

描述指标是指用于反映社会经济现实状况和社会生产、生活过程及其结果的统计指标；评价指标是指用于对社会经济活动的结果进行比较、评估、考核，以检查其经济效益和工作质量的统计指标；预警指标主要用于对宏观经济运行状况进行监控，并依据其指标值的变化，预报国民经济即将出现不平衡状态和突发事件，以及某些结构性障碍。

9、统计指标体系是指由一系列相互联系的统计指标所构成的指标群体，用以说明所研究的社会经济现象总体各方面相互依存和相互制约的关系。

10、变异是标志或指标具体表现的差异。

11、变量是指可变的数量标志和指标。

变量的数值表现就是变量值，亦即可变的数量标志或指标的不同取值。

12、定类尺度是指分组标志是对一些客观事物的名称进行排列。

它的特点是只能对数据进行平行的分组或分类，具有互斥性，不能对各组的编号进行加减乘除等数学运算。

13、定序尺度指把各类事物按一定特征的强弱、高低等顺序排列起来。

统计学第二章

按性别分组男生女生合计
人数 30 20 50
百分比 % 60 40 100

三、按数量标志分组
按照数量或数值等定量指标分组，称为按数量标志分组。
（1）单变量分组：一个变量值为一组，适合离散变量，且变量值较少。步骤是先排序再分组。（2）组距分组：
将全部变量值划分为若干区间，并将这一区间的变量值作为一组，适用于连续变量或变量值较多的情况。需要遵循“不重不漏”的原则，可采用等距分组，也可采用不等距分组。
2.1 统计数据的整理
2.1.0 2.1.1 2.1.2 2.1.3 2.1.4 数据的预处理统计数据的分组次数分配次数分配直方图洛伦茨曲线
2.1.0 数据的预处理
一、数据的审核对原始数据，审核完整性和准确性。前者指调查单位是否遗漏、项目是否齐全等；后者指数据是否真实、是否错误等。方法是逻辑检查和计算检查。对二手数据审核完整性和准确性外，着重审核数据的适用性和时效性。前者应清楚数据的来源、口径和背景，后者应注意数据的时间，使用最新的数据。
当f-1=f+1时如图（a），当f-1>f+1时如图（b），当f-1<f+1时如图（c）。
（a）
（b）
（c）
②公式计算：
上限公式
f f 1 M0 U ( f f 1) ( f f f f 1 M0 L ( f f 1) ( f f
1
2.1.2 次数分配
对于例2-1采用组距分组，计算组数K=1+1g30/ 1g2=5（组），组距 =（128-84）/ 5=8.8，组距取10件，整理成频数分布表2-3。

第二章单变量的统计描述分析(3)社会统计学

24 108 93 45 30 300
21
根据分组资料求四分位差
步骤：第一步：计算累加次数(Cf↑)
第二步：求出Q1和Q3位置 Q1位置=N+1/4 Q3位置=3(N+1)/4 其中N是全部个案数目第三步：参考累加次数分布，决定 Q1和Q3的位置应属于哪一组第四步：从所属的组中，计算Q1 位置和Q3位置的数值

低
Q1
Q2
Q3
高
(一) 未分组数据
首先应求出Q1与Q3的位置，公式
是： Q1位置=
N 1 4
;
Q3位置=3(N+1)/4

其中N是全部个案数目
如调查甲、乙两个生产队家庭的人数
甲队有11户人家，每户人数如下：

2 2 3 4 6 9 10 10 11 13 15 N 1 11 1 Md位置= 6 ∴ Md=9 2 2 N 1 11 1 3 ∴ Q =3 Q1位置= 1 4 4
3 50 30 Q75 125 4 5 128.75(个) 10
四分位差
50 8 Q25 115 4 5 117.81(个) 8
Q＝Q75-Q25
＝128.75-117.81=10.94
30
线箱图的绘制（举例）
Max(Xi) =107
Q25= 117.81
506 S 10.06 5
总体标准差：计算过程及结果
【例3.14】根据第二章表2-5中的数据，计算工人日加工零件数的标准差
表3-5 按零件数分组 105~110 110~115 115~120 120~125 125~130 130~135 135~140 合计

单变量的统计描述分析社会统计学

特点概率密度函数关于均值对称。
偏态分布的概念与特点
概念：偏态分布是指概率密度函数不对称于均值的情况。
特点
01
分布曲线可能有一个或多个
峰值。
02
03
分布曲线可能偏向均值的一侧或两侧。
04
05
分布的离散程度可能大于正态分布。
正态性与偏态性的判断与检验
判断方法
可以通过观察数据的直方图或Q-Q 图来判断数据的分布形态。正态分布的直方图应该呈现钟形，而偏态分布的直方图则可能呈现其他形状。
如果四分位距较大，说明数据分布较为分散，存在较大的异常值；如果四分位距较小，说明数据分布较为集中，异常值的影响较小。
06 正态分布与偏态分布
正态分布的概念与特点
概念：正态分布是一种连续概率分布，其概率密度函数以均值为中心，呈钟形对称。
曲线下的面积为1，代表所有可能结果的概率总和。
分布曲线是单峰的，即只有一个峰值。
直方图是一种用直条矩形面积代表各组频数，各矩形面积总和代表频数的累积，以扇形面积代表各组出现的频率的统计图。
直方图可以直观地展示数据的分布情况，帮助我们了解数据的离散程度和集中趋势。
在制作直方图时，需要选择合适的分组方法和组距，并根据数据的特征和需求进行合理的调整。
饼图与环形图
• 饼图是一种圆形图表，用于表示各部分在总体中所占的比例。
03
中位数主要用于描述偏态分布的数据，对于异常值不敏感。
众数
01
众数是数据中出现次数最多的数值。
02
对于未分组的数据，众数是一组数据中出现次数最多的数值；
对于分组数据，众数是某一组别的频数最高。
众数主要用于描述分类数据的集中趋势，不适用于连续型数据。

社会统计学(卢淑华),第二章

计量资料频数表的编制
计量资Байду номын сангаас频数表的编制
一般情况下,样本含量小于30的统计资料无须编制频数表,但对于大样本含量的资料,
编制频数表有利于进一步的统计分析、且频
数表本身也具有统计描述的作用.
编制频数表的步骤
编制频数表的步骤
第一组段包括极小值，最后一组段包括极大值，除最后一组段可同时标出上下限，
续例
计量资料频数分布表
118 例 13 岁女孩身高（cm）资料频数表。身高组段（1） 129～ 132～ 135～ 138～ 141～ 144～ 147～ 150～ 153～ 156～ 159～162 合计频数（2） 2 2 8 20 26 25 20 9 3 2 1 118 组中值 (3) 130.5 133.5 136.5 139.5 142.5 145.5 148.5 151.5 154.5 157.5 160.5 —
*
144.9 145.5 139.3 146.2 145.2 155.2 148.7 148.7 137.5 146.7 152.3 149.5
152.2 149.5 144.8 146.8 146.8 138.9 139.5 153.2 143.5 139.2 141.8 147.5
145.0 141.1 147.5 142.3 148.9 140.9 140.6 146.5 150.0 142.6 150.8 140.3
%
20.0 27.6 52.4 100.0
干部工人农民总数
二、统计表

统计表的制作要注意的问题： 1、标题、内容简明 2、统计栏数多时，要加编号 3、数字填写要求：位数对准，同栏数字、小数位要一致，相同数字不可以写“同上”，无数字栏用 “—”，缺资料“…” 4、表中数字用同一单位时，标在右上角 5、表的左右两端不封闭判断练习：分别制作定类、定序、定距变量统计表注意：统计表的分组科学性问题

统计学原理第二章新_统计调查与整理

以上处理方法那些正确？
• 第六次全国人口普查的标准时间是2010年11月1日零时，普查现场登记工作从11月1日开始到11月10日前结束。调查员到过的几家遇到情况并作出处理： • （1）11月2日到1号家，这家11月1日中午生个小孩，调查员把关于诞生小孩的材料填入调查表； × • （2）11月3日到2号家，这家11月2日一成员死亡，调查员把关于死亡者的材料填入调查表； √ • （3）11月4日到3号家，11月2日新婚夫妇到户籍登记处登记自己的婚姻，统计员登记调查表中的”婚姻状况”为“已婚”； ×
对全部单位进行调查
可以为抽样调查提供抽样框作用
可以收集统计报表所不能提供的反映重大国情国力的基本统计信息
由于需要大量的人力、物力和财力，不宜经常进行建立专门机构，配备专门人员调查利用基层单位原始记录和核算资料发表调查规定统一的标准时点规定统一的普查期限规定调查的项目和指标
局限方式
非全面调查全面调查经常性调查不连续调查重点抽样典型抽样任意抽样配额抽样
统计调查的种类按调查单位的范围大小分为按调查时间是否连续分为按调查的组织方式不同分为
专门调查
统计报表普查随机抽样调查非随机抽样
指国家为详尽了解某项重要的国情一、普查国力而专门组织的一次性全面调查
总体单位调查单位
④容易引起火灾 ⑤破坏家庭团结 ⑤破坏家庭团结 ⑥其他。
问卷设计的基本要求：
主题明确提问科学逻辑性强
问题的提出要紧扣主题问句和标准答案要易于理解和回答先易后难、先封闭后开放、先基本问题后派生问题
容量适度以不超过20分钟为宜
四、调查时间和调查期限。
调查时间是指调查资料所属的时间。在统计调查中，如果所调查的是时期现象，就要明确规定调查资料所反映的起止日期。调查2012年第一季度的钢铁产量，调查时间是从1 月1日起至3月31日止3个月

社会统计学,卢淑华(第4版),第2章.pptx

家庭结构核心家庭
直系家庭联合家庭
频次 1050
720 110
百分比（%） 49.30
33.80 5.16
其他
总数
250
2130
11.74
100.00
多选项二分法
a 样本1 样本2 样本3 样本4 样本5 √ × √ √ √ b √ × × √ √ c √ √ × × × d × √ √ × × e √ √ √ √ √
Me=“乙”
（三）组距式分组
• ①首先确定中位数组；②使用公式 • 下限公式： f S m 1 Me L 2 i fm
• 上限公式：
Me U
f
2
S m1 fm
i
公式中各字母含义
• • • • U：中位数组的上限； L：中位数组的下限； fm：中位数组的频数； Sm-1：向上累计时中位数组前一组的累计频数，即中位数前一组所对应的向上累计频数； • Sm+1：向下累计时中位数组后一组的累计频数即中位数后一组所对应的向下累计频数； • i：中位数组的组距。
（二）定距数据
1、未分组资料（spss版本）
Q1位置=(n+1)/4； Q2位置=(n+1)/2； Q3位置=3(n+1)/4 表2.10 Q1位置=(n+1)/4=25.25； Q2位置=(n+1)/2=50.5； Q3位置=3(n+1)/4=75.75
Q1=x(25)+0.25× [x(26)-x(25)]=1.37+0.25 ×[1.37-1.37]=1.37 Q2=x(50)+0.5× [x(51)-x(50)]=1.4+0. 5 ×[1.41-1.4]=1.405 Q3=x(75)+0.75× [x(76)-x(75)]=1.44+0.75 ×[1.44-1.44]=1.44

社会统计学课件

300.0
400.0
500.0
600.0
700.0
800.0
月总支出(元)
3、多边形图
将直方图中各矩形顶端的中点用直线连接起来而成的图形。
4、常用曲线：洛仑兹曲线和基尼系数
将一国总人口按收入由低到高排列,考虑收入最低任意百分比人口所得到的收入百分比,这样得到的人口累计百分比(横轴)和收入累计百分比(纵轴)的对应关系图形即洛仑兹曲线。
洛仑兹曲线中,不平等面积与完全不平等面积之比。基尼系数是衡量一个国家贫富差距的标准。
G=A/(A+B)，0≤G≤1 G：基尼系数，A：不平等面积,A+B：完全不平等面积
二、集中趋势测量法
（一）定类变量：众值
变量取值中出现次数最多的值。
（二）定序变量：中位数
将全部调查个案的变量取值按等级顺序排列后，位于中央位置的值。
Statistics
父亲文化程度
N
Valid
219
Missing
0
Median
2.00
Mode
2
1、根据原始资料求中位数
Md 位置＝(n+1)/2 其中，若 n 为偶数，则将位于中央的两个数值的平均值作为中位数。 2、根据分组资料求中位数
(n − cf ↑)
Md = L + 2
(U Percent Valid Percent
16.0
16.0
36.1
36.1
21.9
21.9
15.5
15.5
10.0
10.0
.5
.5
100.0
100.0
Cumulative Percent 16.0 52.1 74.0 89.5 99.5 100.0

社会统计学知识点总结

第一章数据与统计学数据分析所使用的方法大体上可分为描述统计和推论统计（推断统计），描述统计主要是利用图表形式对数据进行展示，或通过计算一些简单的统计量（诸如:比例、比率、平均数、标准差等）对数据进行分析。

推断统计主要研究如何根据样本信息来推断总体的特征，内容包括参数估计和假设检验两大类。

变量：是描述观察对象某种特征的概念，其特点是从一次观察到下一次观察可能会出现不同的结果（具有一个以上取值的概念）1、下列哪一个选项不是变量?( )A. 民族B. 智商C. 衣服的尺寸D. 女性答案：C2、下列变量属于数值型变量的是( )A. 工资收入B. 产品等级C. 学生对考试改革的态度D. 企业的类型答案：A解析：3、社会统计学的数据分析方法主要包括统计描述和( )A. 统计描述B. 统计推导C. 统计推论D. 统计分析答案：C4、能计算均值和标准差的必须是哪种变量( )A. 自变量B. 因变量C. 数值型变量D. 字符串型变量答案：C5、在SPSS中最多可以设置几个独立的缺失值?( )A. 3B. 4C. 5D. 8答案：A6、描述统计可以最恰当地表述为( )A.数据作概括性的表达B.对总体所作的结论C.测量操作的应用D.原始数据到标准分的转变答案：A解析：描述统计主要是利用图表形式对数据进行展示，或通过计算一些简单的统计量（诸如:比例、比率、平均数、标准差等）对数据进行分析。

第二章数据的描述性分析：图表展示1、欲以图形显示两变量X和Y的关系,最好创建( )。

A. 直方图B. 圆形图C. 柱形图D. 散点图答案：D第三章数据的描述性分析：概括性度量1、下列统计指标中,对极端值的变化最不敏感的是( )。

A. 众值B. 中位值C. 四分位差D. 均值答案：A2、经验法则表明,当一组数据正态分布时,在平均数加减1个标准差的范围之内大约有 ( )A. 50%的数据B. 68%的数据C. 95%的数据D. 99%的数据答案：B解析：根据标准得分可以判断一组数据中是否存在离群点。

知识点归纳总结

社会统计学整理第二章：单变量统计描述分析各种图：定类：圆瓣图、条形图定序：条形图定距：直方图、折线图组界：真实组界=标明组界0.5 条形图：定类变量：长条排列次序任意，条形离散。

定序变量：长条按序排列，条形是离散或紧挨。

直方图：由紧挨着的长条组成，面积表示频次或相对频次，高度是频次密度。

众值：用具有频数最多的变量值来表示集中值。

连续型变量用中心值来表示众值。

定类预测犯错最少。

异众比率：是非众值在总数N中所占的比例（:众值的频次）质异指数：理论上最多可能差异中实际出现了多少差异（k:类比数f:每类次数）中位值：定序预测犯错最少。

（也可以求25%和75%，改为和）n:中位值组的频次cf:含中位值区间的真实下界累积（向上）平次N：调查总数极差：极差=观察的最大值-观察的最小值四分互差：结论：50%位于*间均值：定距变量预测犯错最少。

标准差：第三章：概率互不相容：两者不能同时出现。

互为对立：不同时出现且两者相加为整体。

如果事件A与B互为对立，则必然满足互不相容，但逆定理不存在。

P(A);P(B)，互不相容一定不满足互相独立，反之亦然。

互为对立与相互独立不能同时满足。

全概公式：逆概公式：方差：SKEWNESS（偏态）=＞0：正偏态=0：对称＜0：负偏态（峰在右边）KURTOSIS（峰态）=＞0：正峰态=0：正态分布＜0：负峰态（峰矮）第四章：二项分布及其他离散型随机变量的分布排列组合：第五章：正态分布、常用统计分布和极限定理大数定理：在什么条件下，随机事件可以转化为不可能事件或必然事件。

中心极限定理：在什么条件下，随机变量之和的分布可以近似为正态分布。

切贝谢夫不等式：贝努利大数定理：m是n次实验中事件A出现的次数，p是A每次出现的概率切贝谢夫大数定理：μ：数学期望：总体均值中心极限定理：只要n足够大，正态分布：众值=均值=中位值1S-68.26%；2S-95.46%；3S-99.37%；0.05-1.65；0.025-1.96；0.01-2.33；0.005-2.58；0.001-3.09；0.0005-3.30第六章：参数估计点估计：均值—样本均值成数—样本成数方差—样本方差S2是σ2的无偏估计，但S不是σ的无偏估计。

社会统计学3

3. 均值计算：3. 均值算：四、众值、中位值、平均值的性质众值性质： 1.分组资料中，众值受上下相邻两组频数大小影响，而不受极端值的影响。 2.受抽样变动影响较大。 3.在反映集中趋势指标中，众值不唯一。 4.在频数分布中，众值标示其“峰值”所对应的位置，优点—易区分偏态、单峰、多峰
中位值性质： 1.中位值不受极端值影响。 2.分组资料有开放组时，仍可求中位值。 3.中位值受抽样变动的影响比均值略大。
均值性质： 1.各变量值与平均值的离差和为0。 2.各变量值与平均值离差的平方和小于它们对任何其它数偏差的平方和。 3.平均值受抽样变动影响微小，是反映总体分布集中趋势的最佳指标。 4.平均值受极端值影响较大。 5.分组数据有开放组时，不经处理，不能计算平均值。
五、几何平均数
1. 几何平均数 N个变量值连乘积的N次方根，用Mg 2. 用途：用以计算某种比率的平均数用以计算大致具有几何级数关系的一组数字的平均数 3. 公式： N
Mg = X1X2X3…XN
六、调和平均数
1. 调和平均数 N个变量值倒数算术平均数的倒数，用Mh 2. 公式： 1
Mh = 1 X1 1 X2 1 X3 N … 1 XN
用此公式计算上例： Md=L+（N/2-cf ）(U-L)/n =25+（212/2-94）(35-25)/30 =29 中位值具有估计或预测的意义。如上例机械化率研究，假定从212个乡中任取一个乡，我们应估计其机械化率是29%，长远来说，以中位值去估计定序变量的数值，所犯的错误总数是最小的。
3.中位值的计算原始资料分组资料
（1）原始资料方法：Ⅰ 将各个案由小到大排序，居于序列中央位置的个案的值就是中位值 Ⅱ 求出Md 位置： Md 位置＝（n+1）/2 Ⅲ 求出Md

社会统计学复习资料

《社会统计学》复习资料一、概念辨析（3×8＇） 1．参数估计与假设检验参数估计是通过样本对总体的未知参数进行估计，假设检验指通过样本对总体的某种假设进行检验。

参数估计是先看样本的情况，再看总体的情况。

假设检验是先假设总体的情况，再以一个随机样本的统计值来检验这个假设是否正确。

换言之，要先构思总体情况，才进行抽样和分析样本的资料。

2．点估计与区间估计点估计指根据样本资料以一个最适当的样本统计值来代表总体的参数值，简单明确，但不能说明估计结果的抽样误差和把握程度；区间估计指以两个数值之间的间距来估计参数值。

点估计是区间估计的基础。

3．置信度和置信度水平置信度又称置信概率或置信系数，表示用置信区间估计的可靠性，即置信区间包含参数Q 的概率。

置信度水平表示用置信区间估计不可靠的概率。

置信度与置信度水平之和为1。

4．虚无假设与研究假设虚无假设0H 又称原假设、零假设。

是一种无差别假设，是一种已有的，具有稳定性的经验看法，没有充分根据，是不会被轻易否定的。

研究假设1H 又称备择假设，是研究者所需证实的假设。

否定0H 后可以认为1H 是对的。

5．甲种误差与乙种误差甲种误差又称第一类错误，是指0H 为真，但小概率事件发生了，拒绝了0H ，即把真的当成假的，它是在拒绝原假设时出现的错误。

犯甲种误差的概率是显著性水平α。

乙种误差即纳伪的错误，又称第二类错误，是指0H 为假，但小概率事件没有发生，接受即把假的当成真的，它是在接受原假设时出现的错误。

犯乙种误差的概率为β，β的值随着真值μ与原假设中0μ的偏离程度而变化，0μμμ-=∆越小，β的数值就越大。

α大β就小，α小β就大。

6．独立样本和配对样本独立样本指从二个总体中，分别独立地各抽取一个随机样本进行比较和研究。

配对样本指它只有一个样本，但样本中每个个体要先后观测两次，这样所有个体先观测的值看作是来自第一个总体的样本值，所有个体后观测的值，看作是来自另一个个体的样本值，以此来比较两总体之间的不同。

第2章统计学的基本范畴

6
标志表现的分类
标志表现有品质标志表现和数量标志表现之分。

品质标志表现——只能用文字来表现。数量标志表现——可以用数值来表示，也称为标志值。
7
*四种计量尺度
数据的计量尺度
定类尺度
定序尺度
定距尺度
定比尺度
标志：有品质标志和数量标志之分。品质标志：表示事物质的特征。是不能用数值表示的。品质标志又叫属性水准。属性水准可分为定类尺度和定序尺度。定类尺度（Nominal Scale）：它是一种最粗略、精确水平最低的计量尺度，它是按照事物的某种属性对其进行平行的分类或分组。定序尺度（Ordinal Scale）：这种尺度比定类尺度的精确性要高一些，表现为各类或各组之间有一定的顺序，是可以比较大小的。
12
3、定距尺度(概念要点) Interval Scale
（1）对事物的准确测度
（2）比定序尺度精确
（3）数据表现为“数值”
（4）没有绝对零点
（5）具有 + 或 - 的数学特性
具有分类、排顺、计算差距、相等单位、人为
零点等功能和特征。如气温、体温、智商、年
次等都是等距尺度。
4、定比尺度（概念要点) Ratio Scale
24
2、统计指标按其数值形式不同，分为总量指标、相对指标和平均指标。
25
总量指标的分类
1、按反映总体的内容不同，分为总体单位总量和总体标志总量。前者指总体单位数之和，后者指总体各单位某种标志值之和。 2、按指标所反映的时间计量特点不同，分为时期（流量）指标和时点（存量）指标。前者反映的是事物在一定时期内发展变化的累计结果，后者反映的是事物在某一时点上的状况总量。 3、按指标的计量单位不同，分为实物指标与价值指标。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

f P n

2.比率：把计算比例时所用的基数变大，最常用的就是百分率（%）。
二定序层次
1.累加次数与累加百分率将各级次数或百分率逐级相加起来，可分为向上累加与向下累加。
向上累计频数分布（cf↑）是先列出各级别，然后由标志值低的组向标志值高的组依次累计频数，代表某级水平水平或以下的总数。向下累计频数分布（cf↓）是先列出各级别，然后由标志值高的组向标志值低的组依次累计频数，代表某及水平或以上的总数。
f
10 65
Cf↑
10 75
Cf↓
550 540
126 158 141 40 550
211 369 510 550
475 339 181 40
总数
19
从分布来看，众数是具有明显集中趋势点的数值，一组数据分布的最高峰点所对应的数值及为众数。
20
二中位值（Me）
1.把一组数据按顺序排列，处于中间位置的那个数值就是中位值。
X xf X＝ n n 1720 2120 120
＝18.9岁
36
（二）分组资料求均值：
根据组中值求均值
先求出组中值组中值=（上限+下限）/2 计算组中值的和计算分组数据的均值
fx X n
组中值
m
159 9.4 17
37
众值、中位数和均值的比较
39
对随机抽样调查来说，平均数比中位数更稳定，它随样本的变化比较小；
平均数比中位数更容易进行算术运算。
但两种情况不宜用均值：
(1)分组数据的极端组没有组限。 (2)个别数值非常特殊。
如100，200，400，500，600，均值为360，中位数为400 100，200，400，500，1000，均值为440，中位数为400 100,200，400，500,3000 均值为840，中位数为400
X 200 X＝ 20岁 N 10

34
（1）加权平均数
某个变项值重复出现多次，可以先统计每个值（x）的次数（f），再求次数与相应变量值的乘积（fx），利用各乘积之和求出均值。（f也称为权数,f/n称为权重）公式：
fx X n
35
未分组数据加权平均数
解：根据公式得
【例6】调查某年120名学生的年龄，结果如下表，求平均年龄。年龄人数 17 20 18 25 19 35 20 20 21 20 N 120
1 ＝ 5＋1 ＝3 解：Md的位置＝ N＋ 2 2
中位值Md=4
排序2，3，4，6，8
23
（2）个案数为偶数
【例2】：乙地的6户人家的人数为：2，4，3，6，8， 5求中位值。解：Md的位置＝
N＋ 1 2
6 ＋ 1 ＝＝3.5 2
Md =
45 =4.5 2
排序2，3，4，
5, 6，8
24
（3）频数分布表
170 181 185 168 174 187 167 174 169 165 167 172 174 173 155 179 164 158 165 162
157 175 182 168 176 161 171 163 176 159
171 178 172 169 158 163 166 168 160 178 170 164 160 170 166 178 171 167 162 169 165 171 165 168 176 174 163 177 164 170 161 179 177 162 149 169 166 153 177 164
老中青人数分布图 25
人数（个）
20 15 系列1 10 5 0 老年中年年龄类别青年
三.直方图(Histograms)
直方图是用矩形的面积来表示数列各组的频数或频率。矩形的宽度表示各组组距，矩形的长度标示次数或百分率。
四.曲线图
当变量数列中的组数愈加增多，变量值也非常多时，折线图会逐步过渡到平滑曲线。频数分布曲线图实质上是对应于连续变量的频数分布的函数关系图。
50 - 30 299 .5 100 349 .5 40
31
三均值
1、均值的定义：总体各单位取值之和除以总体单位数目。 2、仅适用于定距变量，不适用于定类和定序；
32
（一）未分组数据
（1）简单原始资料求均值
x X n
33
解：根据平均数的计算公式有：
【例】某班10名学生年龄分别为20、21、19、19、 20、20、21、22、18、 20岁，求他们的平均年龄。
收入 (元 ) 职工数 Cf 100－200 10 10 200－300 20 30 300－400 40 70 400－500 30 100 合计 N 100
N －cf 2 Md＝L＋
解：Md位置＝50；从累积频数cf栏找到中位数位置所在组为“300－400” 引入公式： w f
10.9% 第一季度 9.4%
销售额
第二季度
25.0% 64.1% 第三季度第四季度
用每个圆瓣代表现象的某
一种情况，其大小代表变量取值在总体中所占的百分比。圆瓣图多用于定类变量。
（二）条形图（Bar graphs）条形图用长条的高度表示资料类别的次数或百分数。长条一般为等宽，其宽度没有意义；长条之间通常留有空隙间隔。条形图多用于定序变量。
50 40 30 20 10 0
15 156 6－ 1 16 64 4－ 17 172 2－ 1 18 80 0－ 18 188 8－ 19 6 14 8－
系列1
五.常见曲线：
1.U形曲线：中间小，两头大
3.J形曲线：正J分布，反J分布
2.倒U形曲线：中间
大，两头小
4.逻辑斯蒂曲线：变量值分布的次数随变量值增大而增多或相反，但有上限。
组距 148~156 156~162 162~168 168~174 174~180 合计
f 3 9 25 34 20 91 f 20 34 25 9 3 91
cf↑ 3 12 37 71 91 —— cf↑
cf↓ 91 88 79 54 20 —— cf↓
组距 174-180 168-174 162~168 156-162 148-156 合计
五.常见曲线图
1.峰状曲线：根据曲线的峰顶数目，可以分为单峰、双峰和多峰曲线。 2.对称与不对称曲线：把曲线从中央分割，两边资料分布完全相同则为对称，否则为不对称。
第四章数据分配特征的描述
朱火云 2017-10-13
第一节集中趋势测量法
集中趋势测量，就是以一个数值来代表变量的资料分布，反映的是变量值向中心值聚集的程度，也就是说以这一个数值（或称典型值）来估计或预测每一个研究对象的数值时发生的错误总数在理论上是最小的。
首先将各组的次数累加起来
求中位数的位置： Md位置=n/2 =212/2=106 第106个位置在 25-35之间
28
分组变量看作是一组连续的数值
10 25 12
?
106
35
94
124
30
29
n cf 2 Md L f
w
【例】：根据下表数据求中位值。
数据类型和所适用的集中趋势测量值数据类型测度值定类众值▲ ―― ―― 定序众值中位值▲ ―― 定距众值中位值均值▲
注：▲ 表示该数据类型最适合用的测度值
38
众数、中位数和平均值的比较
众数是一组数据中出现次数最多的数值。但在社会调查中众数的代表性较小；计算平均数时用到数据中所有的数值，而求中位数时只用到数值的相对位置，平均数比中位数利用了更多的有关数据的信息；平均数容易受到极端值的影响，而中位数则不会受这种影响。当样本中数据值的分布是高度倾斜的，中位数一般比平均数更适合一些。
40
练习题1：城镇自杀率的分组次数分布
自杀率 3-5 6-8 9-11 次数 12 35 81 真实组限组中值向下累积次数
12-14
15-17 18-20
52
30 7
21-23 24-26
合计
9 3
229
41
练习题2：求中位数

求54，65，78，66，43这些数字的中位数。
求34，45，26，70，43，38 这些数字的中位数。
第二章
简化一个变量的分布
1
第一节统计分布
一.定类层次之次数分布分布指变量的各种情况出现的频次，又称频次分布。其作用在于表明各种情况的相对重要程度。最基本的用于简化资料的方法。例如：
家庭类别（变量）直系家庭核心家庭联合家庭频次（个） 5 20 0
1.比例：将每类的次数（f）除以总数（n），用以比较不同的样本。
【例3】根据下表求中位值。
解：Md位置
＝
成绩甲乙丙丁 N
频累计频次次 cf 85 500 195 415 210 220 10 10 500 500
N＋ 1 2
500＋ 1 ＝ 2
＝250.5
中位值Md＝乙
25
（二）分组数据求中位值
根据统计表中的累积百分比，找出含有 50%的区间找出含有50%区间的上界值U，下界值L，上界累计百分数U%，下界累计百分数L% 以及组距等信息根据线段对应成比例的原理，计算出累计百分比为50%的变量值
100
44
第四节离散趋势测量法
离散趋势测量（Measures of dispersion）就是用一个值表示数据之间的差异情况。离散趋势测量法和集中趋势测量法具有互补作用。在进行统计分析时，既要测量变量的集中趋势，也要测量离散趋势。

社会统计学第二章单变量

合集下载

社会统计学2

社会经济统计学各章重点知识

统计学第二章

第二章单变量的统计描述分析(3)社会统计学

单变量的统计描述分析社会统计学

社会统计学(卢淑华),第二章

统计学原理第二章新_统计调查与整理

社会统计学,卢淑华(第4版),第2章.pptx

社会统计学课件

社会统计学知识点总结

知识点归纳总结

社会统计学3

社会统计学复习资料

第2章统计学的基本范畴

文档推荐

最新文档

社会统计学 第二章 单变量

合集下载

社会统计学2

社会经济统计学各章重点知识

统计学第二章

第二章单变量的统计描述分析(3)社会统计学

单变量的统计描述分析社会统计学

社会统计学(卢淑华),第二章

统计学原理第二章新_统计调查与整理

社会统计学,卢淑华(第4版),第2章.pptx

社会统计学课件

社会统计学知识点总结

知识点归纳总结

社会统计学3

社会统计学复习资料

第2章 统计学的基本范畴

文档推荐

最新文档

社会统计学第二章单变量

第2章统计学的基本范畴