统计学第三章单变量描述统计
- 格式:ppt
- 大小:855.50 KB
- 文档页数:5
统计学-单变量描述性统计复习⼀遍统计学基础,准备spss的考试。
拿到⼀组陌⽣的数据,就像遇见⼀个陌⽣⼈,我们遇到⼀个陌⽣⼈,第⼀件事往往就是打量打量ta,处理数据也是如此。
描述性统计就是在打量⼀组数据,对数据有个⼤概对了解。
⼀般来说,对数据做三个处理:集中趋势central tendency,离散趋势dispersion tendency,分布形态distribution tendency。
虽然简单,但是最为基础,是我们后续数据分析的前提,通过对数据的描述性统计,我们才能选择合适的统计⽅法,以防误⽤。
单变量统计分析在⼀些书上⼜被叫做⼀元统计,只⾯对⼀个变量,⽅法⽐较死板固定单⼀。
part one:central tendency⼀种位置的统计量,把⼀个变量的不同观测(observation)集中到⼀个值上来表⽰。
1.mean(x-bar),算数均值(the average)⼀个东西。
——注意,使⽤时,数据要呈现正态分布,即使不满⾜,也应该要单峰&基本对称分布。
有极端值时不要选择⽤算数均值2.median,位置的中间数的值。
先找位置,再找值。
位置:(n+1)/2,奇数位置对应值,偶数?.5左右两个数字的mean。
——任意分布形态均可使⽤3.mode,众数4.其他:4.1截尾均数trimmed mean,⼜叫修正均数。
去除Max、Min5%。
好处是去掉了极端值的影响——有极端值时可以选⽤。
缺点是,10%的数据本⾝是真实信息,去掉了使得信息减少。
4.2⼏何均数 G(geometric mean)医学统计学中多使⽤,当data分布不对称,但是转换后呈现对称分布可以使⽤。
4.3调和均数mean和median相⽐,应该说mean的使⽤更⼴,使⽤的信息更全,在抽样调查中,mean的值随样本的变化⽽变化的幅度⼩,更为稳定,应该说是⼀个更好的统计量,但是⼀旦有极端值的存在,mean将会受到很⼤影响,因此此时应该使⽤median。
3.1、什么是统计整理?统计整理的程序有哪些?统计整理是根据统计研究任务的要求,对统计调查阶段所取得的各项原始资料进行分类、汇总,使之系统化、条理化、科学化,得出能反映现象总体特征的综合资料的各种过程。
统计资料整理既是统计调查阶段的继续和深入,又是统计分析阶段的基础和前提,在统计工作中起着承前启后的作用。
(1)根据研究目的设计整理汇总方案。
(2)对统计调查资料进行审核、订正。
(3)进行统计分组和汇总。
(4)将汇总整理的资料编制成统计表(5)统计资料的积累、保管和公布。
3.2 统计资料审核哪些内容?统计调查资料的审查检查资料的完整性和及时性应以统计制度和调查方案为准,核实所有被调查单位的资料是否齐全,是否按规定的份数、项目和时间上报。
检查资料的准确性主要是核实调查材料的口径、计算方法、包括的范围、计量单位等是否符合要求。
检查的方法有逻辑检查和计算检查。
逻辑检查是从合理性方面去检查资料的正确性。
计算检查是通过计算,检查在计算方法、计量单位、计算结果、小计、合计、总计间的各项是否正确等等3.3、什么是统计分组?它有什么作用?统计分组根据统计研究的目的和客观现象的内在特点,按某个标志或几个标志把被研究的总体划分为若干个不同性质的组的一种统计方法。
统计分组的对象是总体。
统计分组标志可以是品质标志,也以是数量标志。
(1)划分社会经济现象的类型统计的研究对象是错综复杂的,具有各种不同的类型。
通过统计分组,可以从数量方面说明不同类型现象的数量特征,表明不同类型现象的本质和发展规律。
(2)反映现象的内部结构及其比例关系将所研究现象按某一标志进行分组,计算出各组在总体中的比重,用以说明总体内部的构成。
同时将总体各组之间进行对比,就可以反映各组之间的比例关系。
(3)分析现象之间的依存关系现象不是孤立的,而是相互依存和相互联系的.利用统计分组分析现象之间的依存关系,首先用影响标志对总体进行分组,然后计算出结果标志的数值,从而分析两个标志的联系程度和方向。
高等职业教育“十一五”规划教材《统计学》第三章课后习题及答案高等职业教育“十一五”规划教材《统计学》第三章课后习题及答案一.判断题1.对于连续变量,根据“排除上限”的原则总结其组限。
对。
所谓“上组限不在内”的原则,是对连续变量分组采用重合组限时,习惯上规定一般只包括本组下限变量值的单位,而当个体的变量值恰为组的上限是时,不包括在本组。
2.统计资料的整理不仅是对原始资料的整理,而且还包括对次级资料的整理。
对。
3.确定组限时,最大组上限必须大于最大变量值,最小组下限必须小于最小变量值。
错,这意味着你也可以在封闭的小组中尝试。
4.对统计总体进行分组是由于总体各单位的“同质性”所决定的。
错,将原始数据按照某种标准化分成不同的组别。
5.对连续变量进行分组时,它们的分组极限可以用“不重叠”的形式表示。
对二.单项选择题a组的中值是550组的下限,B组的中值是550组的下限a.550b.650c.700d.750因为它是一个连续变量,所以变量的值是连续的。
由于最后一组的起始下限大于相邻组的中值,请注意这是一个递减变量序列。
一个组的最小值叫做下限。
所以这里的下限实际上是相邻群的上限。
因此,最后一组的下限=相邻组的上限,因此相邻组的上限也为600。
另一个相邻组的组中值为550,因此可以确定相邻组的组距离为100。
重新使用公式:无上限开放组的中值=下限+相邻组的组距离/2,最后一组的中值为650。
2.对一个总体选择三个标志做复合分组,按各个标志所分的组数分别为3、4、5,则所分的全部组数为(a)a、 60b。
12c。
30天。
六3.某小区居民人均月收入最高为5500元,最低为2500元,据此分为6组,形成等距数列,其组距应为(a)a、 500b。
600摄氏度。
550d。
6504.整理统计数据的主要环节是(c)a.编制统计报表b.审核汇总资料c.审核原始资料d.设计整理方案5.对于一年的收入变量序列,分组为10万元以下、10万-20万元、20万-30万元和30万元以上,则为(c)a、10万元应归入第一组b、20万元应归入第二组c、20万元应归入第三组d、30万元应归入第三组6.组号与组距的关系为(a)a.组数越多,组距越小b.级数越多,组距越大c.组数与组距无关d.组数越少,组距越小三.简答题1.简要说明统计排序的意义和内容统计整理,首先要搞清楚教材当中关于统计整理的内容,通常理解的统计整理包括制作次数分布、或者给出排秩、等级的结果,有些还可能包括对数据的类型的判别、编码和对原始数据的必要转换等.有些人认为描述统计也可以视为统计整理的内容,或者是汇总统计的内容.根据统计整理的内容再来回答其意义.主要是可以在正式的描述统计和推断统计之前,预先了解和掌握数据的大致状况,尤其是其分布和次数特征,以便根据数据的类型选择适当的统计方法(不论是描述统计还是推断统计,很重要的一点是依据数据的类型来选择统计法).有些时候,需要对数据进行必要的转换,也是为了便于后继的统计,如由量表原始数据转换成量表得分,原始数据转换成标准分数,或者转换成可统计的某种指标等.简而言之,数据整理就是服务于后续的统计过程,使原始测量数据满足统计方法的需要,为统计方法的选择提供依据。
单变量数据的描述和分析简介:在统计学中,单变量数据(univariate data)是指只有一个单独的变量的数据集合。
这种类型的数据通常用于观察、描述和分析一个特定的量或属性。
本文将讨论如何对单变量数据进行合适的描述和分析,以揭示数据集中的模式、趋势和分布。
一、数据描述1. 数据的基本统计量对于单变量数据,我们需要了解一些基本的统计量,以获得对数据的整体概括。
常见的基本统计量包括:(1)均值(mean):描述数据的平均水平,计算方法为将所有数据值相加后除以观测次数。
(2)中位数(median):描述数据的中间位置,即将数据按照大小顺序排列,取中间位置的值。
(3)众数(mode):描述数据中出现频率最高的值或值的集合。
(4)极差(range):描述数据的范围,即最大值与最小值之间的差异。
(5)方差(variance):描述数据的离散程度,计算方法为每个数据值与均值之差的平方的平均值。
(6)标准差(standard deviation):描述数据的离散程度,是方差的平方根。
2. 数据的分布图表除了基本统计量之外,数据的可视化也是揭示数据特征的重要方法。
以下是几种常见的单变量数据的分布图表:(1)频率分布表(frequency table):将数据按照不同的取值范围划分为区间,统计每个区间的频数或频率。
(2)直方图(histogram):将数据按照取值范围划分为一系列不相交的区间,描绘出每个区间的频数或频率的柱状图。
(3)箱线图(box plot):展示数据的分散情况,包括最大值、最小值、中位数、上四分位数和下四分位数等统计信息。
(4)饼图(pie chart):用于表示数据的比例关系,适用于离散型数据。
二、数据分析1. 总体推断通过单变量数据的描述,我们可以对所研究的总体进行推断。
总体推断是建立在样本数据上的,用于推断整个总体的特征和性质。
常见的总体推断方法包括:(1)参数估计:通过样本数据估计总体的参数,如均值、方差等。
到这里,有关单变量的描述统计技术已经全部介绍完了。
简单来说,我们共介绍了三种方法,一是化约、简化,即第三章第一节的内容,次数分布、频率分布、统计图、统计表等。
二是集中趋势测量法,即求出一个数值用以代表变量的资料分布,反映资料的集结情况。
三是离散趋势测量法,即求取一个数值来表示个案与个案之间的差异情况。
集中趋势测量法和离散趋势测量法是相互补充的。
我们再一起回顾一下适用于不同测量层次的集中值和离散值。
它们是这一章需要重点掌握的内容,我们先以表格的形式比较一下三个集中值。
四分位差和标准差。
它们在测量层次、敏感程度、计算难度和解释力上也是与这三个集中值一一对应的。
我们不再一一介绍了。
那么极差仅仅考虑了两个极端值,因而带有很大的偶然性,对于大量的处于极端值之间的数值分布情况,以及在中心点周围的集中情况,都无法提供任何信息,主要适用于定序以上层次的变量。
离散系数是一种相对的离散量数统计量,可以用于对同一总体中两种不同的离散值进行比较,或者对两个不同总体中的同一离散值进行比较,适用于定距以上层次的变量。
第三章简化两个变量的分布第一节统计相关的性质大家知道,在社会学研究中,不仅要求我们对社会现象进行描述,而且要求我们对现象的原因进行分析。
因此,我们不但要了解一个变量的情况,更要进一步了解一个变量与另一个变量之间的关系。
例如,在某地区调查100名青年人的最大志愿,假定其中有40%选择快乐家庭,50%选择理想工作,10%选择增广见闻。
我们要问:为什么这些青年人的最大志愿会有不同?又假定我们发现这些青年人的教育水平可以分为高(高中或以上程度)、中(初中程度)、低(小学或以下程度)三个等级,每级人数分别占10%、60%、30%。
据此,我们就可以追问:青年人的志愿与其教育水平是否有关系呢?换言之,是否因为教育水平不同,所以人生志愿也不同。
一、什么是相关?由此,我们可以引入相关这个概念。
所谓相关,是指一个变量的值与另一个变量的值有连带性。
第三章统计数据的描述(1)一、填空题2、动态相对指标有_______和_______两种基本形式。
3、某现象的某一指标在同一时间不同空间上的指标值对比的结果是_______,在同一空间不同时间上的指标值对比的结果是_______。
4、同质总体中部分数值与总体全部数值对比的结果是_______,各部分数值相互对比的结果是_______。
7、相对指标一般都采用______的形式来表现,有些特殊的相对数,则采用_______的形式来表现。
9、强度相对指标的分子、分母一般可以互换,因而有_______和_______之分。
10、长期计划执行结果的检查方法有两种,一种是_______,另一种是_______。
11、计算和应用计划完成程度相对指标时,当计划任务是按最低限额规定时,则计划完成百分数以_______100%为好,当计划任务是按最高限额规定时,则计划完成百分数以_______100%为好。
12、结构相对数的取值介于_______之间,各组结构相对数的和恒等于_______。
15、比例相对数是一种_______性比例,而比较相对数则是一种_______性比例。
二、单选题3、某厂劳动生产率计划比上年提高8%,实际仅提高4%,则其计划完成百分数为()。
A.4% B.50% C.96.30% D.103.85%4、某厂某产品的单位产品成本计划规定比去年降低5%,实际降低了7%,则其计划完成百分数为():、A.97.9% B.140.0% C.102.2% D.71.4%5、联合国粮农组织依据恩格尔系数的高低,提出的富裕标准是恩格尔系数为()。
A.30%以下B.30%—40%C.40%—50%D.50%—59%7、总体各部分结构相对数的和应()。
A.等于100% B.小于100% C.大于100% D.小于或等于100%10、将相对指标与总量指标结合应用,通常是计算()。
A.平均增长水平B.平均发展速度C.平均增长速度D.增长1%的绝对值11、反映总体各部分之间数量联系程度和比例关系协调平衡状况的综合指标是()。
第三章 变量分布特征的描述二、 单项选择题1、下列情况下次数对平均数不发生影响的是( D )A 、标志值较小而次数较多时B 、标志值较大而次数较少时C 、标志值较小且次数也较少时D 、标志值出现次数全相等时2、在下列两两组合的平均指标中,哪一组的两个平均数完全不受极端数值的影响?( D )A 、算术平均数和调和平均数B 、几何平均数和众数C 、调和平均数和众数D 、众数和中位数3、计算相对数的平均数时,如果掌握了分子资料而没有掌握分母资料,则应采用( C )A 、算术平均数B 、几何平均数C 、调和平均数D 、算术平均和调和平均都可以4、如果所有标志值的频数都减少为原来的1/5,而标志值仍然不变,那么算术平均数( A )A 、不变B 、扩大到5倍C 、减少为原来的1/5D 、不能预测其变化5、某企业有A 、B 两车间,2000年A 车间人均工资720元,B 车间730元,2001年A 车间增加10%工人,B 车间增加8%工人,如果A 、B 两车间2001年人均工资都维持上年水平,则全厂工人平均工资2001比2000( A )A 、提高B 、下降C 、持平D 、不一定 6、计算平均比率最好用( C )A 、算术平均数B 、调和平均数C 、几何平均数D 、中位数 7、对某一钟型数列已知m 0=800,m e =820,则( A ) A 、820>-x B 、800<-x C 、800820<<-x D 、没有一定的关系8、现有一数列:3,9,27,81,243,729,2,187,反映其平均水平最好用(B ) A 、算术平均数 B 、中位数C 、几何平均数D 、众数 9、对某一数列的X i ;计算数值平均数,得则,320=-x (C ) A 、G ≥320而H ≤320 B 、G ≤320而H ≥320 C 、无法判断 D 、G ≥320而H ≥32010、若两数列的标准差相等而平均数不等,则(B ) A 、平均数小代表性大 B 、平均数大代表性大 C 、代表性也相等 D 、无法判断11、某企业年终奖金分配时,有10%的职工人均得10000元,25%的职工人均得9000元,30%的职工人均得8000元,25%的职工人均得7000元,另10%人均得6000元,则计算结果将有( D ) A 、m 0<m e <-x B 、m 0<m e ≠-x C 、m 0>m e >-x D 、-x =m 0=m e12、计算平均指标时最常用的方法和最基本的形式是(D ) A 、中位数 B 、众数 C 、调和平均数 D 、算术平均数13、某班45名学生中,25名男生某门课的平均成绩为78分,20名女生的平均成绩为82分,则全班平均成绩为(C )A 、80B 、79.28C 、79.78D 、80.3814、某商场销售洗衣机,2018年共销售6000台,年底库存50台,这两个指标是( C ) A 、时期指标 B 、时点指标 C 、前者是时期指标,后者是时点指标 D 、前者是时点指标,后者是时期指标15、某小组40名职工,每人工作天数相同。