统计学第三章单变量描述统计
- 格式:ppt
- 大小:855.50 KB
- 文档页数:5
统计学-单变量描述性统计复习⼀遍统计学基础,准备spss的考试。
拿到⼀组陌⽣的数据,就像遇见⼀个陌⽣⼈,我们遇到⼀个陌⽣⼈,第⼀件事往往就是打量打量ta,处理数据也是如此。
描述性统计就是在打量⼀组数据,对数据有个⼤概对了解。
⼀般来说,对数据做三个处理:集中趋势central tendency,离散趋势dispersion tendency,分布形态distribution tendency。
虽然简单,但是最为基础,是我们后续数据分析的前提,通过对数据的描述性统计,我们才能选择合适的统计⽅法,以防误⽤。
单变量统计分析在⼀些书上⼜被叫做⼀元统计,只⾯对⼀个变量,⽅法⽐较死板固定单⼀。
part one:central tendency⼀种位置的统计量,把⼀个变量的不同观测(observation)集中到⼀个值上来表⽰。
1.mean(x-bar),算数均值(the average)⼀个东西。
——注意,使⽤时,数据要呈现正态分布,即使不满⾜,也应该要单峰&基本对称分布。
有极端值时不要选择⽤算数均值2.median,位置的中间数的值。
先找位置,再找值。
位置:(n+1)/2,奇数位置对应值,偶数?.5左右两个数字的mean。
——任意分布形态均可使⽤3.mode,众数4.其他:4.1截尾均数trimmed mean,⼜叫修正均数。
去除Max、Min5%。
好处是去掉了极端值的影响——有极端值时可以选⽤。
缺点是,10%的数据本⾝是真实信息,去掉了使得信息减少。
4.2⼏何均数 G(geometric mean)医学统计学中多使⽤,当data分布不对称,但是转换后呈现对称分布可以使⽤。
4.3调和均数mean和median相⽐,应该说mean的使⽤更⼴,使⽤的信息更全,在抽样调查中,mean的值随样本的变化⽽变化的幅度⼩,更为稳定,应该说是⼀个更好的统计量,但是⼀旦有极端值的存在,mean将会受到很⼤影响,因此此时应该使⽤median。
3.1、什么是统计整理?统计整理的程序有哪些?统计整理是根据统计研究任务的要求,对统计调查阶段所取得的各项原始资料进行分类、汇总,使之系统化、条理化、科学化,得出能反映现象总体特征的综合资料的各种过程。
统计资料整理既是统计调查阶段的继续和深入,又是统计分析阶段的基础和前提,在统计工作中起着承前启后的作用。
(1)根据研究目的设计整理汇总方案。
(2)对统计调查资料进行审核、订正。
(3)进行统计分组和汇总。
(4)将汇总整理的资料编制成统计表(5)统计资料的积累、保管和公布。
3.2 统计资料审核哪些内容?统计调查资料的审查检查资料的完整性和及时性应以统计制度和调查方案为准,核实所有被调查单位的资料是否齐全,是否按规定的份数、项目和时间上报。
检查资料的准确性主要是核实调查材料的口径、计算方法、包括的范围、计量单位等是否符合要求。
检查的方法有逻辑检查和计算检查。
逻辑检查是从合理性方面去检查资料的正确性。
计算检查是通过计算,检查在计算方法、计量单位、计算结果、小计、合计、总计间的各项是否正确等等3.3、什么是统计分组?它有什么作用?统计分组根据统计研究的目的和客观现象的内在特点,按某个标志或几个标志把被研究的总体划分为若干个不同性质的组的一种统计方法。
统计分组的对象是总体。
统计分组标志可以是品质标志,也以是数量标志。
(1)划分社会经济现象的类型统计的研究对象是错综复杂的,具有各种不同的类型。
通过统计分组,可以从数量方面说明不同类型现象的数量特征,表明不同类型现象的本质和发展规律。
(2)反映现象的内部结构及其比例关系将所研究现象按某一标志进行分组,计算出各组在总体中的比重,用以说明总体内部的构成。
同时将总体各组之间进行对比,就可以反映各组之间的比例关系。
(3)分析现象之间的依存关系现象不是孤立的,而是相互依存和相互联系的.利用统计分组分析现象之间的依存关系,首先用影响标志对总体进行分组,然后计算出结果标志的数值,从而分析两个标志的联系程度和方向。
高等职业教育“十一五”规划教材《统计学》第三章课后习题及答案高等职业教育“十一五”规划教材《统计学》第三章课后习题及答案一.判断题1.对于连续变量,根据“排除上限”的原则总结其组限。
对。
所谓“上组限不在内”的原则,是对连续变量分组采用重合组限时,习惯上规定一般只包括本组下限变量值的单位,而当个体的变量值恰为组的上限是时,不包括在本组。
2.统计资料的整理不仅是对原始资料的整理,而且还包括对次级资料的整理。
对。
3.确定组限时,最大组上限必须大于最大变量值,最小组下限必须小于最小变量值。
错,这意味着你也可以在封闭的小组中尝试。
4.对统计总体进行分组是由于总体各单位的“同质性”所决定的。
错,将原始数据按照某种标准化分成不同的组别。
5.对连续变量进行分组时,它们的分组极限可以用“不重叠”的形式表示。
对二.单项选择题a组的中值是550组的下限,B组的中值是550组的下限a.550b.650c.700d.750因为它是一个连续变量,所以变量的值是连续的。
由于最后一组的起始下限大于相邻组的中值,请注意这是一个递减变量序列。
一个组的最小值叫做下限。
所以这里的下限实际上是相邻群的上限。
因此,最后一组的下限=相邻组的上限,因此相邻组的上限也为600。
另一个相邻组的组中值为550,因此可以确定相邻组的组距离为100。
重新使用公式:无上限开放组的中值=下限+相邻组的组距离/2,最后一组的中值为650。
2.对一个总体选择三个标志做复合分组,按各个标志所分的组数分别为3、4、5,则所分的全部组数为(a)a、 60b。
12c。
30天。
六3.某小区居民人均月收入最高为5500元,最低为2500元,据此分为6组,形成等距数列,其组距应为(a)a、 500b。
600摄氏度。
550d。
6504.整理统计数据的主要环节是(c)a.编制统计报表b.审核汇总资料c.审核原始资料d.设计整理方案5.对于一年的收入变量序列,分组为10万元以下、10万-20万元、20万-30万元和30万元以上,则为(c)a、10万元应归入第一组b、20万元应归入第二组c、20万元应归入第三组d、30万元应归入第三组6.组号与组距的关系为(a)a.组数越多,组距越小b.级数越多,组距越大c.组数与组距无关d.组数越少,组距越小三.简答题1.简要说明统计排序的意义和内容统计整理,首先要搞清楚教材当中关于统计整理的内容,通常理解的统计整理包括制作次数分布、或者给出排秩、等级的结果,有些还可能包括对数据的类型的判别、编码和对原始数据的必要转换等.有些人认为描述统计也可以视为统计整理的内容,或者是汇总统计的内容.根据统计整理的内容再来回答其意义.主要是可以在正式的描述统计和推断统计之前,预先了解和掌握数据的大致状况,尤其是其分布和次数特征,以便根据数据的类型选择适当的统计方法(不论是描述统计还是推断统计,很重要的一点是依据数据的类型来选择统计法).有些时候,需要对数据进行必要的转换,也是为了便于后继的统计,如由量表原始数据转换成量表得分,原始数据转换成标准分数,或者转换成可统计的某种指标等.简而言之,数据整理就是服务于后续的统计过程,使原始测量数据满足统计方法的需要,为统计方法的选择提供依据。