第二章 次数分布
- 格式:doc
- 大小:346.50 KB
- 文档页数:4
《心理统计学》总复习要点第一章、第二章基本概念及次数分布表第一节基本概念一、基本概念1.连续变量与离散变量(不连续变量)变量分为连续变量与离散变量(不连续变量)。
连续变量则可以在量表上的任何两点加以细分,可以取得无限多个大小不同的数值。
不连续变量又称离散变量或间断变量,则在量表上的任何两点中只能取得有限个数值。
是一种只能取特殊值而不能取任何值的变量,它代表一个点,而不是一段距离。
2.总体、样本、个体总体是指具有某一种特征的一类事物的全体,构成总体的每一个基本元素称为个体,在总体中按一定规则抽取的一部分个体,称为总体的一个样本。
二、测量水平心理测量的工具一般可以分为四种水平,它们是由测量工具——量尺的水平决定的,量尺也称为尺度。
(一)量尺(Ratio Measurement)用这样的量尺测量出的数据,可以进行加、减、乘和除运算。
这种测量水平的数据特征是有相等单位和绝对零点。
用这种量尺测量得到的数据变量为比率(或等比)变量。
(二)等距量尺(Interval Measurement)只有相等单位,没有绝对零点,这种测量工具称为等距量尺。
等距量尺测出的数据可以进行加和减的运算,而不能进行乘和除的运算。
但是,等距数据的差值可以进行乘、除运算,因为等距数据的差值有一个绝对零点,两个数值相等,差值即为零。
用这种量尺测量得到的数据变量为等距变量。
(三)顺序量尺(Ordinal Measurement)顺序量尺又叫等级量尺,它的特点是:既无绝对零点,又无相等单位。
用这种量尺对研究对象进行测量,只能给对象排个顺序。
顺序量尺的测量结果原则上不能进行加、减、乘、除四则运算。
如有必要的话,只能进行不等式运算。
用这种量尺测量得到的数据变量为顺序变量。
(四)分类量尺(Nominal Measurement)分类测量不包含任何类间数量关系的假定,仅仅是把测量对象分为相同或相异,但在性质上没有哪一类较大,哪一类较小之分。
即无大小之分,也无等级之分。
教育统计与测量多项选择题0.1.教育统计学的内容主要包括(AD)。
A.描述统计B.假设检验c.数理统计D.推断统计E.教育测量0.2.教育测量的特点是(BC)。
A.直接性B.间接性C.抽样进行D.实用性E.标准化0.3.描述统计研究的主要问题是(ABC)。
A.如何把统计调查所获得的数据科学地加以整理、概括和表达B.通过列表归类、描绘图像,计算刻画数据分布特征C.把数据的分布特征、隐含信息概括明确地揭示出来,从而使我们更好地理解、对待和使用数据D.利用实际获得的数据,对总体数量特征与关系作出推论判断E.进行统计估计和统计假设检验0.4.测量结果取定数值的量尺,从量化水平高低的角度看,有四种不同类型,它们是(ABDE)。
A.名义量尺B.顺序量尺c.测量量尺D.等距量尺E.比率量尺0.5.测量工作必须遵循的规则是()。
A.测量工具B.逻辑顺序C.施测和评分程序与要求D.结果解释参照系或参照物E.抽样进行0.6.学习教育统计与测量学的意义是(ACD)。
A.教育统计与测量是教育科学管理的重要手段B.教育统计与测量是教育研究的重要工具C.教育统计与测量是教育改革的目的D.锻炼思想方法,掌握专门化的术语和符号,提高科学素养E.进行切合实际的科学研究,推动教育现代化进程0.7.学好教育统计与测量学要做到(BC)。
A.深刻理解统计与测量的原理,“知其然,更要知其所以然”B.掌握好基本概念和原理,弄懂内在逻辑与方法C.坚持理论联系实践,认真做好练习,并力争用新学知识来解决一些实际问题D.积极翻阅教育科学文献,弄懂教育科学前沿问题E.重视掌握计算工具1.1.下列能称为数据的是(ABCDE)。
A.体重48.5千克B.血型AB型C.9月28日D.证件号码97113418;E.性别为0(代表女生)教育统计与测量单项选择题0.1.统计的目的在于(C)。
A.达成对总体的质的认识与把握B.对局部的量进行描述c.达成对总体的量的认识D.在规定的范围内作出局部的认识0.2.教育统计学与数理统计的关系是(A)。
统计第二章次数分布次数分布综述•描述统计的目的:简化和整理数据的表达。
•次数分布表和次数分布图就是表达一组数据是如何在某一度量上分布的。
•次数分布:是指一批数据在某一量度的每一个类目所出现的次数情况•组织此类数据的第一种方法是:建立次数分布表次数分布表•次数分布表的要素–变量的值? -填充x列–每个值出现多少次(发生次数)? -填充f列–观察的总数?将次数行求和, 将得到∑f = N–变量的总值?最简单的方法就是求(X) 和 (f) 的乘积列,然后将结果求和∑(X f )次数分布表例子•例1:对于下面的次数分布表–此分布中共有几个分数(N = ?)–对这些分数求和∑X例2•例2:某个班的26个学生在一次测验中的分数如下(10分为满分):–9,2,3,8,10,9,9,2,1,2,9,8,2,5,2,9,9,3,2,5,7,2,10,1,2,9–将这些分数作成一个次数分布表•比例 (相对次数;Proportions). 全组中有多大比例取值为X? p = f / N (N = 观察的总数)•百分比 (Percentages). 全组中有多大比例取值为X? p * 100分组次数分布表•常常以区间的形式出现, 而不是某一特定值. 例如学生成绩, (A = 90-100, B = 80-89, ...).•编制分组次数分布表的步骤–求全距–定组数–定组距–写出区间上下限–统计每个区间的次数•建构这些区间有一系列的“惯常法则”(rules of thumbs)–分组次数分布表应该有大约10个区间,目的是使这组数据易于直观感受和理解–组距应该是个比较简单的数字,如2,5,10,20–每个区间开始的分数应该是组距的倍数–所有区间的宽度应该相等次数分布图•次数分布的数据可以用图简明地概括•直方图 (histogram):用一些垂直条画在每个分数之上–垂直条的高度代表次数–垂直条的宽度代表分数的精确区间.–只有数据是等距或等比量度时,才能用直方图•注意:对于一个连续变量, 每个分数实际对应一段组距. 分割这些组距的界限叫做精确界限(real limits).分割两个邻近分数的精确界限位于两个分数的中间。
心理统计学第一章概述描述统计定义:研究如何把心理与教育科学实验或调查得来的大量数据科学的科学的加以整理概括和表述作用:使杂乱无章的数字更好的显示出事物的某些特征,有助于说明问题的实质。
具体内容:1数据分组:采用图与表的形式。
2计算数据的特征值:集中量数(平均数中数)离散量数(方差)3计算量事物间的相关关系:积差相关(2列 3列多列)推断统计定义:主要研究如何利用局部数据(样本数据)所提供的信息,依据数理统计提供的理论和方法,推论总体情形。
作用:用样本推论总体。
具体内容:1如何对假设进行检验。
2如何对总体参数特征值进行估计。
3各种非参数的统计方法。
心理与教育统计基础概念数据类型一从数据来源来划分1计数数据:计算个数或次数而获得的数据。
(都是离散数据)2测量数据:借助一定测量工具或测量标准而获得的数据。
(连续数据)二根据数据所反映的测量水平1称名数据(分类)定义:指用数字代表事物或数字对事物进行分类的数据。
特点:数字只是事物的符号,而没有任何数量意义。
统计方法:百分数次数众数列联相关卡方检验等。
(非参检验)2顺序数据(分类排序)定义:指代事物类别,能够表明不同食物的大小等级或事物具有的某种特征的程度的数据。
(年级)特点:没有相等单位没有绝对零点。
不表示事物特征的真正数量。
统计方法:中位数百分位数等级相关肯德尔和谐系数以及常规的非参数检验方法。
3等距数据(分类排序加减(相等单位))(真正应用最广泛的数据)定义:不仅能够指代物体的类别等级,而且具有相等的单位的数据。
(成绩温度)特点:真正的数量,能进行加减运算,没有绝对零点,不能进行乘除计算。
统计方法:平均数标准差积差相关 Z检验 t检验 F检验等。
4比率数据(分类排序加减法乘除法(绝对零点))定义:表明量的大小,也具有相等单位,同时具有绝对零点。
(身高反应时)特点:真正的数字,有绝对零点,可以进行加减乘除运算。
在统计中处理的数据大多是顺序数据和等距数据。
第二节次数分布表数据是我们了解事物和研究事物的第一手宝贵资料,含有许多有用的信息,有待人们采用特定的方式进行揭示和开发。
从技术上讲,就要采用一些必要的统计手段对数据进行整理与分析,以便揭示数据内部规律性,获取有价值的教育信息。
这一节我们首先介绍次数分布表,它是常用于整理数据的一种方法。
一、次数分布显然,研究一批数据时,我们首先关心的是这批数据中最小的是多小、最大的是多大,以及这批数据从小到大是如何演变的,这就是数据的分布。
例如,我们要研究某班52名学生在一项拼写测验上的分数,最基本、最自然的一种想法是把这52名学生的测验成绩按照分数高低依次排列,见表1-1。
从表1-1中,我们固然可以了解到诸如最高分和最低分是多少,所有的分数分布区间多大,不同的分数各自重复出现的次数多少,大多数学生的分数分布在什么区间等等;但这种单间地把所有数据按照高低顺序一一排列加以整理的方法,难以简要地表达一批数据的次数分布,使人阅读后难以达到印象深刻、一目了然的统计效果。
特别是对于一批为数众多的数据来讲,这种方法更是不能有效地达到整理数据的目的。
为此,我们常从计数角度统计与整理出数据的次数分布。
表1-1 某班52名学生拼写测验分数(从高到低依次排列)所谓次数分布,指的是一批数据中各个不同数值所出现次数多少的情况,或者是这批数据在数轴上各个区间内所出现的次数多少的情况。
由于次数分布是对数据分布最简单、最直接的描述,因此,在许多情形下,我们将把数据分布和次数分布看成同义词。
从次数分布的操作性定义来看,统计一批数据的次数分布有两种方法:第一种方法是按不同的测量值逐点统计次数。
例如表1-2就是根据表1-1的原始数据,从高到低详细地统计不同得分点次数所得到的次数分布表。
在心理测验和教育考试分数转换过程中(如高考的标准分数转换),常使用这种方法统计次数分布。
第二种方法是为了缩简数据,以区间跨度来统计次数,如平时人们常提到的分数段统计,就是这一类。
第二章次数分布
次数分布综述
次数分布表
次数分布图
次数分布的形状
茎和叶图
百分位数,百分位等级,插值法
次数分布综述
⏹描述统计的目的:简化和整理数据的表达。
⏹次数分布表和次数分布图就是表达一组数据是如何在某一度量上分布的。
⏹次数分布:是指一批数据在某一量度的每一个类目所出现的次数情况
⏹组织此类数据的第一种方法是:建立次数分布表
次数分布表
✧次数分布表的要素
变量的值? -填充x列
每个值出现多少次(发生次数)? -填充f列
观察的总数?将次数行求和, 将得到∑f = N
变量的总值?最简单的方法就是求(X) 和 (f) 的乘积列,然后将结果求和∑ (X f )
例1:对于下面的次数分布表:
i.此分布中共有几个分数(N = ?)
ii.对这些分数求和∑X
x f
4 2
3 4
2 5
1 3
例2:某个班的26个学生在一次测验中的分数如下(10分为满分):
9,2,3,8,10,9,9,2,1,2,9,8,2,
5,2,9,9,3,2,5,7,2,10,1,2,9
将这些分数作成一个次数分布表
x f
⏹比例 (相对次数;Proportions). 全组中有多大比例取值为X? p = f / N (N = 观察的总数).
⏹百分比 (Percentages). 全组中有多大比例取值为X? p * 100
✧分组次数分布表
●常常以区间的形式出现, 而不是某一特定值. 例如学生成绩, (A = 90-100, B = 80-89, ...).
●编制分组次数分布表的步骤
i.求全距
ii.定组数
iii.定组距
iv.写出区间上下限
v.统计每个区间的次数
●建构这些区间有一系列的“惯常法则”
(rules of thumbs)
i.分组次数分布表应该有大约10个区间,目的是使这组数据易于直观感受和理解
ii.组距应该是个比较简单的数字,如2,5,10,20
iii.每个区间开始的分数应该是组距的倍数
iv.所有区间的宽度应该相等
次数分布图
次数分布的数据可以用图简明地概括
直方图 (histogram):用一些垂直条画在每个分数之上
☐垂直条的高度代表次数
☐垂直条的宽度代表分数的精确区间.
☐只有数据是等距或等比量度时,才能用直方图
◆注意:对于一个连续变量, 每个分数实际对应一段组距. 分割这些组距的界限叫做精确界限(real limits).分割两个邻近分
数的精确界限位于两个分数的中间。
◆每个分数有两个精确界限, 一个在组距的顶端,称为精确上限(upper real limit), 另一个在组距的底端,称为精确下限(lower
real limit).
◆注意一个组距的精确上限也是高一个组距的精确下限。
例3:
绘制一个直方图来表达例2的分布
☐水平轴 - X 轴(abscissa) - X 的值
垂直轴 - Y 轴(ordinate) - 次数
棒图(条形图;bar graph): 用一些垂直条画在每个分数(或类别)之上
⏹垂直条的宽度代表分数的精确区间.
⏹垂直条的高度代表次数
⏹每个垂直条之间有一段空间。
⏹只有数据是命名或顺序量度时,才能用棒图
- 作全班同学家乡地区的棒图
折线图(line graph),又称次数分布多边图(frequency distribution polygon)
⏹在每一分数上面画点
⏹点的高度代表次数
⏹一条连续折线将这些点连接在一起
次数分布的形状
用3个特征可以完整地描述一个分布:形状(shape), 集中趋势(central tendency), 和变异性(variability).
◆对称分布(symmetrical distribution):可以画一条垂直线穿过分布的中央,使得分布的一边恰是另一边的镜象。
◆偏态分布(skewed distribution)中, 分数堆积在分布的一端,而另一端成为比较尖细的尾端(tail)。
<------ 尾端向左: 负偏态正偏态: 尾端向右---->
◆偏态分布尾端向右的称为正偏态(positively skewed)(因为其尾端指向正数)
◆偏态分布尾端向左的称为负偏态(negatively skewed).
-如何描述例2-例3分布的形状?
-从整体上说,这个班的学生测验情况怎么样?大部分分数是偏高还是偏低?测验容易还是简单?
◆双峰分布
茎和叶图
◆茎和叶图(stem and leaf display)- 将每一数字分解为左边部分(称为茎)和右边部分(称为叶). 如果数字是两位数,左边的一位就是茎,右边的一位就是叶.
例4:考察下列茎和叶图:
8 7 6 5 4 3 2 271 4586 302 4169 3
26 5
a)以10为组距宽度,作相应的分组次数分布表
b)以10为组距宽度,作相应的次数分布直方图
c)如果给定分组次数分布表,能否作出茎和叶图?为什么?
百分位数
以上是描述观察的整体,而我们也可用次数分布来描述某一个别点在一个集合中的位置
一个分数的等级(rank)或百分位数等级(percentile rank):某一分布中分数在某一值之下或等于该值的个体所占的百分比. 当一个分数被其百分位数等级, 该分数称为百分位数(percentile).
例4:此表是一次词汇测验的分数:
___________________________________________
X f p% c f c%
5 2 .05 5 40 100
4 10 .2
5 25 38 95
3 16 .40 40 28 70
2 8 .20 20 12 30
1 4 .10 10 4 10
c f = 累积次数(cumulative frequency)
c% = 累积百分比(cumulative percentage)
如果你在测验中得到4分, 你的百分位数等级是多少?
如何确定百分位数
注意: 对于连续型数据, 必须考虑其精确上限和精确下限
-步骤
1)找出分布中分数在4分之下或等于4分个体的个数,即累积次数.
- 对于分数4, 其对应的累积次数是 38,意思是40个学生中的 38 个在测验中的得分是4分或 4分以下。
2)这些累积次数转换位累积百分比
-对于分数4, 其对应的累积百分比是 95%.
⏹注意:百分位数不是分数,只是组距.分数4意味着一个人得分在3.5 和 4.5之间. 累积百分比表明组距的精确上限。
因此,95 的百分位数是与4.5 相对应(而不是 4.0).
插值法(Interpolation) - 有时你所感兴趣的值并未出现在表内。
此时你需要做基于经验的猜测. 其中的一个方法是插值法。
早上8:00 温度是20度,到中午12:00温度是28度
上午9:00是多少度呢?
-步骤:
1)找出两个量数组距的宽度
如, 时间 8 到 12点;温度60 到68 度
4 小时; 8 度
2)找出组距中已知值的位置
=已知值与组距顶端的距离/ 组距宽度
= 12:00 - 9:00 = 3小时 / 4 小时 = .75
3) 用所得位置 (分数) 来确定另一量表中对应的所求值与组距顶端的距离
= (分数) X (另一量表组距宽度)
= .75 X 8 度 = 6 度
再求得插入值--> 28 - 6 = 22 度(9:00的温度)
例5:
___________________________________
__ X f cf c%
10 2 25 100
9 8 23 92
8 4 15 60
7 6 11 44
6 4 5 20
5 1 1 4_
X = 7.0所对应的百分位数等级是多少?。