张敏强版《教育和心理统计学》1到3章读书笔记课件资料
- 格式:doc
- 大小:2.14 MB
- 文档页数:13
张敏强《教育与心理统计学》修订本笔记和课后习题(含考研真题)详解第13章聚类分析【本章重点】☆Q型与R型聚类☆聚类分析中距离的六种定义13.1复习笔记一、聚类分析的基本原理(一)聚类分析1.聚类分析的概念聚类分析是分类学与多元统计分析相结合的一种方法。
它将分类对象置于一个多维空间中,按照它们空间关系的亲疏程度进行分类。
其与一般分类方法的不同之处在于:(1)一般分类法往往从专业知识出发进行分析归类,而聚类分析先是仅凭变量指标进行定量分析,整理出分类的谱系追踪图,然后再据专业知识确定最终类型数目和类型命名;(2)一般的分类允许在不同层次上有不同的分类依据或分类准则,而聚类分析在所有层次上的分类依据和分类准则都是一样的;(3)一般分类不要求被分对象一次性完备,允许分类后继续补充样品甚至建立新类,而聚类分析要求被分类对象一次性完备,不允许中间插入新样品,否则要重复聚类分析的全过程。
2.聚类分析的分类依据(1)聚类分析作为一种数值分类法,分类依据是数据指标,要进行聚类分析必须建起一个描写事物本质属性的指标体系,或者一个变量组合。
(2)入选的指标需满足的要求:①指标必须能刻画事物属性的某个侧面,所有指标组合起来形成一个完备的指标体系,互相配合共同刻画事物的本质特征。
②要求每一个入选指标都与所研究的问题紧密联系,并且都有较强的分辨能力。
③指标本身还必须可测和稳定,可测是分类得以进行的先决条件,稳定是分类准确的前提。
如果分类指标间还具有直交性,那么还可提高聚类的效率。
若有N个样品、有M个指标,称为M维空间上N个样本点,测值X ik表示第i个样本点在第k维指标上的测量值。
空间N个样本点的所有测值可以矩阵X记之:(13.1)④在聚类分析中,要求入选的所有指标变量有统一的量纲。
(3)常用的整理原始数据的方法有以下几种:①数据中心化变换。
如果一批数据指标由于各自的分布中心有显著差异而导致量纲不一致,可以对数据作中心化变换,新的指标中心皆为0。
《绪论》1.什么是教育与心理统计学教育与心理统计学是应用统计学的一个分支,是数理统计学与教育学、心理学的一门交叉学科,它把统计学的理论方法应用于教育实际工作和各种心理实验、心理测验等科学研究中,通过对所得数据的分析和处理,达到更为准确地掌握情况、探索规律、制订方案、目的,为教育与心理的科学研究提供了一种科学的方法。
2.教育与心理统计学的基本内容及本书体系。
1)描述统计学:这一部分主要是研究和简缩数据和描述这些数据。
例如:计算平均数、中位数、众数等,以这些参数来反映观测数据的集中趋势。
计算标准差、方差等,以这些参数来反映观测数据的离散趋势。
描述统计学主要是描述事务的典型性、波动范围以及相互关系,提示事物的内部规律。
2)推断统计学:这部分内容主要是研究如何利用数据去作出决策的方法。
推断统计学则是一种依据部份数剧去推论全体的一种科学方法,它是进行教育与心理实验、对教育与心理研究或实验作出预测和规划的有力工具。
推断统计学的主要内容有:统计检验、统计分析和非参数统计法。
3)多元统计分析:这部分内容主要是研究超过两个因素的教育与心理的研究和实验。
多元统计分析的主要任务就是寻找出主要的因素,相近或相关的因素合并或归类。
多元统计分析的主要内容有:主成分分析、因素分析、聚类分析、多元方差分析、多元回归分析等。
3.教育与心理统计学的昨天、今天和明天1)与心理统计学的昨天:1904年美国人桑代克写的《心理与社会测量导论》2)教育与心理统计学的今天:叶佩华主编的《教育统计学》,张厚粲主编的《心理与教育统计》等。
4.预备知识1)概念与术语<1>随机变量:教育与心理实验或观测,在相同的条件下,其结果可能不止一个,同实验或观测所得到的数据,事先无法确定,这类现象称为随机现象。
因为可以用数字来表现,则称这些数字为随机变量。
它的特点是:离散性、变异性和规律性。
依其性质可分为:称名变量、顺序变量、等距变量、比率变量四种称名变量:用于说明一事物与其它事物在属性上的不同或类别上的差异,但不说明事物与事物之间差异的大小。
第2章 常用统计参数1.某班学生的心理学平均成绩为75分,标准差为l0分,学生总数为43人。
根据这些信息,无法计算出的统计量有( )。
A .差异系数B .分数总和C .中数D .方差【答案】C【解析】中数计算方法:①首先确定中数在数据序列中的位置:dn M n =12n ,式中:dn M n 表示中数在数列中的位置;n 表示数列数据个数。
②然后再求数列中位于dn M n 位置上的那个数Mdn 。
题中没有具体数据序列,因此无法计算得到中数。
2.已知一组数据为2,5,13,10,8,21,则它们的中位数为( )。
A .8B .9C .10D .不存在【答案】B【解析】中位数又称中数,符号记为Mdn ,计算方法:①确定中数在数据序列中的位置:dn M n =12n +,式中,nMdn 表示中数在数列中的位置;n 表示数列数据个数。
②求数列中位于dn M n 位置上的那个数Mdn 。
由题可知,数据排序后为:2,5,8,10,13,21。
因为数据个数为偶数,则其中数为第(6+1)/2=3.5个数,即Mdn 应在8、10之间,因此答案为9。
3.某班30名学生的平均成绩是75分,其中10名女生的平均成绩是85分,那么该班男生的平均成绩是多少分?( ) A .65分B .70分C .75分D .68分【答案】B【解析】此题为加权平均数的变形,加权平均数的计算公式为:。
由公式可知,75=10852030X ⨯+⨯,X=70。
4.在教育与心理研究中,求平均增长率或对心理物理学中的等距与等比量表实验的数据处理,应当使用的统计量是( )。
A .算术平均数B .加权平均数C .几何平均数D.方差或标准差【答案】C【解析】几何平均数的应用:①心理物理学中等距与等比量表实验的数据处理;②教育与心理研究中平均增长率的计算。
5.如果把某班所有学生的分数都减少5分,则该班成绩的均值和方差会如何变化?()A.均值变小,方差不变B.均值不变,方差变小C.均值方差同时变小D.均值变小,方差变大【答案】A【解析】由方差的性质可知,每一个观测值都加或减一个相同常数c后,计算得到的方差等于原方差;由平均数的性质可知,每一个观测值都加上或减去一个相同常数c后,计算得到的平均数等于原平均数加上或减去这个常数c。
第11章聚类分析【学习目标】1.了解聚类分析的原理法。
2.了解聚类分析的数据整理方法。
3.识记聚类分析中距离的六种定义。
4.识记相关系数相关概念。
5.掌握聚类分析的三种方法。
11.1复习笔记一、聚类分析的基本原理(一)聚类分析1.聚类分析的概念聚类分析是指将分类对象置于一个多维空间中,按照它们空间关系的亲疏程度进行分类的统计方法。
其与一般分类方法的不同之处在于:(1)一般分类法往往从专业知识出发进行分析归类,而聚类分析先是仅凭变量指标进行定量分析,整理出分类的谱系追踪图,然后再据专业知识确定最终类型数目和类型命名;(2)一般的分类允许在不同层次上有不同的分类依据或分类准则,而聚类分析在所有层次上的分类依据和分类准则都是一样的;(3)一般分类不要求被分对象一次性完备,允许分类后继续补充样品甚至建立新类,而聚类分析要求被分类对象一次性完备,不允许中间插入新样品,否则要重复聚类分析的全过程。
2.聚类分析的分类依据(1)聚类分析作为一种数值分类法,分类依据是数据指标,要进行聚类分析必须建起一个描写事物本质属性的指标体系,或者一个变量组合。
(2)入选的指标需满足的要求①必须能刻画事物属性的某个侧面,所有指标组合起来形成一个完备的指标体系,互相配合共同刻画事物的本质特征。
②要求每一个入选指标都与所研究的问题紧密联系,并且都有较强的分辨能力。
③对于指标本身还必须可测和稳定,可测是分类得以进行的先决条件,稳定是分类准确的前提。
如果分类指标间还具有直交性,那么还可提高聚类的效率。
若有N个样品、有M个指标,称为M维空间上N个样本点,测值X ik表示第i个样本点在第k维指标上的测量值。
空间N个样本点的所有测值可以矩阵X记之:④在聚类分析中,要求入选的所有指标变量有统一的量纲。
⑤常用的整理原始数据的方法有以下几种:a.数据中心化变换如果一批数据指标由于各自的分布中心有显著差异而导致量纲不一致,可以对数据作中心化变换,新的指标中心皆为0。
第1章常用的统计表与图1.对组限的规范写法本书有何规定?答:组限是每个组的起始点界限。
可以用几种不同的表述方式,见下表。
表1 组限的五种表述方法(i=5)对于连续变量,尽管表中的五种表述方法形式不同,但它们所包含的意义与传统“教育与心理统计学”中的规定却是一致的。
为了避免这种人为造成的误解并统一与规范关于组限的表述方法,本书建议并一贯采用表中的第三种、第四种或第五种这三种表述方法。
对此,作几点说明如下:(1)表述组限与实际组限是两个不同的概念,但它们之间有规律性的联系。
(2)当各相邻组的组限已经相互承接而没有间断时,便认为已把表述的组限与实际的组限统一起来,且不管这里表述组限中的实下限与实上限是整数还是小数。
(3)按照本书上述规定的组限表述方法即可形成规范的组限表述方式,并与其他学科中的区间表达法统一起来。
2.列举次数直方图或多边图的一些应用。
答:次数直方图是由若干宽度相等、高度不一的直方条紧密排列在同一基线上构成的图形,而次数多边图是利用闭合的折线构成多边形以反映次数变化的情况的一种图示方法。
他们都适合连续性的数据。
应用举例:如学生考试成绩的分布,商场一年12个月的销售额情况,学生去学校所花费的时间,某班学生的身高情况,某班学生的体重情况,体育课上学生一分钟内跳绳的次数,居民月平均用水量的情况等。
3.试比较简单条形图与简单次数直方图在制作和应用方面的异同点。
答:简单条形图是以若干平行而等宽的长条来表示离散型数据的对比关系的图形;次数直方图是指由若干宽度相等、高度不一的直方条紧密排列在同一基线上构成的图形。
(1)相同点①简单条形图与简单次数直方图都是统计学中常用的分布图。
②简单条形图与简单次数直方图都含有长条。
(2)不同点①简单条形图的长条是紧密相连的,而简单次数直方图的长条是分开的。
②简单条形图适合用来描述离散型变量(如属性变量)的统计数据,而简单次数直方图则是用来刻划连续性变量的观测数据。
4.简述散点图、折线图、条形图和圆形图这四种统计分析图的应用特点。
张敏强《教育与心理统计学》修订本笔记和课后习题(含考研真题)详解第11章主成分分析【本章重点】☆主成分分析的基本原理☆主成分分析的步骤11.1复习笔记一、主成分分析的基本原理主成分分析主要是用来寻找判断某种事物或现象的主要综合指标,它是在不损失或很小损失原有信息的前提下,将原来多个彼此相关的指标转换为新的少数几个彼此独立的综合指标的一种多元统计分析方法。
实际上,主成分分析是一个数据降维的过程,即将反映复杂现象的相关变量用综合变量来代表。
主成分的分析原理是:设有n个观测点(x il,x i2),i=1,2,…,n。
这n个观测点的分布如图11-2。
主成分分析的原理是先对n个观测点(x il,x i2)求出第一条“最佳”拟合直线,使得这n个观测点到该直线的垂直距离的平方和最小,这时称此直线为第一主成分,然后再求与第一主成分相互独立(在此表现为相互垂直)的且与n个观测点(x i1,x i2)的垂直距离平方和最小的第二主成分。
如图11-2所示。
图11-2主成分分析示意图假如有P个变量,共得到n个点(x i1,x i2,x ip),此时,若要求第k个主成分,就必须使它与前k-1个主成分不相关,且使它与n个观测点的垂直距离平方和为最小。
如此继续,直至求出P个主成分。
注意:只有变量间存在一定相关才可以降维,原有的变量数和主成分数相等,并且具体选取几个主成分,应视具体情况而定。
二、主分量的导出主分量的导出是对主成分分析数学模型的讨论。
由主成分分析的基本原理可知,主成分分析,实际上就是分解相关矩阵,从而使P个相关的变量分解成P个独立的分量。
(一)主成分的定义及满足条件设X=(x1,x2,…,x P)'是一个p维随机向量。
并假设X的数学期望E(X)=0,记X的协方差矩阵为E(XX')=∑,令U=(u1,u2,…,u P)'是-P维向量,且满足W'=U'U=I,则X的第i主成分定义为:(11.1)且满足条件:1.第一主成分F1是一切形如中使F的方差达到最大者。
张敏强《教育与心理统计学》修订本笔记和课后习题(含考研真题)详解第12章因素分析【本章重点】☆因素分析的基本原理☆因素分析的基本过程☆正交旋转与斜交旋转12.1复习笔记一、因素分析的基本原理因素分析是确定主要因素的重要工具之一。
因素分析的基本思想是首先将多个描述事物性质的变量综合为较少的几个“因素”,然后依据一定的方式对所获得的“因素”作出较为合理的解释。
主成分分析可以看成是因素分析的一个特例,它本身往往不是目的,而是达到目的的一种手段,常用于因素分析的中间环节。
因素分析方法在1904年首先被英国心理学家斯皮尔曼应用于他的一篇论文中。
(一)因素分析的数学模型1.因素分析的数学模型可表示成如下形式:,该式写成矩阵形式为:Z=AF+DY(12.2)其中;;式中,F j(j=1,2,…,m)表示某被试第j个共同因素的标准分数;Y i表示某被试只和测验i有关的特殊因素;a ij表示第i个测验在第j个共同因素上的系数,通常称为因素负荷;d i表示与第i个测验有关的特殊因素Y i的系数,称为特殊因素负荷。
Z表示标准分数。
由上式可看出因素负荷a ij绝对值的大小反映了Z i与共同因素F j关系的密切程度,即表明了共同因素F j对Z i的负荷程度,所以a ij称为因素负荷,由其构成的矩阵A便称为因素负荷矩阵。
2.因素分析的数学模型要求满足的假设(1)各共同因素之间、特殊因素之间及共同因素与特殊因素之间均相互独立。
(2)各共同因素都是均值为0,方差为1的独立正态分布的随机变量,其协方差矩阵为m阶单位阵。
(二)因素负荷的统计意义因素分析的基本任务之一就是求因素负荷矩阵A。
因素负荷a ij就是变量Z j与共同因素F j的相关系数,它反映了Z i依赖F j的程序。
(三)变量共同度的统计意义记因素负荷矩阵A第i行元素的平方和为:(12.4)2h称之为变量Z i的共同度或者共同因素方差。
可以推导得出:i(12.5)从上式可知,变量Z i的方差由两部分构成。
第2章常用统计参数【学习目标】1.了解各种集中量数、差异量数和地位量数的概念、性质和作用,理解各种量数的适用条件及特点。
2.识记相关、散点图及相关系数的概念与彼此之间的关系。
3.掌握各种量数的计算方法,并能够熟练使用各种量数对测量数据的数据特征进行描述。
4.掌握各种常见相关分析方法的适用条件及计算方法。
2.1复习笔记一组变量的次数分布,一般至少有以下两个方面的基本特征:中心位置:用以度量一组数据的集中趋势,描述它们的中心位于何处,故对其数量化描述称为位置度量数或集中量数。
离散性:反映一组数据的分散程度,即次数分布的离散程度。
对其数量化描述称为次数分布变异特性的度量或差异量数。
中心位置相同的次数分布,其离散程度不一定相同。
对任何一个已知的次数分布,均可以计算出反映上述统计特征的量数。
在教育与心理统计中,总体统计特征的量数称为参数,用希腊字母表示,如μ,σ2,ρ等;样本统计特征的量数称为统计量,用英文字母表示,如X,S2,r等。
一、集中量数集中量数是指描述数据集中趋势的统计量,包括算术平均数、加权平均数、几何平均数、中数,等等,其作用都是用于度量次数分布的集中趋势。
(一)算术平均数算术平均数(简称平均数、均数)是用以度量连续变量次数分布集中趋势的最常用的集中量数。
1.总体平均数与样本平均数(1)总体平均数如果一个总体X 包含N 个元素,x i 是这个总体中的第i 个元素,则称x i 为第i 次观测值,那么对x 来讲,该总体的算术平均数被定义为:11=Nii x N μ=∑式中:μ——总体算术平均数;N——总体容量;i x ——第i 次观测值。
(2)样本平均数当无法对总体进行全面观测时,对于样本X ,其算术平均数被定义为:11n i i X x n =∑式中:X ——样本平均数;n ——样本容量。
2.加权平均数若已知各组平均数和各组人数,要求总的平均数时,则要用加权平均数的方法,其计算公式为:式中:——总平均数(或加权平均数);12,,,k n n n …——各组人数;12,k ,X X X …,——各组平均数;12t k n n n n =+++…——总人数。
《绪论》1.什么是教育与心理统计学教育与心理统计学是应用统计学的一个分支,是数理统计学与教育学、心理学的一门交叉学科,它把统计学的理论方法应用于教育实际工作和各种心理实验、心理测验等科学研究中,通过对所得数据的分析和处理,达到更为准确地掌握情况、探索规律、制订方案、目的,为教育与心理的科学研究提供了一种科学的方法。
2.教育与心理统计学的基本内容及本书体系。
1)描述统计学:这一部分主要是研究和简缩数据和描述这些数据。
例如:计算平均数、中位数、众数等,以这些参数来反映观测数据的集中趋势。
计算标准差、方差等,以这些参数来反映观测数据的离散趋势。
描述统计学主要是描述事务的典型性、波动范围以及相互关系,提示事物的内部规律。
2)推断统计学:这部分内容主要是研究如何利用数据去作出决策的方法。
推断统计学则是一种依据部份数剧去推论全体的一种科学方法,它是进行教育与心理实验、对教育与心理研究或实验作出预测和规划的有力工具。
推断统计学的主要内容有:统计检验、统计分析和非参数统计法。
3)多元统计分析:这部分内容主要是研究超过两个因素的教育与心理的研究和实验。
多元统计分析的主要任务就是寻找出主要的因素,相近或相关的因素合并或归类。
多元统计分析的主要内容有:主成分分析、因素分析、聚类分析、多元方差分析、多元回归分析等。
3.教育与心理统计学的昨天、今天和明天1)与心理统计学的昨天:1904年美国人桑代克写的《心理与社会测量导论》2)教育与心理统计学的今天:叶佩华主编的《教育统计学》,张厚粲主编的《心理与教育统计》等。
4.预备知识1)概念与术语<1>随机变量:教育与心理实验或观测,在相同的条件下,其结果可能不止一个,同实验或观测所得到的数据,事先无法确定,这类现象称为随机现象。
因为可以用数字来表现,则称这些数字为随机变量。
它的特点是:离散性、变异性和规律性。
依其性质可分为:称名变量、顺序变量、等距变量、比率变量四种称名变量:用于说明一事物与其它事物在属性上的不同或类别上的差异,但不说明事物与事物之间差异的大小。
顺序变量:指可以按事物的某一属性,把它们按多少或大小顺序加以排列的变量。
等距变量:指变量之间具有相等的距离。
它除了有量的大小外,还具有相等的单位。
比率变量:除了有量的大小、相等单位之外,还有绝对零点。
变量依其相互关系可分为自变量(一般将相互关系中作为原因的称为自变量)与因变量(作为结果的称为因变量)。
函数关系式y=f(x)表示,y为因变量,x为自变量。
<2>总体、样本、个体总体是指具有某一种特征的一类事物的全体。
个体是指构成总体的每一个基本元素。
样本是在总体中按一定规则抽取的一部分个体,称为总体的一个样本。
2)常用的符号与计算<1>连加号及运算法则∑表示连加符号,同时表示想加的观测数值共有n个,这些数值的下标编号i从1起至n止。
运算法则如下:①若c是一个常数,而xi是观测变量,则常与变量的乘积的连加和等于变量连加和与常数的乘积。
②设c是一个常数,则连加和等于nc.③若xI 和yi都是变量,则变量和的连加和等于各个变量连加和的和。
<2>几个常用符号。
①变量一般以大写英文字母表示,而变量中的元素则以小写英文字母表示。
②变量平均数、变量标准差、方差,一般都用大写英文字母表示。
第1章第1节次数分布表与图(适用于描述一元连续变量的观测数据)1.次数分布及其表达方式概述次数分布指的是一批数据中各个不同数值所出现的次数情况,或者是指一批数据在量各等距区组所出现的次数情况。
次数分布表:我们通常是对数据进行分组归类,考察这批数据在量尺上各等距区内的次数分布情况,并把这种情况用规范的表格形式加以体现,这就是次数分布表,若用图形来表达,那就叫做次数分布图。
2.次数分布表的编制1)简单次数分布表简单次数分布表,通常简称为次数分布表,其实质是反映一批数据在各等距区组内的次数分布结构。
其编制的主要步骤为:①求全距,字母R表示。
全距等于最大值减最小值,公式为:R=Max-Min②定组数,字母K表示。
把整批数据划分为多少个等距的区组。
公式:K=1.87(N-1)2/5③定组距,字母i表示。
I=R/K④写出组限。
(表述组限与实际两个不同的概念,但它们之间有规律性的联系;当各相邻组的组限已经相互承接而没有间断时,便认为已把表述的组限与实际的组限统一起来,且不管这里表述的实下限与实上限是整数还是小数;按照本书上述规定的组限表述方法即可形成规范的组限表述方式,并与其他学科中的区间表达方法统一起来。
⑤求组中值。
组中值=(组实上限+组实下限)/2.⑥归类划记⑦登记次数3.次数分布图的绘制次数分布图有次数直方图和次数多边图两种表达方式。
1)次数直方图(是由若干宽度、高度不一的直方条紧密排列在同一基线上构成的图形)绘制步骤:①以细线条标出横轴和纵轴(取正半轴即可),使其垂直相交;②每一直方条的宽度由组距i确定并已体现在横轴的等距刻度上;③在直方图横轴下边标上图的编号和图的题目,并检查一下图形结构的完整性。
2)次数多边图(利用闭合的折线构成多边形以反映次数变化情况的一种图示方法)3)相对次数直方图与多边图4)累积次数分布图(有直方图式和曲线图式两种,曲线图式常用,它是根据累积次数分布或累积相对次数分布制作而成。
)5)累积相对次数曲线图与累积百分数曲线图第2节几种常用的统计分析图(散点图、折线图、条形图和圆形图)1.散点图(适合于描述二元变量的观测数据)散点图是用平面直角坐标系上点的散布图形来表示两种事物之间的相关性及联系模式。
绘制散点图注意:①在平面直角坐标系中,横轴一般代表自变量,纵轴一般代表因变量;横轴既可作为连续性变量的量尺,也可作为离散性变量的量尺,但纵轴一般均代表连续变量的量尺;②点的描绘依二元观测数据而定,但在具体描绘时应注意用细线画坐标轴,用稍粗黑点描绘各个坐标点,点位置的确定按平面解析几何学中的方法;③注意图形的调和比例和必要的图注说明。
2.线形图(是以起伏的折线来表示某种事物的发展变化及演变趋势的统计图。
)适用于描述某种事物在时间序列上的变化趋势、描述一种事物随另一事物发展变化的趋势模式、比较不同的人物团体在同一心理或教育现象上的变化特征及相互联系。
3.条形图(是用宽度相同的长条来表示各个统计事项之间的数量关系。
)通常用于描述离散性变量的统计事项。
1)简单条形图(它适用于统计事项按一种特征进行分类的情况)2)复合条形图(用两类或三类不同色调的直方长条来表示多特征分类下的统计事项之间数量关系的一种图示方法)4.圆形图(是以单位圆内各扇形面积所占整个圆形面积的百分比来表示各统计事项在其总体中所占相应比例的一种图示方法。
)特别适用于描述具有百分比结构的分类数据。
第1章自测练习【练习1】试比较简单条形图与简单次数直方图在制作和应用方面的异同点。
解答:条形图和直方图都是次数分布图,但前者适用于离散型随机变量的次数分布描述,其所依据的次数分布表是离散型次数分布表。
后者则适用于连续型随机变量的次数分布描述,其所依据的次数分布表是连续型次数分布表。
这一区别决定了它们在制作上的不同。
即相应于不同类型的次数分布表,条形图中的直条对应离散变量各类别,因而直条没有宽度的要求,直条之间是间隔排列的;而直方图的直条则对应连续变量次数分布的各取值区间,宽度即组距,直条比较相连排列。
具体参照教材有关内容。
【练习2】简述散点图、折线图、条形图和圆形图这四种统计分析图的应用特点。
解答:如上题所述,①条形图适用于离散型变量的次数分布,是一种次数分布图;②圆形图的适用条件与之相同。
所不同的是,圆形图使用圆中的扇面弧度来替代直条表达次数或相对次数,所有扇面组成整个圆周。
因而圆形图本身就包含有相对次数信息。
③散点图是专用于分析两个连续变量或至少是等级变量间相关关系的统计图,它用两个相关变量的配对数据分别作为散点的横、纵坐标在平面直角坐标系中描点,根据散点分布的区域的形状就可以大致判断两变量间的相关关系。
例如如果散点区域形状是一个椭圆,则变量为直线性相关,椭圆长轴的方向还可以表达相关的方向。
④折线图在教材中之牵涉到所谓的均值图,即描述某个因变量(指标)在一个离散型自变量的各水平上取值均值的统计图,将指标在自变量各水平上取值的均值作为纵坐标先描出散点,然后用线段连接这些散点构成折线,故而叫折线图。
折线图通常用在组间均值比较中帮助直观分析各均值间的差异。
第2章常用统计参数中心位置:用以度量一级数据的集中趋势,描述它们的中心位于何处,故对其数量化描述称为置度量数或集中量数。
离散性:反映一组数据的分散程度,即次数分布的离散程度。
对其数量化描述称为次数分布变异特性的度量或差异量数。
参数:总体统计特征的量数。
统计量:样本统计特征的量数。
第1节集中量数(描述数据集中趋势的统计量。
包括:算术平均数、加权平均数、几何平均数、中数,等。
它们的作用都是试题次数分布的集中趋势。
)1.算术平均数只有在与其他几种集中量数相区别时,才称它为算术平均数。
算术平均数是用以度量连续变量次数分布集中趋势的最常用的集中量数。
公式:1)总体平均数与样本平均数。
23)算术平均数具有以下性质:①C 后,计算得到的平均数等于原平均数加上这个常数;②每一个观测值都乘以一个相同常数C 后,计算得到的平均数等于原平均数乘以这个常数;③每一个观测值都乘以一个相同常数C 后,再加上一个常数d 后,计算得到的平均数等于原平均数乘以这个常数c 再加上常数d. ④观测值与平均数离差的总和为零⑤观测值与任意常数c 的离差平方和,不小于观测值与平均数的离差平方和。
反应灵敏、确定严密、简明易解、计算简便并能作进一步的代数演算等优点,是应用最普遍的一种集中量数。
5)算术平均数的缺点:易受极端数据影响、出现模糊数据和存在不等质数据时无法计算算术平均数的缺点。
2. 几何平均数(Mg)当出现以下两种情况时需用几何平均数:①一组数据中任何两个相邻数据之比接近于常数,即数据按一定的比例关系变化。
在教育与心理研究中,求平均增长率或对心理物理学中的等距与等比量表实验的数据处理;②当一组数据中存在极端数据,分布呈偏态时,算术平均数不能很好的反映数据的典型情况,此时应使用几何平均数或其他集中量数(如中数、众数)来反映数据的典型情况。
公式:公式变形:未来情况的预测数X= x ′·( )n∑∑∑===+++=ini ini inXX nXnX X X X 通常可简常可 (1)121g g M ==112ni i g n=112lg 1lg (lg lg lg )n i i g n x M x x x n n==+++=∑ gXx ′表示预测的基础。
3. 中数(又称中位数,Mdn )1)中数是指位于一组数据数列中间位置的那个数。