SPSS知识2:统计描述
- 格式:doc
- 大小:3.20 MB
- 文档页数:12
知识点2描述统计分析描述分析像频率分析那样,属于SPSS数据分析中描述分析部分。
它是将研究中所得的数据加以整理、归类,简化或绘制成图表,以此分析数据的观测个数、中心趋势以及到中心值的变异或离散程度的一个过程。
通过描述分析,可以清晰、准确地分析数据的分布特点描述性分析过程主要用于对连续变量做描述性分析,可以输出多种类型的统计量,也可以将原始数据换成标准Z分值并存入当前数据集。
本节将结合实例对几个常用基本统计量的描述性分析过程进行详细介绍1描述统计分析概述描述统计的过程为单个表中若干变量显示单变量摘要的统计量,并以此计算标准化值。
其中,描述统计主要涉及数据的集中趋势、离散程度和分布形态,最常用的指标有平均数、标准差和方差等。
1.集中趋势集中趋势是指一组数据向某一中心值靠拢的程度,反映了该组数据中心点的位置。
集中趋势统计主要是寻找数据水平的代表值或中心值,其度量包括均值、中位数、众数和中列数。
(1)均值均值又称为算术平均数,表示一组数据或统计总体的平均特征值,是最常见的代表值或中心值,主要反映了某个变量在该组观测数据中的集中趋势和平均水平。
均值是计算平均指标最常用的方法和形式,其计算公式为式中:n为总体样本数:x为各样本值。
通过该公式,用户可以发现均值的大小比较容易受到数据中极端值的影响。
(2)众数众数是指一组数据中出现最多的数值,也是明显集中趋势的数值。
在统计分析数据中,鉴于数据分组区别于单项式和组距不同类型的分组,所以众数的方法也各不相同。
其中,由单项式分组确定众数的方法比较简单,即表示出现次数最多的数值,该方法也是最常用的方法之。
另外,由组距分组确定的众数需要先确定众数组,然后根据计算公式计算出众数的近似值而众数值是依据众数组的次数与众数组相邻的两组次数的关系近似值,其计算公式分为上限与下限公式,表示如下。
上限公式为下限公式为式中:M。
为众数:L为众数组的下限;び为众数组的上限;fM0为众数组的次数:fM0-1为众数组前一次的次数,fM0+1为众数组后一组的次数;dM0为众数组的组距。
在教育技术研究过程中收集到大量的资料数据,但从这些杂乱无章的资料中,很难对其总体水平与分布状况做出评价判断。
因此,必须采用一些适当的方法对这些资料进行处理,使之简约化、分类化、系统化,从中发现它们的分布规律,掌握总体的特征,以便对其水平做出客观的评价。
统计描述方法,是研究简缩数据并描述这些数据的统计方法。
将搜集来的大量数据资料,加以整理、归纳和分组,简缩成易于处理和便于理解的形式,并计算所得数据的各种统计量,如平均数、标准差、以及描述有关事物或现象的分布情况、波动范围和相关程度等,以揭示其特点和规律。
(一)数据资料的整理和表示在教育技术研究中,我们用各种方法搜集来的资料,一般是零散的,它只反映个别现象的个别特征,必须经过整理加工,使之系统化,才能计算统计指标,进行统计分析,为进一步研究提供有用的信息,首先要进行的是统计整理,它包含以下几部分内容:1.数据检查主要检查数据的完整性与正确性。
统计资料完整性的检查,就是要根据调查项目检查是否填写齐全,避免遗漏,删去重复。
正确性检查,就是检查搜集的资料是否真实可靠。
特别是统计数字的真实性是统计工作的生命,统计资料的检查整理必须抓紧这一环。
数据检查可分为逻辑检查和计算检查两种方法。
逻辑检查,是从理论和一般常识上来检查资料内容是否合理,指标之间是否矛盾。
计算检查是检查统计数字在计算方法和计算结果上有否错误。
2.数据分类数据分类就是把搜集来的数据进行分组归类。
数据分类要做到既不重复、不遗漏,又不混淆,一般又可分为品质分类和数量分类。
品质分类:是按事物性质划分为不同的组别、种类。
如以性别为标志可分为男与女;按“理解能力”、“学习态度”等为标志,又可分为好、较好、一般、差等几种水平,每种水平可看成类,每一类可给以相当的数量。
可以通过各类所包含的数据再进行数量化的比较和分析。
数量分类:是按数量的属性分类。
有顺序排列法、等级排列法和次数分布法等。
⒊数据的排序数据排序:将各数据从大到小或从小到大进行排列。
统计描述
符合正态分布或近似正态分布资料的统计描述
统计量:
(一)描述平均水平的常用统计量——算术均数
(二)描述变异水平(离散程度)的常用统计量——离均差平方和(SS)、平均方差(方差:MS)、标准差(SD)
(三)描述抽样误差大小的统计量——标准误(SE)。
SPSS操作:
对某1变量(如time)进行统计描述:
正态性检验:Analyze→nonparametric tests→1-sample K-S→调入某变量和激活Nomal→OK。
正态的统计描述:analyze→descriptive statistics→descriptives→调入某变量,点击option…→点击mean、SE、SD→OK。
分析结果:表descriptive statistics(可看N、min、max、mean、SD);
Z=0.649;P=0.794>0.05.说明time服从近似正态分布。
对某一变量分组进行统计描述(如按男、女分别做time的统计描述):文件分割:data→split file;
注意:计算机有记忆功能,文件分割后需要把它还原,才不会影响后续操作。
统计描述(操作同上):analyze→descriptive statistics→descriptives→调入某变量,点击option…→点击mean、SE、SD→OK。
非正态资料的统计描述
统计量:
(一)描述集中位置——中位数
(二)描述变异水平(离散程度)——四分位数间距=P75-P25。
SPSS操作:
对某1变量(红血球体积hct)进行统计描述:
正态性检验(同上):Analyze→nonparametric tests→1-sample K-S→调入某变量和激活Nomal→OK。
非正态的统计描述:analyze→descriptive statistics→frequencies→调入某变量,点击statistics…→点击median和quartiles。
编制频数分布表和绘制频数分布直方图
一、对数据进行重新编码(recod e)
SPSS操作:
统计描述:
Recode:
Transform→recode into different variables…(表示recode后存入新的变量名中,原始数据还在)→调入变量进入“input→output”中,在右侧output框中输入新的变量名,可label→点击change→点击框下的old and new values…→根据手工分组,确定组距后:lowest:1→range→higest:最后一组→OK。
根据手工分组,确定组距:
(1)找出最小值和最大值(统计描述后知道的);
(2)计算全距(range,R) :最大值与最小值之差;
(3)确定组距:相邻两组之间的距离,组距=全距/组段数,通常组段数取8~12组;
(4)确定组段的上、下限:每个组段的起点为下限(lower limit),终点为上限(upper limit)。
每个组段均包含组段的下限值,最后一组的组段写出上限值。
(5)列表整理:计算频数、频率、累计频数及累计频率。
(2)Frequencies 过程(制表和制图过程):
Analyze →Descriptive Statistics →Frequencies →调入新的变量→点击Charts→选择Histograms 和With normal curve→Continue →OK→输出结果(frequency table)和(histogram)。
如果对图形(histogram)不满意,可双击图形进入图形编辑状态进行调整。
变量间关联和因果关系
常见关联模式
统计学上定量描述两变量的关联时需考虑:
(1)两变量是否真的存在关联。
散点图
(2)两变量的关联方向和关联强
度。
相关系数
(3)两变量间的数量依存关系。
回归方程和决定系数
(4)两变量的关联关系中是否受到
其他因素的影响和干扰。
慎重考虑
因果关系的确定:
因果确定最直接有效的方法是实验,但是人群研究涉及伦理,实验往往不可行。
运用统计分析方法说明因果关联存在争议,但在满足某些条件时,仍可提示因果关系,如吸烟与肺癌关联的经典例子。
数据关联的探索
例子:
在研究学习努力程度与学习成绩的关联时,这里涉及的两个变量分别为学习努力程度和学习成绩,我们需要考虑几个问题:
(1)学习努力程度与学习成绩是否存在关联,是什么关联方向,关联强度多大。
用相关和r定量反映两者之间关系。
SPSS操作
散点图
1. 评价散点图
(1)观察图的总体趋势和明显偏离该趋势的观测单位。
(2)通过散点图的总体趋势来呈现关联的形式、方向和密切程度。
2. 散点图解释
(1)散点呈现线性趋势。
(2)两变量同时增大或减小,即呈正相关。
视觉描述2个定量变量之间关联的形式、方向和密切程度。
正向关联:2变量同增同减,变化趋势相同;
负向关联:2变量一增一减,变化趋势不同;
关联强度:通过散点图中数据点靠近直线趋势的程度来反映。
线性相关(correlation)
定量指标描述2个定量变量关联性的强度和方向。
Pearson直线相关系数:直线相关系数用于衡量2个定量变量之间线性关系的方向和密切程度,通常记作r,对于n个观测单位的x变量和y变量,其均数和标准分别为……,其r=…。
X与y变量各自减去均值再相乘→得2变量关联方向(+/-);
X与y变量各自减去均值再相乘,分母为x与y的标准差相乘→消除x与y各自量纲的影响;
上述值求和再平均→刻画整体趋势,反映整体相关强度。
秩相关系数
rs称为spearman秩相关系数,秩相关系数又称等级相关系数,计算公式表明其含义与直线相关系数完全相同,主要用于描述存在等级变量时或者无法用均数和标准差描述其分布特征时两个变量间关联的程度与方向。
回归直线
描述2个变量之间直线相关强度和方向使用r,描述数量依存关系时使用回归。
回归直线和回归方程
描述反应变量y如何随解释变量x改变而改变的直线称为回归直线(regression line),常用于预测一个给定值条件下的y值大小。
刻画
回归直线的方程称为回归方程,表示y(帽)=b0+b1x,其中y(帽)是x相对应的预测值,b1是斜率,表示当x每改变一个单位时y(帽)的改变量。
最小二乘法拟合回归直线=回归方程。
决定系数r2:在反应变量y的总变异中,r2表示用y和x的最小二乘法回归关系所能解释的比例——反应回归拟合的实际效果。
残差:反映变量的观测值与基于回归直线的预测值之间的差异。
残差图:是残差相对于解释变量和反应变量预测值的散点图,可以帮助我们评价回归直线与散点的接近程度。