怎样用SPSS绘制boxplot箱线图
- 格式:doc
- 大小:324.00 KB
- 文档页数:10
图解spss探索分析实例最后更新:2012-12-10 阅读次数:【字体:小中大】探索分析是在对数据的基本特征统计量有初步了解的基础上,对数据进行的更为深入详细的描述性观察分析。
它在一般描述性统计指标的基础上,增加了有关数据其他特征的文字与图形描述,显得更加细致与全面,有助于用户思考对数据进行进一步分析的方案。
主要的分析如下:(1)观察数据的分布特征:通过绘制箱锁图和茎叶图等图形,直观地反映数据的分布形式和数据的一些规律,包括考察数据中是否存在异常值等。
过大或过小的数据均有可能是奇异值、影响点或错误数据。
寻找异常值,并分析原因,然后决定是否从分析中删除这些数据。
因为奇异值和影响点往往对分析的影响较大,不能真实地反映数据的总体特征。
(2)正态分布检验:检验数据是否服从正态分布。
很多检验能够进行的前提即总体数据分布服从正态分布。
因此,检验数据是否符合正态分布,就决定了它们是否能用只对正态分布数据适用的分析方法。
(3)方差齐性检验:用Levene检验比较各组数据的方差是否相等,以判定数据的离散程度是否存在差异。
例如在进行独立右边的T检验之前,就需要事先确定两组数据的方差是否相同。
如果通过分析发现各组数据的方差不同,还需要对数据进行方差分析,那么就需要对数据进行转换使得方差尽可能相同。
Levene检验进行方差齐性检验时,不强求数据必须服从正态分布,它先计算出各个观测值减去组内均值的差,然后再通过这些差值的绝对值进行单因素方差分析。
如果得到的显著性水平(Significance)小于0.05,那么就可以拒绝方差相同的假设。
探索分析的具体操作步骤如下:打开数据文件,选择【分析】(Analyze)菜单,单击【描述统计】(Descriptive Statistics)命令下的【探索】(Explore)命令,SPSS将弹出"探索"(Explore)对话框,如图3-9所示。
在"探索"(Explore)对话框中,左边的变量列表为原变量列表,通过单击按钮可选择一个或者几个变量进入右边的"因变量列表"(Dependent List)框、"因子列表"(Factor List)框和"标注个案"(Label Cases by)列表框。
箱线图(Box plot)箱线图概述箱线图(Boxplot)也称箱须图(Box-whisker Plot),是利用数据中的五个统计量:最小值、第一四分位数、中位数、第三四分位数与最大值来描述数据的一种方法,它也可以粗略地看出数据是否具有有对称性,分布的分散程度等信息,特别可以用于对几个样本的比较。
箱线图的绘制步骤1、画数轴,度量单位大小和数据批的单位一致,起点比最小值稍小,长度比该数据批的全距稍长。
2、画一个矩形盒,两端边的位置分别对应数据批的上下四分位数(Q1和Q3)。
在矩形盒内部中位数(Xm)位置画一条线段为中位线。
3、在Q3+1.5IQR(四分位距)和Q1-1.5IQR处画两条与中位线一样的线段,这两条线段为异常值截断点,称其为内限;在F+3IQR和F-3IQR处画两条线段,称其为外限。
处于内限以外位置的点表示的数据都是异常值,其中在内限与外限之间的异常值为温和的异常值(mild outliers),在外限以外的为极端的异常值(extreme outliers)。
4、从矩形盒两端边向外各画一条线段直到不是异常值的最远点,表示该批数据正常值的分布区间。
5、用“〇”标出温和的异常值,用“*”标出极端的异常值。
相同值的数据点并列标出在同一数据线位置上,不同值的数据点标在不同数据线位置上。
至此一批数据的箱线图便绘出了。
统计软件绘制的箱线图一般没有标出内限和外限。
箱线图的功能箱线图作为描述统计的工具之一,其功能有独特之处,主要有以下几点:1.直观明了地识别数据批中的异常值一批数据中的异常值值得关注,忽视异常值的存在是十分危险的,不加剔除地把异常值包括进数据的计算分析过程中,对结果会带来不良影响;重视异常值的出现,分析其产生的原因,常常成为发现问题进而改进决策的契机。
箱线图为我们提供了识别异常值的一个标准:异常值被定义为小于Q1-1.5IQR或大于Q3+1.5IQR的值。
虽然这种标准有点任意性,但它来源于经验判断,经验表明它在处理需要特别注意的数据方面表现不错。
SPSS表格制作一、实验目的1.熟悉SPSS统计图表制作的界面;2.掌握SPSS制作统计图表的步骤;3.掌握SPSS输出图表的编辑。
二、实验要求1.提交打印的统计图表结果;三、实验步骤(一) Spss获得条形图的途径1.启动SPSS,打开数据文件计生调查问卷.sav。
2.点击“Graphs”→“Bar”,出现条型图主对话窗口。
3.选择“Simple”并点击“Define”按钮进入“Define Simple Bar”对话框。
4.在左边的变量列表中选中(单击)要绘制条形图的变量,并单击向右的箭头健使其进入“Category Axis”框。
5.其余选项按默认设置,按OK,得到条形图。
6.双击条形图,进入图形编辑窗口。
(二)Spss获得直方图的途径1、graphs→histogram2、analyze→descriptive statistics→explore→plots→histogram3、analyze→descriptive statistics→frequencies→charts→histogram(三)Spss获得茎叶图的途径1、analyze→descriptive statistics→explore→plots→stem-and-leaf(四)Spss获得箱线图的途径1、graphs→boxplots2、analyze→descriptive statistics→explore→plots→boxplots(五)Spss获得帕累托图的途径1、graphs→pareto(六)Spss获得散点图的途径1、graphs→scatter(七)spss频数分布表Frequencies对话框的界面如下所示:该界面在SPSS中实在太普通了,无须多言,重点介绍一下各部分的功能如下:【Display frequency tables复选框】确定是否在结果中输出频数表。
【Statistics钮】单击后弹出Statistics对话框如下,用于定义需要计算的其他描述统计量。
实验二 SPSS数据录入与编辑一、实验目的通过本次实验,要求掌握SPSS的基本运行程序,熟悉基本的编码方法、了解如何录入数据和建立数据文件,掌握基本的数据文件编辑与修改方法。
二、实验性质必修,基础层次三、主要仪器及试材计算机及SPSS软件四、实验内容1.录入数据2.保存数据文件3.编辑数据文件五、实验学时2学时(可根据实际情况调整学时)六、实验方法与步骤1.开机2.找到SPSS的快捷按纽或在程序中找到SPSS,打开SPSS3.认识SPSS数据编辑窗4.按要求录入数据5.联系基本的数据修改编辑方法6.保存数据文件7.关闭SPSS,关机。
七、实验注意事项1.实验中不轻易改动SPSS的参数设置,以免引起系统运行问题。
2.遇到各种难以处理的问题,请询问指导教师。
3.为保证计算机的安全,上机过程中非经指导教师和实验室管理人员同意,禁止使用移动存储器。
4.每次上机,个人应按规定要求使用同一计算机,如因故障需更换,应报指导教师或实验室管理人员同意。
5.上机时间,禁止使用计算机从事与课程无关的工作。
八、上机作业一、定义变量1.试录入以下数据文件,并按要求进行变量定义。
数据:要求:1)对性别(Sex)设值标签“男=0;女=1”。
2)正确设定变量类型。
其中学号设为数值型;日期型统一用“mm/dd/yyyy“型号;生活费用货币型。
3)变量值宽统一为10,身高与体重、生活费的小数位2,其余为0。
2.试录入以下数据文件,保存为“数据”。
实验三统计图的制作与编辑一、实验目的通过本次实验,了解如何制作与编辑各种图形。
二、实验性质必修,基础层次三、主要仪器及试材计算机及SPSS软件四、实验内容1.条形图的绘制与编辑2.直方图的绘制与编辑3.饼图的绘制与编辑五、实验学时2学时六、实验方法与步骤1.开机;2.找到SPSS的快捷按纽或在程序中找到SPSS,打开SPSS;3.按要求完成上机作业;4. 关闭SPSS,关机。
七、实验注意事项1.实验中不轻易改动SPSS的参数设置,以免引起系统运行问题。
实验三SPSS统计分析与统计图表的绘制一、实验目的要求学生能够进行基本的统计分析;能够对频数分析、描述分析和探索分析的结果进行解读;完成基本的统计图表的绘制;并能够对统计图表进行编辑美化与结果分析;能够理解多元统计分析的操作(聚类分析和因子分析)。
二、实验内容与步骤2.1 基本的统计分析打开“分析/描述统计”菜单,可以看到以下几种常用的基本描述统计分析方法:1.Frequencies过程(频数分析)频数分析可以考察不同的数据出现的频数与频率,并且可以计算一系列的统计指标,包括百分位值、均值、中位数、众数、合计、偏度、峰度、标准差、方差、全距、最大值、最小值、均值的标准误等。
2.Descriptives过程(描述分析)调用此过程可对变量进行描述性统计分析,计算并列出一系列相应的统计指标,包括:均值、合计、标准差、方差、全距、最大值、最小值、均值的标准误、峰度、偏度等。
3.Explore过程(探索分析)调用此过程可对变量进行更为深入详尽的描述性统计分析,故称之为探索性统计。
它在一般描述性统计指标的基础上,增加有关数据其他特征的文字与图形描述,显得更加细致与全面,有助于用户思考对数据进行进一步分析的方案。
Descriptives:输出均数、中位数、众数、5%修正均数、标准误、方差、标准差、最小值、最大值、全距、四分位全距、峰度系数、峰度系数的标准误、偏度系数、偏度系数的标准误;Confidence Interval for Mean:平均值的%估计;M-estimators:作中心趋势的粗略最大似然确定,输出四个不同权重的最大似然确定数;Outliers:输出五个最大值与五个最小值;Percentiles:输出第5%、10%、25%、50%、75%、90%、95%位数。
4.Crosstabs过程(列联表分析)调用此过程可进行计数资料和某些等级资料的列联表分析,在分析中,可对二维至n维列联表(RC表)资料进行统计描述和χ2 检验,并计算相应的百分数指标。
boxplot方法盒形图(box plot)是一种用于显示数据分布特征的统计图表,也被称为箱线图。
它以图形的方式展示了一组数据的五数概括(最大值、上四分位数、中位数、下四分位数和最小值),并可以通过添加异常值来展示数据的离群点。
盒形图主要用于比较不同组的数据分布情况或检测异常值。
盒形图由一个矩形(即盒子)和两条线(即须)组成。
矩形的上边界表示数据的上四分位数(Q3),下边界表示数据的下四分位数(Q1),矩形中线表示数据的中位数(Q2)。
须表示数据的范围,一般选择1.5倍的四分位距(即Q3 - Q1)作为须的长度。
超出须的数据点被视为异常值并单独显示。
盒形图的优点在于它提供了数据分布的直观展示,同时能够显示离群值。
通过比较不同组的盒形图,我们可以发现数据的差异和分布特点。
另外,盒形图还可以用于观察数据的对称性、偏态和尾部扩展情况。
盒形图的绘制方法如下:1. 计算数据的五数概括:最大值(max)、上四分位数(Q3)、中位数(Q2)、下四分位数(Q1)和最小值(min)。
2. 计算四分位距(Q3 - Q1),并计算上下须的长度为1.5倍的四分位距。
3. 绘制盒子:在图中绘制一个矩形,上边界表示Q3,下边界表示Q1,矩形中线表示Q2。
4. 绘制须:在图中绘制两条线段,表示数据的范围。
一条连接矩形上边界和最大值,另一条连接矩形下边界和最小值。
5. 标记离群值:将超出须的数据点标记为离群值,并单独显示。
6. 添加坐标轴和标签:在图中添加坐标轴和相应的标签,使图形更具可读性。
通过盒形图,我们可以从视觉上比较多组数据的差异和分布情况。
例如,我们可以比较不同班级学生的成绩分布,或者比较不同地区的气温变化。
盒形图也可以用于观察数据的异常点。
如果某个数据点远离其他数据点的范围,表示该数据点可能是一个异常值,需要进一步分析和检查。
总之,盒形图是一种直观且有效地展示数据分布和异常值的图表。
通过比较不同组的盒形图,我们可以了解数据的差异和特点,从而做出更准确的分析和决策。
箱线图箱线图(Box plot)[编辑]箱线图概述箱线图(Boxplot)也称箱须图(Box-whisker Plot),是利用数据中的五个统计量:最小值、第一四分位数、中位数、第三四分位数与最大值来描述数据的一种方法,它也可以粗略地看出数据是否具有有对称性,分布的分散程度等信息,特别可以用于对几个样本的比较。
[编辑]箱线图的绘制步骤[1](1)画数轴(2)画矩形盒两端边的位置分别对应数据的上下四分位数矩形盒:端边的位置分别对应数据的上下四分位数(Q1和Q3)。
在矩形盒内部中位数位置画一条线段为中位线。
(3)在Q3+15IQR和Q1-15IQR处画两条与中位线一样的(3)在Q3+1.5IQR和Q11.5IQR 处画两条与中位线样的线段,这两条线段为异常值截断点,称其为内限;在Q3+3IQR和Q1-3IQR处画两条线段,称其为外限。
处于内限以外位置的点表示的数据都是异常值,其中在内限与外限之间的异常值为温和的异常值(mild outliers),在外限以外的为极端的异常值(li)的异常值extreme outliers。
(4)从矩形盒两端边向外各画一条线段直到不是异常值的最远点表示该批数据正常值的分布区间点,示该批数据正常值的分布区间。
(5)用“〇”标出温和的异常值,用“*”标出极端的异常值。
(统计软件绘制的箱线图一般没有标出内限和外限。
)[编辑]箱线图的功能箱线图作为描述统计的工具之一,其功能有独特之处,主要有以下几点:1.直观明了地识别数据批中的异常值一批数据中的异常值值得关注,忽视异常值的存在是十分危险的,不加剔除地把异常值包括进数据的计算分析过程中,对结果会带来不良影响;重视异常值的出现,分析其产生的原因,常常成为发现问题进而改进决策的契机。
箱线图为我们提供了识别异常值的一个标准:异常值被定义为小于Q1-1.5IQR或大于Q3+1.5IQR的值。
虽然这种标准有点任意性,但它来源于经验判断,经验表明它在处理需要特别注意的数据方面表现不错。
如何在Excel中使用BoxandWhiskerPlot进行箱线图分析分析如何在Excel中使用Box and Whisker Plot进行箱线图分析箱线图是一种常用的统计图表,用于展示一组数据的分布情况,特别适用于比较多组数据的情况下。
在Excel中,通过使用Box and Whisker Plot(箱线图)的功能,我们可以快速、直观地进行箱线图分析。
本文将介绍如何在Excel中使用Box and Whisker Plot进行箱线图分析。
第一步:准备数据在进行箱线图分析之前,首先需要准备好要分析的数据。
数据可以包括一组数据的多个变量或者多组数据的同一变量。
在Excel中,数据可以以列或者行的形式进行记录,确保每个数据值都标明对应的变量或组别。
第二步:插入箱线图在Excel中插入箱线图非常简单。
首先,选择您准备好的数据区域。
然后,在顶部的工具栏中找到“插入”选项卡,点击“统计图表”中的“Box and Whisker Plot”图标。
第三步:调整图表设置插入箱线图后,您可以进行一些设置以满足特定的分析需求。
例如,您可以更改图表的标题、坐标轴的标签或者调整图表的样式等。
在Excel中,您可以通过右键点击图表区域选择“编辑数据”,进一步调整数据范围或者添加新的数据。
此外,您还可以通过右键点击图表区域选择“更改图表类型”,选择其他类型的箱线图样式。
第四步:分析箱线图一旦箱线图生成,您就可以通过观察图表来分析数据的分布情况。
箱线图通常可以提供以下信息:1. 中位数:箱线图上的中间线代表数据的中位数。
2. 四分位数:箱线图上的箱体代表了数据的四分位数范围,即数据的中间50%范围。
3. 上下限:箱线图上的须子和须线表示了数据的最大值和最小值,同时也可以标记出异常值。
根据箱线图的观察,您可以判断数据的分布是否对称、偏态或者存在异常值。
您还可以通过比较多组数据的箱线图,进行数据之间的比较和分析。
第五步:输出分析结果完成箱线图分析后,您可以将结果输出为Excel表格或者保存为图片。
统计图是用点的位置、线段的升降、直条的长短或面积的大小等来表达资料的内容。
它可以把资料所反映的变化趋势、数量多少、分布状态和相互关系等形象直观地表现出来,以便于读者的阅读、比较和分析。
本章将介绍SPSS在绘制常用统计图方面的功能。
由于计算机绘图具有快速、清晰、规范、可修正以保证准确无误等特点,故在论文、报告等写作中有着十分重要的应用价值。
第一节直条图15.1.1 主要功能调用Graphs菜单的Bar过程,可绘制直条图。
直条图用直条的长短来表示非连续性资料(该资料可以是绝对数,也可以是相对数)的数量大小。
15.1.2 实例操作[例15-1]研究血压状态与冠心病各临床型发生情况的关系,分析资料如下所示,试绘制统计图。
15.1.2.1 数据准备激活数据管理窗口,定义变量名:年龄标化发生率为RATE,冠心病临床型为DISEASE,血压状态为BP。
RATE按原数据输入,DISEASE按冠状动脉机能不全=1、猝死=2、心绞痛=3、心肌梗塞=4输入,BP按正常=1、临界=2、异常=3输入。
15.1.2.2 操作步骤选Graphs菜单的Bar...过程,弹出Bar Chart定义选项框(图15.1)。
在定义选项框的下方有一数据类型栏,系统提供3种数据类型:图15.1 直条图定义选项框Summaries for groups of cases:以组为单位体现数据;Summaries of separate variables:以变量为单位体现数据;Values of individual cases:以观察样例为单位体现数据。
大多数情形下,统计图都是以组为单位的形式来体现数据的。
在定义选项框的上方有3种直条图可选:Simple为单一直条图、Clustered为复式直条图、Stacked为堆积式直条图,本例选复式直条图。
点击Define钮,弹出Define Clustered Bar:Summaries for Groups of Cases对话框(图15.2),在左侧的变量列表中选rate点击 钮使之进入Bars Represent栏的Other snmmary function选项的Variable框,选disease点击 钮使之进入Category Axis框,选bp点击 钮使之进入Define Clusters by框。
箱盒图箱盒图(也称盒图,箱线图等)是在1977年由美国统计学家John Tukey发明,分析数据需要为定量数据。
通过箱盒图,可以直观的探索数据特征。
箱盒图共有两个用途。
分别如下:直观地识别数据中异常值(离群点);直观地判断数据离散分布情况,了解数据分布状态。
箱盒图共由五个数值点构成,分别是最小观察值,25%分位数(Q1),中位数,75%分位数(Q3),最大观察值。
需要特别说明的是,最小观察值和最大观察值定义如下:最小观察值= Q1 – 1.5(IQR), IQR = Q3 –Q1最大观察值= Q3 + 1.5(IQR), IQR = Q3 –Q1如果数据有存在离群点即异常值,他们大于超出最大或者最小观察值,此时此将离群点以“圆点”形式进行展示。
箱盒图的使用场景情况如下:查看可能的异常值数据情况(比如在回归分析前查看是否有异常数据);非参数检验时查看不同类别X时,Y的数据分布情况;其它涉及查看数据分布或者异常值查看时。
SPSSAU操作步骤如下:Step1:找到可视化选项卡下的【箱线图】Step2:选择分析项,点击开始盒状图分析Step3:得到分析结果上图中直观展示出C2时共有2个异常值点,如果对C2进行分析,且分析方法对异常值敏感时(比如相关分析,回归分析等),此时需要对该2个异常值点进行处理成null或者填充(SPSSAU异常值功能),或者在分析时进行过滤筛选。
另提示:SPSSAU提供不同类别X时,Y的盒状图分布,比如上图中可以查看不同性别人群,C1,C2和C3共三项在区分性别时的盒状分布。
得到结果比如C1的盒状图:上图可以看出,在男性时,C1中有2个异常点;女性时,C1共出现1个异常点。
移动到异常点时会显示具体数据。
此时如果有需要,可将此3个异常值进行处理,或者在分析时过滤掉异常值。
除了异常值的观察,还可以通过数据盒状图直观看出,男性在C1上的整体打分,会明显高于女性打分。
如何用SPSS探测及检验异常值一、采用数据探索过程探测异常值SPSS菜单实现程序为: 主菜单–>“Analyze”–>“Descriptive Statistics”–>“Explore……”选项–>“Statistics”按钮–>选中“Outliers”复选框。
输出结果中将列出5个最大值和5个最小值作为异常的嫌疑值。
二、采用箱线图(boxplot)探测异常值箱线图比较直观、形象,易于理解,因此它在统计分析中占有非常重要的地位。
1.利用上述的数据探测过程,在“Explore”对话框中单击“Plots”,出现如图2所示的对话框,通过“Boxplots”方框可以确定箱线图的生成方式。
“Factorlevels together”复选框表示将要为每个因变量创建一个箱线图,“Dependent together”复选框表示将为每个分组变量水平创建箱线图,“None”复选框表示不创建箱线图。
2. 直接利用SPSS中的画图功能实现箱线图,SPSS给出了两种箱线图,一种是基本箱线图,另一种是交互式箱线图。
基本箱线图的SPSS菜单实现为:点击主菜单中的“Graphs”选项,在弹出的一级菜单中选择“Boxplo t……”选项。
交互式箱形图的SPSS菜单实现为:点击主菜单中的“Graphs”选项,在弹出的一级菜单中点击“Interactive”选项,在弹出的二级菜单中选择“Boxplot……”选项。
下面仍以A公司雇员分工种的开始工资为例构造基本箱线图(如图3)。
箱线图中的“○”表示可疑的异常值,此处异常值的确定采用的是“五数概括法”,即:变量值超过第75百分位点和25百分位点上变量值之差的1.5倍(箱体上方)或变量值小于第75百分位点和25百分位点上变量值之差的1.5倍(箱体下方)的点对应的值。
三、SPSS 14 后的新功能Data –>Validation:???如何设置。
四、Z分标准化法(3δ法):±3δ 以外的数据为高度异常值,应予剔除。
1.如何用spss做下列统计图?条形图、箱形图、折线图、散点图。
答:1.条形图做法单击Graphs----Bar,打开条形图主对话框,如果选择simple是简单条形图;如果选择Cluster,是整群的条形图;若Stacked是成堆的条形图.2.箱型图做法单击Analyze----descriptive statistics------explore。
把两个分类变量分别输入Dependent List和Factor List 列表框中,“序号”送入Lable case(s) by 框中。
然后,Plots选择Stem-and-Leaf。
3.折线图做法Graphs---legacy dialogs----Line,选择simple和summaries for groups of cases 选项,单击define ,在line represents 中选择other summary function 选项,选择一个变量送入variable 中,在change summary 中选择mean of values。
4.散点图做法:选Graphs菜单的Scatter...过程,弹出Scatterplot定义选项框,散点图有4种,Simple为单层散点图,Overlay为多层散点图,Matrix 为矩阵散点图,3-D为立体散点图,若选用单层散点图。
然后点击Define钮,弹出Simple Scatterplot对话框,在左侧的变量列表中选data点击钮使之进入Y Axis框,选cate1点击钮使之进入X Axis框, 选cate2点击钮使之进入Set Markers by框。
点击Titles...钮,弹出Titles对话框,在Title栏内输入变量,点击Continue钮返回Simple Scatterplot对话框,再点击OK钮即完成。
2、如何用spss做平均数的差异检验。
请从数据特点、方法选择、输出结果解释三方面进行说明。
箱线图(BoxPlot)
按照样本的顺序(当样本按时间顺序收集时,样本顺序为时间的顺序;当样本按不同零件、设备、员工或不同过程进行采集时,样本顺序为相应的标识顺序)直观地显示每个样本的分布特征的图形。
箱线图的作用:帮助同时分析来自多个方面(如不同零件、人员、设备、过程等)测量数据的分布特征、规律。
箱线图说明:
1/4分位点(Q1)
下规格限(最接近下规格限的值)
下规格限(Lower Limit):Q1-1.5(Q3-Q1);
上规格限(Upper Limit):Q3+1.5(Q3-Q1);
如何使用Minitab软件进行箱线图分析?命令行:Graph >Boxplot
将需要分析的数据列分别输入Graph-Y和Grpah-X栏中,如需要,可对其他设置进行调整。
案例分析:
某研究机构想要对国民的身体素质进行调查,共对92人进行了抽查,调查了体重、性别、身高、脉搏(运动前后)、吸烟与否等信息。
其中按性别的不同对国民的脉搏进行了箱线图分析,如下图所示:
从该箱线图中可以得到如下信息:
男性(1)的平均脉搏约为70,女性(2)的平均脉搏约为78左右,高于男性;
男性脉搏的分布(箱体的高度)较为紧密,女性脉搏的分布比较分散;
最大值出现在女性中,最小值出现在男性中;
两组数据中都没有出现溢出值,表明分布比较正常。
Boxplot(箱线图)
箱线图是一种描述数据分布的统计图,利用它可以从视觉的角度来观察变量值的分布情况。
箱线图主要表示变量值的中位数、四分之一位数、四分之三位数等统计量。
矩形框是箱线图的主体。
上、中、下三条线分别表示变量值的第75、50、25百分位数,变量的50%的观测值落在这一区域中。
触须线是中间的纵向直线。
上截止线是变量值本体最大值;下截止线是变量值本体最小值。
本体值是指除奇异值和极值以外的变量值。
大于上四分位数1.5倍四分位数差的值,或者小于下四分位数1.5倍四分位数差的值,称为奇异值。
大于上四分位数3倍四分位数差的值,或者小于下四分位数3倍四分位数差的值,称为极值。
奇异值和极值都属于异常值。
奇异值也称为温和的异常值(mild outliers),极值也称为极端的异常值(extreme outliers)。
什么是箱线图什么是箱线图箱线图在文献中经常见到,是对数据分布的一种常用表示方法。
但是所见资料中往往说的不是特别清楚,因此需要了解一下箱线图的绘制过程,与部分的意义。
计算过程:1 计算上四分位数,中位数,下四分位数2 计算上四分位数和下四分位数之间的差值,即四分位数差(IQR,interquartile range)3 绘制箱线图的上下范围,上限为上四分位数,下限为下四分位数。
在箱子内部中位数的位置绘制横线。
4 大于上四分位数1.5倍四分位数差的值,或者小于下四分位数1.5倍四分位数差的值,划为异常值(outliers)。
5 异常值之外,最靠近上边缘和下边缘的两个值处,画横线,作为箱线图的触须。
6 极端异常值,即超出四分位数差3倍距离的异常值,用实心点表示;较为温和的异常值,即处于1.5倍-3倍四分位数差之间的异常值,用空心点表示。
7 为箱线图添加名称,数轴等。
在SPSS,SigmaPlot, R,SPlus,Origin等软件中,绘制箱线图非常方便。
下面是R中的一个箱线图举例箱线图举例:在R软件中输入如下命令:x<-c(25, 45, 50, 54, 55, 61, 64, 68, 72, 75, 75,78, 79, 81, 83, 84, 84, 84, 85, 86, 86, 86, 87, 89, 89, 89, 90, 91, 91, 92, 100)boxplot(x)对c向量绘制箱线图。
箱线图(Box plot)箱线图概述箱线图(Boxplot)也称箱须图(Box-whisker Plot),是利用数据中的五个统计量:最小值、第一四分位数、中位数、第三四分位数与最大值来描述数据的一种方法,它也可以粗略地看出数据是否具有有对称性,分布的分散程度等信息,特别可以用于对几个样本的比较。
[编辑]箱线图的绘制步骤[1](1)画数轴(2)画矩形盒两端边的位置分别对应数据的上下四分位数矩形盒:端边的位置分别对应数据的上下四分位数(Q1和Q3)。
SPSS绘制箱线图
Rui-qing Zhu
Shapotou Desert Research and Experiment Station, Cold and Arid Regions Environmental and Engineering Research Institute, Chinese Academy of Sciences, 320, Donggang West Road, Lanzhou, Gansu 730000, PR China
中国科学院寒旱所生态室朱瑞清制作
想要绘制出漂亮的箱线图在文章里用?那么来吧!
SPSS 英文版,
方法一操作如下::
1. 输入各组变量(本例4组变量)
2. 点击“描述性统计分析”,“开发探索”
3. 选入,这里不需要选入自变量,把所有变量都认为是因变量y,也是自己摸出来的!
4.选display 选plots 图形,plots选项继续选Boxplots选:Dependents together,表示把所有自变量同显示在一张图上!哈哈,正是我们想要的!!
5. 也是关键一步!!必须选中间这个。
如果在options选项中选择其它任何两个中的一个,都会出现如下结果:
但是SPSS教程中对这3个missing values选项的描述是:
Exclude cases listwise(默认选项):去除所有含缺失值的个案后再进行分析。
Exclude cases pairwise:表示当分析计算涉及到含有缺失值的变量,则去掉该变量上缺失值的个案。
(但是实际上看来并不是这样!!哈哈,所以,软件还得自己挖抓!光看书是不行的!!)
Report values:表示分组变量中的缺失值将被单独分为一组。
输出频数表时包括缺失值,但将标出分组变量的缺失值。
9
9
9
9
N =
Oct
Sep Aug Sep 20
18
16
14
12
10
8
6
9
注意此图的N=9 而且全都是9!!(而实际上变量1,4,都是21,和20,只要变量6是9个数) 而我们的实验中并不是全都要一致的天数,所以怎么样使得这个数属于自己的个数,而不是按照去掉所有缺失值相对的其他的变量,我挖了很久!!现在终于挖出来了!!哈哈,请看下图!!多漂亮!
9
21
20
21
N =
Oct
Sep Aug Sep 20
18
16
14
12
10
8
6
9
第二种方法:
1. 输入不同个数的变量数据
2.选择Graphs 的Boxplot
3. 选择simple 和summaries of separate variables, 点击define
4.选入所有的变量进去,然后选择options
5. 这一步和第一种绘图方法的一样,也是选对缺失值的处理方法,选择Exclude cases variable by variable。
大功告成,点击ok就好了
5
9
21
20
21
N =
VAR00009
VAR00006
VAR00005
VAR00004
VAR00001
20
18
16
14
12
10
8
6
4
2
1
9
6. 同样地,得到了与第一种方法一样的效果的图,如果需要把x轴的显示改成
自己想要的名称,只需在数据输入界面里更改lable 就可以了!!
59
21
20
21
N =
11月
10月9月8月7月2018161412108642
1
9
7. 但是我自己还没有搞好的一点,我想把字体改大一点,怎么办?
59
21
20
21
N =
11月
10月9月8月7月2018161412108642
1
9
最终在 中找到一些字体,试选择了几个,
是比原来的大多了,可是还是不是想象的那么好!!因为这里只有字体,没有字号!!
59
21
20
21
N =
11月
10月9月8月7月2018161412108642
1
9
这下更不好看了!
59
21
20
21
N =
11月
10月9月8月7月20181614
12108642
1
9
下图也是SPSS 做出来的,不过是版的!! 版的有个不好处就是,当你缩小此plot 的时候,其字体也同样缩小!!而版的则不!!其字体也缩小,但是不是同比例!
更爽的一点是,17版有chart 编辑器!!可以自己更改字号了!! 哦也!!
哈哈!!自由更改!!
更换颜色!!显示网格!!添加注释!!添加另一条y轴!!喜欢!。