散点图
- 格式:pdf
- 大小:162.75 KB
- 文档页数:6
散点图揭示变量关联程度的方法散点图通过点的分布情况来揭示两个变量之间的关联程度。
以下是散点图如何揭示两个变量之间关联程度的详细说明:1. 点的分布模式●正相关:如果散点图中的点大致呈现从左下角到右上角的直线或曲线分布,即随着一个变量的增加,另一个变量也相应增加,这表明两个变量之间存在正相关关系。
正相关意味着一个变量的增加往往伴随着另一个变量的增加。
●负相关:相反,如果散点图中的点大致呈现从左上角到右下角的直线或曲线分布,即随着一个变量的增加,另一个变量相应减少,这表明两个变量之间存在负相关关系。
负相关意味着一个变量的增加往往伴随着另一个变量的减少。
●无关联或弱关联:如果散点图中的点分布散乱,没有明显的上升或下降趋势,那么这表明两个变量之间可能不存在明显的线性关联或关联程度较弱。
然而,这并不意味着两个变量之间完全无关,它们之间可能存在其他类型的关系(如非线性关系)。
2. 趋势线的添加为了进一步揭示两个变量之间的关联程度,可以在散点图中添加趋势线(如线性趋势线、多项式趋势线等)。
趋势线的斜率和截距可以提供关于变量之间关系的量化信息。
例如,线性趋势线的斜率表示一个变量随另一个变量变化的速率,斜率的大小和正负可以反映关联的程度和方向。
3. 点的密集程度散点图中点的密集程度也可以反映两个变量之间的关联程度。
如果点集中分布在某个区域,且形成明显的趋势线或带状分布,那么这表明两个变量之间的关联程度较强。
相反,如果点分布散乱且稀疏,那么这表明两个变量之间的关联程度较弱。
4. 异常值的识别在观察散点图时,还需要注意识别异常值(即与其他点显著不同的点)。
异常值可能是由测量错误、数据录入错误或极端情况引起的。
如果散点图中存在异常值,可能会对关联程度的判断产生影响。
因此,在分析时需要谨慎处理异常值,并考虑其对整体结果的影响。
综上所述,散点图通过点的分布模式、趋势线的添加、点的密集程度以及异常值的识别等方式来揭示两个变量之间的关联程度。
散点图散点图是指在中,数据点在直⾓坐标系平⾯上的,散点图表⽰因变量随⽽的⼤致趋势,据此可以选择合适的函数据点进⾏。
⽤两组数据构成多个坐标点,考察坐标点的分布,判断两变量之间是否存在某种关联或总结坐标点的分布模式。
散点图将序列显⽰为⼀组点。
值由点在中的位置表⽰。
类别由图表中的不同标记表⽰。
散点图通常⽤于⽐较跨类别的聚合数据。
中⽂名散点图外⽂名scatterplot应⽤领域回归分析分 类ArcGIS、三维散点图、散点图矩阵⽤ 途⽐较跨类别的聚合数据⽬录1. 12. 23. ▪4. ▪1. ▪2. 33. 44. 51. 6简介⽤两组数据构成多个坐标点,考察坐标点的分布,判断两变量之间是否存在某种关联或总结坐标点的分布模式。
散点图将序列显⽰为⼀组点。
值由点在中的位置表⽰。
类别由图表中的不同标记表⽰。
散点图通常⽤于⽐较跨类别的聚合数据。
国云数据⼤数据魔镜散点图(2张)分类散点图矩阵当欲同时考察多个变量间的相关关系时,若⼀⼀绘制它们间的简单散点图,⼗分⿇烦。
此时可利⽤散点图矩阵来同时绘制各间的散点图,这样可以快速发现多个变量间的主要相关性,这⼀点在进⾏多元线性回归时显得尤为重要。
[1]合并图册(2张)三维散点图在散点图矩阵中虽然可以同时观察多个变量间的联系,但是两两进⾏平⾯散点图的观察的,有可能漏掉⼀些重要的信息。
三维散点图就是在由3个变量确定的三维空间中研究变量之间的关系,由于同时考虑了3个变量,常常可以发现在两维图形中发现不了的信息。
[2]A r cG I S散点图散点图使⽤数据值作为 x,y 坐标来绘制点。
它可以揭⽰格⽹上所绘制的值之间的关系,还可以显⽰数据的趋势。
当存在⼤量数据点时,散点图的作⽤尤为明显。
散点图与折线图相似,⽽不同之处在于通过将点或数据点相连来显⽰每⼀个变化。
绘制步骤1、单击视图菜单,指向图表,然后单击创建图表 。
2、单击图表类型下拉箭头,然后选择散点图类型。
3、单击图层/表下拉箭头,然后选择含有要绘成图表的数据值的图层或表。
分别简述散点图,雷达图,漏斗图,词云图的特点1、散点图简介:散点图可以显示数据集群的形状,分析数据的分布。
通过观察散点的分布,可以推断变量的相关性。
特点:散点图在有比较多数据时,才能更好的体现数据分布。
2、雷达图(看性能)简介:又被叫做蜘蛛网图,它的每个变量都有一个从中心向外发射的轴线,所有的轴之间的夹角相等,同时每个轴有相同的刻度。
特点:雷达图变量过多会降低图表的可阅读性,非常适合展示性能数据。
3、漏斗图简介:又称倒三角图,漏斗图从上到下,有逻辑上的顺序关系,经常用于流程分析,比如分析哪个环节的流失率异常。
特点:上下之间必须是有逻辑顺序关系的,若是无逻辑关系建议使用柱形图对比。
4.词云图简介:词云图,又称文字云,是将文本中出现频率较高的”关键字“进行可视化展示,词云图过滤掉”了: 大量低质的文本信息,使访问者只需一眼就能了解文本的主旨。
词云图是常用的数据可视化形式,尤其适用于文本数据的处理和分析。
特点:一、四大优点1、视觉冲击更大:词云图比条形图、直方图和词频统计表等更具吸引力,视觉冲击更强,一定程度上符合人们快速阅读的习惯;2、在内容方面更为直接:词云图本身是对文本内容的高度浓缩和精练处理,能更直观地反映出具体文本的内容,在一定程度上可以节省读者时间,使读者在短时间内获得关于文本数据的主要信息;3、用途广泛:词云图可作为一种分析工具,应用于用户画像、舆情分析等场景,也可直接嵌入PPT报表、数据分析产品、视觉大屏等,是实现文本数据价值变现的手段;4、低创作门槛:制作词云图的难度不高,没有数据处理技术的人也能制作出高效果的词云图。
二、三大缺点1、区分度不足:词云图对词表达方式采取了"抓大放小“的处理方法,对于词频差异大的词有较好的区分,但对于颜色相近、出现频率相近的词则没有很好的区分:2、产出没有统一标准:受分词技术、算法、词库质量等因素的制约,同一文本数据,不同的人采用不同的生成方式和模式,得到的词云图可能会有很大差别,有时还会出现一些乱码,影响词云图产出;3、信息缺失:词云图对高频词汇可以做到突出处理,让高频词汇占到C位,但对于大量的低频词或长尾词却无法很好地表达,再加上这类词多数字体较小,可能使读者忽略了其中的一部分;了解了词云图的优缺点后,词云图是常用的数据可视化形式,尤其适用于文本数据的处理和分析。
散点图作文
散点图,顾名思义就是由一些散乱的点组成的图表,这些点在哪个位置,是由其X值和Y值确定的。
所以也叫做XY散点图。
如果将图表区域比做一个盘子,那么这些散图的点就是“大珠小珠落玉盘”,有如一颗颗繁星,分布在广袤的天空。
散点图可以展示数据的分布和聚合情况,可以利用散点图进行四象限分析。
得到趋势线公式;要得到各数据点趋势线的公式、表示趋势线可靠程度的R平方值,只需右键,添加趋势线,然双击选择趋势线,将“显示公式”和“显示R 平方值”勾选上,就可得到趋势线的公式,得到趋势线公式是如此的简单。
散点图还可以辅助制图:由于散点图是利用XY的坐标轴确定其位置,我们完全可以利用这个特点,进行精确制导,“来来来,快快报上你的坐标,我要向你开炮”。
亿图软件如何绘制散点图散点图是一种用来显示不同数据系列的数值之间的关系,也是用来判断两个变量之间相互关系的工具。
散点图、象限图除了在经营分析中经常被用到,在很多报告、论文中也少不了它的身影。
曲曲折折的散点图,既可以很直观的表达出数据的走势,也能够显示出具体的数据点,是一种很好的数据处理方法。
那么,用亿图怎么快速绘制散点图呢?新建“图表”中打开散点图示例。
从软件左侧符号库中拖拽形状开始绘制散点图。
从文件加载数据:可以从例子中选择一个数据样式,拷贝到需要导入的数据文件中,以免导入的数据不能正常的生成图表。
然后再到散点图的右上角点击“从文件加载数据”。
编辑、修改图表中的数据:选中整个散点图,点击图形上方的浮动按钮,如下图所示,可以直接对数据进行修改。
设置X轴、Y轴位置:单击某一个点,就会自动出现一个浮动按钮,鼠标放上去就会出现“设置X轴、Y轴位置”。
隐藏/显示数据标签:点击图片右上角的浮动按钮,选择“显示/隐藏数据标签”,即可将图表中的数据隐藏或显示出来。
修改数据标签:在各个点的又上方会有一个数据标签,双击即可进行编辑修改。
添加一个点:点击图片右上角的浮动按钮选择“添加一个点”。
删除一个点:点击图片右上角的浮动按钮选择“删除一个点”。
设置点数:点击图片右上角的浮动按钮选择“设置点数”,可以一键设置点数。
设置轴的最大及最小值:点击动作菜单设置轴的最大值。
外观选项:数据精度:设置数据显示的精度范围,比如:18.56,[00:20],[0.0:18.5]等等。
数据格式:可以设置格式显示为简约(18.5K)、普通(18500)或者千位分隔符(18,500)。
标记尺寸:用来设置散点图中各点的尺寸大小。
标记样式:用来修改散点图中各点显示的样式,比如:圆形、方形、菱形或者三角形。
X轴刻度值:设置X轴刻度的数量,数值越大,刻度越密集,反之,则越稀疏。
Y轴刻度值:设置Y轴刻度的数量,数值越大,刻度越密集,反之,则越稀疏。
怎么设置散点图的趋势线散点图是一种可以同时展示两个变量之间关系的数据图表。
有时候,我们需要在散点图上描绘出数据的趋势,以便更好地理解所呈现的数据。
散点图上的趋势线可以帮助我们发现数据中的规律,进而预测未来趋势。
本文将介绍如何设置散点图的趋势线。
1. 打开Excel软件,并准备好数据首先,我们需要在Excel软件中打开我们需要制作散点图的数据表格。
在打开数据表格后,务必确保所需要的数据是存在的。
散点图一般需要至少两列数值数据,表示X轴和Y轴的值。
确定数据后,我们可以选择其中数据点两列并使用快捷键Ctrl + 1(或从Excel软件顶部菜单点击“格式化数据系列”)进行相对应的格式化操作。
2. 制作散点图在准备好数据之后,我们需要制作散点图。
从Excel软件菜单栏中选择“插入”选项卡,然后选择散点图。
Excel提供了多种散点图类型,我们可以根据需要来选择。
接下来,选中“散点图”后,会弹出一个下拉菜单,选择制作的格式即可。
3. 添加趋势线在绘制完散点图之后,我们可以添加趋势线来描绘数据的趋势。
在画布中点击任意一个数据点,然后右键单击鼠标,在弹出菜单中选择“添加趋势线”选项。
执行此操作后,Excel会自动添加线形趋势线或移动平均线。
如果想要自定义趋势线,可以将光标单击选中趋势线,并从上横轴中选择样式、颜色、粗细等属性。
4. 根据需求对趋势线进行设置添加趋势线后,我们可以根据自己的需求对其进行设置。
为了让趋势线更加清晰,我们可以对其进行编辑,包括调整线型、颜色和宽度等。
如果需要更进一步,还能在趋势线上显示方程式和R方值。
总结在本文中,我们介绍了如何设置散点图的趋势线。
使用这种简单的数据可视化工具可以帮助我们更好地理解数据。
根据自己的需求更新趋势线使其更加满足需求,能够帮助我们更好地观察和解释数据,以及预测未来的趋势。
散点图判定两变量是否相关什么是散点图用两组数据构成多个坐标点,考察坐标点的分布,判断两变量之间是否存在某种关联或总结坐标点的分布模式。
散点图的作用➢确认两组变量是否相关;➢发现变量这间除因果关系之外的其他关系;➢直观观察或用统计分析两变量潜在关系的强度;➢如不相关,可总结特征点的分布模式。
怎么做1.收集50-100对变量数据,制成数据表例:在所受教育的时间与平均月收入之间可能存在着关系。
散点图-表12.画出坐标轴和坐标点A一般X轴上的变量为独立变量,Y轴上的变量为从属变量;B如果有重复的数值,就在此点上画圈标示,重复几次画几个圈。
(详见图第160页)3.图形分析散点图的形状可能表现为变量间的线性关系、指数关系和对数关系等。
以线性关系为例,散点图一般包括以下五种典型的形状。
A 正相关。
Y的增加可能取决于X的增加。
如受教育的时间增加,平均月收入可能随之上升。
(详见第161页图2)B可能正相关。
X增加,Y可能有些上升。
如除了受教育时间外,月收入还涉及其他变量。
(详见第162页图3)C不相关。
受教育时间和平均月收入之间没关系。
(详见第163页图4)D可能负相关。
当X增加,Y可能有些降低。
除了所受教育的时间之外,可能还存在影响收入的其他变量。
(详见第164页图5)E负相关。
Y的降低可能取决于X的增加。
所受教育的时间增加,平均月收入可能降低。
(详见第165页图6)适用范围当估计两个变量之间存在相关关系时,用散点图进行确认,并观察和确定两者的关系强度。
还可以用散点图分析坐标点的分布模式,如“风险机遇评估矩阵”。
散点图及应用散点图是一种用来展示两个变量之间的关系的数据可视化方法,其中一种变量称为自变量,另一种变量称为因变量。
散点图通过绘制表示两个变量的数据点,并将它们放置在平面坐标系中的适当位置来显示它们之间的关系。
每个数据点代表一个观测值,通常由一个点表示。
这些数据点的分布可以显示出变量之间的可能模式或趋势。
散点图可以用来探索变量之间的相关性、观察异常值或离群值以及检查数据的分布和聚集程度。
散点图的优点之一是它可以很好地可视化两个变量之间的关系,特别是在数据集较大时。
散点图还能提供关于变量之间的趋势或模式的直观理解,例如正相关、负相关或无相关。
通过观察数据点的分布,我们可以发现可能存在的聚集现象或离群值。
散点图还可以用来比较不同组之间的差异或相似性。
此外,散点图也常常用于探索因变量和多个自变量之间的关系,通过在同一个图表中绘制多个自变量的散点图,可以更直观地观察它们与因变量之间的关联。
散点图广泛应用于各个领域,以下是散点图的一些常见应用:1. 自然科学领域:在自然科学研究中,散点图常用来探索和观察实验数据之间的关系。
例如,在物理学中,可以使用散点图来展示压强和体积之间的关系;在生态学中,可以使用散点图来分析物种数量和环境因素之间的关联。
2. 社会科学领域:在社会科学研究中,散点图可用于研究不同因素对社会现象的影响。
例如,在经济学中,可以使用散点图来分析收入和教育水平之间的关系;在心理学中,可以使用散点图来观察人格特征和心理健康之间的相关性。
3. 金融领域:在金融领域中,散点图广泛用于分析股票价格和市场指数之间的关系。
通过观察散点图上的数据点,投资者可以判断股票的价格走势和市场趋势。
4. 地理学领域:在地理学研究中,散点图常用于显示地理现象之间的关系,例如人口密度与经济发展之间的关联。
通过绘制不同地区的散点图,可以更直观地观察到不同地区之间的差异和趋势。
5. 医学领域:在医学研究中,散点图可以用来展示治疗效果与药物剂量之间的关系。
散点图总结散点图是一种常用的数据可视化方式,可以展示两个或多个变量之间的关系。
通过散点图,我们可以观察数据中的模式、趋势或异常点,并进一步分析数据的相关性。
本文将对散点图的基本概念、绘制方法和分析技巧进行总结。
1. 散点图的基本概念散点图是由多个点的坐标表示的,其中每个点代表数据集中的一个观测值。
横轴和纵轴分别表示两个变量,可以是连续变量或离散变量。
通过散点图,我们能够直观地看到变量之间的分布情况,并判断它们之间是否存在关联。
2. 散点图的绘制方法使用Markdown的代码块,我们可以简单地绘制散点图。
import matplotlib.pyplot as plt# 生成示例数据x = [1, 2, 3, 4, 5]y = [3, 5, 4, 2, 6]# 绘制散点图plt.scatter(x, y)plt.xlabel('X')plt.ylabel('Y')plt.title('Scatter Plot')plt.show()运行以上代码,我们可以得到一个简单的散点图,横轴表示X变量,纵轴表示Y变量。
3. 散点图的分析技巧散点图不仅可以展示变量之间的关系,还可以用于发现异常点、模式和趋势。
3.1 异常点的识别在散点图中,如果出现明显偏离其他点的孤立点,很有可能是异常点。
通过观察散点图,我们可以轻松地发现这些异常点,并进一步分析其原因。
3.2 关联性的判断通过观察散点图中的点的分布情况,我们可以大致判断变量之间的关联性。
如果点的分布呈现一条趋势线或曲线,那么这两个变量很可能存在一定的关联。
3.3 模式和趋势的发现散点图还可以帮助我们发现数据中的模式和趋势。
如果点的分布呈现一定的模式,比如成簇分布或线性聚集,那么这可能暗示着数据中存在一些隐藏的规律。
4. 总结散点图是一种常用且有效的数据可视化方式,通过展示变量之间的关系,我们可以观察数据中的模式、趋势或异常点。
散点图[概要]介绍了散点图的概念、用途、适用情况,结合实例利用Minitab软件作为数据分析工具介绍了散点图的绘制步骤、分析与判断以及应用时的注意事项。
[字数]4000。
[正文]散点图是质量管理的老七种工具之一,也称为散布图或相关图,它是研究成对出现的变量间的相互关系的坐标图。
质量管理中经常需要研究两个变量之间的关系,如棉纱的水分含量与伸长度之间的关系,热处理时钢的淬火湿度与硬度的关系,冶炼某种钢时钢液的含碳量与冶炼时间的关系,零件加工时切削用量与加工质量的关系等等。
根据我们的经验,这些变量存在着比较密切的关系,但这些关系又不像数学公式和物理公式那样能够精确表达,散点图是研究这种变量间关系的一种图形工具。
在散点图中,通常将成对出现的数据以坐标点的形式标注在坐标轴上,以形成“点子云”。
通过研究点子云的分布状态,可以推断出变量间的相关模式。
……散点图散点图是质量管理的老七种工具之一,也称为散布图或相关图,它是研究成对出现的变量间的相互关系的坐标图。
质量管理中经常需要研究两个变量之间的关系,如棉纱的水分含量与伸长度之间的关系,热处理时钢的淬火湿度与硬度的关系,冶炼某种钢时钢液的含碳量与冶炼时间的关系,零件加工时切削用量与加工质量的关系等等。
根据我们的经验,这些变量存在着比较密切的关系,但这些关系又不像数学公式和物理公式那样能够精确表达,散点图是研究这种变量间关系的一种图形工具。
在散点图中,通常将成对出现的数据以坐标点的形式标注在坐标轴上,以形成“点子云”。
通过研究点子云的分布状态,可以推断出变量间的相关模式。
在质量改进过程中,散点图作为因果图/因果矩阵的后续工具,通过将影响因素和质量特性的各对数据用直角坐标系表示成图形,直观观察当因素发生变化时质量特性相应出现的变化情况,以判断两个变量间是否存在关系,即X是否是造成问题Y的一个影响因素。
如果存在影响,进一步分析这种影响关系的类型和程度,为后期建立影响因素和质量特性的回归方程提供直接的启发和帮助。
散点图适用于X和Y都是连续型数据的情况。
我们通过一个例子来说明散点图的应用过程,包括散点图的绘制和分析判断。
示例:某质量改进小组通过前期分析认为,车床转速是影响加工产品表面抛光情况的一个影响因素。
为了验证这种推测是否合理,小组收集了不同转速下的产品表面抛光量,数据见表4.21-1,该数据保存在“散点图.MTW”的“表面抛光量1”和“车床转速1”。
表1 表面抛光数据序号表面抛光量1 车床转速11 45.44 2252 42.03 2003 50.10 2504 48.75 2455 47.92 2356 42.79 2377 52.26 2658 50.52 2599 45.58 22110 44.78 2181.散点图的绘制利用Minitab软件绘制散点图的步骤如下:①打开数据文件“散点图.MTW”。
②点击图形>散点图,选择“简单”,并点击确定。
如图1所示,“散点图”对话框中提供6种散点图绘制模式,“简单”、“包含回归”“包含连接线”绘制的是没有分组变量的散点图,“简单”只提供原始的两个变量的坐标图,“包含回归”除包含坐标点外,还绘制拟合坐标点的回归直线,“包含连接线”则是除显示坐标点外,还用折线将坐标点连接起来。
“含组”、“包含回归和组”“包含连接线和组”则是在同一张图形上同时显示两个变量在不同层下的散点图,以观察不同层下X与Y的关系。
先看“简单”这种散点图模式。
图1 “散点图”对话框示意图③在“Y变量”中选择要分析的响应变量“表面抛光量1”,在“X变量”中选择要分析的影响因素“车床转速1”,点击确定。
如图2所示。
需要说明的是,可以同时选择多对“Y变量”和“X变量”,即可以同时绘制多张散点图。
图2 “散点图-简单”对话框示意图得到的散点图如图3所示。
图3 表面抛光量与车床转速的散点图2.散点图的分析与判断散点图的绘制比较简单,更主要的工作是根据绘制的散点图来分析两个变量之间的关系,观察和解释散点图展示出的变量间的相关模式,散点图的分析与判断方法有对照典型图例法、简单象限法和相关系数判别法等。
这里我们仅介绍对照典型图例法和相关系数判别法。
当结果显示两个变量间存在比较密切的关系,并且这种关系能够有合适的工程背景解释时,应进一步进行回归分析来建立变量间的回归方程,详细内容参见第二十四课“回归分析”。
(1)对照典型图例法。
散点图所显示的两个变量间的关系各种各样,但大致可以分为以下六种模式,如图4所示。
如果变量Y 随着X 的增大而有明显的增大趋势,则称两个变量强正线性相关,如果变量Y 随着X 的增大而有明显的减小趋势,则称两个变量强负线性相关。
如果变量Y 随着X 的增大而有一定的增大趋势,则称两个变量弱正线性相关,如果变量Y 随着X 的增大而有一定的减小趋势,则称两个变量弱负线性相关。
如果变量Y 随着X 的变化杂乱无章地变化,则称两个变量不相关,如果变量Y 随着X 的变化而有明显的非线性趋势,则称两个变量非线性相关。
把实际绘制的散点图与下述图中的典型模式进行对照,就可以得到两个变量之间是否相关及相关程度的结论。
本例中,表面抛光量与车床转速呈明显的强正线性相关关系,表明车床转速是影响表面抛光量的一个主要因素,转速越高,表面抛光量越大。
图4 六种常见的散点图模式(2)相关系数判别法。
通过观察散点图,虽然可以对变量间的相关模式做出大致的估计,但是由于缺乏客观的统一判定标准。
这种判断方法的可靠性较低,只是一种定性判断的方法,容易出现不同人有不同判别结果的情况。
为了提高判断的精度,在实际工作中,常采用相关系数检验法,通过计算相关系数,并对相关系数是否为0进行显著性检验来判断相关的类型和相关的程度。
相关系数是对变量之间线性相关关系密切程度的度量,刻画了散点图上点子围绕直线的密切程度。
若相关系数是根据总体全部数据计算的,称为总体相关系数,记为ρ。
若是根据样本数据计算的,称为样本相关系数,记为 r 。
样本相关系数r 的计算公式如下:∑∑∑===−−−−=ni i n i in i i iy y x x y y x x r 12121)()())((ˆ 从相关系数的计算公式容易看出,r 的取值范围为[-1,1],当r >0时,表明两个变量呈正相关,当r <0时,表明两个变量呈负相关。
|r |的大小刻画了两个变量间线性相关的程度,|r |越趋于1表示线性关系越密切,|r |越趋于0表示线性关系越不密切。
Minitab 软件的“统计>基本统计量>相关”模块可以计算两个变量间的相关系数,并进行相关系数检验,告诉我们两个变量间是否确实存在一定的线性关系。
利用表面抛光量的例子示例软件相关系数检验的过程,步骤如下:①打开数据文件“散点图.MTW ”。
②点击统计>基本统计量>相关,在“变量”栏中选择要分析的变量,可同时输入多列,软件将同时输出这些变量两两间的相关系数。
这里选择“表面抛光量1”和“车床转速1”,并点击确定。
如图5所示,默认时,软件自动选择“显示p 值”,即进行相关系数检验,输出每一相关系数对应的 P 值,P 值小于给定的显著性水平,表示相应的两个变量间存在线性相关关系。
图5 “相关”对话框示意图会话窗口的输出如图6所示,“表面抛光量1”与“车床转速1”间的相关系数等于0.883,检验的P 值等于0.001,小于默认的显著性水平0.05,表明表面抛光量与车床转速间存在较强的正线性相关关系。
图6 相关系数检验的输出结果需要注意的是有时相关系数不能正确刻画两个变量间的关系,一般应先绘制散点图,再进行相关系数检验,两者结合来评价两个变量间的关系,图7示意了几种不宜用相关系数描述的情况。
①散点图上有明显的离群点,由于此离群点的影响,计算得到的相关系数会大大减小,影响对两个变量间线性相关程度的评价;②相关系数r 度量的是线性相关,不是一般意义上的相关,对于非线性相关的情形,计算得到的相关系数往往与0比较接近,容易得出两个变量不存在相关关系的结论;③散点图上出现局部聚集的情形,此时计算的相关系数往往较大,容易得出两个变量间存在显著的线性关系的结论,但这种关系到底是否存在,还需进一步有意识地收集在中间的X 的数据来验证。
图7 不宜应用相关系数检验的几种情况 3.应用散点图的注意事项(1)观察是否有异常点或离群点的出现。
对于异常点,应查明发生的原因,它是由于测量错误造成的,还是由于生产或实验条件的突然变化造成的?如果经调查后,表明它是由于不正常的生产条件或错误造成的,就应将它剔除;造成异常点的原因通常包括:操作错误;测量错误;数据记录错误;生产或试验条件变化等。
对于那些找不出明显原因的“异常点”,应慎重处理,它们很可能包含着我们还没有认识到的其它规律。
(2)两个变量间存在相关关系并不能说明两个变量之间具有因果关系,应进一步分析变量间的相关模式是否合乎常理,是否有合适的物理解释。
因为有时两个变量相关可能是同时受到其他因素的影响。
例如,考察小学生的阅读水平,收集了某小学一到五年级学生的鞋码和阅读量的数据,鞋码越大阅读量越大,但并不表明鞋码是影响阅读能力的因素,两者共同受到年龄/年级这个因素的影响。
(3)要注意对数据进行正确的分层,否则可能做出错误的判断。
有时合理的分层可以显示出变量之间的相关性,反之,未分层往往会掩盖变量之间的相关性,或导致虚假的相关性。
如图8所示。
图8 分层与未分层对相关判断的影响利用软件能够绘制包含组的散点图,从而直观观察不同层下两个变量间的关系。
例如在前面的表面抛光案例中,我们收集的是切割工具1下表面抛光量与车床转速的数据,如果同时还收集了切割工具2下表面抛光量与车床转速的数据,把数据放在“表面抛光量”和“车床转速”中,“切割工具类型”变量一栏标识了相应的工具类型,则可以绘制包含组的散点图。
绘制步骤如下:①打开数据文件“散点图.MTW ”;②点击图形>散点图,选择“含组”,相关误判为无关 无关误判为相关离群点 非线性相关局部聚集并点击确定。
③在“Y变量”中选择“表面抛光量”,在“X变量”中选择“车床转速”,在“用于分组的类别变量”中选择“切割工具类型”,点击确定。
如图9所示。
图9 “散点图-含组”对话框示意图绘制得到的散点图如图10所示,从图上可以看出,在切割工具1下,表面抛光量与车床转速呈正线性关系,在切割工具2下,表面抛光量也与车床转速呈正线性关系,但所有数据的点子云并不呈线性关系,如果不分组绘制的话,很可能得出表面抛光量与车床转速不相关的结论。
当层与层之间有差异时,应分别建立不同切割工具下表面抛光量与车床转速的经验表达式。
图10 包含不同层的散点图(4)由散点图和相关系数分析所得的结论,应注重数据的取值范围。