探索性数据分析
- 格式:pdf
- 大小:688.26 KB
- 文档页数:16
探索性数据分析简介 探索性数据分析所谓探索性数据分析( Exploratory Data Analysis )以下简称EDA,是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进⾏探索通过作图、制表、⽅程拟合、计算特征量等⼿段探索数据的结构和规律的⼀种数据分析⽅法。
⽬录 1. 探索性数据分析的简要介绍 2. 探索性数据分析的必要性和意义 3. 探索分析的内容和考察⽅法1. 探索性数据分析的简要介绍 探索性数据分析的简要介绍探索性数据分析的简要介绍探索性数据分析的简要介绍探索性数据分析(Exploratory Data Analysis, EDA)⾸先由 J.W.Tukey提出的。
Tukey从⽣物学家那⾥学了许多分析数据的⽅法,并引⼊统计学中。
1977年,Tukey出版了他的名著《探索性数据分析》(UNDERSTANDING ROBUST AND EXPLORATORY DATA ANALYSIS),引起了统计学界的关注,成为探索分析的第⼀个正式出版物。
80年代后期,我国⼀些统计学者将这本著作介绍给我国统计学界,对我国统计学理论研究和统计事业的实践起到了积极作⽤。
此后,国内也有不少关于探索性数据分析⽅法的⽂章发表到各种统计刊物。
随着计算机技术的飞跃发展,以及数据的复杂性越来越强,实施探索性数据分析成为数据分析中不可替代的⼀部分,从⽽在统计分析的过程中发挥着越来重要的作⽤。
2. 探索性数据分析的必要性和意义 统计学原理告诉我们,搜集到的数据在建⽴数据⽂件以后,并⾮⽴即投⼊统计分析,因为数据结构、数据中隐含的内在统计规律等尚不清楚,需要对数据进⾏考察和探索。
因此,应⽤数据分析的整个操作步骤⼤体可以划分为两⼤阶段:探索阶段和证实阶段。
探索性数据分析分分离出数据的模式和特点,把他们有⼒地显⽰给分析者。
常常,分析者现对数据做探索性数据分析,⽽后才能有把握地选择结构分量或随机分量的模型;探索性数据分析还可以⽤来揭⽰:数据对于常见模型的意想不到的偏离。
探索性数据分析探索性数据分析(Exploratory Data Analysis,简称EDA)是指在进行统计分析之前对原始数据进行了解、探究和可视化的过程。
EDA是研究者对于原始数据的初步感知,帮助研究者更好地理解数据特征,从而进行进一步的分析预测和建模。
EDA主要包含了数据摘要、单变量分析和多变量分析三个部分。
1. 数据摘要数据摘要是指将数据整体概括成一般性描述性统计量的方法,通常采用以下统计量:(1)中心趋势度量:平均值、中位数、众数等;(2)离中趋势度量:方差、标准差、中位数绝对偏差等;(3)分布形态度量:偏度、峰度和频数分布图等。
这些统计量可以帮助我们了解数据的整体特征和分布情况,然后利用图表展现出来,便于直观地理解数据的基本属性和规律。
2. 单变量分析单变量分析是指对单一变量(即数据集中的一个字段)进行统计描述和可视化展示。
通过单变量分析,我们可以得到以下信息:(1)数据类型:对于定量数据可以得到最大值、最小值、平均数等,对于定性数据可以得到类别的名称和频率分布情况。
(2)数据分布:绘制频率分布表格或统计图,如直方图、核密度图等,以此判断数据是否符合正态分布或其他分布规律。
单变量分析能够帮助我们从一个维度出发,探究单个变量的差异性和分布特征,为后续多变量分析创造条件。
3. 多变量分析多变量分析是指在研究对象中同时考虑两个或多个变量,找出它们之间的相互关系和作用。
多变量分析通常采用散点图、折线图、箱形图、气泡图等统计图形展现数据之间的相互影响及相关性,其主要目的是确定各变量之间的关系强弱,进而展示不同因素之间的相互作用,辅助研究者选择不同的预测模型,提高研究的准确性。
总结探索性数据分析不仅可以用于理解基础统计知识,更能发掘先前未被发现的信息,为接下来的深入统计分析和建模提供依据和契机。
EDA旨在通过基本的统计方法、图表展示结合常识判断和领域知识,使数据具有更深入、丰富的信息价值,提高数据处理后的可信度和准确度。
数据探索性分析数据探索性分析(Exploratory Data Analysis, EDA)指的是针对数据的分布、异常值、缺失值等进行的初步分析,以便更好地理解数据、发现数据背后隐含的规律和特征、规避数据分析的误区和偏差,并为后续的数据建模、回归分析和机器学习等提供基础。
1. 数据的可视化数据的可视化是EDA中最重要的一个环节,它能够清晰地向分析者展示数据的分布规律、异常点和异常值,并引导分析者进一步探索数据的特征和规律。
常见的数据可视化方式包括:直方图、散点图、箱型图、饼图、条形图、折线图等。
以直方图为例,它可以通过统计数据落在连续范围内的频次,将数据分布情况展现在分析者面前。
直方图的横纵坐标分别表示数值范围和该范围内的频率(或密度),直方图主要被用来展现数值型数据的分布,其中,分布的“峰度”可以从直方图中直观地观察到。
2. 数据的清理数据的清理是EDA中另一个重要的环节,它主要是为了处理数据中的异常值、缺失值、重复值、格式不一致的数据等,以便更好地准备和处理数据,并为后续的分析提供基础。
在数据清理时,需要注意以下要点:(1)异常值处理。
异常值是指数据中与大部分数据存在显著偏差或数量级差异较大的点。
例如,一批房价数据中存在一个房价高达1亿的异常点,这时需要依据业务逻辑或分析目的,将其判定为异常值并进行处理,例如剔除、替换、平滑等。
(2)缺失值处理。
缺失值是指数据中出现空值或NaN值的情况。
在数据分析过程中,需要考虑如何填充缺失值、删除含有缺失值的行或列、设置默认值等。
(3)重复值处理。
重复值是指数据中同一个样本出现了多次的情况。
处理重复值时,需要根据具体业务逻辑和数据需求,确定重复值的处理策略,例如保留一个、剔除所有、合并等。
3. 特征提取与工程特征提取是指从原始数据中提取与目标变量具有相关性并能够代表样本的特征变量,以便更好地训练模型并进行数据分析。
在特征提取时,需要从多个方面考虑特征的筛选和提取,包括:(1)特征的重要性。
数据探索性分析报告数据探索性分析(Exploratory Data Analysis,简称EDA)是数据科学中非常重要的一项任务,其目的是通过对数据的初步探索和可视化来了解数据集的基本特征、关联性和异常情况。
通过EDA,我们可以发现数据中的潜在模式和趋势,为后续的数据建模和决策提供基础。
数据初探在进行数据探索性分析之前,首先要对数据集进行初步的了解。
我们需要了解数据的来源、结构、格式以及变量的含义。
这样能够帮助我们正确理解数据,并针对性地选择合适的分析方法和技巧。
数据集概览首先,我们来看一下数据集的概览。
通过查看数据集的前几行和数据的基本统计信息,可以对数据的整体情况有一个初步的了解。
同时,我们还可以观察到数据集中是否存在缺失值、异常值等问题。
数据的基本统计信息利用常见的统计指标,如平均值、中位数、标准差等,可以了解数据的集中趋势、离散程度等。
这些指标能够帮助我们对数据的整体特征有一个直观的了解。
缺失值和异常值的处理当数据集中存在缺失值时,我们需要进行相应的处理。
常见的方法包括删除缺失值、使用均值或中位数填充缺失值等。
对于异常值的处理,可以使用统计方法或可视化工具来检测和处理异常值。
数据分布分析在进行数据探索性分析时,我们通常关注的是数据的分布情况。
通过对数据的分布进行分析,我们可以判断数据是否服从某一特定的分布,并了解数据的偏度、峰度等特征。
这对于选择合适的建模方法和参数调整非常重要。
单变量分布分析对于单一变量的分布分析,可以使用直方图、箱线图、密度图等工具。
通过这些图表,我们可以观察数据的分布形态、峰度、偏度等特征,并根据需要进行数据预处理,如数据平滑、变换等操作。
多变量分布分析在多变量分布分析中,我们通常关注的是变量之间的关系和影响。
通过散点图、热力图、相关系数等工具,可以发现变量之间的线性、非线性关系,并进一步了解变量之间的相关性。
数据可视化是进行数据探索性分析的重要手段之一。
通过合适的图表和可视化工具,可以将复杂的数据转化为直观的视觉表达,便于我们直观地发现数据的模式和趋势。
探索性数据分析的重要性数据分析是一种通过收集、整理、解释和展示数据来获取有关现象、趋势和关系的信息的过程。
在数据分析中,探索性数据分析(Exploratory Data Analysis,简称EDA)是一种重要的方法,它通过可视化和统计技术来揭示数据中的模式、异常和趋势,帮助我们更好地理解数据并做出合理的决策。
一、揭示数据的基本特征探索性数据分析可以帮助我们揭示数据的基本特征,包括数据的分布、中心趋势和离散程度。
通过绘制直方图、箱线图和散点图等可视化工具,我们可以直观地了解数据的分布情况,判断数据是否服从正态分布或其他特定的分布模型。
同时,通过计算均值、中位数、标准差等统计指标,我们可以了解数据的中心趋势和离散程度,进一步分析数据的特点和规律。
二、发现数据的关联关系探索性数据分析可以帮助我们发现数据之间的关联关系。
通过绘制散点图、热力图和相关系数矩阵等可视化工具,我们可以直观地了解不同变量之间的相关性。
这有助于我们发现变量之间的线性或非线性关系,进一步分析变量之间的因果关系或相互影响,为后续的建模和预测提供依据。
三、识别数据的异常值和缺失值探索性数据分析可以帮助我们识别数据中的异常值和缺失值。
异常值是指与其他观测值明显不同的观测值,可能是由于测量误差或数据录入错误导致的。
通过绘制箱线图和散点图等可视化工具,我们可以直观地发现异常值,并进一步分析其原因和影响。
缺失值是指数据中缺少某些观测值的情况,可能是由于数据采集过程中的遗漏或数据处理过程中的错误导致的。
通过计算缺失值的比例和分布情况,我们可以评估数据的完整性,并采取相应的处理方法。
四、支持决策和预测探索性数据分析可以为决策和预测提供支持。
通过对数据的探索和分析,我们可以了解数据的特点和规律,为决策提供依据。
例如,在市场营销中,通过对客户数据的探索性数据分析,我们可以了解不同客户群体的特点和需求,为制定精准的营销策略提供参考。
在金融风控中,通过对历史交易数据的探索性数据分析,我们可以发现不同变量之间的关联关系,为建立风险模型和预测未来风险提供依据。
关于EDA的概述探索性数据分析(Exploratory Data Analysis,EDA)是指对收集到的数据进行初步观察、分析、总结和可视化的过程。
它是数据分析的第一步,通过这一步骤,我们可以对数据有一个整体的认识,发现数据中的模式和趋势,为下一步的建模和预测提供一定的指导。
EDA可以包括以下几个主要步骤:1.数据清理:数据清理是EDA的关键步骤之一,它涉及数据集中的缺失值、异常值、重复值等问题的处理。
缺失值是指数据集中一些变量的部分观测值缺失的情况,异常值是指数据集中与其他观测值相比具有明显差异的观测值,重复值是指数据集中出现多次的相同观测值。
通过清除这些问题数据,可以提高后续分析的准确性和可靠性。
2.描述统计分析:描述统计分析是对数据集的基本统计特征进行总结和描述的过程。
通过计算数据的均值、中位数、标准差、极值等统计指标,可以直观地了解数据的中心趋势、分散程度、数据分布形态等情况。
此外,还可以通过制作直方图、箱线图、散点图等可视化图形来展示数据的分布和关系。
3.变量关系分析:变量关系分析是研究不同变量之间关系的过程。
通过计算变量之间的相关系数、绘制散点图、矩阵图等可视化图形,可以了解变量之间的线性相关性、非线性相关性、正负相关性等情况。
进一步分析不同变量之间的关系,可以帮助我们发现变量之间的潜在模式和规律。
4.探索性可视化:探索性可视化是通过制作各种图表来呈现数据的分布、关系和趋势的过程。
常用的探索性可视化图形包括直方图、箱线图、散点图、折线图、热力图等。
这些图形可以帮助我们更好地理解数据的特征和结构,发现数据中的模式和趋势。
5.假设检验:在数据分析中,我们常常会提出一些假设,然后通过统计方法进行假设检验。
假设检验的目的是判断从样本中得到的统计结果是否支持我们所提出的假设。
在EDA中,可以使用T检验、卡方检验、方差分析等常见的假设检验方法来对数据进行验证。
6.结论总结:完成以上步骤后,我们可以对数据进行总结和结论。
探索性数据分析在当今这个数据驱动的时代,数据无处不在。
从企业的运营数据到个人的日常行为数据,从科学研究中的实验数据到社交媒体上的互动数据,我们生活在一个被数据包围的世界里。
然而,仅仅拥有大量的数据并不意味着我们就能从中获得有价值的信息和见解。
这时候,探索性数据分析(Exploratory Data Analysis,简称 EDA)就成为了我们打开数据宝藏的关键钥匙。
那么,什么是探索性数据分析呢?简单来说,探索性数据分析是一种对数据进行初步分析和理解的方法。
它的目的不是为了得出确定的结论或进行精确的预测,而是帮助我们更好地了解数据的特征、结构和潜在的关系。
通过探索性数据分析,我们可以发现数据中的异常值、趋势、模式和相关性,从而为后续更深入的分析和建模提供方向和基础。
在进行探索性数据分析时,我们首先要做的是对数据进行收集和整理。
这可能包括从各种数据源获取数据,然后进行数据清洗、转换和整合,以确保数据的质量和一致性。
例如,如果我们正在分析一家电商公司的销售数据,可能需要处理缺失值、纠正错误的数据录入、将不同格式的数据统一起来等。
接下来,我们可以通过数据可视化来直观地探索数据。
数据可视化是探索性数据分析的重要手段之一,它能够将复杂的数据以图形、图表的形式展现出来,使我们更容易发现数据中的规律和趋势。
常见的数据可视化工具包括柱状图、折线图、饼图、箱线图、散点图等。
比如,通过绘制柱状图,我们可以快速比较不同产品类别的销售额;通过折线图,我们可以观察销售额随时间的变化趋势;通过散点图,我们可以探究两个变量之间的关系。
除了数据可视化,我们还可以运用一些统计方法来描述数据的特征。
例如,计算数据的均值、中位数、标准差、四分位数等统计量,以了解数据的集中趋势和离散程度。
同时,我们也可以进行数据分组和频率分布的分析,了解不同类别或区间的数据出现的频率。
在探索性数据分析的过程中,我们要时刻保持敏锐的观察力和好奇心。
注意那些异常的数据点,它们可能是数据录入错误,也可能是隐藏着重要信息的关键线索。
探索性数据分析的方法和技巧数据分析是指通过收集、整理和解释数据,从中获取有价值的信息和洞见的过程。
在实际应用中,探索性数据分析(Exploratory Data Analysis,EDA)是数据分析的重要步骤之一,它帮助分析人员对数据进行初步的理解和洞察。
本文将介绍探索性数据分析的方法和技巧。
一、数据的收集和整理在进行探索性数据分析之前,首先需要获取相应的数据集,并进行必要的数据整理工作。
数据的收集可以通过问卷调查、实地观察、实验设计等方式进行。
在搜集数据的过程中,要注重数据的准确性和完整性,避免数据的错误和缺失。
数据整理是指对收集到的数据进行清洗、整合和转换的过程。
这一步骤的目的是为了确保数据的可用性和一致性。
常见的数据整理工作包括去除异常值、填补缺失值、转换数据类型等。
二、数据的描述性统计分析在进行探索性数据分析时,首先要对数据进行描述性统计分析。
描述性统计分析是指通过计算和展示数据的基本统计指标(如均值、标准差、中位数、最大值和最小值等)来描述数据的特征。
利用图表可以直观地展示数据的分布情况和变化趋势。
常用的图表包括直方图、散点图、折线图等。
通过图表的展示,我们可以直观地发现数据中的模式、异常值和趋势。
三、数据的关联性分析关联性分析是指研究变量之间的相关关系。
在探索性数据分析中,我们可以通过计算相关系数来衡量变量之间的线性相关程度。
常用的相关系数有皮尔逊相关系数和斯皮尔曼相关系数。
除了计算相关系数,还可以利用散点图来展示变量之间的关系。
散点图能够直观地显示变量之间的分布情况和趋势,帮助我们分析变量之间的关联性。
四、数据的可视化展示数据可视化是探索性数据分析中的重要环节。
通过图表和图形的展示,可以更加直观地理解和解释数据,发现数据中的规律和异常。
常见的数据可视化方式包括柱状图、饼图、箱线图、热力图等。
选择合适的图表类型,可以根据数据的特征和所要表达的内容,使得数据的可视化展示更加清晰和有效。
大数据分析师如何进行数据探索性分析数据探索性分析(EDA)是大数据分析师在进行数据分析之前必须要进行的过程。
它是通过对数据进行可视化、统计和图表分析等手段,深入了解数据的特征、关系和潜在模式的过程。
在没有明确目标的情况下,EDA可以帮助分析师发现数据中的规律、异常、趋势和关联等信息,为后续的数据分析工作提供重要的参考依据。
1. 数据收集和整理在进行数据探索性分析之前,首先要收集所需的数据,并进行详细的整理和处理。
这包括数据清洗、缺失值处理、异常值处理等环节,确保数据的准确性和完整性。
此外,还可以进行数据抽样和标准化等操作,以便更好地进行数据分析。
2. 描述性统计分析在EDA过程中,进行描述性统计分析是十分重要的。
通过计算数据的基本统计量,如平均值、中位数、标准差等,可以对数据的分布和集中程度进行初步了解。
同时,绘制直方图、饼图、箱线图等图表,可以使数据的分布情况更加直观。
此外,还可以使用散点图和相关系数等分析方法,来研究不同变量之间的关系。
3. 数据可视化分析数据可视化是EDA过程中不可或缺的一部分。
通过绘制各种图表和图形,可以更加清晰地呈现数据的特征和规律。
例如,折线图可用于展示随时间变化的数据趋势,柱状图可用于比较不同类别的数据,热力图可用于显示两个变量之间的相关程度等等。
数据可视化不仅能够提供更直观的数据信息,同时也有助于发现数据中的异常和异常模式。
4. 聚类分析聚类分析是一种无监督的数据探索方法,可以将相似的样本归为一类。
通过聚类分析,可以探索出数据的内在结构和分组特点。
常用的聚类方法有K均值、层次聚类等。
在聚类分析中,可以根据不同的特征和变量进行分析,发现潜在的数据模式和类别,为后续的数据挖掘和建模工作提供支持。
5. 关联分析通过关联分析,可以发现数据之间的关联关系和相互依赖。
其中,最经典的关联分析算法是Apriori算法。
关联规则可以帮助分析师发现数据中的频繁项集和关联规则,从而发现数据中的潜在模式和规律。
探索性数据分析探索性数据分析是利用ArcGIS提供的一系列图形工具和适用于数据的插值方法,确定插值统计数据属性、探测数据分布、全局和局部异常值(过大值或过小值)、寻求全局的变化趋势、研究空间自相关和理解多种数据集之间相关性。
探索性空间数据分析对于深入了解数据,认识研究对象,从而对与其数据相关的问题做出更好的决策。
一数据分析工具1.刷光(Brushing)与链接(Linking)刷光指在ArcMap数据视图或某个ESDA工具中选取对象,被选择的对象高亮度显示。
链接指在ArcMap数据视图或某个ESDA工具中的选取对象操作。
在所有视图中被选取对象均会执行刷光操作。
如在下面章节将要叙述的探索性数据分析过程中,当某些ESDA工具(如直方图、V oronoi图、QQplot图以及趋势分析)中执行刷光时,ArcMap数据视图中相应的样点均会被高亮度显示。
当在半变异/协方差函数云中刷光时,ArcMap数据视图中相应的样点对及每对之间的连线均被高亮度显示。
反之,当样点对在ArcMap数据视图中被选中,在半变异/协方差函数云中相应的点也将高亮度显示。
2.直方图直方图指对采样数据按一定的分级方案(等间隔分级、标准差分级)进行分级,统计采样点落入各个级别中的个数或占总采样数的百分比,并通过条带图或柱状图表现出来。
直方图可以直观地反映采样数据分布特征、总体规律,可以用来检验数据分布和寻找数据离群值。
在ArcGIS中,可以方便的提取采样点数据的直方图,基本步骤为:1)在ArcMap中加载地统计数据点图层。
2)单击Geostatistical Analyst模块的下拉箭头选择Explore Data并单击Histogram。
3)设置相关参数,生成直方图。
A.Bars:直方图条带个数,也就是分级数。
B.Translation:数据变换方式。
None:对原始采样数据的值不作变换,直接生成直方图。
Log:首先对原始数据取对数,再生成直方图。
Box-Cox:首先对原始数据进行博克斯-考克斯变换(也称幂变换),再生成直方图。
yer:当前正在分析的数据图层。
D.Attribute:生成直方图的属性字段。
从图3.1a和图3.1b的对比分析可看出,该地区GDP原始数据并不服从正态分布,经过对数变换处理,分布具有明显的对数分布特征,并在最右侧有一个明显的离群值。
在直方图右上方的窗口中,显示了一些基本统计信息,包括个数(count)、最小值(min)、最大值(max)、平均值(mean)、标准差(std. dev.)、峰度(kurtosis)、偏态(skewness)、1/4分位数(1-st quartile )、中数(median )和3/4分位数(3-rd quartile ),通过这些信息可以对数据有个初步的了解。
四分位数(1-st quartile ):如果将N 个数值由小至大排列,第1/4N 个数就是第一个四分位数,通常以Q 1表示;第2/4N 个数就是第二个四分位数(Q 2),即中位数;第3/4N 个数就是第三个四分位数(Q 3)。
四分位距即为:Q = Q 3 - Q 1,它将极端的前1/4和后1/4去除,而利用第三个与第一个分位数的差距来表示分散情形,因此避免了极端值的影响。
但它需要将数据由小到大排列,且没有利用全部数据。
峰度(kurtosis ):用于描述数据分布高度的指标,正态分布的峰度等于3。
如果数据的峰度大于3,那么该数据的分布就会比正态分布高耸且狭窄,此时数据比正态分布集中于平均数附近;反之,如果峰度小于3,数据的分布就比正态分布平坦且宽阔,此时数据比正态分布分散。
偏态(skewness ):用于描述数据分布左右对称性的指标,正态分布的偏态等于0。
如果数据的直方图向右延伸,即大部分的数据集中于左边,则偏态大于0,称为正偏态或右偏态。
如果数据的直方图向左延伸,即大部分的数据集中于右边,则偏态小于0,称为负偏态或左偏态。
如图3.1,由原始数据的直方图上可看出,原始数据的分布属于正偏态,经过变换后的数据比正态分布的数据更加集中于平均值附近。
3. Voronoi 图V oronoi 地图示由在样点周围形成的一系列多边形组成的。
某一样点的V oronoi 多边形的生成方法是:多边形内任何位置距这一样点的距离都比该多边形到其他样点的距离要近。
V oronoi 多边形生成之后,相邻的点就被定义为具有相同连接边的样点。
在ArcGIS 中生成数据的V oronoi 地图的基本步骤如下:1) 在ArcMap 中加载图层。
2) 单击Geostatistical Analyst 模块下的下拉箭头选择Explore Data 并单击V oronoi Map 。
3) 设置参数,生成V oronoi 图,如图3.2所示。
(a )原始数据直方图 (b )数据变换后的直方图图3.1 直方图示意图A . Type :分配和计算多边形值的方法。
B . L ayer :当前正在分析的数据图层。
C . A ttribute :生成直方图的属性字段。
V oronoi Map 对话框Type 选项提供了多种分配和计算多边形值的方法:⊙ 简化(simple ):分配到某个多边形单元的值是该多边形单元的值。
⊙ 平均(mean):分配到某个多边形单元的值是这个单元与其相邻单元的平均值。
⊙ 模式(mode):所有的多边形单元被分为五级区间,分配到某个多边形单元的值是这个单元与其相邻单元的模式(即出现频率最多的区间)。
⊙ 聚类(cluster):所有的多边形单元被分配到这五级区间,如果某个多边形单元的级区间与它的相邻单元的级区间都有不同,这个单元用灰色表示,以区别于其他单元。
⊙ 熵(Entropy):所有单元都根据数据值的自然分组分配到这五级中。
分配到某个多边形单元的值是根据该单元和其相邻单元计算出来的熵。
⊙ 中值(median):分配给某多边形的值是根据该单元和其相邻单元的频率分布计算的中值。
⊙ 标准差(StDev):分配给某多边形的值是根据该单元和其相邻单元计算出的标准差。
⊙ 四分位数间间隔(IQR):第一和第三四分位数是根据某单元和其相邻单元的频率分布得出的。
分配给都多边形单元的值是用第三四分位数减去第一四分位数得到的差。
V oronoi 地图可以了解到每个采样点控制的区域范围,也可以体现出每个采样点对区域图3.2 V oronoi 图内插的重要性。
利用V oronoi 地图就可以找出一些对区域内插作用不大且可能影响内插精度的采样点值,可以将它剔除。
用聚类和熵方法生成的V oronoi 图也可用来帮助识别可能的离群值。
自然界中,距离相近的事物比距离远的事物具有更大的相似性。
熵值是量度相邻单元相异性的一个指标。
因此,局部离群值可以通过高熵值的区域识别出来。
同样,一般认为某个特点单元的值至少应与它周围单元中的某一个单元的值相近。
因此聚类方法也能将那些与周围单元不相同的单元识别出来。
4. QQPlot 分布图QQ 图提供了另外一种度量数据正态分布的方法,利用QQ 图,可以将现有数据的分布与标准正态分布对比,如果数据越接近一条直线,则它越接近于服从正态分布。
(1)正态QQPlot (Normal QQPlot )分布图正态QQPlot 分布图主要用来评估具有n 个值得单变量样本数据是否服从正态分布。
构建正态QQPlot 分布图的通用过程维(图3.3):1) 首先对采样值进行排序。
2) 计算出每个排序后的数据的累积值(低于该值的百分比)。
3) 绘制累积值分布图。
4) 在累积值之间使用线形内插技术,构建一个与其具有相同累积分布的理论正态分布图,求出对应的正态分布值。
5) 以横轴为理论正态分布值,竖轴为采样点值,绘制样本数据相对于其标准正态分布值的散点图。
图3.3为样本数据的正态QQPlot 分布图。
如果采样数据服从正态分布,其正态QQPlot 分布图中采样点分不应该是一条直线。
如果有个别采样点偏离直线太多,那么这些采样点可能是一些异常点,应对其进行检验。
此外,如果在正态QQ 图中数据没有显示出正态分布,那么就有必要在应用某种克里格插值法之前将数据进行转换,使之服从正态分布。
在ArcGIS 中生成数据的正态QQPlot 分布图的主要步骤如下:图3.3 正态QQplot 示意图1) 在ArcMap 中加载地统计数据点图层。
2) 单击Geostatistical Analyst 模块下的下拉箭头选择Explore Data 并单击Normal QQPlot 。
3) 设置参数,生成Normal QQPlot 图(图3.4)。
A . Translation :数据变换方式。
a. None :对原始数据的值不作变换,直接生成QQPlot 图。
b. Log :首先对原始采样数据取对数,再生成QQPlot 图。
c. Box-cox :首先对原始采样数据进行博克斯-考克斯变换(也称幂变换),再生成正态QQPlot 图。
B . L ayer :当前正在分析的数据图层。
C . A ttribute :生成Normal QQPlot 分布图使用的属性字段。
从图3.4a 可看出,该地区GDP 的采样数据不符合正态分布,但对其进行对数变换处理后(图3.4b ),数据近似符合正态分布。
仅从采样点值的分布看,在小值区域和大值区域,存在个别离群点值。
(2)构建一个普通QQPlot 分布图普通QQPlot (General QQPlot )分布图用来评估两个数据集的分布的相似性。
普通QQPlot 分布图通过两个数据集中具有相同累积分布值作图来生成,如图3.5所示。
累积分布值的作法参阅正态QQPlot 分布图内容。
在ArcGIS 中生成数据的普通QQPlot 分布图的主要步骤如下:1)在ArcMap 中加载地统计数据点图层。
2)单击Geostatistical Analyst 模块下的下拉箭头选择Explore Data 并单击General QQPlot 。
(a )原始数据正态QQPlot 图 (b )经Log 变换后的正态QQPlot 图图3.4 正态QQPlot 分布图3)设置参数,生成General QQPlot 图(图3.6)。
普通QQPlot 分布图揭示了两个物体(变量)之间的相关关系,如果在QQPlot 图中曲线呈直线,说明两物体呈一种线形关系,可以用一元一次方程式来拟合。
如果QQPlot 图中曲线呈抛物线,说明两物体的关系可以用个二次多项式来拟合。
5. 趋势分析工具趋势分析工具提供用户研究区采样点转换为以感兴趣的属性值为高度的三维透视图,允许用户从不同视角分析采样数据集的全局趋势。
图3.5 普通QQPlot 示意图图3.6 普通QQPlot 分布图在ArcGIS 中趋势分析的主要步骤有:1)在ArcMap 中加载地统计数据点图层。