数据挖掘中数据质量分析方法简介
- 格式:doc
- 大小:778.00 KB
- 文档页数:10
数据分析挖掘方法数据分析挖掘方法是指通过对大量数据进行分析和挖掘,从中发现有价值的信息和规律的方法。
在当今信息爆炸的时代,数据分析挖掘方法成为了各行各业必不可少的工具,它可以帮助我们更好地理解数据背后的含义,发现隐藏在数据中的规律和趋势,为决策提供有力的支持。
在本文中,我们将介绍几种常见的数据分析挖掘方法,希望能为大家在实际工作中提供一些帮助。
首先,数据分析挖掘的方法之一是统计分析。
统计分析是通过对数据进行分类、整理、汇总和描述,从而得出数据的基本特征和规律。
在统计分析中,我们常常会用到一些基本的统计指标,比如均值、中位数、标准差等,来描述数据的集中趋势和离散程度。
通过统计分析,我们可以更好地了解数据的分布情况,找出异常值和特殊规律,为后续的数据挖掘工作奠定基础。
其次,数据分析挖掘的方法之二是机器学习。
机器学习是一种通过训练模型来发现数据中的规律和趋势的方法。
在机器学习中,我们通常会使用一些算法来构建模型,比如决策树、支持向量机、神经网络等。
通过对模型的训练和优化,我们可以发现数据中隐藏的模式和规律,从而实现对数据的预测和分类。
机器学习在数据分析挖掘中有着广泛的应用,它可以帮助我们处理大规模复杂的数据,发现其中的规律和趋势。
另外,数据分析挖掘的方法之三是文本挖掘。
文本挖掘是指通过对文本数据进行分析和挖掘,从中发现有价值的信息和知识的方法。
在文本挖掘中,我们通常会使用一些自然语言处理的技术,比如分词、词性标注、命名实体识别等,来对文本数据进行处理和分析。
通过文本挖掘,我们可以从海量的文本数据中挖掘出有用的信息和知识,比如情感分析、主题识别、舆情监控等,为用户提供更好的信息服务和决策支持。
最后,数据分析挖掘的方法之四是数据可视化。
数据可视化是指通过图表、图形、地图等可视化手段,将数据转化为直观、形象的表达方式,从而更好地理解数据的含义和规律。
在数据可视化中,我们通常会使用一些工具和技术,比如Tableau、Power BI、D3.js等,来将数据进行可视化展示。
数据清洗数据分析数据挖掘数据清洗、数据分析和数据挖掘是现代数据科学领域中非常重要的工作环节。
这些任务的目标是从原始数据中提取有用的信息,以支持决策制定、问题解决和业务发展。
本文将详细介绍数据清洗、数据分析和数据挖掘的定义、流程和方法。
一、数据清洗数据清洗是指对原始数据进行预处理,以去除噪声、纠正错误和填补缺失值,从而提高数据质量和可用性。
数据清洗的步骤包括数据收集、数据评估、数据转换和数据验证。
1. 数据收集数据收集是指从各种来源收集原始数据,可以是数据库、文件、传感器等。
收集到的数据可能包含重复值、错误值和缺失值。
2. 数据评估数据评估是对收集到的数据进行质量评估,检查数据的完整性、准确性和一致性。
常用的评估方法包括数据统计、数据可视化和数据质量指标。
3. 数据转换数据转换是指对评估后的数据进行处理,包括去除重复值、纠正错误值和填补缺失值。
常用的转换方法包括数据清理、数据整合和数据变换。
4. 数据验证数据验证是对转换后的数据进行验证,确保清洗后的数据符合预期的质量要求。
常用的验证方法包括数据抽样、数据比对和数据验证规则。
二、数据分析数据分析是指对清洗后的数据进行统计分析和模式识别,以发现数据中的规律、趋势和关联性。
数据分析的步骤包括数据探索、数据建模和数据解释。
1. 数据探索数据探索是对清洗后的数据进行探索性分析,包括描述统计、数据可视化和相关性分析。
通过数据探索,可以了解数据的基本特征和分布情况。
2. 数据建模数据建模是指对探索后的数据进行建模和预测,以揭示数据中的模式和趋势。
常用的建模方法包括回归分析、聚类分析和分类分析。
3. 数据解释数据解释是对建模结果进行解释和推断,以得出结论和提供决策支持。
数据解释可以通过统计指标、可视化图表和报告文档来呈现。
三、数据挖掘数据挖掘是指利用计算机技术和统计方法从大规模数据中发现隐藏的模式、规律和知识。
数据挖掘的步骤包括数据预处理、模式发现和模式评估。
1. 数据预处理数据预处理是对原始数据进行处理,以提高挖掘算法的效果和效率。
大数据分析的数据挖掘技术和方法近年来,随着大数据时代的到来,数据分析和数据挖掘技术的研究和应用已经成为一个热门的话题。
大数据分析技术已经被广泛应用于商业、医疗、能源、交通等诸多领域,并取得了良好的应用效果。
本文将聚焦于大数据分析的数据挖掘技术和方法,探讨其优点、技术路线和应用场景,并尝试提出一些问题和展望。
一、数据挖掘技术和方法概述数据挖掘是指从大规模数据集中提取有效信息的过程,是一种基于数据驱动的分析技术。
它通过设计合适的算法和模型,从海量数据中找出数据之间的联系和规律,以支持决策制定、商业预测、产品设计等企业和组织的决策活动。
数据挖掘技术包括关联规则挖掘、分类、聚类、预测和异常检测等方法。
具体来说,常用的数据挖掘技术有:决策树分析、聚类分析、关联规则分析、预测模型和异常检测等。
这些技术的目的都是为了从数据集合中挖掘出对决策和业务有用的信息。
二、大数据分析的技术路线大数据分析的过程主要包括数据采集、数据处理和数据分析三个阶段。
其中,数据采集是指从不同的来源获取数据,包括内部系统数据和外部数据,数据需求会议对数据的采集提出了要求。
数据处理阶段主要针对采集到的数据进行去重、清洗、预处理等处理,以保证数据的完整性和准确性。
数据分析阶段则是将处理后的数据应用于数据挖掘、统计分析、机器学习、深度学习等算法和模型,从而挖掘有价值的信息。
通常情况下,大数据分析的技术路线从数据采集、数据存储、数据预处理、数据挖掘、数据建模、数据可视化六个方面展开。
在这六个方面,数据挖掘、数据建模和数据可视化是大数据分析中的重要环节。
三、大数据分析的应用场景大数据分析技术具有很强的灵活性和适应性,广泛应用于金融、医疗、电子商务、保险、物流等领域。
以金融领域为例,数据挖掘技术能够通过对各类金融数据的挖掘和分析,对股票价格、汇率波动、基金收益等进行预测,帮助投资者实现理财增值。
在医疗领域,大数据分析技术可以运用在疾病预测、诊断和治疗等领域,为医生提供科学的治疗建议。
大数据分析已经成为了当今社会运行的重要一环,从商业到科学研究,在各个领域都有着广泛的应用。
然而,大数据分析的可靠性和准确性取决于数据的质量。
因此,数据质量评估与监控成为了大数据分析中的重要环节。
本文将介绍大数据分析中的数据质量评估与监控方法。
首先,数据质量评估是大数据分析中的关键一环。
数据质量的好坏直接影响着分析结果的准确性和可信度。
数据质量评估主要包括数据完整性、准确性、一致性、时效性和可信度等方面。
在评估数据完整性时,需要检查数据是否缺失,重复或者不一致。
数据的准确性评估则需要验证数据的正确性和真实性,一致性评估则需要确认不同数据源之间的一致性。
时效性评估则需要验证数据是否及时更新,可信度评估需要确定数据的可信度和可靠性。
其次,数据质量监控是保证数据质量的一种手段。
数据质量监控主要是通过监控数据的采集、清洗、转换和加载等过程来保证数据的质量。
在数据采集阶段,可以通过监控数据源的连接状态、数据量和质量等指标来保证数据的完整性和准确性。
在数据清洗阶段,可以通过监控数据的处理过程和结果来保证数据的一致性和准确性。
在数据转换和加载阶段,则需要保证数据的时效性和可信度。
此外,现代大数据分析技术提供了各种数据质量评估与监控的方法和工具。
例如,数据质量评估可以利用数据挖掘和机器学习技术来发现数据中的问题和异常。
数据质量监控则可以利用实时数据流处理技术来监控数据的采集和处理过程,及时发现和处理数据质量问题。
此外,还可以利用数据质量管理系统来建立数据质量评估与监控的流程和机制,提高数据质量管理的效率和可靠性。
总之,数据质量评估与监控是大数据分析中的重要环节,直接影响着分析结果的可信度和准确性。
通过合理的评估和监控方法,可以保证数据质量的稳定和可靠,提高大数据分析的效果和价值。
随着大数据技术的不断发展,相信数据质量评估与监控方法也将不断完善和提高,为大数据分析的发展和应用提供更可靠的支持。
如何进行数据挖掘与分析数据挖掘与分析是指通过挖掘大量数据,发现其中的模式、关联、规律,并进行相应的分析和解释的过程。
这是一项涉及统计学、机器学习、数据库技术、数据可视化等多个领域的综合性工作。
本文将从数据获取、数据预处理、特征工程、模型选择和评估等方面介绍如何进行数据挖掘与分析。
## 第一章:数据获取数据获取是数据挖掘与分析的第一步,其质量和完整性直接影响后续分析的结果。
数据可以通过行业数据库、公共数据集、自主采集等方式获得。
在选择数据源时,需要考虑数据的可靠性、时效性和适用性。
同时,在获取数据之前,应详细了解数据的结构、格式和字段含义,为后续的预处理做好准备。
## 第二章:数据预处理数据预处理是对原始数据进行清洗、转换、集成和规约等操作,以减少数据的噪声、不一致性和冗余,提高后续分析的准确性和效率。
常用的数据预处理方法包括数据清洗、缺失值处理、异常值处理、数据变换等。
通过数据预处理,可以提高数据质量,并为数据挖掘和分析的进行打下基础。
## 第三章:特征工程特征工程是指通过对原始数据进行特征提取、降维和创造新特征等操作,以提取数据的有价值信息。
特征工程是数据挖掘与分析中的关键环节,直接影响模型的性能和结果的准确性。
常用的特征工程方法包括主成分分析(PCA)、线性判别分析(LDA)、特征选择、特征创造等。
通过特征工程,可以更好地表达数据,提高模型的泛化能力。
## 第四章:模型选择模型选择是在数据挖掘与分析中选择最合适的模型或算法。
常用的数据挖掘算法包括聚类算法、分类算法、回归算法等。
在模型选择过程中,需要根据具体的问题需求和数据特征来选择合适的模型。
同时,还需要考虑模型的复杂度、训练时间、解释性等因素。
通常可以通过交叉验证和评估指标来评估模型的性能和泛化能力。
## 第五章:模型评估模型评估是对数据挖掘与分析模型的性能进行评估和验证的过程。
常用的模型评估指标包括准确率、召回率、F1值、ROC曲线等。
数据挖掘七种常用的方法汇总数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
这个定义包括几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。
这里的知识一般指规则、概念、规律及模式等。
数据挖掘建模过程定义挖掘目标针对具体的数据挖掘应用需求,首先要非常清楚,本次挖掘的目标是什么?系统完成后能达到什么样的效果?因此我们必须分析应用领域,包括应用中的各种知识和应用目标。
了解相关领域的有关情况,熟悉背景知识,弄清用户需求。
要想充分发挥数据挖掘的价值,必须要对目标有一个清晰明确的定义,即决定到底想干什么。
否则,很难得到正确的结果。
数据取样数据采集前首要考虑的问题包括:哪些数据源可用,哪些数据与当前挖掘目标相关?如何保证取样数据的质量?是否在足够范围内有代表性?数据样本取多少合适?如何分类(训练集、验证集、测试集)等等。
在明确了需要进行数据挖掘的目标后,接下来就需要从业务系统中抽取一个与挖掘目标相关的样本数据子集。
抽取数据的标准,一是相关性,二是可靠性,三是最新性。
进行数据取样一定要严把质量关,在任何时候都不要忽视数据的质量,即使是从一个数据仓库中进行数据取样,也不要忘记检查其质量如何。
因为数据挖掘是探索企业运作的内在规律,原始数据有误,就很难从中探索规律性。
数据探索当拿到一个样本数据集后,它是否达到我们原来设想的要求,其中有没有什么明显的规律和趋势,有没有出现从未设想过的数据状态,因素之间有什么相关性,它们可区分成怎样一些类别,这都是要首先探索的内容。
数据探索和预处理的目的是为了保证样本数据的质量,从而为保证预测质量打下基础。
数据探索包括:异常值分析、缺失值分析、相关分析、周期性分析、样本交叉验证等。
数据挖掘中的数据质量评估与优化数据挖掘作为一种重要的数据分析方法,已经广泛应用于各个领域。
然而,数据挖掘的结果和准确性很大程度上依赖于所使用的数据质量。
因此,在进行数据挖掘之前,对数据的质量进行评估和优化是至关重要的。
首先,数据质量评估是数据挖掘的基础。
数据质量评估主要包括数据的完整性、准确性、一致性、及时性和可用性等方面。
完整性指的是数据是否完整,是否存在缺失值或空值。
准确性是指数据是否准确反映了真实情况。
一致性是指数据是否在不同的数据源中保持一致。
及时性是指数据是否及时更新。
可用性是指数据是否易于获取和使用。
通过对数据质量进行评估,可以发现数据中的问题和潜在的错误,为后续的数据挖掘工作提供可靠的基础。
其次,数据质量评估需要使用合适的指标和方法。
常用的数据质量评估指标包括缺失率、错误率、一致性度量等。
缺失率是指数据中缺失值的比例。
错误率是指数据中错误值的比例。
一致性度量是指数据在不同数据源中的一致性程度。
除了指标,还可以使用数据可视化和统计分析等方法进行数据质量评估。
数据可视化可以通过图表和可视化工具展示数据的分布和特征,帮助发现数据中的异常和问题。
统计分析可以通过统计方法和模型来分析数据的特征和规律,进一步评估数据的质量。
然而,数据质量评估只是第一步,还需要进行数据质量优化。
数据质量优化主要包括数据清洗、数据集成和数据转换等过程。
数据清洗是指对数据中的错误、缺失和异常值进行处理和修复。
常用的数据清洗方法包括删除错误数据、填充缺失值和修正异常值等。
数据集成是指将来自不同数据源的数据进行整合和合并。
数据集成需要解决数据格式不一致、数据语义不一致和数据冲突等问题。
数据转换是指将原始数据转换为适合数据挖掘的形式。
数据转换可以包括数据规范化、数据离散化和数据降维等操作。
通过数据质量优化,可以提高数据的准确性和一致性,从而提高数据挖掘的效果和结果。
最后,数据质量评估与优化是一个迭代的过程。
在进行数据挖掘之后,还需要对数据挖掘的结果进行评估和优化。
数据质量检测方法数据质量是指数据的准确性、完整性、一致性和可靠性等特性的度量。
在大数据时代,数据质量对于企业的决策和运营至关重要。
因此,如何有效地检测和提升数据质量成为了一个热门话题。
本文将介绍几种常用的数据质量检测方法。
一、数据审查数据审查是一种常见的数据质量检测方法,通过对数据进行逐条审查,检查数据是否符合预先设定的规则和标准。
数据审查可以分为手工审查和自动化审查两种方式。
手工审查需要人工逐条检查数据,可以通过数据抽样的方式来提高效率。
手工审查的优点是灵活性较高,可以根据具体情况制定审查规则。
但是,手工审查需要耗费大量的时间和人力,且容易因为主观因素产生误判。
自动化审查利用计算机程序对数据进行快速检查,可以大大提高效率。
自动化审查可以通过编写脚本或使用专门的数据质量工具来实现。
自动化审查的优点是效率高、准确性高,但是需要对数据质量检测的规则进行编程或配置。
二、数据统计分析数据统计分析是一种基于统计学原理的数据质量检测方法,通过对数据进行统计分析,发现数据中的异常情况。
常用的统计分析方法包括频率分布、均值和方差分析等。
频率分布分析可以统计数据中各个取值的频率,进而判断数据是否符合分布规律。
均值和方差分析可以计算数据的平均值和方差,从而判断数据是否存在异常值。
数据统计分析的优点是能够全面地了解数据的分布情况,发现数据中的异常情况。
但是,数据统计分析方法对于数据量较大的情况下计算复杂度较高,且需要一定的统计学知识作为支持。
三、数据挖掘技术数据挖掘技术是一种利用机器学习和统计学方法来挖掘数据中隐藏模式和规律的方法。
在数据质量检测中,可以利用数据挖掘技术来构建数据质量模型,对数据进行分类和预测。
常用的数据挖掘技术包括聚类分析、关联规则挖掘和异常检测等。
聚类分析可以将数据划分为不同的类别,从而发现数据中的相似性和差异性。
关联规则挖掘可以发现数据中的相关性,从而判断数据是否存在问题。
异常检测可以发现数据中的异常值或异常模式。
数据挖掘的分析方法数据挖掘是通过从大规模数据集中提取关键信息的过程。
在数据挖掘中,可以使用多种分析方法来发现隐藏在数据中的模式、关联、趋势和规律。
以下将详细介绍数据挖掘的几种常见的分析方法。
1. 关联规则分析(Association Rule Mining)关联规则分析是一种寻找数据中的相关关系的方法。
它通过发现数据项之间的频繁项集和关联规则来分析数据。
频繁项集是指经常同时出现的一组数据项,而关联规则描述了这些数据项之间的关系。
例如,在超市的购物数据中,可以利用关联规则分析来找到顾客购买某个商品时常同时购买的其他商品,从而帮助超市调整产品陈列和推荐相关产品。
2. 聚类分析(Cluster Analysis)聚类分析是将相似的数据点分组到一起的一种分析方法。
它通过计算数据点之间的相似度或距离来寻找具有相似特征的群组。
聚类分析可以帮助发现数据中的潜在群体和模式,以及进行可视化和分类。
例如,在市场细分的研究中,可以使用聚类分析来将顾客分成不同的群组,从而更好地理解他们的行为和需求。
3. 分类分析(Classification)分类分析是根据已知类别的数据样本来构建分类模型,并将未知样本分配到不同类别中的方法。
它是一种监督学习方法,通过从已标记的训练数据中学习特征和模式,然后将这些学习应用于未标记的测试数据来进行预测。
例如,在电子邮件中进行垃圾邮件识别时,可以使用分类分析来将邮件分为垃圾邮件和非垃圾邮件。
4. 预测分析(Prediction)预测分析是利用已知数据来预测未来事件或趋势的一种方法。
它基于历史数据和模式来构建预测模型,并对未来数据进行预测。
预测分析可以帮助企业做出决策、规划资源和优化业务流程。
例如,在销售预测中,可以使用预测分析来预测未来销售额,以帮助企业制定销售策略和计划生产量。
5. 回归分析(Regression)回归分析是一种用来预测和建立变量之间关系的统计方法。
它通过分析自变量与因变量之间的关系来预测未来的结果。
数据分析之数据质量分析和数据特征分析1.数据质量分析数据质量分析是数据挖掘中数据准备过程的重要⼀环,是数据预处理的前提,也是数据挖掘分析结论有效性和准确性的基础,没有可信的数据,数据挖掘构建的模型将是空中楼阁。
数据质量分析的主要任务是检查原始数据中是否存在脏数据,脏数据⼀般是指不符合要求,以及不能直接进⾏相应分析的数据。
在常见的数据挖掘⼯作中,脏数据包括:(1)缺失值;(2)异常值;(3)不⼀致的值;(4)重复数据及含有特殊符号(如#、¥、*)的数据。
1.1缺失值分析数据的缺失主要包括记录的缺失和记录中某个字段信息的缺失,两者都会造成分析结果的不准确,以下从缺失值产⽣的原因及影响等⽅⾯展开分析。
(1)缺失值产⽣的原因1)有些信息暂时⽆法获取,或者获取信息的代价太⼤。
2)有些信息是被遗漏的。
可能是因为输⼊时认为不重要、忘记填写或对数据理解错误等⼀些⼈为因素⽽遗漏,也可能是由于数据采集设备的故障、存储介质的故障、传输媒体的故障等⾮⼈为原因⽽丢失。
3)属性值不存在。
在某些情况下,缺失值并不意味着数据有错误。
对⼀些对象来说某些属性值是不存在的,如⼀个未婚者的配偶姓名、⼀个⼉童的固定收⼊等。
(2)缺失值的影响1)数据挖掘建模将丢失⼤量的有⽤信息。
2)数据挖掘模型所表现出的不确定性更加显著,模型中蕴含的规律更难把握。
3)包含空值的数据会使建模过程陷⼊混乱,导致不可靠的输出。
(3)缺失值的分析使⽤简单的统计分析,可以得到含有缺失值的属性的个数,以及每个属性的未缺失数、缺失数与缺失率等。
1.2异常值分析异常值分析是检验数据是否有录⼊错误以及含有不合常理的数据。
忽视异常值的存在是⼗分危险的,不加剔除地把异常值包括进数据的计算分析过程中,会给结果带来不良影响;重视异常值的出现,分析其产⽣的原因,常常成为发现问题进⽽改进决策的契机。
异常值是指样本中的个别值,其数值明显偏离其余的观测值。
异常值也称为离群点,异常值的分析也称为离群点分析。
数据挖掘中数据质量分析方法简介邮政电信行业部徐俊军产品研发中心贺建珲北京华胜天成科技股份有限公司2008年6月众所周知,在BI项目中数据质量问题十分重要。
这里我们将向大家介绍数据挖掘中使用的一些数据质量分析方法。
在向大家介绍数据挖掘相关技术的同时,也希望这些简便易行的方法能够对大家在BI项目实施中有所助益。
1 概述数据质量分析是数据挖掘中数据准备过程的重要一环,是数据探索的前提。
我们常说,“Garbage in, Garbage out”。
数据质量的重要性无论如何强调都是不过分的。
没有可信的数据,数据挖掘构建的模型将是空中楼阁。
1.1数据质量检查的目的数据挖掘的数据质量分析是以数据的提供信息的正确性和有效性为目标,而在通常的BI项目中主要关注正确性。
保证数据的正确性自然是数据质量分析的目的。
但数据挖掘中数据质量重点关注的是对建模效果影响大小,对质量的评估也是以对后续挖掘建模影响为原则。
如在电信客户流失分析时,我们发现有国际漫游通话的客户比例极小,例如只有不到0.01%的客户有此行为。
这时,即便国际漫游通话时长的统计正确性毫无问题,我们也认为该变量缺少有效的信息而有数据质量问题。
因为该变量提供的信息只可能对最多0.01%的客户产生影响,对未来预测模型的贡献实在太微乎其微。
1.2数据质量检查的方法在BI实施中通常的数据质量检查方法有两种:◆与源系统对照这是我们在ETL开发和测试中常用的方法。
将数据仓库或最终报表中的数据与源系统的数据或报表进行一一比对,是数据质量检查最全面细致的检查方法。
◆业务经验判断这是我们在ETL维护过程中常用的方法。
依靠对业务相关知识的经验来判断指标是否在合理的范围。
如,业务收入要在一定范围内,可以设置最高、最低的数值来判断是否出现异常;存量用户数通常每月之间上下波动不会超过5%,如果超过则一般可能是数据处理出了问题。
依靠经验,我们就可以在ETL流程中加入自动的数据质量检查,当发现异常出现时可以及早通知ETL维护人员进行检查,以预防将错误的数据发布出去。
在数据挖掘实施中,由于一般都以数据仓库为数据源,因此通常我们不做数据核对。
同时我们通常假定挖掘建模人员对业务和数据本身并不十分熟悉,所以也很难用经验数值的方式进行判断。
而数据挖掘对数据的有效性检查,也是需要专门的分析。
数据挖掘的数据质量检查方法主要有:◆值分析◆统计分析◆频次与直方图分析◆相关性分析2 数据质量分析方法数据挖掘中数据质量分析的对象主要是宽表。
宽表通常是在数据仓库基础上建立的客户信息列表,一般其中每条纪录对应一个客户某个时间的各种信息。
其中用于分析建模的字段我们称为变量。
对于变量,我们通常按照取值类型分为:数值变量和分类变量。
对于数值变量,还可以进一步分为离散型变量、连续型变量。
分类变量通常对应数据仓库中的维度,而数值变量通常对应指标。
本文中我们主要介绍值分析、统计分析、频次和直方图分析方法。
2.1值分析值分析通常是进行数据质量分析的第一步,它可以帮助我们在总体上分析数据的自然分布情况。
比如,数据是否只有唯一值, 该变量中有多少空值等。
值分析是我们常用方法中最简单的一种。
它的分析信息统计简便,信息含义清晰易理解。
但它却是最有效的分析方法,因为它能够快速的给出明确的结论。
2.1.1分析方法进行值分析时,我们对宽表中变量进行取值情况的统计。
具体统计信息为:◆总记录数◆唯一值数:该变量不重复取值的数量◆空值数/空值占比:取值为null的记录数/占总记录数的比例◆空字符数/ 空字符占比:取值为空字符串的记录数/占总记录数的比例,对于数值型变量无意义◆0值数/ 0值占比:取值为0的记录数/占总记录数的比例,对于字符型变量无意义◆正数个数/正数占比:取值大于0的记录数/占总记录数的比例,对于字符型变量无意义◆负数个数/负数占比:取值小于0的记录数/占总记录数的比例,对于字符型变量无意义为方便起见,我们对于将宽表中的变量可以批量生成值分析数据:为了浏览时直观清晰,还可以对值分析数据做柱状图:图1:值分析图2.1.2质量评估原则◆唯一值分析唯一值存在问题最简单的情况就是变量只有一个取值,如表1中的“OperQty_59”只有一个取值。
这样的变量对于挖掘建模无法提供任何有效的信息。
所以从数据有效性方面我们认为是存在问题的。
而如果我们对于变量业务含义有一定了解时,还能分析变量唯一值数是否较预期的异常的多或者少。
例如,我们预先知道年龄只有“男”、“女”、“不确定”三种,如果出现4、5种取值时,可能就要查看是否存在数据质量问题了。
◆无效值分析空值、空字符串都是无效信息(只有极特殊的情况下我们为认为空值、空字符串提供了信息),而很多情况下我们也认为取值为0时也是无效信息。
无效值的比例越多,建模时能够利用的信息就越少。
当无效值的比例大到一定程度,我们甚至认为该变量对于建模是无效的。
有效与无效的界限是以建模的目标为依据的。
例如,在流失预测建模时,流失率大概为15%,同时我们希望能够预测流失倾向较高的前10%用户。
这时,如果一个变量无效值的比例接近90%,则我们认为该变量质量较差,提供信息较少;而如果无效值的比例超过99%时,则我们认为该变量质量极差,提供很少的信息;而如果无效值的比例超过99.9%时,则我们认为该变量无效。
对于无效值较多的变量,我们将首先怀疑数据处理过程是否存在错误。
如无错误,对于极差和无效的变量,在建模时将慎用甚至弃用。
◆异常值分析在多数情况下,变量是不容许出现负值的;在不少情况下,空值、空字符也是不正常的;而在某些业务背景中,变量取0也是异常的。
结合一定的业务背景知识,可以从变量的取值情况发现异常,从而与有关方面确认是否存在数据处理的错误。
2.2 统计分析统计分析是对变量数据统计学特征的分析,可以对变量取值范围、偏离程度等数据分布情况进行分析。
相对值分析方法,统计分析方法的统计量的计算多数较为复杂。
2.2.1 分析方法对宽表中变量进行统计量的计算,具体信息包括: ◆ 最小值 ◆ 最大值 ◆ 均值◆标准差(Standard Deviation):反映变量数据的分散程度。
标准差越大说明数据越分散。
但是注意值越大自然标准差也就越大。
计算公式为:nx x x f ni i∑=-=12)()(其中n 是宽表的纪录总数,∑==nj jxx 1即均值。
◆ 偏度(Skewness):反映变量数据的相对于平均值不对称程度。
图2:偏度示意图正态分布的偏度为0,偏度<0称分布具有负偏离(左图),偏度>0称分布具有正偏离(右图)。
若知道分布有可能在偏度上偏离正态分布时,可用偏离来检验分布的正态性。
计算公式为:∑=---=ni i sx x n n nx f 13)()2)(1()( 其中s 是该变量的标准差。
◆ 众数(Mode):变量中发生频率最大的值。
众数不受极端数据的影响,并且求法简便。
当数值或被观察者没有明显次序(常发生于非数值性资料)时特别有用。
例如:用户状态有:正常、欠费停机、申请停机、拆机、销号,其中的众数是“正常”。
◆ 分位数(Median):将数据从小到大排序,小于某个值的数据占总数的%。
例如我们通常所说的中位数就是50%分位数,即小于中位数的所有值占总数的50%。
中位数可避免极端数据,代表着数据总体的中等情况。
如果总数个数是奇数的话,按从小到大的顺序,取中间的那个数,如果总数个数是偶数个的话,按从小到大的顺序,取中间那两个数的平均数。
除上述统计量之外,还有峰度(Kurtosis)、标准误差(standard error)、CV(Coefficient of Variance)、方差(variance)等。
这里不一一介绍了。
我们对于将宽表中的变量可以批量生成统计分析数据:2.2.2质量评估原则统计分析方法的核心就是分析数据的分布情况,即查看数据与正态分布的接近程度。
以数据按照正态分布为假设的前提下,我们利用统计分析方法就是查看数据相对正态分布的偏离程度。
在了解数据分布情况之后,我们还可以针对分布情况选取代表性的统计量描述数据整体情况。
如,在数据分布为正态时,我们可以用均值来代表数据的整体情况;而数据分布较为偏斜时,众数与中位数就能够更好的代表数据整体情况。
◆极值与均值对极值与均值的评判要借助一定的业务常识,或与变量的历史进行对不。
我们可以查看最小值是否合乎业务逻辑;最高值是否真实、准确;均值是否合理。
在一定时间区间以内,均值通常比较稳定的。
极值与均值的获取较为简易,目前在BI项目的实施中也常常被使用。
但单纯使用极值与均值的评估需要借助一定的业务经验,具有一定局限性。
◆标准差标准差反映变量数据的分散程度。
如果我们认为变量是以正态分布,则当最大值(或最小值)与均值的差超过3倍标准差时,很可能这些极值是存在问题的。
因为超过3倍标准差的数值存在的概率大约为0.3%.如下图所示,深蓝、浅蓝、淡蓝区域对应分别是1倍、2倍和3倍标准差,对应数据落在其间的概率为68.3%、95.5%、99.7%.图3:标准差概率图不过现实中,一方面我们的数据量十分巨大,往往上万,因此极值超过3倍标准差也就是正常的;另一方面,许多变量的分布并不满足正态分布,因此使用是需要注意。
众数、中位数在正态分布中,众数与中位数与均值是一致的。
当数据较正态分布偏斜较大时,我们用众数与中位数能够更好的代表数据的整体情况。
同时可以从众数和中位数与均值的差异考察数据分布情况。
与极值与均值类似,结合一定的业务常识,可以从众数和中位数查看是否有与业务经验相背之处。
2.3频次与直方图分析统计分析时我们对数据分布情况用一些统计量进行了描述。
但这些统计量即宏观又不直观,因此我们使用频次与直方图来进行深入、直观的分析。
直方图和频次图都是表示数据分布特征的柱状图分析方式。
通过直方图和频次图可以有效地观测出数据分布的两个重要特征:集中趋势和离散趋势。
直方图是适用于对大量连续性计量数据进行整理加工、找出其统计规律。
即分析数据分布的形态,以便对其总体分布特征进行推断的方法。
频次图是为了计算离散型数据各值分布情况的统计方法,它有助于理解某些特殊数值的意义,同时它也可以支持多个维度组合分布情况。
频次与直方图分析方法在提供更细节信息的同时,也存在必须人工分析的局限。
同时,很多时候需要借助一些业务经验。
2.3.1分析方法(数值等宽)直方图分析方法是:1.集中和记录数据,求出其最大值和最小值。
2.将数据按序排列。
分组的数量在6-20之间较为适宜。
3.计算组距的宽度。
用组数去除最大值和最小值之差,求出组距的宽度。
4.计算各组的界限位。
各组的界限位可以从第一组开始依次计算,第一组的下界为最小值减去组距的一半,第一组的上界为其下界值加上组距。
第二组的下界限位为第一组的上界限值,第二组的下界限值加上组距,就是第二组的上界限位,依此类推。