数据挖掘中易犯的10大错误.
- 格式:doc
- 大小:17.00 KB
- 文档页数:6
数据处理中常见的错误和解决方法1. 引言数据处理在现代社会中扮演着重要的角色,然而,在处理海量数据的过程中,常常会遇到一些错误。
本文将探讨几种常见的数据处理错误,并提供相应的解决方法。
2. 数据质量问题数据质量问题是数据处理中最常见的错误之一。
在收集和分析数据时,可能会遇到数据缺失、数据冗余、数据错误等问题。
这些问题会导致最终分析结果的不准确性和可靠性降低。
为解决数据质量问题,首先需要在数据收集阶段确保准确性、完整性和一致性。
这可以通过严格的数据验证机制和使用先进的数据收集工具来实现。
其次,对于已有的数据,可以借助数据清洗和标准化的方法来消除数据中的错误和冗余。
最后,建立数据质量管理体系,监控数据的质量,及时纠正问题。
3. 数据丢失问题数据丢失是数据处理过程中常见且令人头痛的问题。
数据丢失可能是由于设备故障、误操作、网络中断或电源问题等原因引起的。
数据丢失不仅导致数据不完整,也可能造成重要信息的丢失。
为避免数据丢失,首先应该定期备份数据,并确保备份的可用性和完整性。
其次,可以使用数据恢复工具来尝试恢复丢失的数据。
另外,定期对硬件设备进行检查和维护,确保其正常运行。
最后,建立数据丢失预防措施,比如使用UPS(不间断电源)来提供稳定的电源供应。
4. 数据泄露问题数据泄露是当前社会面临的严峻问题之一。
在数据处理过程中,未经授权的访问、数据传输中的漏洞或者恶意攻击都可能导致数据泄露。
数据泄露不仅会损害个人隐私,也可能导致商业机密的泄露。
为防止数据泄露,应加强数据安全管理。
首先,建立完善的权限管理系统,只有经过授权的用户才能访问和操作敏感数据。
其次,加密敏感数据,确保在传输和存储过程中的安全性。
此外,定期进行安全漏洞扫描,及时修补漏洞,防止黑客入侵。
最后,加强员工培训,提高其对数据安全的意识。
5. 数据分析错误在数据处理的最后阶段,数据分析错误也是一个常见的问题。
数据分析错误可能是由于选择错误的分析方法、数据假设有误或者算法错误等原因引起的。
大数据分析中常见的问题及解决方法总结随着数字化时代的到来,大数据分析成为了企业进行决策、优化运营的重要手段。
然而,在进行大数据分析过程中经常会遇到一些常见的问题,这些问题可能会影响分析结果的准确性和可靠性。
本文将总结大数据分析中常见的问题,并提供相应的解决方法,以帮助分析师更好地应对挑战。
1. 数据质量问题大数据分析的基础是数据,因此数据质量问题可能会影响分析结果的准确性。
常见的数据质量问题包括缺失数据、重复数据、错误数据以及数据不一致性等。
为解决这些问题,可以采取以下方法:- 数据清洗:通过识别并修复缺失、重复和错误数据,提高数据质量。
- 数据标准化:规范数据格式和单位,减少数据不一致性带来的影响。
- 数据验证:使用数据验证和校验技术,确保数据的准确性和一致性。
2. 数据安全问题大数据分析过程中涉及大量的敏感数据,如个人身份信息、财务数据等,因此数据安全问题尤为重要。
针对数据安全问题,应采取以下解决方法:- 数据加密:对数据进行加密,保护数据的隐私性和机密性。
- 访问控制:采用权限管理和身份验证技术,限制对数据的访问权限,确保只有授权人员可以访问敏感数据。
- 安全审核:建立数据安全审核机制,及时检测和处理潜在的安全威胁。
3. 数据挖掘问题大数据分析的目的之一是发现隐藏在数据中的有价值的信息和模式。
然而,数据挖掘过程中常常会遇到以下问题:- 数据维度过高:当数据维度过高时,会增加计算复杂性和噪声引入的可能性。
解决方法包括降维技术和特征选择算法。
- 数据样本不平衡:当数据样本中某些类别数量较少时,会影响模型的准确性。
可通过欠采样、过采样或合成新样本等方法解决。
- 数据偏差:部分数据样本可能会存在偏差,导致结果的偏离。
在分析过程中,需谨慎处理这种偏差。
4. 算法选择问题大数据分析需要选择合适的算法来处理数据,不同算法适用于不同的问题和数据类型。
常见的算法选择问题包括:- 算法效果:不同算法在不同数据集上的效果可能会有差异。
大数据处理中的数据挖掘常见问题解决方案在大数据处理中,数据挖掘是一项非常关键的技术。
它是通过从海量数据中发现隐藏的模式和规律,为企业提供有价值的洞察和决策支持。
然而,大数据处理中的数据挖掘仍然面临一些常见问题。
本文将介绍一些常见的问题,并提供相应的解决方案。
首先,一个常见的问题是数据质量。
在大数据处理中,数据的质量对于数据挖掘的准确性和可靠性非常重要。
数据质量问题包括数据缺失、重复、错误等。
解决这个问题的一个解决方案是通过数据清洗和数据预处理来提高数据质量。
数据清洗可以通过删除重复数据、填补缺失数据、修复错误数据等方式进行。
数据预处理可以通过归一化、标准化、平滑等方式来优化数据。
其次,另一个常见的问题是特征选择。
在大数据处理中,数据往往包含大量的特征,但并非所有特征都对数据挖掘任务有用。
特征选择的目标是从所有特征中选择最具有预测能力的特征子集。
解决这个问题的一个解决方案是使用特征选择算法,如过滤法、包装法和嵌入法。
过滤法通过统计方法选择最具有预测能力的特征。
包装法通过在特征子集中搜索最佳特征组合。
嵌入法通过将特征选择嵌入到学习算法中。
第三,一个常见的问题是算法选择。
在大数据处理中,有许多数据挖掘算法可供选择,如决策树、神经网络、支持向量机等。
但不同的算法适用于不同的数据挖掘任务,并且具有不同的优缺点。
解决这个问题的一个解决方案是通过实验和比较来选择最适合的算法。
可以根据数据集的特点、任务的要求和算法的性能来选择合适的算法。
此外,还可以尝试使用集成学习方法,如随机森林和梯度提升树,将多个算法的预测结果进行组合,以提高准确性和鲁棒性。
第四,另一个常见的问题是处理大规模数据。
在大数据处理中,数据的数量往往非常庞大,超出了单个计算机的处理能力。
解决这个问题的一个解决方案是使用分布式计算和并行计算技术。
分布式计算将数据划分为多个部分,分发到多个计算节点进行并行计算。
并行计算利用多个计算机的计算资源来加速处理速度。
数据挖掘技术在市场调研中的使用中常见问题市场调研是现代企业不可或缺的一环,通过了解消费者需求、竞争对手动态等信息,企业可以做出更明智的决策。
而随着数字化时代的到来,数据挖掘技术逐渐成为市场调研的重要工具。
然而,在数据挖掘技术应用于市场调研过程中,也会遇到一些常见的问题。
本文将就这些问题进行探讨,并提供解决方案。
问题一:数据收集不完整或低质量市场调研所依赖的数据的准确性和完整性是进行数据挖掘的基础。
然而,在实际应用中,数据往往存在收集不完整或低质量的问题。
这可能由于数据源的不确定性、数据输入错误或数据存储问题导致。
解决方案:1.明确数据需求:在进行数据收集之前,明确需要收集哪些数据以及这些数据的质量要求。
合理的数据需求可以减少收集不必要或无用的数据。
2.多元数据源:充分利用多个数据源可以增加数据完整性。
通过整合多个数据源的数据,可以提高数据的精确性和可靠性。
3.数据清洗:对已收集的数据进行清洗、去重和错误纠正等工作。
这可以有效减少数据错误对数据挖掘结果的干扰。
问题二:特征选择与维度灾难市场调研数据往往具有大量的特征,而这些特征可能包含冗余、不相关或噪音信息。
同时,由于特征维度的增加,数据挖掘算法的性能可能会下降,即所谓的维度灾难问题。
解决方案:1.特征筛选:通过评估特征与目标变量之间的相关性,筛选出对目标变量影响最显著的特征。
常用的方法包括皮尔逊相关系数、卡方检验等。
2.主成分分析(PCA):PCA可以通过线性映射将高维数据转化为低维数据,保留原数据的主要信息。
选择保留的主成分数量可以根据方差贡献率来确定。
3.正则化方法:正则化方法可以通过增加惩罚项来控制模型的复杂度,从而避免过拟合问题。
常见的正则化方法包括L1正则化(Lasso)和L2正则化(Ridge)。
问题三:过拟合与欠拟合过拟合和欠拟合是数据挖掘中常见的问题,尤其在机器学习模型中更为突出。
过拟合指模型在训练集上表现良好,但在新数据上的表现较差。
数据分析中有很多常见的错误,我们在上一篇文章中给大家介绍了很多数据分析的错误。
通过对这些错误的介绍,我们可以看出,如果对这些错误置之不理的话就会引发很严重的后果。
我们在这篇文章中给大家介绍出更多关于数据分析中常见的错误,希望这篇文章能够更好地帮助大家理解数据分析。
首先就是测量误差,当我们捕获数据的软件或硬件出错时,或无法捕获可用数据或产生虚假数据时,就会出现测量错误。
例如,使用日志与服务器不同步,则可能丢失移动应用程序上的用户行为信息。
同样,如果我们使用像麦克风这样的硬件传感器,我们的录音可能会捕捉到背景噪音或其他电信号的干扰。
然后就是加工误差。
许多企业拥有几十年前的数据,原来能够解释数据决策的团队早已不在了。
他们的许多假设和问题很可能没有文档化,这将取决于我们推断,这可能是一项艰巨的任务。
我们的团队可能会做出与原始数据收集过程中不同的假设,并得出截然不同的结果。
常见的错误包括缺少一个特定的过滤器,使用不同的会计标准,并简单地犯方法错误。
当然,数据分析中常见的错误有覆盖误差。
那么什么是覆盖误差,这种误差是指目标受访者都没有足够的机会参与数据调查的情况。
例如,如果我们正在收集老年人的数据,但只提供网站调查,那么我们可能会错过许多答卷人。
接着就是抽样误差。
当我们分析一个较小的样本时,就会发生抽样误差。
当数据只存在于某个群体中时,这是不可避免的。
结论就是我们得出的代表性样本可能不适用于整体。
推理错误就是当统计和机器学习模型从已有数据中做出不准确的判断后,它们之后的推理结果也可能是错误的。
如果我们有一个非常干净的“地面真实”数据库,那么就可以用它去检测数据模型得出的推理是否正确,但实际上,大多数数据库是充满噪音的,所以我们通常很难确定AI推论的错误点在哪里。
未知错误也是其中一个不能忽视的错误,现实是难以捉摸的,我们不能总是轻易地建立事实。
在许多情况下,比如使用数字产品,我们可以捕获大量用户在平台上的行为数据,而不是他们对这些行为的动机。
金融数据分析中易犯错误的几个方面一、回归模型的误用例1:研究金融发展与贫富差距的关系,认为金融发展先使贫富差距加大(恶化),尔后会使贫富差距降低(好转),成为倒U 型。
贫富差距用GINI 系数表示,金融发展用(贷款余额/存款总额)表示。
回归结果为: 229.164.034.2t t t x x GINI -+=∧,模型参数都可以通过显著性检验。
在x 的有意义的变化范围内,GINI 系数的值总是大于1,细致分析后模型变的毫无意义; 同样的模型还有:GINI 系数的值总是为负231.1412.734.13t t t x x GINI -+-=∧模型构建时缺乏考虑,可以采用成分数据的建模方法。
例2:多元回归模型中的T 检验问题(主要解释变量与控制变量)。
例3:利用系数大小来解释被解释变量对被解释变量的影响大小问题。
二、实证检验中的原假设的选择问题只能证伪,不能证实。
在统计学的假设检验中,对原假设是倾向于保持的,因此假设检验只控制了弃真错误,而没有控制取伪错误,因此在原假设不真时,被误认为是真的概率很大。
很多时候,我们会遇到这样的情况:如果原假设是A 为伪,则原假设不能拒绝;如果原假设是A 为真,那么原假设也不能拒绝。
那么,A 究竟是伪还是真?三、主成分分析的误用1、主成分分析介绍主成分分析的工作对象是高维定量变量形成的数据,即),,(21nk k k x x x 的数据,如在上市公司综合评价指标构建中、城市综合竞争力排序中、上市公司资本结构的影响因素等许多问题中,都均会遇到类似数据。
例:福布斯中国最佳商业城市排行榜很显然,识辨系统在一个低维空间要比一个高维空间容易的多。
如英国统计学家斯格特1961年在对157个英国城镇进行发展力水平调查时,原始的测量变量有57个。
而通过主成分分析发现,只需要5个新的综合变量,就可以以95%的精度表示愿数据的变异情况,这样对问题的研究,一下子就从57维降低到5维。
在统计学中,主成分分析的主要作用是:在尽量减少原始信息损失的条件,将高维问题转化为低维问题,并使转化后的低维数据具有某些良好的统计特征。
数据挖掘领域的⼗⼤挑战问题数据挖掘(Data Mining,DM)⼜称数据库中的知识发现(Knowledge Discover in Database,KDD),是⽬前⼈⼯智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的⼤量数据中揭⽰出隐含的、先前未知的并有潜在价值的信息的⾮平凡过程。
数据挖掘是⼀种决策⽀持过程,它主要基于⼈⼯智能、机器学习、模式识别、统计学、数据库、可视化技术等,⾼度⾃动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。
知识发现过程由以下三个阶段组成:(1)数据准备,(2)数据挖掘,(3)结果表达和解释。
数据挖掘是通过分析每个数据,从⼤量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表⽰3个步骤。
数据准备是从相关的数据源中选取所需的数据并整合成⽤于数据挖掘的数据集;规律寻找是⽤某种⽅法将数据集所含的规律找出来;规律表⽰是尽可能以⽤户可理解的⽅式(如可视化)将找出的规律表⽰出来。
数据挖掘领域10⼤挑战性问题:1.Developing a Unifying Theory of Data Mining (数据挖掘的统⼀理论框架的构建)2.Scaling Up for High Dimensional Data/High Speed Streams (⾼维数据和⾼速数据流的挖掘)3.Mining Sequence Data and Time Series Data (序列和时序数据的挖掘)4.Mining Complex Knowledge from Complex Data (复杂数据中复杂知识的挖掘)5.Data Mining in a Network Setting (⽹络环境中的数据挖掘)6.Distributed Data Mining and Mining Multi-agent Data (分布式数据和多代理数据的挖掘)7.Data Mining for Biological and Environmental Problems (⽣物和环境数据的挖掘)8.Data-Mining-Process Related Problems (数据挖掘过程中的相关问题处理)9.Security, Privacy and Data Integrity (数据挖掘中数据安全、数据所涉及到的隐私和数据完整性的维护)10.Dealing with Non-static, Unbalanced and Cost-sensitive Data (⾮静态、⾮平衡及成本敏感数据的挖掘)。
大数据分析师的数据分析过程中的常见错误和陷阱数据分析在当今互联网时代扮演着至关重要的角色,而大数据分析师则是这个领域中的重要从业人员。
然而,在进行数据分析的过程中,大数据分析师常常会遇到一些常见的错误和陷阱。
本文将探讨这些错误和陷阱,并提供相应的解决方法,以帮助大数据分析师更加准确地进行数据分析。
一、数据清洗错误和陷阱在进行数据分析之前,数据清洗是非常重要的一步。
然而,很多大数据分析师在数据清洗过程中存在一些常见错误和陷阱。
以下是几个常见的错误和陷阱,以及相应的解决方法:1. 缺失数据处理不当在实际数据采集和整理过程中,可能会出现缺失数据的情况。
如果不妥善处理,缺失数据可能会对最终的分析结果造成误导。
解决方法之一是使用适当的填充方法,如均值、中位数或众数填充缺失的数据。
2. 异常值未正确处理在数据中存在异常值时,如果没有正确处理,这些异常值可能会对分析结果产生不利影响。
解决方法之一是使用合理的统计指标,如平均绝对偏差(MAD)或箱型图(box plot)来检测和处理异常值。
3. 数据格式错误数据分析中常常会涉及到不同的数据格式,如日期时间、文本或数值。
在处理过程中,如果没有正确处理不同的数据格式,可能会导致分析结果的误解。
解决方法之一是将数据按照正确的格式进行转换,以便于后续的分析和处理。
二、数据分析方法错误和陷阱在进行数据分析的过程中,选择合适的分析方法是非常重要的。
以下是一些常见的数据分析方法错误和陷阱,以及相应的解决方法:1. 不适当的统计方法选择在进行数据分析时,选择适当的统计方法能够更准确地得出结论。
然而,很多大数据分析师在选择统计方法时存在迷茫和错误。
解决方法之一是对不同的统计方法进行充分了解,并根据问题的特点选择最合适的方法。
2. 忽略样本量大小样本量对于数据分析的可靠性非常重要,但很多分析师在进行数据分析时常常忽视样本量的大小。
解决方法之一是进行样本容量计算,确保样本量足够大以得到可靠的结果。
列举数据挖掘领域的十大挑战问题
1.大数据处理:如何高效地处理海量数据,以便进行数据挖掘和分析?
2. 数据质量问题:如何识别和纠正不准确、不完整或不一致的数据,以提高数据挖掘的准确性和可信度?
3. 特征选择:如何从海量的数据中选择最具代表性和最相关的特征,以便进行分类、聚类和预测等任务?
4. 缺失值处理:如何处理缺失值,以便保持数据的完整性和一致性?
5. 噪声和离群点处理:如何识别和过滤掉数据中的噪声和离群点,以提高数据挖掘的准确性和可信度?
6. 数据隐私和安全:如何保护敏感数据的隐私和安全,以防止数据泄漏和滥用?
7. 多源数据融合:如何将来自不同数据源的数据进行融合,以便综合分析和挖掘?
8. 数据挖掘算法优化:如何优化现有的数据挖掘算法,以提高算法的准确性、效率和可扩展性?
9. 可视化和交互性:如何将数据挖掘结果以可视化的方式呈现给用户,以便用户理解和使用?
10. 实时数据挖掘:如何在高速数据流中进行实时数据挖掘和预测,以便应用于实时决策和控制系统?。
- 1 -。
大数据开发技术中常见错误及解决方案分析在大数据开发技术中,常见错误及解决方案可以从以下几个方面进行分析:1.数据质量问题:数据质量问题是大数据开发中最常见的错误之一,例如数据丢失、重复、错误、格式不规范等。
解决方案可以采用数据清洗和数据校验的方法,包括使用ETL工具进行数据清洗、制定数据质量检查规则、采用自动化工具进行数据校验等。
2.资源利用不充分:在大数据开发中,由于数据量巨大,资源利用不充分的问题较为常见。
这可能是由于任务调度不合理、资源分配不当等原因导致的。
解决方案可以采用资源管理工具进行资源优化分配,根据任务的优先级和资源需求,合理分配集群资源,提高资源利用率。
3.任务超时:由于数据量大以及处理复杂,大数据开发中任务超时的问题比较常见。
任务超时可能是由于数据倾斜、算法复杂度高、集群资源不足等原因导致的。
解决方案可以采用优化算法、数据分片、增加集群资源等方式来解决任务超时的问题。
4.安全问题:5.数据模型设计问题:在大数据开发中,数据模型的设计是至关重要的,一个合理的数据模型可以提高数据处理效率。
常见的错误包括冗余数据、数据关联不当、数据类型选择不合理等。
解决方案可以采用数据建模工具,设计合理的数据模型,减少数据冗余,优化数据访问效率。
6.集群性能问题:由于数据量大,大数据开发中的集群性能问题比较普遍。
例如集群负载不均衡、节点故障导致的任务失败等。
解决方案可以采用集群监控工具,对集群资源进行实时监控,及时发现并解决性能问题,提高集群稳定性和可用性。
总之,大数据开发技术中常见的错误及解决方案分析,可以从数据质量、资源利用、任务超时、安全、数据模型设计和集群性能等方面来进行分析和解决。
通过合理的调优和优化,可以提高大数据处理的效率和可靠性。
数据挖掘中易犯的 10大错误
0. 缺乏数据(Lack Data
对于分类问题或预估问题来说,常常缺乏准确标注的案例。
例如:
-欺诈侦测(Fraud Detection :在上百万的交易中,可能只有屈指可数的欺诈交易,
还有很 多的欺诈交易没有被正确标注出来,这就需要在建模前花费大量人力来修
正。
-信用评分(Credit Scoring :需要对潜在的高风险客户进行长期跟踪(比如两年 ,从
而积 累足够的评分样本。
1. 太关注训练(Focus on Training
IDMer :就象体育训练中越来越注重实战训练,因为单纯的封闭式训练常常会训
练时状态神 勇,比赛时一塌糊涂。
实际上,只有样本外数据上的模型评分结果才真正有用! (否则的话,直接用参照
表好了! 例如:
-癌症检测(Cancer detection :MD Anderson的医生和研究人员(1993使用神经网
络来 进行癌症检测,惊奇地发现,训练时间越长(从几天延长至数周 ,对训练集的性能
改善非 常轻微,但在测试集上的性能却明显下降。
-机器学习或计算机科学研究者常常试图让模型在已知数据上表现最优, 这样做
的结果通常 会导致过度拟合(overfit 。
解决方法:
解 决 这 个 问 题 的 典 型 方 法 是 重 抽 样 (Re-Sampling 。 重 抽 样 技 术 包
括 :bootstrap 、 cross-validation 、 jackknife 、 leave-one-out... 等等。
2. 只依赖一项技术(Rely on One Technique
IDMer :这个错误和第 10种错误有相通之处,请同时参照其解决方法。没有对比
也就没有 所谓的好坏,辩证法的思想在此体现无遗。
“当小孩子手拿一把锤子时, 整个世界看起来就是一枚钉子。 ” 要想让工作尽善
尽美, 就需 要一套完整的工具箱。
不要简单地信赖你用单个方法分析的结果, 至少要和传统方法 (比如线性回归
或线性判别分 析做个比较。
研究结果:按照《神经网络》期刊的统计,在过去 3年来,只有 1/6的文章中做到
了上述两 点。 也就是说, 在独立于训练样本之外的测试集上进行了开集测试, 并与
其它广泛采用的方 法进行了对比。
解决方法:
使用一系列好的工具和方法。 (每种工具或方法可能最多带来 5%~10%的改
进 。
3. 提错了问题(Ask the Wrong Question
IDMer :一般在分类算法中都会给出分类精度作为衡量模型好坏的标准,但在实
际项目中我 们却几乎不看这个指标。为什么?因为那不是我们关注的目标。
a 项目的目标:一定要锁定正确的目标
例如:
欺诈侦测(关注的是正例! (Shannon 实验室在国际长途电话上的分析 :不要试图
在一般 的通话中把欺诈和非欺诈行为分类出来, 重点应放在如何描述正常通话的特
征, 然后据此发 现异常通话行为。
b 模型的目标:让计算机去做你希望它做的事
大多数研究人员会沉迷于模型的收敛性来尽量降低误差,这样让他们可以获得
数学上的美 感。但更应该让计算机做的事情应该是如何改善业务,而不是仅仅侧重
模型计算上的精度。
4. 只靠数据来说话(Listen (only to the Data
IDMer :“让数据说话”没有错,关键是还要记得另一句话:兼听则明,偏听则暗!如
果数 据+工具就可以解决问题的话,还要人做什么呢?
4a. 投机取巧的数据:数据本身只能帮助分析人员找到什么是显著的结果,但它并
不能告诉 你结果是对还是错。
4b. 经过设计的实验:某些实验设计中掺杂了人为的成分,这样的实验结果也常
常不可信。
5. 使用了未来的信息(Accept Leaks from the Future
IDMer :看似不可能,却是实际中很容易犯的错误,特别是你面对成千上万个变量
的时候。 认真、仔细、有条理是数据挖掘人员的基本要求。
预报(Forecast 示例:预报芝加哥银行在某天的利率,使用神经网络建模,模型的准
确率 达到 95%。但在模型中却使用了该天的利率作为输入变量。
金融业中的预报示例:使用 3日的移动平均来预报,但却把移动平均的中点设在
今天。 解决方法:
要仔细查看那些让结果表现得异常好的变量, 这些变量有可能是不应该使用, 或
者不应该直 接使用的。
给数据加上时间戳,避免被误用。
6. 抛弃了不该忽略的案例(Discount Pesky Cases
IDMer :到底是“宁为鸡头,不为凤尾” ,还是“大隐隐于市,小隐隐于野”?不同的人
生 态度可以有同样精彩的人生,不同的数据也可能蕴含同样重要的价值。
异常值可能会导致错误的结果(比如价格中的小数点标错了 ,但也可能是问题的
答案(比 如臭氧洞 。所以需要仔细检查这些异常。
研究中最让激动的话语不是“啊哈! ” ,而是“这就有点奇怪了……”
数据中的不一致性有可能会是解决问题的线索,深挖下去也许可以解决一个大
的业务问题。 例如:
在直邮营销中, 在对家庭地址的合并和清洗过程中发现的数据不一致, 反而可能
是新的营销 机会。
解决方法:
可视化可以帮助你分析大量的假设是否成立。
7. 轻信预测(Extrapolate
IDMer :依然是辩证法中的观点,事物都是不断发展变化的。
人们常常在经验不多的时候轻易得出一些结论。
即便发现了一些反例,人们也不太愿意放弃原先的想法。
维度咒语:在低维度上的直觉,放在高维度空间中,常常是毫无意义的。
解决方法:
进化论。没有正确的结论,只有越来越准确的结论。
8. 试图回答所有问题(Answer Every Inquiry
IDMer :有点像我爬山时鼓励自己的一句话“我不知道什么时候能登上山峰,但我
知道爬一 步就离终点近一步。 ”
“不知道”是一种有意义的模型结果。
模型也许无法 100%准确回答问题,但至少可以帮我们估计出现某种结果的可能
性。
9. 随便地进行抽样(Sample Casually
9a 降低抽样水平。例如, MD 直邮公司进行响应预测分析,但发现数据集中的不
响应客户 占比太高(总共一百万直邮客户,其中超过 99%的人未对营销做出响应 。
于是建模人员做 了如下抽样:把所有响应者放入样本集,然后在所有不响应者中进行
系统抽样,即每隔 10
人抽一个放入样本集,直到样本集达到 10万人。但模型居然得出如下规则:凡是
居住在 Ketchikan 、 Wrangell 和 Ward Cove Alaska的人都会响应营销。这显然是有
问题的结论。 (问 题就出在这种抽样方法上, 因为原始数据集已经按照邮政编码排
序, 上面这三个地区中不响 应者未能被抽取到样本集中,故此得出了这种结论 。
解决方法:“喝前摇一摇! ”先打乱原始数据集中的顺序,从而保证抽样的随机性。
9b 提高抽样水平。例如,在信用评分中,因为违约客户的占比一般都非常低,所以
在建模 时常常会人为调高违约客户的占比(比如把这些违约客户的权重提高 5倍 。
建模中发现, 随着模型越来越复杂, 判别违约客户的准确率也越来越高, 但对正常客
户的误判率也随之升 高。 (问题出在数据集的划分上。在把原始数据集划分为训练
集和测试集时,原始数据集中 违约客户的权重已经被提高过了
解决方法:先进行数据集划分,然后再提高训练集中违约客户的权重。
10. 太相信最佳模型(Believe the Best Model
IDMer :还是那句老话-“没有最好,只有更好! ”
可解释性并不一定总是必要的。看起来并不完全正确或者可以解释的模型,有
时也会有用。 “最佳”模型中使用的一些变量,会分散人们太多的注意力。 (不可解释
性有时也是一个优 点
一般来说, 很多变量看起来彼此都很相似, 而最佳模型的结构看上去也千差万别,
无迹可循。 但需注意的是,结构上相似并不意味着功能上也相似。
解决方法:把多个模型集装起来可能会带来更好更稳定的结果。