数据分析工作常见的七种错误及规避技巧
- 格式:docx
- 大小:76.38 KB
- 文档页数:3
数据分析工作常见的七种错误及规避技巧商业领域的数据科学家和侦探类似:去探索未知的事物。
不过,当他们在这个旅程中冒险的时候,他们很容易落入陷阱。
所以要明白,这些错误是如何造成的,以及如何避免。
“错误是发现的入口。
”——James Joyce (著名的爱尔兰小说家)。
这在大多数情况下是正确的,但是对于数据科学家而言,犯错误能够帮助他们发现新的数据发展趋势和找到数据的更多模式。
说到这儿,有一点很重要:要明白数据科学家有一个非常边缘的错误。
数据科学家是经过大量考察后才被录用的,录用成本很高。
组织是不能承受和忽视数据科学家不好的数据实践和重复错误的成本的。
数据科学的错误和不好的数据实践会浪费数据科学家的职业生涯。
数据科学家追踪所有实验数据是至关重要的,从错误中吸取教训,避免在未来数据科学项目中犯错。
福尔摩斯有一句名言是如何定义侦探的,而数据科学家在商业中的角色就类似侦探。
“我是福尔摩斯,我的工作就是发现别人不知道的。
”企业要想保持竞争力,它必须比大数据分析做的更多。
不去评估他们手中的数据质量,他们想要的结果,他们预计从这种数据分析中获得多少利润,这将很难正确地找出哪些数据科学项目能够盈利,哪些不能。
当发生数据科学错误时——一次是可以接受的——考虑到有一个学习曲线,但是如果这些错误发生在两次以上,这会增加企业成本。
在Python中学习数据科学,成为企业数据科学家。
避免常见的数据科学错误:1、相关关系和因果关系之间的混乱对于每个数据科学家来说,相关性和因果关系的错误会导致成本事件,最好的例子是《魔鬼经济学》的分析,关于因果关系的相关性错误,导致伊利诺斯州给本州的学生发书,因为根据分析显示家里有书的学生在学校能直接考的更高分。
进一步分析显示,在家里有几本书的学生在学业上能表现的更好,即使他们从来没有读过这些书。
这改变了之前的假设和洞察:父母通常买书的家庭,能营造愉快的学习环境。
大部分的数据科学家在处理大数据时假设相关关系直接影响因果关系。
数据处理中常见的错误和解决方法引言:在当前数字化时代,数据处理已经成为各行各业不可或缺的一环。
然而,在进行数据处理的过程中,我们常常会遇到一些错误和问题。
本文将围绕这个话题,探讨数据处理中常见的错误和解决方法。
一、数据采集阶段的错误及解决方法1. 数据收集不全面:在数据采集阶段,有时候我们无法获取到完整的数据,或者某些数据项缺失。
这样会导致我们在后续的数据分析和决策中得出的结论不准确。
解决方法:确保数据收集的全面性和准确性非常关键。
可通过增加数据源、加强调查问卷的设计、利用数据挖掘技术来填补缺失的数据。
2. 数据质量差:在数据采集过程中,可能会遇到数据质量差的情况,如数据重复、数据错误等。
这样的数据会影响我们对问题的判断和分析结果的准确性。
解决方法:建立数据质量管理的流程和机制,制定数据质量标准,对数据进行清洗和校验,排除错误和重复数据。
二、数据分析阶段的错误及解决方法1. 数据样本不具有代表性:在进行数据分析时,如果选取的数据样本不具有代表性,那么得出的结论就可能存在偏差。
解决方法:在选择数据样本时,要考虑样本的随机性和代表性,尽可能保证样本能够准确反映整体情况。
2. 数据分析方法选择错误:数据分析有多种方法和技术,不同的问题需要选择适合的分析方法。
如果选择的方法不当,分析结果可能会错误或不准确。
解决方法:在进行数据分析前,要对问题进行充分的思考和分析,选择适合的数据分析方法。
可以利用统计学、机器学习等工具来辅助决策。
三、数据展示阶段的错误及解决方法1. 图表设计不当:在数据展示的过程中,如果图表的设计不当,容易给人造成视觉混淆,对数据的理解产生误导。
解决方法:图表的设计要简洁明了,遵循数据可视化的原则,突出数据的关键信息,以直观、清晰的方式向读者展示数据。
2. 数据解读错误:在数据展示的过程中,如果对数据的解读出现错误,很容易导致信息的误传或误解。
解决方法:在进行数据解读时,要准确把握数据背后的含义,避免主观臆断和偏见。
统计师如何应对数据错误和不准确性在统计工作中,数据的准确性和可靠性是至关重要的。
然而,由于各种原因,数据错误和不准确性是不可避免的。
作为一名统计师,我们需要采取一系列措施来应对这些问题,以确保我们的工作结果准确可信。
在本文中,我将介绍一些应对数据错误和不准确性的常见方法。
一、数据质量检查数据质量检查是确保数据准确性的第一步。
在进行数据分析之前,统计师应该对数据进行仔细的质量检查。
这包括检查数据的完整性、一致性和准确性。
我们可以使用数据清洗的方法来识别并修正数据中的错误和异常。
同时,应该检查数据的来源和收集方法,以确认数据的可靠性和可信度。
二、重复抽样与实证调查为了验证数据的准确性,重复抽样和实证调查是非常有效的方法。
通过重复抽样,我们可以随机地从数据集中选择一部分数据,然后与原始数据进行对比分析。
如果两者存在显著差异,那么就说明数据存在问题。
实证调查可以通过实地调查、电话访谈等方式来收集数据,以验证原始数据的准确性。
三、利用数据比较和交叉验证数据比较和交叉验证是进一步提高数据准确性的重要手段。
通过将不同数据源的数据进行比较,我们可以发现数据中的差异和不一致之处。
此外,交叉验证可以通过对同一现象进行多次独立测量来检验数据的一致性和可靠性。
通过这些方法,我们可以排除数据错误和不准确性所带来的影响。
四、建立数据质量管理体系为了持续监控和改进数据的准确性,建立和实施数据质量管理体系是必不可少的。
这包括确立数据质量指标和评估方法,制定数据采集和处理的标准操作流程,培训和指导数据采集人员等。
通过这样的管理体系,我们可以及时识别和纠正数据错误和不准确性,并确保统计结果的准确可信。
五、与数据提供方进行沟通和合作在处理数据错误和不准确性时,与数据提供方的沟通和合作是非常重要的。
我们应该及时与数据提供方取得联系,对数据的源头进行了解,并告知他们发现的问题。
这有助于数据提供方修正错误并提供更准确的数据。
另外,与数据提供方的合作还可以为我们提供更多的信息和资源,以进一步提高数据的准确性和可靠性。
常见的数据分析误区及解决方法数据分析在当今信息时代扮演着至关重要的角色。
它可以为企业、政府和个人提供重要的洞察,帮助做出明智的决策和规划。
然而,数据分析领域也存在一些常见的误区,如果不加以解决,可能会导致分析结果的不准确或误导性。
本文将探讨常见的数据分析误区,并提供解决这些误区的方法。
一、样本偏差误区样本偏差是指在数据收集过程中,所选取的样本与总体百分比或分布存在显著差异的情况。
这种偏差会导致分析结果的不准确性和不完整性。
解决这个误区的方法有:1. 随机抽样:确保样本的选择是随机的,并能够代表总体,避免因为主观因素导致样本偏差。
2. 增加样本数量:样本数量越大,样本偏差的影响就越小。
通过增加样本数量,可以降低样本偏差误差。
二、选择性偏差误区选择性偏差是指在数据分析中,由于主观或意识流的因素,只选择了支持某种观点或结论的数据进行分析的情况。
这种偏差会导致结果的不客观和不全面。
解决这个误区的方法有:1. 使用多个数据源:在数据分析过程中,尽量使用多个数据源,包括来自不同渠道和角度的数据,以避免因为单一数据源的选择性偏差。
2. 对数据进行全面性检查:在分析之前,对数据进行全面的检查,排除可能存在的选择性偏差。
比如,检查数据的收集方式、来源、采样方法等。
三、数据清洗误区数据清洗是数据分析过程中非常重要的一步,它包括去除重复数据、填充缺失值、处理异常值等。
然而,错误的数据清洗可能会导致分析结果的失真。
解决这个误区的方法有:1. 核对数据清洗过程:在进行数据清洗时,要仔细核对清洗过程和方法,确保每一步都是合理和准确的。
2. 使用多种清洗方法:针对不同类型的数据和问题,可以使用多种数据清洗方法进行验证和比较,以减少误差。
四、相关性与因果关系误区在数据分析中,很容易混淆相关性和因果关系。
相关性表示两个变量之间的关联程度,而因果关系表示一个变量的变化是由另一个变量引起的。
误解这两者的关系可能导致错误的结论和决策。
数据分析中常见的偏差及其解决方法在数据分析过程中,我们经常会遇到各种偏差,这些偏差可能会导致我们对数据的理解有误。
因此,了解并解决这些常见的偏差是非常重要的。
本文将介绍数据分析中常见的偏差,并提供相应的解决方法。
一、选择偏差选择偏差是指由于样本选择不当导致结果出现系统性偏差的情况。
在数据分析中,如果样本选择不具有代表性,结果就会产生偏差。
解决选择偏差的方法包括:1. 随机抽样:通过随机选择样本,可以减小选择偏差的影响。
随机抽样能够确保每个个体被选择的概率相等,从而使样本能够更好地代表总体。
2. 控制变量:为了降低选择偏差的影响,需要控制并考虑样本选择的相关变量。
通过将其他相关变量保持不变,我们可以更好地理解样本选择对结果的影响。
二、测量偏差测量偏差指的是由于测量工具的不准确性或者测量方法的限制而导致的数据误差。
为了减小测量偏差的影响,我们可以采取以下解决方法:1. 校准测量工具:校准测量工具可以确保测量结果更加准确。
通过定期校准仪器,并检查其准确性,可以减少测量偏差的影响。
2. 多次测量取平均值:由于单次测量可能会出现偏差,我们可以通过多次测量取平均值的方法来减小测量偏差。
多次测量可以平衡测量误差,提供更准确的结果。
三、抽样偏差抽样偏差是指由于样本选择的方式或者样本数据的不完整性导致结果出现的偏差。
为了减小抽样偏差的影响,我们可以采取以下解决方法:1. 增加样本容量:通过增加样本容量,可以减小抽样偏差的影响。
更大的样本容量可以提供更准确的结果,使得样本更好地代表总体。
2. 考虑特殊抽样方法:对于特定领域的数据分析,我们可以考虑使用特殊的抽样方法来减小抽样偏差。
例如,对于分布不均匀的数据,可以使用分层抽样方法来确保样本更具代表性。
四、确认偏差确认偏差是指由于在数据分析过程中对某种观点或假设持有偏见而导致结果的偏差。
为了减小确认偏差的影响,我们可以采取以下解决方法:1. 使用多个分析方法:通过使用多种不同的分析方法,可以减小确认偏差的影响。
数据处理中常见的错误和解决方法导语数据处理在现代社会中变得越来越重要,然而,由于各种原因,我们在处理数据时常常会遇到各种错误。
本文将探讨数据处理中常见的错误以及解决方法。
一、数据缺失数据缺失是数据处理中最常见的问题之一。
当我们收集数据时,可能会出现一些数据丢失的情况,这导致我们无法全面地进行统计和分析。
为了解决这个问题,我们可以采取以下策略:1. 利用缺失数据填补方法:根据已有数据的规律进行估计或插补,如均值填补、回归填补等。
2. 重新收集数据:如果数据缺失较为严重,使用缺失数据填补方法无法解决问题时,我们需要重新收集数据。
二、数据异常值数据处理中另一个常见的问题是数据异常值的存在。
异常值可能是由于数据的错误记录或者某种特殊情况导致的。
解决异常值的方法有以下几种:1. 删除异常值:如果异常值对于结果的影响较大,我们可以考虑删除这些异常值。
2. 替换异常值:可以用平均值、中位数、分位数等替代异常值,以保证数据的准确性。
三、数据重复在数据处理过程中,我们经常会遇到数据重复的情况。
数据重复不仅浪费存储空间,还会对分析和建模的结果产生不良影响。
解决数据重复问题的措施如下:1. 去重:通过数据清洗的操作,删除重复的记录。
2. 数据合并:如果重复的数据分散在多个文件中,我们可以将它们合并为一个文件,以方便后续处理。
四、数据错位数据错位是指数据在记录或者处理过程中发生错位的情况。
这种错误会导致数据的不完整或者不准确。
为了解决这个问题,我们可以采取以下措施:1. 校验数据源:在数据输入的时候进行严格的验证和校验,避免数据错位的发生。
2. 定期检查数据:对于已经录入的数据,定期进行检查,及时发现和纠正数据错位的问题。
五、数据格式错误数据格式错误是指数据的格式与预期不一致。
这种错误可能是由于数据录入过程中的输入错误或者数据源的错误导致的。
为了解决这个问题,我们可以采取以下方法:1. 数据格式转换:通过使用数据处理软件或者编程语言将错误的数据格式转换为正确的格式。
数据分析中常见的偏差和误差处理方法数据分析是现代社会中不可或缺的一项技能,它帮助我们从海量的数据中提取有用的信息,为决策和问题解决提供支持。
然而,在进行数据分析的过程中,我们常常会遇到各种偏差和误差,这些偏差和误差可能会导致我们得出错误的结论。
因此,了解和处理这些偏差和误差是非常重要的。
一、抽样偏差在数据分析中,我们经常需要从总体中抽取一部分样本进行分析。
然而,由于抽样过程中的偏差,样本可能不能完全代表总体,从而导致分析结果不准确。
为了解决这个问题,我们可以采用以下方法:1.随机抽样:通过随机选择样本,可以降低抽样偏差。
随机抽样可以保证每个个体都有相等的机会被选中,从而更好地代表总体。
2.分层抽样:将总体划分为若干个层次,然后从每个层次中随机选择样本。
这样可以确保每个层次都有足够的样本量,从而更好地代表总体。
3.多次抽样:通过多次抽取样本,可以减小抽样偏差。
每次抽样后,我们可以计算不同样本的分析结果,并观察它们的差异。
如果不同样本的结果差异较大,那么可能存在较大的抽样偏差。
二、测量误差在数据分析中,测量误差是指由于测量工具或测量方法的不准确性而引入的误差。
为了减小测量误差,我们可以采用以下方法:1.校准仪器:定期校准测量仪器,确保其准确性。
如果测量仪器的准确性不可靠,那么测量结果可能会出现较大的误差。
2.重复测量:通过多次重复测量同一样本,可以减小测量误差。
每次测量的结果可能存在一定的差异,通过计算这些差异的平均值,可以更接近真实值。
3.标准化测量方法:使用标准化的测量方法可以减小测量误差。
标准化的测量方法可以确保每个测量者在进行测量时都遵循相同的步骤和标准,从而减小主观因素的影响。
三、选择偏差选择偏差是指在数据收集过程中,由于选择样本的方式或条件的不合理而引入的偏差。
为了减小选择偏差,我们可以采用以下方法:1.随机选择样本:通过随机选择样本,可以减小选择偏差。
随机选择样本可以确保每个个体都有相等的机会被选中,从而更好地代表总体。
Excel数据分析中的常见错误及避免方法在数据分析领域,Excel是一款广泛使用的电子表格软件。
然而,许多人在使用Excel进行数据分析时经常犯一些常见错误,这些错误可能导致分析结果不准确或产生误导性的结论。
本文将讨论一些常见的Excel数据分析错误,并提供一些有效的避免方法。
一、错误1:不正确地使用函数在Excel中,函数是进行数据分析的重要工具。
然而,许多人并不熟悉各种函数的使用方法,以及它们在数据分析中的适用性。
这可能导致错误的计算结果。
解决方法:1. 仔细阅读函数的使用说明文档,确保了解函数的参数以及功能。
2. 在使用函数之前,进行必要的数据清理和准备,确保函数的输入数据符合要求。
3. 在使用复杂函数时,可以逐步验证函数的结果,确保每个计算步骤都正确无误。
二、错误2:忽略数据的格式和类型在Excel中,数据的格式和类型对于数据分析至关重要。
然而,许多人在进行数据分析时忽略了这一点,导致分析结果出现偏差。
解决方法:1. 确保数据的格式正确,如日期、货币、百分比等,以便正确计算和表达数据。
2. 了解数据的类型,如文本、数字、逻辑值等,以避免在计算时产生错误。
三、错误3:使用不恰当的图表类型图表是数据分析中用于可视化数据的重要工具。
然而,选择不恰当的图表类型可能会导致数据信息的丢失或误解。
解决方法:1. 根据数据的类型和目的选择合适的图表类型,如柱状图、折线图、饼图等。
2. 确保图表的坐标轴和标签清晰明了,以便读者正确理解图表的含义。
四、错误4:未正确处理缺失值在真实的数据集中,经常存在缺失值。
然而,许多人在数据分析过程中未正确处理这些缺失值,导致结果不准确或产生误导性结论。
解决方法:1. 了解缺失值的特点和来源,使用合适的方法填充或处理缺失值,如平均值、中位数、插值等。
2. 记录和报告缺失值处理的方法,以增加分析结果的透明度和可信度。
五、错误5:未正确进行数据可视化数据可视化是帮助人们理解和分析数据的重要手段。
运营数据分析岗位数据分析不准确的自纠问题及改善措施在现代企业中,运营数据分析岗位的重要性日益凸显。
准确的数据分析可以为企业提供有力的决策依据,帮助企业实现业务目标。
然而,即使在这个岗位上的专业人员,也难免会存在数据分析不准确的问题。
本文将探讨这一问题,并提出改善的措施。
问题分析:1.数据来源问题运营数据分析的准确性首先受到数据来源的限制。
企业收集的数据多样化且庞大,但可能存在数据输入不规范、数据采集有偏差等问题。
这些问题导致分析结果可能存在误差,影响了数据分析的准确性。
2.数据清洗问题大量的原始数据需要进行清洗和整理,以确保数据的可用性。
但在清洗过程中,难免会出现误删、漏删等问题,导致数据分析过程中的不准确性。
3.分析方法问题运营数据分析需要借助各种分析方法和模型来揭示数据背后的规律。
然而,如果运营数据分析岗位的从业人员对分析方法不熟悉或者使用方法不当,就会影响到数据分析的准确性。
改善措施:1.提升数据来源的准确性为了解决数据来源问题,企业可以加强对数据采集和输入环节的管理。
建立规范的数据录入流程,明确数据输入标准,确保数据的准确性和一致性。
此外,使用多个数据来源进行比对,排除异常数据,提高数据的可信度。
2.优化数据清洗流程为了改善数据清洗问题,运营数据分析团队可以建立清洗流程和规范,明确数据清洗的目的和方法。
同时,引入自动化工具和算法,提高数据清洗的效率和准确性。
定期进行数据清洗审核,及时修复错误,确保数据的可靠性。
3.加强分析方法培训和应用为了应对分析方法问题,企业应该加强对运营数据分析岗位人员的培训,提高其分析方法的熟练程度。
建立知识分享和学习交流机制,帮助员工了解最新的分析方法和工具。
在实际工作中,鼓励员工结合实际情况进行灵活应用,确保数据分析的准确性和实用性。
4.引入数据质量管理体系为了全面解决运营数据分析岗位数据分析不准确的问题,企业还可以建立数据质量管理体系。
制定数据质量标准,建立数据质量评估指标体系,并进行定期的数据质量评估和监控。
数据分析工作常见的七种错误及规避技巧
商业领域的数据科学家和侦探类似:去探索未知的事物。
不过,当他们在这个旅程中冒险的时候,他们很容易落入陷阱。
所以要明白,这些错误是如何造成的,以及如何避免。
“错误是发现的入口。
”——James Joyce (著名的爱尔兰小说家)。
这在大多数情况下是正确的,但是对于数据科学家而言,犯错误能够帮助他们发现新的数据发展趋势和找到数据的更多模式。
说到这儿,有一点很重要:要明白数据科学家有一个非常边缘的错误。
数据科学家是经过大量考察后才被录用的,录用成本很高。
组织是不能承受和忽视数据科学家不好的数据实践和重复错误的成本的。
数据科学的错误和不好的数据实践会浪费数据科学家的职业生涯。
数据科学家追踪所有实验数据是至关重要的,从错误中吸取教训,避免在未来数据科学项目中犯错。
福尔摩斯有一句名言是如何定义侦探的,而数据科学家在商业中的角色就类似侦探。
“我是福尔摩斯,我的工作就是发现别人不知道的。
”
企业要想保持竞争力,它必须比大数据分析做的更多。
不去评估他们手中的数据质量,他们想要的结果,他们预计从这种数据分析中获得多少利润,这将很难正确地找出哪些数据科学项目能够盈利,哪些不能。
当发生数据科学错误时——一次是可以接受的——考虑到有一个学习曲线,但是如果这些错误发生在两次以上,这会增加企业成本。
在Python中学习数据科学,成为企业数据科学家。
避免常见的数据科学错误:
1、相关关系和因果关系之间的混乱
对于每个数据科学家来说,相关性和因果关系的错误会导致成本事件,最好的例子是《魔鬼经济学》的分析,关于因果关系的相关性错误,导致伊利诺斯州给本州的学生发书,因为根据分析显示家里有书的学生在学校能直接考的更高分。
进一步分析显示,在家里有几本书的学生在学业上能表现的更好,即使他们从来没有读过这些书。
这改变了之前的假设和洞察:父母通常买书的家庭,能营造愉快的学习环境。
大部分的数据科学家在处理大数据时假设相关关系直接影响因果关系。
使用大数据来理解两个变量之间的相关性通常是一个很好的实践方法,但是,总是使用“因果”类比可能导致虚假
的预测和无效的决定。
要想实现利用大数据的最好效果,数据科学家必须理解相关关系和根源的区别。
关联往往是指同时观察X和Y的变化,而因果关系意味着X导致Y。
在数据科学,这是两个完全不同的事情,但是许多数据科学家往往忽视了它们的区别。
基于相关性的决定可能足以采取行动,我们不需要知道原因,但这还是完全依赖于数据的类型和要解决的问题。
每位数据科学家都必须懂得——“数据科学中相关关系不是因果关系”。
如果两个关系出现彼此相关的情况,也不意味着是一个导致了另一个的产生。
2、没有选择合适的可视化工具
大部分的数据科学家专心学习于分析的技术方面。
他们不能通过使用不同的可视化技术理解数据,即那些可以令他们更快获得洞察力的技术。
如果数据科学家不能选择合适的可视化发展模型,监控探索性数据分析和表示结果,那么即使是最好的机器学习模型,它的价值也会被稀释。
事实上,许多数据科学家根据他们的审美选择图表类型,而不是考虑数据集的特征。
这个可以通过定义可视化的目标避免。
即使数据科学家开发了一个最优秀和最好的机器学习模型,它也不会大叫说“尤里卡”——所有这些所需要的是结果的有效可视化,可以理解数据模式的不同,和意识到它的存在可以被利用来获得商业成果。
常言道“一张图片胜过1000个单词。
”——数据科学家不仅要熟悉自己常用的数据可视化工具,也要理解数据有效可视化的原理,用令人信服的方式获得结果。
解决任何数据科学问题的至关重要一步,就是要获得该数据是关于什么的洞察力,通过丰富的可视化表达,可以形成分析基础和建立相应模型。
3、没有选择适当的模型-验证周期
科学家认为,建立了一个成功的机器学习模型,就是获得了最大程度的成功。
但是,这只是成功了一半,它必须要确保模型的预测发挥作用。
许多数据科学家经常忘记或者倾向性的忽视这样的事实,就是他们的数据必须在指定的时间间隔进行反复验证。
一些数据科学家经常犯的一个普遍性错误:如果和观察到的数据吻合,就认为预测模型是理想的。
已建立的模型的预测效果可以因为模型的关系在不断变化而瞬间消失。
为了避免这种情况,数据科学家最好的解决方式就是每个小时都对含有新数据的数据模型进行评分,或者基于模型的关系变化快慢逐日逐月评分。
由于几个因素,模型的预测能力往往会变弱,因此数据科学家需要确定一个常数,用以确保模型的预测能力不能低于可接受的水平。
有实例即数据科学家可以重建数据模型。
能建立几个模型和解释变量的分布总是更好的,而不是考虑单个模型是最好的。
为了保留已建模型的预测效果和有效性,选择迭代周期是非常重要的,如果做不到,可能会导致错误的结果。
4、无问题/计划的分析
数据科学协会主席Michael Walker说:“数据科学的最高级用途就是设计实验,提出正确的问题和收集正确的数据集,一切工作都要根据科学的标准。
然后你将获得结果,并解释它。
”数据科学是一个结构化的过程,以明确的目标开始,随后出现一些假设的问题,最终实现我们的目标。
数据科学家往往站在数据之上而不考虑那些需要分析回答的问题。
数据科学项目必须要有项目目标和完美的建模目标。
数据科学家们如果不知道他们想要什么——最终得到的分析结果将会是他们不想要的。
大多数数据科学项目最终是回答“是什么”的问题,这是因为数据科学家通过手头的问题作分析而不遵循做分析的理想路径。
数据科学是使用大数据回答所有关于“为什么”的问题。
数据科学家应该通过整合以前未被整合的数据集,主动分析给与的数据集,回答以前没人解答的问题。
为了避免这种情况,数据科学家应该集中精力获得正确的分析结果,这可以通过明确实验,变量和数据准确性和清晰明白他们想要从数据中获得什么实现。
这将简化以往通过满足假设
的统计方法来回答商业问题的过程。
引用伏尔泰的一句话——“判断一个人,是通过他的问题而不是他的答案。
”——先确定明确的问题是及其重要的,能够实现任何企业的数据科学目标。
5、仅关心数据
根据博思艾伦咨询公司的数据科学家Kirk Borne,“人们忘记在数据的使用,保护以及统计产生的问题如认为相关关系就是因果关系会产生伦理问题。
人们忘记了如果你处理的数据足够长,它就会告诉你任何事,如果你有大量的数据,那么你就可以找到相关关系。
如果人们拥有大数据他们会相信他们看到的任何事情”。
数据科学家常常因为得到来自多个数据源的数据而兴奋,并开始创建图表和可视化来做分析报告,忽视发展所需的商业智慧。
这对任何组织来说都是危险的事情。
数据科学家经常给与数据太多决策制定的权力。
他们不够重视发展自身商业智慧,不明白分析如何令企业获益。
数据科学家应该不仅仅让数据说话,而且善于运用自身的智慧。
数据应该是影响决策的因素而不是数据科学项目决策制定的最终声音。
企业雇佣的数据科学家应该是可以将领域知识和技术特长结合起来的,这是避免错误的理想情况。
6、忽视可能性
数据科学家经常倾向性忘记方案的可能性,这将导致作出更多的错误决策。
数据科学家经常犯错,因为他们经常说,如果企业采取了X操作一定会实现Y目标。
对于特定的问题这没有唯一的答案,因此要确认数据科学家从不同可能性中所做的选择。
对指定问题存在不止一个可能性,它们在某种程度是不确定的。
情景规划和可能性理论是数据科学的两个基本核心,不应该被忽视,应该用以确认决策制定的准确性频率。
7、建立一个错误人口数量的模型
如果一个数据项目的目的是建立一个客户影响力模式的模型,但是他们仅仅考虑那些具有高度影响力的客户的行为数据,这不是对的做法。
建立该模型不仅要考虑那些具有高度影响力的客户的行为数据,也要考虑那些不怎么有影响力但是具有潜在影响力的客户的行为数据。
低估任何一边人口的预测力量都可能导致模型的倾斜或者一些重要变量的重要性下降。
这些都是数据科学家在做数据科学时常见的错误。
如果你能想到的任何其他常见的数据科学错误,我们很乐意在下面的评论听到你的想法。
【编辑推荐】
职业生涯提升计划:迈入数据科学新世界
为什么可视化数据有一定的误差值?
跟着Twitter的数据科学家,体验窥探天机的兴奋
20个问题揭穿冒牌数据科学家
数据科学家和大数据技术人员工具包。