数据质量评价的原则与方法
- 格式:docx
- 大小:16.62 KB
- 文档页数:3
客户数据质量评价的原则与方法admin 2013-10-12关于客户数据质量的困惑“什么样的客户数据质量是比较好的?”“为什么我们的客户数据看起来很不错,可是在进行电话营销时,客户接触率和营销效果确差强人意,与期望大相径庭?”在进行数据库营销的讨论和交流中,经常有人问到这样的问题。
这些问题反映出了很多在从事数据库营销或直复营销过程中的营销策划人员和运营管理人员经常面临的问题和困惑。
几乎所有的组织都需要数据,一些行业严重依赖于客户数据,如银行、电信、保险公司等。
毫无疑问,较差的数据质量给企业营销带来的损失非常巨大!试想一下,如果你的呼叫中心正在试图向非目标客户进行大规模电话营销活动,或是你的企业正向那些早已过期的邮寄地址寄出了数以万计的促销宣传资料。
这些给公司带来的损失有多少?不幸的是,这样的情况几乎经常发生,而企业的数据库营销策划人员也经常面临着数据选择和评价的挑战。
理解关于质量的涵义首先,让我们简单探讨一下“质量”的涵义。
在服务营销和服务管理中,通常将“质量”定义为:“满足不同客户的个性化需求的能力”。
这样的定义有着一定的主观特征,也就是说不同的企业会根据其对客户需求和竞争环境的理解,来定义其产品与服务的质量特征。
这可以用来解释为什么对于不同等级的客户提供的服务质量标准有所差异的原因,这也是为什么同样是提供点对点的航空运输服务,某些航空公司的服务质量和客户体验要好于其他一些竞争者的原因。
国际标准组织将质量定义为:“产品或服务所具备的满足明确或隐含需求能力的特征和特性的总和”。
这样的定义虽然更明确,但对于大多数的人来说,过于专业和抽象。
一个比较通俗且受到多数人认可的对质量的直观定义是“适合使用需求”。
这也是我们本文的一个主旨,没有质量绝对完美的数据,对于数据质量的评价也是要根据数据的使用需求来进行评价的。
只要能够适合使用的需求,我们就认为数据的质量是符合要求的。
企业也应当本着有取有舍的原则,选择那些为企业所能利用的数据。
测绘技术中的数据质量评估方法与标准引言:测绘技术在现代社会中起着极为重要的作用,它为各行各业提供了精确的地理信息,从而支持决策制定和资源管理。
然而,测绘数据的质量评估一直是一个关键问题。
本文旨在探讨测绘技术中的数据质量评估方法与标准。
一、数据质量评估的重要性数据质量评估是测绘技术中至关重要的一环。
数据质量评估可以确保测绘数据的准确性、可靠性和一致性,为决策者提供可信赖的地理信息支持。
一个良好的数据质量评估体系可以帮助相关从业者快速发现和修正数据中的问题,提高整体数据的质量水平。
二、数据质量评估的方法1. 内部质量评估方法内部质量评估方法主要是通过检查数据的准确性、完整性、一致性和合法性来评估数据的质量。
常见的内部质量评估方法包括数据验证、拓扑一致性检查、完整性检查和数据格式验证等。
数据验证是通过进行实地测量或对比其他可信数据来验证测绘数据的准确性;拓扑一致性检查是通过检查数据集中不同要素之间的空间拓扑关系是否符合预期来评估数据的一致性;完整性检查是检查数据中是否存在缺失、重复或错误的内容;数据格式验证是检查数据是否符合预定的格式要求。
内部质量评估方法可以帮助发现数据本身存在的问题,然后进行相应的修正和完善。
2. 外部质量评估方法外部质量评估方法是通过与外部参考数据进行对比来评估数据的质量。
常见的外部质量评估方法包括位置精度评估、形状精度评估和属性一致性评估等。
位置精度评估是通过比较测绘数据与已知准确位置的参考数据来评估数据的位置精度;形状精度评估是通过比较测绘数据与真实地物的形状来评估数据的形状精度;属性一致性评估是通过比较测绘数据与已知属性信息的参考数据来评估数据的属性一致性。
外部质量评估方法可以帮助发现数据与真实情况不一致的问题,同时也可以对测绘过程中的误差和偏差进行定量分析。
三、数据质量评估的标准数据质量评估的标准是测绘技术中的数据质量评估方法的基础。
目前,国内外都有一些常用的数据质量评估标准,如国际标准ISO 19113《地理信息:质量原则》和国内标准GB/T 12763.1-2007《地理信息体系数据质量评价指南第1部分:空间数据》等。
统计数据质量评估方法的分析作者:李素莲来源:《现代企业文化·理论版》2017年第14期摘要作为统计数据质量管理工作的关键环节,统计数据质量评估结果的准确性直接影响其作为分析参考依据所发挥出的效果。
为了保证各类分析工作的顺利完成,应根据实际的统计数据对象,采用适宜的质量评估方法开展质量评估检验工作。
本文从统计数据质量评估原则入手,对统计数据质量评估方法进行分析和研究。
关键词统计数据质量评估方法与发达国家相比,我国在统计数据质量评估方面的进展相对较慢。
这种现象与评估方法体系的不完善有关。
为了更好地开展数据评估工作,应该加强对统计数据质量评估方法的分析和研究。
一、统计数据质量评估原则为保证统计数据质量评估结果的准确性,在实际的评估工作中,应该注重以下几种原则的遵循:(一)整体性原则整体性原则要求统计数据质量评估工作注重统计数据的时效性、准确性、详略性以及相关性。
在实际的统计数据质量评估工作中,应分别从宏观角度和微观角度对评估对象数据作出综合评估,使得统计数据能够更好地发挥出自身的参照支持作用。
(二)规范性原则规范性原则要求数据评估人员严格按照相关步骤开展统计数据质量评估与审核工作。
目前我国的数据审核工作以计算机审核与人工审核两种方式并存。
当审核中发现异常数据时,应及时进行核实辨别,进而保证所得评估结果符合相关要求。
二、统计数据质量评估方法从整体角度来讲,当前我国数据评估工作中使用的统计数据质量评估方法主要包含以下几种:(一)核算数据重估方法1.物量指数重估法。
这种方法是指,将待评估统计数据指标的实际组分的实物产量看作是质量评估工作的基础元素,利用拉氏指数理论等相关指数理论,分别为所有组分实物产量的综合增长率参数进行计算。
所得计算结果即为评估对象统计数据指标的实际增长率参数。
从本质角度来讲,可以将这种评估方法看成是规范物量核算的方法。
2.偏差修正重估法。
这种方法目前在GDP现价评估工作中得到了较为广泛的应用。
数据质量评价体系1. 引言数据质量是数据管理中的一个重要问题,它直接影响到决策的准确性和有效性。
为了确保数据质量,人们提出了各种数据质量评价体系。
本文旨在探讨数据质量评价体系的重要性、组成部分和应用。
2. 数据质量评价体系的重要性2.1 数据质量对决策的影响准确和可靠的数据是有效决策的基础。
如果数据存在错误、缺失或不一致,决策者将无法准确分析问题,从而导致错误或低效的决策结果。
2.2 数据对业务流程和客户满意度的影响在业务流程中,各个环节都依赖于正确和完整的数据。
如果存在错误或缺失,将导致业务流程中断、效率低下以及客户满意度下降。
2.3 数据对企业形象和竞争力的影响企业形象建立在可信赖和高品质数据基础上。
如果企业无法提供高质量、一致性和准确性的数据,将丧失竞争力,并且可能导致客户流失。
3. 数据质量评价体系组成部分3.1 完整性评价完整性评价是评估数据是否完整和完整性的过程。
它包括检查数据是否存在缺失、重复、无效或不一致的情况。
常用的方法包括数据清洗和验证。
3.2 准确性评价准确性评价是评估数据是否准确和可靠的过程。
它涉及检查数据是否与实际情况一致,并与其他可靠来源进行比较验证。
3.3 一致性评价一致性评价是确保数据在不同来源、不同时间和不同系统之间保持一致的过程。
它涉及检查数据之间的逻辑关系和关联,并验证其一致性。
3.4 可用性评价可用性评价是衡量数据是否易于访问、使用和理解的过程。
它包括检查数据格式、结构、标准化以及文档化等方面。
3.5 及时性评价及时性评估是衡量数据更新速度和时效性的过程。
它涉及检查数据更新频率、延迟以及处理时间等方面。
4. 数据质量体系应用案例分析4.1 银行业务场景下的应用在银行业务中,准确且完整的客户信息对于风险管理至关重要。
通过数据质量评价体系,银行可以及时发现和纠正数据错误,提高客户信息的准确性和完整性,从而降低风险和提高客户满意度。
4.2 零售业务场景下的应用在零售业务中,数据质量评价体系可以帮助零售商准确分析销售数据、库存信息以及顾客偏好。
产品质检中的数据分析与质量评估在现代工业生产中,产品的质量是企业赖以生存和发展的基石。
而对于产品质量的评估和监控,则需要借助数据分析的手段来进行。
本文将探讨产品质检中的数据分析与质量评估方法,并提供一些实用的案例。
一、数据收集与整理首先,在产品质检过程中,需要收集大量的数据。
这些数据包括产品的各项指标、生产工艺参数、原材料的批次等等。
为了确保数据的准确性和可比性,需要建立合适的数据采集系统,并对数据进行分类、整理和存档。
二、质量数据分析方法1.描述性统计分析描述性统计分析是最基本的分析方法,通过统计指标(如均值、中位数、方差等)对数据进行描述,以了解产品质量的总体情况。
例如,通过计算产品的平均合格率、不良品率等指标,可以对产品的整体质量水平进行评估。
2.相关性分析相关性分析用于研究不同变量之间的关系。
在产品质检中,可以通过相关性分析来探索产品质量与各个工艺参数、原材料批次之间的关联性。
例如,通过计算产品质量与温度、湿度等参数之间的相关系数,可以确定对产品质量影响最大的因素。
3.六西格玛分析六西格玛是一种通过标准差的计算方法,将数据按照“标准差倍数”的划分,评估数据的离散程度。
在产品质检中,可以利用六西格玛分析来评估产品的稳定性和一致性。
通过将产品特性的测量值与上下限进行比较,可以确定产品是否在合理的范围内。
4.回归分析回归分析可以用于建立产品质量与各种因素之间的数学模型。
通过回归分析,可以预测产品质量对各个因素的敏感度,并找出影响产品质量的关键因素。
例如,可以建立产品合格率与工艺参数之间的回归模型,从而确定最佳的工艺参数设置。
三、质量评估方法1.典型分布评估法典型分布评估法是通过将产品质量数据和标准分布进行比较,来评估产品质量的合格程度。
常用的典型分布评估方法有正态分布评估法、Weibull分布评估法等。
通过将产品质量数据进行统计处理,并绘制出相应的质量控制图,可以直观地评估产品质量的稳定性和一致性。
在当今信息化时代,随着互联网和移动互联网的快速发展,大数据已经成为了企业最重要的资产之一。
大数据分析对于企业决策、产品研发、市场营销等方面都起到了至关重要的作用。
然而,大数据的质量却是一个备受关注的问题。
因为大数据的产生和获取过程中,可能会存在数据不准确、不完整、重复、不一致等问题,这就需要对数据进行质量评估与监控,以确保分析结果的准确性和可靠性。
数据质量评估是指对数据的准确性、完整性、一致性、及时性和可靠性等方面进行评价。
而数据质量监控则是指动态地监控数据的质量,及时发现和处理数据质量问题,以保障数据质量的稳定和持续。
在大数据分析中,对数据质量的评估和监控至关重要,下面我们将介绍一些常见的数据质量评估与监控的方法。
一、数据质量评估方法1. 数据准确性评估数据准确性评估是指对数据的真实性和准确性进行评价,数据准确性是数据质量的核心指标之一。
数据准确性评估的方法有很多,比如对比数据源、数据清洗、数据抽样检查等。
其中,数据清洗是非常重要的环节,可以通过数据清洗的工具和算法来检测和修复数据的准确性问题。
2. 数据完整性评估数据完整性是指数据的完整程度,包括数据的完整性约束条件、数据的完整性规则等。
数据完整性评估的方法主要包括数据完整性约束条件的检查、数据完整性规则的验证等。
3. 数据一致性评估数据一致性是指数据在不同的地方或时间点上的一致性。
数据一致性评估的方法包括数据冗余度的检查、数据一致性约束条件的验证等。
二、数据质量监控方法1. 数据质量指标监控对数据质量的关键指标进行监控是保证数据质量的有效手段。
比如对数据准确性、完整性、一致性等指标进行监控,及时发现和处理数据质量问题。
2. 数据异常监控数据异常监控是对数据异常情况进行监控,包括对异常数据的识别、分析和处理。
比如对数据的异常值、漂移、突变等进行监控。
3. 数据质量报告监控定期生成数据质量报告,并进行监控,及时发现并解决数据质量问题。
数据质量报告监控是对数据质量报告的生成、发布、审核和监控。
数据质量评价方法数据质量评价是信息化建设中的关键环节之一,其有效性直接影响企业决策的准确性、效率和成功率。
在评价数据质量时,除了依赖技术手段,更需要考虑多方面因素,如数据本身的特性、数据采集和处理的过程等。
本文将为读者介绍基于多因素的数据质量评价方法,以助于提高企业信息化建设的水平和管理水平。
1.数据质量的定义数据质量是指数据符合使用要求的程度,具体包括以下几个方面:完整性、准确性、一致性、时效性、易读性和可追溯性等。
在对数据质量进行评价时,需要综合考虑这些方面,因为它们对数据的有效性和实用性都具有重要的影响。
2.数据质量评价的目的数据质量评价的主要目的是确定数据质量是否符合使用要求,以及数据的可靠程度和完整程度。
通过对数据质量的评价,可以及时发现数据质量问题,促进数据质量的提高。
同时,也可以降低数据处理中错误的发生率,加强对数据的监控和管理,实现数据质量的持续发展与提高。
3.数据质量评价的方法数据质量评价的方法主要由以下四个步骤组成:1.确定数据质量的关键特点和使用要求。
在这个步骤中,需要明确数据的生命周期、数据应用环境、数据的敏感性和机密性等特点。
同时,也需要确定数据的使用要求和评价标准,以便后续评价的开展。
2.评估数据质量的实际情况。
在这个步骤中,需要对数据进行具体的评估,以检测数据的完整性、准确性、一致性、时效性、易读性和可追溯性等。
评估数据质量的方法可能包括数据抽样、统计分析、数据模拟、数据分析和数据比对等。
3.分析数据质量结果并确定改进方案。
在这个步骤中,需要将评估结果进行分析和比对,找出数据质量不符合使用要求的原因和关键点,并提出相应的改进方案。
改进方案可能包括数据清洗、数据修改、数据归档和数据整合等。
4.实施数据质量的改进计划。
在这个步骤中,需要对改进方案进行具体实施,并加强对数据的监控和管理。
实施数据质量改进计划的过程中,还需要及时反馈数据质量问题和解决方案,实现数据质量的不断提高和保证。
数据质量评估的主要指标和方法概述数据质量评估是指对数据集进行系统性的分析和评价,以确定数据质量的好坏程度。
在数据科学和决策制定中,高质量的数据是基础,能够产生准确的分析结果和可靠的决策。
然而,由于各种原因,数据质量问题往往难以避免。
因此,进行数据质量评估成为确保数据有效性和可信度的关键步骤。
为了评估数据质量,需要考虑一系列指标和方法,以确保数据集满足特定的要求和目标。
下面将概述一些主要的数据质量评估指标和方法。
1. 完整性完整性是指数据集中是否存在缺失或丢失的数据。
缺失数据可能导致信息不完整,从而对分析和决策产生不确定性。
常用的评估方法包括检查空值和缺失值的频率和模式,比较数据集与预期值之间的差异。
此外,还可以使用填充缺失数据的方法来改善数据集的完整性。
2. 一致性一致性是指数据集中的信息是否在不同的维度和层次之间保持一致。
一致性问题可能导致数据冲突,增加数据的不确定性。
评估一致性可以通过检查数据中的逻辑关系和约束条件来实现,比较不同数据源之间的差异,并进行数据匹配和合并。
3. 准确性准确性是指数据中的信息是否与真实世界的事实相符。
数据的准确性问题可能由于人为错误、系统错误或数据源错误等原因引起。
评估准确性的方法包括与其他可靠数据源进行比较,使用统计方法检测异常值和离群点,以及进行数据验证和校正。
4. 可靠性可靠性是指在相同的条件下,数据在不同时间和不同环境中是否保持一致。
可靠性问题可能来自于数据损坏、传输错误或系统故障等原因。
评估可靠性可以通过观察数据的稳定性和一致性来实现,使用冗余数据和文件校验和等方法来验证数据的完整性和一致性。
5. 及时性及时性是指数据是否在需要时及时可用。
延迟数据可能导致决策的失效和不准确性。
评估及时性可以通过观察数据更新的频率和延迟来实现,使用时间戳和数据更新监控等方法来确保数据的及时性。
6. 有效性有效性是指数据是否满足特定问题或任务的需求。
数据的无效性可能导致无法得出有意义的结论和决策。
评分原则及方法范文评分是对事物质量、能力或表现的一种评价和判断。
评分可以用于各种场合,例如考试、竞赛、产品评测、餐厅评级等。
评分有一定的原则和方法,下面将介绍评分的原则和方法,以帮助人们进行准确和公正的评分。
评分的原则:1.客观性原则:评分应当客观、公正,不受任何主观偏见的影响。
2.公正性原则:评分应当基于事实、数据和标准,而非个人情感或立场。
3.一致性原则:评分标准和方法应当一致,并适用于所有评分对象。
4.可信性原则:评分应当是可靠和可信的,能够得到其他人的认同和理解。
5.透明性原则:评分标准和方法应当公开透明,使得被评分对象了解评分的依据和过程。
6.全面性原则:评分应当全面、综合地考虑评分对象的各个方面和维度。
评分的方法:1.制定评分标准:在进行评分之前,需要明确评分标准。
评分标准应当是具体明确的,能够体现评分对象的各个方面和维度。
评分标准可以根据评分对象的不同特点和目的进行设计。
2.选择评分等级:根据评分标准,确定评分的等级或分值。
评分等级可以是数字、字母、符号或描述性词语等,具体形式可以根据需要进行选择。
3.收集评分信息:收集与评分对象相关的信息和数据。
评分信息可以包括观察、测量、问卷调查、统计数据等,具体方法可以根据评分对象和目的进行选择。
4.进行评分:根据评分标准和收集到的评分信息,进行评分。
评分过程应当客观、公正,避免个人主观意见的干扰。
5.汇总评分结果:将各个评分者的评分结果进行汇总和统计。
可以使用平均值、总分、百分比等方法来表示评分结果。
6.分析评分结果:对评分结果进行分析和解读。
可以比较不同评分者的评分结果,找出评分结果的优劣势和共同特点。
也可以将评分结果与其他相关信息进行对比,了解评分对象的特点和表现。
7.反馈评分结果:向被评分对象提供评分结果和相应的反馈。
反馈应当准确、具体,帮助被评分对象了解其表现的优点和不足,并提出相关建议和改进措施。
8.追踪评分结果:对评分结果进行追踪和记录,以便进行长期的评估和比较。
如何进行测量数据的质量控制与评估数据在现代社会中起着至关重要的作用。
无论是在科学研究领域还是在商业运营中,准确和可信的数据是做出准确决策和取得持续发展的基础。
然而,由于各种各样的原因,数据质量往往难以保证。
因此,进行数据质量控制与评估是至关重要的。
在本文中,我们将探讨如何进行测量数据的质量控制与评估。
一、数据质量控制的重要性数据质量控制是指通过一系列的操作和措施,确保数据的准确性、完整性、一致性和可靠性。
数据在收集、传输、存储和分析的过程中很容易受到各种干扰和误差的影响,因此需要进行质量控制来筛选并修复这些问题。
数据质量控制的重要性体现在以下几个方面:首先,数据质量控制可以提高决策的准确性。
决策的基础是数据,如果数据质量不好,决策结果很可能是错误的。
通过进行数据质量控制,可以确保决策所依据的数据是准确和可靠的,从而提高决策的准确性。
其次,数据质量控制可以提高用户的满意度。
无论是科学研究还是商业运营,数据用户都希望得到准确和可靠的数据。
如果数据质量不好,用户可能会对数据失去信任,进而对数据提供者产生负面评价。
通过进行数据质量控制,可以提高数据的可信度,增强用户的满意度。
最后,数据质量控制可以提高数据的可重复性和可比较性。
科学研究中,数据可重复性和可比较性是评估一个研究的重要标准。
如果数据质量不好,可能导致数据无法重复或者无法与其他数据进行比较,进而影响研究的科学性和可信度。
通过进行数据质量控制,可以提高数据的可重复性和可比较性,促进科学研究的发展。
二、数据质量控制的方法数据质量控制是一个复杂而细致的过程,需要通过一系列的方法和工具来实施。
下面介绍几种常用的数据质量控制方法:1. 数据收集阶段的质量控制:在数据收集阶段,需要确保数据的准确性和完整性。
例如,在进行实验时,需要遵循严格的操作规范,确保数据的准确性和可靠性;在进行问卷调查时,需要设计科学合理的问卷,避免问题的歧义性和主观性。
2. 数据清洗和预处理:在数据收集后,需要对数据进行清洗和预处理。
仅供参考!
目前,基于数据仓库的商业智能应用已经成为国内许多企业的IT规划项目,并受到企业管理层的关注。
作为商业智能的基础,数据质量的好坏是影响商业智能应用效果的关键,但由于企业的信息化经过长期的积累和发展,数据质量参差不齐,脏数据的存在阻碍了商业智能应用的进程,下面将重点谈谈如何让脏数据改头换面。
数据的“往事”
脏数据是指源系统中的数据不在给定的范围内或对于实际业务毫无意义,或是数据格式非法,以及在源系统中存在不规范的编码和含糊的业务逻辑。
脏数据的存在主要是由于源系统的设计不够严密造成的。
主要表现为:数据格式错误,数据不一致,数据重复、错误,业务逻辑的不合理,违反业务规则等。
例如,未经验证的身份证号码、未经验证的日期字段等,还有账户开户日期晚于用户销户日期、交易处理的操作员号不存在、性别超过取值范围等。
此外,也有因为源系统基于性能的考虑,放弃了外键约束,从而导致数据不一致的结果。
目前,大多数的银行业务系统的输入界面是采用COBOL语言或C语言开发的,界面处理功能不是很强,一些要素被设计成“输入”而不是“选择”,如企业客户的信用等级被设计成输入,输入的正确与否完全由操作员的理解决定,这也是脏数据产生的原因之一。
例如,如果被设计成“选择”就不会出现把AAA输成“1”或其他了。
转换与清洗的实例
下面以银行业务系统的客户的惟一标识—客户号为例来讲解如何转换与清洗数据。
客户信息的处理是整个数据抽取、转换、清洗和装载(ETL)工作中最复杂的部分。
目前业务系统中常见的客户信息处理的难点主要有以下两个方面。
客户的惟一标识混乱
银行的客户号一般由证件类型与证件号组成,这里就有一个问题,如果客户有多种证件怎么办?或者说某个客户办了移民,有了新的身份,系统中怎样体现出他是同一个客户?这些问题,除了少部分是由于发证机关造成的(如身份证重号),大部分是由于操作人员的操作不规范造成的。
主要表现在以下三个方面。
A、客户身份证号问题
最常见的问题是客户的身份证从15位更换为18位。
首先操作人员只要能输入新的客户号,就认为是一个新的客户;其次,即使操作员知道客户的身份证升位了,但在银行的客户信息中,客户号是惟一标识,如果对惟一标识进行更新,作为增量反映到目标系统中,但没有记录原客户号,对于目标系统来说就是一条新记录,而删除原有的客户信息在实际操作中可能是不允许或做不到的,因为在这个客户号上可能还挂了许多账户,即便物理删除了这条客户
记录,也不可能作为增量数据传输到分析系统,因为这条数据确实已经不存在了。
所以在实际的业务操作中只是简单地增加一条客户信息,新开的账户就挂在新的客户信息上,这样业务系统中就登记了两条客户信息。
在ETL处理时,对上面这种情况一般都直接转换为18位,但在首次全量处理时,必须通过比较姓名来真实证明两条记录是同一个客户。
增量处理时需要同样的处理。
这样做需要更多的系统时间。
第二个客户身份证号问题是15位身份证号中有字母。
如数字“0”被误写为字母“O”。
第三个客户身份证号问题是长度不为15位与18位。
第四个客户身份证号问题是同一身份证多个客户号。
身份证号问题在ETL时要生成异常客户信息记录文件,再交由业务部门处理,如把原15位身份证上挂接的账户重新挂接到18位上,删除15位的客户信息,删除错误的客户信息,重新录入正确的客户信息,并进行账户挂接。
B、多种证件问题
多种证件也会导致一名客户有多个客户号,技术上没有能力来发现,只有依靠业务人员来收集、更新维护信息。
如果通过建新表来保存这种关系,将增加数据处理、查询的难度。
C、其他问题。
有些账户上没有客户信息或虚编了客户号,比如1999年11月以前开设的账户,没有客户可以挂接,于是随意设了客户号,在汇总统计时要注意区分这种情况。
多数据源导致多客户信息
由于客观原因,银行可能有许多分散独立的业务系统,没有做到完全的集中,这些系统中都有客户信息。
多数据源导致多客户信息,同一客户在不同系统中有不同的数据描述,或者详细程度不同,在一些系统中甚至可能没有明确的客户代码与客户信息。
在处理时,主要根据客户信息的详细程度与更新时间来考虑,并确定一个信息修改的原则。
首先我们把来自最大的数据源——核心业务系统的客户信息作为基础,这些信息数据量大,虽然有很全面的数据结构,但大部分的字段内容为空,而来自个人信贷系统、银行卡系统等的客户信息数据量相对较少,有详细的内容,正常情况下客户记录应该是核心业务系统的一个子集。
数据仓库系统应该综合所有系统的客户信息,客户记录数应该是并集,客户记录字段应该是一些重要字段的并集。
然后确定不同数据源有公共字段的修改顺序。
首先按信息的修改时间来判断,但最新的信息修改不一定有最全面的信息,如在柜面开户,核心系统仅录入了身份证与姓名,没有录入地
址等其他公共字段信息,而个人信贷系统或卡系统虽然建立的时间比较早,但有较全面的信息,不能用核心系统信息直接更新。
所以公共字段的修改原则是在源数据与目标数据的字段不为空的情况下,以最新的信息为准。
但这样做要耗费大量的系统资源,特别是在做全量数据初始化时,好在客户信息变化的频率不是很高,在实际全量数据初始化时往往是确定一个顺序,例如,以核心业务系统信息为基础,银行卡信息覆盖核心业务系统信息,然后再用贷款信息覆盖。
增量处理时一种折衷的方法是,在目标系统中记录客户信息的来源系统,如果来自贷款系统,则不能用其他系统的增量信息更新,只能用贷款系统的增量信息更新,而贷款系统的信息可以修改来自其他系统的信息。
实施经验:转换与清洗的时机
一般来说,转换与清洗发生在数据抽取之后,一些转换与清洗可以在抽取的同时去做。
对于一些相对不繁忙的业务系统,如个人信贷系统,由于不是24小时运行,在每天完成正常的数据处理后,仍有很多时间空闲,在数据卸载时可以进行转换与清洗,这样做能够减少数据仓库的负载量。
需要注意的是,不能对源系统进行清洗,因为源系统数据正确性的标准可能与目标系统不一样,对源系统的数据进行任何的修改与删除都是不允许的。
当然源系统清理自身错误的数据对加快数据抽取会有好处。
数据清洗的六个步骤
数据仓库领域的权威W.H.Inmon博士把数据清洗的过程分为六个步骤:
步骤一:元素化(将非标准的数据统一格式化成数据元素)。
步骤二:标准化(将元素标准化,根据数据字典消除不一致的缩写等)。
步骤三:校验(对标准化的元素进行一致性校验,即在内容上修改错误)。
步骤四:匹配(在其他记录中寻找相似的记录,发现重复异常)。
步骤五:消除重复记录(根据匹配结果进行处理,可以删除部分记录或者把多个记录合并为一个更完整信息的记录)。
步骤六:档案化(将结果写入元数据存储中心。
这样可以更好地进行后续的清理过程,使得用户容易理解数据库以及更好地进行切片、切块等操作)。
(ccw)。