单一插补方法与多重插补方法的对比及分析
- 格式:docx
- 大小:11.00 KB
- 文档页数:4
单一插补方法与多重插补方法的对比及分析0.缺失数据说明Little和Rubin根据缺失机制的不同,缺失数据可分为三大类:完全随机缺失数据(MCAR),随机缺失数据(MAR)以及非随机缺失数据(NMAR)。
MCAR表示某些变量数据的缺失完全不依赖于变量或者回答者的真实情况,是严格意义上的随机缺失;MAR表示某些变量数据的缺失与回答者的真实情况是独立的;NMAR则表示变量数据的缺失与回答者的真实情况之间有相关的联系,并不是随机缺失的。
实际情况中,缺失数据对数据分析造成较大的影响,主要表现在两个方面:数据统计的功效以及会带来有偏估计。
Kim和Curry(1997)发现当有2%的数据缺失时,若采用列表删除的方法,将会带来18.3%全部信息的丢失。
Quinten和Raaijmakers(1999)的研究表明10%~35%的数据缺失会带来35%~98%的信息丢失。
可见,对缺失的数据不进行处理会给整个数据结构带来巨大的影响。
故而,在数据分析中,对缺失数据的处理至关重要,同时该部分也是目前新兴学科——数据挖掘技术的重要组成部分。
在处理缺失数据时,为了方便处理,一般假定缺失机制为MAR或者MCAR,这样可利用数理统计方法进行处理。
缺失数据的处理方法可分为三大类:直接删除法、插补法、基于模型的预测方法。
其中直接删除法最为便捷,同时也是最为粗糙的方法,该方法易造成真实信息的大量丢失,仅仅适用于极少量的数据缺失情况。
相比而言,插补法和基于统计模型的预测方法比较常用,也较为有效。
根据每个缺失值的替代值个数,可将插补方法分为单一插补和多重插补。
1.单一插补与多重插补概念单一插补是指采用一定方式,对每个由于无回答造成的缺失值只构造一个合理的替代值,并将其插补到原缺失数据的位置上,替代后构造出一个完整的数据集。
多重插补是由哈佛大学的Rubin教授在1977年首先提出的,该方法是从单一插补的基础上衍生而来的。
指给每个缺失值都构造m个替代值(m>1),从而产生了m个完全数据集,然后对每个完全数据集采用相同的数据分析方法进行处理,得到m个处理结果,然后综合这些处理结果,基于某种原则,得到最终的目标变量的估计。
摘要:插补法是对缺失数据的调整方法,多重插补弥补了单一插补的缺陷,采用一系列可能的数据集来填充每一个缺失数据值,反映了缺失数据的不确定性。
本文介绍了多重插补程序的三种数据插补方法:回归预测法、倾向得分法和蒙特卡罗的马氏链方法,并且对多重插补的插补效果进行推断,指出多重插补存在的问题。
关键词:多重插补;缺失数据一、引言在数据处理和数据分析中经常会出现缺失数据(missingdata)或不完全数据(incompletedata),从抽样调查的角度,把这些数据归结为无回答数据集。
一般把无回答分为“单位无回答”和“项目无回答”。
“项目无回答”是指被调查单位虽然接受了调查,但只回答了其中的一部分而非全部的问题,或者对某些项目提供的资料是无用的。
对于“项目无回答”,如果重新调查来获得准确数据,会浪费大量的时间、人力和财力,是不现实的。
因此对“项目无回答”的弥补处理多采用插补法(imputationmethod)。
插补法是指采取一定的方式为调查中的每一个缺失数据寻找一个合理的替补值插补到原缺失数据的位置上,对得到的“完全数据集”使用完全数据统计分析方法分析并进行统计推断的一种方法。
插补的目的并不是预测单个缺失值,而是预测缺失数据所服从的分布。
通过插补,一方面,填补了缺失数据的空白,使得原来有缺失数据的数据集成为一个完整数据集,弥补了统计分析的不便;另一方面,减少了由于数据缺失造成的估计量的偏差。
二、多重插补的提出迄今为止,学术界已提出并发展了30多种插补方法。
在抽样调查中应用的主要是单一插补和多重插补。
单一插补指对每个缺失值,从其预测分布中抽取一个值填充缺失值后,使用标准的完全数据分析进行处理。
单一插补方法大致可以归为两类:随机插补和确定性插补,具体包括:均值插补、热卡插补、冷卡插补、回归插补和模型插补等。
但是单一插补假定好像缺失值在完全数据分析中是已知的,并未反映出位置缺失数据的预测的不确定性,容易扭曲变量关系,无法反映无回答模型的不确定性,并且参数估计的估计方差结果将是有偏的。
数据缺失处理方法数据缺失是指在数据采集、存储或者处理过程中,某些数据项或者数值无法获取或者丢失的情况。
数据缺失可能会对数据分析、模型建立以及决策产生不良影响。
因此,为了保证数据的完整性和准确性,需要采取一系列的数据缺失处理方法。
一、了解数据缺失的类型在开始处理数据缺失之前,首先需要了解数据缺失的类型。
常见的数据缺失类型包括:1. 彻底随机缺失(MCAR):缺失数据的浮现与任何其他数据或者缺失本身无关。
2. 随机缺失(MAR):缺失数据的浮现与其他已观察到的数据有关,但与缺失数据本身无关。
3. 非随机缺失(NMAR):缺失数据的浮现与缺失数据本身有关。
二、数据缺失处理方法针对不同类型的数据缺失,可以采取以下几种常用的数据缺失处理方法:1. 删除缺失数据当数据缺失的比例较小且缺失是随机的情况下,可以考虑直接删除缺失数据。
这样做的好处是简单快捷,但可能会导致数据量减少和样本偏差。
2. 插补缺失数据插补是指通过一定的方法来填补缺失的数据。
常见的插补方法包括:- 均值插补:用变量的均值来填补缺失值。
适合于MCAR和MAR类型的缺失数据。
- 中位数插补:用变量的中位数来填补缺失值。
适合于MCAR和MAR类型的缺失数据,对于有离群值的数据较为稳健。
- 众数插补:用变量的众数来填补缺失值。
适合于MCAR和MAR类型的缺失数据,特殊适合于分类变量。
- 回归插补:通过建立回归模型,利用其他变量的信息来预测缺失值。
适合于MAR类型的缺失数据。
- 多重插补:通过多次摹拟生成多个完整的数据集,然后对每一个数据集进行分析,最后将结果进行汇总。
适合于MCAR、MAR和NMAR类型的缺失数据。
3. 使用专门的缺失值代码对于某些变量,可以将缺失值用专门的代码或者符号来表示。
例如,可以将缺失值用"NA"或者"-999"来表示。
这样做的好处是能够在后续的数据分析中更好地区分缺失值和有效值。
4. 使用机器学习算法预测缺失值对于大规模的数据集和复杂的数据模式,可以使用机器学习算法来预测缺失值。
补缺失值的方法缺失值是指数据集中某些观测值或变量的值缺失或未记录的情况。
在数据分析和建模过程中,缺失值会对结果产生不良影响,因此需要采取合适的方法来补充这些缺失值,以保证数据的完整性和准确性。
本文将介绍几种常见的补缺失值的方法。
一、删除缺失值删除缺失值是最简单直接的方法之一。
当缺失值的比例较小且对数据分析结果的影响较小时,可以选择删除缺失值所在的行或列。
这种方法适用于数据量较大的情况下,可以最大程度保留数据的完整性。
但需要注意,删除缺失值可能会造成数据的偏差,因此需要谨慎使用。
二、均值填充均值填充是一种常见的缺失值处理方法。
对于数值型变量,可以计算该变量的均值,然后用均值填充缺失值。
这种方法的优点是简单易行,不会改变数据的分布。
但缺点是可能会引入噪声,特别是当缺失值较多时,均值填充的效果会受到影响。
三、中位数填充中位数填充与均值填充类似,只是用中位数替代了均值。
中位数填充在处理偏态分布的数据时比均值填充更为稳健,能够减少极端值对填充结果的影响。
然而,中位数填充也存在一定的局限性,特别是当数据中存在较多的离群值时,中位数填充可能会引入偏差。
四、众数填充众数填充是一种适用于分类变量的方法。
对于分类变量,可以计算该变量的众数,并用众数填充缺失值。
众数填充的优点是简单易行,可以保留变量的分布特征。
但需要注意,众数填充可能会导致数据的不均衡,特别是当某个类别的频数较高时,填充的结果可能会偏向于该类别。
五、回归填充回归填充是一种基于回归模型的方法。
对于数值型变量,可以利用其他变量的信息,建立回归模型,然后预测缺失值。
回归填充的优点是可以利用其他变量的信息,提高填充的准确性。
但需要注意,回归填充的结果受到回归模型的选择和变量的相关性等因素的影响。
六、插值填充插值填充是一种基于插值方法的方法。
常用的插值方法包括线性插值、多项式插值、样条插值等。
插值填充的优点是可以根据数据的特点进行灵活的插值,填充结果较为准确。
九种常用缺失值插补方法的比较
数据集中缺失值的存在是一个常见但难于处理的问题,它会增大统计分析的复杂性和难度,导致分析结果的偏倚,降低统计工作的效率。
虽然事前预防是避免缺失值最简单有效的方法,但是由于种种常规原因和现实条件,事前预防并不能完善地解决问题。
因此,对缺失值的事后处理显得尤为重要,也越来越受到研究者们的高度重视。
常见的缺失值的处理方法主要有直接删除法和数据插补法两种,鉴于直接删除法会导致数据信息的再次损失,所以本文主要从数据插补方面入手,先对统计学中常用的九种缺失值的插补方法——均值插补、随机插补、回归插补、多重插补、k最近邻插补、决策树插补、支持向量机插补和神经网络插补等方法的插补原理作了介绍;接着按数据量从小到大的顺序选取3个数据集salary、iris和Airfoil,以10%的样本量缺失率,在R中按单个变量随机缺失和多个变量随机缺失两种模式生成相应的缺失数据集(这里随机缺失的含义是将其中随机抽取的10%的数据替换为缺失值),然后用上述九种插补方法对两种缺失模式的数据集进行插补。
为评价和比较各种插补方法的插补效果,本文从两方面进行比较:(1)从数据插补误差的角度,把单个变量缺失模式下的3个数据集的九种插补方法生成的诸插补值与对应的数据真值(随机缺失前)进行比较,计算对应的平均绝对误差(MAE)和均方误差(MSE),按这两个指标的大小评价比较这九种插补方法的优劣。
(2)从模型的角度,用缺失前的完整数据集和先缺失再插补后的诸数据集各自建立多元线性回归模型,估计相应的回归系数(向量),计算出相应的判定系数,再进行比较和评价。
最后指出了各插补方法的特点和异同,对本文的研究结果进行归纳总结,并
说明有待改进之处和可以进一步研究的内容。
数据分析中常见的缺失数据处理方法在数据分析的过程中,经常会遇到缺失数据的情况。
缺失数据可能是由于数据收集过程中的错误、数据损坏、用户不愿意提供某些信息等原因引起的。
处理缺失数据是数据分析的重要一环,合理地处理缺失数据可以提高数据分析的准确性和可靠性。
本文将介绍几种常见的缺失数据处理方法。
一、删除法删除法是最简单、最直接的缺失数据处理方法之一。
当数据中存在缺失值时,可以选择将含有缺失值的样本或变量删除。
这种方法的优点是简单、方便,可以减少对数据的干扰。
然而,删除法也有一些缺点。
首先,删除缺失数据可能会导致样本量的减少,从而影响数据分析的结果。
其次,删除缺失数据可能会引入样本选择偏差,使得分析结果不具有代表性。
因此,在使用删除法处理缺失数据时,需要根据具体情况权衡利弊。
二、插补法插补法是一种常见的缺失数据处理方法,它通过根据已有数据的特征来估计缺失数据的值。
插补法可以分为单变量插补和多变量插补两种。
单变量插补是指根据其他变量的信息来估计缺失变量的值。
常见的单变量插补方法包括均值插补、中位数插补和众数插补。
均值插补是指用变量的均值来代替缺失值,适用于连续变量;中位数插补是指用变量的中位数来代替缺失值,适用于偏态分布的连续变量;众数插补是指用变量的众数来代替缺失值,适用于离散变量。
多变量插补是指根据其他变量之间的关系来估计缺失变量的值。
常见的多变量插补方法包括回归插补和插补法。
回归插补是指根据其他变量与缺失变量之间的线性关系来估计缺失变量的值;插补法是指根据其他变量的均值或众数来估计缺失变量的值。
插补法的优点是能够保留样本的完整性,减少样本量的损失。
然而,插补法也有一些缺点。
首先,插补法的准确性依赖于已有数据的质量和缺失数据的性质。
如果已有数据中存在较大的误差或缺失数据的性质复杂,插补法可能会引入较大的估计误差。
其次,插补法可能会引入额外的变异性,从而影响数据分析的结果。
因此,在使用插补法处理缺失数据时,需要谨慎选择合适的插补方法,并进行敏感性分析。
spss缺失值处理方法SPSS缺失值处理方法。
在数据分析过程中,我们经常会遇到数据中存在缺失值的情况。
缺失值的处理对于数据分析的结果具有重要的影响,因此需要采取合适的方法来处理缺失值。
SPSS作为一款常用的统计分析软件,提供了多种处理缺失值的方法,本文将介绍SPSS中常用的缺失值处理方法。
1. 删除缺失值。
删除缺失值是最简单的处理方法之一。
在SPSS中,可以通过选择“数据”菜单下的“数据筛选”来删除缺失值。
这种方法适用于数据量较大,缺失值占比较小的情况。
但是需要注意,删除缺失值可能会导致样本量的减少,从而影响数据分析的结果。
2. 替换缺失值。
替换缺失值是另一种常用的处理方法。
在SPSS中,可以通过计算统计指标(如均值、中位数、众数)来替换缺失值。
这种方法适用于数据量较大,缺失值分布较均匀的情况。
另外,也可以根据实际情况采用其他值来替换缺失值,比如使用特定数值或者使用前后数值进行插补。
3. 插补缺失值。
插补是一种更为复杂的缺失值处理方法。
在SPSS中,可以通过建立模型来进行缺失值的插补。
比如可以利用线性回归、多元回归等方法来预测缺失值。
这种方法适用于数据量较大,缺失值分布较为复杂的情况。
需要注意的是,插补方法的选择需要根据实际情况进行合理的判断,避免引入过多的主观因素。
4. 多重插补。
多重插补是一种更为严谨的缺失值处理方法。
在SPSS中,可以通过插补算法来生成多个完整数据集,然后对这些完整数据集进行分析,最终将结果进行汇总。
这种方法适用于数据量较大,缺失值分布较为复杂且缺失值之间存在相关性的情况。
多重插补方法可以更好地保留数据的信息,减少了插补过程中的不确定性。
5. 非参数方法。
除了上述方法外,SPSS还提供了一些非参数方法来处理缺失值,比如使用排名、百分位数等方法来替换缺失值。
这些方法适用于数据量较小,或者数据分布不满足正态分布的情况。
非参数方法的优点在于不依赖于数据的分布特性,但是需要注意的是,非参数方法可能会引入一定的偏差。
缺失值处理策略与方法在数据分析和机器学习领域,缺失值是一个常见的问题。
缺失值的出现可能是由于数据采集过程中的错误或者是数据本身的特性导致的。
无论是哪种情况,如何处理缺失值是一个重要的问题。
本文将介绍一些常见的缺失值处理策略与方法。
一、删除缺失值最简单的处理缺失值的方法是直接删除含有缺失值的观测样本或者删除含有缺失值的变量。
这种方法的优点是简单直接,不需要额外的处理。
然而,删除缺失值可能会导致样本数量减少,从而影响分析结果的准确性。
二、插补缺失值插补是一种常见的缺失值处理方法。
插补的目的是根据已有的数据推测缺失数据的值。
常用的插补方法包括均值插补、中位数插补、众数插补和回归插补等。
1. 均值插补均值插补是一种简单的插补方法,它将缺失值替换为变量的均值。
这种方法的优点是简单易行,缺点是可能导致数据的失真。
2. 中位数插补中位数插补是一种鲁棒的插补方法,它将缺失值替换为变量的中位数。
与均值插补相比,中位数插补对异常值不敏感。
3. 众数插补众数插补是一种适用于分类变量的插补方法,它将缺失值替换为变量的众数。
众数插补可以保持数据的分布特性。
4. 回归插补回归插补是一种基于回归模型的插补方法,它利用已有的变量预测缺失值。
回归插补可以利用变量之间的相关性来估计缺失值。
三、多重插补多重插补是一种更为复杂的插补方法,它通过多次插补生成多个完整的数据集,并对这些数据集进行分析。
多重插补的优点是可以更好地反映数据的不确定性,缺点是计算量较大。
四、使用专门的算法除了常见的插补方法之外,还有一些专门的算法可以处理缺失值。
例如,K近邻算法可以根据样本的特征相似性来预测缺失值;决策树算法可以利用已有的数据来构建一棵决策树,并利用该决策树来预测缺失值。
总结缺失值处理是数据分析和机器学习中一个重要的环节。
本文介绍了一些常见的缺失值处理策略与方法,包括删除缺失值、插补缺失值、多重插补和使用专门的算法等。
在实际应用中,我们需要根据具体的情况选择合适的方法来处理缺失值,并在处理过程中注意数据的准确性和可靠性。
单一插补方法与多重插补方法的对比及分析
0.缺失数据说明
Little和Rubin根据缺失机制的不同,缺失数据可分为三大类:完全随机缺失数据(MCAR),随机缺失数据(MAR)以及非随机缺失数据(NMAR)0MCAR表示某些变量数据的缺失完全不依赖于变量或者回答者的貞•实情况,是严格意义上的随机缺失:MAR表示某些变量数拯的缺失与回答者的真实情况是独立的:NMAR则表示变量数据的缺失与回答者的真实情况之间有相关的联系,并不是随机缺失的。
实际情况中,缺失数据对数据分析造成较大的影响,主要表现在两个方而:数据统计的功效以及会带来有偏估计。
Kim和Curry(1997)发现当有2%的数据缺失时,若采用列表删除的方法,将会带来%全部信息的丢失。
Quinten和Raaijmakers (1999)的研究表明10%~35% 的数据缺失会带来35%~98%的信息丢失。
可见,对缺失的数据不进行处理会给整个数据结构带来巨大的影响。
故而,在数据分析中,对缺失数拯的处理至关重要,同时该部分也是目前新兴学科一一数据挖掘技术的重要组成部分。
在处理缺失数拯时,为了方便处理,一般假定缺失机制为MAR或者MCAR,这样可利用数理统计方法进行处理。
缺失数据的处理方法可分为三大类:直接删除法、插补法、基于模型的预测方法。
英中直接删除法最为便捷,同时也是最为粗糙的方法,该方法易造成貞•实信息的大量丢失,仅仅适用于极少量的数据缺失情况。
相比而言,插补法和基于统计模型的预测方法比较常用,也较为有效。
根据每个缺失值的替代值个数,可将插补方法分为单一插补和多重插补。
1.单一插补与多重插补概念
单一插补是指采用一左方式,对每个由于无回答造成的缺失值只构造一个合理的替代值,并将其插补到原缺失数拯的位宜上,替代后构造岀一个完整的数据集。
多重插补是由哈佛大学的Rubin教授在1977年首先提出的,该方法是从单一插补的基础上衍生而来的。
指给每个缺失值都构造m个替代值(m>l),从而产生了m个完全数据集, 然后对每个完全数拯集采用相同的数据分析方法进行处理,得到m个处理结果,然后综合这些处理结果,基于某种原则,得到最终的目标变量的估计。
多重插补可分为三个阶段:(1)对目标变量的估计,(2)创建完全数据集,(3)目标变量的确左。
其中最关键的阶段为目标变量的估计,该阶段需要确泄估计缺失值的方法,即缺失值是以何种方法或者
模型被估汁岀来,该阶段直接影响统讣推断的有效性。
理想的多重插补一般都按照以下方案进行:每个插补模型,对无回答Y[,m]的m次插补, 实际就是从Y["]的后验预测分布中进行m次独立重复抽取,即从与数据和无回答机制相对应的贝叶斯模型中独立抽取参数和无回答数值。
实践中在选择模型时应考虑三个重要问题:模型是显性的还是隐性的,是可忽略的还是不可忽略的,以及插补模型是否适当显性模型在数理统计中经常使用的方法,比如正态线性回归、多元正态模型等。
隐性模型被认为是潜在的隐含的"修补”特左数据结构的方法,比如非参数方法、最近距离法等。
尽管在理论上显性模型被认为是理想的多重插补技术,但实践中经常采用的却是隐性模型,或是显性模型和隐性模型的结合。
例如,Herzog和Rubin曾在美国普査局的热卡法的基础上,改进生成一种结合显性回归模型和隐性配对模型反复插补的方法。
插补模型,无论是显性还是隐性,都可按照无回答机制分为可忽略的模型和不可忽略的模型。
例如,X是数据中所有单元都回答的变量,Y有回答也有无回答。
可忽略的(Ignorable) 模型假设具有相同X值的回答者和无回答者的差异都是随机的。
不可忽略的(Non-ignorable) 模型则假设即使具有相同的X 值,回答者和无回答者之间的Y值具有系统差异。
在实际数据中,如果没有直接证据能验证无回答机制的假设,可以利用多个模型来研究其敏感性。
插补模型,无论是显性还是隐性,可忽略或是不可忽略,必须是适当的模型,才可能得出有效推断。
使用适当插补模型的本质在于,在利用模型进行重复插补时可以正确反映抽样的变异性,从而才能得岀有效推论。
例如在可忽略的无回答假设下,具有相同X值的回答者和无回答者的Y值差异都是随机的,但是从相同X值的Y回答值中随机抽取插补值,忽路了抽样变异性,即被抽取的相同X值的Y 回答值与相同X值的总体Y值的随机差异性。
要正确反映这种变异性,才能在既定无回答机制下得岀多重插补的有效推断。
利用近似贝叶斯靴环法(ABB)可以满足这一要求。
在可忽略的无回答机制下,假设收集相同X值的n个单位的资料,英中有n[,r]个回答者, n[,m]=n-nLr]个无回答者。
ABB首先从n[,r]个回答值中有放回随机抽取n[,r]个值,作为Y的n[,r]个可能值,再从该n[,r]个可能值中有放回随机抽取n[,m]个无回答插补数据。
这里从n[,r] 个可能值而不是n[,r]个回答值中抽取插补值,至少在简单随机大样本条件下可以反映不同插补之间的变异性。
ABB还可用于不可忽略机制的无回答的插补,比如在第一步不是简单随机抽取,而是按照Y的某函数(比如Y[2])独立抽取n[,r]个值。
这样就可以生成偏态分布的无回答,比如无回答者的Y值大于相同X值的回答者的Y值。
2.单一插补方法分类
均值插补:
分为无条件均值插补和有条件均值插补。
无条件均值插补指用所有有回答单元的均值来代替缺失值,若在MCAR条件下,该方法为无偏估计。
然而,由于插补值是所有有回答的均值,该数值过于集中,扭曲了变量的经验分布,总体方差和协方差被低估。
为了得到更精确的数值,学者提出了有条件均值插补,分为分层均值插补、回归均值插补和BUCK方法。
其中,分层均值插补:在插补之前,对变量按照某种规律进行分层,然后用每一层中的均值来代替本层中的缺失值。
回归均值插补:在单调缺失数据模式下,利用回归的预测值来代替缺失值。
BUCK方法:
将回归插补推广到更一般的无回答数据模式,首先基于回答单元获得样本均值U和协方差阵工,然后使用这些估计,对每一种无回答数据模式汁算含有无回答的变量关于回答变量的最小二乘线性回归,在此基础上,用回归预测值代替无回答值。
随机插补
与条件均值插补方法类似,只不过在均值插补的基础上加上随机项,该方法通过增加缺失值的随机性,改善缺失值分布过于集中的缺陷。
同样可分为两类:分层随机插补和随机回归插补。
其中随机回归插补可表示为:
yik= Ok0.1.2-k-1 + 7 .pkjl2 -k- iyij + Cik
热卡插补
该方法指从每一个缺失数据的估计分布中抽取插补值替代缺失值,使用回答单元的抽样分布作为未回答单元的抽取分布。
从回答单元中产生插补值所采用的抽样方式决左了在热卡插补下有关总体参数估计疑的性质,根据获得插补值的不同,热卡插补又可分为:随机抽样热卡插补、分层热卡插补、最近距离热卡插补和序贯热卡插补。
冷卡插补
冷卡插补表示从以前的调查数据中获取信息,如历史数据。
同样该方法不能消除估汁偏差。
演绎插补
该方法是一种辅助变量的插补方法,主要通过演绎辅助资料,查找插补值。
插补的有效性很大程度上取决于辅助资料的充分与否以及演绎过程是否合理。
3.多重插补方法分类
单调缺失模式:当一个个体观测值的变量缺失则意味着后而的所有变量也缺失时,则变量的缺失可认为为单调缺失模式。
回归预测法:
倾向得分法:
蒙特卡罗的马氏链法:
4.两种方法的优缺点
5.总结
单一插补名词解释:
后验槪率:源于贝叶斯模型中的概念。
后验槪率是指在得到”结果“的信息后重新修正的概率, 如贝叶斯公式中的,是"执果寻因”问题中的“果".先验概率与后验概率有不可分割的联系,后验概率的计算要以先验概率为基础。
它的本质是条件概率。
P(A|B)=P(B|A)*P(A)/P(B)
Pr(A)是A的先验概率或边缘槪率。
之所以称为“先验"是因为它不考虑任何B方而的因素。
Pr(A|B)是已知B发生后A的条件概率,也由于得自B的取值而被称作A的后验概率。
Pr(B|A)是已知A发生后B的条件概率,也由于得自A的取值而被称作B的后验概率。
Pr(B)是B的先验概率或边缘概率,也作标准化常量(normalized constant)«。