单一插补与多重插补
- 格式:docx
- 大小:21.63 KB
- 文档页数:4
单一插补方法与多重插补方法的对比及分析0.缺失数据说明Little和Rubin根据缺失机制的不同,缺失数据可分为三大类:完全随机缺失数据(MCAR),随机缺失数据(MAR)以及非随机缺失数据(NMAR)。
MCAR表示某些变量数据的缺失完全不依赖于变量或者回答者的真实情况,是严格意义上的随机缺失;MAR表示某些变量数据的缺失与回答者的真实情况是独立的;NMAR则表示变量数据的缺失与回答者的真实情况之间有相关的联系,并不是随机缺失的。
实际情况中,缺失数据对数据分析造成较大的影响,主要表现在两个方面:数据统计的功效以及会带来有偏估计。
Kim和Curry(1997)发现当有2%的数据缺失时,若采用列表删除的方法,将会带来18.3%全部信息的丢失。
Quinten和Raaijmakers(1999)的研究表明10%~35%的数据缺失会带来35%~98%的信息丢失。
可见,对缺失的数据不进行处理会给整个数据结构带来巨大的影响。
故而,在数据分析中,对缺失数据的处理至关重要,同时该部分也是目前新兴学科——数据挖掘技术的重要组成部分。
在处理缺失数据时,为了方便处理,一般假定缺失机制为MAR或者MCAR,这样可利用数理统计方法进行处理。
缺失数据的处理方法可分为三大类:直接删除法、插补法、基于模型的预测方法。
其中直接删除法最为便捷,同时也是最为粗糙的方法,该方法易造成真实信息的大量丢失,仅仅适用于极少量的数据缺失情况。
相比而言,插补法和基于统计模型的预测方法比较常用,也较为有效。
根据每个缺失值的替代值个数,可将插补方法分为单一插补和多重插补。
1.单一插补与多重插补概念单一插补是指采用一定方式,对每个由于无回答造成的缺失值只构造一个合理的替代值,并将其插补到原缺失数据的位置上,替代后构造出一个完整的数据集。
多重插补是由哈佛大学的Rubin教授在1977年首先提出的,该方法是从单一插补的基础上衍生而来的。
指给每个缺失值都构造m个替代值(m>1),从而产生了m个完全数据集,然后对每个完全数据集采用相同的数据分析方法进行处理,得到m个处理结果,然后综合这些处理结果,基于某种原则,得到最终的目标变量的估计。
数据处理中的缺失数据处理策略在进行数据处理时,经常会遇到一些数据缺失的情况。
缺失数据是指数据采集或记录过程中出现的缺失情况,它可能会给我们的分析过程带来一定的问题。
因此,我们需要合适的策略来处理缺失数据,确保数据的准确性和可靠性。
下面将介绍一些常用的缺失数据处理策略。
1. 删除缺失数据当数据缺失情况严重且没有办法恢复缺失值时,我们可以选择直接删除缺失数据。
这种策略适用于样本量足够大的情况下,且缺失数据不会对整体分析结果产生较大的偏差。
但是,需要注意的是,删除缺失数据可能会导致样本量的减少,从而影响到统计推断结果的稳定性。
2. 插补缺失数据另一种常见的策略是对缺失数据进行插补。
插补的目的是利用已有的信息对缺失值进行估计,从而填补数据集中的空缺。
插补方法可以分为两大类:单一插补和多重插补。
单一插补方法包括均值插补、中位数插补、众数插补等。
这些方法适用于缺失数据符合正态分布、偏态分布或离散分布的情况。
例如,当某个变量的数据缺失时,我们可以使用该变量的均值来代替缺失值。
但是,单一插补方法的缺点是会降低数据的方差,从而可能影响结果的准确性。
多重插补方法则使用了更加复杂的统计模型来对缺失数据进行估计。
这些方法可以利用数据集中其他变量之间的相关关系来估计缺失值。
多重插补方法相对于单一插补方法更加灵活和准确,但也更加复杂和耗时。
3. 使用虚拟变量在特定情况下,我们可以使用虚拟变量来处理缺失数据。
虚拟变量是一种哑变量,用于表示某个变量的缺失情况。
例如,我们可以为某个变量创建一个虚拟变量,将缺失值设置为1,非缺失值设置为0。
这样,我们就可以在后续分析中将缺失数据作为一类进行处理,避免直接删除或插补缺失值带来的偏差。
4. 敏感度分析除了上述策略外,敏感度分析也是一种常用的缺失数据处理方法。
敏感度分析的目的是检验缺失值对于结果的稳定性和可靠性的影响。
通过对不同的缺失值处理策略进行实验,我们可以评估结果在不同策略下的变化情况。
统计学中的缺失数据处理方法与技巧缺失数据是指在统计分析中某些变量或观测值缺乏数据的情况。
缺失数据可能由于各种原因导致,比如数据采集过程中的错误、被访者拒绝回答某些问题等。
在统计学中,如何处理这些缺失数据成为一个重要问题。
本文将介绍一些常用的缺失数据处理方法和技巧。
一、删除法删除法是一种比较简单粗暴的处理缺失数据的方法。
当缺失数据不多且对整体数据影响不大时,可以考虑直接将包含缺失值的观测数据删除。
然而,使用删除法的前提是缺失数据是随机产生的,而不是与待研究变量或其他变量相关。
如果删除的数据不满足这个条件,可能会引入样本偏差,使结果失真。
二、替代法替代法是指将缺失值用某个特定的值或者一组特定的值填充。
常见的替代值包括平均值、中位数、众数等。
这种方法适用于缺失值数量较少的情况。
然而,替代法可能会导致估计值的偏差,因为替代值无法完全代表原有数据的真实情况。
三、最大似然估计法最大似然估计是一种使用统计模型来估计缺失数据的方法。
在这种方法中,假设数据的缺失是有规律可循的,并且基于已有数据的概率分布来预测缺失数据。
最大似然估计法需要对数据进行概率模型的建立和参数的估计,相对较复杂且需要一定的统计知识。
四、多重插补法多重插补法是指通过建立模型来生成多个可能的缺失值,从而更加准确地预测缺失数据。
多重插补法的核心思想是使用其他相关变量的信息来估计缺失数据。
这种方法能够准确地估计缺失数据的分布,并且通过多次插补生成多个完整数据集,从而使得统计分析结果更加准确可靠。
五、模型建立法模型建立法是一种利用已有数据建立预测模型来预测缺失数据的方法。
这种方法通常需要有一定的预测变量和已知的非缺失数据样本,可以使用机器学习、回归分析等方法进行建模和预测。
模型建立法需要提前对数据进行处理和特征工程,相对较为复杂。
综上所述,统计学中的缺失数据处理方法和技巧有很多种。
选择合适的方法需要根据缺失数据的情况、数据类型和分析目的来决定。
需要注意的是,在进行缺失数据处理时,要充分了解数据的特点和背景,避免方法选择上的盲目性,并进行适当的统计检验和灵敏度分析,以确保处理结果的可靠性和稳定性。
数据质量评估中的缺失值填充技巧在数据分析和机器学习的过程中,我们常常会遇到数据集中存在缺失值的情况。
缺失值可能是由于测量设备故障、数据采集错误或受访者不愿意回答等原因导致的。
然而,这些缺失值可能会给数据分析和建模带来一些问题。
因此,在进行数据质量评估时,我们需要探索和处理缺失值,以确保分析结果的准确性和可靠性。
本文将介绍一些常用的缺失值填充技巧,帮助您更好地处理数据集中的缺失值。
1. 删除缺失值最简单的处理缺失值的方法是直接删除包含缺失值的样本或变量。
这种方法的优点是简单快捷,但可能导致数据量的减少和信息的丢失。
因此,在决定删除缺失值之前,您应该评估缺失值的分布和对分析结果的影响。
2. 填充固定值另一种常见的缺失值填充方法是使用固定值来填充缺失值。
例如,您可以用数据集中的平均值、中位数或众数来填充缺失值。
这种方法的好处是简单易行,不会引入额外的不确定性。
然而,它可能会导致数据的失真,特别是当缺失值的分布与其他值不一致时。
因此,在考虑使用此方法时,您需要考虑数据的特点和分析的目标。
3. 插值法填充另一种常用的缺失值填充方法是使用插值法,通过对已有数据点之间的趋势进行估计来填充缺失值。
常用的插值方法有线性插值、多项式插值和样条插值等。
这种方法可以更准确地估计缺失值,保留数据的一致性和趋势。
然而,它可能会受到异常值的影响,并且对数据的平滑性有一定要求。
因此,在选择插值法时,您需要考虑数据的特征和插值方法的适用性。
4. 基于模型的填充另一种高级的缺失值填充方法是基于模型的填充。
这种方法利用已有数据的模型来预测缺失值。
例如,你可以使用线性回归、决策树或随机森林等算法来预测缺失值。
这种方法可以充分利用数据的关联性和特征之间的关系来提高填充的准确性。
然而,它需要较大的计算开销和模型选择的技术要求。
因此,在使用此方法之前,您需要评估模型的性能和适用性。
5. 多重插补多重插补是一种将基于模型的填充方法与多个填充结果的组合技术。
补缺失值的方法缺失值是指数据集中某些观测值或变量的值缺失或未记录的情况。
在数据分析和建模过程中,缺失值会对结果产生不良影响,因此需要采取合适的方法来补充这些缺失值,以保证数据的完整性和准确性。
本文将介绍几种常见的补缺失值的方法。
一、删除缺失值删除缺失值是最简单直接的方法之一。
当缺失值的比例较小且对数据分析结果的影响较小时,可以选择删除缺失值所在的行或列。
这种方法适用于数据量较大的情况下,可以最大程度保留数据的完整性。
但需要注意,删除缺失值可能会造成数据的偏差,因此需要谨慎使用。
二、均值填充均值填充是一种常见的缺失值处理方法。
对于数值型变量,可以计算该变量的均值,然后用均值填充缺失值。
这种方法的优点是简单易行,不会改变数据的分布。
但缺点是可能会引入噪声,特别是当缺失值较多时,均值填充的效果会受到影响。
三、中位数填充中位数填充与均值填充类似,只是用中位数替代了均值。
中位数填充在处理偏态分布的数据时比均值填充更为稳健,能够减少极端值对填充结果的影响。
然而,中位数填充也存在一定的局限性,特别是当数据中存在较多的离群值时,中位数填充可能会引入偏差。
四、众数填充众数填充是一种适用于分类变量的方法。
对于分类变量,可以计算该变量的众数,并用众数填充缺失值。
众数填充的优点是简单易行,可以保留变量的分布特征。
但需要注意,众数填充可能会导致数据的不均衡,特别是当某个类别的频数较高时,填充的结果可能会偏向于该类别。
五、回归填充回归填充是一种基于回归模型的方法。
对于数值型变量,可以利用其他变量的信息,建立回归模型,然后预测缺失值。
回归填充的优点是可以利用其他变量的信息,提高填充的准确性。
但需要注意,回归填充的结果受到回归模型的选择和变量的相关性等因素的影响。
六、插值填充插值填充是一种基于插值方法的方法。
常用的插值方法包括线性插值、多项式插值、样条插值等。
插值填充的优点是可以根据数据的特点进行灵活的插值,填充结果较为准确。
数据挖掘领域处理缺失数据的几种常
见方法
数据挖掘领域处理缺失数据的常见方法有以下几种:
1. 删除法:当数据集中的缺失值数量较少时,可以直接删除包含缺失值的记录。
这种方法简单易行,但可能会导致数据集的样本数量减少,从而影响数据分析的结果。
2. 填充法:填充法是通过填充缺失值来处理缺失数据的方法。
常见的填充方法包括平均值填充、中位数填充、众数填充、最近邻填充等。
这些方法根据数据集的特征选择合适的填充值,以保持数据的合理性和一致性。
3. 插补法:插补法是利用已有的数据信息来推测缺失值的方法。
常见的插补方法包括回归插补、随机森林插补、KNN 插补等。
这些方法基于数据集中其他变量与缺失变量之间的关系,通过建立模型来预测缺失值。
4. 多重插补法:多重插补法是对缺失数据进行多次插补,并将每次插补的结果合并起来的方法。
这种方法可以减小插补误差,提高数据的准确性和可靠性。
5. 不处理法:在某些情况下,缺失值可能并不影响数据分析的结果,或者可以通过其他方法来处理。
例如,在分类问题中,可以将缺失值作为一个独立的类别进行处理。
需要根据具体情况选择合适的方法来处理缺失数据。
在选择方法时,需要考虑数据集的特征、缺失值的数量和分布、分析方法的要求等因素。
同时,对于处理后的数据,需要进行评估和验证,以确保数据的质量和可靠性。
不完整数据的概率统计分析方法一、概述不完整数据是指在研究数据过程中,由于种种原因,样本数据中存在缺失、错误或异常值,导致数据无法完全收集或分析的状态。
不完整数据在统计分析中的应用及其重要性日益凸显。
本文旨在介绍不完整数据的概率统计分析方法。
二、缺失数据2.1 定义缺失数据指在样本数据收集的过程中,某些变量以及相应的取值未被收集到或无法确定的情况。
例如,在一项调查中,被调查者申报自己的年龄时,出现“不愿透露”或“无法确定”的情况,导致在样本数据中,相关变量的取值出现缺失。
2.2 处理方法处理缺失数据的方法有多种:(1)忽略缺失数据,仅利用完整数据进行分析。
(2)逐个删除存在缺失数据的样本。
(3)插补缺失数据。
其中,插补缺失数据是较为有效的方法。
插补方法包括单一插补方法和多重插补方法。
单一插补方法包括模型插补方法、均值插补方法、最近邻插补方法和全距插补方法等。
多重插补方法则建立一个模型来预测丢失数据的值,通常采用多元回归方程。
对于存在缺失数据的样本,运用这个方程求出多次预测值,以此来对应多个可能的样本。
最后,对这些预测值进行平均,就得到了用以取代缺失值的估计值。
三、错误数据3.1 定义错误数据指在样本数据中出现一些明显违背逻辑或无法解释的数据,例如在一项消费调查中,某个被调查者申报自己在上月消费了一百万元,这样的数据显然是错误的。
3.2 处理方法处理错误数据的方法包括:(1)通过其他可靠数据对错误数据进行补救。
(2)通过逻辑验证等方法,移除错误数据。
(3)统计学方法,比如通过建立合适的统计模型将错误数据进行转化或修正。
三、异常值4.1 定义异常值指在样本数据中,存在某些突出于其他数据之外的数据,这些数据可能是由于实验错误、测量误差或其他偶然事件导致的。
例如,在一组人的收入数据中,某些人的收入与其他人相差较大,称其为异常值。
4.2 处理方法对于异常值的处理方法包括:(1)移除异常值这种方法的缺点是可能会丧失有价值的数据。
缺失值的插补算法
在数据挖掘和机器学习中,缺失值是一个极其常见的问题。
缺失值可能由于多种原因,例如数据采集过程中的错误,设备故障或者数据缺失等。
在对数据进行分析和建模时,缺失值可能对结果产生负面影响,因此需要使用插补算法来处理缺失值。
插补算法可以分为两类:单变量插补和多变量插补。
单变量插补是指仅仅使用变量本身的值来插补缺失值。
这种方法比较简单,但是可能存在一定的偏差。
多变量插补是指使用其他变量的信息来插补缺失值。
这种方法通常能够更准确地估计缺失值,但是需要考虑变量之间的关系。
常见的单变量插补算法包括:均值插补、中位数插补、众数插补和回归插补等。
均值插补是指使用其它观测值的均值来估计缺失值。
中位数插补是指使用其它观测值的中位数来估计缺失值。
众数插补是指使用其它观测值的众数来估计缺失值。
回归插补是指使用其它变量的信息来估计缺失值,通常使用线性回归或者逻辑回归等方法。
常见的多变量插补算法包括:多重插补、K近邻插补和决策树插补等。
多重插补是指使用多个变量的信息来估计缺失值,通常使用多元线性回归或者多元逻辑回归等方法。
K近邻插补是指使用与缺失值最相似的K个样本来估计缺失值。
决策树插补是指使用决策树来估计缺失值,树的分支根据变量之间的关系判断出缺失值。
综上所述,缺失值的插补算法是数据分析和建模的关键步骤之一。
根据实际情况选择合适的插补算法可以提高数据分析和建模的准确
性和可信度。
单一插补方法与多重插补方法的对比及分析0.缺失数据说明Little和Rubin根据缺失机制的不同,缺失数据可分为三大类:完全随机缺失数据(MCAR),随机缺失数据(MAR)以及非随机缺失数据(NMAR)。
MCAR表示某些变量数据的缺失完全不依赖于变量或者回答者的真实情况,是严格意义上的随机缺失;MAR表示某些变量数据的缺失与回答者的真实情况是独立的;NMAR则表示变量数据的缺失与回答者的真实情况之间有相关的联系,并不是随机缺失的。
实际情况中,缺失数据对数据分析造成较大的影响,主要表现在两个方面:数据统计的功效以及会带来有偏估计。
Kim和Curry(1997)发现当有2%的数据缺失时,若采用列表删除的方法,将会带来18.3%全部信息的丢失。
Quinten和Raaijmakers(1999)的研究表明10%~35%的数据缺失会带来35%~98%的信息丢失。
可见,对缺失的数据不进行处理会给整个数据结构带来巨大的影响。
故而,在数据分析中,对缺失数据的处理至关重要,同时该部分也是目前新兴学科——数据挖掘技术的重要组成部分。
在处理缺失数据时,为了方便处理,一般假定缺失机制为MAR或者MCAR,这样可利用数理统计方法进行处理。
缺失数据的处理方法可分为三大类:直接删除法、插补法、基于模型的预测方法。
其中直接删除法最为便捷,同时也是最为粗糙的方法,该方法易造成真实信息的大量丢失,仅仅适用于极少量的数据缺失情况。
相比而言,插补法和基于统计模型的预测方法比较常用,也较为有效。
根据每个缺失值的替代值个数,可将插补方法分为单一插补和多重插补。
1.单一插补与多重插补概念单一插补是指采用一定方式,对每个由于无回答造成的缺失值只构造一个合理的替代值,并将其插补到原缺失数据的位置上,替代后构造出一个完整的数据集。
多重插补是由哈佛大学的Rubin教授在1977年首先提出的,该方法是从单一插补的基础上衍生而来的。
指给每个缺失值都构造m个替代值(m>1),从而产生了m个完全数据集,然后对每个完全数据集采用相同的数据分析方法进行处理,得到m个处理结果,然后综合这些处理结果,基于某种原则,得到最终的目标变量的估计。
单一插补方法与多重插补方法的对比及分析
0.缺失数据说明
Little和Rubin根据缺失机制的不同,缺失数据可分为三大类:完全随机缺失数据(MCAR),随机缺失数据(MAR)以及非随机缺失数据(NMAR)。
MCAR表示某些变量数据的缺失完全不依赖于变量或者回答者的真实情况,是严格意义上的随机缺失;MAR表示某些变量数据的缺失与回答者的真实情况是独立的;NMAR则表示变量数据的缺失与回答者的真实情况之间有相关的联系,并不是随机缺失的。
实际情况中,缺失数据对数据分析造成较大的影响,主要表现在两个方面:数据统计的功效以及会带来有偏估计。
Kim和Curry(1997)发现当有2%的数据缺失时,若采用列表删除的方法,将会带来18.3%全部信息的丢失。
Quinten和Raaijmakers(1999)的研究表明10%~35%的数据缺失会带来35%~98%的信息丢失。
可见,对缺失的数据不进行处理会给整个数据结构带来巨大的影响。
故而,在数据分析中,对缺失数据的处理至关重要,同时该部分也是目前新兴学科——数据挖掘技术的重要组成部分。
在处理缺失数据时,为了方便处理,一般假定缺失机制为MAR或者MCAR,这样可利用数理统计方法进行处理。
缺失数据的处理方法可分为三大类:直接删除法、插补法、基于模型的预测方法。
其中直接删除法最为便捷,同时也是最为粗糙的方法,该方法易造成真实信息的大量丢失,仅仅适用于极少量的数据缺失情况。
相比而言,插补法和基于统计模型的预测方法比较常用,也较为有效。
根据每个缺失值的替代值个数,可将插补方法分为单一插补和多重插补。
1.单一插补与多重插补概念
单一插补是指采用一定方式,对每个由于无回答造成的缺失值只构造一个合理的替代值,并将其插补到原缺失数据的位置上,替代后构造出一个完整的数据集。
多重插补是由哈佛大学的Rubin教授在1977年首先提出的,该方法是从单一插补的基础上衍生而来的。
指给每个缺失值都构造m个替代值(m>1),从而产生了m个完全数据集,然后对每个完全数据集采用相同的数据分析方法进行处理,得到m个处理结果,然后综合这些处理结果,基于某种原则,得到最终的目标变量的估计。
多重插补可分为三个阶段:(1)对目标变量的估计,(2)创建完全数据集,(3)目标变量的确定。
其中最关键的阶段为目标变量的估计,该阶段需要确定估计缺失值的方法,即缺失值是以何种方法或者模型被估计出来,该阶段直接影响统计推断的有效性。
理想的多重插补一般都按照以下方案进行:每个插补模型,对无回答Y[,m]的m次插补,实际就是从Y[,m]的后验预测分布中进行m次独立重复抽取,即从与数据和无回答机制相对应的贝叶斯模型中独立抽取参数和无回答数值。
实践中在选择模型时应考虑三个重要问题:
模型是显性的还是隐性的,是可忽略的还是不可忽略的,以及插补模型是否适当?显性模型在数理统计中经常使用的方法,比如正态线性回归、多元正态模型等。
隐性模型被认为是潜在的隐含的“修补”特定数据结构的方法,比如非参数方法、最近距离法等。
尽管在理论上显性模型被认为是理想的多重插补技术,但实践中经常采用的却是隐性模型,或是显性模型和隐性模型的结合。
例如,Herzog和Rubin曾在美国普查局的热卡法的基础上,改进生成一种结合显性回归模型和隐性配对模型反复插补的方法。
插补模型,无论是显性还是隐性,都可按照无回答机制分为可忽略的模型和不可忽略的模型。
例如,X是数据中所有单元都回答的变量,Y有回答也有无回答。
可忽略的(Ignorable)模型假设具有相同X值的回答者和无回答者的差异都是随机的。
不可忽略的(Non-ignorable)模型则假设即使具有相同的X值,回答者和无回答者之间的Y值具有系统差异。
在实际数据中,如果没有直接证据能验证无回答机制的假设,可以利用多个模型来研究其敏感性。
插补模型,无论是显性还是隐性,可忽略或是不可忽略,必须是适当的模型,才可能得出有效推断。
使用适当插补模型的本质在于,在利用模型进行重复插补时可以正确反映抽样的变异性,从而才能得出有效推论。
例如在可忽略的无回答假设下,具有相同X值的回答者和无回答者的Y值差异都是随机的,但是从相同X值的Y回答值中随机抽取插补值,忽略了抽样变异性,即被抽取的相同X值的Y回答值与相同X值的总体Y值的随机差异性。
要正确反映这种变异性,才能在既定无回答机制下得出多重插补的有效推断。
利用近似贝叶斯靴环法(ABB)可以满足这一要求。
在可忽略的无回答机制下,假设收集相同X值的n个单位的资料,其中有n[,r]个回答者,n[,m]=n-n[,r]个无回答者。
ABB首先从n[,r]个回答值中有放回随机抽取n[,r]个值,作为Y的n[,r]个可能值,再从该n[,r]个可能值中有放回随机抽取n[,m]个无回答插补数据。
这里从n[,r]个可能值而不是n[,r]个回答值中抽取插补值,至少在简单随机大样本条件下可以反映不同插补之间的变异性。
ABB还可用于不可忽略机制的无回答的插补,比如在第一步不是简单随机抽取,而是按照Y的某函数(比如Y[2])独立抽取n[,r]个值。
这样就可以生成偏态分布的无回答,比如无回答者的Y值大于相同X值的回答者的Y值。
2.单一插补方法分类
均值插补:
分为无条件均值插补和有条件均值插补。
无条件均值插补指用所有有回答单元的均值来代替缺失值,若在MCAR条件下,该方法为无偏估计。
然而,由于插补值是所有有回答的均值,该数值过于集中,扭曲了变量的经验分布,总体方差和协方差被低估。
为了得到更精确的数值,学者提出了有条件均值插补,分为分层均值插补、回归均值插补和BUCK方法。
其中,分层均值插补:在插补之前,对变量按照某种规律进行分层,然后用每一层中的均值来代替本层中的缺失值。
回归均值插补:在单调缺失数据模式下,利用回归的预测值来代替缺失值。
BUCK方法:将回归插补推广到更一般的无回答数据模式,首先基于回答单元获得
样本均值μ和协方差阵Σ,然后使用这些估计,对每一种无回答数据模式计算含有无回答的变量关于回答变量的最小二乘线性回归,在此基础上,用回归预测值代替无回答值。
随机插补
与条件均值插补方法类似,只不过在均值插补的基础上加上随机项,该方法通过增加缺失值的随机性,改善缺失值分布过于集中的缺陷。
同样可分为两类:分层随机插补和随机回归插补。
其中随机回归插补可表示为:
ŷik=αk0,1,2⋯k−1+∑βkj12⋯k−1y ij+e ik
热卡插补
该方法指从每一个缺失数据的估计分布中抽取插补值替代缺失值,使用回答单元的抽样分布作为未回答单元的抽取分布。
从回答单元中产生插补值所采用的抽样方式决定了在热卡插补下有关总体参数估计量的性质,根据获得插补值的不同,热卡插补又可分为:随机抽样热卡插补、分层热卡插补、最近距离热卡插补和序贯热卡插补。
冷卡插补
冷卡插补表示从以前的调查数据中获取信息,如历史数据。
同样该方法不能消除估计偏差。
演绎插补
该方法是一种辅助变量的插补方法,主要通过演绎辅助资料,查找插补值。
插补的有效性很大程度上取决于辅助资料的充分与否以及演绎过程是否合理。
3.多重插补方法分类
单调缺失模式:当一个个体观测值的变量缺失则意味着后面的所有变量也缺失时,则变量的缺失可认为为单调缺失模式。
回归预测法:
倾向得分法:
蒙特卡罗的马氏链法:
4.两种方法的优缺点
5.总结
单一插补
名词解释:
后验概率:源于贝叶斯模型中的概念。
后验概率是指在得到"结果"的信息后重新修正的概率,如贝叶斯公式中的,是"执果寻因"问题中的"果".先验概率与后验概率有不可分割的联系,后验概率的计算要以先验概率为基础。
它的本质是条件概率。
P(A|B)=P(B|A)*P(A)/P(B)
Pr(A)是A的先验概率或边缘概率。
之所以称为"先验"是因为它不考虑任何B方面的因素。
Pr(A|B)是已知B发生后A的条件概率,也由于得自B的取值而被称作A的后验概率。
Pr(B|A)是已知A发生后B的条件概率,也由于得自A的取值而被称作B的后验概率。
Pr(B)是B的先验概率或边缘概率,也作标准化常量(normalized constant)。