心理学研究中缺失值处理方法比较
- 格式:pdf
- 大小:535.26 KB
- 文档页数:7
心理学研究中的统计数据分析方法引言心理学作为一门科学,对人类行为与心理活动进行研究,并通过统计分析方法来解读和解释这些数据。
统计数据分析方法在心理学研究中具有重要的地位,它能帮助研究者从众多的数据中找到规律和趋势,进一步推动心理学的发展和应用。
本文将从实验设计、数据收集、数据处理和数据解读等方面,介绍心理学研究中常用的统计数据分析方法。
一、实验设计在心理学研究中,实验是最常见的研究方法之一。
良好的实验设计可以保证研究结果的可靠性和有效性。
常见的实验设计包括随机对照试验、配对设计、重复测量设计等。
其中,随机对照试验是最常用的实验设计方法,它能够有效地排除干扰因素,保证实验组和对照组的可比性。
配对设计适用于比较同一人群在不同条件下的表现,而重复测量设计适用于对同一组受试者进行多次测量。
二、数据收集在心理学研究中,数据收集是一个关键的环节。
常用的数据收集方法包括问卷调查、实验观测、心理测试等。
问卷调查是最常用的数据收集方式之一,它可以快速获取大量信息。
在问卷设计中,需要注意问题的合理性和可操作性,以及样本的代表性和有效性。
实验观测方法则通过观察受试者在特定情境下表现来获取数据,这种方法对于研究复杂的心理过程和行为具有重要意义。
心理测试则通过一系列测量项目,来评估个体的心理特征和能力水平。
三、数据处理数据处理是对原始数据进行整理和分析的过程。
常用的数据处理方法包括数据清洗、数据编码、数据转换等。
在数据清洗过程中,需要排除异常值和缺失值,并对数据进行核对和核实。
数据编码则将原始数据转换为可以进行统计分析的形式,比如将文本回答转换为数字编码。
数据转换则是对原始数据进行加工和整合,以便于后续的分析处理。
四、数据分析数据分析是根据研究目的和问题,对收集到的数据进行统计分析的过程。
常见的数据分析方法包括描述性统计、推论统计等。
描述性统计主要包括频数分析、平均数、标准差、百分位数等指标,用来描述和总结数据的分布和特征。
处理缺失值的四种方法:1、简单删除法适合于缺失值样本比较少的情况下,如果有过多的缺失值,则不适合使用该方法,
这样会造成资源的极大浪费,因为其丢弃了大量隐藏在这些
对象将严重影响数据集的客观性和结果的正确性。
2、数据补齐,主要有特殊值填充、热卡填充、K-means填
3、人工填写,用户自己对数据最为了解,因此这个方法产生的偏差是最小的,但是如果有大规模的缺失值时,这个方法是非常耗时耗力的。
法是条件平均值填充,这个并不是直接使用所有对象来计算平均值或者众数,而是使用与该样本具有相同决策属性的对象中去求解平均值或者众数。
统计学中的缺失数据处理与插补方法在统计学中,缺失数据是一种常见的问题。
缺失数据指的是在数据收集过程中,某些变量或观测值无法获取或丢失的情况。
这可能是由于实验条件、技术限制、调查对象的拒绝或其他原因导致的。
缺失数据的存在会对统计分析结果产生不良影响,因此需要采用适当的方法进行处理和插补。
一、缺失数据的类型在进行缺失数据处理之前,我们需要了解不同类型的缺失数据。
常见的缺失数据类型包括:1. 完全随机缺失(MCAR):缺失数据的出现与观测值本身或其他变量无关,是完全随机的。
在这种情况下,缺失数据对统计分析结果没有影响。
2. 随机缺失(MAR):缺失数据的出现与观测值本身无关,但与其他变量相关。
在这种情况下,缺失数据对统计分析结果可能产生偏差。
3. 非随机缺失(NMAR):缺失数据的出现与观测值本身相关,并且与其他变量相关。
在这种情况下,缺失数据对统计分析结果产生严重偏差。
二、插补方法针对不同类型的缺失数据,统计学家们提出了各种插补方法。
下面介绍几种常见的插补方法:1. 删除法:对于缺失数据较少且缺失数据是MCAR的情况,可以选择直接删除缺失数据所在的观测值。
这种方法简单快捷,但会导致样本容量减小,可能影响统计分析结果的准确性。
2. 最小二乘法插补:对于MAR类型的缺失数据,可以使用最小二乘法进行插补。
该方法通过建立一个回归模型,利用已有数据预测缺失数据的值。
然后,将预测值代替缺失数据进行分析。
3. 多重插补法:多重插补法是一种常用的处理缺失数据的方法。
该方法通过多次模拟生成多个完整的数据集,每个数据集都包含通过预测模型得到的不同插补值。
然后,基于这些完整的数据集进行统计分析,并将结果进行汇总。
4. 均值插补法:对于MCAR类型的缺失数据,可以使用均值插补法。
该方法将缺失数据的均值或中位数代替缺失值,使得数据集的整体分布不发生明显改变。
5. 模型法插补:对于NMAR类型的缺失数据,可以使用模型法进行插补。
如何识别和应对数据分析中的缺失值在数据分析的过程中,经常会遇到缺失值的情况。
缺失值是指在数据集中某些变量的取值缺失或未记录的情况。
缺失值的存在可能会对数据分析结果产生影响,因此识别和应对缺失值是数据分析中的重要环节。
一、识别缺失值在进行数据分析之前,首先需要识别数据集中是否存在缺失值。
常见的识别方法有以下几种:1. 观察法:通过观察数据集中的变量取值是否完整来判断是否存在缺失值。
例如,如果某个变量的取值在一段时间内缺失了一部分,那么可以判断该变量存在缺失值。
2. 统计法:通过统计数据集中每个变量的缺失率来判断是否存在缺失值。
缺失率是指某个变量中缺失值的数量占总样本量的比例。
当某个变量的缺失率超过一定阈值时,可以判断该变量存在缺失值。
3. 缺失模式分析:通过分析数据集中缺失值的分布模式来判断是否存在缺失值。
常见的缺失模式有随机缺失、系统性缺失和非随机缺失等。
随机缺失是指缺失值的出现与其他变量无关,系统性缺失是指缺失值的出现与其他变量有关,非随机缺失是指缺失值的出现与某些特定因素有关。
二、应对缺失值当识别到数据集中存在缺失值后,需要采取相应的方法来应对缺失值。
以下是几种常见的处理方法:1. 删除法:对于缺失值较多的变量,可以选择直接删除该变量或删除含有缺失值的观测样本。
这种方法适用于缺失值的出现是随机的情况。
2. 替代法:对于缺失值较少的变量,可以选择用其他观测样本的取值来替代缺失值。
常见的替代方法有均值替代、中位数替代和众数替代等。
这种方法适用于缺失值的出现是随机的情况。
3. 插补法:对于缺失值较多的变量,可以选择使用插补方法来估计缺失值。
常见的插补方法有回归插补、多重插补和热平台插补等。
这种方法适用于缺失值的出现与其他变量有关的情况。
4. 分析法:对于缺失值的出现与其他变量有关的情况,可以选择使用分析方法来推断缺失值。
例如,可以使用聚类分析或分类模型来预测缺失值。
需要注意的是,在进行缺失值处理时,应根据具体情况选择合适的方法。
缺失值和异常值的处理方法回归方程导语缺失值和异常值是数据处理过程中常见的问题,对于回归方程的建模和预测结果会产生不良影响,因此如何正确处理缺失值和异常值成为了数据分析领域中的重要课题。
本文将从缺失值和异常值的定义、影响、处理方法和回归方程的应用等方面展开讨论,旨在帮助读者全面理解和掌握相关知识。
一、缺失值和异常值的定义及影响1. 缺失值的定义及影响缺失值是指数据集中的部分观测值因某种原因而缺失的情况,通常用NaN(Not a Number)或空值来表示。
缺失值的存在会导致数据样本减少、统计分析结果不准确以及建模过程失败等问题,严重影响了数据分析的结果和结论的可信度。
2. 异常值的定义及影响异常值(Outlier)是指在数据集中与其他观测值存在显著偏离或差异的数值,通常称之为离群点。
异常值的存在会扭曲数据的分布、影响统计量的计算以及损害模型的准确性,导致建模结果不可靠而无法有效预测。
二、缺失值和异常值的处理方法1. 缺失值的处理方法(1)删除缺失值:当缺失值的比例较低且对整体数据影响不大时,可以选择将含有缺失值的观测样本删除,以保证数据集的完整性和准确性。
(2)填补缺失值:采用均值、中位数、众数等统计量填补缺失值,或者使用插值法、回归模型等进行缺失值的估计。
2. 异常值的处理方法(1)删除异常值:当异常值对数据分析和建模产生严重影响时,可以选择将异常值排除在外,以确保模型的准确性和稳定性。
(2)平滑处理:采用分箱、截尾、转换等方法对异常值进行平滑处理,使得异常值不再对模型产生显著的影响。
三、回归方程在缺失值和异常值处理中的应用1. 缺失值的处理在回归方程中的应用在回归分析中,缺失值的存在会导致数据样本减少,从而影响了回归模型的构建和预测能力。
正确处理缺失值对于回归方程的准确性至关重要。
可以利用各种填补方法进行缺失值的处理,如均值填补、插值法填补等,以确保回归方程基于完整的数据集进行建模。
2. 异常值的处理在回归方程中的应用异常值对回归方程的影响往往较大,会扭曲自变量与因变量之间的关系,导致回归模型的参数估计不准确。
浅谈心理学问卷调查中缺失值的处理方法【摘要】心理学问卷调查中缺失值是一个普遍存在的问题,对数据的准确性和可靠性造成影响。
在处理缺失值时,可以选择删除、插补或使用特定值替代。
多重插补方法也是一种有效的处理方式。
选择合适的处理方法取决于具体情况,建议综合运用多种方法来处理缺失值,以确保数据的准确性和可靠性。
在处理缺失值时,需保持数据的完整性,避免对结果产生影响。
缺失值处理是问卷调查中不可忽视的重要环节,其正确处理将有利于提高研究结果的真实性和可信度。
在进行心理学问卷调查时,必须重视缺失值的处理,以保证数据的准确性和可靠性,从而得出科学、有效的研究结论。
【关键词】心理学、问卷调查、缺失值、数据清洗、删除、插补、特定值、多重插补、选择、综合处理、准确性、可靠性1. 引言1.1 介绍心理学问卷调查的重要性心理学问卷调查是心理学研究中非常重要的一种数据收集方法。
通过问卷调查,研究者可以获取被调查者的观点、态度、行为等信息,从而深入了解其心理特征和心理状态。
问卷调查可以帮助研究者探究不同心理现象之间的关系,发现一般规律或个体差异,从而为心理学知识的积累和理论的建立提供依据。
心理学问卷调查的重要性在于其能够帮助研究者了解被调查者内在的心理过程,揭示其认知、情绪、行为等方面的特点。
通过问卷调查可以获取大量数据,并进行统计分析,从而得出科学客观的结论。
问卷调查还可以帮助研究者预测行为趋势、评估心理干预效果,为实践提供参考和指导。
心理学问卷调查是心理学研究中不可或缺的重要手段,其重要性不仅在于其便捷性和高效性,更在于其能够帮助研究者深入了解被调查者的心理特征和心理状态。
通过问卷调查,我们可以更好地理解人们的内心世界,为心理学研究和应用提供坚实的基础。
1.2 缺失值在问卷调查中的普遍存在在心理学问卷调查中,缺失值是一种普遍存在的现象。
由于问卷调查的主观性和复杂性,参与者可能会出现一些不完整或遗漏的情况,导致问卷中出现缺失值。
数据缺失处理方法数据缺失是指在数据采集、存储或者分析过程中,某些数据项或者观测值未能被完整地记录或者获取到。
数据缺失可能会导致分析结果不许确,影响决策的可靠性。
因此,正确处理数据缺失是数据分析的重要环节之一。
本文将介绍几种常见的数据缺失处理方法。
一、删除缺失数据最简单的处理方法是直接删除包含缺失数据的样本或者变量。
这种方法适合于数据缺失的比例较小且缺失的样本或者变量对整体分析结果影响较小的情况。
删除缺失数据可以保持数据集的完整性,但可能会导致样本量减少,从而降低分析的统计功效。
二、插补缺失数据插补是指通过某种方法来估计和填补缺失数据。
常见的插补方法包括均值插补、中位数插补、回归插补和多重插补等。
1. 均值插补:对于数值型变量,可以用该变量的均值来填补缺失值。
这种方法简单快捷,但可能会导致数据的分布发生变化。
2. 中位数插补:对于偏态分布的数值型变量,可以用该变量的中位数来填补缺失值。
中位数对于异常值的影响较小,能更好地保持数据的分布特征。
3. 回归插补:对于存在相关性的变量,可以利用其他变量的信息来预测缺失值。
回归插补可以通过建立回归模型来估计缺失值,并利用模型的预测值来填补缺失数据。
4. 多重插补:多重插补是一种基于模型的插补方法,通过多次摹拟生成多个完整的数据集,并对每一个数据集进行分析,最后将多个分析结果进行汇总。
多重插补能够更好地反映数据的不确定性,提高分析结果的可靠性。
三、创建缺失指示变量除了插补缺失数据外,还可以通过创建缺失指示变量来处理数据缺失。
缺失指示变量是一种二元变量,用于表示原始变量是否缺失。
通过引入缺失指示变量,可以将缺失数据作为一个独立的类别进行分析,避免对数据进行插补而引入的偏差。
四、使用专门的缺失值处理算法除了上述常见的处理方法外,还有一些专门针对缺失值处理的算法,如KNN插补、EM算法等。
这些算法能够更精确地估计缺失值,并提供更准确的分析结果。
需要注意的是,选择何种处理方法应根据数据缺失的原因、缺失的比例以及对分析结果的要求来决定。
处理缺失值的四种方法在数据处理的过程中,经常会遇到缺失值的情况,而如何有效地处理缺失值,是数据分析的关键之一。
本文将介绍处理缺失值的四种方法,分别是删除法、填补法、插值法和模型法。
首先,我们来看看删除法。
删除法指的是直接将含有缺失值的观测样本删除。
这种方法的优点是简单直接,不需要对缺失值进行任何处理,但缺点是可能会丢失大量的有效信息,导致数据的准确性和完整性受到影响。
其次,是填补法。
填补法是指用一定的规则或算法将缺失值替换为其他数值。
常用的填补方法包括用均值、中位数、众数填补数值型变量的缺失值,用最频繁值填补分类变量的缺失值。
填补法的优点是可以保留数据的完整性,但缺点是可能会引入噪音,影响数据的准确性。
第三种方法是插值法。
插值法是指利用已知数据的特征,通过一定的插值算法来估计缺失值。
常用的插值方法包括线性插值、多项式插值、样条插值等。
插值法的优点是可以更准确地估计缺失值,但缺点是可能会受到数据分布的影响,导致估计结果不准确。
最后,是模型法。
模型法是指利用已知数据建立预测模型,通过模型预测来估计缺失值。
常用的模型包括线性回归模型、决策树模型、随机森林模型等。
模型法的优点是可以更精确地预测缺失值,但缺点是需要建立复杂的模型,计算量大,且对数据的要求较高。
综上所述,处理缺失值的四种方法各有优缺点,具体选择哪种方法取决于数据的特点以及分析的需求。
在实际应用中,可以根据具体情况灵活运用这些方法,以达到最佳的数据处理效果。
希望本文能对您有所帮助,谢谢阅读!。
缺失值处理的现代方法前文:缺失值的机制和传统处理方法/s/blog_7fb03f7d01012j6p.html 传统的方法存在种种不足,新的方法也在不断发展,其中最为研究者推崇的方法为多重填补(Multiple Imputation, MI)和极大似然估计(Allison, 2003; Graham, 2009; Schafer & Graham, 2002)。
极大似然估计极大似然估计在处理缺失值数据时又称作全息极大似然估计(Full Information Maximum Likelihood, FIML),意指使用所有观测变量的全部信息。
FIML同ML分析完整数据过程一样,只是在计算单个对数似然值时使用全部完整信息而不考虑缺失值(公示见,Enders, 2006, 2010)。
因此,ML处理缺失值并非使用替代值将缺失填补,而是使用已知信息采用迭代的方式估计参数。
FIML在MCAR和MAR 下产生无偏和有效的参数估计值。
当在非正态分布时,FIML需要使用同完整数据时的参数校正统计量(S-Bχ2等,见本章),Bootstrapping也是有效的策略之一。
FIML法包含辅助变量的分析使用Graham (2003)提出的饱和相关模型(Saturated Correlates),即将辅助变量纳入模型中,同时允许辅助变量间、辅助变量与外生观测指标以及内生观测指标的测量误差相关。
假设第5章PTSD例子的数据存在缺失值,同时假定性别和年龄为辅助变量,表9-5给了使用FIML估计DSM三因子结构的Mplus 程序。
表9-5 FIML处理缺失值的Mplus语句多重插补法(Multiple Imputation, MI)该方法由Rubin(1987)最早提出,假设在数据随机缺失情况下,用两个或更多能反映数据本身概率分布的值来填补缺失值的方法。
一个完整的MI包含三步:数据填补(Imputation Phase),计算(Analysis Phase)和汇总(Pooling Phase)。
处理缺失值的四种方法
缺失值在数据分析中是一个常见的问题,它可能会对分析结果
产生影响,因此需要采取适当的方法进行处理。
本文将介绍处理缺
失值的四种常用方法,分别是删除法、填补法、插补法和不处理法。
删除法是最简单的缺失值处理方法之一,它的原理是直接将含
有缺失值的数据行或列删除。
这种方法的优点是简单、快捷,但缺
点是可能会导致数据量减少,从而影响分析结果的准确性。
因此,
在使用删除法时需要谨慎考虑,尽量选择对整体影响较小的数据进
行删除。
填补法是指用一定的数值(如均值、中位数、众数等)替代缺
失值。
这种方法的优点是能够保持数据量不变,缺点是可能会引入
一定的误差。
在选择填补数值时,需要根据数据的特点和缺失值的
分布情况进行合理选择,以尽量减小误差的影响。
插补法是指通过建立模型来预测缺失值,并进行插补。
这种方
法的优点是能够更准确地估计缺失值,缺点是需要较多的计算和分
析工作。
在选择插补方法时,需要根据数据的特点和分析的要求进
行合理选择,以保证插补结果的准确性和有效性。
不处理法是指直接在数据分析中忽略缺失值,将其视为一种特殊情况进行分析。
这种方法的优点是简单、快捷,缺点是可能会导致分析结果的偏差。
在选择不处理法时,需要根据数据的特点和分析的要求进行合理选择,以尽量减小偏差的影响。
综上所述,处理缺失值的四种方法各有优缺点,需要根据具体情况进行合理选择。
在实际应用中,可以根据数据的特点和分析的要求进行综合考虑,以选择最合适的方法进行处理,从而保证分析结果的准确性和有效性。
Advances in Psychology 心理学进展, 2019, 9(11), 1843-1849Published Online November 2019 in Hans. /journal/aphttps:///10.12677/ap.2019.911222Comparison of Methods for ProcessingMissing Values in Psychological ResearchAn WangHangzhou College of Preschool Teacher Education of Zhejiang Normal University, Hangzhou ZhejiangReceived: Oct. 9th, 2019; accepted: Oct. 31st, 2019; published: Nov. 7th, 2019AbstractMissing data is a common but difficult problem to deal with. This paper briefly introduces several mechanisms of missing data and some general methods to deal with missing data. And the charac-teristics of all kinds of missing data processing method and the suitable conditions are compared.KeywordsMissing Value, Missing Mechanism, Filling Methods心理学研究中缺失值处理方法比较王安浙江师范大学杭州幼儿师范学院,浙江杭州收稿日期:2019年10月9日;录用日期:2019年10月31日;发布日期:2019年11月7日摘要数据缺失是一个常见但难以处理的问题。
文章简要介绍了数据缺失的几种机制,以及处理缺失数据的一般性方法,并对各种缺失数据的处理方法的特点及适用情况进行了比较。
关键词缺失值,缺失机制,填补方法王安Copyright © 2019 by author(s) and Hans Publishers Inc.This work is licensed under the Creative Commons Attribution International License (CC BY)./licenses/by/4.0/1. 引言在目前众多的研究领域中,经常会出现无回答的调查,这就不可避免的会带来数据缺失。
数据缺失不仅会给分析数据带来一定的困扰,也会给分析结果带来偏差。
目前国内的大多数心理学期刊并没有对缺失数据如何处理给出明确的要求,但杂志社对文章质量的要求越来越高,当下一些国际性的心理学期刊对缺失数据的处理要求必须给出详细的说明,另外随着国内心理学研究与国际逐渐接轨融合,对于缺失数据的处理要求也会越来越严格,因此,如何减少或者消除缺失数据带来的偏差变得越来越重要,对缺失数据的研究也越来越受到研究者的重视。
2. 数据缺失机制在处理缺失数据之前,我们需要知道数据缺失的机制,不同的缺失机制对应不同的分析方法,了解这些信息后才能选择恰当的方法来处理缺失数据。
在缺失数据的处理中,数据缺失机制的作用被研究者们长期的忽略,直到1976年Robin博士才给出明确的说明,他把缺失机制划分为三类(Rubin, 1976):随机缺失(Missing at Random, MAR)、完全随机缺失(Missing Completely at Radom, MCAR)、完全非随机缺失(Not Missing at Random, NMAR)。
我们用p表示概率分布,R代表缺失数据指标,Yobs和Ymiss分别表示数据集中实际观测到的部分以及缺失的部分,Φ是反映R与数据之间关系的一个参数。
1) 完全随机缺失。
MCAR缺失要求变量Y上数据缺失的概率与其他观测变量无关,也与Y本身的值无关,用公式表示为p(R|φ)(Rubin, 1976)。
这种缺失机制下数据缺失是完全随机的行为,其丢失的概率是未知的,换言之数据发生缺失与否与变量的取值没有任何关系。
2) 随机缺失。
MAR缺失是指数据的缺失取决于数据集中其他变量,与自身取值没有关系,用公式表示为p(R|Yobs, φ)(Rubin, 1976)。
3) 完全非随机缺失。
NMAR缺失是指数据是否缺失与数据集中其它变量的取值没有关系,只与缺失变量自身的取值有关,用公式表示为p(R|Yobs, Ymis, φ)(Rubin, 1976)。
不同的缺失值机制意味着需要采用不同的处理方法。
NMAR与MAR和MCAR的情况不同,因此下面讨论的方法主要集中在MAR和MCAR两种条件下,NMAR的处理方法可参见Enders的文章(Enders, 2010)。
Enders曾以下面以一组数据对缺失数据的三种机制做了的介绍(Enders, 2010)。
例如在一次测试中,要求IQ达到88分以上才能参加随后的人格测验,这样IQ分数为78、84、84、85和87的数据便缺失了。
这种数据缺失与人格变量自身无关,但却与IQ有关,称为随机缺失MAR。
完全随机缺失MCAR情况下数据缺失是随机的,不符合任何规律。
换句话说,变量缺失值的出现完全是个随机事件,例如下表中IQ为78、84、96、112和134上数据的缺失,称为完全随机缺失MCAR。
完全非随机缺失NMAR数据缺失与其他变量无关,与自身表现得分相关。
例如在表1中,公司新录用了14名员工,其中5名员工由于表现较差,在试用期内被辞退,年终表现评定中,被辞退的5名员工的表现分缺失了,这种情况下的数据缺失即为完全非随机缺失NMAR。
王安Table 1.Job performance evaluation for missing values of MCAR, MAR and NMAR表1. MCAR、MAR和NMAR缺失值时的工作绩效评估IQ Complete MCAR MAR NMAR78 9 - - 984 13 13 - 1384 10 - - 1085 8 8 - -87 7 7 - -91 7 7 7 -92 9 9 9 994 9 9 9 994 11 11 11 1196 7 - 7 -99 7 7 7 -105 10 10 10 10112 10 - 10 10134 12 - 12 123. 针对缺失数据的处理方法对于如何有效处理缺失数据,现有的方法大致分为以下几种。
3.1. 删除法不考虑缺失数据的影响,直接在目前获取的数据基础之上进行分析。
主要包括列表删除和成对删除。
到目前为止,在社会和行为科学的许多领域中,列表删除和成对删除是最常见的缺失数据处理方法(Peugh & Enders, 2004)。
3.1.1. 列表删除(Listwise Deletion)列表删除(也称为完全案例分析)把何缺少一个或多个值的案例的数据舍弃(Enders, 2010)。
这种方法将分析限制在完整的案例中,不需要专门的软件和复杂的处理技术,最大的优点在于方便快捷。
但是列表删除的主要问题是,它需要MCAR数据,当这个假设不成立时,会产生失真的参数估计(Enders, 2010)。
此外,撇开参数估计失真不谈,采用列表删除会放弃相当数量的信息,带来大量有效资源的浪费。
对于如何评价列表删除,研究者们有不同的看法。
也有研究者发现,如果缺失是预测变量而不是结果变量,那么列表删除可以在任何缺失数据机制下产生对回归斜率的无偏估计(Little, 1992)。
Schafer和Graham认为很多场合下成列删除都是可取的,特别是当缺失比例很小的时候,个案剔除法拥有很高的效率(Schafer & Graham, 2002)。
3.1.2. 成对删除(Pairwise Deletion)成对删除指如果配对的两个变量之一或者两个都是缺失值时,将其同时删除后再进行分析。
与列表删除相一致,成对删除的主要问题是需要MCAR数据,当这个假设不成立时,也会产生失真的参数估计(Enders, 2010)。
王安所以可以发现,列表删除和成对删除不是不可取,如果缺失机制是完全随机MCAR,则删除后的数据计算的大部分统计量是无偏的。
但是如果数据缺失不是完全随机的,是随机缺失MAR或者完全非随机缺失NMAR,删除后计算的所有估计值几乎都是有偏的。
此外,如果数据缺失比例很小,列表删除和成对删除不会损失太多信息,在满足MCAR机制下对大部分统计量计算是无偏的,在这种情况下删除法也是一种可行的方法。
3.2. 基于插补的技术很多情况下简单的将数据删除并不是好的方法,替换缺失数据,对缺失数据进行插补相比直接删除浪费更少的信息。
插补的基本思想是对缺失值进行预测,用预测然后用这个预测值来代替缺失值,从而使缺失数据变得完整。
3.2.1. 单一插补根据缺失值的插补值个数,插补方法可以分为单一插补和多重插补。
单一插补是指为每一个缺失值只插入一个值。
此外,根据插补模型的明确性,单一插补又可分为两类。
第一类是基于明确的假设和模型进行插补,包含均值插补、回归插补、随机插补等。
第二类在没有明确的假设和模型下进行插补,包含冷平台插补、热平台插补,最近邻插补等。
1) 均值插补(Mean Imputation)均值插补用样本观测数据的均值去去填补该变量的缺失值。
一般操作过程是当变量服从或近似服从正态分布时,可把此变量的平均值作为其所有缺失值的插补值;当变量服从偏态分布时,那么可考虑中位数或众数作为插补值(任志伟,2013)。
均值插补不需要删除数据,保留了与缺失变量无关的其他信息,最大程度上的保证了数据的真实性与完整性。
但是同一个变量中的缺失值都用同一个均值来替换,会严重扭曲了样本的分布。
这种方法会产生估计误(Little & Rubin, 2014)。
也最不为方法学者推荐(Allison, 2003)。
均值插补简单但缺乏吸引力,本质上给数据注入了与数据集中其他变量不相关的分数,这样在计算相关系数,协方差系数时便会受到削弱,即使数据是MCAR,这种方法也会扭曲结果参数估计。
2) 回归插补(Regression Imputation)回归插补是用回归方程的预测值代替缺失值(Enders, 2010)。
通过利用辅助变量Xk = (k = 1, 2, …, k)与目标变量Y的线性关系,建立回归模型,对目标变量的缺失值进行估计。
回归插补操作起来比较简单,但是却容易忽略随机误差的影响,低估标准差和其他未知性质的测量值,同样会产生估计偏差(Enders, 2010)。