在线问卷调查的质量控制法
- 格式:doc
- 大小:222.00 KB
- 文档页数:9
在线问卷调查质量控制的18项准则在线问卷调查质量控制的18项准则你们如何保证在线问卷调查的数据质量,在质量控制方面都做了些什么?在线问卷调查质量控制的18项准则说起来这个话题,在我从业的这将近10年里,几乎遇到每个新客户都要讲一讲。
当回头去看的时候,我们发现,这些年,我们也是在质量控制方面做了很多努力,技巧和标准都越来越充实。
有一些是标准化的,有一些是要根据不同的项目来分别对待的。
以至于到现在,在每个项目的开始,除了一些基础通用的质量控制方法,我们还会针对这个项目着重的使用一些控制方法。
我们为日常的质量控制所开发了20条原则,这些也是贯穿我们项目执行中所遵循的准则:Panel来源和身份验证阶段1、IP与注册地址相匹配:在线问卷调查的区域性限制决定了北上广等大型城市的问卷要多于三四线小城镇。
IP和地址的匹配杜绝了用户为获取更多问卷而恶意填写注册地址。
2、限制和移除多次注册:同一IP和设备(包括电脑和手机)只能注册一次。
尤其是现在的手机设备,我们可以通过设备编号锁定账户,多个账户将被移除。
3、机器注册自动检测:这个就不多说了,安全的第一道防线。
4、支付宝实名认证,手机号码唯一,绑定微信的身份验证:通过支付宝,微信招募,使用支付宝实名和微信唯一的第三方方式来保证账户的唯一性和真实性。
保证每个意见都来自于真实的受访者。
5、身份证号码填写和上传身份证照片的终极验证方式。
访问阶段6、设备唯一:无论是电脑和手机,每一台设备都可以通过cookie和设备号来限制唯一性。
7、IP检查:同一个IP只能作答一次,同时不是问卷目标城市的受访者IP限制作答问卷。
适合于地域限制比较强的问卷。
例如我们执行的厦门当地啤酒的项目,非厦门的IP的受访者即使是收到问卷邀请也不能进入问卷参与作答。
8、人口属性的匹配:注册时填写的人口属性和问卷作答时的信息双重校验。
不一致则被弹出。
9、答题时长的检测:答题时间过短很可能造成不认真看题。
而有些例如概念测试,广告测试的项目答题时间过长,很可能已经忘记前面的测试内容。
际需要选择两个或两个以上的设计人员成立问卷设计小组,通过相互启发、讨论切磋,集中众人的智慧,避免设计缺陷,形成完善的问卷。
2.2以问卷设计的质量要求为标准,控制问卷设计过程2.2.1明确调查目的,准确界定调查问题问卷设计人员必须明确调查目的,要多与委托者进行沟通,全面了解、研究委托者公司决策层的市场营销战略,营销策略组合以及正在实施的营销计划,产品的特征及市场背景,必须完成的工作目标及完成工作所拥有的资源,分析委托者可能面临的机遇与难题,正确理解委托者的真正意图与真实需要。
并根据调查目的,确定调查主题,准确界定调查问题。
设计人员对调查目的越明确,对委托者营销情况研究越深入,问题界定就越准确,就越有助于提高问卷设计质量。
在问卷设计过程中,设计人员必须不断地提醒自己是否做到了准确地反映调查主题和调查目的,凡是不能体现调查主题或与调查目的无关的问题都必须舍去。
2.2.2搜集相关资料搜集与问卷设计相关的资料,不失为提高问卷设计质量的有效捷径。
与问卷设计相关的资料可以是已有的同类或近似的问卷,通过认真分析和对比,加以借鉴,做到取长补短;也可以是相关的市场信息,通过了解与分析,调整问卷设计;还可以是商品资料分类、职业分类、零售业态分类等国家标准,通过参考采纳,规范问卷设计。
总之,凡是有利于问卷设计的资料都可以搜集,相关资料搜集得越充分,了解得越透彻,越能保证问卷设计的科学合理。
2.2.3问卷的初步拟定与修改一般而言,问卷由开头、甄别、主体、背景及结束语等部分构成。
开头部分一般包括问卷名称及编号、问候语、访问者身份、调查主题及调查目的简介、承诺信息、礼品信息、访问邀请与填写说明等内容。
甄别部分主要是对被调查者进行筛选,以选择出符合调查要求的被调查者进行调查。
主体部分是问卷的核心部分,由问题和备选答案(或自由回答预留空白)组成。
背景部分主要是有关被调查者的一些背景信息,一般包括被调查者的性别、年龄、教育程度、职业、平均月收入、婚姻状况、家庭人口等内容,为防止过早地遭到不必要的拒绝,这部分通常放在问卷的后面。
一、在线调查问卷概念:在线调查问卷是指在网站上设置调查表,访问者在线填写并提交到网站服务器,这是网上调查最基本的形式,也是在线获取信息最常用的在线调研方法之一。
在线调查问卷与纸质调查问卷最主要的区别:呈现方式不同,在线调查问卷在被访者面前的呈现方式是在屏幕上,而不是在纸上。
一个功能完善的企业网站通常有各种形式的在线调查,最常见的如用户对新产品的意见调查、顾客满意度调查等。
在线调查问卷与纸质调查问卷的基本结构类似,分为三部分:前言、主体和附录。
(一)前言这部分应该讲明白这次问卷调查的目的、意义、简单的内容介绍、关于匿名(强调保密,尊重隐私)的保证以及对回答者的要求。
一般是要求回答者如实回答问题,最后要对回答者的配合予以感谢,并且要有调查者的机构或组织的名称,以及调查时间。
(二)主体这部分是问卷的主要部分,应包括调查的主要内容,以及一些答题的说明。
一般把问卷的主体又分为两部分,一是被调查者的背景资料,即关于个人的性别、年龄、婚姻状况、收入等问题;另一部分就是调查的基本问题。
很多问卷出于降低敏感性的考虑,把背景资料的问题放在基本内容的后面。
(三)附录(结束语)这部分是调查的一些基本信息,如调查时间、地点、调查员姓名、被调查者的联系方式等信息的记录。
在最后的结束语中,我们还要对被调查者的配合再次给予感谢。
完美的问卷必须具备两个功能,即能将问题传达给被问的人和使被问者乐于回答。
二、问卷设计的原则1.有明确的主题。
根据调查主题,从实际出发拟题,问题目的明确,重点突出,没有可有可无的问题。
2.结构合理、逻辑性强。
问题的排列应有一定的逻辑顺序,符合应答者的思维程序。
一般是先易后难、先简后繁、先具体后抽象。
3.通俗易懂。
问卷应使应答者一目了然,并愿意如实回答。
问卷中语气要亲切,符合应答者的理解能力和认识能力,避免使用专业术语。
对敏感性问题采取一定的技巧调查,使问卷具有合理性和可答性,避免主观性和暗示性,以免答案失真。
在线问卷数据质量控制方法
在进行在线问卷调查时,保证数据质量是至关重要的。
以下是几种常见的在线问卷数据质量控制方法:
1. 预筛选参与者:在问卷发布之前,可以通过预筛选参与者来控制数据质量。
可以选择特定的受众群体,并排除那些可能会影响数据真实性的受众。
2. 引入验证问题:在问卷中引入一些验证问题,以检验参与者的真实性。
例如,可以询问参与者的年龄或居住地等信息,并与其他问题的回答进行比对,以确保参与者的回答是一致的。
3. 设定合理的答题时间:通过设定合理的答题时间来避免参与者匆忙回答问题或敷衍回答。
过短的答题时间可能导致参与者随意选择答案,而过长的答题时间可能引起参与者的不耐烦。
4. 检查重复回答:在问卷系统中,可以设定检测重复回答的功能,以避免同一参与者多次提交相同的问卷。
这可以提高数据的准确性和可靠性。
5. 设置逻辑跳转和必答问题:通过设置逻辑跳转和必答问题来确保问卷的逻辑完整性和数据的完整性。
逻辑跳转可以根据参与者的回答
跳过或展示特定问题,而必答问题可以确保参与者对关键问题进行回答,避免数据缺失。
6. 数据清洗和验证:在收集到数据后,进行数据清洗和验证是必不可少的。
可以对数据进行查重、删除无效回答、修正错误回答等操作,确保数据的准确性和一致性。
7. 数据比较和分析:在进行数据分析时,可以将不同样本之间的数据进行比较和验证。
通过比较不同样本的回答情况,可以进一步检验数据的可信度和一致性。
总之,以上方法可以帮助控制在线问卷数据的质量。
然而,数据质量控制是一个持续的过程,需要不断监控和改进,以确保数据的准确性和可靠性。
不属于在线问卷数据质量控制方法
不属于在线问卷数据质量控制方法
1、强制审核:指的是在发布问卷之前,先进行统一的审核和修改,以确保问卷质量合格,这种方法适用于规模较小的问卷调查,但难以应用于大规模问卷调查。
2、节点控制:指的是在问卷调查的过程中,将问题分成多个环节,每一环节都要经过核实,才能进入下一环节,以保证调查数据的质量。
3、人工实时检测:指的是在调查过程中,人工实时监控调查结果,并对可疑的调查结果进行及时核实,以确保调查数据的客观性和准确性。
4、自动程序化控制:指的是在调查过程中,采用自动的程序进行控制,对可疑的调查结果进行及时核实,以保证调查数据的质量。
5、定期抽查:指的是在调查过程中,对问卷调查的一定比例进行人工审核,以确保调查数据的质量。
以上五种方法均属于在线问卷数据质量控制方法。
调研质量控制一、引言调研质量控制是保证调研结果准确、可靠的重要环节。
在进行调研过程中,质量控制是确保数据的真实性、可信度和有效性的关键步骤。
本文将介绍调研质量控制的目标、原则、方法和常见问题,并提供一些提升调研质量的建议。
二、目标调研质量控制的主要目标是确保调研结果的准确性和可靠性。
通过有效的质量控制措施,可以减少调研中的误差和偏差,提高数据的可信度和有效性,从而为决策提供可靠的依据。
三、原则1. 精心设计调研方案:在开始调研之前,应该充分了解调研目的和需求,制定详细的调研方案,包括研究问题、样本选择、调研方法等,确保调研过程的科学性和可操作性。
2. 严格把控样本质量:样本的选择是调研的基础,应该根据调研目标确定样本的代表性和合理性。
同时,要确保样本的完整性和有效性,避免样本偏倚对结果产生影响。
3. 严格执行调研程序:按照调研方案的要求,严格执行调研程序,确保数据的采集、整理和分析过程的准确性和规范性。
4. 严格保密和匿名原则:在调研过程中,要保证被调查对象的隐私和权益,确保调研数据的保密性和匿名性,避免对被调查对象产生不良影响。
四、方法1. 问卷设计:合理设计问卷结构和问题,确保问题的准确性和完整性。
同时,要进行问卷预测试,通过对样本进行试调研,发现潜在问题并进行改进。
2. 采样方法:根据调研目标和需求,选择合适的采样方法,如随机抽样、分层抽样等,确保样本的代表性和可靠性。
3. 数据采集:采用科学的数据采集方法,如面对面访谈、电话访问、网络调查等,确保数据的准确性和可信度。
同时,要对采集到的数据进行核实和验证,避免数据错误。
4. 数据分析:采用适当的统计方法和软件工具,对采集到的数据进行分析和解读,确保结果的科学性和可靠性。
5. 质量检查:在调研过程中,要进行质量检查,对数据的完整性和准确性进行核查,及时发现和纠正问题,确保调研结果的可靠性。
五、常见问题及解决方法1. 问卷回收率低:可以通过增加问卷回收渠道、提高问卷设计的吸引力等方式提高回收率。
2012-06-06 本文行家:夕阳牧马人一、引言在线调查在中国正处于从“量的增长”到“质的提升”的转换过程中。
企业在体验在线调查的高效、经济、便捷的同时,也承受着对在线调查数据真实性、可靠性的担忧.一项最新的关于企业应用在线调查的研究数据显示,有意向使用在线调查的企业中,100%都曾提出过如何保证数据有效性的问题,87%的企业会问:“被访者从何而来,如何保证他们是真实的?",85%的企业会问:“被访者如果不认真答题怎么办?”,而目前尚无意向使用在线调查企业中,出于对质量担忧的占到近60%。
对在线调查数据质量的控制与提升是每个企业已经或即将面临的问题。
1、现行主要质量控制手段的应用与局限性1)逻辑关系校验目前针对在线调查的质量控制方法中应用最为普遍的是逻辑关系校验,包含题目自身各选项间的逻辑和题目间逻辑.选项间逻辑通常非常简单,主要是选项互斥或包含的关系,题目间逻辑主要存在于一些具有特定关系的指标中。
这些题目在问卷中数量有限,通常不会超过20%,且大多数与甄别部分相关,对主体问卷中题目数据质量的控制作用较微弱。
在线调查中,为了验证一些关键信息,尤其是和甄别相关的信息,我们会主动设置地雷题,用于筛选前后矛盾的答题者。
这种方法在一定程度上可以帮助我们辨别被访者是否存在作弊的情况,但这种辨别不是绝对的,因为一个被访者很可能在开始时的回答是真实的,但是由于问卷过于长等其他原因,在后期没有耐心继续认真回答时,在地雷题上出现前后不一的情况。
如果以此作为标准,筛除这些样本,那么在一个问题相对比较多的在线调查中,通过这种方法筛除的被访者比例可能是相当高的,而没有被筛除的人并不能排除其作弊的可能性.2)历史数据比对基于在线调查的特殊性,对于有样本库的在线调查公司而言,可以将某一次调查的数据与注册信息或其他调查信息进行对比,验证其所填内容的真实性。
但一方面不是所有的问卷信息都可以作对比,另一方面有些信息对比后发现不一致现象,并不能100%说明是被访者作弊,因而这种方法在实际应用中存在一定的局限性。
百度MUX:在线问卷调研的局限与对策Posted on 2013年05月29日 by ralf in Web分析, 互联网用户, 手机网民, 数据挖掘, 数据行业, 消费者研究, 用户研究with1,848 Comments随着互联网的普及,尤其是移动互联网的普及,在线问卷调研也变得越来越普遍,逐渐有替代传统的面对面问卷调研的趋势,在互联网行业,尤其常用,几乎变成了最普遍的一种定量调研方式。
然而,任何一种研究方法都不可能十全十美、包治百病,在线问卷调研也不例外。
在线问卷调研也存在以下先天不足:(1)问卷调研是用户自己主动填答的,所以回答的内容只能是用户能意识到能记住且愿意让我们知道的内容。
与线上数据相比,问卷调研的结果与真实情况有一定差距,因为我们不太可能记得自己每天从早到晚的每一个行为,有些行为发生了可能我们都没有意识到(比如穿鞋子先穿左脚还是右脚),有些行为是用户因为各种原因不想告诉我们的,比如他的工资收入、看到美女图片会有什么反应等等。
这些用户意识不到、不容易记住、不愿意告诉我们的问题,是不适合通过问卷来调查的,这样的内容,行为监测要有效得多。
(2)在线问卷入口放在什么位置,就决定了调查的用户的范围,只有那些到达了我们投放的页面、且看到了我们的问卷链接,愿意点击并进入链接、回答了问卷的用户,才是我们能够接触到的用户。
由于各人上网的习惯不同,关注的网页各异,因而不管我们选什么位置投放这个问卷链接,都不可能覆盖所有的用户;有些用户基本上是―调查绝缘用户‖,比如高端商务人群,他们非常繁忙且不屑于参与调查获奖,这样的用户,我们只能通过预约访谈的方式来进行调研,问卷调查,尤其是在线调查,是不太可能接触到的;(3)在线问卷填答的时候,我们并没有在用户旁边守着,不可能监督他认真填答,所以,敷衍作答也不是没有可能;问卷冗长、无趣或者奖金过于有诱惑力的时候,这样的问题就会更严重;(4)问卷往往只适合询问选择题,不可能让用户填写很多开放题,所以,对问卷设计的要求非常高,如果问卷设计的时候考虑不周,选项没列全,用户就算想选也没得选,这样也会导致结果偏差;那么,我们可以采取哪些应对措施来提高问卷调研的质量呢?(1)只调研用户能意识到且能记住且不涉及用户隐私、用户愿意让我们知道的内容,比如认知、态度、粗略的行为(不会有非常精确的次数、时间等),线上数据已经可以准确采集的内容,问卷调研就不用再做了;(2)慎重选择问卷入口。
调研质量控制调研质量控制是指在进行调研活动时,通过一系列的措施和方法来保证调研结果的准确性、可靠性和有效性。
良好的质量控制可以确保调研数据的真实性和可信度,提高决策的科学性和准确性。
一、调研质量控制的重要性调研质量控制是保证调研结果可靠性的关键环节。
只有确保调研数据的准确性和可靠性,才能为决策提供科学依据。
良好的质量控制可以减少调研过程中的误差和偏差,提高调研结果的有效性和可比性。
二、调研质量控制的方法和措施1. 研究设计阶段的质量控制:在研究设计阶段,需要明确调研目标、研究问题和调研方法,并进行合理的样本设计。
同时,还需要制定详细的调研方案,明确调研过程中的操作步骤和流程,确保调研的科学性和可操作性。
2. 问卷设计阶段的质量控制:在问卷设计阶段,需要制定合理的问卷结构和问题设置。
问卷应该清晰、简洁、易于理解和回答。
同时,还需要进行问卷的预测试,通过对少数受访者进行试调研,发现问题并进行修正,确保问卷的质量和有效性。
3. 调研人员培训和管理的质量控制:调研人员是调研活动中的重要环节,他们的素质和能力直接影响调研结果的质量。
因此,在调研之前,需要进行调研人员的培训,包括调研目的、调研方法和调研流程等方面的培训。
同时,还需要建立调研人员的管理机制,确保调研人员按照规定的流程和要求进行调研工作。
4. 数据采集阶段的质量控制:在数据采集阶段,需要制定详细的数据采集方案,明确数据采集的时间、地点和方式。
同时,还需要进行数据采集人员的监督和管理,确保数据采集的准确性和可靠性。
此外,还需要对采集到的数据进行有效性检查和数据清洗,发现并纠正数据中的错误和异常值。
5. 数据分析和结果呈现阶段的质量控制:在数据分析和结果呈现阶段,需要使用合理的统计方法和分析工具对数据进行处理和分析。
同时,还需要进行数据的逻辑检查和结果的合理性检验,确保分析结果的准确性和可靠性。
最后,还需要将调研结果以清晰、简洁和易于理解的方式呈现给决策者,确保调研结果的有效传达和利用。
利用互联网进行市场调查是一种非常有效的方式,我们常常可以看到许多网站上都设置在线调查表,用以收集用户反馈信息,在线调查常用于产品调查、消费者行为调查、顾客意见、品牌形象调查等方面,是获得第一手调研资料的有效工具。
但是,在线调查也存在种种局限,尤其在企业网站访问量比较小、客户资料还不够丰富的情况下,获得的有效问卷数量较少,调查结果有时会出现较大的误差。
尽可能提高在线调查结果的质量,是开展网上市场调研过程中每个环节都要考虑的问题,下列八个方面需要给予足够重视:认真设计在线调查表;吸引尽可能多的人参与调查;尽量减少无效问卷;公布保护个人信息声明;避免滥用市场调查功能;样本分布不均衡的影响;奖项设置合理;采用多种网上调研手段相结合。
1)认真设计在线调查表。
前面已经分析过在线调查表本身可能存在的问题,综合起来,在线调查表应该主题明确、简洁明了、问题便于被调查者正确理解和回答,同时,调查表也应该方便调查人员的工作,且便于调查结果的处理,其实这也是所有问卷设计中应该遵循的基本原则。
对于调查问句的设计仍然可以参考一般问卷的设计技巧。
2)吸引尽可能多的人参与调查。
参与者的数量对调查结果的可信度至关重要,问卷设计水平对此也有一定影响,问卷内容中体现出“你的意见对我们很重要”,让被调查者感觉到,填写调查表就好象帮助自己或所关心的人,这样往往有助于提高问卷回收率。
当然,也离不开有力的宣传推广,网上调查与适当的激励措施相结合会有明显的作用,必要时还应该和访问量大的网站合作以增加参与者数量。
3)尽量减少无效问卷。
除了问题易于回答之外,大部分在线调查都利用Javascript等电脑程序在问卷提交时给予检查,并提醒被调查者对遗漏的项目或者明显超出正常范围的内容进行完善。
当然,这只能在一定程度上有效。
4)公布保护个人信息声明。
无论哪个国家,对个人信息都有不同程度的自我保护意识,让用户了解调研目的并确信个人信息不会被公开或者用于其他任何场合。
2012-06-06 本文行家:夕阳牧马人一、引言在线调查在中国正处于从“量的增长”到“质的提升”的转换过程中。
企业在体验在线调查的高效、经济、便捷的同时,也承受着对在线调查数据真实性、可靠性的担忧。
一项最新的关于企业应用在线调查的研究数据显示,有意向使用在线调查的企业中,100%都曾提出过如何保证数据有效性的问题,87%的企业会问:“被访者从何而来,如何保证他们是真实的?”,85%的企业会问:“被访者如果不认真答题怎么办?”,而目前尚无意向使用在线调查企业中,出于对质量担忧的占到近60%。
对在线调查数据质量的控制与提升是每个企业已经或即将面临的问题。
1、现行主要质量控制手段的应用与局限性1)逻辑关系校验目前针对在线调查的质量控制方法中应用最为普遍的是逻辑关系校验,包含题目自身各选项间的逻辑和题目间逻辑。
选项间逻辑通常非常简单,主要是选项互斥或包含的关系,题目间逻辑主要存在于一些具有特定关系的指标中。
这些题目在问卷中数量有限,通常不会超过20%,且大多数与甄别部分相关,对主体问卷中题目数据质量的控制作用较微弱。
在线调查中,为了验证一些关键信息,尤其是和甄别相关的信息,我们会主动设置地雷题,用于筛选前后矛盾的答题者。
这种方法在一定程度上可以帮助我们辨别被访者是否存在作弊的情况,但这种辨别不是绝对的,因为一个被访者很可能在开始时的回答是真实的,但是由于问卷过于长等其他原因,在后期没有耐心继续认真回答时,在地雷题上出现前后不一的情况。
如果以此作为标准,筛除这些样本,那么在一个问题相对比较多的在线调查中,通过这种方法筛除的被访者比例可能是相当高的,而没有被筛除的人并不能排除其作弊的可能性。
2)历史数据比对基于在线调查的特殊性,对于有样本库的在线调查公司而言,可以将某一次调查的数据与注册信息或其他调查信息进行对比,验证其所填内容的真实性。
但一方面不是所有的问卷信息都可以作对比,另一方面有些信息对比后发现不一致现象,并不能100%说明是被访者作弊,因而这种方法在实际应用中存在一定的局限性。
3)基于内容的人工检查这种质量控制方法由于个性化很强,和产品或品牌本身特性相关,不是每个调查中都会涉及,也很难形成相对统一并且固化的质量控制方法,更多地需要研究者的介入。
综上,目前的在线调查质量控制方法对于有逻辑的题目可以进行控制,但是对于无逻辑或模糊逻辑的题目很难产生实际效果。
2、影响在线调查数据质量的关键因素在一个调查中,非抽样误差通常来自于三个方面:设计人员、访问员、受访者。
由于在线调查中没有了访问员的环节,相比传统调查,在线调查已经大大减少了产生非抽样误差的可能性。
在研究设计符合在线习惯的前提下,担心的唯一来源就是被访者了,一方面是被访者作弊,另一方面是被访者答题不认真。
一个符合在线习惯,同时不涉及过多个人隐私的问卷,被访者不存在主动作弊的动机,同时,后台严格的管理使被访者的作弊成本很高,因而作弊现象很少发生。
一旦发生,我们通常可以通过逻辑校验、设置地雷题、与会员过去答题情况和注册信息等已有属性对比来进行有效筛除,因而这一现象目前已得到有效控制。
但被访者答题不认真的情况尚未得到很好控制,一方面这种现象无法主动避免,主要是由于:1)在线调查无法主动控制被访者参与的情况;2)每个题目对被访者的吸引程度不同,被访者很可能对整体调查主题比较感兴趣,但对问卷中的某个内容不感兴趣而不认真作答;3)题目设计本身可能存在各种问题,造成被访者回答困难;另一方面,主体问卷中的绝大多数题目是无逻辑可依的,当前主要的质量控制方法无法对每个题目产生普遍作用,因而这一现象始终无法根除。
基于此,本研究通过探索无逻辑或模糊逻辑情况下的在线数据质量控制方法,剖析以下三个重要的问题:(1)如何系统应对在线调查中“答题不认真”的现象?(2)对于主体问卷中无逻辑或模糊逻辑的题目而言,是否存在“普适性”的质量控制方法,能够有效提高在线调查的数据质量?(3)在线调查与互联网紧密结合,具有不同于传统调查的数据存储特点,如何利用这些特点实现数据质量的“系统化”、“自动化”、“统一化”提升?二、研究设计基于上述研究目的,我们首先对典型在线调查项目进行综合分析,找出数据存在的典型现象;在此基础上,从概率角度出发,探索具有“普适性”的数据质量控制方法,并对应用结果进行评估,验证方法的正确性;再次,结合在线调查特点探索一套具有“可复制”性的质量控制方法,使在线调查质量得到“系统化”、“自动化”、“统一化”提升。
1.典型的“答题不认真”数据现象我们首先从2010年至今的各类在线调查项目中抽取了不同调查主题、涵盖不同行业的38个典型项目案例进行了评估,具体项目分布见下表。
在分析这些项目的数据特点前,我们已根据过滤条件、地雷题、问卷中显性逻辑关系进行了校验。
这些题目本身没有绝对的逻辑,与其他题目间也没有必然联系。
我们发现经过上述方法提出不合格的样本后,有些情况仍然无法杜绝,其中典型的现象是被访者回答的选项数量超过合理值范围。
我们抽取其中一个典型案例加以说明,如下图所示:比如,当提及过去3天吃过的快餐时,有被访者回答吃过12种,远超过平均的选项数量2种。
再如当提及过去3天看过哪些电影时,有被访者回答看过19部,远超过平均的选项数量2种。
对于在线调查而言,我们无法主动控制被访者选择时的状态和认真程度,这种数据现象在每个题目中都或多或少会出现。
对平均值影响最大的因素就是奇异值,哪怕只有一两个奇异值,也会使数据结果出现较大波动,在回归等分析中产生较大影响。
因而虽然奇异值很少,但仍会影响统计分析的准确性。
由于每个题目的奇异值标准不一样,如何用一种高效的、普适性的方法找到奇异值是我们面临的首要问题。
2、具有普适性的质控方法——概率清除(1)概率清除的基本原理概率统计中的3σ原理告诉我们,通常情况下,标准正态分布时有99.7%的可能数据应该落在μ+3σ的范围内(其中μ为均值,σ为标准差),如下图所示:而选项个数在一定程度上是比较稳定的,即所有人选择个数的均值是相对稳定的,这也是为什么可以通过数据找到事物客观发展规律的原因。
考虑到不同情况下大家行为的差异,我们既不能轻易删除被访者数据,但也不能轻易相信所有的回收数据。
因而需要利用科学的方法对被访者的回答进行筛除。
由于数据落在μ+3σ范围内的概率均超过99%,也就是说一个正常的数据有99%的可能性会落在这个范围内,超过这个范围的值发生的概率极小,因而一旦发生,可以认为是奇异值,需要剔除掉。
(2)概率清除的方法应用接下来,我们对上述典型案例中的题目进行验证,在过去3天吃过的快餐一题中,我们发现落在μ+3σ范围内的,即选项数量小于等于7.3个的比例为99.7%,有0.3%的人回答的选项数量超过合理范围,发生的可能很小,可认为是奇异值。
此外,在线调查中,由于系统自动记录了每个题的答题时间,因而从答题时间上,我们同样应用概率清除的方法,对每个题的答题时间落在μ+3σ范围外的数据进行剔除。
概率清除的质量控制方法在传统调查中是很难实现的,一方面记录每个题的答题时间会耗费大量精力物力,不具有可行性,即便能够记录,在以访问员为介质的调查中无法有效控制记录的准确性和有效性。
另一方面由于涉及题目多,计算过程相对复杂,单单依靠研究人员无法在有限的时间内,对所有题目进行同样的处理,结果导致没有人根据这些原则对项目数据进行严格的质量控制。
但与在线调查特点相结合,基于概率清除的数据质量控制可以得到很好的应用,从而对“答题不认真”现象进行普遍控制。
3、应用结果及其评估验证(1)应用结果在上述典型案例中:A)通过概率清除方法,平均每个题目可以在现有基础上,使2%-3%不好的数据得到清除,如下表所示:B)当我们把同一个被访者超过合理范围的次数进行统计,我们会发现:一个题目不认真作答的人数占总人数的4.21%,两个题同时不认真作答的人数占比为1.05%,3个题同时不认真作答的人数占比为0。
剔除的不认真回答数据占全部回答人数的5.3%。
在将这一方法运用于其他37个项目后,我们发现:C)随着答题时间的增加,“答题不认真”现象随之凸显,超过合理值范围的样本数随之增加。
在一个20个题的调查中,处在问卷末尾的题目,清除的不认真回答率约为5%。
(2)评估与验证为证明数据清除的有效性,我们在其他案例中将完全同质人群的在线调查数据与传统调查数据作对比,结果发现,概率清除后,在线调查数据与传统调查数据更为接近。
我们选取了具有人群覆盖广、认知程度较均匀的银行品牌竞争力调查项目,这样的项目能够较好的剔除由于人群行为特征的不同造成的数据差异,更能反映数据本身的质量。
在这个项目中,在线回收数据11963个样本,CLT 回收8891个样本,CATI回收7457个样本。
三种渠道的样本构成完全一致,如下图所示:样本分布覆盖全国81个核心城市,其中省会以上城市占比超过50%。
本案例题目中(问卷第1题,且内容大家较熟悉,较容易作答),经过概率清除的不认真答题率为1%。
通过概率清除后的在线回收数据显示:在线回收数据中,最近三个月打过交道的银行的平均个数从3.52个降低到3.43个,概率清除前后,在线数据与拦截访问数据更为接近,平均差距缩小0.5%。
此外,三种渠道数据大体趋势相同,其中在线数据与CATI数据的趋势最为接近,但由于CATI数据的选项不提示特点,整体数据较在线调查与拦截访问降低了约10%的比例。
这个结果也同时验证了很少存在在线调查被访者整体作弊的情况,因而基于概率进行质量控制是可行的。
4、概率清除法的系统固化为了使在线调查的数据质量得到系统、稳定的提升,可以将这一质控流程固化在系统中,具体流程如下图所示:三、本次研究的意义及存在的问题1、本次研究的意义(1)创新性:针对当前无逻辑或模糊逻辑情况下质量控制手段缺失的现状,提出了概率清除的质量控制方法。
(2)科学性:较传统质控相比,由于“标准”是根据客观数据由系统计算得出的,因而改变了以往质控手段中“人为的”、“个性化的”运作特点,使“标准”更加客观、更加科学。
(3)有效性:通过这一质控手段,可以在现有基础上清除5%-10%答题不认真的数据,使数据质量提升。
(4)高效性:概率清除这一质控手段在在线调查领域具有“普适性”,与软件系统相结合,能够进行批量化处理,使在线调查的数据质量得到“系统化”、“自动化”、“统一化”提升。
2、本次研究的不足本次研究虽然采用概率清除的方法对“答题不认真”数据进行了有效清理,但仍属于事后控制的一种手段。
如引言所述,受访者的答题不认真可能是问卷设计不合理导致的被迫不认真,这种处于有效值范围内,以“非奇异值”形态存在的不认真现象,仍需从问卷设计这个源头进行深入研究。
两者相辅相成,“答题不认真”现象才能得到根除。