第五周:离散选择模型分析技术——每周一讲多变量分析
- 格式:doc
- 大小:255.00 KB
- 文档页数:9
下⾯我还是采⽤SPSS18.0,现在叫PASW Statistics 18.0来操作!注意:不同版本在多重对应分析⽅法有⼀些不同,但⼤家基本上可以看出了,⾼版本只能是更好,但选择会复杂和不同!在进⾏多重对应分析之前,研究者应该能够记住各个变量⼤致有多少类别,个别变量如果变量取值太偏或异常值出现,都会影响对应分析的结果和对应图分析!在SPSS分析菜单下选择降维(Data Redaction-数据消减)后选择最优尺度算法,该选项下,包括:多重对应分析、分类(⾮线性)主成分分析、⾮线性典型相关分析;注意:随着版本的增⾼,研究⼈员在统计分析时就要各位主要变量的测量尺度,并且最好在进⾏数据清理和分析前,明确定义好测量尺度;当然也要做好Lable⼯作!接下来,我们就可以选择变量和条件了!⼤家可以把要分析的变量都放到分析变量内,补充变量的含义是如果有哪个变量你并不想作为对应分析的变量,⽽只是作为附属变量表现在对应图上可以加⼊!这⼀点其实在简单对应分析也有这种定义。
(我们将在专门的简单对应分析⽅法中再讲!)然后我们要选择“变量”选项,⼤家可以选择类别图:每⼀个变量的分类图,重点是选择联合类别图,我们把7个变量全部放⼊,执⾏!(其它选项⼤家可以测试,我还有⼀些没有搞清楚)下⾯我们看结果:从图中我们可以看出:美国车都⽐较⼤,家庭型,主要购买者是已婚带孩⼦的;⽇本和欧洲车主要是⼩型、运动的和已婚没有孩⼦的⼈购买;特别注意:单⾝和单⾝带孩⼦的往往是租赁汽车,收⼊单⼀来源,但这个地区没有车满⾜这个市场,或许是市场空⽩;具体的解读⼤家可以根据⾃⼰的研究设计和假设去寻找答案!主要统计指标可以看:上图主要给我们了对应图维度的解释⽐率,最下⾯的图⼤家会看吗?提⽰:夹⾓是锐⾓意味着相关,所以:定类变量的相关性是不是可以解释啦!总结:(同样适合简单对应分析)对应分析的优点:定性变量划分的类别越多,这种⽅法的优势越明显。
揭⽰⾏变量类别间与列变量类别间的联系。
离散选择模型HEN system office room 【HEN16H-HENS2AHENS8Q8-HENH1688】第五章离散选择模型在初级计量经济学里,我们已经学习了解释变量是虚拟变量的情况,除此之外,在实际问题中,存在需要人们对决策与选择行为的分析与研究,这就是被解释变量为虚拟变量的情况。
我们把被解释变量是虚拟变量的线性回归模型称为离散选择模型,本章主要介绍这一类模型的估计与应用。
本章主要介绍以下内容:1、为什么会有离散选择模型。
2、二元离散选择模型的表示。
3、线性概率模型估计的缺陷。
4、Logit模型和Probit模型的建立与应用。
第一节模型的基础与对应的现象一、问题的提出在研究社会经济现象时,常常遇见一些特殊的被解释变量,其表现是选择与决策问题,是定性的,没有观测数据所对应;或者其观测到的是受某种限制的数据。
1、被解释变量是定性的选择与决策问题,可以用离散数据表示,即取值是不连续的。
例如,某一事件发生与否,分别用1和0表示;对某一建议持反对、中立和赞成5种观点,分别用0、1、2表示。
由离散数据建立的模型称为离散选择模型。
2、被解释变量取值是连续的,但取值的范围受到限制,或者将连续数据转化为类型数据。
例如,消费者购买某种商品,当消费者愿意支付的货币数量超过该商品的最低价值时,则表示为购买价格;当消费者愿意支付的货币数量低于该商品的最低价值时,则购买价格为0。
这种类型的数据成为审查数据。
再例如,在研究居民储蓄时,调查数据只有存款一万元以上的帐户,这时就不能以此代表所有居民储蓄的情况,这种数据称为截断数据。
这两种数据所建立的模型称为受限被解释变量模型。
有的时候,人们甚至更愿意将连续数据转化为上述类型数据来度量,例如,高考分数线的设置,就把高出分数线和低于分数线划分为了两类。
下面是几个离散数据的例子。
例研究家庭是否购买住房。
由于,购买住房行为要受到许多因素的影响,不仅有家庭收入、房屋价格,还有房屋的所在环境、人们的购买心理等,所以人们购买住房的心理价位很难观测到,但我们可以观察到是否购买了住房,即我们希望研究买房的可能性,即概率(1)P Y =的大小。
多变量分析技术多变量分析技术是一种基于统计学原理和数学模型的数据分析方法,广泛应用于各个领域,包括社会科学、生物科学、医学、市场营销等。
通过对多个变量之间的关系进行综合分析,可以揭示出隐藏在数据背后的规律和趋势,为决策提供科学依据。
本文将介绍多变量分析的一些常用技术和应用领域。
一、主成分分析(Principal Component Analysis)主成分分析是一种用于降维的数据分析方法,通过创建新的变量来代替原始变量,使得新变量间相互独立,尽量包含原始信息的大部分方差。
主成分分析在数据可视化和数据压缩方面具有重要应用。
例如,在市场调研中,研究人员可以通过主成分分析确定最能代表顾客喜好的几个主要特征,进而制定相应的市场策略。
二、聚类分析(Cluster Analysis)聚类分析是一种将样本或变量进行分组的技术。
通过计算样本或变量间的相似性,聚类分析可以将相似的样本或变量归为一类。
聚类分析在市场细分、社交网络分析等领域得到广泛应用。
例如,在客户细分中,企业可以通过聚类分析将具有相似购买行为的顾客划分为不同的群体,为不同群体设计专属的营销策略。
三、判别分析(Discriminant Analysis)判别分析是一种通过构建分类函数将样本分为不同类别的技术。
判别分析根据变量的值来判别样本所属类别,广泛应用于模式识别、生物统计学等领域。
例如,在医学诊断中,医生可以通过判别分析将患者的症状与疾病进行关联,辅助诊断和治疗决策。
四、回归分析(Regression Analysis)回归分析是一种用于建立变量之间关系的统计技术。
回归分析可以确定自变量对因变量的影响程度,并通过建立数学模型进行预测。
回归分析在经济学、金融学、社会学等领域具有广泛应用。
例如,在金融领域,研究人员可以使用回归分析来探究经济因素对股票价格的影响,并进行风险评估和资产配置。
五、因子分析(Factor Analysis)因子分析是一种用于研究变量间的潜在结构和因果关系的技术。
第五周:离散选择模型分析技术——每周一讲多变量分析离散选择模型(Discrete Choice Model),也叫做基于选择的结合分析模型(Choice-Based Conjoint Analysis,CBC),是一种非常有效且实用的市场研究技术。
该模型是在实验设计的基础上,通过模拟所要研究产品/服务的市场竞争环境,来测量消费者的购买行为,从而获知消费者如何在不同产品/服务属性水平和价格条件下进行选择。
这种技术可广泛应用于新产品开发、市场占有率分析、品牌竞争分析、市场细分和价格策略等市场营销领域。
同时离散选择模型也是一种处理离散的、非线性的定性数据的复杂高级多元统计分析技术,它采用Multinomial Logit Model进行数据统计分析。
根据Sawtootch公司调查显示:在市场研究中,CBC方法正在快速增长,应用比传统的结合分析(联合分析)应用更多!离散选择模型主要用于测量消费者在实际或模拟的市场竞争环境下如何在不同产品/服务中进行选择。
通常是在正交实验设计的基础上,构造一定数量的产品/服务选择集(Choice Set),每个选择集包括多个产品/服务的轮廓(Profile),每一个轮廓是由能够描述产品/服务重要特征的属性(Attributes)以及赋予每一个属性的不同水平(Level)组合构成。
例如消费者购买手机的重要属性和水平可能包括:品牌(A,B,C)、价格(1500元,1750万元,2000元)、功能(短信,短信语音,图片短信)等,离散选择模型是测量消费者在给出不同的产品价格、功能条件下是选择购买品牌A,还是品牌B或者品牌C,还是什么都不选择。
离散选择模型的一个重要的假定是:消费者是根据构成产品/服务的多个属性来进行理解和作选择判断;另一个基本假定是:消费者的选择行为要比偏好行为更接近现实情况。
它与传统的全轮廓结合分析(Full Profiles Conjoint Analysis)都是在全轮廓的基础上采用分解的方法测量消费者对某一轮廓(产品)的选择与偏好,对构成该轮廓的多个属性和水平的选择与偏好,用效用值(Utilities)来描述。
多变量分析方法多变量分析方法是一种统计学技术,它用于分析多个自变量对一个或多个因变量的影响关系。
通过探究变量之间的相互作用,多变量分析方法可以帮助我们理解数据背后的关联和趋势,从而作出准确的预测和决策。
在本文中,我们将介绍几种常见的多变量分析方法,并探讨它们在实际问题中的应用。
一、多元线性回归分析多元线性回归分析是一种用于研究多个自变量对一个连续因变量的影响的方法。
通过建立一个线性方程,我们可以根据自变量的值来预测因变量的取值。
在进行多元线性回归分析时,我们需要收集一组包含自变量和因变量数值的样本数据。
然后,通过最小二乘法来估计各个系数,以确保线性方程最符合样本数据。
多元线性回归分析在实际问题中有着广泛的应用。
例如,在市场营销中,我们可以使用多元线性回归分析来探究不同自变量对销售额的影响;在医学研究中,我们可以使用多元线性回归分析来分析多个生物标记物对疾病发展的影响。
二、主成分分析主成分分析是一种用于降维的多变量分析方法。
它可以从原始数据中提取出最具代表性的主要特征,以实现数据简化和可视化。
主成分分析通过将原始数据投影到新的坐标系中,使得每个主成分之间都是不相关的。
通过分析每个主成分的方差贡献率,我们可以确定哪些主成分对数据的解释性最强,从而帮助我们理解数据的结构。
主成分分析在多个领域中都有广泛的应用。
在金融领域,我们可以使用主成分分析来降低股票收益率的维度,以实现投资组合的优化;在生态学研究中,我们可以使用主成分分析来识别影响生物多样性的主要环境因素。
三、聚类分析聚类分析是一种将样本分成不同组别的无监督学习方法。
通过测量样本之间的相似性,聚类分析可以将相似的样本分配到同一个簇中,从而帮助我们发现数据中的隐藏模式和结构。
在进行聚类分析时,我们需要选择适当的距离度量和聚类算法,以确保得到有意义的聚类结果。
聚类分析在市场细分、社交网络分析等领域有着广泛的应用。
例如,在客户细分中,我们可以使用聚类分析来将相似消费者划分到同一个群组中,以实现个性化的营销策略;在社交网络分析中,我们可以使用聚类分析来识别具有相似兴趣和行为的用户群体。
离散选择模型解释离散选择模型,听起来是不是有点高大上,有点让人摸不着头脑?其实啊,它没那么神秘!咱们先来说说啥是离散选择模型。
就好比你去逛街买衣服,面对一排五颜六色、款式各异的衣服,你只能选一件。
这时候你的选择就是离散的,要么选这件,要么选那件,不可能同时选好几件穿在身上。
离散选择模型就是研究像这样的选择行为的。
比如说,你要出门旅游,有几个目的地可以选:海边、山区、城市。
那影响你最终决定的因素可能有很多,比如海边风景美但可能人多;山区空气好但交通不太方便;城市热闹但消费高。
离散选择模型就能帮我们分析这些因素是怎么影响你的最终决定的。
这就好像是一场内心的拔河比赛。
各种因素在你心里较着劲,有的使劲把你往海边拉,有的拼命把你往山区拽,还有的用力把你往城市推。
最后哪个因素的力量大,你就选择了对应的地方。
再举个例子,你每天早上纠结吃包子还是油条。
包子馅种类多,油条口感酥脆。
价格、营养、喜好等等都会影响你的选择。
离散选择模型就是要搞清楚这些因素到底谁占了上风,让你做出了决定。
你想想,要是商家能搞懂消费者在他们的产品里是怎么做出离散选择的,那他们不就能更好地迎合消费者的需求,赚更多的钱啦?反过来,政府也能通过这个模型了解大家对公共服务的选择偏好,从而提供更合大家心意的服务。
离散选择模型可不只是在经济领域有用哦。
比如说交通规划,是修地铁还是建公交专线?教育方面,是选择传统教学还是在线课程?甚至在医疗领域,选择哪种治疗方案,都能通过这个模型来分析。
所以说,离散选择模型就像是一个神奇的透视镜,能让我们看清那些看似随机的选择背后隐藏的规律和影响因素。
它能帮助我们做出更明智的决策,无论是个人生活中的小选择,还是社会发展中的大决策。
你说,这么有用的模型,咱能不好好研究研究,好好利用利用吗?。
第五章离散选择模型在初级计量经济学里,我们已经学习了解释变量是虚拟变量的情况,除此之外,在实际问题中,存在需要人们对决策与选择行为的分析与研究,这就是被解释变量为虚拟变量的情况。
我们把被解释变量是虚拟变量的线性回归模型称为离散选择模型,本章主要介绍这一类模型的估计与应用。
本章主要介绍以下内容:1、为什么会有离散选择模型。
2、二元离散选择模型的表示。
3、线性概率模型估计的缺陷。
4、Logit模型和Probit模型的建立与应用。
第一节模型的基础与对应的现象一、问题的提出在研究社会经济现象时,常常遇见一些特殊的被解释变量,其表现是选择与决策问题,是定性的,没有观测数据所对应;或者其观测到的是受某种限制的数据。
1、被解释变量是定性的选择与决策问题,可以用离散数据表示,即取值是不连续的。
例如,某一事件发生与否,分别用1和0表示;对某一建议持反对、中立和赞成5种观点,分别用0、1、2表示。
由离散数据建立的模型称为离散选择模型。
2、被解释变量取值是连续的,但取值的范围受到限制,或者将连续数据转化为类型数据。
例如,消费者购买某种商品,当消费者愿意支付的货币数量超过该商品的最低价值时,则表示为购买价格;当消费者愿意支付的货币数量低于该商品的最低价值时,则购买价格为0。
这种类型的数据成为审查数据。
再例如,在研究居民储蓄时,调查数据只有存款一万元以上的帐户,这时就不能以此代表所有居民储蓄的情况,这种数据称为截断数据。
这两种数据所建立的模型称为受限被解释变量模型。
有的时候,人们甚至更愿意将连续数据转化为上述类型数据来度量,例如,高考分数线的设置,就把高出分数线和低于分数线划分为了两类。
下面是几个离散数据的例子。
例5.1 研究家庭是否购买住房。
由于,购买住房行为要受到许多因素的影响,不仅有家庭收入、房屋价格,还有房屋的所在环境、人们的购买心理等,所以人们购买住房的心理价位很难观测到,但我们可以观察到是否购买了住房,即我们希望研究买房的可能性,即概率(1)P Y =的大小。
调查数据分析技术-多变量分析核心技术 - 多变量分析大多数由市场上所收集到的资料都是多元的。
原因很简单:千辛万苦安排的可以收集数据的客观环境,作为调研公司当然会尽量多获取一些不同类型的有效测量数据。
因此,多变量的问题自然存在。
友邦顾问自98年开始探索这些多变量分析技术,通过大量的项目积累获得了丰富的研究经验。
下面这些多变量分析技术是我们在市场研究分析中常用的方法与模型。
1、多元回归分析(Regression Analysis)在对市场数据的分析中往往会看到变量与变量之间存在一定的相关关系,例如:某产品的价格和社会需求之间,服务满意度与服务之间都有密切的关系,研究变量之间相互关系密切程度的分析为相关分析。
如果在研究变量的相关分析时,把其中的一些因素作为所控制的变量,而另一些随机变量作为它们的因变量,确定这种关系的数理方法就称为回归分析。
它常应用于满意度研究、消费者研究、市场预测以及一些专业技术研究等方面。
2、因子分析(Factor Analysis)因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系,即将相关比较密切的几个变量归在同一类中,每一类变量就成为一个因子(之所以称其为因子,是因为它是不可观测的,即不是具体的变量),以较少的几个因子反映原资料的大部分信息。
常与其它技术联合使用,应用于满意度研究,市场细分研究中。
3、主成份分析(Principal Component Analysis)主成份分析的目的是要对多变量数据表进行最佳综合简化。
使用的方法是寻找这些变量的线性组合─称之为主成份,使这些主成份间不相关。
为了能用尽量少的主成份个数去反映原始变量间提供的变异信息,要求各主成分的方差从大到小排列。
第一主成份最能反映数据间的差异。
4、聚类分析(Cluster Analysis)与判别分析(Discriminant Analysis)聚类分析的目的在于辨别在某些特性上相似的事物,并按这些特性将样本划分成若干类(群),使在同一类内的事物具有高度的同质性,而不同类的事物则有高度的异质性。
第五周:离散选择模型分析技术——每周一讲多变量分析离散选择模型(Discrete Choice Model),也叫做基于选择的结合分析模型(Choice-Based Conjoint Analysis,CBC),是一种非常有效且实用的市场研究技术。
该模型是在实验设计的基础上,通过模拟所要研究产品/服务的市场竞争环境,来测量消费者的购买行为,从而获知消费者如何在不同产品/服务属性水平和价格条件下进行选择。
这种技术可广泛应用于新产品开发、市场占有率分析、品牌竞争分析、市场细分和价格策略等市场营销领域。
同时离散选择模型也是一种处理离散的、非线性的定性数据的复杂高级多元统计分析技术,它采用Multinomial Logit Model进行数据统计分析。
根据Sawtootch公司调查显示:在市场研究中,CBC方法正在快速增长,应用比传统的结合分析(联合分析)应用更多!离散选择模型主要用于测量消费者在实际或模拟的市场竞争环境下如何在不同产品/服务中进行选择。
通常是在正交实验设计的基础上,构造一定数量的产品/服务选择集(Choice Set),每个选择集包括多个产品/服务的轮廓(Profile),每一个轮廓是由能够描述产品/服务重要特征的属性(Attributes)以及赋予每一个属性的不同水平(Level)组合构成。
例如消费者购买手机的重要属性和水平可能包括:品牌(A,B,C)、价格(1500元,1750万元,2000元)、功能(短信,短信语音,图片短信)等,离散选择模型是测量消费者在给出不同的产品价格、功能条件下是选择购买品牌A,还是品牌B或者品牌C,还是什么都不选择。
离散选择模型的一个重要的假定是:消费者是根据构成产品/服务的多个属性来进行理解和作选择判断;另一个基本假定是:消费者的选择行为要比偏好行为更接近现实情况。
它与传统的全轮廓结合分析(Full Profiles Conjoint Analysis)都是在全轮廓的基础上采用分解的方法测量消费者对某一轮廓(产品)的选择与偏好,对构成该轮廓的多个属性和水平的选择与偏好,用效用值(Utilities)来描述。
但是,它与传统的结合分析的最大区别在于:离散选择模型不是测量消费者的偏好,而是获知消费者如何在不同竞争产品选择集中进行选择。
因此,离散选择模型在价格研究中是一种更为实际、更有效、也更复杂的技术。
具体表现在:•将消费者的选择置于模拟的竞争市场环境,“选择”更接近消费者的实际购买行为;消费者的选择行为要比偏好态度更能反映产品不同属性和水平的价值,也更具有针对性;•消费者只需做出“买”或“不买”的回答,数据获得更容易,也更准确;•消费者可以做出“任何产品都不购买”的决策,这与现实是一致的;•实验设计可以排除不合理的产品组合,同时可以分析产品属性水平存在交互作用的情况;•离散选择集能够较好地处理产品属性水平个数(大于4)较多的情况;•统计分析模型和数据结构更为复杂,但可以模拟更广泛的市场竞争环境;•模型分析是在消费者群体层面,而非个体层面。
离散选择模型主要采用离散的、非线性的Multinomial Logit统计分析技术,其因变量是消费者在多个可选产品中,选择购买哪一种产品;而自变量是构成选择集的不同产品属性。
目前统计分析软件主要有SAS/STAT统计过程和SAS Market模块,二者均采用SAS/STAT Proc PHREG过程—比例风险回归(Proportional Hazards Regression)分析。
另外,Sawtooth 软件公司开发了专用的CBC市场研究分析软件(Choice-Based Conjoint Analysis),该软件集成了从选择集实验设计、问卷生成、数据收集到统计分析,市场模拟等离散选择模型的市场研究全过程。
从一定角度讲:离散选择模型是一种比较复杂的分析技术!据说采用离散选择模型研究微观消费者行为的人得了诺贝尔经济学奖!必须注意:任何一项采用离散选择模型进行的市场研究,都包括从确定研究目的、实验设计、数据收集、数据整理、分析和计算、检验与应用、模拟市场、撰写研究报告等全过程。
当然,最好借助专用的分析软件来实现。
下面我们还是通过手机价格研究案例来看如果进行离散选择分析!1-研究目的:随着移动通讯市场竞争的日趋激烈,移动和联通两大服务商在原有全球通和130手机用户的基础上,分别推出了预付话费的神州行和如意通,同时联通在GSM网络基础上又推出了CDMA网络。
但是,话费价格始终是影响消费者选择供应商的重要因素。
为了制定价格竞争策略,可以采用离散选择模型进行品牌优势和价格研究。
2-属性与水平确定:研究包括5种服务品牌和4种不同价格,分别是:品牌(移动全球通、移动神州行、联通130、联通如意通、联通CDMA)和价格(0.30元/分钟,0.40元/分钟,0.50元/分钟,0.60元/分钟)。
3-正交实验设计:在离散选择模型中,因变量是消费者在若干个可选品牌构成的选择集中的选择,而自变量是影响消费者选择的属性。
因此,离散选择集应该设计为5种品牌(属性)分别有4种不同价格水平,如果采用全因子实验设计,应该有4×4×4×4×4=1024种可能选择集,远远超过消费者的理性判断范围,必须采用部分因子正交排列法来减少选择集。
记住:这一点与传统的结合分析设计属性和水平不同!传统的全轮廓结合分析在进行实验设计时,因变量是消费者对产品/服务轮廓的总体评价偏好得分,自变量是构成产品/服务的属性水平因子。
但是,在离散选择模型中,实验设计的因变量是消费者对产品的选择,从m种产品选择一种(选择=1,未选择=0),而自变量是产品/服务的属性。
例如:假定价格研究涉及到3个品牌(品牌1,品牌2,品牌3)和2种价格(1.99,2.99),全轮廓结合分析是将品牌水平和价格水平都作为自变量因子,但离散选择模型并不将品牌单作为属性因子(自变量),而是将“品牌价格”作为含有3个水平(品牌1价格,品牌2价格,品牌3价格)的属性因子,即三个“品牌价格”属性因子分别有三种不同价格水平。
例如:在实际应用中,有时候往往无法获得正交、平衡的部分因子组合,例如:存在着市场无法接受的组合,要求的正交排列、平衡的轮廓数不存在,部分属性之间存在着交互作用。
这时候我们必须做出一定的选择,考虑采用非正交的实验设计方法,SAS8.1 for Windows的宏:%MKTRUNS()和%MKTDES(),现在最好采用%MKTEX()可以用来帮助实现正交或非正交实验设计并估计线性模型实验设计效果。
可以用SAS8.2宏%MKTRUNS()和%MKTDES(),%MKTEX()生成选择集子集和评估实验设计效果。
本项研究的实验设计结果给出了16,32,48,64等均可满足正交和平衡的选择集个数,考虑到被访者的承受能力,确定16个选择集是适当的。
当确定了选择集个数后,根据实际情况加上“不选择任何服务”选项,则每个选择集含有6种可能的服务方式,将每个选择集制作成16张类似前面问卷设计给出的选择集卡片,按顺序或随机的方式让被访者依次从每张卡片选择一种最可能使用的服务。
4-问卷设计和数据采集:离散选择模型是将产品/服务轮廓的属性水平组合成m种不同产品/服务,构造一个选择集,同时展现给消费者,从中选择一个最可能购买的产品/服务。
也可以让消费者评价多个选择集,每个选择集可以包括“在该选择集中,任何产品都不购买”的选择,这样更接近现实情况。
每一个选择集中的产品可以完全用文字描述,也可以辅助于图片或实物模型,一般需要将选择集制作成卡片。
例如,移动话费价格研究包括了5家移动通讯服务商品牌和4种不同话费价格。
在离散选择模型中,5个品牌分别有4种不同价格水平,部分因子正交实验设计构造了16个选择集,其中某个选择集卡片如下所示:离散选择模型的数据收集通常采用纸笔或者计算机辅助调查方法,后者一般借助专用的模型分析软件,例如Sawtooth公司的CBC软件。
可以采用调查员面访,也可以采用中心地点调查的形式收集资料。
5-样本量选择:如何确定离散选择模型样本量的大小?首先我们要考虑采用概率抽样还是非概率抽样,概率抽样除了要考虑非常简单随机抽样样本量确定因素:置信度和误差(精度)之外,还要考虑离散选择模型的影响因素,主要包括:属性和水平的个数,估计主效应和交互作用,每个选择集包含的可选产品数,选择集个数;研究表明:随着每个被访者需要选择的选择集个数增加将等同于增加了样本量。
一般情况下,离散选择模型的样本量在300-600个样本之间,如果需要估计不同的消费者细分市场,样本量还需要增大;另外,离散选择模型的被访者同质性程度越高,估计的效果会越好。
6-数据整理和编码:离散选择模型的数据整理和编码是非常重要的,也是其复杂性的一个方面!当然,其调查过程和采集数据是非常简单的!离散选择模型对选择集的数据格式有特殊的要求,在进行数据分析之前必须将所有选择集进行重新编码,并与被访者的“选择”结果合并数据。
例如,前面给出了品牌价格研究的4个选择集,一行代表一个选择集,重新编码整合数据后,需要三行代表一个选择集,并将线性选择结构转换为离散选择结构,最后将被访者的“选择”整合在离散选择数据结构中。
上面给出了满足离散选择模型的数据结构,第1列表示每个被访者的编号,第2列表示每个选择集编号,第3列表示每个被访者从含3个产品的一个选择集中选择产品的结果(选择=1,不选择=2)。
假定我们调查了100位消费者,最终的数据集将含有100×4×3=1200行数据。
随着被访者人数、选择集个数和每个选择集含有的可选产品数目的增加,数据集将会非常庞大。
由于离散选择模型是在群体层面上进行分析,习惯上可以将被访者编号列设置为所有被访者的选择频次,作为加权变量,从而简化数据集。
我们可以通过理解选择模型的算法,编写Excel模拟器,进行市场分析,例如:价格弹性、产品组合等!7-数据分析:离散选择模型是在消费者群体层面上进行分析,它主要包括两个方面:•选择频次分析:通过分析所有被访者对选择集中可选产品的选择频次,得到各属性水平的选择比率,也可以计算不同属性水平二维交互作用的选择比率,一般用百分比表示。
•Logit模型选择概率分析:当选择数据经过编码整合后,就可以利用Multinomial Logit Model进行数据分析。
该模型是一种复杂的多元统计分析过程,前面提到的SAS/STAT和Market模块的Prco PHREG过程可以用来估计未知参数向量,并计算不同选择集中每个产品的选择概率。
在模型中,价格属性直接作为数量型变量,用实际测试话费价格赋值,“不选任何产品”的价格水平设定为测试价格的平均值=0.45元/分钟。