第15章 SPSS回归分析与市场预测.
- 格式:doc
- 大小:512.00 KB
- 文档页数:17
第十五章 SPSS回归分析与市场预测市场营销活动中常常要用到市场预测。
市场预测就是运用科学的方法,对影响市场供求变化的诸因素进行调查研究,分析和预见其发展趋势,掌握市场供求变化的规律,为经营决策提供可靠的依据。
预测的目的是为了提高管理的科学水平,减少盲目的决策,通过预测来把握经济发展或者未来市场变化的有关动态,减少未来的不确定性,降低决策可能遇到的风险,进而使决策目标得以顺利实现。
回归分析是研究两个变量或多个变量之间因果关系的统计方法。
其基本思想是,在相关分析的基础上,对具有相关关系的两个或多个变量之间数量变化的一般关系进行测定,确立一个合适的数学模型,以便从一个已知量来推断另一个未知量。
15.1 回归分析概述相关回归分析预测法,是在分析市场现象自变量和因变量之间相关关系的基础上,建立变量之间的回归方程,并将回归方程作为预测模型,根据自变量在预测期的数量变化来预测因变量在预测期变化结果的预测方法。
根据市场现象所存在的相关关系,对它进行定量分析,从而达到对市场现象进行预测的目的,就是相关回归分析市场预测法。
相关回归分析市场预测法的种类:根据相关关系中自变量不同分类,有以下几种主要类型:1、一元相关回归分析市场预测法,也称简单相关回归分析市场预测法。
它是用相关回归分析法对一个自变量与一个因变量之间的相关关系进行分析,建立一元回归方程作为预测模型,对市场现象进行预测的方法。
2、多元相关回归市场预测法,也称复相关回归分析市场预测法。
它是用相关分析法对多个自变量与一个因变量之间的相关关系进行分析,建立多元回归方程作为预测模型,对市场现象进行预测的方法。
回归模型的建立步骤:1)做出散点图,观察变量间的趋势。
如果是多个变量,则还应当做出散点图矩阵、重叠散点图和三维散点图。
2)考察数据的分布,进行必要的预处理。
即分析变量的正态性、方差齐等问题。
并确定是否可以直接进行线性回归分析。
如果进行了变量变换,则应当重新绘制散点图,以确保线性趋势在变换后任然存在。
第15章SPSS在经济分析中的应用在经济分析中,要考虑经济现象的影响因素,通常需要从全面的角度考虑很多经济变量和指标,有时还需要构造变量体系,如何在这许多经济变量中抓住经济现象的主要影响因素,简化变量结构,变复杂为简单,同时保证结论的科学性,是经济分析中的一大挑战。
同时,经济变量和指标往往具有不同程度的相关性,即信息重叠,有时甚至是高度的相关性,在建立经济模型时,都必须要谨慎处理这种相关性,否则变量相关很可能导致错误的分析结论,如何排除变量相关性,得到合理的经济模型,是经济分析中另外一大挑战。
当然经济分析中还有其他的问题,例如变量的分布,变量的内生性和外生性等,此处就不再赘述了。
在经济分析中,因为要同时解决降维和消除相关性的问题,因此因子分析和主成分分析有很多应用。
当然,因子分析有时是作为一个中间过程,其结果(因子得分)再应用于其他统计分析模型,最终得到分析结果。
除了因子分析以外,SPSS还有许多应用,本章只是举出了3个案例用以说明在经济分析中应用SPSS应该注意的问题。
第一个案例应用SPSS的因子分析提取变量信息,在进行样本聚类,接着对每一分类拟合回归模型说明变量之间的关系;第二、三个例子都是首先运用因子分析,然后针对因子得分进行综合评价;相对而言第二个例子简单一些,而第三个案例由于进行了两层的因子分析,因此更复杂,结果更丰富。
这里需要专门讲讲综合评价,因为其在经济分析中有非常重要的地位。
综合评价法是运用多个指标对多个参评单位进行评价的方法,其基本思想是将多个指标转化为一个能够反映综合情况的指标来进行评价。
不同国家经济实力、不同地区社会发展水平、小康生活水平达标进程、企业经济效益评价等都可以使用综合评价。
综合评价评价过程不是逐个指标顺次完成的,而是通过一些特殊方法将多个指标的评价同时完成的;在综合评价过程中,一般要根据指标的重要性进行加权处理;评价结果不再是具有具体含义的统计指标,而是以指数或分值表示参评单位"综合状况"的排序。
使用SPSS进行市场调查数据分析的步骤第一章:准备调查数据市场调查数据的准备是进行数据分析的首要步骤。
在这一章节中,我们将讨论如何准备和收集市场调查数据,以便能够进行后续的分析。
1.1 确定调查目的和设计在进行市场调查之前,我们需要明确调查的目的和设计。
这包括确定调查的研究问题、调查对象、调查方式以及样本规模等。
只有明确了调查目的和设计,我们才能有针对性地收集和准备数据。
1.2 收集数据市场调查数据可以通过不同的方式收集,例如问卷调查、个人访谈、焦点小组讨论等。
在收集数据时,我们需要注意确保数据的可靠性和有效性。
因此,在设计问卷或进行访谈时,要保证问题的清晰明确,避免引导性问题和双重否定等。
1.3 数据录入和清洗收集到的市场调查数据需要进行录入和清洗。
数据录入可以通过手动输入或扫描问卷等方式进行。
在录入过程中,要检查数据的准确性,确保没有错误的输入。
清洗数据是指检查和处理数据中的不一致、缺失或异常值等问题,以便后续的分析能够得到可靠的结果。
第二章:数据探索与描述在进行数据分析之前,我们需要对数据进行探索和描述,以了解数据的特征和分布情况。
这有助于为后续的分析提供参考和依据。
2.1 描述性统计描述性统计是对数据进行总体和特征描述的统计方法。
我们可以计算数据的均值、中位数、方差、标准差等指标,来描述数据的集中趋势和离散程度。
此外,还可通过绘制直方图、箱线图等图表来展示数据的分布情况。
2.2 数据相关性分析在市场调查中,数据之间可能存在相关性。
为了了解变量之间的关系,我们可以使用相关系数进行分析。
通过计算相关系数,我们可以判断两个变量之间的线性相关程度,并绘制散点图来展示其关系。
2.3 分组分析市场调查数据通常包含多个变量,我们可以通过分组分析来探究变量之间的差异性。
比如,我们可以将样本分为不同的年龄组或性别组,分析不同群体在某个变量上的差异。
第三章:假设检验在市场调查数据分析中,经常需要进行假设检验来验证研究假设的成立。
SPSS回归分析实验⽬的:1、学会使⽤SPSS的简单操作。
2、掌握回归分析。
实验内容: 1.相关分析。
线性回归相关关系指⼀⼀对应的确定关系。
设有两个变量 x 和 y ,变量 y 随变量 x ⼀起变化,并完全依赖于 x ,当变量 x 取某个数值时, y 依确定的关系取相应的值,则称 y 是 x 的函数,记为 y = f (x),其中 x 称为⾃变量,y 称为因变量。
且各观测点落在⼀条线上。
2.回归分析,重点考察考察⼀个特定的变量(因变量),⽽把其他变量(⾃变量)看作是影响这⼀变量的因素,并通过适当的数学模型将变量间的关系表达出来利⽤样本数据建⽴模型的估计⽅程对模型进⾏显著性检验进⽽通过⼀个或⼏个⾃变量的取值来估计或预测因变量的取值。
3.逐步回归,将向前选择和向后剔除两种⽅法结合起来筛选⾃变量。
在增加了⼀个⾃变量后,它会对模型中所有的变量进⾏考察,看看有没有可能剔除某个⾃变量。
如果在增加了⼀个⾃变量后,前⾯增加的某个⾃变量对模型的贡献变得不显著,这个变量就会被剔除。
按照⽅法不停地增加变量并考虑剔除以前增加的变量的可能性,直⾄增加变量已经不能导致SSE显著减少在前⾯步骤中增加的⾃变量在后⾯的步骤中有可能被剔除,⽽在前⾯步骤中剔除的⾃变量在后⾯的步骤中也可能重新进⼊到模型中。
4.哑变量回归,也称虚拟变量。
⽤数字代码表⽰的定性⾃变量。
哑变量可有不同的⽔平。
哑变量的取值为0,1。
实验步骤:1. 相关分析SPSS操作,【分析】→【相关-双变量】,将各变量选⼊【变量】。
1 CORRELATIONS2 /VARIABLES=销售收⼊⼴告费⽤3 /PRINT=TWOTAIL NOSIG4 /MISSING=PAIRWISE.相关性分析 2.回归分析SPSS操作,【分析】→【回归-线性】,将因变量选⼊【因变量】,将⾃变量选⼊【⾃变量】。
需要预测时,【保存】→【预测值】,选中【未标准化】→【预测区间】,选中【均值】→【单值】→【置信区间】,选择置信⽔平。
回归分析在商品的需求量分析中的运用摘要:本文结合多元统计分析理论中关于多元线性回归分析的应用,对商品需求量与商品价格和人均月收入的关系的线性方程进行探索研究。
回归分析的基本思想是描述若干个变量间的统计关系,以研究一个或多个自变量与因变量之间的内在联系。
而回归分析研究又包括线性回归和非线性回归。
本文就是运用线性回归来分析商品需求量和商品价格,人均月收入之间的关系的。
关键词:线性回归线性方程商品需求量一.引言随着我国经济的快速发展,人们的物质生活条件越来越好,各种各样的商品出现在人们的日常生活中。
随着人们收入水平的不断变化,随着商品价格的不断变化,人们对某种商品的需求量也不同。
如果生产的商品量大于商品的需求量,则会导致资源浪费,商品的价格下降;反之如果商品的生产量少于商品的需求量,则会导致商品供应不足,价格上涨。
以上两种情况都会对经济发展造成不利的影响。
因此,对商品需求量的预测是必要的。
那么,应该如何预测商品的需求量呢?为此,本文在参阅相关文献的基础上,根据东方财富网所提供的某地1996~2995年10年间对某品牌的手表需求量和商品价格,人均月收入的数据采用线性回归的方法进行回归分析,并对模型进行检验,预测。
二.经济理论分析、所涉及的经济变量(1)经济理论分析:1.需求:是指在各种不同价格水平下,消费者愿意且能够购买的商品或服务的数量;2.需求与价格之间存在这需求规律,即“在其它条件不变的条件下,一种商品的价格上升会引起该商品的需求量减少,价格下降会引起该商品的需求量增多”;由此我们引出需求的价格弹性的概念,它是指需求量对价格变动的反应程度,是需求量变化的百分比除以价格变化 的百分比,即公式:价格变动率需求量变得率需求的价格弹性系数=3.同理,需求与收入的关系可以用需求的收入弹性分析,它表示某一商品的需求量对收入变化的反应程度,即公式: 收入变动率需求量变得率需求的收入弹性系数=(2)变量的设定:在经济生活中,我们不难发现价格和收入水平的高低对商品需求量有着直接且密切的影响,故所建立的模型是一个回归模型!其中“商品价格”与“消费者平均收入”分别是自变量x1、x2,“商品需求量”是因变量y 。
第十五章 SPSS回归分析与市场预测市场营销活动中常常要用到市场预测。
市场预测就是运用科学的方法,对影响市场供求变化的诸因素进行调查研究,分析和预见其发展趋势,掌握市场供求变化的规律,为经营决策提供可靠的依据。
预测的目的是为了提高管理的科学水平,减少盲目的决策,通过预测来把握经济发展或者未来市场变化的有关动态,减少未来的不确定性,降低决策可能遇到的风险,进而使决策目标得以顺利实现。
回归分析是研究两个变量或多个变量之间因果关系的统计方法。
其基本思想是,在相关分析的基础上,对具有相关关系的两个或多个变量之间数量变化的一般关系进行测定,确立一个合适的数学模型,以便从一个已知量来推断另一个未知量。
15.1 回归分析概述相关回归分析预测法,是在分析市场现象自变量和因变量之间相关关系的基础上,建立变量之间的回归方程,并将回归方程作为预测模型,根据自变量在预测期的数量变化来预测因变量在预测期变化结果的预测方法。
根据市场现象所存在的相关关系,对它进行定量分析,从而达到对市场现象进行预测的目的,就是相关回归分析市场预测法。
相关回归分析市场预测法的种类:根据相关关系中自变量不同分类,有以下几种主要类型:1、一元相关回归分析市场预测法,也称简单相关回归分析市场预测法。
它是用相关回归分析法对一个自变量与一个因变量之间的相关关系进行分析,建立一元回归方程作为预测模型,对市场现象进行预测的方法。
2、多元相关回归市场预测法,也称复相关回归分析市场预测法。
它是用相关分析法对多个自变量与一个因变量之间的相关关系进行分析,建立多元回归方程作为预测模型,对市场现象进行预测的方法。
回归模型的建立步骤:1)做出散点图,观察变量间的趋势。
如果是多个变量,则还应当做出散点图矩阵、重叠散点图和三维散点图。
2)考察数据的分布,进行必要的预处理。
即分析变量的正态性、方差齐等问题。
并确定是否可以直接进行线性回归分析。
如果进行了变量变换,则应当重新绘制散点图,以确保线性趋势在变换后任然存在。
3)进行直接先行回归,包括变量的初筛、变量选择方法的确定等。
4)残差分析。
这是模型拟合完毕后模型诊断过程的第一步,主要分析两大方面:残差间是否独立;残差分布是否为正态。
5)强影响点的诊断及多重共线性问题的判断。
这两个步骤和残差分析往往混在一起,难以完全分出先后。
15.2 回归分析熟练使用SPSS中的回归分析过程,对大量样本进行有效的回归分析,并根据回归分析的结果对市场行为进行预测。
在市场营销中我们可以根据回归方程判断顾客的满意度、商品的业务量以及他们的相关关系等。
进行简单回归分析对数据也有一定的要求,这里给出的是基本适用条件:1)线性趋势:自变量与因变量的关系是线性的,如果不是,则不能采用线性回归来分析。
这可以通过散点图来加以判断。
2)独立性:可表述为因变量y的取值相互独立,之间没有联系。
反应到模型中,实际上就是要求残差间相互独立,不存在自相关,否则应当采用自回归模型来分析。
3)正态性:就自变量的任何一个线性组合,因变量y均服从正太分布,反映到模型中,实际上就是要求残差服从正太分布。
4)方差齐性:就自变量的任何一个线性组合,因变量y的方差均相同,实质就是要求残差的方差齐性。
15.2.1 案例一问题要对中国电信业务总量的影响因素进行计量模型的分析,我们可以对1991年—1999年电信业务总量、邮政业务总量、中国人口数、市镇人口数、人均GDP 以及人均消费水平这六个指标进行回归并对市场进行预测。
根据回归的结果我们可以得出回归方程,根据回归方程利用往期的数据可以对电信业务总量进行预测。
15.2.2 案例一操作打开SPSS 20.0,在其窗口中选择菜单【文件】→【打开】→【数据】,打开(文件名称:Book\第十五章\中国电信业务总量.sav)数据表,文件包括年份(定序尺度)、电信业务总量、邮政业务总量等7个变量(定距尺度)。
选择【分析】→【回归】→【线性】,打开线性回归分析对话框。
在左侧变量框中选择“电信业务总量变量”将其移动到因变量列表下的方格中,将因素变量“邮政业务总量、中国人口数、市镇人口比重、人均GDP、人均消费水平”移动到自变量下的方格中,如图15-1所示。
图15-1 “线性回归”对话框方法(M)下拉框中设置解释变量进入模型的方法:1)进入:将所有变量全部引入模型中2)逐步:每一次按照向前筛选法的标准引入变量后,都要按照向后筛选法的标准对已经引入的所有变量进行检验,剔除掉由于新变量的引入而变得不再显著的变量。
3)删除:建立模型时,根据设定的条件剔除部分解释变量。
4)向前:与被解释变量有最大相关的变量首先进入方程,如果该解释变量没有通过 F 检验,则变量筛选过程结束,方程中没有引入任何变量;如果通过 F 检验,则在剩余的变量中寻找具有最大偏相关系数的变量,将其引入方程,并再次进行 F 检验,如果通过检验,则保留该变量在模型中,并继续寻找下一个候选变量,否则变量筛选过程结束,方程中仅有一个解释变量;依次类推,直至所有满足判据的变量都被引入到模型为止。
5)向后:与向前筛选法的顺序相反,向后筛选法首先将所有变量都引入模型,然后剔除最不显著的变量。
如果剩余变量都通过显著性检验,则变量筛选过程结束;否则按同样的标准继续剔除不显著的变量,直至剩余的解释变量都满足显著性检验为止。
单击“统计量”按钮,弹出“统计量”子对话框,该对话框用于设置要输出的统计量。
估计:输出有关回归系数的统计量,包括回归系数、回归系数的标准差、标准化的回归系数、t统计量及其对应的p值;模型拟合度:输出可决系数、调整的可决系数、回归方程的标准误差、回归方程F检验的方差分析;共线性检验:输出多重共线性分析结果;Durbin-Watson:输出Durbin-Watson检验统计量。
在此对话框中选择估计、模型拟合度、共线性诊断,如图15-2所示。
图15-2 “线性回归:统计量”子对话框单击“绘制”按钮,弹出绘制子对话框,该对话框主要用于利用图形对残差进行分析。
在此选中正态概率图复选框,对残差的正态性进行分析,如图15-3所示。
图15-3 “线性回归:图”子对话框单击“保存”按钮,弹出保存子对话框,如图15-4所示,该对话框用于设置将某些有用的分析结果保存到数据文件中,在此选择默认的选项。
图15-4 “线性回归:保存”子对话框单击“选项”按钮,弹出选项子对话框,步进方法标准:用于设置解释变量筛选的判定标准;在等式中包含常量:用于设置在模型中是否包含常数项,默认为在模型中包含常数项;缺失值:用于设置缺失值的处理方法。
在此选择默认选项,如图15-5所示。
图15-5 “线性回归:选项”子对话框单击“继续”按钮,返回线性回归主对话框,单击“确定”按钮,执行现行回归分析命令。
得到输出结果。
15.2.3 案例一结果分析表15-1给出了解释变量的筛选过程,根据此表,我们可以看出在本例中所有的解释变量均进入进行回归分析。
表15-1 解释变量筛选过程模型输入的变量移去的变量方法1 人均消费水平,市镇人口比重,邮政业务总量,中国人口数, 人均GDP b. 输入a. 因变量: 电信业务总量b. 已输入所有请求的变量。
表15-2和表15-3给出了回归模型拟合优度评价及方程的方差分析表,根据表15-2得出回归方程的拟合优度调整的R方为0.978,这个R方数值还是比较大的,大致可以认为回归方程有意义。
而表15-3是方程的方差分析表,根据此表看一看出回归方程的方差检验对应的p值为0.002小于0.05,说明该模型从整体上看是比较有意义。
表15-2 回归模型拟合优度评价模型R R 方调整 R 方标准估计的误差1 .996a.992 .978 1.47822a. 预测变量: (常量), 人均消费水平, 市镇人口比重, 邮政业务总量, 中国人口数, 人均GDP。
b. 因变量: 电信业务总量表15-3 方差分析表模型平方和df 均方 F Sig.1 回归794.319 5 158.864 72.703 .002b 残差 6.555 3 2.185总计800.874 8a. 因变量: 电信业务总量b. 预测变量: (常量), 人均消费水平, 市镇人口比重, 邮政业务总量, 中国人口数, 人均GDP。
从表15-4可以看出,引入模型的五个解释变量都没有通过t检验。
模型整体显著而单个系数均不能通过t检验,这正是解释变量之间存过多重共线性的常见特征。
观察表15-4中的容差和方差膨胀因子我们可以看出五个解释变量的容差都很小接近于0,但它们的VIF都很大,这进一步证实了解释变量之间存在严重的多重共线性。
1) 容忍度 (Tolerance) :某自变量的容忍度等于1减去以该自变量为反应变量,Independentω杠中选入的其他自变量为自变量所得到的线性回归模型的决定系数。
显然,容忍度越小,多重共线性越严重。
有学者提出,容忍度小于 0.1 时,存在严重的多重共线性。
2) 方差膨胀因子 (Varianceinflation factor , VIF): 等于容忍度的倒数。
显然,VIF 越大,多重共线性问题越大。
一般认为VIF不应大于5 ,对应容忍度的标准,也可放宽至不大于10 。
3) 特征根(Eigenvalue) :对模型中常数项及所有自变量计算主成分,如果自变量问存在较强的线性相关关系,则前面的几个主成分数值较大,而后面的几个主成分较小,甚至接近0。
4) 条件指数 (ConditionIndex):等于最大的主成分与当前主成分的比值的算术平方根。
所以第一个主成分相对应的条件指数总为1。
同样,如果几个条件指数较大(如大于30) ,则提示存在多重共线性。
表15-4 回归系数估计及其显著性检验系数a模型非标准化系数标准系数t Sig. 共线性统计量B 标准误差试用版容差VIF1 (常量) -124.504 456.294 -.273 .803邮政业务总量35.740 16.047 1.734 2.227 .112 .005 222.177 中国人口数16.970 47.309 .589 .359 .744 .001 987.365 市镇人口比重-300.267 390.878 -.426 -.768 .498 .009 112.937 人均GDP -5.317 9.898 -.951 -.537 .628 .001 1149.087 人均消费水平-.270 19.750 -.023 -.014 .990 .001 1057.707a. 因变量: 电信业务总量表15-5给出了方程解释变量的多重共线性诊断结果。
从特征根上看,最大的特征根远远大于其他特征根,后 4 个条件指数都大于 10,说明变量之间确实存在多重共线性问题。