应用商务统计-线性回归分析解析
- 格式:ppt
- 大小:1.09 MB
- 文档页数:56
106-商业数据分析之线性回归1、商业数据分析简介分析是一门使用数据构建模型的科学,这些模型可为公司、机构和个人的决策增加价值。
唯一客观的事实是数据。
模型的作用就是帮助我们从数据中挖掘有用的信息,以帮助管理者作出合理的决策。
大数据的特点(6V): VOLUME:数据量大,一般到PB级 VARIETY:数据类型多 VELOCITY:数据产生速度快 VARACITY:数据可信 VALUE:数据具有商业价值 VARIABILITY:具备使用和格式化大数据的方式结论:大数据分析能够赋予企业和个人强大的竞争优势;大数据分析对企业的成功至关重要。
2、线性回归2.1 基本假设(1)自变量相互线性独立;(2)常数方差或同方差及不相关假定;在此条件下可以得到关于回归系数的最小二乘估计及误差的方差估计的一些重要性质,如回归系数的最小二乘估计是回归系数的最小方差线性无偏估计等。
(3)正态分布假定;在此条件下可得到关于回归系数的最小二乘估计及误差的方差估计的进一步结果,如它们分别是回归系数的最小方差无偏估计等,并且可以进行回归系数的显著性检验及区间估计。
2.2回归系数的估计估计参数的方法有最小二乘法。
2.3回归系数的计算梯度下降法:通过迭代方式逐步得到最优的结果。
2.4模型的评价除了受自变量x的影响外,因变量y还受许多其他变量的影响,这些其他变量统称为残差变量,残差变量包含了除x以外其他所有变量对y的效应。
总平方和=回归平方和+残差平方和使用回归平方和占总平方和的比值来反映自变量x对因变量y的解释能力,这就是判定系数R2、判定系数R2说明自变量x相对于其他变量(残差变量)来说对因变量y的影响有多重要,而且说明了这些点离回归直线越近,残差平方和越小。
2.5模型的参数检验由于抽样的随机性,通过样本得到的回归系数会与真实值有一定的差距。
要将样本数据得到的结论推广到总体,需要通过检验总体中因变量y和自变量x之间没有相关性的零假设来实现。
▪▪相关关系检验Correlation相关性检验确定性关系或函数关系y=f(x)变基本思想(x,y)Regression AnalysisSimple Linear Regression Model The population regression model:简单线性回归方程(线性回归模型假设)Slope and the Intercept实例1232425 Regression StatisticsResidual813665.56521708.1957Total932600.5000Coefficients Standard Error t Stat P-value Lower 95%Upper 95% Intercept98.2483358.03348 1.692960.12892-35.57720232.07386 Square Feet0.109770.03297 3.329380.010390.033740.18580Regression26Intercept, b028Slope Coefficient, b1YCoefficient of Determination(判定系数)R ▪r Valuesr Values r ValuesRegression Statistics0.03374(回归方程的估计误差)Regression Statistics0.03374Inferences About the Regression Model (回归系数的误差)Regression Statistics0.03374Comparing Standard Errors ofthe Slope(回归系数的显著性检验)▪t Test46t Test Example t Test Examplet Test ExampleConfidence Interval Estimate for the Slope (回归系数的区间估计)Confidence Interval Estimate of the Slope:for the SlopeRegression Statistics0.03374Regression Analysis56When using a regression model for prediction, Predicting Individual Valuesthe Average Y, Given X an Individual Y, Given XExampleConfidence Interval Estimate for E(YEstimation of Individual Values:Example测量股票市场风险Regression63(总体多元回归模型)Two variable modelAssumptions(假设前提)Assumptions2 Independent Variables ▪Regression StatisticsCoefficient of Determination, R Regression Statisticse Regression StatisticsAdjusted Coefficient of Determination(调整系数)R▪RDetermination,RUsed to correct for the fact that adding non-relevantRegression StatisticsCorrelation ▪Evaluating Individual Regression Coefficients Regression CoefficientsRegression Coefficients(实例3)Regression StatisticsRegression Coefficientsfor the SlopeConfidence interval limits for the population slope for the Slope(回归系数区间估计)(实例3)F-Test for Overall Significance of the ModelF-Test for Overall Significance Test statistic:Regression StatisticsGiven a population regression modelPredictions(实例3)Residuals in Multiple Regression Two variable model▪Model form:二阶回归估计方程的检验。
利用回归分析法预测店铺销售额回归分析法通常适用于那些超过20家连锁店的连锁企业来分析商圈的潜在需求量的情况。
虽然它使用的逻辑与类比分析法有些相似,但它是根据统计数据而非主观判断来预测新店的销售额的。
其最初的步骤与类比分析法相同,后来就与类比分析法不一样了。
它并不是通过店址分析员的主观经验来比较现有和潜在销售点的特征,而是采用了一个数据等式方法来解决问题。
步骤一: 选择合适的衡量指标和变量。
用来预测销售业绩的变量包括人口统计数据和每个店铺商圈的消费者生活习惯、商业环境、商店形象、物业条件、竞争状况等多种因素。
店铺形态不同,则变量也不同。
例如,在预测一家新的珠宝首饰店的销售额时,家庭收入可能是一个重要的因素,而在预测麦当劳店的销售额时,每个家庭的学龄儿童数将是一个合适的指标。
步骤二: 解这个回归方程,并用结果预测新销售点的业绩。
店铺业绩衡量指标和预测变量数据将被用于回归方程的计算。
回归分析的结论是一个方程式,方程式的变量已被指定。
下面用一个简单的例子来说明回归分析过程。
表1提供了10个假设的家居用品店的数据(这个例子已被大大简化了。
因为回归分析至少需要20家店铺。
而且,例子中只使用了一个变量: 3000米距离内的人口数。
通常分析会同时使用若千个预测变量)。
表1 10个家居用品店的年销售额、周围3000米内的人口数我们可以根据表1-5中的年销售额和人口数据描绘回归线,回归线可以根据最能体现销售额和人口关系的点描绘出来,具体而言,回归线是根据数值来划分的,这样就可以使每个点到回归线的距离的平方值最小,这些点距高回归线越近,则销售额预测就越准。
通过这条回归线,可以发现销售额随人口的增长而增长。
假设距离商店0~3000米范围内的人数为40000人。
为了估算销售额,可以从横轴上标40000人处引出一条垂直线与回归线相交,从交点处画出一条与横轴平行的线,与纵轴相交,则可得到预计销售额为366 万美元。
回归线是根据下列方程式推导出的:销售额=a+b1x1式中,a--回归模型中的一个常量,a也是回归线与纵轴交点;b1--回归模型中表示销售额与预测变量间关系的一个系数,也是这条回归线的斜率;x1--预测变量(0-3000 米范国内的人口数) 。