统计学第四贾俊平人大回归与时间序列stata
- 格式:docx
- 大小:1.36 MB
- 文档页数:40
第四章统计数据的概括性描述4.1 一家汽车零售店的10名销售人员5月份销售的汽车数量(单位:台)排序后如下:2 4 7 10 10 10 12 12 14 15要求:(1)计算汽车销售量的众数、中位数和平均数。
(2)根据定义公式计算四分位数。
(3)计算销售量的标准差。
(4)说明汽车销售量分布的特征。
解:(1)(2)(3)(4)说明汽车销售分部的特征答:10名销售人员的在5月份销售的汽车数量较为集中。
4.2 随机抽取25个网络用户,得到他们的年龄数据如下:单位:周岁19 15 29 25 2423 21 38 22 1830 20 19 19 1623 27 22 34 2441 20 31 17 23要求;(1)计算众数、中位数:1、排序形成单变量分值的频数分布和累计频数分布:网络用户的年龄从频数看出,众数Mo有两个:19、23;从累计频数看,中位数Me=23。
(2)根据定义公式计算四分位数。
Q1位置=25/4=6.25,因此Q1=19,Q3位置=3×25/4=18.75,因此Q3=27,或者,由于25和27都只有一个,因此Q3也可等于25+0.75×2=26.5。
(3)计算平均数和标准差;Mean=24.00;Std. Deviation=6.652(4)计算偏态系数和峰态系数:Skewness=1.080;Kurtosis=0.773(5)对网民年龄的分布特征进行综合分析:分布,均值=24、标准差=6.652、呈右偏分布。
如需看清楚分布形态,需要进行分组。
为分组情况下的直方图:为分组情况下的概率密度曲线:分组:1、确定组数:()l g 25l g ()1.3981115.64l g (2)l g 20.30103n K =+=+=+=,取k=62、确定组距:组距=( 最大值 - 最小值)÷ 组数=(41-15)÷6=4.3,取53、分组频数表网络用户的年龄 (Binned)分组后的直方图:4.3 某银行为缩短顾客到银行办理业务等待的时间。
统计学完整(贾俊平)人大课件ppt课件•引言•数据收集与整理•描述性统计分析目录•概率论基础•推断性统计分析•方差分析与回归分析•时间序列分析与预测•统计决策与风险管理目录•总结与展望01引言统计学是一门研究如何收集、整理、分析和解释数据的科学。
统计学的定义统计学的历史统计学的分支统计学的发展经历了古典统计学、近代统计学和现代统计学三个阶段。
统计学可以分为描述统计学和推断统计学两大分支。
030201统计学概述社会科学医学与健康工程与技术商业与经济统计学应用领域01020304在社会科学领域,统计学被广泛应用于调查研究、民意测验、市场分析等方面。
在医学和健康领域,统计学被用于临床试验、流行病学研究、健康风险评估等方面。
在工程和技术领域,统计学被用于质量控制、可靠性分析、信号处理等方面。
在商业和经济领域,统计学被用于市场分析、财务分析、经济预测等方面。
通过学习,学生应掌握统计学的基本概念和方法,包括数据收集、整理、描述和分析等方面的内容。
掌握统计学基本概念和方法具备数据处理和分析能力了解统计学的应用领域培养批判性思维学生应具备独立处理和分析数据的能力,能够运用适当的统计方法进行数据分析和解释。
学生应了解统计学的应用领域,能够运用所学知识解决实际问题。
学生应培养批判性思维,能够对统计结果进行合理的解释和评估。
学习目标与要求02数据收集与整理数据来源及类型数据来源包括原始数据和二手数据,原始数据是通过直接调查、实验或观察获得的数据;二手数据则是已经经过他人收集、整理和处理过的数据。
数据类型包括定性数据和定量数据,定性数据是描述性的、非数值的,如文字、图像等;定量数据则是可以用数值表示的,如年龄、收入等。
此外,还可以根据数据的测量尺度将其分为名义型数据、顺序型数据、间隔型数据和比率型数据。
调查法实验法观察法大数据收集数据收集方法通过问卷、访谈、电话调查等方式收集数据,可以获取大量的、详细的信息。
直接观察研究对象的行为、状态等,记录相关数据,适用于无法控制或干预的情况。
回归分析与时间序列一、一元线性回归11.1 (1)编辑数据集,命名为linehuigui1.dat输入命令scatter cost product,xlabel(#10, grid) ylabel(#10, grid),得到如下散点图,可以看到,产量和生产费用是正线性相关的关系。
(2)输入命令reg cost product,得到如下图:可得线性函数(product为自变量,cost为因变量):y=0.4206832x+124.15,即β0=124.15,β1=0.4206832(3)对相关系数的显著性进行检验,可输入命令pwcorr cost product, sig star(.05) print(.05),得到下图:可见,在α=0.05的显著性水平下,P=0.0000<α=0.05,故拒绝原假设,即产量和生产费用之间存在显著的正相关性。
11.2 (1)编辑数据集,命名为linehuigui2.dat输入命令scatter fenshu time,xlabel(#4, grid) ylabel(#4, grid),得到如下散点图,可以看到,分数和复习时间是正线性相关的关系。
2)输入命令cor fenshu time计算相关系数,得下图:可见,r=0.8621,可见分数和复习时间之间存在高度的正相关性。
11.3 (1)(2)对于线性回归方程y=10-0.5x,其中β0=10,表示回归直线的截距为10;β1=-0.5,表示x变化一单位引起y的变化为-0.5。
(3)x=6时,E(y)=10-0.5*6=7。
11.4 (1) ,判定系数 测度了回归直线对观测数据的拟合程度,即在分数的变差中,有90%可以由分数与复习时间之间的线性关系解释,或者说,在分数取值的变动中,有90%由复习时间决定。
可见,两者之间有很强的线性关系。
(2)估计标准误差 分,即根据复习时间来估计分数时,平均的估计误差为0.25分。
第13章时间序列分析和预测13.1 复习笔记一、时间序列及其分解1.时间序列(1)概念:时间序列是同一现象在不同时间上的相继观察值排列而成的序列,也称动态数列或时间数列。
(2)时间序列的两要素任何一个时间序列都具有两个基本要素:一是统计指标所属的时间,也称为时间变量;二是统计指标在特定时间的具体指标值。
(3)研究时间序列的目的①在编制时间序列的基础上,可以计算平均发展水平,进行动态水平分析;②可以计算各种速度指标,进行速度分析;③利用相关的数学模型,对现象的变动进行趋势分析。
2.时间序列的类型(1)平稳序列它是基本上不存在趋势的序列。
这类序列中的各观察值基本上都在某个固定的水平上波动,虽然在不同的时间段波动的程度不同,但并不存在某种规律,其波动可以看成是随机的。
(2)非平稳序列它是包含趋势、季节性或周期性的序列,它可能只含有其中的一种成分,也可能含有几种成分,因此非平稳序列可以分为有趋势的序列、有趋势和季节性的序列、几种成分混合而成的复合型序列。
3.时间序列的4种成分(1)趋势(T)也称长期趋势,它是时间序列在长时期内呈现出来的某种持续上升或持续下降的变动。
时间序列中的趋势可以是线性的,也可以是非线性的。
(2)季节性(S)也称季节变动,它是时间序列在一年内重复出现的周期性波动。
季节性中的“季节”一词是广义的,它不仅仅是指一年中的四季,其实是指任何一种周期性的变化。
(3)周期性(C)也称循环波动,它是时间序列中呈现出来的围绕长期趋势的一种波浪形或振荡式变动。
(4)随机性(I)也称不规则波动,它是时间序列中除去趋势、周期性和季节性之后的偶然性波动。
4.时间序列的分解模型将时间序列分解成长期趋势、季节变动、周期变动和随机变动四个因素后,可以认为时间序列Y t是这四个因素的函数,即Y t=f(T t,S t,C t,I t),其中较常用的是加法模型和乘法模型,其表现形式为:加法模型:Y t=T t+S t+C t+I t乘法模型:Y t=T t×S t×C t×I t注意:时间序列组合模型中包含了四种因素,这是时间序列的完备模式,但是并不是在每个时间序列中这四种因素都同时存在。
统计学第四版贾俊平人大-回归与时间序列stata————————————————————————————————作者:————————————————————————————————日期:回归分析与时间序列一、一元线性回归11.1 (1)编辑数据集,命名为linehuigui1.dat输入命令scatter cost product,xlabel(#10, grid) ylabel(#10, grid),得到如下散点图,可以看到,产量和生产费用是正线性相关的关系。
(2)输入命令reg cost product,得到如下图:可得线性函数(product为自变量,cost为因变量):y=0.4206832x+124.15,即β0=124.15,β1=0.4206832(3)对相关系数的显著性进行检验,可输入命令pwcorr cost product, sig star(.05) print(.05),得到下图:可见,在α=0.05的显著性水平下,P=0.0000<α=0.05,故拒绝原假设,即产量和生产费用之间存在显著的正相关性。
11.2 (1)编辑数据集,命名为linehuigui2.dat输入命令scatter fenshu time,xlabel(#4, grid) ylabel(#4, grid),得到如下散点图,可以看到,分数和复习时间是正线性相关的关系。
2)输入命令cor fenshu time计算相关系数,得下图:可见,r=0.8621,可见分数和复习时间之间存在高度的正相关性。
11.3 (1)(2)对于线性回归方程y=10-0.5x,其中β0=10,表示回归直线的截距为10;β1=-0.5,表示x变化一单位引起y的变化为-0.5。
(3)x=6时,E(y)=10-0.5*6=7。
11.4 (1),判定系数测度了回归直线对观测数据的拟合程度,即在分数的变差中,有90%可以由分数与复习时间之间的线性关系解释,或者说,在分数取值的变动中,有90%由复习时间决定。
可见,两者之间有很强的线性关系。
(2)估计标准误差分,即根据复习时间来估计分数时,平均的估计误差为0.25分。
11.5 (1)编辑数据集,命名为linehuigui3.dat输入命令scatter time juli,xlabel(#5, grid) ylabel(#5, grid),得到如下散点图,可以看到,时间和距离是正线性相关的关系。
(2)输入命令cor time juli计算相关系数,得下图:可见,r=0.9489,可见时间和距离之间存在高度的正相关性。
(3)输入命令reg time juli得到下图:可得线性函数(juli为自变量,time为因变量):y=0.0035851x+0.1181291,即β0=0.1181291,表示回归直线的截距为0.1181291;β1=0.0035851,表示距离(x)变化1km引起时间(y)的变化为0.0035851天。
11.6 (1)编辑数据集,命名为linehuigui4.dat输入命令scatter cspt GDP,xlabel(#3, grid) ylabel(#3, grid),得到如下散点图,可以看到,时间和距离是正线性相关的关系。
(2)输入命令cor cspt GDP计算相关系数,得下图:可见,r=0.9981,可见人均消费水平和人均GDP之间存在高度的正相关性。
(3)输入命令reg cspt GDP得到下图:可得线性函数(GDP为自变量,cspt为因变量):y=0.3086827x+734.6928,即β0=734.6928,表示回归直线的截距为734.6928;β1=0.3086827,表示人均GDP(x)变化1元引起人均消费水平(y)的变化为0.3086827元。
(4)由(3)得到的结果可得=0.9963,判定系数测度了回归直线对观测数据的拟合程度,即在人均消费水平的变差中,有99.63%可以由人均消费水平与人均GDP之间的线性关系解释,或者说,在人均消费水平取值的变动中,有99.63%由人均GDP决定。
可见,两者之间有很强的线性关系。
(5)由(3)得到的结果可得回归方程线性关系的F检验值1331.69对应的检验P值为0.0000<α=0.05,故拒绝原假设,即人均消费水平和人均GDP之间存在显著的正相关性。
(6)x=5000时,E(y)=0.3086827*5000+734.6928=2278.1063。
(7)x=5000时,输入命令predictnl PT=predict(xb),ci(lb ub) l(95),得到各人均GDP 水平下的置信区间,如下图:输入如下命令,得到置信区间和预测区间示意图:predict yhatpredict stdp, stdppredict stdf, stdfgenerate zl = yhat - invttail(5,0.025)*stdpgenerate zu= yhat + invttail(5,0.025)*stdpgenerate yl = yhat - invttail(5,0.025)*stdfgenerate yu = yhat + invttail(5,0.025)*stdftwoway (lfitci cspt GDP, level(95)) (scatter cspt GDP) (line zl zu yl yuGDP, pstyle(p2 p2 p3 p3) sort)取cspt=y,GDP=x,y0为x0=5000的预测值,x1为GDP平均值,x2=(x0-x1)^2,x3= sum((x-x1)^2),,y0=0.3086827*5000+734.6928=2278.1063,egen x1=mean(x),得到x1=12248.429,gen x2=(5000-12248.429)^2,得到x2=52539722.968,egen x3= sum((x-x1)^2),得到x3=854750849.7143display y0+2.7764*247.3*sqrt(1/7+x2/x3),得zu=2588.4671display y0-2.7764*247.3*sqrt(1/7+x2/x3),得zl=1967.7455display y0+2.7764*247.3*sqrt(1+1/7+x2/x3),得yu=3031.5972display y0+2.7764*247.3*sqrt(1+1/7+x2/x3),得yl= 1524.6154即人均GDP为5000元时,人均消费水平95%的置信区间为[1967.7455,2588.4671],预测区间为[1524.6154, 3031.5972]。
11.7 (1)编辑数据集,命名为linehuigui5.dat输入命令scatter cmplts percent,xlabel(#5, grid) ylabel(#5, grid),得到如下散点图,可以看到,时间和距离是负线性相关的关系。
(2)输入命令reg cmplts percent得到下图:可得线性函数(percent为自变量,cmplts为因变量):y=-4.700623x+430.1892,即β0=430.1892,表示回归直线的截距为430.1892;β1=-4.700623,表示航班正点率percent提高1%使投诉次数cmplts的减少-4.700623次。
(3)由(2)得到的结果可得回归系数检验的t值-4.96对应的P值为0.001<α=0.05,故拒绝原假设,即航班正点率percent是投诉次数cmplts的一个显著因素(或者输入test percent=0)。
(4)x=80时,E(y)=-4.700623*80+430.1892=54.13936次。
(5)x=80时,输入命令predictnl PT=predict(xb),ci(lb ub) l(95),得到各航班正点率水平下的置信区间,如下图:输入如下命令,得到置信区间和预测区间示意图:predict yhatpredict stdp, stdppredict stdf, stdfgenerate zl = yhat - invttail(8,0.025)*stdpgenerate zu= yhat + invttail(8,0.025)*stdpgenerate yl = yhat - invttail(8,0.025)*stdfgenerate yu = yhat + invttail(8,0.025)*stdftwoway (lfitci cmplts percent, level(95)) (scatter cmplts percent) (line zl zu yl yu percent, pstyle(p2 p2 p3 p3) sort)取cmplts=y,percent=x,y0为x0=80的预测值,x1为percent平均值,x2=(x0-x1)^2,x3= sum((x-x1)^2),,y0=-4.700623*80+430.1892=54.13936,egen x1=mean(x),得到x1=12248.429,gen x2=(80-75.86)^2,得到x2= 17.1396,egen x3= sum((x-x1)^2),得到x3=397.024display y0+2.3060*18.887*sqrt(1/10+x2/x3),得zu=70.619033display y0-2.3060*18.887*sqrt(1/10+x2/x3),得zl=37.659687display y0+2.3060*18.887*sqrt(1+1/10+x2/x3),得yu=100.7063display y0-2.3060*18.887*sqrt(1+1/10+x2/x3),得yl= 7.5724171即航班正点率为80%时,投诉次数的95%的置信区间为[37.659687,70.619033],预测区间为[7.5724171, 100.7063]。
11.8 (1)打开一张EXCEL表格,输入数据如下:(2)数据|分析|数据分析|回归,弹出回归对话框并设置如下:(3)单击“确定”得如下输出结果:SUMMARY OUTPUT回归统计Multiple R 0.79508R Square 0.632151Adjusted RSquare0.611715标准误差 2.685819观测值20方差分析df SS MS F SignificanceF回归分析 1 223.1403 223.1403 30.93318 2.79889E-05 残差18 129.8452 7.213622总计19 352.9855Coefficients 标准误差t Stat P-value Lower 95% Upper95%下限95.0%上限95.0%Intercept 49.31768 3.805016 12.96123 1.45E-10 41.32363505 57.31172 41.323635 57.31172 X Variable 1 0.249223 0.04481 5.561761 2.8E-05 0.155080305 0.343365 0.1550803 0.343365 Excel输出的回归结果包括以下几个部分:第一部分是“回归统计”,这部分给出了回归分析中的一些常用统计量,包括表中复相关系数Multiple R=0.79508,它是度量复相关程度的指标,取值[0,1]之间,取值越大,表明要素或变量之间的线性相关程度越密切;判定系数R Square=0.632151,表示有63.2151%的出租率可以由每平方米月租金之间的线性关系来解释;调整的决定系数Adjusted R Square=0.611715,表示调整后的判定系数使用了自由度为一个权重因子,即使解释变量增加,如果它与被解释变量无关,则调整后的判定系数不会增加会减少;标准误差,表示各测量值误差的平方的平均值的平方根,故又称为均方误差的平方根,在这里取2.685819(已验证,该值即为);观测值个数19。