当前位置:文档之家› 统计学第四版贾俊平人大_回归与时间序列stata

统计学第四版贾俊平人大_回归与时间序列stata

统计学第四版贾俊平人大_回归与时间序列stata
统计学第四版贾俊平人大_回归与时间序列stata

回归分析与时间序列

一、一元线性回归

11.1 (1)编辑数据集,命名为linehuigui1.dat

输入命令scatter cost product,xlabel(#10, grid) ylabel(#10, grid),得到如下散点图,可以看到,产量和生产费用是正线性相关的关系。

(2)输入命令reg cost product,得到如下图:

可得线性函数(product为自变量,cost为因变量):y=0.4206832x+124.15,即β0=124.15,β1=0.4206832

(3)对相关系数的显著性进行检验,可输入命令pwcorr cost product, sig star(.05) print(.05),得到下图:

可见,在α=0.05的显著性水平下,P=0.0000<α=0.05,故拒绝原假设,即产量和生产费用之间存在显著的正相关性。

11.2 (1)编辑数据集,命名为linehuigui2.dat

输入命令scatter fenshu time,xlabel(#4, grid) ylabel(#4, grid),得到如下散点图,可以看到,分数和复习时间是正线性相关的关系。

2)输入命令cor fenshu time计算相关系数,得下图:

可见,r=0.8621,可见分数和复习时间之间存在高度的正相关性。

11.3 (1)(2)对于线性回归方程y=10-0.5x,其中β0=10,表示回归直线的截距为10;β1=-0.5,表示x变化一单位引起y的变化为-0.5。

(3)x=6时,E(y)=10-0.5*6=7。

11.4 (1) ,判定系数 测度了回归直线对观测数据的拟合程度,即在分数的变差中,有90%可以由分数与复习时间之间的线性关系解释,或者说,在分数取值的变动中,

有90%由复习时间决定。可见,两者之间有很强的线性关系。

(2)估计标准误差 分,即根据复习时间来估计分数时,平均的估计误差为0.25分。

11.5 (1)编辑数据集,命名为linehuigui3.dat

输入命令scatter time juli,xlabel(#5, grid) ylabel(#5, grid),得到如下散点图,可以看到,时间和距离是正线性相关的关系。

(2)输入命令cor time juli计算相关系数,得下图:

可见,r=0.9489,可见时间和距离之间存在高度的正相关性。

(3)输入命令reg time juli得到下图:

可得线性函数(juli为自变量,time为因变量):y=0.0035851x+0.1181291,即β0=0.1181291,表示回归直线的截距为0.1181291;β1=0.0035851,表示距离(x)变化1km引起时间(y)的变化为0.0035851天。

11.6 (1)编辑数据集,命名为linehuigui4.dat

输入命令scatter cspt GDP,xlabel(#3, grid) ylabel(#3, grid),得到如下散点图,可以看到,时间和距离是正线性相关的关系。

(2)输入命令cor cspt GDP计算相关系数,得下图:

可见,r=0.9981,可见人均消费水平和人均GDP之间存在高度的正相关性。

(3)输入命令reg cspt GDP得到下图:

可得线性函数(GDP为自变量,cspt为因变量):y=0.3086827x+734.6928,即β0=734.6928,表示回归直线的截距为734.6928;β1=0.3086827,表示人均GDP(x)变化1元引起人均消费水平(y)的变化为0.3086827元。

(4)由(3)得到的结果可得 =0.9963,判定系数 测度了回归直线对观测数据的拟合程度,即在人均消费水平的变差中,有99.63%可以由人均消费水平与人均GDP之间的线性关系解释,或者说,在人均消费水平取值的变动中,有99.63%由人均GDP决定。可见,两者之间有很强的线性关系。

(5)由(3)得到的结果可得回归方程线性关系的F检验值1331.69对应的检验P值为0.0000<α=0.05,故拒绝原假设,即人均消费水平和人均GDP之间存在显著的正相关性。(6)x=5000时,E(y)=0.3086827*5000+734.6928=2278.1063。

(7)x=5000时,输入命令predictnl PT=predict(xb),ci(lb ub) l(95),得到各人均GDP 水平下的置信区间,如下图:

输入如下命令,得到置信区间和预测区间示意图:

predict yhat

predict stdp, stdp

predict stdf, stdf

generate zl = yhat - invttail(5,0.025)*stdp

generate zu= yhat + invttail(5,0.025)*stdp

generate yl = yhat - invttail(5,0.025)*stdf

generate yu = yhat + invttail(5,0.025)*stdf

twoway (lfitci cspt GDP, level(95)) (scatter cspt GDP) (line zl zu yl yu GDP, pstyle(p2 p2 p3 p3) sort)

取cspt=y,GDP=x,y0为x0=5000的预测值,x1为GDP平均值,x2=(x0-x1)^2,x3= sum((x-x1)^2)

,,

y0=0.3086827*5000+734.6928=2278.1063,

egen x1=mean(x),得到x1=12248.429,

gen x2=(5000-12248.429)^2,得到x2=52539722.968,

egen x3= sum((x-x1)^2),得到x3=854750849.7143

display y0+2.7764*247.3*sqrt(1/7+x2/x3),得zu=2588.4671

display y0-2.7764*247.3*sqrt(1/7+x2/x3),得zl=1967.7455

display y0+2.7764*247.3*sqrt(1+1/7+x2/x3),得yu=3031.5972

display y0+2.7764*247.3*sqrt(1+1/7+x2/x3),得yl= 1524.6154

即人均GDP为5000元时,人均消费水平95%的置信区间为[1967.7455,2588.4671],预测区间为[1524.6154, 3031.5972]。

11.7 (1)编辑数据集,命名为linehuigui5.dat

输入命令scatter cmplts percent,xlabel(#5, grid) ylabel(#5, grid),得到如下散点图,可以看到,时间和距离是负线性相关的关系。

(2)输入命令reg cmplts percent得到下图:

可得线性函数(percent为自变量,cmplts为因变量):y=-4.700623x+430.1892,即β0=430.1892,表示回归直线的截距为430.1892;β1=-4.700623,表示航班正点率percent 提高1%使投诉次数cmplts的减少-4.700623次。

(3)由(2)得到的结果可得回归系数检验的t值-4.96对应的P值为0.001<α=0.05,故拒绝原假设,即航班正点率percent是投诉次数cmplts的一个显著因素(或者输入test percent=0)。

(4)x=80时,E(y)=-4.700623*80+430.1892=54.13936次。

(5)x=80时,输入命令predictnl PT=predict(xb),ci(lb ub) l(95),得到各航班正点率水平下的置信区间,如下图:

输入如下命令,得到置信区间和预测区间示意图:

predict yhat

predict stdp, stdp

predict stdf, stdf

generate zl = yhat - invttail(8,0.025)*stdp

generate zu= yhat + invttail(8,0.025)*stdp

generate yl = yhat - invttail(8,0.025)*stdf

generate yu = yhat + invttail(8,0.025)*stdf

twoway (lfitci cmplts percent, level(95)) (scatter cmplts percent) (line zl zu yl yu percent, pstyle(p2 p2 p3 p3) sort)

取cmplts=y,percent=x,y0为x0=80的预测值,x1为percent平均值,x2=(x0-x1)^2,x3= sum((x-x1)^2)

,,

y0=-4.700623*80+430.1892=54.13936,

egen x1=mean(x),得到x1=12248.429,

gen x2=(80-75.86)^2,得到x2= 17.1396,

egen x3= sum((x-x1)^2),得到x3=397.024

display y0+2.3060*18.887*sqrt(1/10+x2/x3),得zu=70.619033

display y0-2.3060*18.887*sqrt(1/10+x2/x3),得zl=37.659687

display y0+2.3060*18.887*sqrt(1+1/10+x2/x3),得yu=100.7063

display y0-2.3060*18.887*sqrt(1+1/10+x2/x3),得yl= 7.5724171

即航班正点率为80%时,投诉次数的95%的置信区间为[37.659687,70.619033],预测区间为[7.5724171, 100.7063]。

11.8 (1)打开一张EXCEL表格,输入数据如下:

(2)数据|分析|数据分析|回归,弹出回归对话框并设置如下:

(3)单击“确定”得如下输出结果:

SUMMARY OUTPUT

回归统计

Multiple R 0.79508 R Square 0.632151 Adjusted R

Square

0.611715 标准误差 2.685819 观测值20 方差分析

df SS MS F Significance

F

回归分析 1 223.1403 223.1403 30.93318 2.79889E-05 残差18 129.8452 7.213622

总计19 352.9855

Coefficients 标准误差t Stat P-value Lower 95% Upper

95%

下限

95.0%

上限

95.0%

Intercept 49.31768 3.805016 12.96123 1.45E-10 41.32363505 57.31172 41.323635 57.31172 X Variable 1 0.249223 0.04481 5.561761 2.8E-05 0.155080305 0.343365 0.1550803 0.343365 Excel输出的回归结果包括以下几个部分:

第一部分是“回归统计”,这部分给出了回归分析中的一些常用统计量,

包括表中复相关系数Multiple R=0.79508,它是度量复相关程度的指标,取值[0,1]之间,

取值越大,表明要素或变量之间的线性相关程度越密切;

判定系数R Square=0.632151,表示有63.2151%的出租率可以由每平方米月租金之间的线性

关系来解释;

调整的决定系数Adjusted R Square=0.611715,表示调整后的判定系数使用了自由度为一

个权重因子,即使解释变量增加,如果它与被解释变量无关,则调整后的判定系数不会增加

会减少;

标准误差,表示各测量值误差的平方的平均值的平方根,故又称为均方误差的平方根,在这

里取2.685819(已验证,该值即为 );

观测值个数19。

第二部分是“方差分析”,这部分给出的是回归分析的方差分析表,包括自由度df、回归平

方和SSR=223.1403、残差平方和SSE=129.8452、总平方和SST=352.9855、回归的均方根

223.1403、残差的均方根MSE=7.213622;

检验统计量 ;F检验的显著性水平Significance F=2.79889E-05,用于线性关

系的显著性检验,说明两个变量之间的线性是否显著;

第三部分是参数估计的有关内容。包括

回归方程的截距β0=49.31768;

斜率β1=0.249223,表示月租金变化1元引起的出租率变化24.9223%;

截距的标准误差3.805016,斜率的标准误差0.04481;

用于回归系数检验的t统计量及对应的P值,说明回归系数的显著性,即月租金和出租率两者之间是否有显著关系;

截距和斜率的置信区间[Lower 95%, Upper 95%]。

11.9 (1)方差分析表

方差分

df SS MS F Significance

F

回归分

1 1602708.6 1602708.6 399.1 2.17E-09 残差10 40158.07 4015.807

总计11 1642866.67

(2) ,即汽车销售量的变差中有97.556%由广告费用的变动引起。

(3)汽车销售量与广告费用的相关系数 ,表明汽车销售量与广告费用有高度的相关性。

(4)由题意得,y=1.420211x+363.6891。β0=363.6891,表示回归直线的截距为363.6891;β1=1.420211,表示广告费用提高1单位使汽车销售量改变1.420211单位。

(5)线性关系显著性检验的

,其对应的P= Significance F= 0.00000000217<0.05,故拒绝原假设,即汽车销售量与广告费用之间的线性关系显著。

11.10 (1)编辑数据集,命名为linehuigui7.dat

输入命令scatter y x,得到如下散点图,可以看到,y和x是负线性相关的关系。

(2)输入命令reg y x得到下图:

可得线性函数:y=2.302932x+13.62541,即β0=13.62541,表示回归直线的截距为13.62541;β1=2.302932,表示x变化1单位使使y变化2.302932单位。

(3)输入predict yhat

gen e=x-yhat

得到残差e,见下图:

由(2)的结果可得,判定系数 ,即y的变差93.73%由x引起,y和x之间有较强的线性关系;

估计标准误差 ;

由于 ,y和x之间有较强的线性关系,直线拟合得较好。

11.11 (1) ;

(2) ;

(3)由 ,故拒绝原假设;

(4) ;

(5)由(3)知,x与y之间有显著的线性关系。

11.12 由题意得,12取y0为x0=4的预测值,x1为x平均值, x2=(x0-x1)^2,x3= sum((x-x1)^2)

,,

y0=3*4+5=17,

x1=2,

x2=4,

x3= 20

display 17+2.1009*1.0*sqrt(1/20+4/20),得zu= 18.05045

display 17-2.1009*1.0*sqrt(1/20+4/20),得zl= 15.94955

display 17+2.1009*1.0*sqrt(1+1/20+4/20),得yu= 19.348878

display 17-2.1009*1.0*sqrt(1+1/20+4/20),得yl= 14.651122

即x为4元时,y的95%的置信区间为[15.94955, 18.05045],预测区间为[14.651122, 19.348878]。

11.13 (1)编辑数据集,命名为linehuigui8.dat

输入命令scatter y x,得到如下散点图,可以看到,y和x是负线性相关的关系。

(2)输入命令reg y x得到下图:

可得线性函数:y=15.23977x-46.29181,即β0=-46.29181,表示回归直线的截距为-46.29181;β1=15.23977,表示x变化1单位使使y变化15.23977单位。

(3)输入如下命令,得到置信区间示意图:

predict yhat

predict stdp, stdp

generate zl = yhat - invttail(20,0.025)*stdp

generate zu= yhat + invttail(20,0.025)*stdp

twoway (lfitci y x, level(95)) (scatter y x) (line zl zu x, pstyle(p2 p2 p3 p3) sort)

取y0为x0=40的预测值,x1为x平均值,x2=(x0-x1)^2,x3= sum((x-x1)^2)

,,

y0=15.23977*40-46.29181=563.29899,

egen x1=mean(x),得到x1=24.9375,

gen x2=(40-24.9375)^2,得到x2= 226.87890625,

egen x3= sum((x-x1)^2),得到x3=2692.11875

display y0+2.4469**sqrt(1/8+x2/x3),得zu=685.04208

display y0-2.4469**sqrt(1/8+x2/x3),得zl=441.5559

即x为40元时,y的95%的置信区间为[441.5559,685.04208]。

11.14 编辑数据集,命名为linehuigui9.dat

输入命令scatter e1 v1得图:

可见对所有的x值,ε的方差都相同,假定的描述变量x和y之间的关系模型是合理的,该残差图对应的模型是满意的模式;

输入命令scatter e2 v4得图:

可见该残差图对应的模型不合适,应考虑曲线回归或多元回归模型。

11.15 (1)编辑数据集,命名为linehuigui10.dat

输入命令scatter y x,得到如下散点图,可以看到,销售额和广告费用是正线性相关的关系。

输入命令reg y x得到下图:

可得线性函数:y=1.547478x+29.39911,即β0=29.39911,表示回归直线的截距为29.39911;β1=1.547478,表示广告支出费用提高1万元使销售额提高1.547478万元。

(2)由(1)得到的结果可得回归方程线性关系的F检验值11.15对应的检验P值为0.0206<α=0.05,故拒绝原假设,即销售额和广告费用之间存在显著的正相关性。

(3)输入predict yhat

gen e=y-yhat

scatter e x

输入gen z= e/7.8775

scatter z x

得到标准化残差图如下:

可见标准化残差都在-2到2之间,对所有的x值,ε的方差都相同,假定的描述变量x和y之间的关系模型是合理的,该残差图对应的模型是满意的模式。

(4)由(3)知虽然爱关于误差项ε的假设被满足了,可是通过散点图的走势可以发现,如果用指数型曲线模拟效果会更好。

11.16 (1)编辑数据集,命名为linehuigui11.dat

输入命令scatter y x,得到如下散点图,可以看到,销售量和广告费用是正线性相关的关系。

输入命令reg y x得到下图:

可得线性函数:y=0.1958404x+4.068466,即β0=4.068466,表示回归直线的截距为4.068466;β1=0.1958404,表示广告支出费用提高1万元使销售量提高0.1958404万箱。

(2)输入predict yhat

gen e=y-yhat

scatter e x

得到残差图如下

输入gen z= e/7.8775

scatter z x

得到标准化残差图如下:

可见标准化残差都在-2到2之间,对所有的x值,ε的方差都相同,假定的描述变量x和y之间的关系模型是合理的,该残差图对应的模型是满意的模式。

最后一点(120.0,36.3)对应的标准化残差较大,接近 ,该点为异常点。

取x1为x平均值,x2=(x-x1)^2,x3= sum((x-x1)^2)

egen x1=mean(x),得到x1=40.5,

gen x2=(x-x1)^2,

egen x3= sum((x-x1)^2),得到x3=19176.64

gen x4=1/10+ x2/x3

gen x5=1/10

gen x6=x4-x5

scatter x6 x

由上图可知,倒数最大的一个点(120.0,36.3)具有高杠杆率,该点是有影响的观测值。(3)有影响的观测值不一定是一个异常值。

二、多元线性回归

12.1(1)编辑数据集,命名为mlinehuigui1.dat

输入命令reg y x1 x2得到下图:

可得线性函数:y=-0.0497143x1+1.928169x2+25.0287。

当x1=200,x2=7时,y=-0.0497143*200+1.928169*7+25.0287=28.583023。

12.2 模型涉及3个变量,45个观察值;

回归方程y=657.0534-0.416917x1-3.471481x2;

其中Significance F=0.002724<0.05,故y与x1和x2之间的线性关系显著;

S e=109.429596,即根据所建立的多元回归方程进行预测是,平均的预测误差为109.429596;R2=0.709650,即y的变差中,能由x1和x2解释的比例为70.9650%;

=0.630463,即在用样本量和模型中的自变量的个数调整后,在y的变差中,能由x1和x2解释的比例为63.0463%。

12.3 (1) ,又 ,则 >F,故拒绝原假设,则y与x1和x2之间的线性关系显著;

(2)由于 ,故 ,,而 ,故 ,所以拒绝原假设,即回归方程的系数显著。

12.4 (1)编辑数据集,命名为mlinehuigui2.dat

输入命令reg y x1得到下图:

可得线性函数:y=1.603865x1+88.63768。

(2)reg y x1 x2

可得线性函数:y=2.290184x1+1.300989x2+83.23009。

(3)由(1)(2)可见,电视广告费用的系数不同。

对(1)中, =1.603865,电视广告费用每增加1万元,月销售收入增加1.603865万元;对(2)中, =2.290184,在报纸广告费用不变的情况下,电视广告费用每增加1万元,月销售收入增加2.290184。

(4)由(2)得到的结果可以看出,R2=0.9190,即销售收入的变差中,被估计的回归方程所解释的比例为91.90%。

(5)由(2)得到的结果可以看出, =7.53, =4.06,而 ,则 ,所以拒绝原假设,即回归方程的系数显著。

12.5编辑数据集,命名为mlinehuigui3.dat

输入命令reg y x1 x2得到下图:

可得线性函数:y=22.38646x1+327.6717x2-0.5909962。

(2)对(1)中, =22.38646,在温度不变的情况下,降雨量每增加1mm,收获量增加22.38646kg/hm2;

对(2)中,=2.290184,在降雨量不变的情况下,温度每增加1℃,收获量增加327.6717kg/hm2。(3)输入cor y x1 x2,得到y,x1,x2之间的相关系数,如下图:

可见,各变量之间是显著相关的,意味着回归模型中的2个变量之间存在多重共线性。另一方面也可以说明:由(1)得到的结果可见,回归模型的线性关系是显著的,而x1的回归系数没有通过检验。

12.6 (1)编辑数据集,命名为mlinehuigui4.dat

输入命令reg y x1 x2 x3得到下图:

统计学课后练习题答案人大第四版

第三章节:数据的图表展示 (1) 第四章节:数据的概括性度量 (15) 第六章节:统计量及其抽样分布 (26) 第七章节:参数估计....................................................... (28) 第八章节:假设检验........................................................ (38) 第九章节:列联分析........................................................ (41) 第十章节:方差分析........................................................ (43) 3.1 为评价家电行业售后服务的质量,随机抽取了由100个家庭构成的一个样本。服务质量的等级分别表示为:A.好;B.较好;C一般;D.较差;E.差。调查结果如下: B E C C A D C B A E D A C B C D E C E E A D B C C A E D C B B A C D E A B D D C C B C E D B C C B C D A C B C D E C E B B E C C A D C B A E B A C E E A B D D C A D B C C A E D C B C B C E D B C C B C 要求: (1)指出上面的数据属于什么类型。 顺序数据 (2)用Excel制作一张频数分布表。 用数据分析——直方图制作: 接收频率 E16 D17 C32 B21 A14 (3)绘制一张条形图,反映评价等级的分布。 用数据分析——直方图制作: (4)绘制评价等级的帕累托图。 逆序排序后,制作累计频数分布表:

统计学第四版贾俊平人大-回归与时间序列stata

回归分析与时间序列 一、一元线性回归 11.1 (1)编辑数据集,命名为linehuigui1.dat 输入命令scatter cost product,xlabel(#10, grid) ylabel(#10, grid),得到如下散点图,可以看到,产量和生产费用是正线性相关的关系。 (2)输入命令reg cost product,得到如下图: 可得线性函数(product为自变量,cost为因变量):y=0.4206832x+124.15,即β0=124.15,β1=0.4206832 (3)对相关系数的显著性进行检验,可输入命令pwcorr cost product, sig star(.05) print(.05),得到下图:

可见,在α=0.05的显著性水平下,P=0.0000<α=0.05,故拒绝原假设,即产量和生产费用之间存在显著的正相关性。 11.2 (1)编辑数据集,命名为linehuigui2.dat 输入命令scatter fenshu time,xlabel(#4, grid) ylabel(#4, grid),得到如下散点图,可以看到,分数和复习时间是正线性相关的关系。 2)输入命令cor fenshu time计算相关系数,得下图: 可见,r=0.8621,可见分数和复习时间之间存在高度的正相关性。 11.3 (1)(2)对于线性回归方程y=10-0.5x,其中β0=10,表示回归直线的截距为10;β1=-0.5,表示x变化一单位引起y的变化为-0.5。 (3)x=6时,E(y)=10-0.5*6=7。 11.4 (1),判定系数测度了回归直线对观测数据的拟

统计学第四版答案(贾俊平)知识分享

统计学第四版答案(贾 俊平)

请举出统计应用的几个例子: 1、用统计识别作者:对于存在争议的论文,通过统计量推出作者 2、用统计量得到一个重要发现:在不同海域鳗鱼脊椎骨数量变化不大,推断所有各个不同海域内的鳗鱼是由海洋中某公共场所繁殖的 3、挑战者航天飞机失事预测 请举出应用统计的几个领域: 1、在企业发展战略中的应用 2、在产品质量管理中的应用 3、在市场研究中的应用④在财务分析中的应用⑤在经济预测中的应用 你怎么理解统计的研究内容: 1、统计学研究的基本内容包括统计对象、统计方法和统计规律。 2、统计对象就是统计研究的课题,称谓统计总体。 3、统计研究方法主要有大量观察法、数量分析法、抽样推断法、实验法等。④统计规律就是通过大量观察和综合分析所揭示的用数量指标反映的客观现象的本质特征和发展规律。 举例说明分类变量、顺序变量和数值变量: 分类变量:表现为不同类别的变量称为分类变量,如“性别”表现为“男”或“女”,“企业所属的行业”表现为“制造业”、“零售业”、“旅游业”等,“学生所在的学院”可能是“商学院”、“法学院”等 顺序变量:如果类别有一定的顺序,这样的分类变量称为顺序变量,如考试成绩按等级分为优、良、中、及格、不及格,一个人对事物的态度分为赞成、中立、反对。这里的“考试成绩等级”、“态度”等就是顺序变量。

数值变量:可以用数字记录其观察结果,这样的变量称为数值变量,如“企业销售额”、“生活费支出”、“掷一枚骰子出现的点数”。 定性数据和定量数据的图示方法各有哪些: 1、定性数据的图示:条形图、帕累托图、饼图、环形图 2、定量数据的图示: a、分组数据看分布:直方图 b、未分组数据看分布:茎叶图、箱线图、垂线图、误差图 c、两个变量间的关系:散点图 d、比较多个样本的相似性:雷达图和轮廓图 直方图与条形图有何区别: 1、条形图中的每一个矩形表示一个类别,其宽度没有意义,而直方图的宽度则表示各组的组距。 2、由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列。 3、条形图主要用于展示定性数据,而直方图则主要用于展示定量数据。 一组数据的分布特征可以从哪几个方面进行描述: 1、数据的水平,反映数据的集中程度 2、数据的差异,反映各数据的离散程度 3、分布的形状,反映数据分布的偏态和峰态 说明平均数、中位数和众数的特点及应用场合: 平均数也称为均值,它是一组数据相加后除以数据的个数而得到的结果。平均数是度量数据水平的常用统计量,在参数估计以及假设检验中经常用到。

人民大学统计学在职题库统计综述答案

1中国人民大学接受同等学历人员申请硕士学位考试试题招生专业:统计学 考试科目:统计思想综述 课程代码:123201 考题卷号:1

除不能导致SSE显著减小为止。 逐步回归:结合向前选择和向后剔除,从没有自变量开始,不停向模型中增加自变量,每增加一个自变量就对所有现有的自变量进行考察,若某个自变量对模型的贡献变得不显著就剔除。如此反复, 直到增加变量不能导致SSE显著减少为止。 五、(20分)如果一个时间序列包含趋势、季节成分、随机波动, 适用的预测方法有哪些?对这些方法做检验说明。 可以使用Winter指数平滑模型、引入季节哑变量的多元回归和分解 法等进行预测。 (1)Winter指数平滑模型 包含三个平滑参数,即(取值均在0~1),以及平滑值、趋势项更新、季节项更新、未来第k期的预测值。 L为季节周期的长度,对于季度数据,L=4,对于月份数据,L=12;I为季节调节因子。平滑值消除季节变动,趋势项更新是对趋势值得修正,季节项更新是t期的季节调整因子, 是用于预测的模型。 使用Winter 模型进行预测,要求数据至少是按季度或月份收集的,而且需要有四个以上的季节周期(4年以上的数据)。 使用Winter 模型进行预测,要求数据至少是按季度或月份收集的,

而且需要有四个以上的季节周期(4年以上的数据)。 (2)引入季节哑变量的多元回归 对于以季度记录的数据,引入3个哑变量 ,其中=1(第1季度)或0(其他季度),以此类推,则季节性多元回归模型表示为: 其中b0是常数项,b1是趋势成分的系数,表示趋势给时间序列带来的影响,b2、b3、b4表示每一季度与参照的第1季度的平均差值。(3)分解预测 第1步,确定并分离季节成分。计算季节指数,然后将季节成分从 时间序列中分离出去,即用每一个时间序列观测值除以相应的季节指数以消除季节性。 第2步,建立预测模型并进行预测。对消除了季节成分的时间序列建立适当的预测模型,并根据这一模型进行预测。 第3步,计算出最后的预测值。用预测值乘以相应的季节指数,得到最终的预测值。

统计学贾俊平_第四版课后习题答案 2

3.3 某百货公司连续40天的商品销售额如下: 单位:万元 41 25 29 47 38 34 30 38 43 40 46 36 45 37 37 36 45 43 33 44 35 28 46 34 30 37 44 26 38 44 42 36 37 37 49 39 42 32 36 35 要求:根据上面的数据进行适当的分组,编制频数分布表,并绘制直方图。 1、确定组数: ()l g 40l g () 1.60206 111 6.32l g (2)l g 20.30103 n K =+ =+=+=,取k=6 2、确定组距: 组距=( 最大值 - 最小值)÷ 组数=(49-25)÷6=4,取5 3、分组频数表 销售收入(万元) 频数 频率% 累计频数 累计频率% <= 25 1 2.5 1 2.5 26 - 30 5 12.5 6 15.0 31 - 35 6 15.0 12 30.0 36 - 40 14 35.0 26 65.0 41 - 45 10 25.0 36 90.0 46+ 4 10.0 40 100.0 总和 40 100.0 频数 246810121416<= 25 26 - 30 31 - 35 36 - 40 41 - 45 46+ 销售收入 频数 频数 3.9.下面是某考试管理中心对2002年参加成人自学考试的12000名学生的年龄分组数据: 年龄 18~19 21~21 22~24 25~29 30~34 35~39 40~44 45~59 % 1.9 34.7 34.1 17.2 6.4 2.7 1.8 1.2 (1) 对这个年龄分布作直方图; (2) 从直方图分析成人自学考试人员年龄分布的特点。 解:(1)制作直方图:将上表复制到Excel 表中,点击:图表向导→柱形图→选择子图表类型→完成。即得到如下的直方图:(见Excel 练习题2.6)

统计学-基于R第3版习题答案(第二章)

习题 2.1 (1)简单频数分布表: > load("D:\\工作总结\\人大\\R语言\\《统计学—基于R》(第3版)—例题和习题数据(公开资源)\\exercis e\\ch2\\exercise2_1.RData") > summary(exercise2_1) 行业性别满意度 电信业:38 男:58 不满意:75 航空业:19 女:62 满意 :45 金融业:26 旅游业:37 二维列联表: > mytable1<-table(exercise2_1$行业,exercise2_1$满意度) > addmargins(mytable1) # 增加边界和 不满意满意 Sum 电信业 25 13 38 航空业 12 7 19 金融业 11 15 26 旅游业 27 10 37 Sum 75 45 120 三维列联表: > mytable1<-ftable(exercise2_1, row.vars = c("性别","满意度"), col.var="行业");mytable1 行业电信业航空业金融业旅游业 性别满意度 男不满意 11 7 7 11 满意 6 3 7 6 女不满意 14 5 4 16 满意 7 4 8 4 (2) 条形图: > count1<-table(exercise2_1$行业) > count2<-table(exercise2_1$性别) > count3<-table(exercise2_1$满意度) > par(mfrow=c(1,3),mai=c(0.7,0.7,0.6,0.1),cex=0.7,cex.main=0.8) > barplot(count1,xlab="行业",ylab="频数") > barplot(count2,xlab="性别",ylab="频数") > barplot(count3,xlab="满意度",ylab="频数")

运用stata进行时间序列分析

运用stata进行时间序列分析 1 时间序列模型结构模型虽然有助于人们理解变量之间的影响关系,但模型的预测精度比较低。在一些大规模的联立方程中,情况更是如此。而早期的单变量时间序列模型有较少的参数却可以得到非常精确的预测,因此随着Box and Jenkins(1984)等奠基性的研究,时间序列方法得到迅速发展。从单变量时间序列到多元时间序列模型,从平稳过程到非平稳过程,时间序列分析方法被广泛应用于经济、气象和过程控制等领域。本章将介绍如下时间序列分析方法,ARIMA模型、ARCH族模型、 VAR模型、VEC模型、单位根检验及协整检验等。 一、基本命令 1.1时间序列数据的处理 1)声明时间序列:tsset 命令 use gnp96.dta, clear list in 1/20 gen Lgnp = L.gnp tsset date list in 1/20 gen Lgnp = L.gnp 2)检查是否有断点:tsreport, report use gnp96.dta, clear tsset date tsreport, report drop in 10/10 list in 1/12 tsreport, report tsreport, report list /*列出存在断点的样本信息*/ 3)填充缺漏值:tsfill tsfill tsreport, report list list in 1/12 4)追加样本:tsappend use gnp96.dta, clear tsset date list in -10/-1 sum tsappend , add(5) /*追加5个观察值*/ list in -10/-1 sum 2 5)应用:样本外预测: predict reg gnp96 L.gnp96 predict gnp_hat list in -10/-1 6)清除时间标识: tsset, clear tsset, clear 1.2变量的生成与处理 1)滞后项、超前项和差分项 help tsvarlist use gnp96.dta, clear tsset date gen Lgnp = L.gnp96 /*一阶滞后*/ gen L2gnp = L2.gnp96 gen Fgnp = F.gnp96 /*一阶超前*/ gen F2gnp = F2.gnp96 gen Dgnp = D.gnp96 /*一阶差分*/ gen D2gnp = D2.gnp96 list in 1/10 list in -10/-1 2)产生增长率变量: 对数差分 gen lngnp = ln(gnp96) gen growth = D.lngnp gen growth2 = (gnp96-L.gnp96)/L.gnp96 gen diff = growth - growth2 /*表明对数差分和变量的增长率差别很小*/ list date gnp96 lngnp growth* diff in 1/10 1.3日期的处理日期的格式 help tsfmt 基本时点:整数数值,如 -3, -2, -1, 0, 1, 2, 3 .... 1960年1月1日,取值为 0; 3 显示格式: 定义含义默认格式%td 日%tdDlCY %tw 周%twCY!ww %tm 月 %tmCY!mn %tq 季度 %tqCY!qq %th 半年 %thCY!hh %ty 年 %tyCY 1)使用tsset 命令指定显示格式 use B6_tsset.dta, clear tsset t, daily list use B6_tsset.dta, clear tsset t, weekly list 2)指定起始时点 cap drop month generate month = m(1990-1) + _n - 1 format month %tm list t month in 1/20 cap drop year gen year = y(1952) + _n - 1 format year %ty list t year in 1/20 3)自己设定不同的显示格式日期的显示格式 %d (%td) 定义如下: %[-][t]d<描述特定的显示格式> 具体项目释义: “<描述特定的显示格式>”中可包含如下字母或字符 c y m l n d j h q w _ . , : - / ' !c C Y M L N D J W 定义如下: c an d C 世纪值(个位数不附加/附加0)

人大版_贾俊平_统计学_第三版_课后习题答案

第3章 概率与概率分布——练习题(全免) 1 .解:设A =女性,B =工程师,AB =女工程师,A+B =女性或工程师 (1)P(A)=4/12=1/3 (2)P(B)=4/12=1/3 (3)P(AB)=2/12=1/6 (4)P(A+B)=P(A)+P(B)-P(AB)=1/3+1/3-1/6=1/2 4. 某项飞碟射击比赛规定一个碟靶有两次命中机会(即允许在第一次脱靶后进行第二次射击)。某射击选手第一发命中的可能性是80%,第二发命中的可能性为50%。求该选手两发都脱靶的概率。 解:设A =第1发命中。B =命中碟靶。求命中概率是一个全概率的计算问题。再利用对立事件的概率即可求得脱靶的概率。 )|()()|()()(A B P A P A B P A P B P += =0.8×1+0.2×0.5=0.9 脱靶的概率=1-0.9=0.1 或(解法二):P (脱靶)=P (第1次脱靶)×P(第2次脱靶)=0.2×0.5=0.1 8.已知某地区男子寿命超过55岁的概率为84%,超过70岁以上的概率为63%。试求任一刚过55岁生日的男子将会活到70岁以上的概率为多少? 解: 设A =活到55岁,B =活到70岁。所求概率为: ()()0.63(|)0.75()()0.84 P AB P B P B A P A P A ==== 9.某企业决策人考虑是否采用一种新的生产管理流程。据对同行的调查得知,采用新生产管理流程后产品优质率达95%的占四成,优质率维持在原来水平(即80%)的占六成。该企业利用新的生产管理流程进行一次试验,所生产5件产品全部达到优质。问该企业决策者会倾向于如何决策? 解:这是一个计算后验概率的问题。 设A =优质率达95%,A =优质率为80%,B =试验所生产的5件全部优质。 P(A)=0.4,P (A )=0.6,P (B|A )=0.955, P(B |A )=0.85,所求概率为: 6115.050612 .030951.0)|()()|()()|()()|(===A B P A P A B P A P A B P A P B A P + 决策者会倾向于采用新的生产管理流程。 10. 某公司从甲、乙、丙三个企业采购了同一种产品,采购数量分别占总采购量的25%、30%和45%。这三个企业产品的次品率分别为4%、5%、3%。如果从这些产品中随机抽出一件,试问:(1)抽出次品的概率是多少?(2)若发现抽出的产品是次品,问该产品来自丙厂的概率是多少? 解:令A 1、A 2、A 3分别代表从甲、乙、丙企业采购产品,B 表示次品。由题意得:P (A 1)=0.25,P (A 2)=0.30, P (A 3)=0.45;P (B |A 1)=0.04,P (B |A 2)=0.05,P (B |A 3)=0.03;因此,所求概率分别为:

统计学第四版答案解析(贾俊平)

第1章统计和统计数据 1.1 指出下面的变量类型。(1)年龄。(2)性别。(3)汽车产量。 (4)员工对企业某项改革措施的态度(赞成、中立、反对)。(5)购买商品时的支付方式(现金、信用卡、支票)。详细答案:(1)数值变量。(2)分类变量。(3)数值变量。(4)顺序变量。(5)分类变量。 1.2 一家研究机构从IT从业者中随机抽取1000人作为样本进行调查,其中60%回答他们的月收入在5000元以上,50%的人回答他们的消费支付方式是用信用卡。 (1)这一研究的总体是什么?样本是什么?样本量是多少?(2)“月收入”是分类变量、顺序变量还是数值变量?(3)“消费支付方式”是分类变量、顺序变量还是数值变量?详细答案: (1)总体是“所有IT从业者”,样本是“所抽取的1000名IT从业者”,样本量是1000。(2)数值变量。 (3)分类变量。 1.3 一项调查表明,消费者每月在网上购物的平均花费是200元,他们选择在网上购物的主要原因是“价格便宜”。 (1)这一研究的总体是什么? (2)“消费者在网上购物的原因”是分类变量、顺序变量还是数值变量?详细答案:(1)总体是“所有的网上购物者”。(2)分类变量。 1.4 某大学的商学院为了解毕业生的就业倾向,分别在会计专业抽取50人、市场营销专业抽取30、企业管理20人进行调查。 (1)这种抽样方式是分层抽样、系统抽样还是整群抽样?(2)样本量是多少?详细答案:(1)分层抽样。(2)100。

第3章用统计量描述数据

偏度 1.08 极差26 最小值15 最大值41 从集中度来看,网民平均年龄为24岁,中位数为23岁。从离散度来看,标准差在为6.65岁,极差达到26岁,说明离散程度较大。从分布的形状上看,年龄呈现右偏,而且偏斜程度较大。 3.2 某银行为缩短顾客到银行办理业务等待的时间,准备采用两种排队方式进行试验。一种是所有顾客都进入一个等待队列;另一种是顾客在3个业务窗口处列队3排等待。为比较哪种排队方式使顾客等待的时间更短,两种排队方式各随机抽取9名顾客,得到第一种排队方式的平均等待时间为7.2分钟,标准差为1.97分钟,第二种排队方式的等待时间(单位:分钟)如下: 5.5 6.6 6.7 6.8 7.1 7.3 7.4 7.8 7.8 (1)计算第二种排队时间的平均数和标准差。 (2)比两种排队方式等待时间的离散程度。 (3)如果让你选择一种排队方式,你会选择哪一种?试说明理由。 详细答案: (1)(岁);(岁)。 (2);。第一中排队方式的离散程度大。 (3)选方法二,因为平均等待时间短,且离散程度小。

统计学(第四版)考试题贾俊平高等教育出版社

模拟试题一 单项选择题(每小题2分,共20分) 1.一项调查表明,在所抽取的1000个消费者中,他们每月在网上购物的平均花费是200元,他们选择在网上购物的主要原因是“价格便宜”。这里的参数是( A ) A. 1000个消费者 B. 所有在网上购物的消费者 C. 所有在网上购物的消费者的平均花费额 D. 1000个消费者的平均花费金额 2.为了调查某校学生的购书费用支出,从男生中抽取60名学生调查,从女生中抽取40名学生调查,这种抽样方法属于( D ) A. 简单随机抽样 B. 整群抽样 C. 系统抽样 D. 分层抽样 3.某班学生的平均成绩是80分,标准差是10分。如果已知该班学生的考试分数为对称分布,可以判断考试分数在70到90分之间的学生大约占( C ) A. 95% B. 89% C. 68% D. 99% 4.已知总体的均值为50,标准差为8,从该总体中随机抽取容量为64的样本,则样本均值的数学期望和抽样分布的标准误差分别为( ) A. 50,8 B. 50,1 C. 50,4 D. 8,8 5.根据某班学生考试成绩的一个样本,用95%的置信水平构造的该班学生平均考试分数的置信区间为75分~85分。全班学生的平均分数( D ) A .肯定在这一区间内 B .有95%的可能性在这一区间内 C .有5%的可能性在这一区间内 D .要么在这一区间内,要么不在这一区间内 6.一项研究发现,2000年新购买小汽车的人中有40%是女性,在2005年所作的一项调查中,随机抽取120个新车主中有57人为女性,在05.0=α的显着性水平下,检验2005年新车主中女性的比例是否有显着增加,建立的原假设和备择假设为( C ) A . %40:,%40:10≠=ππH H B . %40:,%40:10<≥ππH H C .% 40:,%40:10>≤ππH H D .% 40:,%40:10 ≥<ππH H 7.在回归分析中,因变量的预测区间估计是指( B ) A. 对于自变量x 的一个给定值0x ,求出因变量y 的平均值的区间 B. 对于自变量x 的一个给定值0x ,求出因变量y 的个别值的区间 C. 对于因变量y 的一个给定值 0y ,求出自变量x 的平均值的区间 D. 对于因变量y 的一个给定值0y ,求出自变量x 的平均值的区间 8.在多元线性回归分析中,如果F 检验表明线性关系显着,则意味着( A ) A. 在多个自变量中至少有一个自变量与因变量之间的线性相关系着 B. 所有的自变量与因变量之间的线性关系都显着 C. 在多个自变量中至少有一个自变量与因变量之间的线性关系不显着 D. 所有的自变量与因变量之间的线性关系都不显着 9.如果时间序列的逐期观察值按一定的增长率增长或衰减,则适合的预测模型是( D ) A. 移动平均模型 B. 指数平滑模型 C. 线性模型 D. 指数模型 10.设p 为商品价格,q 销售量,则指数∑ ∑0 10q p q p 的实际意义是综合反映( B ) A. 商品销售额的变动程度 B. 商品价格变动对销售额影响程度 C. 商品销售量变动对销售额影响程度 D. 商品价格和销售量变动对销售额影响程度 二、简要回答下列问题(每小题5分,共15分) 1、简述直方图和茎叶图的区别。 2、简述假设检验中P 值的含义。 3、解释指数平滑法。 4、(15分)甲、乙两个班参加同一学科考试,甲班的平均考试成绩为86分,标准差为12分。乙班考试成绩的分布如下:

贾俊平第四版统计学-第四章 答案

第四章 答案 1.A 2.B 3.D 4.A 5.C 6.B 7.B 8.A 9.C 10.C 11.B 12.B 13.A 14.D 15.A 16.D 17.B 18.D 19.D 20.C 21.D 22.D 23.A 24.A 25.A 二、填空题 1.在比较两个测试指标差异大小时,用 离散系数 统计量度量较合适。差异性最大的技术指标是 传球偏差 。 2. 某组数据分布的偏度系数为正时,该数据的众数、中位数、均值的大小关系是_ 众数<中位数<均值 。 3. 对某班级所授英语课程进行期末考试,并对100个学生的成绩进行分析,成绩均值为75,标准差为5。那么有_95____名学生的考试成绩在65-85之间。 4. 一家公司在招收职员时,首先要通过两项能力测试。在A 项测试中,其平均分数是100分,标准差是15分;在B 项测试中,其平均分数是400分,标准差是50分。一位应试者在A 项测试中得了115分,在B 项测试中得了425分,与平均分相比,该位应试者更为理想的能力测试是____A______。 5. 对分类数据进行集中趋势侧度,其适用的测度值是__众数____。 6.对比率的数据求其平均,适用的测度值是__几何平均数__________. 7.众数、中位数、上四分位数、下四分位数、总体均值的符号可分别表示为μL u e Q Q M M 0。 8. 数据分布的偏斜程度较大时,用来反映数据集中趋势的测度值应该选择__众数或中位数。 9. 总体方差、样本方差、总体标准差、样本标准差的符号可以分别表示为s s σσ22。 10. A 、B 两个班英语期末成绩的标准差分别为8,9;A 班的平均成绩为70,B 班的平均成绩为72,请问成绩差异较大的班是_B____。 11. 一项关于大学生体重状况的研究发现,男生的平均体重为60kg,标准差为5kg ;女生的平均体重为50kg,标准差为5kg 。请问男生的体重差异_ 小于____女生的体重差异(大于、小于、等于),男生中有_ 68%___%的人体重在55kg 到65kg 之间。 三、计算题 1. 解:四年的平均收益率= % =%%%%%08.81 08.1081 9.1015.1251.1025.1044-≈-??? 投资者在这四年内的平均收益率约为8.08 2. 解: (1) 冬季的极差=21-12=9 夏季的极差=38-18=20 (2) 冬季的平均数7.1710 201520181=++++= x

时间序列模型stata 基本命令汇总..

时间序列模型 结构模型虽然有助于人们理解变量之间的影响关系,但模型的预测精度比较低。在一些大规模的联立方程中,情况更是如此。而早期的单变量时间序列模型有较少的参数却可以得到非常精确的预测,因此随着Box and Jenkins(1984)等奠基性的研究,时间序列方法得到迅速发展。从单变量时间序列到多元时间序列模型,从平稳过程到非平稳过程,时间序列分析方法被广泛应用于经济、气象和过程控制等领域。本章将介绍如下时间序列分析方法,ARIMA模型、ARCH族模型、VAR模型、VEC模型、单位根检验及协整检验等。 一、基本命令 1.1时间序列数据的处理 1)声明时间序列:tsset 命令 use gnp96.dta, clear list in 1/20 gen Lgnp = L.gnp tsset date list in 1/20 gen Lgnp = L.gnp 2)检查是否有断点:tsreport, report use gnp96.dta, clear tsset date tsreport, report drop in 10/10 list in 1/12 tsreport, report tsreport, report list /*列出存在断点的样本信息*/ 3)填充缺漏值:tsfill tsfill tsreport, report list list in 1/12 4)追加样本:tsappend use gnp96.dta, clear tsset date list in -10/-1 sum tsappend , add(5) /*追加5个观察值*/ list in -10/-1 sum

统计学第四版答案贾俊平

第1章统计与统计数据 1、1 指出下面的变量类型。 (1) 年龄。 (2) 性别。 (3) 汽车产量。 (4) 员工对企业某项改革措施的态度(赞成、中立、反对)。 (5) 购买商品时的支付方式(现金、信用卡、支票)。详细答案: (1)数值变量。 (2)分类变量。 (3)数值变量。(4)顺序变量。 (5)分类变量。 1、2 一家研究机构从IT从业者中随机抽取1000人作为样本进行调查,其中60%回答她们的月收入在5000元以上,50%的人回答她们的消费支付方式就是用信用卡。 (1) 这一研究的总体就是什么?样本就是什么?样本量就是多少? (2) “月收入”就是分类变量、顺序变量还就是数值变量? (3) “消费支付方式”就是分类变量、顺序变量还就是数值变量?详细答案: (1)总体就是“所有IT从业者”,样本就是“所抽取的1000名IT从业者”,样本量就是1000。 (2)数值变量。 (3)分类变量。 1、3 一项调查表明,消费者每月在网上购物的平均花费就是200元,她们选择在网上购物的主要原因就是“价格便宜”。 (1) 这一研究的总体就是什么? (2) “消费者在网上购物的原因”就是分类变量、顺序变量还就是数值变量?详细答案: (1)总体就是“所有的网上购物者”。 (2)分类变量。 1、4 某大学的商学院为了解毕业生的就业倾向,分别在会计专业抽取50人、市场营销专业抽取30、企业管理20人进行调查。 (1) 这种抽样方式就是分层抽样、系统抽样还就是整群抽样? (2) 样本量就是多少?详细答案: (1)分层抽样。 (2)100。 第3章用统计量描述数据

7、2分钟,标准差为1、97分钟,第二种排队方式的等待时间(单位:分钟)如下: 5、5 6、6 6、7 6、8 7、1 7、3 7、4 7、8 7、8 (1)计算第二种排队时间的平均数与标准差。 (2)比两种排队方式等待时间的离散程度。 (3)如果让您选择一种排队方式,您会选择哪一种?试说明理由。 详细答案: (1)(岁);(岁)。 (2);。第一中排队方式的离散程度大。 (3)选方法二,因为平均等待时间短,且离散程度小。 3、3 在某地区随机抽取120家企业,按利润额进行分组后结果如下: 按利润额分组(万元) 企业数(个) 300以下19 300~400 30 400~500 42 500~600 18 600以上11 合计120 计算120家企业利润额的平均数与标准差(注:第一组与最后一组的组距按相邻组计算)。 详细答案: =426、67(万元);(万元)。

统计学_贾俊平第四版第八章课后答案(目前最全)

8.2 一种元件,要求其使用寿命不得低于700小时。现从一批这种元件中随机抽取36件,测得其平均寿命为680小时。已知该元件寿命服从正态分布,=60小时,试在显著性水平0.05下确定这批元件是否合格。 解:H0:μ≥700;H1:μ<700 已知:=680 =60 由于n=36>30,大样本,因此检验统计量: ==-2 当α=0.05,查表得=1.645。因为z<-,故拒绝原假设,接受备择假设,说明这批产品不合格。 8.3 8.4 糖厂用自动打包机打包,每包标准重量是100千克。每天开工后需要检验一次打包机工作是否正常。某日开工后测得9包重量(单位:千克)如下: 99.3 98.7 100.5 101.2 98.3 99.7 99.5 102.1 100.5已知包重服从正态分布,试检验该日打包机工作是否正常(a=0.05)? 解:H0:μ=100;H1:μ≠100 经计算得:=99.9778 S=1.21221 检验统计量: ==-0.055 当α=0.05,自由度n-1=9时,查表得=2.262。因为<,样本统计量落在接受区域,故接受原假设,拒绝备择假设,说明打包机工作正常。 8.5 某种大量生产的袋装食品,按规定不得少于250克。今从一批该食品中任意抽取50袋,发现有6袋低于250克。若规定不符合标准的比例超过5%就不得出厂,问该批食品能否出厂(a=0.05)? 解:解:H0:π≤0.05;H1:π>0.05 已知:p=6/50=0.12 检验统计量: ==2.271

当α=0.05,查表得=1.645。因为>,样本统计量落在拒绝区域,故拒绝原假设,接受备择假设,说明该批食品不能出厂。 8.6 8.7 某种电子元件的寿命x(单位:小时)服从正态分布。现测得16只元件的寿命如下: 159 280 101 212 224 379 179 264 222 362 168 250 149 260 485 170 问是否有理由认为元件的平均寿命显著地大于225小时(a=0.05)? 解:H0:μ≤225;H1:μ>225 经计算知:=241.5 s=98.726 检验统计量: ==0.669 当α=0.05,自由度n-1=15时,查表得=1.753。因为t<,样本统计量落在接受区域,故接受原假设,拒绝备择假设,说明元件寿命没有显著大于225小时。 8.8 8.9 8.10 装配一个部件时可以采用不同的方法,所关心的问题是哪一个方法的效率更高。劳动效率可以用平均装配时间反映。现从不同的装配方法中各抽取12件产品,记录各自的装配时间(单位:分钟)如 下: 甲方法:31 34 29 32 35 38 34 30 29 32 31 26 乙方法:26 24 28 29 30 29 32 26 31 29 32 28 两总体为正态总体,且方差相同。问两种方法的装配时间有无显著

Stata时间序列笔记

文档结尾是FAQ和var建模的15点注意事项 【梳理概念】 向量自回归(VAR, Vector Auto regression)常用于预测相互联系的时间序列系统以及分析随机扰动对变量系统的动态影响。 VAR模型: VAR方法通过把系统中每一个内生变量,作为系统中所有内生变量的滞后值的函数来构造模型,从而回避了结构化模型的要求。 VAR模型对于相互联系的时间序列变量系统是有效的预测模型,同时,向疑自回归模型也被频繁地用于分析不同类型的随机误差项对系统变量的动态影响。如果变量之间不仅存在滞后影响,而不存在同期影响关系,则适合建立VAR模型,因为VAR模型实际上是把当期关系隐含到了随机扰动项之中。 协整: Engle和Granger (1987a)指岀两个或多个非平稳时间序列的线性组合可能是平稳的。假如这样一种平稳的或的线性组合存在,这些非平稳(有单位根)时间序列之间被认为是具有协整关系的。这种平稳的线性组合被称为协整方程且可被解释为变量之间的长期均衡关系。 * 第六讲时间序列分析 *一一目录—— ? d?简介 *6」时间序列数据的处理 d ■平稳时间序列模型 * 6.2 ARIMA 模型 * 6.3 VAR 模型 非平稳时间序列模型一近些年得到重视,发展很快 * 6.4非平稳时间序列简介 * 6.5单位根检验——检验非平稳 * 6.6协整分析一一非平稳序列的分析 黑-自回归条件异方差模型 * 6.7 GARCH模型一一金融序列不同时点上序列的差界 反映动态关系的时间数据顺序不可颠倒 cd d:\stata 10\ado\personal\Net_Course\B6_TimcS *时间序列数据的处理help time *声明时间序列:tsset命令 use gnp96.dta, clear list in 1/20

统计学第四版贾俊平答案

第7章 参数估计 ●1. 从一个标准差为5的总体中抽出一个容量为40的样本,样本均值为25。 (1) 样本均值的抽样标准差x σ等于多少? (2) 在95%的置信水平下,允许误差是多少? 解:已知总体标准差σ=5,样本容量n =40,为大样本,样本均值x =25, (1)样本均值的抽样标准差 x σσ5=0.7906 (2)已知置信水平1-α=95%,得 α /2 Z =1.96, 于是,允许误差是E = α/2 σZ =1.96×0.7906=1.5496。 ●2.某快餐店想要估计每位顾客午餐的平均花费金额,在为期3周的时间里选取49名顾客组成了一个简单随机样本。 (3) 假定总体标准差为15元,求样本均值的抽样标准误差; (4) 在95%的置信水平下,求允许误差; (5) 如果样本均值为120元,求总体均值95%的置信区间。 解:(1)已假定总体标准差为σ=15元, 则样本均值的抽样标准误差为 x σ15=2.1429 (2)已知置信水平1-α=95%,得 α /2 Z =1.96, 于是,允许误差是E = α/2 Z =1.96×2.1429=4.2000。 (3)已知样本均值为x =120元,置信水平1-α=95%,得 α/2 Z =1.96, 这时总体均值的置信区间为 α/2 x Z 0±4.2= 124.2115.8 可知,如果样本均值为120元,总体均值95%的置信区间为(115.8,124.2)元。 ●7.某大学为了解学生每天上网的时间,在全校7500名学生中采取不重复抽样方法随机抽取36人,调查他们每天上网的时间,得到下面的数据(单位:小时): 3.3 3.1 6.2 5.8 2.3 4.1 5.4 4.5 3.2 4.4 2.0 5.4 2.6 6.4 1.8 3.5 5.7 2.3 2.1 1.9 1.2 5.1 4.3 4.2 3.6 0.8 1.5 4.7 1.4 1.2 2.9 3.5 2.4 0.5 3.6 2.5 求该校大学生平均上网时间的置信区间,置信水平分别为90%、95%和99%。

人大统计学第四版部分答案

4.1 (1)众数:M 0=10; 中位数:中位数位置=n+1/2= 5.5,M e =10;平均数:6 .910 96== =∑n x x i (2)Q L 位置=n/4=2.5, Q L =4+7/2=5.5;Q U 位置=3n/4=7.5,Q U =12 (3)2.49 4.1561 ) (2 == -= ∑-n i s x x (4)由于平均数小于中位数和众数,所以汽车销售量为左偏分布。 4.2 (1)从表中数据可以看出,年龄出现频数最多的是19和23,故有个众数,即M 0=19和M 0=23。 将原始数据排序后,计算中位数的位置为:中位数位置= n+1/2=13,第13个位置上的数值为23,所以中位数为M e =23 (2)Q L 位置=n/4=6.25, Q L ==19;Q U 位置=3n/4=18.75,Q U =26.5 (3)平均数== ∑n x x i 600/25=24,标准差65.61 2510621 ) (2 =-= -= ∑-n i s x x (4)偏态系数SK=1.08,峰态系数K=0.77 (5)分析:从众数、中位数和平均数来看,网民年龄在23-24岁的人数占多数。由于标准差较大,说明网民年龄之间有较大差异。从偏态系数来看,年龄分布为右偏,由于偏态系数大于1,所以,偏斜程度很大。由于峰态系数为正值,所以为尖峰分布。 4.3 (1)茎叶图如下: 茎 叶 频数 5 6 7 5 6 7 8 1 3 4 8 8 1 3 5 (2)== ∑n x x i 63/9=7,714.08 08.41 ) (2 == -= ∑-n i s x x (3)由于两种排队方式的平均数不同,所以用离散系数进行比较。 第一种排队方式:v 1=1.97/7.2=0.274;v 2=0.714/7=0.102.由于v 1>v 2,表明第一种排队方式的离散程度大于第二种排队方式。 (4)选方法二,因为第二种排队方式的平均等待时间较短,且离散程度小于第一种排队方式。 4.4 (1)== ∑n x x i 8223/30=274.1 中位数位置=n+1/2=15.5,M e =272+273/2=272.5 (2)Q L 位置=n/4=7.5, Q L ==(258+261)/2=259.5;Q U 位置=3n/4=22.5,Q U =(284+291)/2=287.5 (3) 17.211 307.130021 ) (2 =-= -= ∑-n i s x x 4.5 (1)甲企业的平均成本=总成本/总产量=41.19340 660030 150020 300015 2100150030002100==++++

统计学_贾俊平_第4版_课后答案

3.1 为评价家电行业售后服务的质量,随机抽取了由100个家庭构成的一个样本。服务质量的等级分别表示为:A.好;B.较好;C一般;D.较差;E.差。调查结果如下: B E C C A D C B A E D A C B C D E C E E A D B C C A E D C B B A C D E A B D D C C B C E D B C C B C D A C B C D E C E B B E C C A D C B A E B A C E E A B D D C A D B C C A E D C B C B C E D B C C B C 要求: (1)指出上面的数据属于什么类型。 顺序数据 (2)用Excel制作一张频数分布表。 用数据分析——直方图制作: 接收频率 E16 D17 C32 B21 A14 (3)绘制一张条形图,反映评价等级的分布。 用数据分析——直方图制作: (4)绘制评价等级的帕累托图。 逆序排序后,制作累计频数分布表: 接收频数频率(%)累计频率(%) C 32 32 32 B 21 21 53 D 17 17 70 E 16 16 86 A 14 14 100

5101520253035C D B A E 20406080100120 3.2 某行业管理局所属40个企业2002年的产品销售收入数据如下: 152 124 129 116 100 103 92 95 127 104 105 119 114 115 87 103 118 142 135 125 117 108 105 110 107 137 120 136 117 108 97 88 123 115 119 138 112 146 113 126 要求: (1)根据上面的数据进行适当的分组,编制频数分布表,并计算出累积频数和累积频率。 1、确定组数: ()lg 40lg() 1.60206111 6.32lg(2)lg 20.30103 n K =+ =+=+=,取k=6 2、确定组距: 组距=( 最大值 - 最小值)÷ 组数=(152-87)÷6=10.83,取10 3 (2)按规定,销售收入在125万元以上为先进企业,115~125万元为良好企业,105~115 万元为一般企业,105万元以下为落后企业,按先进企业、良好企业、一般企业、落后企业进行分组。

相关主题
文本预览
相关文档 最新文档