线性回归习题
- 格式:docx
- 大小:140.19 KB
- 文档页数:8
一、是非题1.单个自变量的线性回归就是直线回归。
2.直线回归就是指自变量和应变量的观察值落在在一条直线上。
3.直线回归中预测值Y 是固定某个X 值,Y 的总体均数估计值。
4.用逐步回归的方法评价自变量与应变量之间的关联性,只能推断某个自变量与应变量有关联性,不能推断无它们之间无关联性。
二、选择题1.用最小二乘法确定直线回归方程的原则是各观察点()A . 距直线的纵向距离相等B . 距直线的纵向距离的平方和最小C . 与直线的垂直距离相等D . 与直线的垂直距离的平方和最小 2.直线回归的系数假设检验()E . 只能利用相关系数r 的检验方法进行检验F . 只能用t 检验G . 只能用F 检验H . 三者均可3.Y ˆ=7+2X 是1~7岁儿童以年龄(岁)估计体重(公斤)的回归方程,若把体重的单位换成市斤,则此方程( )A .截矩改变B .回归系数改变C . 截矩与回归系数都改变D .回归系数不变E .截矩不变 4.直线回归系数的假设检验,其自由度为( )A .nB .n-1C .n-2D .2n-1E .2n-25.对应变量Y 的离均差平方和,下列哪个分解是正确的?( )A .SS 剩=SS 回B .SS 总=SS 剩C .SS 总=SS 回D .SS 总+SS 剩=SS 回E .SS 总+SS 回=SS 剩三、计算分析题1.15名儿童的身高与肺死腔容积的观察值如表15-3所示。
表15-3 儿童身高与肺死腔容积的观测数据对象号 身高(cm)X 肺死腔容积(ml)Y 对象号 身高(cm)X 肺死腔容积(ml)Y 1 110 45 9 175 102 2 116 32 10 167 111 3 123 41 11 165 88 4 130 45 12 160 65 5 129 43 13 157 79 6 142 67 14 156 92 7 147 58 15 149 58 815357试用该资料进行回归分析:(1)计算样本回归方程的截矩与回归系数; (2)进行回归系数等于0的假设检验; (3)验证是否存在F t b =的关系;(4)估计回归系数β的95%置信区间。
线性回归练习一、选择题1.下列两个变量之间的关系中,哪个是函数关系 ( ) A.学生的性别与他的数学成绩 B.人的工作环境与健康状况 C.女儿的身高与父亲的身高 D. 正三角形的边长与面积2.从某大学随机选取8名女大学生,其身高x (cm)和体重y (kg)的回归方程为 ˆ0.84985.712yx =-,则身高172cm 的女大学生,由回归方程可以预报其体重 ( )A.为6 0.316kgB. 约为6 0.316kgC.大于6 0.316kgD.小于6 0.316kg3. 工人月工资(元)依劳动生产率(千元)变化的回归直线方程为ˆ160180yx =+,下列判断正确的是 ( )A .劳动生产率为1000元时,工资为340元B .劳动生产率提高1000元时,工资提高180元C .劳动生产率提高1000元时,工资平均提高180元 D.工资为520元时,劳动生产率为2000元 4.由右表可计算出变量,x y 的线性回归方程为( ) A. ˆ0.350.15y x =-+ B. ˆ0.350.25y x =-+ C. ˆ0.350.15y x =+ D. ˆ0.350.25y x =+ 二、填空题5.下列说法中正确的是 (填序号)①回归分析就是研究两个相关事件的独立性;②回归模型都是确定性的函数;③回归模型都是线性的;④回归分析的第一步是画散点图或求相关系数r ;⑤回归分析就是通过分析、判断,确定相关变量之间的内在的关系的一种统计方法. 6.三点()3,10,(7,20),(11,24)的线性回归方程是三、解答[2016高考新课标Ⅲ文数]下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图(I )由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明;(II )建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 附注: 参考数据:719.32ii y==∑,7140.17i i i t y ==∑0.55=,7≈2.646.参考公式:相关系数r =回归方程y a b =+中斜率和截距的最小二乘估计公式分别为:121()()()nii i nii tt y y b tt ==--=-∑∑,a y bt =-【2015高考重庆,文17】随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:(Ⅰ)求y 关于t 的回归方程^^^t y b a =+(Ⅱ)用所求回归方程预测该地区2015年(6t =)的人民币储蓄存款. 附:回归方程^^^t yb a=+中1122211()(),().nniii ii i nniii i x x y y x y nx yb x x xnxa y bx ====⎧---⎪⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑8、这个世界并不是掌握在那些嘲笑者的手中,而恰恰掌握在能够经受得住嘲笑与批忍不断往前走的人手中。
多元线性回归模型一、单项选择题1.在由30n =的一组样本估计的、包含3个解释变量的线性回归模型中,计算得多重决定系数为0.8500,则调整后的多重决定系数为( D )A. 0.8603B. 0.8389C. 0.8655D.0.8327 2.下列样本模型中,哪一个模型通常是无效的(B ) A.iC (消费)=500+0.8iI (收入)B. di Q (商品需求)=10+0.8i I (收入)+0.9i P (价格) C. si Q (商品供给)=20+0.75i P (价格)D. iY (产出量)=0.650.6i L (劳动)0.4i K (资本)3.用一组有30个观测值的样本估计模型01122t t t ty b b x b x u =+++后,在0.05的显著性水平上对1b 的显著性作t 检验,则1b 显著地不等于零的条件是其统计量t 大于等于( C )A.)30(05.0t B.)28(025.0t C.)27(025.0t D.)28,1(025.0F4.模型tt t u x b b y ++=ln ln ln 10中,1b 的实际含义是( B )A.x 关于y 的弹性B. y 关于x 的弹性C. x 关于y 的边际倾向D. y 关于x 的边际倾向5、在多元线性回归模型中,若某个解释变量对其余解释变量的判定系数接近于1,则表明模型中存在( C )A.异方差性B.序列相关C.多重共线性D.高拟合优度6.线性回归模型01122......t t t k kt t y b b x b x b x u =+++++ 中,检验0:0(0,1,2,...)t H b i k ==时,所用的统计量服从( C )A.t(n-k+1)B.t(n-k-2)C.t(n-k-1)D.t(n-k+2)7. 调整的判定系数 与多重判定系数之间有如下关系( D )A.2211n R R n k -=-- B. 22111n R R n k -=---C. 2211(1)1n R R n k -=-+-- D. 2211(1)1n R R n k -=----8.关于经济计量模型进行预测出现误差的原因,正确的说法是( C )。
§1回归剖析一.基本过关1.下列变量之间的关系是函数关系的是( )A.已知二次函数y=ax2+bx+c,个中a,c是已知常数,取b为自变量,因变量是这个函数的判别式Δ=b2-4acB.光照时光和果树亩产量C.降雪量和交通变乱产生率D.每亩施用肥料量和食粮产量2.在以下四个散点图中,个中实用于作线性回归的散点图为( )A.①②B.①③C.②③D.③④3.下列变量中,属于负相干的是( )A.收入增长,储蓄额增长B.产量增长,临盆费用增长C.收入增长,支出增长D.价钱降低,花费增长4.已知对一组不雅察值(x i,y i)作出散点图后肯定具有线性相干关系,若对于y =bx+a,求得b=0.51,x=61.75,y=38.14,则线性回归方程为A.yx+6.65 B.yxC.yx+42.30 D.yx5.对于回归剖析,下列说法错误的是( )A.在回归剖析中,变量间的关系若长短肯定关系,那么因变量不克不及由自变量独一肯定B.线性相干系数可所以正的,也可所以负的C.回归剖析中,假如r2=1,解释x与y之间完整相干D.样底细关系数r∈(-1,1)6.下表是x 和y 之间的一组数据,则y 关于x 的回归方程必过( )A.点B .点(1.5,4)C .点D .点(2.5,5)7.若线性回归方程中的回归系数b =0,则相干系数r =________. 二.才能晋升8.若施化肥量x (kg)与小麦产量y (kg)之间的线性回归方程为y =250+4x ,当施化肥量为50 kg 时,估计小麦产量为________ kg.9.某车间为了划定工时定额,需肯定加工零件所花费的时光,为此做了4次实验,得到的数据如下:若加工时光y (1)求加工时光与零件个数的线性回归方程; (2)试预告加工10个零件须要的时光.10.在一段时光内,分5次测得某种商品的价钱x (万元)和需求量y (t)之间的一组数据为:已知∑5i =1x i y i =62,∑i =1x 2i =16.6. (1)画出散点图;(2)求出y 对x 的线性回归方程;(3)假如价钱定为1.9万元,猜测需求量大约是若干?(准确到0.01 t). 11.某运发动练习次数与活动成绩之间的数据关系如下:(1)(2)求出回归方程;(3)盘算相干系数并进行相干性磨练;(4)试猜测该运发动练习47次及55次的成绩.答案1.7.0 8.yx 9.45010.解 (1)由表中数据,应用科学盘算器得x =2+3+4+54=3.5,y =2.5+3+4+4.54=3.5,∑4i =1x i y i =52.5,∑4i =1x 2i =54, b =∑4i =1xiyi -4x y ∑4i =1x2i -4x 2=52.5-4××3.554-4×3.52=0.7,a =y -b x =1.05,是以,所求的线性回归方程为yx +1.05.(2)将x =10代入线性回归方程,得y ×10+1.05=8.05(小时),即加工10个零件的预告时光为8.05小时. 11.解 (1)散点图如下图所示:(2)因为x =15×9=1.8,y =15×37=7.4,∑5i =1x i y i =62,∑5i =1x 2i =16.6,所以b =∑5i =1xiyi -5x y ∑5i =1x2i -5x 2=62-5××7.416.6-5×1.82=-11.5,a =y -b x ×1.8=28.1,故y 对x 的线性回归方程为yx . (3)y ×1.9=6.25(t).所以,假如价钱定为1.9万元,则需求量大约是6.25 t.12.解 (1)作出该运发动练习次数x 与成绩y 之间的散点图,如下图所示,由散点图可知,它们之间具有线性相干关系. (2)列表盘算:由上表可求得x =39.25,y =40.875, ∑8i =1x 2i =12 656,∑8i =1y 2i =13 731,∑8i =1x i y i =13 180, ∴b =∑8i =1xiyi -8x y ∑8i =1x2i -8x 2≈1.041 5,a =y -b x =-0.003 88,∴线性回归方程为y =1.041 5x -0.003 88.(3)盘算相干系数r =0.992 7,是以运发动的成绩和练习次数两个变量有较强的相干关系.(4)由上述剖析可知,我们可用线性回归方程y =1.041 5x -0.003 88作为该运发动成绩的预告值.将x =47和x =55分离代入该方程可得y =49和y =57.故猜测该运发动练习47次和55次的成绩分离为49和57. 13.解 ∵s x =lxyn ,s y =lxyn, ∴lxy n=r lxyn·lyy n ××15.2=57.76.∴β1=lxy n lxy n=57.767.62=1, β0=y -β1x =72-1×172=-100.故由身高估量平均体重的回归方程为y =x -100. 由x ,y 地位的对称性,得b =lxyn lxy n =57.7615.22=0.25,∴a =x -b y ×72=154.故由体重估量平均身高的回归方程为xy +154.可线性化的回归剖析一.基本过关1.某商品发卖量y(件)与发卖价钱x(元/件)负相干,则其线性回归方程可能是()A.y=-10x+200 B.y=10x+200C.y=-10x-200 D.y=10x-200 2.在线性回归方程y=a+bx中,回归系数b暗示()A.当x=0时,y的平均值 B.x变动一个单位时,y 的现实变动量C.y变动一个单位时,x的平均变动量 D.x变动一个单位时,y 的平均变动量3.对于指数曲线y=a e bx,令u=ln y,c=ln a,经由非线性化回归剖析之后,可以转化成的情势为()A.u=c+bx B.u=b+cx C.y=b+cx D.y=c+bx4.下列说法错误的是()A.当变量之间的相干关系不是线性相干关系时,也能直接用线性回归方程描写它们之间的相干关系B.把非线性回归化为线性回归为我们解决问题供给一种办法C.当变量之间的相干关系不是线性相干关系时,也能描写变量之间的相干关系D.当变量之间的相干关系不是线性相干关系时,可以经由过程恰当的变换使其转换为线性关系,将问题化为线性回归剖析问题来解决5.每一吨铸铁成本y c(元)与铸件废品率x%树立的回归方程y c=56+8x,下列说法准确的是 ()A.废品率每增长1%,成本每吨增长64元 B.废品率每增长1%,成本每吨增长8%C.废品率每增长1%,成本每吨增长8元 D.假如废品率增长1%,则每吨成本为56元6.为了考核两个变量x和y之间的线性相干性,甲.乙两个同窗各自自力地做10次和15次实验,并且应用线性回归办法,求得回归直线分离为l1和l2.已知在两小我的实验中发明对变量x的不雅测数据的平均值正好相等,都为s,对变量y的不雅测数据的平均值也正好相等,都为t.那么下列说法准确的是 ()A.直线l1和l2有交点(s,t)B.直线l1和l2订交,但是交点未必是点(s,t) C.直线l1和l2因为斜率相等,所以肯定平行 D.直线l1和l2肯定重合二.才能晋升7.研讨人员对10个家庭的儿童问题行动程度(X)及其母亲的不耐烦程度(Y)进行了评价成果如下,家庭1,2,3,4,5,6,7,8,9,10,儿童得分:72,40,52,87,39,95,12,64,49,46,母亲得分:79,62,53,89,81,90,10,82,78,70.下列哪个方程可以较恰当的拟合()A.y=0.771 1x+.y=36.958ln x-C.y=1.177 8x1.014 5D.y=20.924e0.019 3x8.已知x,y之间的一组数据如下表:则y与x.9.已知线性回归方程为y=x-,则x=25时,y的估量值为________.10.在一次抽样查询拜访中测得样本的5个样本点,数值如下表:(1)树立y与x(211.某地区六年来轻工业产品利润总额y 与年次x 的实验数据如下表所示:由经验知ab xe 0.个中a .b 均为正数,求y 关于x 的回归方程.(保存三位有用数字)三.探讨与拓展12.某市肆各个时代的商品流畅率y (%)和商品零售额x (万元)材料如下:散点图显示出x 都证实,流畅率y 决议于商品的零售额x ,表现着经营范围效益,假定它们之间消失关系式:y =a +bx .试依据上表数据,求出a 与b 的估量值,并估量商品零售额为30万元时的商品流畅率.答案1. 8.10.解 画出散点图如图(1)所示,不雅察可知y 与x 近似是反比例函数关系.设y =k x (k ≠0),令t =1x ,则y =kt .可得到y 关于t 的数据如下表:画出散点图如图(2),是以可应用线性回归模子进行拟合,易得: b =∑5i =1tiyi -5t y ∑5i =1t2i -5t 2≈4.134 4,a =y -b t ≈0.791 7,所以y =4.134 4t +0.791 7,所以y 与x 的回归方程是y =4.134 4x +0.791 7.11.解 对y =ab xe 0双方取对数,得ln y =ln a e 0+x ln b ,令z =ln y , 则z 与x 的数据如下表:由z =ln a e 0+a e 0≈, 即z =+0.047 7x ,所以y =×x.12.解 设u =1x,则y ≈a +bu ,得下表数据:进而可得n =10,u ≈0.060 4,y =, ∑i =110u2i -10u 2≈0.004 557 3, ∑i =110u i y i -10u y ≈0.256 35,b ≈0.256 350.004 557 3≈,a =y -b ·u ≈-0.187 5,所求的回归方程为y =-0.187 5+56.25x.当x =30时,y =1.687 5,即商品零售额为30万元时,商品流畅率为1.687 5%.。
多元线性回归模型一、单项选择题1.在由n = 30的一组样本估计的、包含3个解释变量的线性回归模型中,计算得多重决定 系数为,则调整后的多重决定系数为(D ) A. B. C. 下列样本模型中,哪一个模型通常是无效 的(B )A. G (消费)=500+4(收入)B. Q d (商品需求)=10+4(收入)+ P (价格)C.Qs (商品供给)=20+ P (价格)D. 1 (产出量)=L 0'(劳动)£”(资本)3 .用一组有30个观测值的样本估计模型工=b 0 + b i x i t + b 2x 21 + u t 后,在的显著性水平上对b i 的显著性作t 检验,则b i 显著地不等于零的条件是其统计量t 大于等于(Ct (30) t (28) t (27) F (1,28)A. 0.05B. 0.025C. 0.025D. 0.025ln y = ln b + b In x + u , b ,,4 .模型 乙 0 i t t 中,i 的实际含义是(B )A. x 关于y 的弹性B. y 关于x 的弹性C. x 关于y 的边际倾向D. y 关于x的边际倾向5、在多元线性回归模型中,若某个解释变量对其余解释变量的判定系数接近于1,则表明 模型中存在( C )A.异方差性B.序列相关C.多重共线性D.高拟合优度 6 .线性回归模型y = b + bx + b x + ... + b x + u 中,检验H :b = 0(i = 0,1,2,...k ) 时,所用的统计量服从(1 C 2 22 k kt t 0 t (n-k+1) (n-k-2) (n-k-1) (n-k+2)7 . 调整的判定系数与多重判定系数之间有如下关系( D )— n — 1— n — 1 A. R 2 = ------------ R 2B. R 2 = 1 ------------- R 2n 一 k 一 1 n 一 k 一 1 n 一 1n 一 1 ~C. R 2 = 1 ----------- (1+ R 2)D, R 2 = 1 ----------- (1-R 2)n 一 k 一 1n 一 k 一 18 .关于经济计量模型进行预测出现误差的原因,正确的说法是(C )。
第10课时线性回归方程(1)
分层训练
1.长方形的面积一定时,长和宽具有( ) (A)不确定性关系 (B)相关关系 (C)函数关系 (D)无任何关系 2.三点(3,10),(7,20),(11,24)的线性回归方程是 ( )
(A) x y
175ˆ-= (B) x y 517ˆ+= (C) x y 517ˆ-= (D) x y 517ˆ+-= 3.已知线性回归方程为:81.050.0ˆ-=x y
,则x =25时,y 的估计值为________ 4.一家保险公司调查其总公司营业部的加班效果,收集了10周中每周加班时间y (小时)与签发新保单数目x
则y 关于x 估计的线性回归方程为____________________(保留四位有效数字) 5
求y 与x 的线性回归方程。
(小数点后保留两位有效数字)
思考∙运用
6.在某种产品表面进行腐蚀刻线试验,得到腐蚀深度y 与腐蚀时间x 之间相应的一组观察值如下表:
y (万元),有如下的统计资料:
试求:(1)线性回归方程a bx y
+=ˆ的回归系数a , b ; (2)估计使用年限为10年时,维修费用是多少?
本节学习疑点:
6.4.1 线性回归方程(1)
1.C 2.D 3.11.69
4.x y
003585.01181.0ˆ+= 5.x y
96.168.183ˆ+= 6.x y
304.036.5ˆ+= 7.(1) 23.1=b , 08.0=a
(2) 线性回归方程是 08.023.1ˆ+=x y
当x=10时,38.1208.01023.1ˆ=+⨯=y
即估计使用10年时的维修费用是12.38万元。
第3章线性回归:预测未来趋势课后习题答案一、考考你1.下列哪一项C 不是机器学习必备的一个要素。
A.样本数据B.模型C.目标标签D.算法2.监督学习与无监督学习最大的区别是D 。
A.先验知识B.学习算法C.学习方法D.有无标签3.线性回归模型要解决的问题是D 。
A.找到自变量与因变量之间的函数关系B.模拟样本数据曲线C.数据与时间的变化关系D.尽量用一条直线去拟合样本数据4.梯度下降法的目标是B 。
A.尽快完成模型训练B.寻找损失函数的最小值C.提供算法效率D.提高模型性能5.哪一项D 不是DataFrame在数据处理方面广泛应用的主要优势。
A.支持多类型数据B.检索数据灵活C.修改数据方便D.优于矩阵运算二、亮一亮1.采用哪些方案可有效提高预测房屋价格模型的质量,请尝试并验证你的想法。
参考答案:可以考虑采用以下措施:(1)增加模型训练样本的规模;(2)增加描述房屋的特征维度;(3)尝试调节模型参数。
2.为什么要进行模型的训练、测试和评价?请讨论并阐述你的理由。
参考答案:你可以把机器想象成一个小孩子,你带小孩去动物园玩,去认识动物园里的很多动物。
简单起见,我们先考虑二元分类问题,你告诉小孩这个动物是狗,那个也是狗。
但突然一只猫跑过来,你告诉他,这个不是狗而是猫,久而久之,小孩就会产生认知模式,这个学习过程就叫“训练”,所形成的认知模式就是“模型”。
多次训练之后,若这时再跑过来一个动物,你问小孩,这个是狗吗?他回答是或否,这个就叫“测试”,而小孩不一定每次都能正确识别你指向的动物,因此你需要评估这个训练的模型的有效性,并不断纠正小孩的错误回答,强化这个训练的模型有效性,这个就叫“评价”。
由以上分析不难看出,我们只有训练出模型并经过大量样本的测试,经评价指标的评判证明了这个模型的有效性后,才可以真正将这个模型应用于生活和工作中的实用场景。
三、帮帮我1.请尝试采用随机梯度下降回归SGDRegressor模型来预测投保人医疗费用,将预测效果与案例2进行对比。
第二章 简单线性回归模型练习题一、术语解释 1 解释变量 2 被解释变量 3 线性回归模型 4 最小二乘法 5 方差分析 6 参数估计 7 控制 8 预测 二、填空1 在经济计量模型中引入反映( )因素影响的随机扰动项t ξ,目的在于使模型更符合( )活动。
2 在经济计量模型中引入随机扰动项的理由可以归纳为如下几条:(1)因为人的行为的( )、社会环境与自然环境的( )决定了经济变量本身的( );(2)建立模型时其他被省略的经济因素的影响都归入了( )中;(3)在模型估计时,( )与归并误差也归入随机扰动项中;(4)由于我们认识的不足,错误的设定了( )与( )之间的数学形式,例如将非线性的函数形式设定为线性的函数形式,由此产生的误差也包含在随机扰动项中了。
3 ( )是因变量离差平方和,它度量因变量的总变动。
就因变量总变动的变异来源看,它由两部分因素所组成。
一个是自变量,另一个是除自变量以外的其他因素。
( )是拟合值的离散程度的度量。
它是由自变量的变化引起的因变量的变化,或称自变量对因变量变化的贡献。
( )是度量实际值与拟合值之间的差异,它是由自变量以外的其他因素所致,它又叫残差或剩余。
4 回归方程中的回归系数是自变量对因变量的( )。
某自变量回归系数β的意义,指的是该自变量变化一个单位引起因变量平均变化( )个单位。
5 模型线性的含义,就变量而言,指的是回归模型中变量的( );就参数而言,指的是回归模型中的参数的( );通常线性回归模型的线性含义是就( )而言的。
6 样本观察值与回归方程理论值之间的偏差,称为( ),我们用残差估计线性模型中的( )。
三、简答题1 在线性回归方程中,“线性”二字如何理解?2 用最小二乘法求线性回归方程系数的意义是什么?3 一元线性回归方程的基本假设条件是什么?4 方差分析方法把数据总的平方和分解成为两部分的意义是什么?5 试叙述t 检验法与相关系数检验法之间的联系。
高二第二学期第一章线性回归方程同步练习题(文科)(1)一、选择题1 . 下列两个变量之间的关系哪个不是函数关系( D ) A .角度和它的余弦值 B.正方形边长和面积 C .正n边形的边数和它的内角和 D.人的年龄和身高2.某市纺织工人的月工资(元)依劳动生产率(千元)变化的回归方程为y=50+80x ,则下列说法中正确的是( C )A .劳动生产率为1000元时,月工资为130元B .劳动生产率提高1000元时,月工资提高约为130元C .劳动生产率提高1000元时,月工资提高约为80元D .月工资为210元时,劳动生产率为2000元 3.设有一个回归方程为y=2-1.5x ,则变量x 每增加一个单位时,y 平均 ( C ) A .增加1.5单位 B .增加2单位 C .减少1.5单位 D .减少2单位4.实验测得四组(x ,y )的值为(1,2),(2,3),(3,4),(4,5),则y 与x 之间的回归直线方程为( A )A.y ^=x +1 B.y ^=x +2 C.y ^=2x +1 D.y ^=x -15.由一组样本(x 1,y 1),(x 2,y 2),…,(x n ,y n )得到的回归直线方程y ^=a +bx ,下面有四种关于回归直线方程的论述:(1)直线y ^=a +bx 至少经过点(x 1,y 1),(x 2,y 2),…,(x n ,y n )中的一个点;(2)直线y ^=a +bx 的斜率是∑ni =1x i y i -n x y ∑ni =1x 2i -n x 2;(3)直线y ^=a +bx 必过(x ,y )点; (4)直线y ^=a +bx 和各点(x 1,y 1),(x 2,y 2),…,(x n ,y n )的偏差∑ni =1 (y i -a -bx i )2是该坐标平面上所有的直线与这些点的偏差中最小的直线.其中正确的论述有( D )A .0个 B .1个C .2个 D .3个解析 线性回归直线不一定过点(x 1,y 1),(x 2,y 2),…,(x n ,y n )中的任何一点;b =∑ni =1x i y i -n x y∑ni =1x 2i -n x 2就是线性回归直线的斜率,也就是回归系数;线性回归直线过点(x ,y );线性回归直线是平面上所有直线中偏差∑ni =1(y i -a -bx i )2取得最小的那一条.故有三种论述是正确的,选D. 6.某化工厂为预测产品的回收率y ,需要研究它和原料有效成分含量x 之间的相关关系,现取8对观测值,计算,得∑8i =1x i =52,∑8i =1y i =228,∑8i =1x 2i =478,∑8i =1x i y i =1849,则其线性回归方程为( A ) A.y ^=11.47+2.62x B.y ^=-11.47+2.62x C.y ^=2.62+11.47x D.y ^=11.47-2.62x解析 利用回归系数公式计算可得a =11.47,b =2.62,故y ^=11.47+2.62x . 7. 下列变量之间的关系是函数关系的是( A )A .已知二次函数c bx ax y ++=2,其中a ,b 是已知常数,取b 为自变量,因变量是这个函数的判别式ac b Δ42-=B .光照时间和果树的亩产量C .降雪量和交通事故发生率D .每亩用肥料量和粮食亩产量 8. 列有关线性回归的说法,不正确是( D )A.变量取值一定时,因变量的取值带有一定的随机性的两个变量之间的关系叫做相关关系B.在平面直角坐标系中用描点的方法得到表示具有相关关系的两个变量的一组数据的图形叫做散点图C.线性回归直线方程最能代表观测值x ,y 之间的关系D.任何一组观测值都能得到具有代表意义的回归直线方程 9.已知x 与y 之间的一组数据:则y 对x 的线性回归方程y =bx +A. (2,2) B. (1.5,3.5) C. (1,2) D. (1.5,4)10. 设回归直线方程为y =2-1.5x ,若变量x 增加1个单位,则( C ). A. y 平均增加1.5个单位 B. y 平均增加2个单位 C. y 平均减少1.5个单位 D. y 平均减少2个单位二、填空题11.下列关系中,是相关关系的为 (填序号).①学生的学习态度与学习成绩之间的关系;②教师的执教水平与学生的学习成绩之间的关系; ③学生的身高与学生的学习成绩之间的关系;④家庭的经济条件与学生的学习成绩之间的关系. 答案 ①②12.下列有关线性回归的说法,正确的是 (填序号).①相关关系的两个变量不一定是因果关系②散点图能直观地反映数据的相关程度 ③回归直线最能代表线性相关的两个变量之间的关系④任一组数据都有回归直线方程 答案 ①②③13.下列命题:①线性回归方法就是由样本点去寻找一条贴近这些样本点的直线的数学方法; ②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示;③通过回归直线yˆ=b ˆx +a ˆ及回归系数b ˆ,可以估计和预测变量的取值和变化趋势. 其中正确命题的序号是 .答案 ①②③14.下列关系:①人的年龄与其拥有的财富之间的关系;②曲线上的点与该点的坐标之间的关系;③苹果的产量与气候之间的关系;④森林中的同一树木,其截面直径与高度之间的关系;⑤学生的身高与其学号之间的关系,其中有相关关系的是___①③④_____(填序号).15.已知回归方程为yˆ=0.50x-0.81,则x=25时,y ˆ的估计值为 .答案 11.69 16.下表是某厂1~4由散点图可知,用水量y 与月份x 之间有较好的线性相关关系,其线性回归直线方程是y ^=-0.7x +a ,则a 等于______.解析 x =2.5,y =3.5,∵回归直线方程过定点(x ,y ),∴3.5=-0.7×2.5+a .∴a =5.25. 17.某服装商场为了了解毛衣的月销售量y (件)与月平均气温x (℃)之间的关系,随机统计了某4个月的月销售量与当月平均气温,其数据如下表:由表中数据算出线性回归方程y =bx +a 中的b ≈-2,气象部门预测下个月的平均气温约为6℃,据此估计,该商场下个月毛衣的销售量约为________件.答案 46解析 由所提供数据可计算得出x =10,y =38,又b ≈-2代入公式a =y -b x 可得a =58,即线性回归方程y ^=-2x +58,将x =6代入可得.18.正常情况下,年龄在18岁到38岁的人们,体重y (kg )依身高x (cm )的回归方程为y=0.72x-58.5。
线性回归习题
Company number:【WTUT-WT88Y-W8BBGB-BWYTT-19998】
第9章一元线性回归练习题
一.选择题
1.具有相关关系的两个变量的特点是()
A.一个变量的取值不能由另一个变量唯一确定
B.一个变量的取值由另一个变量唯一确定
C.一个变量的取值增大时另一个变量的取值也一定增大
D.一个变量的取值增大时另一个变量的取值肯定变小
2.下面的各问题中,哪个不是相关分析要解决的问题
A.判断变量之间是否存在关系B.判断一个变量数值的变化对另一个变量的影响
C.描述变量之间的关系强度 D.判断样本所反映的变量之间的关系能否代表总体变量之间的关系
3.根据下面的散点图,可以判断两个变量之间存在()
A.正线性相关关系
B. 负线性相关关系
C. 非线性关系
D. 函数关系
4.下面的陈述哪一个是错误的()
A. 相关系数是度量两个变量之间线性关系强度的统计量
B.相关系数是一个随机变量
C.相关系数的绝对值不会大于1
D.相关系数不会取负值
5.根据你的判断,下面的相关系数取值哪一个是错误的()
A. B. 0.78 C. D. 0
6.如果相关系数r=0,则表明两个变量之间()
A.相关程度很低
B. 不存在任何关系
C .不存在线性相关关系 D.存在非线性关系 7.
下列不属于相关关系的现象是( )
A.银行的年利息率与贷款总额
B.居民收入与储蓄存款
C.电视机的产量与鸡蛋产量
D.某种商品的销售额与销售价格
8.设产品产量与产品单位成本之间的线性相关系数为,这说明二者之间存在着( )
A. 高度相关
B.中度相关
C.低度相关
D.极弱相关 9.在回归分析中,被预测或被解释的变量称为( ) A.自变量 B.因变量 C.随机变量 D.非随机变量
10. 对两变量的散点图拟合最好的回归线,必须满足一个基本的条件是( )
A. 2ˆ()y y ∑-最小
B. 2)(ˆy y ∑-最大
C.2ˆ()y y ∑-最大
D.
2)(ˆy y ∑-最小 11. 下列哪个不属于一元回归中的基本假定( )
A.误差项i ε服从正态分布
B. 对于所有的X ,方差都相同
C. 误差项i ε相互独立
D. 0)ˆ=-i i y
y E ( 12.如果两个变量之间存在着负相关,指出下列回归方程中哪个肯定有误( )
A.x y
75.025ˆ-= B. x y 86.0120ˆ+-= C. x y 5.2200ˆ-= D. x y 74.034ˆ--= 13.对不同年份的产品成本拟合的直线方程为,75.1280ˆx y
-=y 表示产品成本,x 表示不同年份,则可知( )
A.时间每增加一个单位,产品成本平均增加个单位
B. 时间每增加一个单位,产品成本平均下降个单位
C.产品成本每变动一个单位,平均需要年时间
D. 产品成本每减少一个单位,平均需要年时间
14.在回归分析中,F 检验主要是用来检验( )
A .相关关系的显着性 B.回归系数的显着性 C. 线性关系的显着性D.估计标准误差的显着性
15.说明回归方程拟合优度的统计量是( )
A. 相关系数
B.回归系数
C. 判定系数
D. 估计标准误差
16.已知回归平方和SSR=4854,残差平方和SSE=146,则判定系数R 2=( ) %
17. 判定系数R2值越大,则回归方程( ) A 拟合程度越低 B 拟合程度越高
C 拟合程度有可能高,也有可能低
D 用回归方程进行预测越不准确 18. 居民收入与储蓄额之间的相关系数可能是( ) A B 0.9247 C D
19.在对一元回归方程进行显着性检验时,得到判定系数R 2=,关于该系数的说法正确的是( )
A. 该系数越大,则方程的预测效果越好
B. 该系数越大,则由回归方程所解释的因变量的变差越多
C. 该系数越大,则自变量的回归对因变量的相关关系越显着
D. 该回归方程中自变量与因变量之间的相关系数可能小于 20.下列方程中肯定错误的是( )
A. x y
48.015ˆ-=,r= B. x y 35.115ˆ--=, r= - C. x y
85.025ˆ+-=, r= D. x y 56.3120ˆ-=, r= - 21. 若两个变量存在负相关关系,则建立的一元线性回归方程的判定系数R 2的取值范围是( )
A.【0,1】
B. 【-1,0】
C. 【-1,1】
D.小于0的任意数 二. 填空题
1.
当从某一总体中抽取了一样本容量为30的样本,并计算出某两个变量的相关系数为时,我们是否可认为这两个变量存在着强相关性(不能 ) ,理由是(因为该相关系数为样本计算出的相关系数,它的大小受样本数据波动的影响,它是否显着尚需检
验 )。
若不能判断,则我们需要进行( t 检验 )检验,构造的检验统计量为( ),它服从( )分布。
在水平下,该相关关系是否显着( )。
2.如下两图中,图(图1 )的相关系数会大一些。
我们能否用相关系数判断哪个图中数据间的相关性会强一些( 不能 ),理由是(因为图1反映的是线性相关关
系,图2反映的是非线性性相关关系,相关系数只能反映线性相关变量间的相关性的强弱,不能反映非线性相关性的强弱。
)
三. 计算题
1. 从n=20的样本中得到的有关回归结果如下:SSR=80,SSE=60。
现要检验x 与y 之间的
线性关系是否显着。
(1)SSR 的自由度是多少SSE 的自由度是多少
.(1
) SSR 的自由度是1,SSE 的自由度是18。
(2)线性关系检验的统计量F 值是多少
(3)判定系数为多少其含义是什么
在y 的总变差中,由%的变差是由于x 的变动说引起的。
(4)假定x 与y 之间是负相关,计算相关系数。
(
(5)给定显着性水平05.0=α,临界值αF 为,检验x 与y 之间的线性关系是否显着。
因为414
.424=>=αF F
,所以拒绝原假设,x 与y 之间的线性关系显着。
2.从某一行业中随机抽区17家企业,为了解所得产量和生产费用的关系,现对有关数据进行了回归分析,其中所得产量为x (台),生产费用为y (万元),得到如下分析结果:
方差分析表
df SS MS
F Significance
F 回归分析
残差 75
- - 总计 16
500
- -
-
参数估计表
Coefficients 标准误差 t Stat P-value Intercept X Variable
1
(1) 完成上面的方差分析表。
(1)
(2) 在生产费用的总方差中,有多少可以由产量来解释
表明在维护费用的变差中,有85%的变差可由使用年限来解释。
(3) 生产费用与产量的相关系数是多少(保留四位小数)
(4) 写出估计的回归方程并解释回归系数的实际意义。
回归系数为,表示每增加一个单位的产量,该行业的生产费用将平均增长个单位。
(5) 检验方程线性的显着性(05.0=α)。
线性关系显着性检验:
因为Significance F=<05.0=α,所以线性关系显着。
(6) 当使用年限为20时,预测生产费用是多少 当产量为10时,生产费用为万元。
上表是含有三个自变量的多元线性回归模型的Excel 部分输出结果: (1) 这些数据对应的回归方程是什么 (2) 因变量变差中有多少能被模型解释
因变量总体变差中有%可以用模型中的四个自变量解释 (3) 模型整体在统计上显着吗(显着性水平为)说明理由。
因为=<a=,因此模型整体在统计上显着。
(4)模型中所有的自变量都是显着的吗(显着性水平为)如果不是,哪些
不显着从哪里可以看出来
不是所有自变量都显着。
其中,x2和x3变量不显着。
因为x1对应的P值=<,拒绝原假设,即x1显着。
x2对应的P值=>,不拒绝原假设,即x2不显着
x3对应的P值=>,不拒绝原假设,即x3不显着
(5)在其他变量保持不变的情况下,自变量x1每变化一个单位,对应的因变量会
发生多大变化
在其他变量保持不变的情况下,当自变量x1每变化一个单位时,对应的因变量会平均增加个单位,对应的变化区间为(,)
(6)多重共线性什么含义,衡量多重共线性的方法是什么
可以利用相关系数矩阵进行简单判断,在此基础上,通过方差膨胀因子VIF来检验。
多重共线性越严重,VIF值越大。
如果VIF>5时,认为自变量间的相关性高,存在多重共线性问题。