回归分析测试题
- 格式:doc
- 大小:337.50 KB
- 文档页数:14
第一章测试1【多选题】(2分)当一个经济问题的回归模型通过了各种统计检验,且模型具有合理的经济意义时,该回归模型就可用于A.经济变量的因素分析B.模型的显著性检验C.进行经济预测D.给定被解释变量值来控制解释变量值2【判断题】(2分)常用的样本数据有时间序列数据和横截面数据。
A.错B.对3【多选题】(2分)随机误差项主要包括以下哪些因素的影响?A.其他随机因素B.样本采集过程中的测量误差C.由于人们认识的局限性或时间、费用、数据质量等的约束未引入回归模型但又对回归被解释变量有影响的因素D.理论模型的设定误差4【判断题】(2分)变量间具有密切关联而又不能由某一个或某一些变量确定另外一个变量的关系称为变量间的统计关系。
A.对B.错5【单选题】(2分)进行回归分析时,假定相关的两个变量()。
A.都不是随机变量B.一个是随机变量,一个不是随机变量C.都是随机变量D.随机或非随机都可以第二章测试1【单选题】(2分)总体平方和SST、残差平方和SSE、回归平方和SSR三者之间的关系是()。
A.SSE=SSR-SSTB.SST=SSR+SSEC.SSR=SST+SSED.SSE=SSR+SST2【单选题】(2分)反映由模型中解释变量所解释的那部分离差大小的是()。
A.残差平方和B.总体平方和C.回归平方和D.样本平方和3【多选题】(2分)古典线性回归模型的普通最小二乘估计量的特性有()。
A.无偏性B.不一致性C.最小方差D.线性4【判断题】(2分)一元线性回归分析中的回归平方和SSR的自由度是1。
A.错B.。
中级经济师基础知识第 1题:单选题(本题1分)某公司产品当产量为1000单位时,其总成本为4000元;当产量为2000单位时,其总成本为5000,则设产量为x,总成本为y,正确的一元回归方程表达式应该是( )。
A、y = 3000 + xB、y = 4000 + 4xC、y = 4000 + xD、y = 3000 + 4x【正确答案】:A【答案解析】:本题可列方程组:设该方程为y = a + bx,则由题意可得:4000 = a + 1000b5000 = a + 2000b 解该方程,得b=1,a=3000,所以方程为y = 3000 + x第 2题:单选题(本题1分)在回归分析中,估计回归系数的最小二乘法的原理是( )。
A、使得因变量观测值与均值之间的离差平方和最小B、使得因变量估计值与均值之间的离差平方和最小C、使得观测值与估计值之间的乘积和最小D、使得因变量观测值与估计值之间的离差平方和最小【正确答案】:D【答案解析】:较偏较难的一道题目。
最小二乘法就是使得因变量的观测值与估计值之间的离差平方和最小来估计参数的一种方法第 3题:多选题(本题2分)关于相关分析和回归分析的说法,正确的的有()A、相关分析可以从一个变量的变化来推测另一个变量的变化B、相关分析研究变量间相关的方向和相关的程度C、相关分析中需要明确自变量和因变量D、回归分析研究变量间相互关系的具体形式E、相关分析和回归分析在研究方法和研究目的有明显区别【正确答案】:BDE【答案解析】:相关分析与回归分析在研究目的和方法上具有明显的区别。
(1)、相关分析研究变量之间相关的方向和相关的程度,无法从一个变量的变化来推测另一变量的变化情况。
(2)、回归分析是研究变量之间相关关系的具体形式第 4题:多选题(本题2分)相关分析与回归分析的区别在于( )。
A、二者的研究对象是不同的B、相关分析无法从一个变量的变化来推测另一个变量的变化情况C、二者的研究目的不同D、相关分析不能指出变量间相互关系的具体形式E、二者的研究方法不同【正确答案】:BCDE【答案解析】:回归分析与相关分析的关系: (一)联系(1)它们具有共同的研究对象。
相关与回归分析试题一、单项选择题1、自然界和人类社会中的诸多关系基本上可归纳为两种类型,这就是( )A.函数关系和相关关系B.因果关系和非因果关系C.随机关系和非随机关系D.简单关系和复杂关系 2、相关关系是指变量间的( )A.严格的函数关系B.简单关系和复杂关系C.严格的依存关系D.不严格的依存关系3.具有相关关系的两个变量的关系是()A.一个变量的取值不能由另一个变量唯一确定B.一个变量的取值由另一个变量唯一决定C.变量之间的一种确定性的数量关系D.变量之间存在的一种函数关系 4.当变量x 的值增加时,变量y 的值也随之增加,那么变量x 和变量y 之间存在着()。
A.正相关系 B.负相关系C.不确定关系D.非线性相关关系 5.下列相关系数的取值不正确的是()A. 0B. -0.96C.0.87D.1.066.两个变量之间的线性相关关系越不密切,相关系数r 值就越接近() A.-1 B.+1D.0 D.大于-1或小于+1 7.相关系数的值越接近-1,表明两个变量间()A.正线性相关关系越弱B.负线性相关关系越强C.负线性相关关系越弱D.正线性相关关系越强 8.回归分析中,被解释的变量称为()A.自变量B.因变量C.随机变量D.非随机变量 9.根据最小二乘法配合线性回归方程是使()A.最小)(=∑2y ˆ-y B.最小)(=∑y ˆ-yC.最小)(=∑2y -y D.最小)(=∑y -y10.回归方程 1.5x 123yˆ+=中回归系数的意思是,当自变量每增加一个单位时,因变量()A.增加1.5个单位B.平均增加1.5个单位C.增加123个单位D.平均增加123个单位11.若回归系数b 大于0,表明回归直线是上升的,此时相关系数r 的值() A.一定大于0 B.一定小于0 C.等于0 D.无法判断 12.在回归分析中,F 检验主要用来检验()A.相关系数的显著性B.回归系数的显著性C.线性关系的显著性D.估计标准误差的显著性13.在多元线性回归方程k k 22110x b x b x b b yˆ++++= 中,回归系数i b 表示() A.自变量i x 每变动一个单位因变量y 的平均变动量 B.自变量i x 每变动一个单位因变量y 的变动总量C.在其他条件不变的情况下,自变量i x 每变动一个单位因变量y 的平均变动量D.在其他条件不变的情况下,自变量i x 每变动一个单位因变量y 的变动总量 14.在多元线性回归分析中,t 检验用来检验()A.总体线性关系的显著性B.各回归系数的显著性C.样本线性关系的显著性D.各相关系数的显著性15.在多元线性回归分析中,如果F 检验表明线性关系显著,则意味着() A.至少有一个自变量与因变量之间的线性关系是显著的 B.所有自变量与因变量之间的线性关系都是显著的C.至少有一个自变量与因变量之间的线性关系是不显著的D.所有自变量与因变量之间的线性关系都是不显著的16.在多元线性回归分析中,若自变量i x 对因变量y 的影响很小,则回归系数i b () A.可能接近0 B.可能接近1 C.可能小于0 D.可能大于1 二、多项选择题1.下列关系中属于相关关系的是()A.家庭收入与消费支出的关系B.商品价格与商品需求量的关系C.速度不变,路程与时间的关系D.肥胖程度和死亡率的关系E.利率变动与居民储蓄存款额的关系2.判断变量之间相关关系形态及密切程度的方法有() A.回归方程 B.散点图 C.相关系数 D.回归系数3.回归方程可用于()A.根据自变量预测因变量B.根据给定因变量推算自变量C.确定两个变量之间的相关程度D.解释自变量与因变量的数量依存关系 4.在回归分析中要建立有意义的线性回归方程,应该满足的条件是() A.现象间存在着显著性的线性相关关系 B.相关系数必须等于1C.在两个变量中须确定自变量和因变量D.相关数列的项数应足够多 5.对于简单线性回归方程的回归系数b ,下列说法中正确的是()A.b 是回归直线的斜率B.b 的绝对值介于0~1之间C.b 接近0表明自变量对因变量的影响不大D.b 与r 有相同的符号三、计算题1、为探讨某产品的耗电量x (单位:度)与日产量y (单位:件)的相关关系,随机抽选了10个企业,经计算得到:,,,,要求:①计算相关系数;②建立直线回归方程,解释回归系数的经济意义。
一元和多元回归测试题一、单项选择题(每小题1分,共41分)1.计量经济学是下列哪门学科的分支学科( )。
A .统计学B .数学C .经济学D .数理统计学 2.横截面数据是指( )。
A .同一时点上不同统计单位相同统计指标组成的数据B .同一时点上相同统计单位相同统计指标组成的数据C .同一时点上相同统计单位不同统计指标组成的数据D .同一时点上不同统计单位不同统计指标组成的数据3.同一统计指标,同一统计单位按时间顺序记录形成的数据列是( )。
A .时期数据B .混合数据C .时间序列数据D .横截面数据 4.描述微观主体经济活动中的变量关系的计量经济模型是( )。
A .微观计量经济模型B .宏观计量经济模型C .理论计量经济模型D .应用计量经济模型5.经济计量模型的被解释变量一定是( )。
A .控制变量B .政策变量C .内生变量D .外生变量 6.下面属于横截面数据的是( )。
A .1991-2003年各年某地区20个乡镇企业的平均工业产值B .1991-2003年各年某地区20个乡镇企业各镇的工业产值C .某年某地区20个乡镇工业产值的合计数D .某年某地区20个乡镇各镇的工业产值 7.经济计量分析工作的基本步骤是( )。
A .设定理论模型→收集样本资料→估计模型参数→检验模型B .设定模型→估计参数→检验模型→应用模型C .个体设计→总体估计→估计模型→应用模型D .确定模型导向→确定变量及方程式→估计模型→应用模型8.计量经济模型的基本应用领域有( )。
A .结构分析、经济预测、政策评价B .弹性分析、乘数分析、政策模拟C .消费需求分析、生产技术分析、D .季度分析、年度分析、中长期分析 9.变量之间的关系可以分为两大类,它们是( )。
A .函数关系与相关关系B .线性相关关系和非线性相关关系C .正相关关系和负相关关系D .简单相关关系和复杂相关关系 10.进行相关分析时的两个变量( )。
CPDA考试真题与答案-410.时间序列若无季节变动,则其各月(季)季节指数为0.正确答案:×11.一个硬币掷10 次,其中5 次正面向上的概率是0.5。
正确答案:×12.DBSCAN算法对异常值敏感,因此要在聚类前进行异常值分析。
正确答案:×13.在假设检验中,当我们做出拒绝原假设而接受备择假设的结论时,表示原假设是错误的。
正确答案:×14.召回率(recall)指预测为正的样本中实际为正的样本所占比例。
正确答案:×15.逻辑回归只能用于二分类问题,即输出只有两种,分别代表两个类别。
正确答案:×二、单选题1.Apriori算法用下列哪个做项目集(Itemset)的筛选?A、最小信赖度(Minimum Confidence)B、最小支持度(Minimum Support)C、交易编号(TransactionID)D、购买数量正确答案:B2.为调查我国城市女婴出生体重:北方n1=5385,均数为3.08kg,标准差为0.53kg;南方n2=4896,均数为 3.10kg,标准差为0.34kg,经统计学检验,p=0.0034<0.01,这意味着()A、南方和北方女婴出生体重的差别无统计学意义B、南方和北方女婴出生体重差别很大C、由于P值太小,南方和北方女婴出生体重差别无意义D、南方和北方女婴出生体重差别有统计学意义但无实际意义正确答案:D3.预测分析中将原始数据分为训练数据集和测试数据集等,其中训练数据集的作用在于()A、用于对模型的效果进行无偏的评估B、用于比较不同模型的预测准确度C、用于构造预测模型D、用于选择模型正确答案:C4.一个射手连续射靶22次,其中3次射中10环,7次射中9环,9次射中8环,3次射中7环.则射中环数的中位数和众数分别为()A、8,9B、8,8C、8.5,8D、8.5,9正确答案:B5.一般来说,当居民收入减少时,居民储蓄存款也会相应减少,二者之间的关系是()A、负相关B、正相关C、零相关D、曲线相关正确答案:B6.下表为一交易数据库,请问A → C 的信赖度(Confidence)为()A、75%B、50%C、60%D、66.7%正确答案:D7.如何利用「体重」以简单贝式分类(Naive Bayes)预测「性别」?A、选取另一条件属性B、将体重正规化为到0~1 之间C、将体重离散化D、无法预测正确答案:C8.以下哪个属于时间序列的问题?()A、信用卡发卡银行侦测潜在的卡奴B、基金经理人针对个股做出未来价格预测C、电信公司将人户区分为数个群体D、以上皆是正确答案:B9.数据缺失(Null Value)处理方法可分为人工填补法及自动填补法,下列哪种填补法可得到较准确的结果?A、填入一个通用的常数值,例如填入"未知/UnknownB、把填补遗缺值的问题当作是分类或预测的问题C、填入该属性的整体平均值D、填入该属性的整体中位数正确答案:B10.某市有各类书店500家,其中大型50家,中型150家,小型300家。
安徽省2024年下半年内审师《内部审计基础》:回来分析考试试题一、单项选择题(共25题,每题2分,每题的备选项中,只有1个事最符合题意)1、3、“在个人经济方面遇到了困难”是一种A:行为征兆。
B:事态压力。
C:合理理由。
D:犯罪机会。
2、某计算机应用程序已在公司内部审计的每个工作站得到实施,以便在系统开发人员供应更新版本的状况下,促进更新版本的安装。
由于安装系统跟新版本须要得到行政特许,该计算机应用程序在每个工作站均已获得行政访问许可。
对此,审计师应当A:核实该计算机应用程序在正常工作时间结束之后能接受更新版本,以防止干扰工作。
B:确保该计算机应用程序已就是否应当接受更新版本询问全部用户。
C:确保该计算机应用程序无法用于在工作站执行安装更新版本以外的其他吩咐。
D:核实该计算机应用程序只接受最新的更新版本。
3、为削减与实物资产相关的潜在财务损失,资产应当按一个数额保险,这个数额是A:依据定期的评估确定B:由董事会确定C:依据经济指数例如消费价格指数自动调整D:等于单个资产的账面价值4、平行模拟是一种适合于以下哪项的审计方法A:测试文件上合法的签名;B:总结应收账款确认的结果;C:计算加速折旧费用的数额;D:扫描总分类账文件,以检查非正常交易。
5、某当地银行聘请地区银行的内部审计师供职于该银行的董事会。
这家银行与地区银行在很多同类市场上都存在竞争关系,但更关注消费者的理财业务,而非商业理财。
在接受这个职位时,内部审计师Ⅰ.会违反IIA的道德规范,因为供职于当地银行的董事会可能会与内部审计师所在银行的最佳利益发生冲突。
Ⅱ.会违反IIA的道德规范,因为在供职于当地银行的董事会时所取得的信息可能会影响有关潜在的购并建议。
A:仅有Ⅱ;B:仅有Ⅰ;C:Ⅰ和Ⅱ;D:既非Ⅰ,也非Ⅱ。
6、审计师安排对公司投保状况进行评价。
以下哪项是规划具体的投保进度可利用的最有可能的信息来源?A:现金支出日记账纪录,由相关支票支持的日记分录B:描述保险人员工作目标、职责的公司章程C:当前年度预提保险费用预算以及该账户年初余额D:各类包含保险政策的文件7、某内部审计师正依据《专业实务框架》,评估机构风险管理程序的充分性。
线性回归方程检测试题(附答案)高中苏教数学③ 2. 4线性回归方程测试题一、选择题 1.下列关系属于线性负相关的是()A.父母的身高与子女身高的关系B.身高与手长C.吸烟与健康的关系D.数学成绩与物理成绩的关系答案:C2.由一组数据得到的回归直线方程,那么下面说法不正确的是()A.直线必经过点B.直线至少经过点中的一个点C.直线 a 的斜率为D.直线和各点的总离差平方和是该坐标平面上所有直线与这些点的离差平方和中最小的直线答案:B3.实验测得四组的值为,则y与x之间的回归直线方程为()A.B.C.D.答案:A4.为了考查两个变量x和y之间的线性关系,甲、乙两位同学各自独立作了10次和15次试验,并且利用线性回归方法,求得回归直线分别为l1,l2,已知两人所得的试验数据中,变量x和y的数据的平均值都相等,且分别是,那么下列说法正确的是()A.直线和一定有公共点B.直线和相交,但交点不一定是C.必有直线D.和必定重合答案:A二、填空题 5.有下列关系:(1)人的年龄与他(她)拥有的财富之间的关系(2)曲线上的点与该点的坐标之间的关系(3)苹果的产量与气候之间的关系(4)森林中的同一种树木,其断面直径与高度之间的关系(5)学生与他(她)的学号之间的关系其中,具有相关关系的是.答案:(1)(3)(4)6.对具有相关关系的两个变量进行的方法叫做回归分析.用直角坐标系中的坐标分别表示具有的两个变量,将数据表中的各对数据在直角坐标系中描点得到的表示具有相关关系的两个变量的一组数据的图形,叫做.答案:统计分析;相关关系;散点图7.将一组数据同时减去3.1,得到一组新数据,若原数据的平均数、方差分别为,则新数据的平均数是,方差是,标准差是.答案:;;8.已知回归直线方程为,则可估计x与y增长速度之比约为.答案:三、解答题 9.某商店统计了近6个月某商品的进价x与售价y(单位:元)的对应数据如下:3 5 2 8 9 124 6 3 9 12 14求y对x的回归直线方程.解:,,,,,,回归直线方程为.10.已知10只狗的血球体积及红血球的测量值如下: 45 42 46 48 426.53 6.30 9.257.580 6.99 35 58 40 39 50 5.90 9.49 6.20 6.557.72x(血球体积,ml),y(红血球数,百万)(1)画出上表的散点图;(2)求出y对x的回归直线方程并且画出图形.解:(1)见下图(2),,,设回归直线方程为,则,.图形如下:11.某医院用光电比色计检验尿汞时,得尿汞含量(毫克/升)与消光系数如下表:尿汞含量:2 4 6 8 10 消光系数 64 134 205 285 360 (1)画出散点图;(2)如果y与x之间具有线性相关关系,求回归直线方程;(3)估计尿汞含量为9毫克/升时的消光系数.解:(1)(2)由散点图可知与线性相关,设回归直线方程为.列表: 1 2 3 4 5 2 4 6 8 10 64 134 205 285 360 128 536 1230 2280 3600 ,.回归直线方程为.(3)当时,.。
第一讲作业题为分析不同州的公共教育支出花费在学生身上的教育经费,估计了如下的回归方程:式中,S代表第i个州花费在每个公立学校学生身上的教育经费;Y代表第i个州的资本收入;G代表第i个州公立学校学生的增长率。
1A 说明变量Y与变量G的参数估计值的经济意义。
作业题 21B 你预期变量Y和G的参数符号各是什么?请说明理由。
估计结果与你的预期一致吗?作业题 31C 变量G是用小数来衡量的,因此,当一个州的招生人数增加了10%时,G等于0.1。
如果变量G用百分比的形式来衡量,那么当一个州的招生人数增加了10%时,G等于10。
此时,方程的参数估计值会如何变化?(文字说明即可)作业题 4Jaime Diaz发表在《体育画报》上的一篇论文研究了美国职业高尔夫球协会(PGA)巡回赛中不同距离的推杆次数。
论文中建立了推杆进洞次数百分比(P)关于推杆距离(L,英尺)的关系式。
推杆距离越长,进洞的可能性越小。
可以预测,L的参数估计值为负。
回归方程如下:2A 说明L的参数估计值的经济意义。
作业题 52B 利用该方程估计一个PGA高尔夫球员10英尺推杆进球的次数百分比。
再分别估计1英尺和25英尺的情况。
结果是否符合现实?作业题 62C 上一题的答案说明回归分析时存在什么问题?第二讲作业题作业题 11 查尔斯·拉弗(Charles Lave)发表了一篇驾驶员交通事故率的研究报告。
他的总体结论是驾驶速度的方差(同一公路上汽车驾驶速度差异的程度)是交通事故率的重要决定因素。
在他的分析中,采用两年的全美数据分别估计,得出的回归方程为:第一年:第二年:式中,代表第i个州州际公路上的交通事故数量(单位:车辆每行驶一亿英里的交通事故数);代表一个不确定的估计截距;代表第i个州的驾驶速度的方差;代表第i个州每名驾驶员的平均罚单数量;代表第i个州内每平方英里医院的数量。
1a.考察变量的理论依据,给出其参数符号的预期。
作业题 21b.这两年的参数估计的差异是否值得重视?请说出你的理由。
一、判断题1.数据根据计量尺度不同可以分为分类数据和数值型数据。
正确答案: ×2。
多次抛一枚硬币,正面朝上的频率是1/2。
正确答案:×3.归纳法是一种从个别到一般的推理方法。
正确答案:√4.datahoop中输入的数据必须是数值型的。
正确答案:×5.置信水平是假设检验中犯第一类错误的概率。
正确答案:×6。
当两种产品为互补品时,其交叉弹性小于零.正确答案:√7.时间序列分解法可以有乘法模型和加法模型两种表示方式,其中乘法模型都是相对值来表示预测值的,加法模型都是用绝对值来表示预测值的。
正确答案:×8。
需求定价法的核心思想是力求在需求高涨时收取较低价格,而当需求低落时则收取较高价格。
正确答案:×9.盈亏平衡分析是静态分析,不考虑资金的时间价值和项目寿命周期内的现金流量的变化。
正确答案:√10.决策树算法易于理解好实现,且对缺失值、异常值和共线性都不敏感,是做分类预测的首选算法。
正确答案:×11。
随机森林中的每棵树都不进行剪枝,因此过拟合的风险很高。
正确答案: ×12.当倒传递神经网络(BP神经网络)无隐藏层,输出层个数只有一个的时候,也可以看做是逻辑回归模型。
正确答案: √13.维规约即事先规定所取模型的维数,可以认为是降维的一种.正确答案:×14。
标准差越小,表示离散程度越小,风险越大;反之离散程度越大,风险越小.正确答案:×15.离群点是一个实际观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的。
正确答案:√二、单选题1。
SQL语言中,删除一个表中所有数据,但保留表结构的命令是()A、DELETEB、DROPC、CLEARD、REMORE正确答案:A2。
数据库系统是由()组成的A、数据库、数据库管理系统和用户B、数据文件、命令文件和报表C、数据库文件结构和数据D、常量、变量和函数正确答案: A3。
为分析不同州的公共教育支出花费在学生身上的教育经费,估计了如下的回归方程:式中,S代表第i个州花费在每个公立学校学生身上的教育经费;Y代表第i个州的资本收入;G代表第i个州公立学校学生的增长率。
1A 说明变量Y与变量G的参数估计值的经济意义。
作业题21B 你预期变量Y和G的参数符号各是什么?请说明理由。
估计结果与你的预期一致吗?作业题31C 变量G是用小数来衡量的,因此,当一个州的招生人数增加了10%时,G等于。
如果变量G用百分比的形式来衡量,那么当一个州的招生人数增加了10%时,G等于10。
此时,方程的参数估计值会如何变化?(文字说明即可)作业题4Jaime Diaz发表在《体育画报》上的一篇论文研究了美国职业高尔夫球协会(PGA)巡回赛中不同距离的推杆次数。
论文中建立了推杆进洞次数百分比(P)关于推杆距离(L,英尺)的关系式。
推杆距离越长,进洞的可能性越小。
可以预测,L的参数估计值为负。
回归方程如下:2A 说明L的参数估计值的经济意义。
作业题52B 利用该方程估计一个PGA高尔夫球员10英尺推杆进球的次数百分比。
再分别估计1英尺和25英尺的情况。
结果是否符合现实?作业题62C 上一题的答案说明回归分析时存在什么问题?第二讲作业题作业题11 查尔斯·拉弗(Charles Lave)发表了一篇驾驶员交通事故率的研究报告。
他的总体结论是驾驶速度的方差(同一公路上汽车驾驶速度差异的程度)是交通事故率的重要决定因素。
在他的分析中,采用两年的全美数据分别估计,得出的回归方程为:第一年:第二年:式中,代表第i个州州际公路上的交通事故数量(单位:车辆每行驶一亿英里的交通事故数);代表一个不确定的估计截距;代表第i个州的驾驶速度的方差;代表第i个州每名驾驶员的平均罚单数量;代表第i个州内每平方英里医院的数量。
1a.考察变量的理论依据,给出其参数符号的预期。
作业题21b.这两年的参数估计的差异是否值得重视?请说出你的理由。
期中测试题一、填空题1.变量之间的关系有函数关系、____________. 2. 所有子集回归中自变量选择的准则有: 、 、 .3.回归方程x y E 10)(ββ+=的参数0β、1β的最小二乘估计与最大似然估计等价的条件是 .4.逐步回归方法中当 时,容易出现“死循环”.5.一元线性回归的残差满足性质(1)=)(i e E ;(2)=)var(i e . 6.对线性回归系数显著性检验的t 检验来说,P 值越小,t 值 . 7.在 条件下,回归系数显著性的t 检验、回归方程显著性的F 检验及相关系数的显著性检验是等价的.8.样本容量n 不变而自变量个数p 增加时平方和SST SSR SSE 、、分别如何变化? .9.回归分析的主要应用有:经济结构分析、 、 . 10. 多元线性回归的基本假设有 、 、 .11.处理多重共线性问题时,对自变量作线性变换使之两两正交,然后再对其作回归的方法称为 .12.0ˆβ是线性回归方程x y E 10)(ββ+=中0β的最小二乘估计,则有)ˆ(0βE = ,=)ˆvar(0β . 13.多元线性回归方程的显著性F 检验通过表明 对因变量y 的线性影响显著.14.判断某样本是否是异常数据时,我们常常要借助于 图.15.普通最小二乘估计法的缺点是二、判断题0( )1.简单相关系数8.0=r 时,显著性检验可能没有通过;而简单相关系数2.0=r 时,显著性检验可能通过.( )2.由标准化残差知,当3>i ZRE 时相应的观测值一般是异常值. ( )3.简单相关系数0=r 表明变量间没有任何关系. ( )4.作预测时一般外推的效果要优于内插. ( )5.多重共线性问题在任何情况下都必须处理.( )6.经典线性回归中残差序列12,,,n e e e 是均值为0且等方差的. ( )7.矩阵X X '有多少个特征根近似为0,设计矩阵X 就有多少个多重共线性关系.( )8.对回归系数显著性的t 检验和对回归方程显著性的F 检验是等价的. ( )9.强影响点一定是异常点. ( )10.前进法的缺点是“一棍子打死”.( )11.多重共线性可导致回归系数的符号与实际不符.( )12.10≥j VIF 时,说明自变量j x 与其余自变量间存在多重共线性问题.三、选择题1.自变量选择的一般准则是( ).A ) 少而精B ) 多而全C ) 尽可能使用全模型D ) 尽可能使用选模型 2.等级相关系数可用于检验样本的( )问题.A ) 异方差性B ) 自相关性C ) 多重共线性D ) 回归参数与现实不符 3.线性回归中普通最小二乘估计的缺点是( ).A ) 回归直线被拉向方差大的项;B ) 回归直线被拉向方差小的项;C ) 方差大的项在平方和中所起的作用小;D ) 是有偏估计.4.下列关于相关系数的说法中不正确的有( ).A ) 复相关系数反映了整体与共性指标;B ) 简单相关系数反映了局部和个性指标;C ) 等级相关系数能够反映变量间的曲线关系;D ) 简单相关系数反映变量间线性关系而等级相关系数不能.5.下列关于相关分析与回归分析的说法中不正确的是( ). A ) 变量在回归分析中地位不等,而在相关分析中地位相等; B ) 在相关分析中两变量都是随机变量;C ) 相关分析不仅对变量间线性关系密切程度进行刻画还可以进行预测及控制;D ) 回归分析不仅揭示变量间的关系还可以用回归方程进行预测及控制. 6.用y 表示北京市各开发区的销售收入(百万元),1x 表示招商项目数,2x 表示招商企业注册资本(百万元),作线性回归后得到回归方程为21468.0036.2039.327ˆx x y ++-=,标准化回归方程为*2*1*485.0594.0ˆx x y +=,下面的说法不正确的是( ).A ) 招商项目每增加1个,销售收入增加2.036百万元;B ) 招商企业注册资本每增加1百万元,销售收入增加0.468万元;C ) 招商项目数比招商企业注册资本对销售收入的影响大;D ) 招商项目数比招商企业注册资本对销售收入的影响小.7.在所有子集回归中,如果建立方程的目的是为了预测,应使用( )准则.A ) 2a R 达到最大B ) AIC 达到最小 C ) p C 统计量达到最小 D ) 2R 达到最大8.下列关于逐步回归法的说法中正确的是( ).A ) 逐步回归法的思想是“逐个引入” ;B ) 逐步回归法一定优于所有子集回归;C ) 逐步回归法要求出进αα<;D ) 出进αα<时容易出现“死循环”. 9.样本容量n 与自变量个数p 接近时,下列最不可能发生的是( ). A ) 2R 接近于零; B ) 2R 接近于1,但是显著性检验无法通过; C ) 设计矩阵X 的多重共线性问题严重;D ) 参数的最小二乘估计的方差很大.四、证明题1.0ˆβ是回归方程x y E 10)(ββ+=中参数0β的最小二乘估计,证明:220)(1)ˆvar(σβ⎥⎦⎤⎢⎣⎡+=xx L x n .2.证明标准化回归系数与普通回归系数之间的关系:jyyjj jL L ββˆˆ*=,p j ,,2,1 =.3.帽子矩阵X X X X H ''=-1)(,证明:(1)H H =2;(2)1)(+=p H tr . 4.证明:在一元线性回归中,t 统计量σβˆˆ1xx L t =与F 统计量)2/(1/-=n SSE SSR F 之间满足:2t F =.5.证明:SSE p n 11ˆ2--=σ是2σ的无偏估计.6.λ是矩阵X X '的一个近似为0的特征根,),,,(10'=p c c c c 是对应于特征根λ的单位特征向量,矩阵X 按列分块后为),,,(10p X X X X =,证明:矩阵X 存在多重共线性关系.五、解答题1.考虑过原点的线性回归方程i i i x y εβ+=1,n i ,,2,1 =,误差n εεε,,,21 仍满足基本假设,求1β的最小二乘估计1ˆβ, 并计算1ˆβ的期望及方差. 2.对某地区的居民收入x (万元)与储蓄额y (万元)的历史统计数据作回归,部分结果如下:x y 085.0124.648+-=,000.0,737.300==sig F残差图如下:试分析:(1)给定显著性水平05.0=α,回归方程的显著性检验结果如何? (2)从残差图上分析,这组样本数据存在什么问题?除了残差图外,还有什么方法可以诊断这种问题?(3)样本数据中的问题如何解决?该方法的思想是什么?3.根据某地区1995年-2004年食品需求量y 、可支配收入1x 、食品类价格指数2x 、物价总指数3x 和流动资产拥有量4x的数据资料作线性回归得到的方差分析表和回归系数表如下:b试分析:(1)回归方程和标准化回归方程是什么?(2)在05.0=α时,回归方程的显著性检验和回归系数的显著性检验结果如何? (3)判断数据有无问题,该问题将带来怎样的后果?详述本课程涉及的解决这一问题所有方法及其思想.4. 考察第三产业对我国国际旅游外汇收入的影响,考察旅游外汇收入y (百万美元)与12个影响因素:1x ——农林牧渔服务业;2x ——地质勘察水质管理业;3x ——交通运输仓储和邮电通信业;4x ——餐饮业;5x ——金融保险业;6x ——房地产业;7x ——社会服务业;8x ——卫生服务业;9x ——教育文化艺术;10x ——科学研究和综合艺术;11x ——党政机关;12x ——其他行业.根据变量的设置情况试分析:(1) 直接进行线性回归分析的结果可能会出现什么问题? (2) 详述你所知道的所有自变量选择的方法.5.根据1983年-2000年中国粮食产量与相关投入数据进行回归分析得到的相关结果如下:54321028.0098.0166.0421.0213.644.12816ˆx x x x x y ---++-=,9828.02=R ,11.137=F ,其中:y 表示粮食产量(万吨);1x 表示农业化肥施用量(万公斤);2x 表示粮食播种面积(千公顷);3x 表示受灾面积(公顷);4x 表示农业机械总动力(万千瓦);5x 表示农业劳动力(万人).试分析:(1) 给定05.0=α,回归方程的显著性检验结果如何?(11.3)12,5(05.0=F ) (2) 自变量1x 和5x 的偏回归系数的经济含义是什么?(3) 方程中的偏回归系数合理吗?如果不合理,导致的可能原因是什么?请给出几种解决该问题的方法并阐述各方法的思想.。
高级统计师考试试题一、选择题1. 下列哪个统计方法常用于分析调查数据?A. 因子分析B. 生存分析C. 列联表分析D. 变异系数分析2. 在回归分析中,下列哪种情况下可以用多重共线性进行解释?A. 辅助变量间线性相关较强B. 变量之间存在显著的偏倚C. 自变量之间存在较强的相关性D. 因变量与自变量之间的关系不明显3. 下列关于ANOVA分析的说法中,哪个是正确的?A. 用于两个总体均数比较B. 测试各个总体均数是否相等C. 适用于连续型自变量的分析D. 可以同时考虑两个以上的自变量4. 假设检验的基本步骤中,下列哪一步是最为重要的?A. 提出假设B. 选择显著性水平C. 计算检验统计量D. 得出结论二、填空题5. 皮尔逊相关系数的取值范围是_______。
6. 在进行实证研究时,通常会使用_______软件进行数据分析。
7. 方差分析的检验统计量是基于____________的。
8. 在线性回归中,拟合优度可以通过计算______来评估。
三、简答题9. 请简要介绍一下逻辑回归的原理及应用。
10. 解释什么是显著性水平,以及在假设检验中的作用。
11. 请说明什么是二项分布,以及在统计学中的应用。
四、计算题12. 已知一组数据为:2, 4, 6, 8, 10,请计算其均值和标准差。
13. 假设一医疗调查研究中,甲组病人服用药物A,乙组病人服用药物B,两组病人恢复情况如下:甲组中有30人恢复,20人未恢复;乙组中有25人恢复,15人未恢复。
请用列联表分析的方法,计算药物A和药物B的治疗效果是否显著不同(显著性水平为0.05)。
以上就是高级统计师考试试题,希望考生认真答题,取得优异成绩。
祝各位考生顺利通过考试!。
一、选择题1.一组数据如下表所示:已知变量y 关于x 的回归方程为+0.5ˆbx ye =,若5x =,则预测y 的值可能为( ) A .5eB .112eC .132eD .7e2.给出下列结论:在回归分析中(1)可用相关指数2R 的值判断模型的拟合效果,2R 越大,模型的拟合效果越好; (2)可用残差平方和判断模型的拟合效果,残差平方和越大,模型的拟合效果越好; (3)可用相关系数r 的值判断模型的拟合效果,r 越大,模型的拟合效果越好; (4)可用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适.带状区域的宽度越窄,说明模型的拟合精度越高. 以上结论中,不.正确的是( ) A .(1)(3) B .(2)(3)C .(1)(4)D .(3)(4)3.已知变量y 关于x 的回归方程为0.5ˆbx ye -=,其一组数据如下表所示:若5x =,则预测y 的值可能为( ) A .5eB .112eC .7eD .152e4.给出如下列联表2(10.828)0.001P K ≥≈,2( 6.635)0.010P K ≥≈参照公式()()()()()2n ad bc k a b c d a c b d -=++++,得到的正确结论是( ) A .有99%以上的把握认为“高血压与患心脏病无关” B .有99%以上的把握认为“高血压与患心脏病有关”C .在犯错误的概率不超过0.1%的前提下,认为“高血压与患心脏病无关”D .在犯错误的概率不超过0.1%的前提下,认为“高血压与患心脏病有关”5.某研究性学习小组调查研究学生使用智能手机对学习的影响,部分统计数据如表(参考公式:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.)附表:20()P K k ≥0.15 0.10 0.05 0.025 0.010 0.005 0.0010k2.072 2.7063.841 5.024 6.635 7.879 10.828则下列选项正确的是( )A .有99.5%的把握认为使用智能手机对学习有影响B .有99.5%的把握认为使用智能手机对学习无影响C .有99.9%的把握认为使用智能手机对学习有影响D .有99.9%的把握认为使用智能手机对学习无影响 6.下列命题不正确的是( )A .研究两个变量相关关系时,相关系数r 为负数,说明两个变量线性负相关B .研究两个变量相关关系时,相关指数R 2越大,说明回归方程拟合效果越好.C .命题“∀x ∈R ,cos x ≤1”的否定命题为“∃x 0∈R ,cos x 0>1”D .实数a ,b ,a >b 成立的一个充分不必要条件是a 3>b 37.某工厂为了对新研发的一种产品进行合理定价,将该产品事先拟订的价格进行试销,得到如下数据. 单价(元) 4 5 6 7 8 9 销量(件)918483807567由表中数据求得线性回归方程ˆˆ4=-+y x a ,则15=x 元时预测销量为()A .45件B .46件C .49件D .50件8.小明同学在做一项市场调查时的如下样本数据:x1 3 6 10 y 8a42他由此样本得到回归直线的方程为 2.115.5y x =-+,则下列说法正确的是( ) A .变量x 与y 线性正相关 B .x 的值为2时,y 的值为11.3 C .6a =D .变量x 与y 之间是函数关系9.已知下列命题:①回归直线ˆˆˆy bx a =+恒过样本点的中心(),x y ,且至少过一个样本点;②两个变量相关性越强,则相关系数r 就越接近于1; ③将一组数据的每个数据都加一个相同的常数后,方差不变;④在回归直线方程20.5ˆyx =- 中,当解释变量x 增加一个单位时,预报变量ˆy 平均减少0.5;⑤在线性回归模型中,相关指数2R 表示解释变量x 对于预报变量y 的贡献率,2R 越接近于1,表示回归效果越好;⑥对分类变量X 与Y ,它们的随机变量2K 的观测值k 来说, k 越小,“X 与Y 有关系”的把握程度越大.⑦两个模型中残差平方和越小的模型拟合的效果越好. 则正确命题的个数是( ) A .3B .4C .5D .610.一个车间为了规定工时定额,需要确定加工零件所花费的时间,由此进行了5次实验,收集数据如下: 零件数:个 10 20 30 40 50 加工时间:分钟5971758189由以上数据的线性回归方程估计加工100个零件所花费的时间为( ) 附:回归直线的斜率和截距的最小二乘估计公式分别为1122211()(),()nniii ii i nni ii i x x y y x y nxyb a y bx x x xnx ====---===---∑∑∑∑A .124分钟B .150分钟C .162分钟D .178分钟11.下列说法中正确的是( )A .若两个随机变量的线性相关性越强,则相关系数r 的值越接近于1B .设有一个回归方程ˆ35yx =-,变量x 增加一个单位时,y 平均增加5个单位 C .把某中学的高三年级560名学生编号:1到560,再从编号为1到10的10名学生中随机抽取1名学生,其编号为a ,然后抽取编号为10a +,20a +,30a +,…的学生,这样的抽样方法是分层抽样D .若一组数据0,a ,3,4的平均数是2,则该组数据的方差是5212.由变量x 与y 相对应的一组数据()12,y 、()24,y 、()3 6,y 、()48,y 、()5 10,y 得到的线性回归方程为ˆ 1.212yx =+,则12345y y y y y ++++等于( ) A .88B .90C .92D .9613.某研究员为研究某两个变量的相关性,随机抽取这两个变量样本数据如下表:若依据表中数据画出散点图,则样本点(,)(1,2,3,4,5)i i x y i =都在曲线1y =附近波动.但由于某种原因表中一个x 值被污损,将方程1y =作为回归方程,则根据回归方程1y =和表中数据可求得被污损数据为( )A . 4.32-B .1.69C .1.96D .4.32二、解答题14.从某居民区随机抽取10个家庭,获得第i 个家庭的月收入i x (单位:千元)与月储蓄i y ,(单位:千元)的数据资料,算出101010102111180,20184,720ii i i i i i i i xy x y x ========∑∑∑∑,,附:线性回归方程1221ˆˆˆˆˆˆ,,ni ii nii x y nxyybx a b ay bx xnx ==-=+==--∑∑,其中,x y 为样本平均值. (1)求家庭的月储蓄y 对月收入x 的线性回归方程ˆˆˆybx a =+ ; (2)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.15.某学生对其亲属30人的饮食习惯进行了一次调查,并用如图所示的茎叶图表示30人的饮食指数(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主).(1)根据以上数据完成下列22⨯列联表:主食蔬菜 主食肉类 总计50岁以下 50岁以上 总计(2)能否有99%的把握认为其亲属的饮食习惯与年龄有关?并写出简要分析.参考公式和数据:22()()()()()n ad bc K a b c d a c b d -=++++,n a b c d =+++.()20P K k0.15 0.10 0.05 0.025 0.010 0.005 0.001 0k2.0722.7063.8415.0246.6357.87910.82816.为了解某地区某种产品的年产量x (单位:吨)对价格y (单位:千元/吨)和利润z 的影响,对近五年该农产品的年产量和价格统计如下表:x 1 2345y 7.0 6.55.5 3.82.2(1)求y 关于x 的线性回归方程ˆy bxa =+; (2)若每吨该农产品的成本为3千元,假设该农产品可全部卖出,预测当年产量为多少时,年利润z 取到最大值?(保留两位小数)参考公式:()()()1122211ˆnniii ii i nniii i x x y y x y nx ybx x xnx====---==--∑∑∑∑,ˆa y bx=-,562.7i iix y=∑.17.海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg ),其频率分布直方图如下:(1)网箱产量不低于40kg 为“理想网箱”,填写下面列联表,并根据列联表判断是否有99.9%的把握认为“理想网箱”的数目与养殖方法有关:箱产量40kg <箱产量40kg ≥合计旧养殖法 新养殖法 合计(2)已知旧养殖法100个网箱需要成本50000元,新养殖法100个网箱需要增加成本15750元,该水产品的市场价格为x 元/()15kg x ≥,根据箱产量的频率分布直方图(说明:同一组中的数据用该组区间的中间值作代表),采用哪种养殖法,请给养殖户一个较好的建议,并说明理由. 附参考公式及参考数据:()20P K k ≥0.050 0.010 0.0010k3.841 6.635 10.828()()()()()20n ad bc k a b c d a c b d -=++++18.某种产品的广告费用支出x 与销售额y 之间有如下的对应数据:x2 4 5 6 8y30 40 60 50 70(1)画出散点图; (2)求回归直线方程;(3)据此估计广告费用为10时,销售收入y 的值.用最小二乘法求线性回归方程系数公式 1221112()()()ni ii niniii nii i x x y y b x x y nxyxn x x--∧=-==-=-==----∑∑∑∑,ˆ=-a y bx .线性回归方程ˆˆˆy bx a =+.19.为保护农民种粮收益,促进粮食生产,确保国家粮食安全,调动广大农民生产粮食的积极性,从2014年开始,国家实施了对种粮农民直接补贴的政策通过对2014~2018年的数据进行调查,发现某地区发放粮食补贴额x (单位:亿元)与该地区粮食产量y (单位:万亿吨)之间存在着线性相关关系,统计数据如下表:(1)请根据上表所给的数据,求出y 关于x 的线性回归直线方程ˆˆybx a =+; (2)通过对该地区粮食产量的分析研究,计划2019年在该地区发放粮食补贴7亿元,请根据(1)中所得到的线性回归直线方程,预测2019年该地区的粮食产量.参考公式:()()()121ˆniii ni i x x y y bx x==--=-∑∑,ˆˆay bx =-. 20.某车间为了规定工时额定,需要确定加工零件所花费的时间,为此作了6次试验,得到数据如下:(1)试对上述变量x 与y 的关系进行相关性检验,如果x 与y 具有线性相关关系,求出y 对x 的回归直线方程;(2)根据(1)的结论,你认为每小时加工零件的数量额定为多少(四舍五入为整数)比较合理?附:相关性检验的临界值表()()nniii ix x y y x y nx yr---==∑∑()()()1122211n niii ii i nniii i x x y y x y nx yb x x xnx====---==--∑∑∑∑,y a bx =+42.0≈27.5≈21.随着我国经济的发展,居民收入逐年增长.某地区2014年至2018年农村居民家庭人均纯收入y (单位:千元)的数据如下表:(1)求y 关于t 的线性回归方程;(2)利用(1)中的回归方程,分析2014年至2018年该地区农村居民家庭人均纯收入的变化情况,并预测2019年该地区农村居民家庭人均纯收入为多少?附:回归直线的斜率和截距的最小二乘估计公式分别为()() ()121ni iiniit t y ybt t==--=-∑∑,a y bt=-.22.光伏发电是利用太阳能电池及相关设备将太阳光能直接转化为电能,近几年在国内出台的光伏发电补贴政策的引导下,某地光伏发电装机量急剧上涨,如下表:年份2011年2012年2013年2014年2015年2016年2017年2018年年份代码x12345678新增光伏装机量y兆瓦0.40.8 1.6 3.1 6.17.19.712.2某位同学分别用两种模型:①2y bx a=+,②y dx c=+进行拟合,得到相应的回归方程并进行残差分析,残差图如下(注:残差等于i iy y-)经过计算得()()8172.8i iix x y y=--=∑,()82142iix x=-=∑,()()81686.8i iit t y y=--=∑,()8213570iit t=-=∑,其中2i it x=,8118iit t==∑.(1)根据残差图,比较模型①,②的拟合效果,应该选择哪个模型?并简要说明理由.(2)根据(1)的判断结果及表中数据建立y关于x的回归方程,并预测该地区2020年新增光伏装机量是多少.(在计算回归系数时精确到0.01)附:归直线的斜率和截距的最小二乘估计公式分别为:()()()81821i iiiixx y ybx x==--=-∑∑,a y bx=-.23.通过市场调查,得到某产品的资金投入x(万元)与获得的利润y(万元)的数据,如下表所示:资金投入x23456利润y23569(1)画出数据对应的散点图(2)根据上表提供的数据,用最小二乘法求线性回归直线方程ˆˆˆy bx a=+;(3)现投入资金10(万元),求估计获得的利润为多少万元.24.某地实施乡村振兴战略,对农副产品进行深加工以提高产品附加值,已知某农产品成本为每件3元,加工后的试营销期间,对该产品的价格与销售量统计得到如下数据:单价x(元)6 6.2 6.4 6.6 6.87销量y(万件)807473706558(1)求销量y(件)关于单价x(元)的线性回归方程ˆˆˆy bx a=+;(2)根据销量y关于单价x的线性回归方程,要使加工后收益P最大,应将单价定为多少元?(产品收益=销售收入-成本).参考公式:ˆb=()121()()ni iiniix x y yx x==---∑∑=1221ni iiniix y nxyx nx==--∑∑,ˆˆa y bx=-25.随着智能手机的普及,各类手机娱乐软件也如雨后春笋般涌现. 如表中统计的是某手机娱乐软件自2018年8月初推出后至2019年4月底的月新注册用户数,记月份代码为t (如1t=对应于2018年8月份,2t=对应于2018年9月份,…,9t=对应于2019年4月份),月新注册用户数为y(单位:百万人)(1)请依据上表的统计数据,判断月新注册用户与月份线性相关性的强弱;(2)求出月新注册用户关于月份的线性回归方程,并预测2019年5月份的新注册用户总数.参考数据:91318.5i iit y==∑,921364.2iiy==∑678.2≈.回归直线的斜率和截距公式:()()()1122211ˆn niii ii i nni ii i t t y y t y ntybt t tnt ====---==--∑∑∑∑,ˆˆay bt =-. 相关系数()()niit t y y r --=∑(当||0.75r >时,认为两相关变量相关性很强. )注意:两问的计算结果均保留两位小数26.高一学年结束后,要对某班的50名学生进行文理分班,为了解数学对学生选择文理科是否有影响,有人对该班的分科情况做了如下的数据统计:(Ⅰ)根据数据关系,完成22⨯列联表;(Ⅱ)通过计算判断能否在犯错误的概率不超过2.5%的前提下认为数学对学生选择文理科有影响.附:22()()()()()n adbc K a b c d a c b d -=++++参考答案【参考答案】***试卷处理标记,请不要删除一、选择题 1.C解析:C 【分析】令ln z y ,求得,x z 之间的数据对照表,结合样本中心点的坐标满足回归直线方程,即可求得b ;再令5x =,即可求得预测值y .【详解】将式子两边取对数,得到ln 0.5y bx =+,令ln zy ,得到0.5z bx =+,根据已知表格数据,得到,x z 的取值对照表如下:12342.54x +++==,1346 3.54z +++==, 利用回归直线过样本中心点,即可得3.5 2.50.5b =+, 求得 1.2b =,则 1.20.5z x =+, 进而得到 1.2+0.5x y e =,将5x =代入, 解得136.52y e e ==.故选:C. 【点睛】本题考查利用样本中心点坐标满足回归直线方程求参数值,以及由回归方程进行预测值得求解,属中档题.2.B解析:B 【分析】由2R 越大,模型的拟合效果越好,2R 越大,模型的拟合效果越好,相关系数r 越大,模型的拟合效果越好,带状区域的宽度越窄,说明模型的拟合精度越高,作出判断即可. 【详解】用相关指数2R 的值判断模型的拟合效果,2R 越大,模型的拟合效果越好,故(1)正确; 用残差平方和判断模型的拟合效果,残差平方和越小,模型的拟合效果越好,故(2)不正确;可用相关系数r 的值判断模型的拟合效果,r 越大,模型的拟合效果越好,故(3)不正确;用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适.带状区域的宽度越窄,说明模型的拟合精度越高,故(4)正确; 故选:B 【点睛】本题主要考查了相关系数和相关指数的性质,属于中档题.3.D解析:D 【分析】将式子两边取对数,得到ln 0.5y bx =-,令ln zy ,得到0.5z bx =-,根据题中所给的表格,列出,x z 的取值对应的表格,求得,x z ,利用回归直线过样本中心点,列出等量关系式,求得 1.6b =,得到 1.60.5z x =-,进而得到 1.60.5x y e -=,将5x =代入,求得结果. 【详解】由0.5bx y e -=,得ln 0.5y bx =-,令ln zy ,则0.5z bx =-.2.54x ==, 3.54z ==, ∵(,)x z 满足0.5z bx =-,∴3.5 2.50.5b =⨯-, 解得 1.6b =,∴ 1.60.5z x =-,∴ 1.60.5x y e -=,当5x =时,151.650.52y e e ⨯-==, 故选D. 【点睛】该题考查的是有关回归分析的问题,涉及到的知识点将对数型回归关系转化为线性回归关系,根据回归直线过样本中心点求参数,属于简单题目.4.B解析:B 【分析】根据所给的列联表,利用公式求出这组数据的观测值,把观测值同临界值进行比较,即可得到结果. 【详解】由列联表中的数据可得2K 的观测值,()22110205010307.486 6.63530805060K ⨯-⨯==≥⨯⨯⨯,根据参考数据:2 6.6350.01p K ≥=,∴有10.0199%-=的把握认为高血压与患心脏病有关,即有99%的把握认为高血压与患心脏病有关,故选B. 【点睛】本题考查独立性检验的应用,属于基础题. 独立性检验的一般步骤:(1)根据样本数据制成22⨯列联表;(2)根据公式()()()()()22n ad bc K a b a d a c b d -=++++计算2K 的值;(3) 查表比较2K 与临界值的大小关系,作统计判断.5.A解析:A 【解析】分析:根据列联表中数据利用公式求得2K ,与邻界值比较,即可得到结论. 详解:根据卡方公式求得()223081281020101218K -==⨯⨯⨯,27.89710.828K <<,∴该研究小组有99.5%的把握认为中学生使用智能手机对学生有影响,故选A.点睛:独立性检验的一般步骤:(1)根据样本数据制成22⨯列联表;(2)根据公式()()()()()22n ad bc K a b a d a c b d -=++++计算2K 的值;(3) 查表比较2K 与临界值的大小关系,作统计判断.6.D解析:D 【分析】根据相关系数、相关指数的知识、全称命题的否定的知识,充分、必要条件的知识对四个选项逐一分析,由此得出命题不正确的选项. 【详解】相关系数r 为负数,说明两个变量线性负相关,A 选项正确. 相关指数2R 越大,回归方程拟合效果越好,B 选项正确.根据全称命题的否定是特称命题的知识可知C 选项正确.对于D 选项,由于33a b a b >⇔>,所以33a b >是a b >的充分必要条件,故D 选项错误.所以选D. 【点睛】本小题主要考查相关系数、相关指数的知识,考查全称命题的否定是特称命题,考查充要条件的判断,属于基础题.7.B解析:B计算出,x y 代入回归直线方程,求得a ,再令15x =求得预测值. 【详解】依题意 6.5,80x y ==,代入ˆˆ4=-+yx a 得80 6.54106a =+⨯=,即ˆ4106y x =-+,当15x =时,6010646y =-+=,故选B. 【点睛】本小题主要考查回归直线方程过样本中心点(),x y ,考查利用回归直线方程进行预测,属于基础题.8.C解析:C 【分析】计算样本中线点,根据线性回归方程恒过样本中心点,列出方程,求解即可得到结论. 【详解】由题意,136********,444a ax y +++++++====, 因为y 关于x 的线性回归方程为: 2.115.ˆ5yx =-+, 所以得到14 2.1515.54a+=-⨯+,解得6a =, 根据题意可得变量x 与y 线性负相关,所以A 错, x 的值为2时,y 的值大约为11.3,所以B 错,变量x 与y 之间是相关关系,所以D 错,只有C 是正确的,故选C. 【点睛】该题考查的是有关线性回归的问题,涉及到的知识点有回归直线恒过样本中心点,两个变量之间的正负相关的判断,属于简单题目.9.B解析:B 【分析】由回归直线恒过样本中心点,不一定经过每一个点,可判断①;由相关系数的绝对值趋近于1,相关性越强,可判断②;由方差的性质可判断③;由线性回归直线方程的特点可判断④;相关指数R 2的大小,可判断⑤;由的随机变量K 2的观测值k 的大小可判断⑥;残差平方和越小,模型的拟合效果越好,可判断⑦. 【详解】对于①,回归直线y b x a ∧∧∧=+恒过样本点的中心(x y ,),可以不过任一个样本点,故①错误;对于②,两个变量相关性越强,则相关系数r 的绝对值就越接近于1,故②错误; 对于③,将一组数据的每个数据都加一个相同的常数后,由方差的性质可得方差不变,故对于④,在回归直线方程y ∧=2﹣0.5x 中,当解释变量x 每增加一个单位时, 预报变量y ∧平均减少0.5个单位,故④正确;对于⑤,在线性回归模型中,相关指数R 2表示解释变量x 对于预报变量y 的贡献率, R 2越接近于1,表示回归效果越好,故⑤正确;对于⑥,对分类变量X 与Y ,它们的随机变量K 2的观测值k 来说,k 越大, “X 与Y 有关系”的把握程度越大,故⑥错误;对于⑦,可用残差平方和判断模型的拟合效果,残差平方和越小,模型的拟合效果越好,故⑦正确. 其中正确个数为4. 故选B . 【点睛】本题考查命题的真假判断,主要是线性回归直线的特点和线性相关性的强弱、样本数据的特征值和模型的拟合度,考查判断能力,属于基础题.10.A解析:A 【解析】分析:先求出,x y ,再求出ˆˆ,ba 得到回归直线方程,再令x=100得到加工100个零件所花费的时间.详解:由题得30,75,x y ==121()()(20)(16)(10)(4)70074001000100400100010()niii ni i x x y y b x x ==---⨯-+-⨯-====++++-∑∑,所以775ˆ3054,10ay bx =-=-⨯= 所以754,10y x =+当x=100时,y=124.故答案为A 点睛:本题主要考查回归分析和回归方程的求法,意在考查学生对这些基础知识的掌握水平和基本的计算能力,考查学生解决实际问题的能力.11.D解析:D 【分析】线性相关性越强,r 的值越接近于1;ˆ35yx =-,斜率的意义;系统抽样和分层抽样的区别;方差的计算. 【详解】对于A ,若两个随机变量的线性相关性越强,则相关系数r 的值越接近于1,故A 错误;对于B ,设有一个回归方程ˆ35yx =-,变量x 增加一个单位时,y 平均减少5个单位,故B 错误;对于C ,抽样方法是系统抽样,故C 错误; 对于C ,0,a ,3,4的平均数是2,可得1a =, 方差222215[(02)(12)(32)(42)]42-+-+-+-= ,故D 正确. 故选:D 【点睛】本题考查了线性相关系数,回归方程,系统抽样和分层抽样,方差等基本知识;考查了理解辨析、数据分析能力和数学运算技能,属于容易题.12.D解析:D 【分析】求出x ,代入ˆ 1.212yx =+,可得y ,则12345y y y y y ++++可求解. 【详解】由题中所给的点,可以求得24681065x ++++==,代入ˆ 1.212yx =+,可得 1.261219.2y =⨯+=, 所以12345519.296y y y y y ++++=⨯=, 故选:D. 【点睛】该题考查的是有关回归直线方程的应用,涉及到的知识点有回归直线过样本中心点,属于简单题目.13.C解析:C 【分析】令i m =,根据线性回归中心点在回归直线上,求出y ,得出m ,即可求解.【详解】设缺失的数据为),1,2,3,4,5i x m i ==,则样本(),i i m y 数据如下表所示:其回归直线方程为,由表中数据可得,11.1 2.1 2.3 3.3 4.2 2.65y =++++=(),由线性回归方程ˆ1ym =+得, 1.6m =,即10.21 2.2 3.2 1.65++=(),解得 1.96x =.故选:C . 【点睛】本题考查线性回归方程的应用,换元是解题的关键,掌握回归中心点在线性回归直线上,考查计算求解能力,属于中档题.二、解答题14.(1)0.30.4y x =-;(2)1.7 【分析】(1)根据数据,利用最小二乘法,即可求得y 对月收入x 的线性回归方程回归方程ˆˆyb =x ˆa +; (2)将x =7代入即可预测该家庭的月储蓄. 【详解】(1)由题意知,10101110,80,20ii i i n xy =====∑∑ ,80208,21010x y ∴==== ∴21082160,1064640n x y n x ⋅⋅=⨯⨯=⋅=⨯=1010211184,720i i ii i x y x ====∑∑ 由1221184160ˆ0.3720640ni ii nii x y nxybxnx ==--===--∑∑.ˆˆ20.380.4ay bx =-=-⨯=- 故所求回归方程为0.30.4y x =- (2)将7x =代入回归方程可以预测该家庭的月储蓄为0.370.4 1.7y =⨯-=(千元). 【点睛】本题考查线性回归方程的应用,考查最小二乘法求线性回归方程,考查转化思想,属于中档题.15.(1)列联表见解析;(2)有,详见解析 【分析】(1)根据表格所给数据填写22⨯列联表.(2)计算210 6.635K =>,由此判断有99%的把握认为其亲属的饮食习惯与年龄有关. 【详解】(1)22⨯列联表如下:(2)因为2230(42816)10 6.63512182010K ⨯⨯-⨯==>⨯⨯⨯,所以有99%的把握认为其亲属的饮食习惯与年龄有关. 【点睛】本小题主要考查填写22⨯列联表,考查2K 的计算以及独立性检验的实际应用,考查运算求解能力,属于基础题.16.(1) 1.238.69y x =-+;(2)2.31吨. 【分析】(1)计算出x 和y ,将表格中的数据代入最小二乘法公式求得b 和a 的值,由此可求得回归直线方程;(2)求得z 关于x 的函数解析式为21.23 5.69z x x =-+,利用二次函数的基本性质可求得该函数取得最大值时对应的x 值,由此可得出结论. 【详解】(1)由表格中的数据可得1234535x ++++==,7.0 6.5 5.5 3.8 2.255y ++++==,5162.7i ii x y==∑,52155i i x ==∑,所以,2152251562.7535ˆ 1.2355535i ii i i x y x ybx x==--⨯⨯===--⨯-∑∑,()5 1.2338.69a ∴=--⨯=, 因此,回归直线方程为 1.238.69y x =-+;(2)年利润()28.69 1.233 1.23 5.69z x x x x x =--=-+.当 5.692.312 1.23x =≈⨯时,z 有最大值,因此当 2.31x =吨,年利润z 最大.【点睛】本题考查利用最小二乘法求回归直线方程,同时也考查了利用回归直线方程对总体进行估计,考查计算能力,属于中等题.17.(1)列联表见解析;有99.9%的把握认为“理想网箱”的数目与养殖方法有关;(2)当市场价格大于30元/kg 时,采用新养殖法;等于30元/kg 时,两种方法均可;小于30元/kg 时,采用旧养殖法. 【分析】(1)根据频率分布直方图计算出列联表对应的数据,从而补全列联表;根据公式计算得022.65010.828k =>,从而得到结论;(2)利用频率分布直方图求得新旧两种养殖法的平均数,从而得到两种养殖法获利的函数模型,通过不同市场价格时,两种方法获利的大小来确定养殖法. 【详解】(1)由频率分布直方图可知:箱产量40kg <的数量:旧养殖法:()0.0120.0140.024510025++⨯⨯=;新养殖法:0.00451002⨯⨯=箱产量40kg ≥的数量:旧养殖法:1002575-=;新养殖法:100298-=可填写列联表如下:则:()200982575222.65010.82827173100100k ⨯-⨯==⨯⨯⨯>∴有99.9%的把握认为“理想网箱”的数目与养殖方法有关 (2)由频率分布直方图可得:旧养殖法100个网箱产量的平均数:(127.50.01232.50.01437.50.02442.50.03447.50.0452.50.032x =⨯+⨯+⨯+⨯+⨯+⨯+)57.50.0262.50.01267.50.012547.1⨯+⨯+⨯⨯=新养殖法100个网箱产量的平均数:(237.50.00442.50.0247.50.04452.50.06857.50.04662.50.01x =⨯+⨯+⨯+⨯+⨯+⨯+)67.50.008552.35⨯⨯=设新养殖法100个网箱获利为()f x()()52.351006575052356575015f x x x x ∴=⨯-=-≥设旧养殖法100个网箱获利为()g x()()47.11005000047105000015g x x x x ∴=⨯-=-≥令()()f x g x =,解得:30x =即当30x >时,()()f x g x >;当30x =时,()()f x g x =;当30x <时,()()f x g x <∴当市场价格大于30元/kg 时,采用新养殖法;等于30元/kg 时,两种方法均可;小于30元/kg 时,采用旧养殖法.【点睛】本题考查独立性检验判断二者相关性、利用频率分布直方图解决实际问题,涉及到利用频率分布直方图计算频率和频数、估计总体的平均数的问题,考查统计部分知识的综合应用,属于常考题型.18.(1)散点图答案见解析;(2) 6.517.5y x =+;(3)82.5. 【分析】(1)利用已知条件,直接在给出的直角坐标系中画出散点图即可; (2)求出回归直线方程中的a ,b ,即可求回归直线方程;(3)利用广告费用为10万元时,代入回归直线方程即可求出销售收入y 的值. 【详解】(1)作出散点图如下图所示:(2)求回归直线方程.()12456855x =⨯++++=,1(3040605070)505y =⨯++++=,22222224568145ix=++++=∑,222222304060507013500iy=++++=∑,1380iix y=∑,222513805550 6.5145555i iix y x y b x x--⨯⨯===-⨯-∑∑,50 6.5517.5a y bx =-=-⨯=.因此回归直线方程为 6.517.5y x =+;(3)10x =时,预报y 的值为10 6.517.582.5y =⨯+=. 【点睛】本题考查回归直线方程的求法,散点图的画法,回归直线方程的应用,基本知识的考查.19.(1)ˆ 2.24yx =+(2)大约为19.4万亿吨 【分析】(1)分别求出x 和y ,根据公式,求出ˆb和ˆa ,即可得出线性回归方程; (2)由(1)得ˆ 2.24yx =+,可估计出2019年该地区的粮食产量. 【详解】解:(1)由表中所给数据可得,91012118105x ++++==,2526312721265y ++++==,代入公式()()()51521ˆiii ii x x y y bx x ==--=-∑∑,解得ˆ 2.2b=, 所以ˆˆ4ay bx =-=. 故所求的y 关于x 的线性回归直线方程为ˆ 2.24y x =+. (2)由题意,将7x =代入回归方程ˆ 2.24y x =+, 可得,ˆ19.4y=. 所以预测2019年该地区的粮食产量大约为19.4万亿吨. 【点睛】本题考查求线性回归方程,以及根据回归方程解决实际问题,考查计算能力. 20.(1)答案见解析.(2)96 【分析】(1)根据表中所给数据,计算出||r ,即可求得答案.(2)每小时加工零件的数量,即60x =,将60x =代入ˆ0.65757yx =+,即可求得答案. 【详解】(1)由表中数据得:6117950i ii x y==∑,6219100i i x ==∑,62139158i i y ==∑,35,80x y ==∴0.05||0.997r r ==>从而有95%的把握认为x 与y 之间具有线性相关关系,∴此求回归直线方程是有意义的.计算得:ˆˆ0.657,57ba== ∴ˆ0.65757yx =+ (2)每小时加工零件的数量,即60x =将60x =代入ˆ0.65757y x =+ ˆ96.42y= 故每小时加工零件的数量额定为96比较合理 【点睛】本题考查回归直线方程以及应用,考查基本分析与求解能力,属基本题.21.(1) 1.2 3.6y t =+ (2)2014年至2018年该地区农村居民家庭人均纯收入逐年增加,平均每年增加1.2千元;10.8千元 【分析】(1)根据所给数据利用公式计算,t ,y ,()51=-∑ii tt ,()()51=--∑i ii t ty y ,然后代入()()()1211==--=-∑∑niii ni tty y b tt,a y bt =-求解,再写出回归方程.(2)根据(1)的结果,由b 的正负来判断,将6t =,代入回归方程,预测该地区2019年农村居民家庭人均纯收入. 【详解】(1)由所给数据计算得()11234535t =⨯++++=, ()15678107.25y =⨯++++=,()514101410ii tt =-=++++=∑,()()()()()()()512 2.21 1.200.210.82 2.812iii tty y =--=-⨯-+-⨯-+⨯-+⨯+⨯=∑()()()1211121.210niii ni tty y b t t==--===-∑∑, 7.2 1.23 3.6a y bt =-=-⨯=,所求回归方程为 1.2 3.6y t =+.(2)由(1)知, 1.20b =>,故2014年至2018年该地区农村居民家庭人均纯收入逐年增加,平均每年增加1.2千元.2019年时6t =, 1.26 3.610.8y =⨯+=,故预测该地区2019年农村居民家庭人均纯收入约为10.8千元. 【点睛】本题主要考查线性回归分析,还考查了运算求解的能力,属于中档题.22.(1)选择模型①,详见解析(2)20.190.16y x =+;预测该地区2020年新增光伏装机量为19.16(兆瓦) 【分析】(1)根据残差图分析,看模型的估计值和真实值之间的接近程度,越接近效果相对较好. (2)由(1)可知,y 关于x 的回归方程为2y bx a =+,令2t x =,转化为线性回归分析,则回归直线方程为y bt a =+.,根据提供的数据和公式求解直线方程,得到直线方程。
优创数据在线测试题
优创数据在线测试题
选择题
1.以下哪个是统计学中常用的描述性统计指标?
– A. 方差
– B. 相关系数
– C. 标准误差
– D. 假设检验
2.在回归分析中,“R-squared”是用来衡量什么的指标?
– A. 变量之间的相关性
– B. 拟合优度
– C. 假设检验的结果
– D. 方差的估计
3.在数据分析中,什么类型的图表适合展示分类变量和数量变量的
关系?
– A. 散点图
– B. 直方图
– C. 折线图
– D. 饼图
填空题
1.P值是用来衡量 ___________ 的概率。
2.在回归分析中,自变量对因变量的影响大小可以通过
回归系数的 ___________ 来确定。
简答题
1.请简要解释什么是A/B测试,并举例说明其应用场景。
2.解释一下什么是样本均值和总体均值,并说明它们的
区别和联系。
扩展问题: 3. 简要介绍一下交叉验证在机器学习中的作用,并
解释为什么需要使用交叉验证。
4.请解释一下Pandas库中的DataFrame数据结构是什么,并介绍
一下它的一些常用功能。
以上是一部分关于统计学、数据分析和机器学习的测试题目。
希
望对你的工作有所帮助!。
测试题1.下列说法中错误的是()A.如果变量x与y之间存在着线性相关关系,则我们根据试验数据得到的点(i=1,2,3,…,n)将散布在一条直线附近B.如果两个变量x与y之间不存在线性相关关系,那么根据试验数据不能写出一个线性方程。
C.设x,y是具有线性相关关系的两个变量,且回归直线方程是,则叫回归系数D.为使求出的回归直线方程有意义,可用线性相关性检验的方法判断变量x与y之间是否存在线性相关关系2.在一次试验中,测得(x,y)的四组值分别是(1,2),(2,3),(3,4),(4,5),则y与x之间的回归直线方程是()A.B.C.D.3.回归直线必过点()A.(0,0)B.C.D.4.在画两个变量的散点图时,下面叙述正确的是()A.预报变量在轴上,解释变量在轴上B.解释变量在轴上,预报变量在轴上C.可以选择两个变量中任意一个变量在轴上D.可以选择两个变量中任意一个变量在轴上5.两个变量相关性越强,相关系数r()A.越接近于0B.越接近于1C.越接近于-1 D.绝对值越接近1 6.若散点图中所有样本点都在一条直线上,解释变量与预报变量的相关系数为()A.0B.1 C.-1 D.-1或1由此她建立了身高与年龄的回归模型,她用这个模型预测儿子10岁时的身高,则下面的叙述正确的是()A.她儿子10岁时的身高一定是145.83B.她儿子10岁时的身高在145.83以上C.她儿子10岁时的身高在145.83左右D.她儿子10岁时的身高在145.83以下8.两个变量有线性相关关系且正相关,则回归直线方程中,的系数()A.B.C.D.能力提升:(1)画出散点图;(2)求每月产品的总成本y与该月产量x之间的回归直线方程。
10.某工业部门进行一项研究,分析该部分的产量与生产费用之间的关系,从这个工业(1)计算x与y的相关系数;(2)对这两个变量之间是否线性相关进行相关性检验;(3)设回归直线方程为,求系数,。
综合探究:11.一只红铃虫的产卵数y和温度x有关。
现收集了7对观测数据列于表中,试建立y参考答案:基础达标:1.B尽管两个变量x与y之间不存在线性相关关系,但是由试验数据仍可求出回归直线方程中的和,从而可写出一个回归直线方程。
2.A由回归直线经过样本点的中心,由题中所给出的数据,将,代入中适合,故选A。
3.D回归直线,必然经过样本点的中心,其坐标为,故选D。
4.B5.D6.B7.C8.A9.解析:(1)画出的散点图如图所示:(2),,,∴,。
所以所求回归直线方程为。
10.解析:,,,,∴,即x与y的相关系数r≈0.808。
(2)因为,所以可以认为x与y之间具有很强的线性相关关系。
(3),。
综合探究:11.解析:散点图如图所示:由散点图可以看出:这些点分布在某一条指数函数的图象的周围。
现在,问题变为如何估计待定参数c1和c2,我们可以通过对数变换把指数关系变为线性关系。
令,则变换后样本点应该分布在直线(,)的周围。
这样,就可以利用线性回归模型来建立y和x之间的非线性回归方程了。
由图可看出,变换后的样本点分布在一条直线的附近,因此可以用线性回归方程来拟合。
计算得,,,。
设所示的线性回归方程为,则有,,得到线性回归方程,因此红铃虫的产卵数对温度的非线性回归方程为。
总结升华:(1)在散点图中,样本点并没有分布在某个带状区域内,因此两个变量不呈线性相关关系,所以不能直接利用线性回归方程来建立两个变量之间的关系。
根据已有的函数知识,可以发现样本点分布在一条指数函数曲线的周围,其中c1和c2是待定参数。
(2)选择适当的非线性回归方程。
然后通过变量代换,将非线性回归方程化为线性回归方程,并由此来确定非线性回归方程中的未知参数。
(3)由散点图来挑选一种跟数据拟合得最好的函数时,往往有回归分析撰稿吕宝珠审稿谷丹责编:严春梅课程标准的要求回归分析的基本思想及其初步应用:(1)理解回归分析是对具有相关关系的两个变量进行统计分析的一种常用的方法;理解解释变量与预报变量的相关关系是一种非确定性关系;(2)能读或画出两个变量的散点图,并能根据散点图来粗略判断两个变量是否线性相关;(3)理解线性回归模型;(4)理解样本相关系数是衡量两个变量之间线性相关性强弱的参数的意义,了解样本相关系数的具体计算公式.(5)了解解释变量和随机变量的组合效应的含义及表示总的效应的参数:总偏差平方和;了解样本的数据点和它在回归直线上相应位置的残差是随机误差的效应的意义及随机误差的效应(即各个样本的各个点的随机误差的效应的平方和)的参数:残差平方和;了解表示解释变量效应的参数:回归平方和;了解刻画回归效果的相关指数的含义及计算公式。
(有关计算公式只要求了解含义,不须记忆下来,考试时会给出相关公式的).(6)了解残差分析的方法及意义,会读或会作残差图.重点和难点分析回归分析的基本思想及其初步应用。
内容精讲1.相关关系:当自变量一定时,因变量的取值带有一定的随机性的两个变量之间的关系称为相关关系相关关系与函数关系的异同点如下:相同点:均是指两个变量的关系。
不同点:函数关系是一种确定的关系;而相关关系是一种非确定关系;函数关系是自变量与因变量之间的关系,这种关系是两个非随机变量的关系;而相关关系是非随机变量与随机变量的关系.2.回归分析:一元线性回归分析:对具有相关关系的两个变量进行统计分析的方法叫做回归分析。
通俗地讲,回归分析是寻找相关关系中非确定性关系的某种确定性。
对于线性回归分析,我们要注意以下几个方面:(1)回归分析是对具有相关关系的两个变量进行统计分析的方法。
两个变量具有相关关系是回归分析的前提。
(2)散点图是定义在具有相关系的两个变量基础上的,对于性质不明确的两组数据,可先作散点图,在图上看它们有无关系,关系的密切程度,然后再进行相关回归分析。
(3)求回归直线方程,首先应注意到,只有在散点图大至呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义。
3.散点图:表示具有相关关系的两个变量的一组数据的图形叫做散点图.散点图形象地反映了各对数据的密切程度。
粗略地看,散点分布具有一定的规律。
4. 回归直线设所求的直线方程为,其中a、b是待定系数.,,相应的直线叫做回归直线,对两个变量所进行的上述统计分析叫做回归分析。
5.相关系数:相关系数是因果统计学家皮尔逊提出的,对于变量y与x的一组观测值,把=叫做变量y与x之间的样本相关系数,简称相关系数,用它来衡量两个变量之间的线性相关程度.6.相关系数的性质:≤1,且越接近1,相关程度越大;且越接近0,相关程度越小.7.显著性水平:显著性水平是统计假设检验中的一个概念,它是公认的小概率事件的概率值。
它必须在每一次统计检验之前确定。
8.显著性检验:由显著性水平和自由度查表得出临界值,显著性水平一般取0.01和0.05,自由度为n-2,其中n是数据的个数在“相关系数检验的临界值表”查出与显著性水平0.05或0.01及自由度n-2(n为观测值组数)相应的相关数临界值r0.05或r0.01;例如n=7时,r0.05=0.754,r0.01=0.874 求得的相关系数r和临界值r0.05比较,若r>r0.05,上面y与x是线性相关的,当≤r0.05或r0.01,认为线性关系不显著。
典型例题:1.一个工厂在某年里每月产品的总成本y(万元)与该月产量x(万件)之间由1)画出散点图;2)检验相关系数r的显著性水平;3)求月总成本y与月产量x之间的回归直线方程.,,,,1)画出散点图:2)在“相关系数检验的临界值表”查出与显著性水平0.05及自由度12-2=10相应的相关数临界值r0.05=0.576<0.997891, 这说明每月产品的总成本y(万元)与该月产量x(万件)之间存在线性相关关系。
3)设回归直线方程,利用,计算a,b,得b≈1.215, ,∴回归直线方程为:2.在7块并排、形状大小相同的试验田上进行施化肥量对水稻产量影响的试验,1)画出散点图;2)检验相关系数r的显著性水平;3)求月总成本y与月产量x之间的回归直线方程。
解析:1)画出散点图如下:,,,,,在“相关系数检验的临界值表”查出与显著性水平0.05及自由度7-2=5相应的相关数临界值r0.05=0.754<0.9733,这说明水稻产量与施化肥量之间存在线性相关关系。
3)设回归直线方程,利用计算a,b,得a=399.3-4.75×30≈257,则回归直线方程3.已知某地每单位面积菜地年平均使用氮肥量xkg与每单位面积蔬菜年平均产量(1)求x与y之间的相关系数,并检验是否线性相关;(2)若线性相关,求蔬菜产量y与使用氮肥量之间的回归直线方程,并估计每单位面积施肥150kg时,每单位面积蔬菜的年平均产量。
分析:(1)使用样本相关系数计算公式来完成;(2)查表得出显著性水平0.05与自由度15-2相应的相关系数临界比较,若则线性相关,否则不线性相关。
解析:,,,,。
故蔬菜产量与放用氮肥量的相关系数。
由于n=15,故自由度15-2=13。
由相关系数检验的临界值表查出与显著水平0.05及自由度13相关系数临界值,则,从而说明蔬菜产量与氮肥量之间存在着线性相关关系。
(2)设所求的回归直线方程为,则,,∴回归直线方程为。
点评:求解两个变量的相关系数及它们的回归直线方程的计算量较大,需要细心、谨慎地计算。
如果会使用含统计的科学计算器,能简单得到,,,,这些量,也就无需有制表这一步,直接算出结果就行了。
另外,利用计算机中有关应用程序也可以对这些数据进行处理。
4.假设关于某设备的使用年限x和所支出的维修费用y(万元),有如下的统计若由资料可知y对x呈线性相关关系。
试求:(1)线性回归方程;(2)估计使用年限为10年时,维修费用是多少?分析:本题为了降低难度,告诉了y与x间呈线性相关关系,目的是训练公式的使用。
解析:,,,于是,。
∴线性回归方程为:。
(2)当x=10时,(万元)即估计使用10年时维修费用是12.38万元。
点评:本题若没有告诉我们y与x间是呈线性相关的,应首先进行相关性检验。
如果本身两个变量不具备线性相关关系,或者说它们之间相关关系不显著时,即使求出回归方程也是没有意义的,而且其估计与预测也是不可信的。