人大统计第三版第九章课后94
- 格式:doc
- 大小:113.02 KB
- 文档页数:6
《统计学概论》第九章课后练习题答案《统计学概论》第九章课后练习答案一、思考题1.什么是国民经济核算?P281国民经济核算的作用有哪些?P282 2.我国国民经济核算体系的开展大致经历了哪些阶段?P283-P287 3.简述我国国民经济核算体系的根本框架。
P2884.什么是常住单位和非常住单位?试举例说明。
P287 –P289 5.什么是机构单位?机构单位有哪些特点? 6.国民经济核算的生产范围包括哪些?7.简述我国现行的国民经济行业分类及三次产业分类。
8.如何界定国民经济核算中的资产范围? 9.什么是总产出、中间消耗和增加值? 10.简述国内生产总值的三种不同计算方法。
11.什么是直接消耗系数?直接消耗系数的大小主要受哪些因素的影响?12.简述财产收入的内容和类别。
13.简述国内生产总值、国民总收入和国民可支配收入之间的关系。
14.什么是经常转移和资本转移?两者有何区别? 15.国民资产负债核算中对资产是怎样进行分类的? 16.简述收入使用核算的主要核算内容。
17.简述SNA对金融资产的分类。
18.简述国际收支平衡表的工程内容及其与国际收支头寸表的区别。
二、单项选择题1.划分国内经济活动和国外经济活动的根本依据是〔〕。
A.基层单位和机构单位 B.常住单位和非常住单位 C.机构单位和机构部门D.基层单位和产业部门2.有权拥有资产和承当负债,能够独立从事经济活动和其他实体进行交易的经济实体称为〔〕。
A.常住单位 B.非常住单位 C.基层单位 D.机构单位 3.常住单位定义中的经济领土不包括〔〕。
A.领土、领海、领空 B.具有海底开采管辖权的大陆架C.驻外使馆和领馆用地 D.国外驻该国的使馆和领馆用地 4.产品生产过程中的投入〔〕。
A.就是中间消耗 B.就是最初投入 C.包括中间投入和最初投入两局部 D.以上都不对 5.投入产出表的第Ⅰ象限主要反映各产业部门之间的〔〕。
A.技术联系 B.经济联系 C.技术经济联系 D.中间消耗关系解析:第I象限是由名称相同、数目一致的假设干个产业部门纵横交叉形成的棋盘式表格。
9.1(1)设原假设为H:不同收入群体对某种特定商品的购买习惯相同:即不同收入群体对某种特定商品的购买习惯不完全相同H1(2)由SPSS计算可得χ2值为17.626(3)自由度=(3-1)×(4-1)=6,当α=0.1时,χ0.12(6)=10.64∵χ2=17.626>10.64=χ0.12(6)故拒绝原假设,即不同收入群体对某种特定商品的购买习惯不完全相同。
(4)由SPSS计算可得φ系数为0.183、c系数为0.180、V系数为0.1299.2解:设原假设为H0:现在情况与经验数据相比没有发生变化;H1:现在情况与经验数据相比发生了变化。
由已知条件可得χ2值为:χ2=(28−0.1×200)20.1×200+(56−0.2×200)20.2×200+(48−0.3×200)20.3×200+(36−0.2×200)20.2×200+(32−0.2×200)20.2×200=14P[χ2(5−1)>14]=0.007295<0.1=α,故拒绝原假设。
9.3设原假设为H0:π1=π2=π3=π4(即阅读习惯与文化程度无关)H1:π1,π2,π3,π4不完全相等(即阅读习惯与文化程度有关)表中各项的期望值:E11=n1×n1n=77×50254=15.16E12=n2×n1n=91×50254=17.91E13=n3×n1n=42×50254=8.27E14=n4×n1n=44×50254=8.66E21=n1×n2n=77×44254=13.34E22=n2×n2n=91×44254=15.76E23=n3×n2n=42×44254=7.28E24=n4×n2n=44×44254=7.62E31=n1×n3n=77×95254=28.80E32=n2×n3n=91×95254=34.04E33=n3×n3n=42×95254=15.71E34=n4×n3n=44×95254=16.46E41=n1×n4n=77×65254=19.70E42=n2×n4n=91×65254=23.29E43=n3×n4n=42×65254=10.75E44=n4×n4n=44×65254=11.26所以χ2=(6-15.16)2/15.16+(12-13.34)2/13.34+……+(13-11.26)2/11.26=31.86。
高中数学第九章统计笔记重点大全单选题1、国内生产总值(GDP)指按市场价格计算的一个国家(或地区)所有常住单位在一定时期内生产活动的最终成果.下图是我国2014~2018年连续5年的GDP及增速图,则下列结论错误的是()A.连续5年中我国GDP保持6%以上的增长B.2014~2018年我国GDP增速整体呈现下降趋势C.2018年GDP为这5年最高,GDP增速为这5年最低D.2018年GDP相对2014年GDP增长了一倍以上答案:D分析:根据表中的数据,依次分析各选项即可得答案.解:根据表中数据,对于A选项,2018年国民生产总值增长率最低,为6.6%左右,故连续5年中我国GDP保持6%以上的增长,正确;对于B选项,根据增长率折线图可知,2014~2018年我国GDP增速整体呈现下降趋势,故正确;对于C选项,2018年GDP为90万亿,为5年最高,GDP增速为6.6%左右,为5年最低,故正确;对于D选项,由表中数据,2014年GDP为64万亿左右,2018年GDP为90万亿左右,故没有增长一倍以上,故错误.故选:D2、每年的3月15日是“国际消费者权益日”,某地市场监管局在当天对某市场的20家肉制品店、100家粮食加工品店和15家乳制品店进行抽检,要用分层抽样的方法从中抽检27家,则粮食加工品店需要被抽检()A.20家B.10家C.15家D.25家答案:A分析:确定抽样比,即可得到结果.=20(家).解:根据分层抽样原理知,粮食加工品店需要被抽检27×10020+100+15故选:A.3、为了庆祝中国共产党成立100周年,某学校组织了一次“学党史、强信念、跟党走”主题竞赛活动.活动要求把该学校教师按年龄分为35岁以下,35−45岁,45岁及其以上三个大组.用分层抽样的方法从三个大组中抽,则该学校共有教师取一个容量为10的样本,组成答题团队,已知35−45岁组中每位教师被抽到的概率为124()人A.120B.180C.240D.无法确定答案:C分析:根据抽样过程中每个个体被抽到的概率都相等可得答案.因为在抽样过程中,每位教师被抽到的概率都相等,=240人.所以该学校共有教师10÷124故选:C.4、“中国天眼”为500米口径球面射电望远镜,是具有我国自主知识产权、世界最大单口径、最灵敏的射电望远镜.建造“中国天眼”的目的是()A.通过调查获取数据B.通过试验获取数据C.通过观察获取数据D.通过查询获得数据答案:C分析:直接由获取数据的途径求解即可.“中国天眼”主要是通过观察获取数据.故选:C.5、某工厂的机器上有一种易损元件,这种元件发生损坏时,需要及时维修.现有甲、乙两名工人同时从事这项工作,下表记录了某月1日到10日甲、乙两名工人分别维修这种元件的件数.3件,请利用上表数据估计最少需要增加工人的人数为()A.2B.3C.4D.5答案:A分析:设增加工人后有n名工人,计算出甲、乙两名工人每天维修的元件的平均数后构建关于n的不等式,从而可求最少需要增加工人的人数.设增加工人后有n名工人.因为甲、乙两名工人每天维修的元件的平均数为:110×[(3+5+4+6+4+6+3+7+8+4)+(4+7+4+5+5+4+5+5+4+7)]=10,所以这n名工人每人每天维修的元件的平均数为10n.令10n ≤3,解得n≥103,所以n的最小值为4.为使增加工人后平均每人每天维修的元件不超过3件,至少应增加2名工人.故选:A.6、中国营养学会把走路称为“最简单、最优良的锻炼方式”,它不仅可以帮助减肥,还可以增强心肺功能、血管弹性、肌肉力量等.下图为甲、乙两人在同一星期内日步数的折线统计图:则下列结论中不正确的是()A.这一星期内甲的日步数的中位数为11600B.乙的日步数星期四比星期三增加了1倍以上C.这一星期内甲的日步数的平均值大于乙D.这一星期内甲的日步数的方差大于乙答案:B分析:对于A:直接求出中位数;对于B:求出乙的星期三和星期四步数,计算可得;对于C:分别计算出甲、乙平均数,即可判断;对于D:分别计算出甲、乙方差,即可判断;对于A:甲的步数:16000,7965,12700,2435,16800,9500,11600.从小到大排列为:2435,7965,9500,11600,12700,16000,16800.中位数是11600.故A正确;对于B:乙的星期三步数7030,星期四步数12970.因为129707030≈1.84<2,所以没有增加1倍上.故B不正确;对于C:x甲=17(16000+7965+12700+2435+16800+9500+11600)=11000,x乙=17(14200+12300+7030+12970+5340+11600+10060)=10500.所以x甲>x乙.故C正确;对于D:s甲2=17[(16000−11000)2+(7965−11000)2+(12700−11000)2+(2435−11000)2+(16800−11000)2+(9500−11000)2+(11600−11000)2]≈20958636s乙2=17[(14200−10500)2+(12300−10500)2+(7030−10500)2+(12970−10500)2+(5340−10500)2+(11600−10500)2+(10060−10500)2]≈9014429所以s甲2>s乙2.故D正确;故选:B.7、“二万五千里长征”是1934年10月到1936年10月中国工农红军进行的一次战略转移,是人类历史上的伟大奇迹,向世界展示了中国工农红军的坚强意志,在期间发生了许多可歌可泣的英雄故事.在中国共产党建党100周年之际,某中学组织了“长征英雄事迹我来讲”活动,已知该中学共有高中生2700名,用分层抽样的方法从该校高中学生中抽取一个容量为45的样本参加活动,其中高三年级抽取了14人,高二年级抽取了15人,则该校高一年级学生人数为()A.720B.960C.1020D.1680答案:B解析:根据分层抽样中样本容量比与总体容量比相等可得.由题意高一抽取的学生为45−14−15=16.设高一学生数为n,则n2700=1645,解得n=960.故选:B.8、某射击运动员6次的训练成绩分别为:88,91,89,88,86,85,则这6次成绩的第70百分位数为()A.89B.89.5C.90D.90.5答案:A分析:先将数据按从小到大的顺序排列,计算6×70%=4.2不是整数,则所求的是从小到大排列的第5位数6次考试数学成绩从小到大为:85,86,88,88,89,91,6×70%=4.2,∴这名学生6次训练成绩的第70百分位数为89 .故选:A多选题9、为评估一种农作物的种植效果,选了10块地作试验田.这10块地的亩产量(单位:kg)互不相等,且从小到大分别为x1,x2,⋅⋅⋅,x10,则下列说法正确的有()A.x1,x2,⋅⋅⋅,x10的平均数可以用来评估这种农作物亩产量稳定程度B.x1,x2,⋅⋅⋅,x10的标准差可以用来评估这种农作物亩产量稳定程度C.x10−x1可以用来评估这种农作物亩产量稳定程度D.x1,x2,⋅⋅⋅,x10的中位数为x5答案:BC分析:根据平均数、标准差、极差、中位数的定义即可求解.解:标准差和极差都可以用来评估这种农作物亩产量稳定程度,故BC正确.,故D错.故A错误,中位数为x5+x62故选:BC.10、在新冠疫情期间,全国人民万众一心,众志成城,在抓防控疫情同时,又能促进复工复产.为了响应政府号召,积极恢复生产,某市相关部门对本市1500个大型企业的复工情况进行了调查,调查结果如图所示,则下列说法正确的是()A.其他情况的企业比例为37.4%B.从调查的大型企业中任选一个,该企业是暂未全面恢复生产的概率为0.235C.不超过200个企业倾向于部分岗位恢复生产D.部分岗位恢复生产或暂未复工的企业超过604个答案:AD分析:根据饼图中的数据逐项判断即可.解:对A,100%−23.5%−16.8%−22.3%=37.4%,故A正确;对B,暂未全面恢复生产包括部分岗位恢复生产和暂未复工以及其他,占比为77.7%,故对应概率为0.777,故B错误;对C,倾向于部分岗位恢复生产的企业个数为1500×16.8%=252(个),故C错误;对D,部分岗位恢复生产或暂未复工的企业个数为1500×(16.8%+23.5%)≈605(个),故D正确.故选:AD.11、某地为响应“扶贫必扶智,扶智就是扶知识、扶技术、扶方法”的号召,建立了农业科技图书馆,供农民免费借阅,收集的自2016年至2020年共5年的借阅数据如下表:根据上表,可得y关于x的回归直线方程为y=0.24x+a,下列结论正确的有()A.a=4.68B.4.9,5.1,5.5,5.7,5.8的75%分位数为5.7C.y与x的相关系数r xy>0D.2023年的借阅量一定为6.6万册答案:ABC分析:对A,根据回归直线过样本中心点可得a;对B,根据百分位数的定义可得75%分位数;对C,根据回归直线的斜率可得r xy的正负;对D,根据回归直线的意义可判断.对于A,因为x=15×(1+2+3+4+5)=3,y=15×(4.9+5.1+5.5+5.7+5.8)=5.4,所以5.4=0.24×3+a,得a=4.68,A正确;对于B,因为5×75%=3.75,所以4.9,5.1,5.5,5.7,5.8的75%分位数为5.7,B正确;对于C,由0.24>0,可知C正确;对于D,由A可知回归直线方程为y=0.24×8+4.68=6.6,所以2023年的借阅量约为6.6万册,D错误.故选:ABC.12、PM2.5是衡量空气质量的重要指标,下图是某地7月1日到10日的PM2.5日均值(单位:ug/m3)的折线图,则下列关于这10天中PM2.5日均值的说法正确的是A.众数为30B.中位数是31C.平均数小于中位数D.后4天的方差小于前4天的方差答案:AD分析:根据折线图,由众数,中位数,平均数,方差等概念及公式,逐项判断,即可得出结果.众数即是出现次数最多的数字,由折线图可得,众数为30,即A正确;中位数即是处在中间位置的数字,将折线图中数字由小到大依次排序,得到:17,25,30,30,31,32,34,38,42,126;处在中间位置的数字是:31,32,因此中位数为31.5,即B错;由折线图可得,平均数为:17+25+30+30+31+32+34+38+42+12610=40.5>31.5,故C错;前4天的平均数为:38+25+17+304=27.5,后4天的平均数为42+31+32+304=33.75前4天方差为:s12=(38−27.5)2+(25−27.5)2+(17−27.5)2+(30−27.5)24=58.25,后4天方差为:s22=(42−33.75)2+(31−33.75)2+(32−33.75)2+(30−33.75)24=23.1875,所以后4天的方差小于前4天的方差,故D正确.故选:AD.小提示:本题主要考查由折线图计算众数、中位数、平均数、方差等,属于基础题型.13、某汽车制造厂分别从A,B两类轮胎中各随机抽取了6个进行测试,下面列出了每一个轮胎行驶的最远里程(单位:103km).A类轮胎:94,96,99,99,105,107.B类轮胎:95,95,98,99,104,109.根据以上数据,下列说法错误的是()A.A类轮胎行驶的最远里程的众数小于B类轮胎行驶的最远里程的众数B.A类轮胎行驶的最远里程的极差等于B类轮胎行驶的最远里程的极差C.A类轮胎行驶的最远里程的平均数大于B类轮胎行驶的最远里程的平均数D.A类轮胎的性能更加稳定答案:ABC分析:A.众数为出现次数最多的数;B.极差为最大数减最小的数;C.求出平均数比较大小即可;D.求出方差,方差越小的稳定性更强.A类轮胎行驶的最远里程的众数为99,B类轮胎行驶的最远里程的众数为95,A错误.A类轮胎行驶的最远里程的极差为13,B类轮胎行驶的最远里程的极差为14,B错误.A类轮胎行驶的最远里程的平均数为100+−6−4−1−1+5+76=100,B类轮胎行驶的最远里程的平均数为100+−5−5−2−1+4+96=100,C错误.A类轮胎行驶的最远里程的方差为(94−100)2+(96−100)2+(99−100)2×2+(105−100)2+(107−100)26=643,B类轮胎行驶的最远里程的方差为(95−100)2×2+(98−100)2+(99−100)2+(104−100)2+(109−100)26=763>643,故A类轮胎的性能更加稳定,D正确.填空题14、某学校有高中学生1000人,其中高一年级、高二年级、高三年级的人数分别为320,300,380,为了调查学生参加“社区志愿服务”的意向,现采用分层抽样的方法从该校学生中抽取一个样本量为200的样本,那么应抽取高二年级学生的人数为________答案:60分析:根据分层抽样,每层的抽样比相同计算即可.因为学校有高中学生1000人,抽取一个样本量为200的样本,故应抽取高二年级学生的人数为2001000×300=60.所以答案是:6015、我国在贵州省平塘县修建的500米口径球面射电望远镜(FAST)是目前世界上最大单口径射电望远镜.截至2021年5月,该射电望远镜发现脉冲星逾370颗.脉冲星就是旋转的中子星,每一颗脉冲星每两脉冲间隔时间(脉冲星的自转周期)是一定的,最小的自转周期小到0.0014秒,最长的也不过11.765735秒.某天文研究机构观测并统计了其中93颗脉冲星的自转周期,绘制了如图所示的频率分布直方图.在这93颗脉冲星中,自转周期在2秒至10秒的颗数大约为___________ 颗.答案:79分析:根据频率分布直方图计算出自转周期在2秒至10秒的频率后可求相应的颗数.由频率分布直方图可知,自转周期在0秒至2秒的频率为0.05×2=0.1,自转周期在10秒至12秒的频率为0.025×2=0.05,所以自转周期在2秒至10秒的频率为1-(0.1+0.05)=0.85,所以自转周期在2秒至10秒的颗数大约为0.85×93=79.05≈79.所以答案是:79.16、为了解网课学习效果,组织了一次网上测试.并利用分层抽样的方法从高中3个年级的学生中随机抽取了150人的测试成绩,其中高一、高二年级各抽取了40人,50人,若高三年级有学生1200人,则该高中共有学生_________人.答案:3000解析:先求出高三年级抽取的人数为60人,由分层抽样的性质可得答案.由已知高三年级抽取的学生人数为:150−40−50=60人.设该校高中的学生总数为n,则601200=150n,解得n=3000所以该高中共有学生3000所以答案是:3000解答题17、某校有高中生2000人,其中男女生比例约为5:4,为了获得该校全体高中生的身高信息,采取了以下两种方案:方案一:采用比例分配的分层随机抽样方法,抽收了样本容量为n的样本,得到频数分布表和频率分布直方图.方案二:采用分层随机抽样方法,抽取了男、女生样本量均为25的样本,计算得到男生样本的均值为170,方差为16,女生样本的均值为160,方差为20.频数m p q 6 4(1)根据图表信息,求n,q并补充完整频率分布直方图,估计该校高中生的身高均值;(同一组中的数据以这组数据所在区间中点的值为代表)(2)计算方案二中总样本的均值及方差;(3)计算两种方案总样本均值的差,并说明用方案二总样本的均值作为总体均值的估计合适吗?为什么?答案:(1)n=,q=16,频率分布直方图见解析,身高均值167.2(2)均值为165,方差为43;(3)总样本均值的差为2.2,不合适,理由见解析.分析:(1)利用身高在区间[185,195]的频率和频数即可求n的值,进而可得∀x∈(0,+∞),3x<x3的值,求出各组的频率即可补全频率分布直方图,由平均数的计算公式即可求身高均值;(2)把男生样本记为:x1,x2,x3,⋯,x25,其均值为x,方差为s x2,把女生样本记为:y1,y2,y3,⋯,y25,其均值为y,方差为s y2,则总体样本均值为z=2525+25x+2525+25y,根据方差公式和平均数公式变形即可得样本总体方差.(3)两个方案的均值相减即可求均值差,由于没有进行等比例的分层抽样,每个个体被抽到的可能性不同,代表性较差,因此不合适.(1)因为身高在区间[185,195]的频率为0.008×10=0.08,频数为4,所以样本容量为n=40.08=50,m=0.008×10×50=4,p=0.04×10×50=20,q=50−4−20−6−4=16,所以身高在[165,175)的频率为1650=0.32,小矩形的高为0.032, 所以身高在[175,185)的频率为650=0.12,小矩形的高为0.012, 由此补全频率分布直方图:由频率分布直方图可知:样本的身高均值为:(150×0.008+160×0.04+170×0.032+180×0.012+190×0.008)×10=12+64+54.4+21.6+15.2=167.2,所以由样本估计总体可知,估计该校高中生的身高均值为167.2(2)把男生样本记为:x 1,x 2,x 3,⋯,x 25,其均值为x ,方差为s x 2,把女生样本记为:y 1,y 2,y 3,⋯,y 25,其均值为y ,方差为s y 2,总体样本均值记为z ,方差记为s 2,所以z =2525+25x +2525+25y =25×170+25×16050=165,又因为∑(x i −x )25i=1=∑x i −25x 25i=1=0,所以∑2(x i −x )25i=1(x −z )=2(x −z )∑(x i −x )25i=1=0,同理可得:∑2(y j −y)25j=1(y −z )=0,所以s 2=150[∑(x i −z )2+∑(y j −z)225j=125i=1]=150[∑(x i −x +x −z )2+∑(y j −y +y −z)225j=125i=1]=1{25[s x2+(x−z)2]+25[s y2+(y−z)2]}50{25[16+(170−165)2]+25[20+(160−165)2]}=43,=150(3)两种方案总样本均值的差为167.2−165=2.2,所以用方案二总体样本均值作为总体均值的估计不合适,原因是没有进行等比例的分层抽样,每个个体被抽到的可能性不同,因此代表性较差.18、一个农技站为了考查某种大麦穗生长的分布情况,在一块试验田里抽取了100株麦穗,量得长度如下(单位:cm):6 .5 6.4 6.7 5.8 5.9 5.9 5.2 4.0 5.4 4.65 .8 5.5 6.0 6.5 5.1 6.5 5.3 5.9 5.5 5.86 .2 5.4 5.0 5.0 6.8 6.0 5.0 5.7 6.0 5.56 .8 6.0 6.3 5.5 5.0 6.3 5.2 6.0 7.0 6.46 .4 5.8 5.9 5.7 6.8 6.6 6.0 6.4 5.7 7.46 .0 5.4 6.5 6.0 6.8 5.8 6.3 6.0 6.3 5.65 .3 6.4 5.7 6.7 6.2 5.6 6.0 6.7 6.7 6.05 .6 6.2 6.1 5.3 6.2 6.8 6.6 4.7 5.7 5.75 .8 5.3 7.0 6.0 6.0 5.9 5.4 6.0 5.2 6.06 .3 5.7 6.8 6.1 4.5 5.6 6.3 6.0 5.8 6.3根据上面的数据列出频率分布表,绘制出频率分布直方图,并估计在这块试验田里长度在5.75~6.35 cm之间的麦穗所占的百分比.答案:分布表见解析,直方图见解析,41%分析:首先计算出极差,从而确定组距,再决定分点,最后统计频数,列出频率分布表,画出频率分布直方图,由频率分布表可得试验田里长度在5.75~6.35 cm之间的麦穗所占的百分比.解:(1)计算极差:7.4-4.0=3.4.(2)决定组距与组数:若取组距为0.3,因为3.4≈11.3,需分为12组,组数合适,所以取组距为0.3,组数为12.0.3(3)决定分点:使分点比数据多一位小数,并且把第1小组的起点稍微减小一点,那么所分的12个小组可以是3.95~4.25,4.25~4.55,4.55~4.85,…,7.25~7.55.(4)列频率分布表:.从表中看到,样本数据落在5.75~6.35之间的频率是0.28+0.13=0.41,于是可以估计,在这块试验田里长度在5.75~6.35 cm之间的麦穗约占41%.小提示:本题考查绘制频率分布表及频率分布直方图及其应用,属于基础题.。
第九章档案统计工作第一节档案统计工作概述一、档案统计工作的内容和任务1.档案统计,就是以表册、数字的形式,揭示档案和档案工作的有关情况。
内容很多。
包括档案的基本登记和综合统计两部分。
从统计的对象来看,分为两方面:(1)对档案实体及其管理状况的统计;(2)对档案事业的组织与管理状况的统计;目前,我国档案工作的基本情况统计,分为四个层次:其一,全国档案工作基本情况统计;其二,专业系统档案工作情况统计;其三,地方(包括省、市、地、县各级)档案工作基本情况统计;其四,档案馆、档案室档案工作情况统计。
2.任务是对档案和档案工作的发展情况进行统计调查、统计分析,提供统计资料,实行统计监督。
二、档案统计工作的意义、要求和步骤1.意义(1)是认识档案工作的一种重要手段;(2)可以把定性分析和定量分析结合起来;(3)是档案事业建设的一项重要的基础工作;(4)可以为制定档案工作的方针、政策和编制档案事业发展规划提供提供依据。
2.要求(1)准确性、客观性、科学性(2)遵循全国统计工作现代化的要求,须达到:统计指标体系完整化,统计分类标准化,统计调查工作科学化,统计基础工作规范化,统计计算和数据传输技术现代化,统计服务优质化。
3.步骤包括(1)统计调查(2)统计整理(3)统计分析三、档案统计调查1.统计表报2.专门调查四、档案统计资料的整理统计分组:简单分组和复杂分组五、统计表六、综合指标1.绝对数2.相对数第二节档案的登记一、档案数量和状况登记(一)案卷目录与卷内文件目录(二)档案收进登记簿这是专门记录档案进入档案机构情况的一种登记形式。
主要应用于档案馆和规模较大的档案室。
其具体形式一般为簿册式。
其基本登记进以档案进入档案机构的次数为单位进行登记,即每收进一次档案,无论其数量及全宗所属情况如何,都要在收进登记簿上登记为一个条目。
(三)全宗名册档案馆和规模较大且保管了多个全宗的档案室,对其所管全宗进行逐个登记的一种形式。
统计学第三版答案第一章1.什么是统计学?怎样理解统计学与统计数据的关系?答:统计学是一门收集、整理、显示和分析统计数据的科学。
统计学与统计数据存在密切关系,统计学阐述的统计方法来源于对统计数据的研究,目的也在于对统计数据的研究,离开了统计数据,统计方法以致于统计学就失去了其存在意义。
2.简要说明统计数据的来源答:统计数据来源于两个方面:直接的数据:源于直接组织的调查、观察和科学实验,在社会经济管理领域,主要通过统计调查方式来获得,如普查和抽样调查。
间接的数据:从报纸、图书杂志、统计年鉴、网络等渠道获得。
3.简要说明抽样误差和非抽样误差答:统计调查误差可分为非抽样误差和抽样误差。
非抽样误差是由于调查过程中各环节工作失误造成的,从理论上看,这类误差是可以避免的。
抽样误差是利用样本推断总体时所产生的误差,它是不可避免的,但可以控制的。
4.答:(1)有两个总体:A品牌所有产品、B品牌所有产品(2)变量:口味(如可用10分制表示)(3)匹配样本:从两品牌产品中各抽取1000瓶,由1000名消费者分别打分,形成匹配样本。
(4)从匹配样本的观察值中推断两品牌口味的相对好坏。
第二章、统计数据的描述思考题1描述次数分配表的编制过程答:分二个步骤:(1)按照统计研究的目的,将数据按分组标志进行分组。
按品质标志进行分组时,可将其每个具体的表现作为一个组,或者几个表现合并成一个组,这取决于分组的粗细。
按数量标志进行分组,可分为单项式分组与组距式分组单项式分组将每个变量值作为一个组;组距式分组将变量的取值范围(区间)作为一个组。
统计分组应遵循“不重不漏”原则(2)将数据分配到各个组,统计各组的次数,编制次数分配表。
2.解释洛伦兹曲线及其用途答:洛伦兹曲线是20世纪初美国经济学家、统计学家洛伦兹根据意大利经济学家帕累托提出的收入分配公式绘制成的描述收入和财富分配性质的曲线。
洛伦兹曲线可以观察、分析国家和地区收入分配的平均程度。
高中数学第九章统计知识点汇总单选题1、下列调查中,适合普查的是()A.一批手机电池的使用寿命B.中国公民保护环境的意识C.你所在学校的男女同学的人数D.了解全国人民对建设高铁的意见答案:C分析:根据抽样调查和普查的特点即可判断.由题调查一批手机电池的使用寿命,中国公民保护环境的意识,了解全国人民对建设高铁的意见适合用抽样调查,调查所在学校的男女同学的人数适合普查.故选:C.2、某大品牌家电公司从其全部200名销售员工中随机抽出50名调查销售情况,销售额都在区间[5,25](单位:百万元)内,将其分成5组:[5,9),[9,13),[13,17),[17,21),[21,25],并整理得到如下的频率分布直方图,据此估计其全部销售员工中销售额在区间[9,13)内的人数为()A.16B.22C.64D.88答案:C分析:先由各组的频率和为1,求出a,从而可求得区间[9,13)的频率,进而可求出在区间[9,13)内的人数由题意得,4(0.02+a+0.09+0.03+0.03)=1,解得a=0.08,所以销售额在区间[9,13)内的频率为0.32,所以全部销售员工中销售额在区间[9,13)内的人数为200×0.32=64,故选:C3、抽样统计甲射击运动员10次的训练成绩分别为86,85,88,86,90,89,88,87,85,92,则这10次成绩的80%分位数为()A.88.5B.89C.91D.89.5答案:D分析:将数据从小到大排列,计算10×80%=8,得到答案.甲射击运动员10次的训练成绩从小到大分别为:85,85,86,86,87,88,88,89,90,92.10×80%=8,这10次成绩的80%分位数为:89+902=89.5.故选:D.4、某校高一、高二、高三的学生人数分别为800,750,650,为了解学生的视力情况,现用分层随机抽样的方法从中抽取部分学生进行调查,若样本中高二学生的人数为30,则这次调查的样本容量为()A.88B.90C.92D.94答案:A分析:设样本容量为x,然后由分层抽样的定义列方程求解即可设样本容量为x,则x800+750+650=30750,解得x=88.故选:A5、某高中为了解学生课外知识的积累情况,随机抽取200名同学参加课外知识测试,测试共5道题,每答对一题得20分,答错得0分.已知每名同学至少能答对2道题,得分不少于60分记为及格,不少于80分记为优秀,测试成绩百分比分布图如图所示,则下列说法正确的是()A.该次课外知识测试及格率为90%B .该次课外知识测试得满分的同学有30名C .该次测试成绩的中位数大于测试成绩的平均数D .若该校共有3000名学生,则课外知识测试成绩能得优秀的同学大约有1440名答案:C分析:由百分比图知,成绩为100分、80分、60分、40分的百分比分别为12%,,,,结合各项的描述即可判断其正误.由图知,及格率为1−8%=92%,故A 错误.该测试满分同学的百分比为1−8%−32%−48%=12%,即有12%×200=24名,B 错误.由图知,中位数为80分,平均数为40×8%+60×32%+80×48%+100×12%=72.8分,故C 正确. 由题意,3000名学生成绩能得优秀的同学有3000×(48%+12%)=1800,故D 错误.故选:C6、数据x 1,x 2,x 3,…,x m 的平均数为x ,数据y 1,y 2,y 3,…,y n 的平均数为y ,则数据x 1,x 2,x 3,…,x m ,y 1,y 2,y 3,…,y n 的平均数为( )A .x n +y mB .x m +y nC .nx+my m+nD .mx+ny m+n答案:D分析:利用平均数的计算公式计算.由题意得:x 1+x 2+x 3+⋯+x m =mx ,y 1+y 2+y 3+⋯+y n =ny ,所以x 1+x 2+x 3+⋯+x m +y 1+y 2+y 3+⋯+y n m+n =mx+ny m+n故选:D7、已知甲、乙两组数据(已按从小到大的顺序排列):甲组:27、28、39、40、m 、50;乙组:24、n 、34、43、48、52.若这两组数据的30百分位数、80百分位数分别相等,则m n 等于( )A .127B .107C .43D .74答案:A分析:根据百分位数的定义,求出30%×6=1.8,故选取第2个数据为30百分位数,同理选取第5个数据作为80百分位数,求出m=48,n=28,进而求出结果.因为30%×6=1.8,大于1.8的比邻整数为2,所以30百分位数为n=28,80%×6=4.8,大于4.8的比邻整数为5,所以80百分位数为m=48,所以mn =4828=127.故选:A8、根据2021年《第七次全国人口普查公报》,就我国2020年每十万人中拥有的各类受教育程度的人口情况,绘制了如图所示的扇形统计图,则()A.每十万人中拥有高中(含中专)文化程度的人数最少B.每十万人中拥有大专及以上文化程度的人数少于2万C.每十万人中拥有小学文化程度的人数最多D.每十万人中拥有初中和高中(含中专)文化程度的人数占比不到50%答案:B分析:根据扇形图的比例数据,结合各选项的描述直接判断正误即可.A:每十万人中其他文化程度的人数最少,占比为10%,错误;B:每十万人中拥有大专及以上文化程度的人数为10×15%=1.5万,正确.C:每十万人中拥有初中文化程度的人数最多,占比为35%,错误;D:每十万人中拥有初中和高中(含中专)文化程度的人数占比为50%,错误.故选:B.多选题9、如图是国家统计局发布的2020年12月至2021年12月的全国居民消费价格涨跌幅,其中同比=本期数−去年同期数去年同期数×100%,环比=本期数−上期数上期数×100%.则下列说法正确的是()A.2020年12月至2021年12月全国居民消费价格环比的极差为1.5%B.2020年12月至2021年12月全国居民消费价格同比的中位数为0.9%C.这13个月中,2021年6月全国居民消费价格最低D.2021年比2020年全国居民消费平均价格增长大于1.0%答案:AB分析:计算出2020年12月至2021年12月全国居民消费价格环比的极差,可判断A选项;利用中位数的定义可判断B选项;根据涨幅可判断C选项;利用平均数公式可判断D选项.2020年12月至2021年12月全国居民消费价格环比的最大值为1.0%,最小值为−0.5%,所以其极差为1.5%,A项正确;2020年12月至2021年12月全国居民消费价格同比(单位:%)从小到大依次为−0.3、−0.2、0.2、0.4、0.7、0.8、0.9、1.0、1.1、1.3、1.5、1.5、2.3,其中位数为0.9%,B项正确;从环比来看,假设2020年全国居民消费平均价格为1,经计算可得2020年12月全国居民消费平均价格,C 项错误;2021年比2020年全国居民消费价格平均增长为1 12(−0.3−0.2+0.4+0.9+1.3+1.1+1.0+0.8+0.7+1.5+2.3+1.5)=1112<1.0,D项错误.故选:AB.10、为了解某市高三毕业生升学考试中数学成绩的情况,从参加考试的学生中随机地抽查了1000名学生的数学成绩进行统计分析,在这个问题中,下列说法错误的是()A.总体指的是该市参加升学考试的全体学生B.个体指的是1000名学生中的每一名学生C.样本容量指的是1000名学生D.样本是指1000名学生的数学升学考试成绩答案:ABC分析:从总体,个体,样本和样本容量的定义进行判断因为要了解某市高三毕业生升学考试中学生的数学成绩的情况,所以要进行成绩统计,因此,本题的总体是该市高三毕业生的数学成绩,个体是指每名学生的成绩,样本容量是1000,因此样本是指1000名学生的数学成绩,故选:ABC11、某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A点表示十月的平均最高气温约为15℃,B点表示四月的平均最低气温约为5℃.下面叙述正确的有()A.各月的平均最低气温都在0℃以上B.七月的平均温差比一月的平均温差大C.三月和十一月的平均最高气温基本相同D.平均最高气温高于20℃的月份有5个答案:ABC分析:根据雷达图提供的数据判断各选项可得.对于选项A,由图易知各月的平均最低气温都在0℃以上,A正确;对于选项B,七月的平均最高气温点与平均最低气温点间的距离大于一月的平均最高气温点与平均最低气温点间的距离,所以七月的平均温差比一月的平均温差大,B正确;对于选项C,三月和十一月的平均最高气温均为10℃,所以C正确;对于选项D,平均最高气温高于20℃的月份有七月、八月,共2个月份,故D错误.故选:ABC.12、记考试成绩Z的均值为μ,方差为σ2,若Z满足0.66<P(μ−σ<Z<μ+σ)<0.70,则认为考试试卷设置合理.在某次考试后,从20000名考生中随机抽取1000名考生的成绩进行统计,得到成绩的均值为63.5,方差为169,将数据分成7组,得到如图所示的频率分布直方图.用样本估计总体,则()A.本次考试成绩不低于80分的考生约为5000人B.a=0.03C.本次考试成绩的中位数约为70D.本次考试试卷设置合理答案:BC分析:利用频率分布直方图可得a及中位数,计算出不低于80分的考生的频率后可求相应的人数,从而可判断ABC的正误,再结合频率分布直方图求出P(50.5<Z<76.5)可判断D的正误.由频率分布直方图可得(a+0.02+0.015×2+0.01+0.005×2)×10=1,故a=0.03,故B正确.不低于80分的考生的频率为(0.015+0.005)×2=0.04,故本次考试成绩不低于80分的考生约为0.04×20000=800人,故A错.由频率分布直方图可得前4组的频率和为0.5,故中位数约为70,故C正确. 由频率分布直方图可得:P(50.5<Z<76.5)=0.15+0.2+0.3−120×0.15−3.510×0.3=0.47,故本次考试试卷设置不合理,故D错误.故选:BC.13、一组数据2x1+1,2x2+1,2x3+1,…,2x n+1的平均值为7,方差为4,记3x1+2,3x2+2,3x3+ 2,…,3x n+2的平均值为a,方差为b,则()A.a=7B.a=11C.b=12D.b=9答案:BD分析:根据所给平均数与方差,可由随机变量均值与方差公式求得E(X),D(X),进而求得平均值a,方差b. ∵2x1+1,2x2+1,2x3+1,…,2x n+1的平均值为7,方差为4,设X=(x1,x2,x3,…,x n),∴E(2X+1)=2E(X)+1=7,得E(X)=3,D(2X+1)=4D(X)=4,则D(X)=1,∵3x1+2,3x2+2,3x3+2,…,3x n+2的平均值为a,方差为b,∴a=E(3X+2)=3E(X)+2=11,b=D(3X+2)=9D(X)=9.故选:BD.小提示:本题考查了离散型随机变量均值与方差公式的简单应用,属于基础题.填空题14、某学校组织学生参加数学测试,成绩的频率分布直方图如下,数据的分组依次是[20,40),[40,60),[60,80),[80,100],则可估计这次数学测试成绩的第40百分位数是_________.答案:65分析:利用百分位数的定义求解.解:成绩在[20,60)的频率是(0.005+0.01)×20=0.3,成绩在[20,80)的频率为0.3+0.02×20=0.7,所以第40百分位数一定在[60,80)内,所以这次数学测试成绩的第40百分位数是60+0.4−0.3×20=65,0.4所以答案是:6515、若从总体中随机抽取的样本为:−2、−2、−1、1、1、3、2、2、4、2,则该总体标准差的点估计值是___________.(精确到0.1)答案:1.9分析:利用样本标准差的点估计值估计总体标准差的点估计值即可.=1,解:由已知,样本的平均值为−2−2−1+1+1+3+2+2+4+210所以样本标准差的点估计值为[2(−2−1)2+(−1−1)2+2(1−1)2+(3−1)2+3(2−1)2+(4−1)2]=√3.8≈1.9,√110所以总体标准差的点估计值是1.9,所以答案是:1.9.16、小明用某款手机性能测试app对10部不同品牌的手机的某项性能进行测试,所得的分数按从小到大的顺序(相等数据相邻排列)排列为:81,84,84,87,x,y,93,95,97,99,已知总体的中位数为90,若要使该总体的标准差最小,则x−y=_________.答案:0分析:根据中位数得到x+y=180,即可得到平均数,要标准差最小,即(x−90)2+(y−90)2最小,利用基本不等式求其最值即可.因为总体的中位数为90,所以x+y=180,平均数为81+84+84+87+93+95+97+99+x+y=90,10要使该总体的标准差最小,即方差最小,即(x−90)2+(y−90)2最小,=0,又(x−90)2+(y−90)2≥(x+y−180)22当且仅当x−90=y−90时,即x=y=90时等号成立,故x−y=0.所以答案是:0解答题17、“一带一路”是“丝绸之路经济带”和“21世纪海上丝绸之路”的简称.某市为了了解人们对“一带一路”的认知程度,对不同年龄和不同职业的人举办了一次“一带一路”知识竞赛,满分为100分(90分及以上为认知程度高).现从参赛者中抽取了x人,按年龄分成5组,第一组:[20,25),第二组:[25,30),第三组:[30,35),第四组:[35,40),第五组:[40,45],得到如图所示的频率分布直方图,已知第一组有6人.(1)求x;(2)求抽取的x人的年龄的中位数(结果保留整数);(3)从该市大学生、军人、医务人员、工人、个体户五种人中用分层抽样的方法依次抽取6人,42人,36人,24人,12人,分别记为1~5组,从这5个按年龄分的组和5个按职业分的组中每组各选派1人参加知识竞赛,分别代表相应组的成绩,年龄组中1~5组的成绩分别为93,96,97,94,90,职业组中1~5组的成绩分别为93,98,94,95,90.①分别求5个年龄组和5个职业组成绩的平均数和方差;②以上述数据为依据,评价5个年龄组和5个职业组对“一带一路”的认知程度,并谈谈你的感想.答案:(1)总体是该中学高三年级400名学生的视力;样本是所抽取的50名学生的视力.(2)答案见解析.分析:(1)根据总体与样本的定义直接写出;(2)根据抽签法与随机数法的抽样过程写出即可.解:(1)总体是该中学高三年级400名学生的视力;样本是所抽取的50名学生的视力.(2)选择①.利用抽签法步骤如下,第一步:将这50名学生编号,编号为1,2,3, (50)第二步:将50个号码分别写在纸条上,并揉成团,制成号签.第三步:将得到的号签放在一个不透明的容器中,搅拌均匀.第四步:从容器中逐一抽取6个号签,并记录上面的号码.对应上面6个号码的学生就是抽取的学生.选择②.利用随机数法步骤如下,第一步:将这50名学生编号,编号为01,02,03, (50)第二步:用计算机产生1~50范围内的整数随机数,把产生的随机数作为抽中的编号.第三步:重复第二步的过程,直到抽足6个号码.对应上面6个号码的学生就是抽取的学生.解析:(1)根据频率分布直方图求出第一组的频率,再由6=0.05,即可求解.x(2)设中位数为a,根据0.01×5+0.07×5+(a-30)×0.06=0.5,求解即可.(3)①求出平均数,再根据方差的式子即可求解;②比较平均数与方差即可得出结论.=0.05,∴x=120.(1)根据频率分布直方图得第一组的频率为0.01×5=0.05,∴6x(2)设中位数为a,则0.01×5+0.07×5+(a-30)×0.06=0.5,∴a=95≈32,则中位数为32.3×(93+96+97+94+90)=94,(3)①5个年龄组成绩的平均数为x1=15×[(-1)2+22+32+02+(-4)2]=6.方差为s12=155个职业组成绩的平均数为x2=1×(93+98+94+95+90)=94,5×[(-1)2+42+02+12+(-4)2]=6.8.方差为s22=15②从平均数来看两组的认知程度相同,从方差来看年龄组的认知程度更稳定(感想合理即可).当今,青少年视力水平的下降已引起全社会的关注.为了了解某中学高三年级400名学生的视力情况,从中抽取了50名学生进行视力检测.(1)在这个问题中,总体、样本各是什么?(2)在①抽签法,②随机数法这两个条件中任选一个填入下面的横线上,并解答.为深入了解这50名学生的视力情况,从中随机抽取6人,请写出利用___9___抽取该样本的过程.18、某大学为了解学生对A,B两家餐厅的满意度情况,从在A,B两家餐厅都用过餐的学生中随机抽取了100人,每人分别对这两家餐厅进行满意指数打分(满意指数是指学生对餐厅满意度情况的打分,分数设置为2−10分).根据打分结果按[2,4),[4,6),[6,8),[8,10]分组,得到如图所示的频率分布直方图,其中B餐厅满意指数在[2,4)中有30人.(1)求B餐厅满意指数频率分布直方图中a,b的值;(2)利用样本估计总体的思想,估计A餐厅满意指数和B餐厅满意指数的平均数及方差(同一组中的数据用该组区间中点值作代表);参考公式:s2=(x1−x)2p1+(x2−x)2p2+(x3−x)2p3+⋯+(x n−x)2p n,其中x为x1,x2,⋯,x n的平均数,p1,p2,⋯,p n分别为x1,x2,⋯,x n对应的频率.(3)如果一名新来同学打算从A,B两家餐厅中选择一个用餐,你建议选择哪个餐厅?说明理由.答案:(1)a=0.1,b=0.15(2)A餐厅满意指数的平均数和方差分别为6.4,3.24;B餐厅满意指数的平均数和方差分别为5.6,4.04(3)答案见解析分析:(1)根据频率的含义和性质列方程,即可解得:a=0.1,b=0.15;(2)根据平均数和方差的定义,然后运算即可;(3)平均数和方差在实际生活中的应用,平均满意度越高,就越会受到欢迎.(1)因为B餐厅满意指数在[2,4)中有30人,则有:2×b=30100解得:b=0.15根据总的频率和为1,则有:0.15×2+a×2+0.2×2+0.05×2=1解得:a=0.1综上可得:a=0.1,b=0.15(2)设A餐厅满意指数的平均数和方差分别为x1,s12,B餐厅满意指数的平均数和方差分别为x2,s22,则有:x1=3×0.1+5×0.3+7×0.4+9×0.2=6.4,s12=(3−6.4)2×0.1+(5−6.4)2×0.3+(7−6.4)2×0.4+(9−6.4)2×0.2=3.24,x2=3×0.3+5×0.2+7×0.4+9×0.1=5.6,s22=(3−5.6)2×0.3+(5−5.6)2×0.2+(7−5.6)2×0.4+(9−5.6)2×0.1=4.04,综上可得:A餐厅满意指数的平均数和方差分别为6.4,3.24;B餐厅满意指数的平均数和方差分别5.6,4.04 (3)答案一:A餐厅满意指数的平均数为6.4,方差为3.24,B餐厅满意指数的平均数为5.6,方差为4.04,因为6.4>5.6,3.24<4.04,所以推荐A餐厅;答案二:A餐厅满意指数在[2,6)的频率为0.4,在[6,10]的频率为0.6,B餐厅满意指数在[2,6)和[6,10]的频率都为0.5,所以推荐A餐厅;(答案不唯一,符合实际情况即可)。
9.4一家房地产评估公司想对某城市的房地产销售价格(y)与地产的评估价值(x1)、房产的评估价值(x2)和使用面积(x3)建立一个模型,以便对销售价格做出合理预测。
为此收集了20栋住宅的房地产评估数据如下:房地产编号销售价格y 地产估价x1 房产估价x2 使用面积x31 6890 596 4497 187302 4850 900 2780 92803 5550 950 3144 112604 6200 1000 3959 126505 11650 1800 7283 221406 4500 850 2732 91207 3800 800 2986 89908 8300 2300 4775 180309 5900 810 3912 1204010 4750 900 2935 1725011 4050 730 4012 1080012 4000 800 3168 1529013 9700 2000 5851 2455014 4550 800 2345 1151015 4090 800 2089 1173016 8000 1050 5625 1960017 5600 400 2086 1344018 3700 450 2261 988019 5000 340 3595 1076020 2240 150 578 9620用SPSS进行逐步回归,确定估计方程,并给出销售价格的预测值及95%的置信区间与预测区间。
解:利用SPSS部分输出结果如下:Variables Entered/Removed aModel VariablesEnteredVariablesRemovedMethod1 房产估价. Stepwise (Criteria: Probability-of-F-to-enter <= .050, Probability-of-F-to-remove >= .100).2 使用面积. Stepwise (Criteria: Probability-of-F-to-enter <= .050, Probability-of-F-to-remove >= .100).a. Dependent Variable: 销售价格根据该表可知,在95%的置信水平下,被选中的变量为“房产估价”和“使用面积”,而变量“地产估价”则被剔除模型。
Model Summary cModel R R Square Adjusted R Square Std. Error of the Estimate1 .916a.839 .830 936.4232 .939b.881 .867 826.592a. Predictors: (Constant), 房产估价b. Predictors: (Constant), 房产估价, 使用面积c. Dependent Variable: 销售价格该表给出了两个回归模型的一些主要统计量。
观察表中数据,只选一个变量“房产估价”作为回归模型统计量的时候,调整的判定系数Ra2=0.830,估计的标准误s e=936.423。
当选择变量“房产估价”和“使用面积”都作为回归模型统计量的时候,Ra2=0.867,s e=826.592。
即二者的拟合度都是很高的,但选择两个变量作为回归模型统计量时,Ra2大于只选一个变量时的Ra2,s e小于只选一个变量时的s e,拟合度要优于只选一个变量时的回归模型的拟合度。
ANOVA cModel Sum of Squares df Mean Square F Sig.1 Regression 8.205E7 1 8.205E7 93.567 .000a Residual 1.578E7 18 876887.580Total 9.783E7 192 Regression 8.622E7 2 4.311E7 63.092 .000b Residual 1.162E7 17 683254.309Total 9.783E7 19a. Predictors: (Constant), 房产估价b. Predictors: (Constant), 房产估价, 使用面积c. Dependent Variable: 销售价格这是回归分析的方差分析表。
两个模型F检验的P值均接近于0,表明两个模型的线性关系都是显著的。
Coefficients aModel Unstandardized CoefficientsStandardizedCoefficients t Sig.B Std. Error Beta1(Constant) 895.020 535.833 1.670 .112 房产估价 1.351 .140 .916 9.673 .0002 (Constant) 11.653 592.972 .020 .985 房产估价.961 .200 .651 4.794 .000 使用面积.163 .066 .336 2.470 .024a. Dependent Variable: 销售价格该表给出了模型的回归系数和标准化的回归系数及其检验结果。
从表中数据可知,只选一个变量作为回归模型统计量的时候,其回归系数的t检验的P值接近于0,选择两个变量作为回归模型统计量的时候,回归系数的t检验的P值也都小于0.05(一个接近于0,一个为0.024),说明两个回归模型的回归系数均通过检验。
综上分析,可考虑使用二元回归模型,所选变量为“房产估价”和“使用面积”。
其估计方程为:Ŷ=11.653+0.961x2+0.163x3其销售价格的预测值和95%的置信区间和预测区间为:销售价格PRE_1 LMCI_1 UMCI_1 LICI_1 UICI_16890 7395.118 6806.901 7983.335 5554.633 9235.603 4850 4200.234 3618.102 4782.366 2361.685 6038.783 5550 4873.720 4409.720 5337.720 3069.093 6678.348 6200 5884.138 5374.818 6393.459 4067.330 7700.947 11650 10629.808 9574.612 11685.004 8591.470 12668.146 4500 4127.951 3537.325 4718.577 2286.695 5969.207 3800 4350.779 3705.076 4996.482 2491.124 6210.434 8300 7547.823 7012.886 8082.759 5723.668 9371.978 5900 5739.248 5187.438 6291.057 3910.074 7568.422 4750 5652.157 4856.769 6447.545 3735.382 7568.932 4050 5632.621 4919.234 6346.009 3748.396 7516.847 4000 5555.627 5039.735 6071.519 3736.966 7374.289 9700 9647.727 8628.432 10667.021 7627.740 11667.713 4550 4146.793 3644.553 4649.032 2331.957 5961.628 4090 3936.756 3364.308 4509.204 2101.250 5772.262 8000 8621.301 7942.770 9299.833 6749.994 10492.608 5600 4213.433 3523.915 4902.950 2338.114 6088.751 3700 3799.592 3272.565 4326.619 1977.741 5621.444 5000 5225.366 4629.186 5821.546 3382.321 7068.411 2240 2139.808 1191.610 3088.005 154.748 4124.8689.5为分析某行业中的薪水有无性别歧视,从该行业中随机抽取15名员工,有关数据如下:月薪y 工龄x1 性别(1=男,0=女)x21548 3.2 11629 3.8 11011 2.7 01229 3.4 01746 3.6 11528 4.1 11018 3.8 01190 3.4 01551 3.3 1985 3.2 01610 3.5 11432 2.9 11215 3.3 0990 2.8 01585 3.5 1用EXCEL进行回归,并对结果进行分析。
解:利用EXCEL进行回归,结果如下:模型的主要统计量:回归统计Multiple R 0.943391358R Square 0.889987254Adjusted R Square 0.871651797标准误差96.79157833观测值15df SS MS F Significance F 回归分析 2 909488.4 454744.2 48.5391351 1.77279E-06 残差12 112423.3 9368.61总计14 1021912Coefficients 标准误差tStatP-valueLower95%Upper 95%Intercept 732.061 235.584 3.107 0.009 218.766 1245.355 工龄x1 111.220 72.083 1.543 0.149 45.836 268.276性别X2(1=男,2=女)458.684 53.458 8.580 0.000 342.208 575.160由Excle的输出结果可知,回归模型的线性关系是显著的(Significance F=1.77279E-06<α=0.05);变量“性别”的偏回归系数也是显著的(P-value=0.000<0.05)。
而调整的多重判定系数Ra2=0.871,估计误差s e=96.791,说明回归模型拟合优度良好。
工资水平与工龄(x1)和性别(x2)的二元线性回归方程为:Ŷ=732.061+111.220x2+458.684x3X2=0时,E(y│女性)表示已知员工性别为女性时的月工资收入,则有:E(y│女性)=732.061+111.220x2同样,X2=1时,E(y│男性)表示已知员工性别为男性时的月工资收入,则有:E(y│男性)=(732.061+452.684)+111.220x2=1184.745+111.220x2即从结果上显示,该行业中,工作期限美增加一年,男性或女性的工资平均增加111.20元男性员工的期望月工资收入比女性员工高452.684。