卫生统计学线性回归练习题
- 格式:doc
- 大小:40.00 KB
- 文档页数:2
统计线性回归练习卷1. 已知x ,y 取值如下表:x 0 1 4 5 6 8 y 1。
3 1.8 5.6 6。
1 7.4 9.3从所得的散点图分析可知:y 与x 线性相关,且错误!=0。
95x +a ,则a =( ).A .1.30B .1。
45C .1。
65D .1.802。
已知x 与y 之间的一组数据:x 0 1 23 y m 35。
57已求得关于y 与x 的线性回归方程为=2.1x+0.85,则m 的值为( )(A)1 (B )0.85 (C )0.7 (D )0。
53。
网上大型汽车销售店销售某品牌A 型汽车,在2015双十一期间,进行了降价促销,该型汽车的价格与月销售量之间有如下关系:已知A 型汽车的购买量y 与价格x 符合如下线性回归方程:80y bx =+,若A 型汽车价格降到19万元,预测月销售量大约是(A )39 (B)42 (C )45 (D )504. 下边茎叶图记录了甲、乙两组各6名学生在一次数学测试中的成绩(单位:分).已知甲组数据的众数为124,乙组数据的平均数为甲组数据的中位数,则,x y 的值分别为(A )4,5 (B )5,4 (C )4,4 (D )5,55. 一工厂生产甲,乙,丙三种样式的杯子,每种样式均有500ml 和700ml 两种型号,某天的产量如右表(单位:个):按样式分层抽样的方法在这个月生产的杯子中抽取100个,其中有甲样式杯子25个.则z= 。
型号 甲样式 乙样式丙样式 500ml 2000 z 3000 700ml3000450050006. 已知施化肥量x 与水稻产量y 的试验数据如下表,则变量x 与变量y 是________相关(填“正”或“负”).施化肥量x1520 25 30 35 40 45 水稻产量y 3303453654054454504557. 若一组样本数据2,3,7,8,a 的平均数为5,则该组数据的方差2s = .x时间(分钟)0.003608040201000.002频率/组距00.025图48. 从某居民区随机抽取10个家庭,获得第i 个家庭的月收入x i (单位:千元)与月储蓄y i (单位:千元)的数据资料,算得x i =80,y i =20,x i y i =184,=720.(1)求家庭的月储蓄y 对月收入x 的线性回归方程y=bx+a; (2)判断变量x 与y 之间是正相关还是负相关;(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄。
《卫⽣统计学》试题及答案《卫⽣统计学》试题及答案⼀、选择题(每题1分,共50分)(⼀)A 型题(此类题型有四个备选答案,请从中选择最佳答案⼀个) 1.若要通过样本去推断总体,要求样本应是()A.总体中典型的⼀部分B.总体中任⼀部分C.总体中随机抽取的⼀部分D.总体中选取的有意义的⼀部分 2.统计量( )A.是统计总体数据得到的量B.反映总体特征的统计指标C.是通过参数估计得到的数值D.是由样本数据计算出的统计指标 3.计算频率表资料的平均数时各组的组中值应为( )A.本组段变量值的平均数B.(本组段上限值+本组段下限值)/2C.本组段的上限值+本组段的下限值D.本组段变量值的中位数 4.均数和标准差的关系是()A.两者都可以描述资料的变异程度B.标准差越⼤,均数的代表性越好C.均数越⼤,标准差越⼤D.标准差越⼩,均数的代表性越好 5.正态分布曲线下横轴上,从均数到正⽆穷⼤的⾯积为( )。
A .50%B .47.5%C .95%D .不能确定6.某部队夏季拉练,发⽣中暑21 例,其中北⽅籍战⼠为南⽅籍战⼠的2.5 倍,则结论为()。
A .北⽅籍战⼠容易发⽣中暑B .南⽅籍战⼠容易发⽣中暑C .北⽅、南⽅籍战⼠都容易发⽣中暑D .尚不能得出结论 7.标准正态分布曲线下横轴上,从0到1.96的⾯积为( )。
A .50% B .47.5% C .95% D .不能确定8.某市抽样调查了2013年1⽉1⽇⾄2013年12⽉31⽇部分城乡居民脑卒中发病与死亡情况,年平均⼈⼝数为19.1万⼈,其中城镇9.7万⼈,农村为9.4万⼈,在城镇的病例数为500⼈,死亡⼈数450⼈,农村病例数为400⼈,死亡⼈数为300⼈。
根据该资料,城镇居民脑卒中年发病率为()。
A. 47.1/万B.51.5/万C.53.2/万 D . 51.5% 9.据上题资料,城镇居民脑卒中的病死率为()。
A. 47.1/万 B.51.5/万 C.90% D . 51.5% 10.据该资料,农村居民脑卒中的年死亡率为()。
统计学习题二、简答1.简述描述一组资料的集中趋势和离散趋势的指标。
集中趋势和离散趋势是定量资料中总体分布的两个重要指标。
(1)描述集中趋势的统计指标:平均数(算术均数、几何均数和中位数)、百分位数(是一种位置参数,用于确定医学参考值范围,P50就是中位数)、众数。
算术均数:适用于对称分布资料,特别是正态分布资料或近似正态分布资料;几何均数:对数正态分布资料(频率图一般呈正偏峰分布)、等比数列;中位数:适用于各种分布的资料,特别是偏峰分布资料,也可用于分布末端无确定值得资料。
(2)描述离散趋势的指标:极差、四分位数间距、方差、标准差和变异系数。
四分位数间距:适用于各种分布的资料,特别是偏峰分布资料,常把中位数和四分位数间距结合起来描述资料的集中趋势和离散趋势。
方差和标准差:都适用于对称分布资料,特别对正态分布资料或近似正态分布资料,常把均数和标准差结合起来描述资料的集中趋势和离散趋势;变异系数:主要用于量纲不同时,或均数相差较大时变量间变异程度的比较。
2.举例说明变异系数适用于哪两种形式的资料,作变异程度的比较?度量衡单位不同的多组资料的变异度的比较。
例如,欲比较身高和体重何者变异度大,由于度量衡单位不同,不能直接用标准差来比较,而应用变异系数比较。
3. 试比较标准差和标准误的关系与区别。
区别:⑴标准差S:①意义:描述个体观察值变异程度的大小。
标准差小,均数对一组观察值得代表性好;②应用:与均数结合,用以描述个体观察值的分布范围,常用于医学参考值范围的估计;③与n的关系:n越大,S越趋于稳定;⑵标准误S X:①意义:描述样本均数变异程度及抽样误差的大小。
标准误小,用样本均数推断总体均数的可靠性大;②应用于均数结合,用以估计总体均数可能出现的范围以及对总体均数作假设检验;③与n的关系:n越大,S X越小。
联系:①都是描述变异程度的指标;②由S X=s/n-1可知,S X与S成正比。
n一定时,s越大,S X越大。
卫生统计学复习题库(含答案)1.根据某地6至16岁学生近视情况的调查资料制作统计图,反映患者的年龄分布。
适用的图形种类是直方图,因为6至16岁是连续变量,得到的是连续变量的频数分布。
2.为了反映某地区五年期间鼻咽癌死亡病例的年龄分布,适用的图形种类是复式直条图,因为有一个检测指标和两个分组变量。
3.为了反映某地区2000~1974年男性肺癌年龄别死亡率的变化情况,适用的图形种类是复式直条图,因为有一个检测指标和两个分组变量。
4.调查某疫苗在儿童中接种后的预防效果,样本是1000名易感儿童,因为这是研究的总体。
5.要通过样本作统计推断,样本应该是总体中随机抽取的一部分。
6.关于均数,正确的说法是均数是所有观察值的平均值。
7.某地易感儿童注射乙肝疫苗后,从中随机抽取100名儿童测量其乙肝表面抗体滴度水平,适用的描述平均水平的指标是几何均数。
The geometric mean is used to reflect the average level of a set of variable values that are XXX or a log-normal n (skewed n)。
such as antibody titers。
XXX us diseases。
XXX.According to the n d data of 164 cases of Salmonella food poisoning patients。
the one-sided 95% upper limit of the n d was calculated using the percentile method as 57.8 hours。
This means that approximately 5% of the patients have an n d greater than 57.8 hours.A is incorrect: Approximately 5 people have an n d greater than 57.8 hours。
统计学第三次作业(第十章相关与回归分析)计算题1. 为研究年收入水平Y (单位:万元)与受教育程度X (单位:年)之间的关系,现抽取一个包括20个人的随机样本,得到:22239, 72.61, ()422.95()34.83, ()()106.74ttttttX Y X X Y Y X X Y Y ==-=-=--=∑∑∑∑∑试根据以上数据:(1) 计算年收入水平与受教育程度的样本相关系数;(2) 拟合简单线性回归方程,并对回归系数的经济意义作解释; (3) 预测受教育年限为16年时,平均年收入是多少?2. 为研究零食中脂肪含量X (单位:克)与热量Y (单位:卡路里)之间的关系,随机抽查了16种点心食品,得到的数据如下:22189, 3461, 2799907717, 49526, 16tt t tt t X Y X YX Y n ======∑∑∑∑∑试根据以上数据:(1)计算热量与脂肪含量的样本相关系数;(2)拟合热量与脂肪含量的简单线性回归方程,并计算回归方程的决定系数以反映拟合效果;(3)若某糖果条包装上标明含有3克脂肪,预测其含有的热量。
3. 有8个同类企业的生产性固定资产年均价值和工业增加值的资料如下:要求:(计算必须有公式和过程)(1)计算相关系数,说明两变量相关的方向和程度;(2)建立以工业增加值为因变量的直线回归方程,说明方程参数的经济意义;(3)在0.05的显著性水平下,用F检验检验线性回归效果是否显著?(0.05(1,6) 5.987F=)(4)确定生产性固定资产为1100万元时,工业增加值的估计值。
4. 根据甲企业2004年每月的产品销售额Y与广告费支出X数据(单位:元),计算出其估计的回归方程为ŷ=31.98+1.68X,估计结果中R2=0.923,F=230.78,自变量系数的t检验值为3.587;另有一企业乙也进行了同样情况的分析,已知∑X=50, ∑Y=110.8, ∑X2=294, ∑Y2=1465.0, ∑XY=654.9,要求:(1)确定乙企业产品销售额Y与广告费支出X的线性回归方程,并说明βˆ1的含义;(2)若已知乙企业的回归结果中R2=0.847,F=302.5,自变量系数的t检验值为1.7689,试根据所学知识对甲、乙两企业所建立的线性回归方程的优劣进行综合分析。
卫生统计学名词解释1.随机化(03)2.回归系数(03)3.均数的抽样误差(04)4.非参数检验(04)5.参考值范围(05)6.偏相关系数(06)7.Spearman秩相关系数(08)8.samping error(09)9.交互作用(interaction)(10)10.多重比较(11)简答题1.某医生拟研究某新药治疗高血压的疗效,试确定该研究的三要素以及在确定时要考虑哪些问题?(03)2.举例说明置信区间与参考值范围的区别。
(03)3.简述直线回归与直线相关的区别与联系。
(04)χ检验的基本思想。
(不用计算)(04)4.以下表资料说明2治疗治愈(理论)数未愈(理论)数合计治愈率(%)A 11(20)89(80)100 11B 31(22)79(88)110 28合计42 168 210 205.试解释什么是参数检验和非参数检验,非参数检验有何优点和适用条件。
(05)6.临床试验设计中的三个要素、要遵循的三大原则分别指的是什么?(05)7.试给出医学研究实例,说明实验设计的基本要素有哪些?(06)8.简述率的标准化的应用时机,举例说明直接标化法基本思想和步骤。
(07)9.简述简单线性回归分析的基本步骤。
(08)χ检验中,若出现理论频数太小(某格子内对应的理论频数小于1,10.R×C列链表资料的2或1/5以上格子对应的理论频数比5小)的情形,应如何处理?(09)11.回归分析中自变量筛选的最优子集回归(all possible subsets selection)方法具有的最主要优点和缺点分别是什么?(10)12.析因设计资料的方差分析中,当因素数为2(药物的“剂型”与“剂量”)、各因素均有2个水平的时候,总变异被分解为哪几部分?各部分的自由度为多少?(11)13.以两独立样本的频率比较为例,简要阐述四格表资料卡方检验的基本思想。
(12)14.在简单线性回归分析中,如何估计回归系数?请简要阐述其思想。
统计学一元线性回归分析练习题一、内容提要本章介绍了回归分析的基本思想与基本方法。
首先,本章从总体回归模型与总体回归函数、样本回归模型与样本回归函数这两组概念开始,建立了回归分析的基本思想。
总体回归函数是对总体变量间关系的定量表述,由总体回归模型在若干基本假设下得到,但它只是建立在理论之上,在现实中只能先从总体中抽取一个样本,获得样本回归函数,并用它对总体回归函数做出统计推断。
本章的一个重点是如何获取线性的样本回归函数,主要涉及到普通最小二乘法的学习与掌握。
同时,也介绍了极大似然估计法以及矩估计法。
本章的另一个重点是对样本回归函数能否代表总体回归函数进行统计推断,即进行所谓的统计检验。
统计检验包括两个方面,一是先检验样本回归函数与样本点的“拟合优度”,第二是检验样本回归函数与总体回归函数的“接近”程度。
后者又包括两个层次:第一,检验解释变量对被解释变量是否存在着显著的线性影响关系,通过变量的t检验完成;第二,检验回归函数与总体回归函数的“接近”程度,通过参数估计值的“区间检验”完成。
本章还有三方面的内容不容忽视。
其一,若干基本假设。
样本回归函数参数的估计以及对参数估计量的统计性质的分析以及所进行的统计推断都是建立在这些基本假设之上的。
其二,参数估计量统计性质的分析,包括小样本性质与大样本性质,尤其是无偏性、有效性与一致性构成了对样本估计量优劣的最主要的衡量准则。
Goss-markov定理表明OLS估计量是最佳线性无偏估计量。
其三,运用样本回归函数进行预测,包括被解释变量条件均值与个值的预测,以及预测置信区间的计算及其变化特征。
二、典型例题分析例1、令kids表示一名妇女生育孩子的数目,educ 表示该妇女接受过教育的年数。
生育率对教育年数的简单回归模型为kids??0??1educ??随机扰动项?包含什么样的因素?它们可能与教育水平相关吗?上述简单回归分析能够揭示教育对生育率在其他条件不变下的影响吗?请解释。
卫生统计学试题及答案一、选择题(每题2分,共20分)1. 卫生统计学是研究什么的学科?A. 研究疾病发生的原因B. 研究疾病的治疗手段C. 研究数据收集、处理、分析和解释D. 研究疾病的预防措施2. 下列哪项不是卫生统计学中的常用统计指标?A. 均数B. 标准差C. 患病率D. 治愈率3. 抽样调查与普查的主要区别是什么?A. 抽样调查可以减少工作量B. 普查可以得到更准确的结果C. 抽样调查可以减少成本D. 普查可以提供更全面的数据4. 相对数指标通常用来反映什么?A. 总体的总量B. 总体的结构C. 总体的平均水平D. 总体的相对关系5. 以下哪个是描述数据分布集中趋势的指标?A. 方差B. 标准差C. 均数D. 极差6. 卫生统计学中,以下哪个概念与风险评估无关?A. 危险度B. 相对危险度C. 归因危险度D. 治愈率7. 以下哪个是卫生统计学中用于描述数据离散程度的指标?A. 众数B. 均数C. 方差D. 标准差8. 卫生统计学中,以下哪个指标用于描述两个变量之间的线性关系?A. 相关系数B. 回归系数C. 回归方程D. 相关指数9. 以下哪个统计图适合用来展示时间序列数据?A. 条形图B. 散点图C. 折线图D. 饼图10. 卫生统计学中,以下哪个概念用于衡量样本统计量与总体参数的接近程度?A. 标准误差B. 置信区间C. 抽样误差D. 抽样分布答案:1. C2. D3. A4. D5. C6. D7. C8. A9. C 10. A二、简答题(每题5分,共30分)1. 简述卫生统计学在公共卫生领域中的应用。
2. 解释什么是标准正态分布,并说明其在卫生统计学中的重要性。
3. 描述卫生统计学中常用的几种数据收集方法。
4. 阐述卫生统计学中抽样误差和非抽样误差的区别。
三、计算题(每题10分,共40分)1. 给出一组数据:23, 25, 27, 29, 31。
计算其均数、标准差和方差。
2. 如果一个研究的样本均数为45,样本标准差为10,样本量为100,求95%置信区间。
线性回归练习一、选择题1.下列两个变量之间的关系中,哪个是函数关系 ( ) A.学生的性别与他的数学成绩 B.人的工作环境与健康状况 C.女儿的身高与父亲的身高 D. 正三角形的边长与面积2.从某大学随机选取8名女大学生,其身高x (cm)和体重y (kg)的回归方程为 ˆ0.84985.712yx =-,则身高172cm 的女大学生,由回归方程可以预报其体重 ( )A.为6 0.316kgB. 约为6 0.316kgC.大于6 0.316kgD.小于6 0.316kg3. 工人月工资(元)依劳动生产率(千元)变化的回归直线方程为ˆ160180yx =+,下列判断正确的是 ( )A .劳动生产率为1000元时,工资为340元B .劳动生产率提高1000元时,工资提高180元C .劳动生产率提高1000元时,工资平均提高180元 D.工资为520元时,劳动生产率为2000元 4.由右表可计算出变量,x y 的线性回归方程为( ) A. ˆ0.350.15y x =-+ B. ˆ0.350.25y x =-+ C. ˆ0.350.15y x =+ D. ˆ0.350.25y x =+ 二、填空题5.下列说法中正确的是 (填序号)①回归分析就是研究两个相关事件的独立性;②回归模型都是确定性的函数;③回归模型都是线性的;④回归分析的第一步是画散点图或求相关系数r ;⑤回归分析就是通过分析、判断,确定相关变量之间的内在的关系的一种统计方法. 6.三点()3,10,(7,20),(11,24)的线性回归方程是三、解答[2016高考新课标Ⅲ文数]下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图(I )由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明;(II )建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 附注: 参考数据:719.32ii y==∑,7140.17i i i t y ==∑0.55=,7≈2.646.参考公式:相关系数r =回归方程 y ab =+ 中斜率和截距的最小二乘估计公式分别为: 121()()()nii i nii tt y y btt ==--=-∑∑ ,ay bt =-【2015高考重庆,文17】随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:(Ⅰ)求y 关于t 的回归方程^^^t y b a =+(Ⅱ)用所求回归方程预测该地区2015年(6t =)的人民币储蓄存款. 附:回归方程^^^t yb a=+中1122211()(),().nniii ii i nniii i x x y y x y nx yb x x xnxa y bx ====⎧---⎪⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑初夏早上六点,清亮透明的月儿还躲藏在云朵里,不忍离去,校园内行人稀少,我骑着单车,晃晃悠悠的耷拉着星松的睡眼。
一、是非题
1.单个自变量的线性回归就是直线回归。
2.直线回归就是指自变量和应变量的观察值落在在一条直线上。
3.直线回归中预测值Y 是固定某个X 值,Y 的总体均数估计值。
4.用逐步回归的方法评价自变量与应变量之间的关联性,只能推断某个自变量与应变量有关联性,不能推断无它们之间无关联性。
二、选择题
1.用最小二乘法确定直线回归方程的原则是各观察点()
A . 距直线的纵向距离相等
B . 距直线的纵向距离的平方和最小
C . 与直线的垂直距离相等
D . 与直线的垂直距离的平方和最小 2.直线回归的系数假设检验()
E . 只能利用相关系数r 的检验方法进行检验
F . 只能用t 检验
G . 只能用F 检验
H . 三者均可
3.Y ˆ=7+2X 是1~7岁儿童以年龄(岁)估计体重(公斤)的回归方程,若把体重的单位换成市斤,
则此方程( )
A .截矩改变
B .回归系数改变
C . 截矩与回归系数都改变
D .回归系数不变
E .截矩不变 4.直线回归系数的假设检验,其自由度为( )
A .n
B .n-1
C .n-2
D .2n-1
E .2n-2
5.对应变量Y 的离均差平方和,下列哪个分解是正确的?( )
A .SS 剩=SS 回
B .SS 总=SS 剩
C .SS 总=SS 回
D .SS 总+SS 剩=SS 回
E .SS 总+SS 回=SS 剩
三、计算分析题
1.15名儿童的身高与肺死腔容积的观察值如表15-3所示。
表15-3 儿童身高与肺死腔容积的观测数据
对象号 身高(cm)
X 肺死腔容积(ml)
Y 对象号 身高(cm)
X 肺死腔容积(ml)
Y 1 110 45 9 175 102 2 116 32 10 167 111 3 123 41 11 165 88 4 130 45 12 160 65 5 129 43 13 157 79 6 142 67 14 156 92 7 147 58 15 149 58 8
153
57
试用该资料进行回归分析:
(1)计算样本回归方程的截矩与回归系数; (2)进行回归系数等于0的假设检验; (3)验证是否存在F t b =
的关系;
(4)估计回归系数β的95%置信区间。
2.一名产科医生收集的12名产妇24h 的尿,测量其中雌三醇的含量,同时记录了产儿的体重,见表15-4。
表15-4 待产妇尿中雌三醇含量与新生儿体重
编号 尿雌三醇(mg/24h)
X 新生儿体重(kg)
Y 编号 尿雌三醇(mg/24h)
X 新生儿体重(kg)
Y 1 7 2.5 7 19 3.1 2 9 2.5 8 21 3.0 3 12 2.7 9 22 3.5 4 14 2.7 10 24 3.4 5 16 3.7 11 25 3.9 6
17
3.0
12
27
3.4
(1)试用该数据进行回归分析; (2)求回归系数的95%置信区间;
(3)试求当待产妇尿中雌三醇含量为18(mg/24h)时,新生儿体重个体值的95%预测区间。