生物统计学(第3版)杜荣骞 课后习题答案 第七章 拟合优度检验
- 格式:doc
- 大小:257.50 KB
- 文档页数:14
生物统计练习题课后习题统计学是一门应用广泛的学科,被广泛应用于各个领域。
在生物学中,统计学的应用也十分重要。
通过统计学的方法,我们可以对生物数据进行分析和解释,从而增进我们对生物现象的理解。
在生物统计学中,课后习题是一种重要的学习和巩固知识的方法。
接下来,本文将针对生物统计学的课后习题进行探讨。
一、描述统计学描述统计学是统计学的一个重要分支,它主要关注如何通过数值和图形来总结和描述生物数据。
课后习题中常涉及到的描述统计学方法包括平均值、中位数、范围、方差等。
举个例子,假设我们有一组实验数据,记录了某一种植物的生长高度(单位:厘米),包括10个样本:35,42,39,38,40,41,37,36,44,43。
为了了解这组数据的集中趋势,我们可以计算它的平均值,即将所有数据相加,再除以样本数量。
根据上述数据,平均值为39.5厘米。
此外,我们还可以计算中位数,即将数据按照大小排序,找出最中间的数值。
对于上述数据,中位数为39.5厘米。
二、推断统计学推断统计学是统计学的另一个重要分支,它主要关注如何通过样本数据来对总体进行推断。
在生物统计学的课后习题中,我们经常需要进行假设检验和置信区间估计。
例如,假设我们想要研究某种新药对癌症患者的治疗效果。
我们随机选取了100名癌症患者,将他们分为两组,其中一组接受新药治疗,另一组接受传统治疗。
在治疗结束后,我们记录了两组患者的生存时间(单位:月),并对比两组的平均生存时间是否有显著差异。
为了进行假设检验,我们首先需要建立原假设和备择假设。
原假设通常表示研究者认为没有显著差异,备择假设则表示研究者认为存在显著差异。
接着,我们需要选择适当的统计检验方法,并计算检验统计量的值。
最后,我们根据检验统计量的值和显著性水平(通常为0.05)来判断是否拒绝原假设。
三、实际案例在生物统计学的课后习题中,我们还常常遇到一些实际案例,用以综合运用所学知识进行分析和解决问题。
举个例子,假设我们研究了一种新的植物生长促进剂对玉米生长的影响。
第二章概率和概率分布2.1做这样一个试验,取一枚五分硬币,将图案面称为A,文字面称为B。
上抛硬币,观察落下后是A向上还是B向上。
重复10次为一组,记下A向上的次数,共做10组。
再以100次为一组,1 000次为一组,各做10组,分别统计出A的频率,验证2.1.3的内容。
答:在这里用二项分布随机数模拟一个抽样试验,与同学们所做的抽样试验并不冲突。
以变量Y表示图向上的次数,n表示重复的次数,m表示组数,每次落下后图向上的概率φ=1/2。
SAS程序如下,该程序应运行3次,第一次n=10,第二次n=100,第三次n=1000。
options nodate;data value;n=10;m=10;phi=1/2;do i=1 to m;retain seed 3053177;do j=1 to n;y=ranbin(seed,n,phi);output;end;end;data disv;set value;by i;if first.i then sumy=0;sumy+y;meany=sumy/n;py=meany/n;if last.i then output;keep n m phi meany py;run;proc print;title 'binomial distribution: n=10 m=10';run;proc means mean;var meany py;title 'binomial distribution: n=10 m=10';run;以下的三个表是程序运行的结果。
表的第一部分为每一个组之Y的平均结果,包括平均的频数和平均的频率,共10组。
表的第二部分为10组数据的平均数。
从结果中可以看出,随着样本含量的加大,样本的频率围绕0.5做平均幅度越来越小的波动,最后稳定于0.5。
binomial distribution: n=10 m=10OBS N M PHI MEANY PY1 10 10 0.5 5.7 0.572 10 10 0.5 4.5 0.453 10 10 0.5 5.1 0.514 10 10 0.5 6.1 0.615 10 10 0.5 6.1 0.616 10 10 0.5 4.3 0.437 10 10 0.5 5.6 0.568 10 10 0.5 4.7 0.479 10 10 0.5 5.2 0.5210 10 10 0.5 5.6 0.56binomial distribution: n=10 m=10Variable Mean ---------------------- MEANY 5.2900000 PY 0.5290000 ----------------------binomial distribution: n=100 m=10 OBS N M PHI MEANY PY1 100 10 0.5 49.71 0.49712 100 10 0.5 49.58 0.49583 100 10 0.5 50.37 0.50374 100 10 0.5 50.11 0.5011 5 100 10 0.5 49.70 0.49706 100 10 0.5 50.04 0.50047 100 10 0.5 49.20 0.49208 100 10 0.5 49.74 0.49749 100 10 0.5 49.37 0.4937 10 100 10 0.5 49.86 0.4986binomial distribution: n=100 m=10Variable Mean ---------------------- MEANY 49.7680000 PY 0.4976800 ----------------------binomial distribution: n=1000 m=10 OBS N M PHI MEANY PY1 1000 10 0.5 499.278 0.499282 1000 10 0.5 499.679 0.499683 1000 10 0.5 499.108 0.499114 1000 10 0.5 500.046 0.50005 5 1000 10 0.5 499.817 0.49982 6 1000 10 0.5 499.236 0.49924 7 1000 10 0.5 499.531 0.499538 1000 10 0.5 499.936 0.499949 1000 10 0.5 500.011 0.50001 10 1000 10 0.5 500.304 0.50030binomial distribution: n=1000 m=10Variable Mean ---------------------- MEANY 499.6946000 PY 0.4996946 ----------------------2.2 每个人的一对第1号染色体分别来自祖母和外祖母的概率是多少?一位男性的X 染色体来自外祖父的概率是多少?来自祖父的概率呢?答: (1)设A 为一对第1号染色体分别来自祖母和外祖母的事件,则()41211211=⨯⨯⨯=A P(2)设B 为男性的X 染色体来自外祖父的事件,则()21211=⨯=B P(3)设C 为男性的X 染色体来自祖父的事件,则 ()0=C P2.3 假如父母的基因型分别为I A i 和I B i 。
.. 生物统计学习题集参考答案第一章概论一、填空1 变量按其性质可以分为 连续 变量和 非连续 变量。
2 样本统计数是总体 参数 的估计量。
3 生物统计学是研究生命过程中以样本来推断 总体 的一门学科。
4 生物统计学的基本内容包括_试验设置、统计分析_两大部分。
5 统计学的发展过程经历了 古典记录统计学、 近代描述统计学现代推断统计学 3个阶段。
6 生物学研究中,一般将样本容量 n大于等于 30称为大样本。
7 试验误差可以分为__随机误差 、系统误差 两类。
二、判断(-)1 对于有限总体不必用统计推断方法。
(-)2 资料的精确性高,其准确性也一定高。
(+) 3 在试验设计中,随机误差只能减少,而不可能完全消除。
(+)4 统计学上的试验误差,通常指随机误差。
三、名词解释样本:从总体中抽出的若干个体所构成的集合称为样本。
总体:具有相同的个体所构成的集合称为总体。
连续变量:是指在变量范围内可抽出某一范围的所有值。
非连续变量:也称离散型变量,表示变量数列中仅能取得固定数值并且通常是整数。
准确性:也称准确度指在调查或试验中某一试验指标或性状的观测值与真实值接近的程度。
精确性:也称精确度指在调查或试验中同一试验指标或性状的重复观测值彼此接近程度的大小。
第二章 试验资料的整理与特征数的计算一、填空1 1 资料按生物的性状特征可分为资料按生物的性状特征可分为资料按生物的性状特征可分为_________数量性状资料数量性状资料数量性状资料__变量和变量和______变量性变量性状资料状资料__变量。
2 2 直方图适合于表示直方图适合于表示直方图适合于表示______计量计量计量 、、 连续变量连续变量__资料的次数分布。
3 3 变量的分布具有两个明显基本特征,即变量的分布具有两个明显基本特征,即变量的分布具有两个明显基本特征,即__集中性集中性__和____离散性离散性离散性__。
4 4 反映变量集中性的特征数是反映变量集中性的特征数是反映变量集中性的特征数是______平均数平均数平均数______,反映变量离散性的特征,反映变量离散性的特征数是数是______变异数(标准差)变异数(标准差)变异数(标准差)__。
第一章填空1.变量按其性质可以分为(连续型)变量和(非连续/离散型)变量。
2.样本统计数是总体(总体参数)的估计值。
3.生物统计学是研究生命过程中以样本来推断(总体)的一门学科。
4.生物统计学的基本内容包括(实验设计)和(统计推断)两大部分。
5.生物统计学的发展过程经历了(古典统计学)、(近代统计学)和(现代统计学)3个阶段。
6.生物学研究中,一般将样本容量(大于30)称为大样本。
7.试验误差可以分为(随机误差)和(系统误差)两类。
判断1.对于有限总体不必用统计推断方法。
(错) 2.资料的精确性高,其准确性也一定高。
(错)3.在试验设计中,随机误差只能减小,而不能完全消除。
(对) 4.统计学上的试验误差,通常指随机误差。
(对)第二章填空1.资料按生物的性状特征可分为(数量性状)变量和(质量性状)变量。
2. 直方图适合于表示(非连续型/离散型)资料的次数分布。
3.变量的分布具有两个明显基本特征,即(集中性)和(离散性)。
4.反映变量集中性的特征数是(平均数),反映变量离散性的特征数是(标准差)。
5.样本标准差的计算公式s=()。
判断题1. 计数资料也称连续性变量资料,计量资料也称非连续性变量资料。
(错)2. 条形图和多边形图均适合于表示计数资料的次数分布。
(错)3. 离均差平方和为最小。
(对)4. 资料中出现最多的那个观测值或最多一组的中点值,称为众数。
(对)5. 变异系数是样本变量的绝对变异量。
(对)单项选择1. 下列变量中属于非连续性变量的是(C).A. 身高B.体重C.血型D.血压2. 对某鱼塘不同年龄鱼的尾数进行统计分析,可做成(A)图来表示.A. 条形B.直方C.多边形D.折线 3. 关于平均数,下列说法正确的是(B).A. 正态分布的算术平均数和几何平均数相等.B. 正态分布的算术平均数和中位数相等.C. 正态分布的中位数和几何平均数相等.D. 正态分布的算术平均数、中位数、几何平均数均相等。
⽣物统计学(第3版)杜荣骞课后习题答案第六章参数估计第六章参数估计6.1以每天每千克体重52 µmol 5-羟⾊胺处理家兔14天后,对⾎液中⾎清素含量的影响如下表[9]:y/(µg · L-1)s/(µg · L-1)n对照组 4.20 0.35 125-羟⾊胺处理组8.49 0.37 9建⽴对照组和5-羟⾊胺处理组平均数差的0.95置信限。
答:程序如下:options nodate;data common;alpha=0.05;input n1 m1 s1 n2 m2 s2;dfa=n1-1; dfb=n2-1;vara=s1**2; varb=s2**2;if vara>varb then F=vara/varb;else F=varb/vara;if vara>varb then Futailp=1-probf(F,dfa,dfb);else Futailp=1-probf(F,dfb,dfa);df=n1+n2-2;t=tinv(1-alpha/2,df);d=abs(m1-m2);lcldmseq=d-t*sqrt(((dfa*vara+dfb*varb)/(dfa+dfb))*(1/n1+1/n2));ucldmseq=d+t*sqrt(((dfa*vara+dfb*varb)/(dfa+dfb))*(1/n1+1/n2));k=vara/n1/(vara/n1+varb/n2);df0=1/(k**2/dfa+(1-K)**2/dfb);t0=tinv(1-alpha/2,df0);lcldmsun=d-t0*sqrt(vara/n1+varb/n2);ucldmsun=d+t0*sqrt(vara/n1+varb/n2);cards;12 4.20 0.35 9 8.49 0.37;proc print;id f;var Futailp alpha lcldmseq ucldmseq lcldmsun ucldmsun;title1 'Confidence Limits on the Difference of Means';title2 'for Non-Primal Data';run;结果见下表:Confidence Limits on the Difference of Meansfor Non-Primal DataF FUTAILP ALPHA LCLDMSEQ UCLDMSEQ LCLDMSUN UCLDMSUN1.11755 0.42066 0.05 3.95907 4.62093 3.95336 4.62664⾸先,⽅差是具齐性的。
第一章概论解释以下概念:总体、个体、样本、样本容量、变量、参数、统计数、效应、互作、随机误差、系统误差、准确性、精确性。
第二章试验资料的整理与特征数的计算习题2.1 某地100 例30 ~40 岁健康男子血清总胆固醇(mol · L -1 ) 测定结果如下:4.77 3.37 6.14 3.95 3.56 4.23 4.31 4.715.69 4.124.56 4.375.396.30 5.217.22 5.54 3.93 5.21 6.515.18 5.77 4.79 5.12 5.20 5.10 4.70 4.74 3.50 4.694.38 4.89 6.255.32 4.50 4.63 3.61 4.44 4.43 4.254.035.85 4.09 3.35 4.08 4.79 5.30 4.97 3.18 3.975.16 5.10 5.85 4.79 5.34 4.24 4.32 4.776.36 6.384.885.55 3.04 4.55 3.35 4.87 4.17 5.85 5.16 5.094.52 4.38 4.31 4.585.726.55 4.76 4.61 4.17 4.034.47 3.40 3.91 2.70 4.60 4.095.96 5.48 4.40 4.555.38 3.89 4.60 4.47 3.64 4.34 5.186.14 3.24 4.90计算平均数、标准差和变异系数。
【答案】=4.7398, s=0.866, CV =18.27 %2.2 试计算下列两个玉米品种10 个果穗长度(cm) 的标准差和变异系数,并解释所得结果。
24 号:19 ,21 ,20 ,20 ,18 ,19 ,22 ,21 ,21 ,19 ;金皇后:16 ,21 ,24 ,15 ,26 ,18 ,20 ,19 ,22 ,19 。
【答案】 1 =20, s 1 =1.247, CV 1 =6.235% ; 2 =20, s 2 =3.400, CV 2 =17.0% 。
统计学第七章、第八章课后题答案统计学复习笔记第七章参数估计一、思考题1.解释估计量和估计值在参数估计中,用来估计总体参数的统计量称为估计量。
估计量也是随机变量。
如样本均值,样本比例、样本方差等。
根据一个具体的样本计算出来的估计量的数值称为估计值。
2.简述评价估计量好坏的标准(1)无偏性:是指估计量抽样分布的期望值等于被估计的总体参数。
(2)有效性:是指估计量的方差尽可能小。
对同一总体参数的两个无偏估计量,有更小方差的估计量更有效。
(3)一致性:是指随着样本量的增大,点估计量的值越来越接近被估总体的参数。
3.怎样理解置信区间在区间估计中,由样本统计量所构造的总体参数的估计区间称为置信区间。
置信区间的论述是由区间和置信度两部分组成。
有些新闻媒体报道一些调查结果只给出百分比和误差(即置信区间),并不说明置信度,也不给出被调查的人数,这是不负责的表现。
因为降低置信度可以使置信区间变窄(显得“精确”),有误导读者之嫌。
在公布调查结果时给出被调查人数是负责任的表现。
这样则可以由此推算出置信度(由后面给出的公式),反之亦然。
4.解释95%的置信区间的含义是什么置信区间95%仅仅描述用来构造该区间上下界的统计量( 是随机的) 覆盖总体参数的概率。
也就是说,无穷次重复抽样所得到的所有区间中有 95%(的区间)包含参数。
不要认为由某一样本数据得到总体参数的某一个95%置信区间,就以为该区间以 0.95 的概率覆盖总体参数。
5.简述样本量与置信水平、总体方差、估计误差的关系。
1.估计总体均值时样本量 n 为( z222) 22E z 2n22其中:E 2n2.样本量 n 与置信水平 1- α、总体方差、估计误差 E 之间的关系为与置信水平成正比,在其他条件不变的情况下,置信水平越大,所需要的样本量越大;与总体方差成正比,总体的差异越大,所要求的样本量也越大;与与总体方差成正比,样本量与估计误差的平方成反比,即可以接受的估计误差的平方越大,所需的样本量越小。
第七章拟合优度检验7.12000年在5 760 295名成年人群中和1 596 734名儿童群体中严重CDH(先天性心脏病)和其他程度CDH的流行病学患者数如下表[36]:尚存活的成年人 2 205 21 358 23 563尚存活的儿童 2 316 16 663 18 979 合计 4 521 38 021 42 542检验在尚存活的成年人和儿童中受损害的程度,差异是否显著?答:这是2×2列联表χ2检验,使用程序如下:options linesize=76 nodate;data;do a=1 to 2;do b=1 to 2;input case @@;output;end;end;cards;2205 213582316 16663;proc freq formchar(1,2,7)='|-+';weight case;tables a*b/cellchi2 expected nocol norow nopercent chisq;title '2*2 Contingency Table Test';run;程序运行结果见下表:2*2 Contingency Table TestTABLE OF A BY BA BFrequency |Expected |Cell Chi-Square| 1| 2| Total---------------+--------+--------+1 | 2205 | 21358 | 23563| 2504.1 | 21059 || 35.72 | 4.2474 |---------------+--------+--------+2 | 2316 | 16663 | 18979| 2016.9 | 16962 || 44.347 | 5.2733 |---------------+--------+--------+Total 4521 38021 42542STATISTICS FOR TABLE OF A BY BStatistic DF Value Prob------------------------------------------------------Chi-Square 1 89.588 0.001Likelihood Ratio Chi-Square 1 89.070 0.001Continuity Adj. Chi-Square 1 89.289 0.001Mantel-Haenszel Chi-Square 1 89.586 0.001Fisher's Exact Test (Left) 2.21E-21(Right) 1.000(2-Tail) 4.20E-21Phi Coefficient -0.046Contingency Coefficient 0.046Cramer's V -0.046Sample Size = 42542从“A×B列联表的统计量”部分可以得出,连续性矫正的χ2显著性概率P=0.001,P <0.01,故拒绝H0,在尚存活的成年人和儿童中受损害的程度差异极显著。
7.22000年在成年人和儿童中CDH(先天性心脏病)的发病患者数如下表[36]:先天心脏病患者数无先天心脏病患者数合计成年人26 563 5 733 732 5 760 295儿童18 979 1 577 755 1 596 734合计45 542 7 311 487 7 357 029问:在成年人和在儿童中先天心脏病的发病率差异是否显著?答:本题为2×2列联表X 2检验,需做连续性矫正。
结果如下表:2*2 Contingency Table TestTABLE OF A BY BA BFrequency |Expected |Cell Chi-Square| 1| 2| Total---------------+--------+--------+1 | 26563 |5733732 |5760295| 35658 |5724637 || 2319.7 | 14.449 |---------------+--------+--------+2 | 18979 |1577755 |1596734| 9884.2 |1586850 || 8368.4 | 52.125 |---------------+--------+--------+Total 45542 7311487 7357029STATISTICS FOR TABLE OF A BY BStatistic DF Value Prob------------------------------------------------------ Chi-Square 1 10754.671 0.001Likelihood Ratio Chi-Square 1 9187.383 0.001Continuity Adj. Chi-Square 1 10753.488 0.001Mantel-Haenszel Chi-Square 1 10754.669 0.001Fisher's Exact Test (Left) 0.00E+00(Right) 1.000(2-Tail) 0.00E+00Phi Coefficient -0.038Contingency Coefficient 0.038Cramer's V -0.038Sample Size = 7357029连续性矫正的χ2显著性概率P=0.001,P <0.01,故拒绝H0,在成年人和在儿童中先天心脏病的发病率差异极显著。
7.3在关于II型糖尿病与患帕金森氏病风险的研究中,共有50 454名非糖尿病患者和1 098名糖尿病患者参与实验,在无糖尿病的参与者中有609名患帕金森氏病,在糖尿病患者中有24名还患有帕金森氏病[37]。
请推断患帕金森氏病的风险是否与患糖尿病有关?答:本题为2×2列联表χ2检验,需做连续性矫正。
结果如下表:2*2 Contingency Table TestTABLE OF A BY BA BFrequency |Expected |Cell Chi-Square| 1| 2| Total---------------+--------+--------+1 | 609 | 50454 | 51063| 619.39 | 50444 || 0.1743 | 0.0021 |---------------+--------+--------+2 | 24 | 1098 | 1122| 13.61 | 1108.4 || 7.9323 | 0.0974 |---------------+--------+--------+Total 633 51552 52185STATISTICS FOR TABLE OF A BY BStatistic DF Value Prob------------------------------------------------------Chi-Square 1 8.206 0.004Likelihood Ratio Chi-Square 1 6.723 0.010Continuity Adj. Chi-Square 1 7.435 0.006Mantel-Haenszel Chi-Square 1 8.206 0.004Fisher's Exact Test (Left) 5.92E-03(Right) 0.997(2-Tail) 8.05E-03Phi Coefficient -0.013Contingency Coefficient 0.013Cramer's V -0.013Sample Size = 52185连续性矫正的χ2显著性概率P=0.006,P <0.01,故拒绝H0。
在糖尿病患者和非糖尿病患者中,帕金森氏病的发病率有极显著不同。
由此推断患帕金森氏病的风险可能与糖尿病有关。
7.4将患有慢性心力衰竭的门诊患者随机分为两组,采用两种方法护理。
一种是用通常的护理方法护理,共758名患者;另一种是用电话参与护理,心内科医生经常打电话访问、指导,共760名患者。
在该研究项目结束时,前一组有235名患者病情恶化甚至死亡,而后一组出现这种情况的是200名患者[38]。
问:用电话参与的护理方法与通常的护理方法,护理的效果有无显著不同?答:本题为2×2列联表χ2检验,需做连续性矫正。
结果如下表:2*2 Contingency Table TestTABLE OF A BY BA BFrequency |Expected |Cell Chi-Square| 1| 2| Total---------------+--------+--------+1 | 235 | 523 | 758| 217.21 | 540.79 || 1.4565 | 0.585 |---------------+--------+--------+2 | 200 | 560 | 760| 217.79 | 542.21 || 1.4526 | 0.5835 |---------------+--------+--------+Total 435 1083 1518STATISTICS FOR TABLE OF A BY BStatistic DF Value Prob------------------------------------------------------Chi-Square 1 4.078 0.043Likelihood Ratio Chi-Square 1 4.081 0.043Continuity Adj. Chi-Square 1 3.852 0.050Mantel-Haenszel Chi-Square 1 4.075 0.044Fisher's Exact Test (Left) 0.981(Right) 0.025(2-Tail) 0.047Phi Coefficient 0.052Contingency Coefficient 0.052Cramer's V 0.052Sample Size = 1518表中的χ2的显著性概率刚好为0.050,依据χ2=3.852,从χ2分布的分布函数可以计算出P=0.049 686 709 2,P <0.05。
结论是,用电话参与的护理方法与通常的护理方法,护理的效果有显著不同。