《生物统计附试验设计》复习思考题
课程代码:02793
一,名词解释题
1. 样本:从总体中抽取出来的部分个体所组成的单位.
2. 总体:是由研究目的所确定的研究对象的全体.
3. 参数:是指由总体计算的特征数.
4.统计量:由样本计算的特征数.
5.准确性:是观察值与真实值间的接近程度.
6.精确性:是重复观测值之间彼此接近的程度.
7.随机误差:是由试验中许多无法控制的内在和外在的偶然因素所造成的试验结果与真实结果之间产生的差异,
是不可避免的.
8.系统误差: 也叫片面误差,是由于试验的初始条件相差较大而引起的.
9. 算术平均数:资料中各观测值的总和除以观测个数所得的商.
10. 中位数:将资料内所有观测值从小到大依次排列,位于中间的观测值称为中位数.
11. 众数:资料中出现次数最多的那个观测值或次数最多一组的组中值,称为众数.
12. 调和平均数:资料中各观测值倒数的算术平均数的倒数称调和平均数.
13.变异系数:是标准差相对平均数的百分数,用CV表示.
14.几何平均数:n个观测值相乘之积开n次方所得的方根称为几何平均数.
15. 样本标准差:统计学中把样本方差S2的平方根叫样本标准差。
16.显著水平:用来确定否定或接收无效假设的概率标准.
17.I型错误:是真实情况为H0成立,却否定了它时犯下的“弃真”错误,其错误是把非真实差异错判为真实差异.
18.II型错误: 是真实情况为H0不成立,却接受了它时犯下的“纳伪”错误,其错误是把真实差异错判为非真实
差异.
19.试验处理:事先设计好的实施在试验单位上的具体项目叫试验处理,简称处理.
20.单因素试验:当试验中考察的因素只有一个时,称为单因素试验.
21.重复: 是指试验中同一处理实施在两个或两个以上的试验单位上.
22.试验指标:为衡量试验结果的好坏或处理效应的高低,在试验中具体测定的性状或观测的项目称为试验指标.
23.因素水平:试验因素所处的某种特定状态或数量等级称为因素水平.
24.小概率原理:把小概率事件在一次试验中看成是实际上不可能发生的事件的原理.
25.独立性检验:根据次数资料判断两类因子彼此相关或相互独立的假设检验方法.
26.适合性检验:是判断实际观察的属性类别分配是否符合已知属性类别分配理论或学说的一种假设检验方法.
27.顺序抽样法: 也称系统抽样或机械抽样。先将有限总体内的每个个体按其自然状态编号,然后根据调查所需
的数量,按一定间隔顺序抽样.
28.相关分析:即研究呈平行关系的两个变量间相互关系的统计学方法.
29.回归分析: 即研究呈因果关系的两个变量间相互关系的统计学方法.
30.随机抽样法: 先将有限总体内的所有个体全部编号,然后用抽签或用随机数字表的方法,随机抽取若干个个
体作为样本.
31.完全随机设计: 根据试验处理数将全部供试动物随机地分成若干组,然后再按组实施不同处理的设计.
二、单项选择题
1、在进行一个有4个处理的对比试验,若采用拉丁方设计,则用( 2 )安排试验。
①3×3拉丁方②4×4拉丁方③5×5拉丁方④6×6拉丁方
2、在一元线性回归分析中,回归系数b的计算式是( 3 )。
①SPxy/SSy②SSy/SSx③SPxy/SSx④SPxy/SSySSx
3、在两因素无重复的方差分析中一定有( 2 )。
①dfe=df A ②dfe=df A×df B ③df A=df B ④dfe=df A+df B
4、简单相关系数的取值范围是(2 )
①-1 5、相关系数(2 ) ①有单位②无单位③有时有单位有时无单位④可能有单位可能无单位 6、离均差平方和为( 2 ) ①大于0 ②最小③0 ④小于0 7、在非配对试验两样本均数的t检验中,设每组有n个观测值,则df=(4) ①n—1 ②2n—1 ③n ④2n—2 8、对同一样本,分别取以下显著水平,犯II型错误概率最小的是( 4 ) ①α=0.001 ②α=0.01 ③α=0.05 ④α=0.10 9、提出t检验的是( 2 ) ①K.Pearson ②W.S.Gosset③R.A.Fisher ④F.Galton 10、下列可取负值的是(1 ) ①SPxy ②SSx③SSy ④SSR 11、在适合性X2检验中,设质性分类数为k,样本含量为N,则df=( 1 ) ①k-1 ②N-1 ③(k-1)(n-1) ④k 12、表示抽样误差大小用( 2 ) ①平均数②标准误③变异系数④标准差 13、在配对试验两样本均数的t检验中,设每组有n个观测值,则df=( 1 ) ①n—1 ②2n—1 ③n ④2n—2 14、下列恒取正值的是( 1 ) ①SSx ②b③SPxy ④r 15、观测值与()之间的接近程度,叫准确性。( 2 ) ①观测值②真值③算术平均数④标准差 16、在独立性x2检验中,设有R行C列,则df=( 2 )。 ①(R-1)-(C-1)②(R-1)(C-1) ③(R-1)+(C-1)④(R-1) 17、.在单因素方差分析中,一定有(2 ) ①MSt>MSe②MST≠MSt+MSe ③MST=MSt+MSe④MSt<MSe 18、生物统计学创始人的是(4 ) ①K.Pearson ②W.S.Gosset③R.A.Fisher ④F.Galton 19、在计算标准差时,在各变数上同时乘以一个不为0的常数a,则标准差(2 )。 ①不变②扩大a倍③缩小a倍④加上a 20、在计算标准差时,在各变数上同时除以一个不为0的常数a,则标准差( 3 )。 ①不变②扩大a倍③缩小a倍④减去a 21、在两因素无重复的方差分析中一定有( 1 ) ①dfT=dfA+dfB+dfe②dfA=dfB③dfA〉dfB④dfA≠dfB 22、随机单位组设计要求( 1 ) ①单位组内试验单位同质②单位组间试验单位同质 ③单位组内和单位组间试验单位均同质④单位组内和单位组间试验单位均不同质 23、复相关系数R的取值范围是(2 ) ①(-1,+1)②(0,+1)③(-1,0 )④任何实数 24、在随机单位组设计中一定有( 3 ) ①处理数=重复数②处理数≠重复数③处理数=区组容量④处理数≠区组容量 25、在单因素方差分析中一定有( 3 ) ①dft=N-k②dft=N-1 ③dft=k-1 ④dft=k 26、提出了F分布并创立了方差分析理论的是(3 ) ①K.Pearson ②W.S.Gosset③R.A.Fisher ④F.Galton 27、在单因素方差分析中一定有(1) ①dfe=N-k②dfe=k-1 ③dfe=N-1 ④dfe=N 28、在一元线性回归关系的检验中,回归平方和的计算式是(2 ) ①b2SSy②b2SSx③bSSx④SPxy 29、在非配对试验两样本均数的t检验中,设每组有15个观测值,则df=(3 ) ①14 ②29 ③28 ④30 30、在计算标准差时,在各变数上同时减去一个常数a,则标准差( 1 ) ①不变②扩大a倍③缩小a倍④减去a 31、在计算标准差时,在各变数上同时加上一个常数a,则标准差(1 ) ①不变②扩大a倍③缩小a倍④加上a 32、在适合性X2检验中,设质性分类数为k,样本含量为N,则df=(1 ) ①k-1 ②N-1 ③(k-1)(n-1) ④k 33、单因素方差分析的数学模型是(1)。 ①x ij =μ+αi+εij ②x ij =μ+αi③x i =μ+αi+βj +εij ④x ij =αi +εij 34、.在单因素方差分析中一定有(1 ) ①SST=SSt+SSe②SSt〉SSe③SSt=SSe④SSt<SSe 35、下列四种抽样法中,抽样误差最小的是( 3 ) ①随机抽样法②顺序抽样法③分等按比例抽样法④群组抽样法 36、在单因素方差分析中一定有(1 ) ①dfT=dft+dfe②dfT≠dft+dfe ③dfT=dft ④dft=dfe 37、在非配对试验两样本均数的t检验中,设每组有12个观测值,则df=( 1 ) ①22 ②11 ③23 ④24 38、随机分组三样本均数的显著性检验方法是(2) ①t检验②F检验③t检验或F检验④X2检验 39、决定相关系数方向的是( 3 ) ①SSx②SSy③SPxy④S 40、提出x2检验的是( 1 ) ①K.Pearson ②W.S.Gosset③R.A.Fisher ④F.Galton 41、样本回归系数b的总体参数是( 1 ) ①β②μ③ρ④b 42、对同一样本,分别取以下显著水平,犯I型错误概率最小的是(3) ①α=0.05 ②α=0.01 ③α=0.001 ④α=0.10 43、用最小二乘法确定直线回归方程的原则是(3 ) ①距直线的纵间距离相等②距直线的垂直距离相等 ③距直线的纵间距离的平方和最小④距直线的纵间距离的平方和最大 44、离均差之和为(1 ) ①0 ②最小③大于0 ④小于0 45、在两因素无重复的方差分析中一定有( 2 ) ①MSA=MSB②MST≠MSA+MSB+MSe ③MST=MSA+MSB+MSe④MSA≠MSB 46、下列可取负值的是( 2 ) ①SSy ②SPxy③SSx④S S R 47、调和平均数H=( 2 ) ①1/(1/x1+1/x2+…+1/x n) ②n/(1/x1+1/x2+…+1/x n) ③(1/x1+1/x2+…+1/x n)/n ④(x1+x2+…+x n)/n 三、判断题 1. α越大,犯Ⅰ型错误的概率越小。(×) 2. 相关关系反映变量间的依从关系。(×) 3. 简单回归系数是自变量变化一个单位时应变量的平均变化量。(√) 4. 回归直线是残差平方和最小的一条最佳直线。(√) 5. 复相关系数恒取正值。(√) 6. t检验是由W.S.Gosset提出来的。(√) 7. 观测值与观测值间的接近程度叫准确性。(×) 8. 对同一样本,α越大,犯Ⅰ型错误的可能性越小。(×) 9. 调和平均数H=(1/x1+1/x2+…+1/xn)/n。(×) 10. 正态总体均数μ的99%置信区间中,置信半径是t0.01(df)SX。(×) 10. 正相关即为关系很密切。(×) 12 在随机单位组设计中每处理在每区组中出现一次。(√) 13. 抽样误差的大小用S表示。(×) 14. 独立性X2检验中,设有R行C列,则df=(R-1)(C-1)。(√) 15. 配对试验的t检验中,设每组有8个观察值,则自由度为14。( ×) 16. 小概率原理是指小概率事件在一次试验中实际不可能发生的原理。(√) 17. 离均差平方和等于零。(×) 18. 在df=1时,x2值的计算公式不需进行校正。(×) 19. 处理平方和是处理均数与总均值的离差平方和。(√) 20. 在单因素方差分析中,误差平方和大,处理均方一定小。(×) 21. 配对试验设计的结果用t检验法进行统计分析。(√) 22. 正态总体均数μ的95%置信区间中,置信距为t0.05(df)SX。(×) 23. 观测值与真值之间的接近程度叫精确性。(×) 24. 没有设置重复,也能进行显著性检验。(√) 25. 回归系数与相关系数都有单位,且两者的单位一致。(×) 26. 拉丁方设计是一种排除双向误差的设计。(√) 27. 单因素试验是只考虑一个因素而其它因素保持不变的试验。(×) 28. 在单因素方差分析中,拒绝备择假设HA:至少一个αi≠0,即 表明k个处理间差异显著或极显著。(√) 29. 离均差平方和为最小。(√) 30. 在直线回归分析中,回归系数的取值范围-1≤b≤+1之内。(×) 31. 在多元直线回归分析F检验与t检验必须同时进行。(√) 32. R2越大,表明回归平方和占总平方和的比例越大。(√) 33. α越小,犯Ⅰ型错误的可能性越小。(√) 34. 在单因素方差分析中误差自由度是观察值的总个数减去1。(×) 35. 在随机单位组设计中,单位组内不一定要同质。(×) 36. 在简单直线回归分析中一定有F=t2。(√) 37. 负相关即关系不密切。(×) 38. 在LSD法与LSR法中,LSD法犯Ⅰ型错误的概率最小。(×) 39. 在方差分析的F检验中,误差自由度的大小无关紧要。(×) 40. 重复就是试验时设置了两个以上的处理。(×) 41. 在计算标准差时,在各变数上同时除以一个常数a,则标准差不变。(×) 42. 任何试验都不需要设置对照组。(×) 43. 总均方是总平方和除以观察值的总个数。(×) 44. 离均差之和为最小。(×) 四、计算题 1. 有10头大白猪的产仔数分别为:12,10,11,13,8,9,10,8,9,10头,请求出该样本的算术平均数、标准 差和变异系数。 2 3 试计算:①产仔数与断奶窝重间的相关系数,②建立断奶窝重与产仔数间的直线回归方程。 4.某人用三种不同的饲料进行猪的对比试验,试验期间猪的增重结果如下表: 饲料增重(kg) A 32 35 32 B 27 29 30 C 29 31 33 问这三种不同饲料间的增重效果是否有差异? 五、证明题 1. 请证明:每个观察值同时乘以一个不为0的常数a,所得的标准差扩大a倍。 2.请证明:每个观察值同时加上一个常数a,所得的标准差不变。 3.请证明:请证明: ) )( ( ∑- -y y x x=∑∑ ∑-n y x xy/) )( ( 4.请证明:∑(x-x)2=∑x2-(∑x)2/n 5. 请证明:离均差之和为零。 六、问答题: 1.什么叫试验设计?试验设计的基本原则有哪些? 广义的试验设计是指试验研究课题设计,也就是整个试验计划的拟定。狭义是指试验单位(如动物试验的畜、禽)的选取、重复数目的确定及试验单位的分组。 在试验设计时,重复、随机化、局部控制是试验设计中必须遵循的原则。 ①重复:是指试验中同一处理实施在两个或两个以上的试验单位上。设置重复的主要作用在于估计试验误差和降低试验误差。如果同一处理只实施在一个试验单位上,那么只能得到一个观测值,则无从看出差异,因而无法估计试验误差的大小。只有当同一处理实施在两个或两个以上的试验单位上,获得两个或两个以上的观测值时,才能估计出试验误差。 ②随机化:是指在对试验动物进行分组时必须使用随机的方法,使供试动物进入各试验组的机会相等,以避免试验动物分组时试验人员主观倾向的影响。这是在试验中排除非试验因素干扰的重要手段,目的是为了获得无偏的误差估计量。 ③在试验环境或试验单位差异大的情况下,可将整个试验环境或试验单位分成若干个小环境或小组,在小环境或小组内使非处理因素尽量一致,这就是局部控制。每个比较一致的小环境或小组,称为单位组(或区组)。因为单位组之间的差异可在方差分析时从试验误差中分离出来,所以局部控制能较好地降低试验误差。 2.什么叫试验误差?动物试验中误差的来源有哪些? 在畜牧、水产等科学研究中,试验处理常常受到各种非处理因素的影响,使试验处理的效应不能真实地反映出来,也就是说,试验所得到的观测值,不但有处理的真实效应,而且还包含其它因素的影响,这就出现了实测值与真值的差异,这种差异在数值上的表现称为试验误差。 由于产生误差的原因和性质不同,试验误差可分为系统误差(片面误差)、随机误差(抽样误差)两类。动物试验误差的主要来源有: ①供试动物固有的差异。如试验动物的遗传基础、性别、年龄、体重不同,生理状况、生产性能的不一致等,即使是全同胞间或同一个体不同时期间也会存在差异。 ②饲养管理不一致所引起的差异。指在试验过程中各个处理在饲养技术、管理方法及日粮配合等在质量上的不一致,以及在观测记载时由于工作人员的认真程度,掌握的标准不同或测量时间、仪器的不同等所引起的偏差。 ③环境条件的差异。主要指那些不易控制的环境的差异,如栏舍温度、湿度、光照、通风不同所引起的差异等。 ④由一些随机因素引起的偶然差异。如偶然疾病的侵袭、饲料的不稳定等引起的差异。 3.标准差有哪些特性? ①标准差的大小,受资料中每个观测值的影响,如观测值间变异大,求得的标准差也大,反之则小。 ②在计算标准差时,在各观测值加上或减去一个常数,其数值不变。 ③当每个观测值乘以或除以一个常数a,则所得的标准差是原来标准差的a倍或1/a倍。 ④在资料服从正态分布的条件下,资料中约有68.26%的观测值在平均数左右一倍标准差(x±S)范围内;约有 95.43%的观测值在平均数左右两倍标准差(x±2S)范围内;约有99.73%的观测值在平均数左右三倍标准差(x 全距)来粗略估计标准差。 ±3S)范围内。也就是说全距近似地等于6倍标准差,可用(6/ 4.什么叫试验方案?拟定试验方案的要点有哪些? 试验方案是指根据试验目的与要求而拟定的进行比较的一组试验处理的总称。 拟定试验方案的要点: ①根据试验的目的、任务和条件挑选试验因素。 ②根据各试验因素的性质分清水平间差异:水平的数目要适当;水平间的差异要合理;试验方案中各因素水平的排列要灵活掌握。 ③试验方案中必须设立作为比较标准的对照。 ④试验处理(包括对照)之间应遵循唯一差异原则。 ⑤有的试验要设置预试期。 5.动物试验的特点有何和基本要求有哪些? 动物试验的特点有: ①试验干扰因素多。首先动物本身存在差异,其次,自然环境存在差异;第三,饲养管理条件存在差异;第四,试验人员操作技术上存在差异。②试验具有复杂性。③试验周期长。 动物试验的基本要求: ①试验要有代表性。动物试验的代表性包括生物学和环境条件两个方面的代表性。代表性决定了试验结果的可利用性,如果一个试验没有充分的代表性,再好的试验结果也不能推广和应用,就失去了实用价值。 ②试验要有正确性。在进行试验的过程中,应严格执行各项试验要求,将非试验因素的干扰控制在最低水平,以避免系统误差,降低试验误差,提高试验的正确性。 ③试验要有重演性。重演性是指在相同条件下,重复进行同一试验,能够获得与原试验相类似的结果,即试验结果必须经受得起再试验的检验。 6.什么叫适合性检验和独立性检验?它们有何区别? 答:(1)判断实际观察的属性类别分配是否符合已知属性类别分配理论或学说的假设检验称为适合性检验。 (2)根据次数资料判断两类因子彼此相关或相互独立的假设检验就是独立性检验。 (3)独立性检验与适合性检验是两种不同的检验方法,主要区别有: ①研究目的不同。 ②独立性检验的次数资料是按两因子属性类别进行归组。而适合性检验只按某一因子的属性类别将次数资料归组。 ③适合性检验按已知的属性分类理论或学说计算理论次数。独立性检验在计算理论次数时没有现成的理论或学说可资利用,理论次数是在两因子相互独立的假设下进行计算。 ④在适合性检验中确定自由度时,自由度为属性类别数减1。而在进行独立性检验时,自由度为 (r-1)(c-1)。 7.多个处理平均数的相互比较为什么不能用t检验? 因为:①检验过程烦琐。 ②无统一的试验误差,误差估计的精确性和检验的灵敏性低。 ③推断的可靠性低,检验的Ⅰ型错误率大。 所以,多个平均数的差异显著性检验则不宜用 t 检验,须采用方差分析法。 8.什么叫完全随机设计?它有哪些优缺点? ①完全随机设计是根据试验处理数将全部供试动物随机地分成若干组,然后再按组实施不同处理的设计。这种设计保证每头供试验动物都有相同机会接受任何一种处理,而不受试验人员主观倾向的影响。在动物试验中,当试验条件特别是试验动物的初始条件比较一致时,可采用完全随机设计。 ②完全随机设计的主要优点:设计容易:处理数与重复数都不受限制,适用于试验条件、环境、试验动物差异较小的试验。统计分析简单:无论所获得的试验资料各处理重复数相同与否,都可采用t检验或方差分析法进行统计分析。 ③完全随机设计的主要缺点:由于未应用试验设计三原则中的局部控制原则,非试验因素的影响被归入试验误差,试验误差较大,试验的精确性较低。在试验条件、环境、试验动物差异较大时,不宜采用此种设计方法。 9.什么叫随机单位组设计?它有哪些优缺点? ①随机单位组设计是根据局部控制的原则,如将同窝、同性别、体重基本相同的动物划归一个单位组,每一单位组内的动物数等于处理数,并将各单位组的试验动物随机分配到各处理组。 ②随机单位组设计的主要优点: 设计与分析方法简单易行;由于随机单位组设计体现了试验设计三原则,在对试验结果进行分析时,能将单位组间的变异从试验误差中分离出来,有效地降低了试验误差,因而试验的精确性较高;把条件一致的供试动物分在同一单位组,再将同一单位组的供试动物随机分配到不同处理组内,加大了处理组之间的可比性。 ③随机单位组设计的主要缺点:当处理数目过多时,各单位组内的供试动物数数目也过多,要使各单位组内供试动物的初始条件一致将有一定难度。 生物统计 第一章绪论 1.什么是生物统计?它在动物科学研究中有何作用? 2.什么是总体、个体、样本、样本容量?统计分析的两个特点是什么? 3.什么是参数、统计数?二者有何关系? 4.什么是试验或调查的准确性与精确性?如何提高试验或调查的准确性与精确性? 5.什么是随机误差与系统误差?如何控制、降低随机误差,避免系统误差? 6.统计学发展的概貌可分为哪三种形态?拉普拉斯、高斯、高尔顿、皮尔森、哥塞特、费 舍尔对统计学有何重要贡献? 第二章资料的整理 1.资料可以分为哪几种类型?它们有何区别与联系? 2.为什么要对资料进行整理?对于计量资料,整理成次数分布表的基本步骤是什么? 3.统计表与统计图有何用途?常用统计表、统计图有哪些?编制统计表、绘制统计图有 何基本要求? 4.某品种100头猪的血红蛋白含量资料单位:g/100ml列于下表,将其整理成次数分布表, 并绘制次数分布直方图与折线图。 表格1 4某品种100头猪的血红蛋白含量(g/100ml) 13. 4 13. 8 14. 4 14. 7 14. 8 14. 4 13. 9 13. 13. 12. 8 12. 5 12. 3 12. 1 11. 8 11. 10. 1 11. 1 10. 1 11. 6 12. 12. 12. 7 12. 6 13. 4 13. 5 13. 5 14. 15. 15. 1 14. 1 13. 5 13. 5 13. 2 12. 7 12. 8 16. 3 12. 1 11. 7 11. 2 10. 5 10. 5 11. 3 11. 8 12. 2 12. 4 12. 8 12. 8 13. 3 A 题 细胞体内代谢物浓度预测 随着基因组、转录组、蛋白质组等各种“组学”研究计划的蓬勃开展,生命科学进入了“组学”时代。代谢组学作为系统生物学的重要分支,其研究的重点是细胞内代谢物种类与浓度的定性和定量分析以及代谢网络的构建和模拟。 对代谢物的检测及浓度测定主要采用实验方法,包括核磁共振、气相色谱-质谱联用和液相色谱-质谱联用等技术。但由于代谢物种类繁多,且大部分浓度较低(μM 数量级),尤其是胞内代谢物提取难度非常大,精确测定其浓度异常困难,而且实验测定需要消耗大量财力物力和人力,因此通过计算机方法对代谢物浓度预测和分析变得越来越重要。 活细胞的代谢物浓度由什么决定?除了一些特定的代谢和酶的作用以外,有没有那种能全局影响浓度值的性质? 试根据附件中的数据完成如下问题: 1 根据不同类型的数据,分析代谢物浓度与其物理化学性质之间的关系。 2 筛选合适的物理化学性质,建立预测代谢物浓度的预测模型,并对此模型进行评价; 1.线性插补法处理缺失数据 原理:用该列数据缺失值前一个数据和后一个数据建立线性插值,然后用缺失点在线性插值函数的函数值填充该缺失值,即: 在于消除不同变量的量纲的影响,而且标准化转化不会改变变量的相关系数。 代谢物浓度:取对数 代谢物理化性质:标准差标准化法 )1,1( m j n i S x x x j j ij ij ≤≤≤≤-=' 式中:.)(11,1121∑∑==--= =n i j ij j n i ij j x x n S x n x 3.SAS 软件建立多元线性回归方程 回归模型一般形式: u X b X b X b b Y k k +++++= (22110) 本科《生物统计附试验设计》课程代码:02793 一,名词解释题 1.中位数:将资料所有观测值按从小到大的顺序排列,处于最中间的数. 2.I型错误:是拒绝H0时犯下的错误,其错误是把真实差异错叛为非真实差异. 3.总体:是由研究目的的确定的研究对象的个体总和. 4.参数:是指由总体计算的特征数. 5.相关分析:即两个以上的变量之间共同受到另外因素的影响. 6.回归分析:即一个变量的变化受到一个或几个变量的影响. 7.精确性:是重复观测值之间彼此接近的程度. 8.显著水平:是检验无效假设的水准.但另一方面它也是进行检验时犯错误概率大小. 9.随机单位组设计:它的原理与配对设计类似,抽每一头试验动物具有相等的机会,接受任一处理而不受人为影响. 10.统计量:由样本计算的特征数. 11.准确性:是观察值与真实值间的接近程度. 12.随机误差:是由试验中许多无法控制的偶然因素所造成的试验结果与真实结果之间产生的误差,是不可避免的. 13.系统误差:是由于试验处理以外的其它条件明显不一致所产生的带有倾向性的偏差. 14.样本:是在总体中进行抽样,从中抽取的部分个体. 15.众数:资料中出现最多的观测值或次数最多的一组中值. 16.样本标准差:统计学中样本平方差S^2的平方根 17.试验处理:在一项试验中,同一条件下所做的试验称为一个处理. 18.几何平均数:几个观测值相乘之积开n次方所得的方根称为几何平均数. 19.顺序抽样法:是将有限总体内所有个体编号,然后按照一定顺序每隔一定的数目,均匀抽出一个个体,组成样本,对样本进行调查. 20.试验指标:用来平衡量试验效果的量. 21.随机抽样法:是将总体内所有的个体编号,然后采取抽签,拈阄或用随机数字表的方法将部分个体取出而做为样本进行调查. 22.小概率原理:小概率事件在一次试验中实际不可能发生的原理. 23.重复:在试验中,同一处理内设置的动物数量,称为重复. 24.局部控制:在试验设计时采用各种技术措施,控制和减少非试验因素对试验指标的影响. 25.算术平均数:资料中各观测值的总和除以观测个数所得的商. 26.变异系数:是标准差相对平均数的百分数,用CV表示. 27.II型错误:在接受H0时犯下的错误,其错误是把真实差异错判为非真实差异. 28.因素水平:每个试验因素的不同状态(处理的某种特定状态或数量上的差别)称为因素水平. 29.配对设计:是指将条件一致的两头动物酿成对子,然后采取随机的方法在同一对子内两头动物进行分配处理. 30.试验处理:指对受试对象给予的某种外部干预或措施,是试验中实施的因子水平的一个组合. 31.调和平均数:资料中各观测值倒数的算术平均数的倒数称调和平均数. 32.效应:是指因素对某试验指标所起的增进或减退的作用. 33.顺序抽样:它是按某种既定顺序从总体(有限总体)中抽取一定数量的个体构 《生物统计附试验设计》 习题集 (动物医学专业用) 第一章绪论 一、名词解释 总体个体样本样本含量随机样本参数统计量准确性精确性 二、简答题 1、什么是生物统计?它在畜牧、水产科学研究中有何作用? 2、统计分析的两个特点是什么? 3、如何提高试验的准确性与精确性? 4、如何控制、降低随机误差,避免系统误差? 第二章资料的整理 一、名词解释 数量性状资料质量性状资料半定量(等级)资料计数资料计量资料 二、简答题 1、资料可以分为哪几类?它们有何区别与联系? 2、为什么要对资料进行整理?对于计量资料,整理的基本步骤怎样? 3、在对计量资料进行整理时,为什么第一组的组中值以接近或等于资料中的最小值为好? 4、统计表与统计图有何用途?常用统计图、统计表有哪些? 第三章平均数、标准差与变异系数 一、名词解释 算术平均数几何平均数中位数众数调和平均数标准差方差离均差的平方和(平方和)变异系数 二、简答题 1、生物统计中常用的平均数有几种?各在什么情况下应用? 2、算术平均数有哪些基本性质? 3、标准差有哪些特性? 4、为什么变异系数要与平均数、标准差配合使用? 三、计算题 1、10头母猪第一胎的产仔数分别为:9、8、7、10、1 2、10、11、14、8、9头。试计算这10头母猪第一胎产仔数的平均数、标准差和变异系数。 2、随机测量了某品种120头6月龄母猪的体长,经整理得到如下次数分布表。试利用加权法计算其平均数、标准差与变异系数。 组别组中值(x)次数(f) 80—84 2 88—92 10 96—100 29 104—108 28 112—116 20 120—124 15 128—132 13 136—140 3 3、某年某猪场发生猪瘟病,测得10头猪的潜伏期分别为2、2、3、3、 4、4、4、 5、9、12(天)。试求潜伏期的中位数。 4、某良种羊群1995—2000年六个年度分别为240、320、360、400、420、450只,试求该良种羊群的年平均增长率。 5、某保种牛场,由于各方面原因使得保种牛群世代规模发生波动,连续5个世代的规模分别为:120、130、140、120、110头。试计算平均世代规模。 6、调查甲、乙两地某品种成年母水牛的体高(cm)如下表,试比较两地成年母水牛体高的变异程度。 甲地137 133 130 128 127 119 136 132 乙地128 130 129 130 131 132 129 130 第四章常用概率分布 一、名词解释 随机事件概率的统计定义小概率原理正态分布标准正态分布双侧概率(两尾概率)单侧概率(一尾概率)二项分布波松分布标准误t分布 《生物统计学》实验教学教案 [实验项目] 实验一平均数标准差及有关概率的计算 [教学时数] 2课时。 [实验目的与要求] 1、通过对平均数、标准差、中位数、众数等数据的计算,掌握使用计算机计算统计量的方法。 2、通过对正态分布、标准正态分布、二项分布、波松分布的学习,掌握使用计算机计算有关概率和分位数的方法。为统计推断打下基础。 [实验材料与设备] 计算器、计算机;有关数据资料。 [实验内容] 1、平均数、标准差、中位数、众数等数据的计算。 2、正态分布、标准正态分布有关概率和分位数的计算。 3、二项分布有关概率和分位数的计算。 4、波松分布有关概率和分位数的计算。 [实验方法] 1、平均数、标准差、中位数、众数等数据的计算公式。 平均数=Average(x1x2…x n) 几何平均数=Geomean(x1x2…x n) 调和平均数=Harmean(x1x2…x n) 中位数=median(x1x2…x n) 众数=Mode(x1x2…x n) 最大值=Max(x1x2…x n) 最小值=Min(x1x2…x n) 平方和(Σ(x- )2)=Devsq(x1x2…x n) x 样本方差=Var (x1x2…x n) 样本标准差=Stdev(x1x2…x n) 总体方差=Varp(x1x2…x n) 总体标准差=Stdevp(x1x2…x n) 2、正态分布、标准正态分布有关概率和分位数的计算。 一般正态分布概率、分位数计算: 概率=Normdist(x,μ,σ,c) c 取1时计算 -∞-x 的概率 c 取0时计算 x 的概率 分位数=Norminv(p, μ, σ) p 取-∞到分位数的概率 练习: 猪血红蛋白含量x 服从正态分布N(12.86,1.332),(1) 求猪血红蛋白含量x 在11.53—14.19范围内的概率。(0.6826)(2) 若P(x <1l )=0.025,P(x >2l )=0.025,求1l ,2l 。 (10.25325) L1=10.25 L2=15.47 标准正态分布概率、分位数计算: 概率=Normsdist(x) c 取1时计算 -∞--x 的概率 c 取0时计算 x 的概率 分位数=Normsinv(p) p 取-∞到分位数的概率 练习: 1、已知随机变量u 服从N(0,1),求P(u <-1.4), P(u ≥1.49), P (|u |≥2.58), P(-1.21≤u <0.45),并作图示意。 参考答案: (0.080757,0.06811,0.00988,0.5605) 2、已知随机变量u 服从N(0,1),求下列各式的αu 。 (1) P(u <-αu )+P(u ≥αu )=0.1; 0.52 (2) P(-αu ≤u <αu )=0.42; 0.95 参考答案: [1.644854, 0.63345; 0.553385, 1.959964] 3、二项分布有关概率和分位数的计算。 概率=Binomdist(x,n,p,c) c 取1时计算 0-x 的概率 c 取0时计算 x 的概率 练习: 1、已知随机变量x 服从二项分布B (100,0.1),求μ及σ。 参考答案: 见P48,μ= np, σ=(npq)0.5 2、已知随机变量x 服从二项分布B(10,0.6),求P(2≤x ≤6),P(x ≥7),P(x<3)。 参考答案: 0.6054, 0.38228, 0.012295 4、波松分布有关概率和分位数的计算。 概率=Poisson(x,λ,c) c 取1时计算 0-x 的概率 c 取0时计算 x 的概率 练习: ),(m n Permut C m n = 广东药学院自编教材试验设计与统计分析 卫生统计学教研室 2014.8 第一章绪论 在医药卫生、食品等专业研究领域,常需要开展大量的试验来确定或验证研究者在科研过程中提出的科学假设,例如临床上研究某种新的降糖药的疗效时,研究者需要将研究对象(如糖尿病患者)随机地分组,使其中一组患者服用研究中的该降糖药,另一组患者服用传统的降糖药,进而比较两组药物的疗效。但在具体的试验实施之前,研究者需要面对很多问题,如试验中试验对象应如何选择和分组?如何在试验过程中避免服用不同试验药物对试验对象心理产生影响,继而影响到最终疗效的判断?选择什么样的指标可更好的反映药物疗效?样本量需要多少?试验数据应如何收集以及运用何种统计方法进行分析等等问题。因为研究过程中研究结果会受到诸多因素影响,如研究对象的年龄、性别和病情可能影响药物疗效,如果不采取科学的方法使这些因素在比较组间分布均衡,就不能得到令人信服的结论。因此为使科学研究在消耗最少人力和物力的情况下,最大限度地减少误差,获得科学可靠的结论,需要在研究开始之前对整个试验过程做出精心安排,制定详细具体的试验实施方案,即进行试验设计(experimental design)。一个科学合理的试验设计,可以达到事半功倍的效果,是试验获得成功的关键。 一、试验设计的基本要素 医学试验包括三个基本要素:即处理因素、试验对象和试验效应。如研究某降糖新药的疗效,处理因素为降糖新药及比较的传统降糖药;研究者需用糖尿病患者作为试验对象;试验效应是能反映药物疗效的指标,如患者空腹血糖或餐后血糖的下降。处理因素作用于试验对象后产生试验效应(图1),三个要素缺一不可,因此试验设计时要先明确三个基本要素,再制定详细的研究计划。 1. 处理因素 处理因素(treatment)是指研究者根据研究目的施加于试验对象,以考察其试验效应的因素。如临床上研究降糖药的疗效,降糖药即为处理因素。在试验过程中处理因素的状态称为水平(level),如比较降糖新药和传统降糖药的疗效, 生物统计学 名词解释: 1.生物统计学:是数理统计在生物学研究中的应用,它是应用数理统计的原理,运用 统计方法来认识、分析、推断和解释生命过程中的各种现象和试验调查资料的科学。 2.总体:具有相同性质或属性的个体所组成的集合称为总体,它是指研究对象的全 体; 3.个体:组成总体的基本单元称为个体; 4.样本:从总体中抽出若干个体所构成的集合称为样本; 5.样本容量:样本中所包含的个体数目称为样本容量。 6.集中性:资料中的观测值从某一数值为中心而分布的性质。 7.离散性:是变量有差离中心分散变异的性质。 8.变量(变数):指相同性质的事物间表现差异性或差异特征的数据。 9.常数:表示能代表事物特征和性质的数值,通常由变量计算而来,在一定过程中是 不变的。 10.参数:描述总体特征的数量称为参数,也称参量。常用希腊字母表示参数,例如用 μ表示总体平均数,用σ表示总体标准差; 11.统计数:描述样本特征的数量称为统计数,也称统计量。常用拉丁字母表示统计数, 例如用x表示样本平均数,用S表示样本标准差。 12.效应:通过施加试验处理,引起试验差异的作用称为效应。效应是一个相对量,而 非绝对量,表现为施加处理前后的差异。效应有正效应与负效应之分。 13.互作(连应):是指两个或两个以上处理因素间相互作用产生的效应。互作也有正效 应(协同作用)与负效应(拮抗作用)之分。 14.准确性:也叫准确度,指在调查或试验中某一试验指标或性状的观测值与其真值接 近的程度。 15.精确性:也叫精确度,指调查或试验中同一试验指标或性状的重复观测值彼此接近 的程度。 16.随机误差(抽样误差):这是由于试验中无法控制的内在和外在的偶然因素所造成。 随机误差越小,试验精确性越高。 17.系统误差(片面误差):这是由于试验条件控制不一致、测量仪器不准、试剂配制 不当、试验人员粗心大意使称量、观测、记载、抄录、计算中出现错误等人为因素而引起的。系统误差影响试验的准确性。只要以认真负责的态度和细心的工作作风是完全可以避免的。 18.试验误差:在试验过程中,由于试验条件及人为的一些因素而造成的试验结果与真 实值之间的偏差,来源于试验材料固有的差异和外界因素(管理措施、试验条件等)。 19.数量性状:是指能够以计数和测量或度量的方式表示其特征的性状。 20.质量性状:是指能观察到而不能直接测量的性状 21.次数资料:由质量性状量化得来的资料叫做次数资料。 22.试验:是对已有的或没有的事物加以处理的方法。 23.大数定律:是概率论中用来阐述大量随机现象平均结果稳定性的一系列定律的总称。 主要内容:样本容量越大,样本统计数与总体参数之差越小。 24.泊松分布:是一种可以用来描述和分析随机地发生在单位空间或时间里的稀有事件 的概率分布,也是一种离散型随机变量的分布。 25.假设检验:又称显著性检验,就是根据总体的理论分布和小概率原理,对未知或不完 全知道的总体提出两种彼此对立的假设,然后由样本的实际原理,经过一定的计算, 《生物统计附试验设计》复习题 (考试共有五种题型:其中名称解释5道共10分,单选10道共10分,判断题10道共10分,计算题4道共60分,问答题2道共10分) 一、名词解释题 1.总体: 4.准确性: 7.系统误差: 8.样本: 11.随机样本: 12.样本容量: 13.假想总体:, 15.数量性状资料: 17.全距: 18.简单表: 20.众数: 21.样本标准差: 22.几何平均数: 23.算术平均数: 24.调和平均数: 26.离均差: 28.变异系数: 29.统计推断: 30.小概率事件实际不可能性原理: 31.显著水平: 32.I型错误: 34.非配对设计: 35.配对设计:, 37.试验处理: 38.试验指标: 39.重复: 40.试验单位: 41.因素水平: 42.多重比较。 44.独立性卡方检验: 46.相关分析: 47.回归分析: 51.相关系数: 52.试验设计(狭义): 53.试验方案: 56.局部控制: 57.完全随机设计: 59.多因素试验: 试验中只进行一种因素的测定 62.完全随机抽样: 二、单项选择题 1、单因素方差分析的数学模型是()。 ①x ij =μ+αi+εij ②x ij =μ+αi③x i =μ+αi+βj +εij ④x ij =αi +εij 2、.在单因素方差分析中一定有() ①SST=SSt+SSe②SSt〉SSe③SSt=SSe④SSt<SSe 3、一元线性回归的假设检验()。 ①只能用t检验②只能用F检验③两者均可④两者均不可 4、在单因素方差分析中一定有() ①dfT=dft+dfe②dfT≠dft+dfe ③dfT=dft ④dft=dfe 5、简单相关系数的取值范围是() ①-1 ,生物统计 1,总体:根据研究目的确定的研究对象的全体 2、个体:总体中的一个研究单位 3、样本:实际研究中的一类假象总体 4、样本含量:样本中所包含的个体数目称为样本含量或大小 5、随机样本:一类从总体中随机抽得到的具有代表性的样本 6、统计量:由样本计算的特征数 7、参数:由总体计算的特征数 8、精确性:指在试验或调查中某一试验指标或性状的重复观察值彼此接近的程度9、系统误差:系统误差又叫做片面误差。它是在一定的测量条件下,对同一个被测尺寸进行多次重复测量时,误差值的大小和符号(正值或负值)保持不变;或者在条件变化时,按一定规律变化的误差。 10、偶然误差:一类由于偶然的或不确定的因素所造成的每一次测量值的无规则变化(涨落),叫做偶然误差,或随机误差。 11、连续性变数资料:指用量测方式获得的数量性状资料 12、离散型变数资料:指用计数方式获得的数量性状资料 13、算术平均数:指资料中的各观测值的总和除以观测值个数所得的商,简称平均数或均数 14、平均数:资料或代表数,主要包括算术平均数,中位数,众数,几何平均数及调和平均数 15、标准差:是各数据偏离平均数的距离的平均数,它是离均差平方和平均后的方根,用σ表示。 16、方差:度量总体(或样本)各变量间变异程度的参数(总体)或统计量(样本)。 17、离均差平方和:样本各观测值变异程度大小的另一个统计数 18、试验:在一定条件下对自然现象所进行的观察或试验统称为试验 19、随机事件:随机试验的每一种可能结果 20、概率:事件本身所固有的数量指标,不随人的主观意志而改变,人们称之为概率 21、正态分布:若连续性随机变量X的概率分布密度函数,则X服 从正态分布 22、标准正态分布:我们把平均数u=0,σ2 =1时,称为标准正态分布,记为N(0, 1) 23、双侧概率:我们把随机变量X在平均 数u加减不同倍数标准差σ区间 (u-kσ,u+kσ)之外,取值的概率称为双 侧概率 24、单侧概率:对应于两尾概率可以求得 随机变量x小于小于u-kσ或大于u+kσ的 概率 标准误:反映样本平均数的抽样误差的大 小的一种指标 25、假设检验(显著性检验):假设检验是 数理统计学中根据一定假设条件由样本推 断总体的一种方法。 26、t检验:两总体方差未知但相同,用 以两平均数之间差异显著性的检验。 27、无效假设:被检验的假设,通过检验可 能被否定,也可能未被否定。 28、备择假设:是在无效假设被否定时准 备接受的假设。 29、显著水平:用来确定无效假设是否被 否定的概率标准。 30、Ⅰ型错误:把非真实差异错判为真实 差异。 31、Ⅱ型错误:把真实差异错判为非真实 差异。 32、双侧检验(双尾检验):利用两侧尾部 的概率进行的检验。 33、单侧检验(单尾检验):利用一侧尾部 的概率进行的检验。 34、分位数:又称百分位点。若概率 0 Za)=α的 实数 35、配对设计:是指先根据配对的要求将 试验单位两两配对,然后将配对成子的两 个实验单位随机分配到两个处理组中。 36、区间估计:是指在一定概率保证下指 出总体参数的可能范围。 置信区间:是指在进行区间估计时所给出 的可能范围。 37、置信度(置信概率):是指在进行区间 估计时所给出的概率保证。 38、方差分析:实质上是关于观测值变异 原因的数量分析。 39、试验指标:用来衡量试验结果的好坏 或处理效应的高低,在试验中具有测定的 性状或观测的项目。 40、试验因素:实验中所研究的影响试验 指标的因素。 41、因素水平:试验因素所处的某种特定 状态或数量等级。 42、试验处理:率先设计好的实施在试验 单位上的具体项目。 43、试验单位:在试验中能够接受不同试 验处理的独立的试验载体。 44、多重比较:统计学上指多个平均数两两 之间的相互比较称为多重比较。 45、主效应:由于因素水平的改变而引起 试验指标观测值平均数的改变量称为主效 应。 46、简单效应:在某因素同一水平上,另 一因素不同水平试验指标观测值之差称为 简单效应。 47、适合性检验:判断实际观察的属性类 别分配是否符合已知属性类别分配理论或 学说的假设检验。 48、独立性检验:根据次数资料判断两类 因子彼此相关或相互独立的假设检验。 49、相关变量:存在相关关系的变量叫做 相关变量。 50、回归分析:是确定两种或两种以上变 数间相互依赖的定量关系的一种统计分析 方法。 51、相关分析:研究随机变量之间相关性 的统计分析方法。 52、直线回归分析:如果在回归分析中, 只包括一个自变量和一个因变量,且二者 的关系可用一条直线近似表示,这种回归 分析称为直线回归分析 53、直线相关分析:对两个相关变量间的 直线关系进行相关分析称为直线相关分析 54、相关系数:统计学上把决定系数r2 的平方根称为x与y的相关系数 55、试验设计:以概率论和数理统计为理 论基础,经济地,科学地安排试验的一项 技术。 56、随机:使用随机方法对试验动物分组, 使参试动物分入各试验处理组的机会相 等,以避免试验动物分组事试验人员主观 倾向的影响 57、重复:试验的每一个处理都实施在两 2006-2007第1学期生物统计考试试卷(B 卷)答案 一、名词解释(10×2) 1、参数:描述总体的特征数。 2、连续性变数:指在任意两个变量之间都有可能存在只有微量差异的第三个变量存在,这样一类变数称为连续性变数 3、唯一差异原则:除了被研究的因素具有的不同水平外,其余各种环境因素均应保持在某一特定的水平上。 4、两尾测验:有两个否定区,分别位于分布的两尾。 5、显著水平:否定无效假设0H 的概率标准。 6、互斥事件:如果事件1A 和2A 不能同时发生,即12A A 为不可能事件,则称事件1A 和2A 互斥。 7、无偏估计:在统计上,如果所有可能样本的某一统计数的平均数等于总体的相应参数,则称该统计数为总体相应参数的无偏估值。 8、相关系数:表示两组变数相关密切程度及性质的变数,r *9、否定区:否定无效假设0H 的区间。 *10、偏回归系数:任一自变数(在其他自变数皆保持一定数量水平时)对依变数的效应。 二、是非题(5×1) 1、二项分布的平均数为np ( √ ) 2、在二因素完全随机化设计试验结果的方差分析中,误差项自由度为(1)(1)n ab --。( × ) 3、2χ分布是随自由度变化的一簇间断性曲线,可用于次数资料的假设测验。( × ) 4、一个显著的相关系数或回归系数说明X 和Y 变数的关系必为线性关系。( × ) 5、在一组变量中,出现频率最多的观察值,称为中位数。( × ) 三、选择题(10×2) 1、算术平均数的重要特征之一是离均差的总和( C ) A 、最小 B 、最大 C 、等于零 D 、接近零 2、一批种子的发芽率为0.75p =,每穴播5粒,出苗数为4时的概率( A ) A 、0.3955 B 、0.0146 C 、0.3087 D 、0.1681 3、回归截距a 的标准误等于( D ) A 、X SS n Q )2(- B 、 X X Y SS x X n S 2 )(1-+ C 、X X Y SS x X n S 2 )(11-++ D 、 X X Y SS x n S 2 1+ 4、Y~N(10, 80),当以1210n n ==进行抽样时,128y y ->的概率约为[ B ]。 A. 0.10 B. 0.05 C. 0.025 D. 0.01 5、成对比较的特点不包括( D ) A 、加强了试验控制 B 、可减小误差 C 、不必考虑总体方差是否相等 D 、误差自由度大 6、方差分析基本假定中除可加性、正态性外,尚有[ C ]假定。 A 、无偏性 B 、无互作 C 、同质性 D 、重演性 7、若否定 H ,则( ) A 、必犯α错误 B 、必犯β错误 C 、犯α错误或不犯错误 D 、犯β错误或不犯错误 8、随机抽取200粒棉花种子做发芽试验,得发芽种子为150粒,其与00.8p =的差异显著性为( A )。 A 、不显著 B 、显著 C 、极显著 D 、不能确定 9、当30n ≤时,测验一个样本方差2 s 和某一指定值C 是否有显著差异的方法用( B ) A 、F 测验 B 、2 χ测验 C 、t 测验 D 、u 测验 *10、多元线性回归方程的假设测验可用( A )。 A 、F 测验 B 、F 或t 测验 C 、t 测验 D 、u 测验 二、填空 1、生物统计分描述性统计和分析性统计。描述性统计是指运用分类、制表、图形以及计算概括性数据(平均数、标准差等)来描述数据特征的各项活动。分析性统计是进行数据观察、数据分析以及从中得出统计推断的各项活动。 2、统计分析的基本过程就是由样本推断总体的过程。该样本是该总体的一部分。 3、由样本获取总体的过程叫抽样。常用的抽样方法有随机抽样、顺序抽样、分等按比例抽样、整群抽样等。 4、样本平均数与总体平均数的差异叫抽样误差。常用 S/√N表示。 5、只有降低抽样误差才能提高试验结果的正确性。试验结果的正确性包括准确性和精确性。 6、试验误差按来源分为系统误差(条件误差)和随机误差(偶然误差)。系统误差(条件误差)影响试验结果的准确性,随机误差(偶然误差)影响试验结果的精确性。 7、系统误差(条件误差)可以控制,可通过合理的试验设计方法降低或消除。随机误差(偶然误差)不可控制,可通过理论分布来研究其变异规律,或相对比较其出现的概率的大小。 8、样本推断总体分假设检验和区间估计两大内容。常用的检验方法有t检验、F检验和卡方检验。 9、置信区间指在一定概率保证下总体平均数的可能范围。 10、t检验是通过样本平均数差值的大小来检验处理效应是否存在,两样本平均数的差值代表了试验的表观效应,它可能由处理效应(真实效应)和误差效应引起,要检验处理效应是否存在,常采用反证法。此法先建立无效假设:即假设处理效应不存在,样本平均数差值是由误差引起,根据差异在误差分布里出现的概率(即可能性大小的衡量)来判断无效假设是否成立。 11、判断无效假设是否成立的依据是小概率事件实际不可能原理,即假设检验的基本依据。用来肯定和否定无效假设的小概率,我们称之为显著水平,通常记为α。 12、t检验通常适合两样本连续性(非间断性)随机变量资料的假设检验,当二项分布逼近正态分布时,百分数资料也可用t检验。 13、F检验也叫方差分析。通常适合三个或三个以上样本连续性(非间断性)随机变量资料的假设检验。顾名思义,F检验是用方差的变异规律(即F分布)来检验处理效应是否存在。 14、F检验是从总离均差平方和与自由度的剖分开始,将总变异剖分为组间变异和组内变异。因为组间变异由处理效应和误差效应共同引起,组内变异由误差效应引起。因而,将计算出的组间方差和组内方差进行比较,就可判断处理效应是否存在。 15、F检验显著或极显著说明组间处理效应存在,但并不能说明每两组间都存在差异,要知道每两 渤海大学学生实验报告 课程名称:生物统计学实验任课教师:何余堂 实验室名称:计算机室房间号:理工Ⅱ--205 实验时间:2012-6-14 学院化学化工与食品安全学院专业食品质量与安 全 班级10-10 姓名宋帅婷学号10150142同组人其余19人 实验项目统计数据的整理及次数分布 表/图的制作 组 别第二组 实验成绩 一、实验目的 1、掌握Excel数据输入、输出与编辑方法; 2、掌握Excel用于描述性统计的基本菜单操作及命令; 3、掌握数据整理的基本方法; 4、熟练制作次数分布表/图。 二、实验原理 当观测值较多(n>30)时,宜将观测值分成若干组,以便统计分析。将观测值分组后,制成次数分布表,即可看到资料的集中和变异情况。 连续性资料的整理,需要先确定全距、组数、组距、组中值及组限,然后将全部观测值计数归组。分组结束后,将资料中的每一观测值逐一归组,统计每组内所包含的观测值个数,制作次数分布表。利用Excel的数据统计工具可以辅助完成上述工作。 三、实验步骤 1、加载分析工具库 单击Excel程序“工具”菜单中的“数据分析”命令可以浏览已有的分析工具。如果在“工具”菜单上没有“数据分析”命令,应在“工具”菜单上运行“加载宏”命令,在“加载宏”对话框中选择“分析工具库”。 2、练习 某地80例30~40岁健康男子血清总胆固醇(mol/L)测定结果如下: 4.77 4.56 5.18 4.38 4.03 5.16 4.88 4.52 4.47 5.38 3.37 4.37 5.77 4.89 5.85 5.10 5.55 4.38 3.40 3.89 6.14 5.39 4.79 4.09 5.85 3.04 4.31 3.91 4.60 3.95 6.30 5.12 5.32 3.35 4.79 4.55 4.58 2.70 4.47 3.56 4.77 4.56 5.18 4.38 4.03 5.16 4.88 4.52 4.47 5.38 3.37 4.37 5.77 4.89 5.85 5.10 5.55 4.38 3.40 3.89 6.14 5.39 4.79 4.09 5.85 3.04 4.31 3.91 4.60 3.95 6.30 5.12 5.32 3.35 4.79 4.55 4.58 2.70 4.47 3.56 5.21 填空题 1.数据资料按其性质不同各分为资料和资料两种。 2.有共同性质的个体所组成的集团称为。从总体中抽取部分个体进行观测,用以估计总 体的一般特性,这部分被观测的个体总称为。 3.由总体中包含的全部个体求得的能够反映总体性质的特征数称为;由样本的全部观察 值求得的用以估计总体参数的特征数叫。 4..试验误差可以分为误差和误差两种类型。 5.从总体中抽取的样本要具有代表性,必须是抽取的样本。 6.样本根据样本容量的多少可以分为和。 8.小麦品种A穗长的平均数和标准差值为12cm和3cm,品种B为18cm和3.5cm,根据__________,判断品种______的 该性状变异大。 9.某海水养殖场进行贻贝单养和贻贝与海带混养的对比试验,收获时各随机抽取抽取50绳测其毛重,结果如下所示: 平均数X(kg)极差R(kg)标准差S(kg)变异系数CV% 贻贝单养42.70307.0816.58贻贝与海带混养52.1030 6.3412.16根据和,判断的效果好。 10.在统计学中,常见平均数主要有和。 11. 12. 13. 14. 15. 16. 17. 简答题 1.如何控制、降低随机误差,避免系统误差? 2.什么是准确性,精确性?如何提高试验的正确性? 3.统计表与统计图有何用途?常用统计图、统计表有哪些? 4.生物统计学中常用的平均数有几种?各在什么情况下应用? 5.为什么变异系数要与平均数、标准差配合使用? 多选题 1.下列总体中属于有限总体的是()。 A 保定地区棉田中棉铃虫的头数 B 20m2的试验小区中鲁玉4号玉米的株高 C 66.7万公顷鲁玉4号玉米的株高 D 320株水稻中糯稻的株数 2.下列数据资料中属于连续型变数资料。 总体:根据研究目的确定的研究对象的全体 个体:总体中的一个研究单位 样本:实际研究中的一类假象总体 样本含量:样本中所包含的个体数目称为样本含量或大小 随机样本:一类从总体中随机抽得到的具有代表性的样本 统计量:由样本计算的特征数 参数:由总体计算的特征数 精确性:指在试验或调查中某一试验指标或性状的重复观察值彼此接近的程度 系统误差:系统误差又叫做片面误差。它是在一定的测量条件下,对同一个被测尺寸进行多次重复测量时,误差值的大小和符号(正值或负值)保持不变;或者在条件变化时,按一定规律变化的误差。 偶然误差:一类由于偶然的或不确定的因素所造成的每一次测量值的无规则变化(涨落),叫做偶然误差,或随机误差。 连续性变数资料:指用量测方式获得的数量性状资料 离散型变数资料:指用计数方式获得的数量性状资料 算术平均数:指资料中的各观测值的总和除以观测值个数所得的商,简称平均数或均数 平均数:资料或代表数,主要包括算术平均数,中位数,众数,几何平均数及调和平均数标准差:是各数据偏离平均数的距离的平均数,它是离均差平方和平均后的方根,用σ表示。 方差:度量总体(或样本)各变量间变异程度的参数(总体)或统计量(样本)。 离均差平方和:样本各观测值变异程度大小的另一个统计数 试验:在一定条件下对自然现象所进行的观察或试验统称为试验 随机事件:随机试验的每一种可能结果 概率:事件本身所固有的数量指标,不随人的主观意志而改变,人们称之为概率 小概率原理:小概率事件在一次试验中看成是实际不可能发生的事件称为小概率事件实际不可能原理 正态分布:若连续性随机变量X的概率分布密度函数,则X服从正态分布 标准正态分布:我们把平均数u=0,σ2 =1时,称为标准正态分布,记为N(0,1) 双侧概率:我们把随机变量X在平均数u加减不同倍数标准差σ区间(u-kσ,u+kσ)之外,取值的概率称为双侧概率 单侧概率:对应于两尾概率可以求得随机变量x小于小于u-kσ或大于u+kσ的概率 二项分布:设随机变量x所有可能取得的值为0或正整数,且有P(ξ=K)=Cn(k)P(k)q(n-k),k=0,1,2….n,则称随机变量x服从n和p的二项分布 标准误:反映样本平均数的抽样误差的大小的一种指标 t分布:由于在实际工作中,往往σ是未知的,常用s作为σ的估计值,为了与u变换区别,称为t变换t=,统计量t 值的分布称为t分布。 假设检验(显著性检验):假设检验是数理统计学中根据一定假设条件由样本推断总体的一种方法。 t检验:两总体方差未知但相同,用以两平均数之间差异显著性的检验。 无效假设:被检验的假设,通过检验可能被否定,也可能未被否定。 备择假设:是在无效假设被否定时准备接受的假设。 显著水平:用来确定无效假设是否被否定的概率标准。 Ⅰ型错误:把非真实差异错判为真实差异。 一、填空 变量按其性质可以分为连续变量和非连续变量。 样本统计数是总体参数的估计量。 生物统计学是研究生命过程中以样本来推断总体的一门学科。 生物统计学的基本内容包括试验设计、统计分析两大部分。 统计学的发展过程经历了古典记录统计学、近代描述统计学、现代推断统计学3个阶段。 生物学研究中,一般将样本容量n≥30称为大样本。 试验误差可以分为随机误差、系统误差两类。 资料按生物的性状特征可分为数量性状资料变量和质量性状资料变量。 直方图适合于表示连续变量资料的次数分布。 变量的分布具有两个明显基本特征,即集中性和离散性。 反映变量集中性的特征数是平均数,反映变量离散性的特征数是变异数。 样本标准差的计算公式s=。 如果事件A和事件B为独立事件,则事件A与事件B同时发生地概率P(AB)=P(A)*P(B)。 二项分布的形状是由n和p两个参数决定的。 正态分布曲线上,μ确定曲线在x轴上的中心位置,σ确定曲线的展开程度。 等于σ/√n。 样本平均数的标准误 x t分布曲线和正态分布曲线相比,顶部偏低,尾部偏高。 统计推断主要包括假设检验和参数估计两个方面。 参数估计包括点估计和区间估计。 假设检验首先要对总体提出假设,一般应作两个假设,一个是无效假设,一个是备择假设。 对一个大样本的平均数来说,一般将接受区和否定区的两个临界值写作μ-uασ?x_ μ+uασ?x 在频率的假设检验中,当np或nq<30时,需进行连续性矫正。 2 χ检验主要有3种用途:一个样本方差的同质性检验、适应性检验和独立性检验。 2 χ检验中,在自由度df=(1)时,需要进行连续性矫正,其矫正的2 χ=(p85)。 c 2 χ分布是连续型资料的分布,其取值区间为[0.+∞)。 猪的毛色受一对等位基因控制,检验两个纯合亲本的F2代性状分离比是否符合孟德尔第一遗传规律应采用适应性检验法。 独立性检验的形式有多种,常利用列联表进行检验。 根据对处理效应的不同假定,方差分析中的数学模型可以分为固定模型、随机模型和混合模型混合模型3类。 在进行两因素或多因素试验时,通常应该设置重复,以正确估计试验误差,研究因素间的交互作用。 在方差分析中,对缺失数据进行弥补时,应使补上来数据后,误差平方和最小。方差分析必须满足正态性、可加性、方差同质性3个基本假定。 如果样本资料不符合方差分析的基本假定,则需要对其进行数据转换,常用的数据转换方法有平方根转换、对数转换、正反弦转换等。 相关系数的取值范围是[-1,1]。 SPSS在生物统计学中的应用 ——实验指导手册 实验五:方差分析 一、实验目标与要求 1.帮助学生深入了解方差及方差分析的基本概念,掌握方差分析的基本思想和原理 2.掌握方差分析的过程。 3.增强学生的实践能力,使学生能够利用SPSS统计软件,熟练进行单因素方差分析、两因素方差分析等操作,激发学生的学习兴趣,增强自我学习和研究的能力。 二、实验原理 在现实的生产和经营管理过程中,影响产品质量、数量或销量的因素往往很多。例如,农作物的产量受作物的品种、施肥的多少及种类等的影响;某种商品的销量受商品价格、质量、广告等的影响。为此引入方差分析的方法。 方差分析也是一种假设检验,它是对全部样本观测值的变动进行分解,将某种控制因素下各组样本观测值之间可能存在的由该因素导致的系统性误差与随即误差加以比较,据以推断各组样本之间是否存在显著差异。若存在显著差异,则说明该因素对各总体的影响是显著的。 方差分析有3个基本的概念:观测变量、因素和水平。 ●观测变量是进行方差分析所研究的对象; ●因素是影响观测变量变化的客观或人为条件; ●因素的不同类别或不通取值则称为因素的不同水平。在上面的例子中,农作物的产量和商品的销 量就是观测变量,作物的品种、施肥种类、商品价格、广告等就是因素。在方差分析中,因素常常是某一个或多个离散型的分类变量。 ?根据观测变量的个数,可将方差分析分为单变量方差分析和多变量方差分析; ?根据因素个数,可分为单因素方差分析和多因素方差分析。 在SPSS中,有One-way ANOV A(单变量-单因素方差分析)、GLM Univariate(单变量多因素方差分析);GLM Multivariate (多变量多因素方差分析),不同的方差分析方法适用于不同的实际情况。本节仅练习最为常用的单变量方差分析。 三、实验演示内容与步骤 ㈠单变量-单因素方差分析 单因素方差分析也称一维方差分析,对两组以上的均值加以比较。检验由单一因素影响的一个分析变量由因素各水平分组的均值之间的差异是否有统计意义。并可以进行两两组间均值的比较,称作组间均值的多重比较。主要采用One-way ANOV A过程。 采用One-way ANOV A过程要求:因变量属于正态分布总体,若因变量的分布明显是非正态,应该用非参数分析过程。若对被观测对象的实验不是随机分组的,而是进行的重复测量形成几个彼此不独立的变量,应该用Repeated Measure菜单项,进行重复测量方差分析,条件满足时,还可以进行趋势分析。 【例6.1】欲比较四种饲料对仔猪增重效果的优劣,随机选取了性别、年龄、体重相同,无亲缘关系的20头猪,随机分为4组,每组5头,分别饲喂一种饲料所得增重数据如下在。试利用这些数据对4种饲料对仔猪《生物统计附试验设计》第五版-课后习题[前六章]
生物统计学 实验报告 大肠杆菌
本科《生物统计附实验设计》2793
生物统计附试验设计
生物统计学实验指导
试验设计与统计分析
生物统计学 (2)
生物统计附试验设计题目
生物统计附实验设计(明道绪__第四版)题库及答案
生物统计与试验设计试卷A
生物统计附实验设计(明道绪__第四版)最全资料--复习题、课后思考题、试卷及答案
生物统计学实验
实验设计与统计分析
(完整版)动医生物统计附实验设计(明道绪__第四版)复习题及答案
生物统计学试题及答案
SPSS17.0在生物统计学中的应用-实验五、方差分析报告 六、简单相关与回归分析报告