生物统计学 (2)
- 格式:docx
- 大小:40.42 KB
- 文档页数:7
第四章 统计推断(Statistical inference )生物统计学研究的基本问题是总体与样本间的关系,即生物特性与实验数据间的关系,二者的关系包括两个方面:(1)抽样分布:已知总体,研究从中抽取样本的的分布规律(第三章),即抽样分布问题。
(2)统计推断:由样本推断总体(包括不同样本间)。
第二章介绍了样本资料的整理和描述,本章将讨论用样本推断总体,就是根据这些理论分布由一个样本或一系列样本所得的结果来推断总体的特征,以及推断正确的概率。
第一节 假设检验的原理与方法一、假设检验的概念在生物学试验和研究中,当进行检验一种试验方法的效果、一个品种的优劣、一种药品的疗效等试验时,所得试验数据往往存在着一定差异,这种差异是由于随机误差引起的,还是由于试验处理的效应所造成的呢?例如,在同一饲养条件下喂养甲、乙两品系的肉鸡各20只,在二月龄时测得甲系的平均体重为1.5kg ,乙系的平均体重为1.4kg ,甲、乙相差0.1kg 。
这个0.1kg 的差值,究竟是由于甲、乙两系来自两个不同的总体,还是由于抽样时的随机误差所致?因为试验结果中往往是处理效应和随机误差混淆在一起,从表面上是不容易分开的,因此必须通过概率计算,采用假设检验的方法,才能作出正确的推断。
假设检验就是根据总体的理论分布和小概率原理,对未知或不完全知道的总体提出两种彼此对立的假设,然后由样本的实际结果,经过一定的计算,作出在一定概率意义上应该接受的那种假设的推断。
如果抽样结果使小概率发生,则拒绝假设,如抽样结果没有使小概率发生,则接受假设。
生物统计学中,一般认为小于0.05或0.01的概率为小概率。
通过假设检验,可以正确分析处理效应和随机误差,作出可靠的结论。
二、假设检验的步骤 (一)提出假设无效假设,或零假设(Null Hypothesis )记作Ho 。
无效假设指处理效应与总体参数(或样本与总体、两样本)之间没有真实的差异,试验结果中的差异乃误差所致。
生物统计学基础简介生物统计学是应用统计学原理和方法来分析生物学数据的学科。
它在生物科学研究中起着重要的作用,帮助研究人员从大量的数据中提取有意义的信息。
本文将介绍生物统计学的基础知识和方法。
数据类型在生物统计学中,我们常常遇到多种数据类型。
下面是一些常见的数据类型:1.分类数据:分类数据是指具有固定类别的数据,例如性别(男、女)或血型(A、B、AB、O)等。
2.数值数据:数值数据是指带有数值的数据,例如体重、身高等。
3.计数数据:计数数据是指记录某个事件发生的次数,例如某种疾病的患病人数。
4.时间序列数据:时间序列数据是指按照时间先后顺序排列的数据。
不同的数据类型需要采用不同的统计方法进行分析。
描述统计学描述统计学是用来总结和描述数据的统计学方法。
常用的描述统计学方法有:•测量中心趋势:测量中心趋势是用来描述数据集中的集中趋势。
常用的测量中心趋势方法有均值、中位数和众数。
•测量离散程度:测量离散程度是用来描述数据的分散程度。
常用的测量离散程度方法有方差、标准差和极差。
•数据分布:数据分布是用来描述数据在各个取值上的出现频率分布状况。
常用的数据分布方法有频率分布表和直方图。
描述统计学方法可以帮助研究人员对数据集的基本情况进行了解和总结。
探索性数据分析探索性数据分析是指通过可视化和统计方法来分析数据集以发现其中的模式和规律的过程。
它可以帮助研究人员对数据集有更深入的理解,为后续的统计分析提供基础。
在进行探索性数据分析时,常常使用的方法有:•直方图:通过绘制直方图可以得到数据的分布情况,以便对数据的特征进行初步了解。
•散点图:散点图可以通过展示两个变量之间的关系,帮助研究人员探索变量之间的相关性。
•QQ图:QQ图可以帮助研究人员检验数据是否符合某种特定的分布。
探索性数据分析可以通过观察数据的可视化图形和统计量来发现数据中的规律和趋势。
推断统计学推断统计学是用来进行参数估计和假设检验的统计学方法。
它通过样本数据对总体特征进行推断。
第二章习题及答案(来源:《生物统计学学习指导》李春喜等,科学出版社,2008:p14-15)一、填空1.变量的分布有两个明显的基本特征,即和。
二、判断1.计数资料也称为连续性变异资料。
计量资料也称为不连续性变异资料或间断性变异资料。
()三、选择题(《生物统计学题解及练习》杜荣赛高等教育出版社。
2003.p164)1.下面的变量属于非连续性变量的是( )。
A. 身高B. 体重C. 血型D. 血压2.身高、体重、年龄这一类数据属于()。
A. 离散性数据B. 计数数据C. 连续性数据D. 质量性状资料3.身高、体重、年龄这一类数据属于()。
A. 离散性数据B. 计数数据C. 计量资料D. 质量性状资料4.每十人中男性人数,每一万人中得H1N1流感人数,每亩麦田中杂草株数等,这一类数据属于()。
A. 离散性数据B. 连续性数据C. 计量资料D. 质量性状资料5.每十人中男性人数,每一万人中得H1N1流感人数,每亩麦田中杂草株数等,这一类数据属于()。
A. 计数数据B. 连续性数据C. 计量资料D. 质量性状资料6.频数按其组值的次序排列起来,称为()。
A. 频数排列B. 频数分布C. 组值排列D. 二项分布四、计算题1. 现以50枚受精种蛋孵化出雏鸡的天数为例,说明计数资料的整理。
21 20 20 21 23 22 22 22 21 22 20 23 22 23 22 19 22 2324 22 19 22 21 21 21 22 22 24 22 21 21 22 22 23 22 22小鸡出壳天数在19─24天范围内变动,有6个不同的观察值。
用各个不同观察值进行分组,共分为6组,可得表2-3形式的次数分布表。
表2-3 50枚受精种蛋出雏天数的次数分布表孵化天数划线计数次数(f)19 ║ 220 ║│ 321 ╫╫╫╫1022 ╫╫╫╫╫╫╫╫║║2423 ╫╫║║924 ║ 2合计50从表2-3可以看出:种蛋孵化出雏天数大多集中在21−23天,以22 天的最多,孵化天数较短(19−20天)和较长(24天)的都较少。
生物统计学名词解释:1.生物统计学:是数理统计在生物学研究中的应用,它是应用数理统计的原理,运用统计方法来认识、分析、推断和解释生命过程中的各种现象和试验调查资料的科学。
2.总体:具有相同性质或属性的个体所组成的集合称为总体,它是指研究对象的全体;3.个体:组成总体的基本单元称为个体;4.样本:从总体中抽出若干个体所构成的集合称为样本;5.样本容量:样本中所包含的个体数目称为样本容量。
6.集中性:资料中的观测值从某一数值为中心而分布的性质。
7.离散性:是变量有差离中心分散变异的性质。
8.变量(变数):指相同性质的事物间表现差异性或差异特征的数据。
9.常数:表示能代表事物特征和性质的数值,通常由变量计算而来,在一定过程中是不变的。
10.参数:描述总体特征的数量称为参数,也称参量。
常用希腊字母表示参数,例如用μ表示总体平均数,用σ表示总体标准差;11.统计数:描述样本特征的数量称为统计数,也称统计量。
常用拉丁字母表示统计数,例如用x表示样本平均数,用S表示样本标准差。
12.效应:通过施加试验处理,引起试验差异的作用称为效应。
效应是一个相对量,而非绝对量,表现为施加处理前后的差异。
效应有正效应与负效应之分。
13.互作(连应):是指两个或两个以上处理因素间相互作用产生的效应。
互作也有正效应(协同作用)与负效应(拮抗作用)之分。
14.准确性:也叫准确度,指在调查或试验中某一试验指标或性状的观测值与其真值接近的程度。
15.精确性:也叫精确度,指调查或试验中同一试验指标或性状的重复观测值彼此接近的程度。
16.随机误差(抽样误差):这是由于试验中无法控制的内在和外在的偶然因素所造成。
随机误差越小,试验精确性越高。
17.系统误差(片面误差):这是由于试验条件控制不一致、测量仪器不准、试剂配制不当、试验人员粗心大意使称量、观测、记载、抄录、计算中出现错误等人为因素而引起的。
系统误差影响试验的准确性。
只要以认真负责的态度和细心的工作作风是完全可以避免的。
18.试验误差:在试验过程中,由于试验条件及人为的一些因素而造成的试验结果与真实值之间的偏差,来源于试验材料固有的差异和外界因素(管理措施、试验条件等)。
19.数量性状:是指能够以计数和测量或度量的方式表示其特征的性状。
20.质量性状:是指能观察到而不能直接测量的性状21.次数资料:由质量性状量化得来的资料叫做次数资料。
22.试验:是对已有的或没有的事物加以处理的方法。
23.大数定律:是概率论中用来阐述大量随机现象平均结果稳定性的一系列定律的总称。
主要内容:样本容量越大,样本统计数与总体参数之差越小。
24.泊松分布:是一种可以用来描述和分析随机地发生在单位空间或时间里的稀有事件的概率分布,也是一种离散型随机变量的分布。
25.假设检验:又称显著性检验,就是根据总体的理论分布和小概率原理,对未知或不完全知道的总体提出两种彼此对立的假设,然后由样本的实际原理,经过一定的计算,作出在一定概率意义上应该接受的那种假设的推断。
26.自由度:在统计上指样本内独立而能自由变动的离均差的个数。
27.成组数据:如果两个样本的各个变量是从各自总体中随机抽取的,两个样本之间的变量没有任何关联,即两个抽样样本彼此独立,则不论两样本的容量是否相同,所得数据皆为成组数据。
28.成对数据:将性质相同的两个样本(供试单位)配偶成对,每一对除随机地给予不同处理外,其他试验条件应尽量一致,以检验处理的效果,所得的观测值称为成对数据。
29.成组资料:相比较两个样本的各个变量不存在一一对应关系,两个样本容量可以相等,也可以不相等。
(非配对资料)30.成对资料:相比较两个样本的各个变量存在一一对应关系,两个样本容量是相等的。
(配对资料)31.第一类错误:由于二项总体的百分数(频率)是由某一属性的个体计算来的整数,所以是离散型的。
当样本不太大时,把它当作连续型的近似正态总体来处理,结果会有些出入,容易发生第一类错误。
32.α错误(I型错误、弃真错误):如果H0正确,测验结果却否定H0(α=0.05易犯α错误,接受区域小,否定H0,接受区域大)33.β错误(II型错误、纳伪错误):如果H0不正确,测验结果却接受H0(α易犯β错误,接受区域大,否定H0,接受区域小)34.χ2检验:对样本的频数分布所来自的总体分布是否服从某种理论分布或某种假设分布所作的假设检验,即根据样本的频数分布来推断总体的分布。
χ2检验就是统计样本的实际观测值与理论推算值之间的偏离程度。
35.适合性检验(吻合度检验):指测验观察的实际次数与某种理论次数是否相符的测验。
36.独立性检验:研究两个计数资料间是否互相独立的测验【H0:独立(不相关) H A:不独立(相关)】37.同质性检验:在连续型资料的假设检验中,对一个样本方差的同质性检验,也需进行χ2检验。
38.方差分析:又叫变量分析,它是用以检验两个或多个均数间差异的假设检验方法。
它是一类特定情况下的统计假设检验,或者说是平均数差异显著性检验的一种引伸。
39.回归模型:相关关系的一种理论模型,两个变数X与Y有因果关系,即有自变数和依变数的区分,X没有误差或很小,Y不可能避免的存在着差异。
40.相关模型:两变数间X与Y无因果关系,即无变数和依变数之分,二者同时受到另一个或另一些变数的影响而发生某种程度的协同变异,二者都有随机误差。
41.试验指标:为衡量试验结果的好坏和处理效应的高低,在实验中具体测定的性状或观测的项目称为试验指标。
常用的试验指标有:身高、体重、日增重、酶活性、DNA 含量等等。
42.试验因素:试验中所研究的影响试验指标的因素叫试验因素。
当试验中考察的因素只有一个时,称为单因素试验;若同时研究两个或两个以上因素对试验指标的影响时,则称为两因素或多因素试验。
43.因素水平: 试验因素所处的某种特定状态或数量等级称为因素水平,简称水平。
如研究3个品种奶牛产奶量的高低,这3个品种就是奶牛品种这个试验因素的3个水平。
44.试验处理:事先设计好的实施在实验单位上的具体项目就叫试验处理。
如进行饲料的比较试验时,实施在试验单位上的具体项目就是具体饲喂哪一种饲料。
45.试验单位:在实验中能接受不同试验处理的独立的试验载体叫试验单位。
一只小白鼠,一条鱼,一定面积的小麦等都可以作为实验单位。
46.重复:在实验中,将一个处理实施在两个或两个以上的试验单位上,称为处理有重复;一处理实施的试验单位数称为处理的重复数。
例如,用某种饲料喂4头猪,就说这个处理(饲料)有4个重复。
47.多重比较:统计上把多个平均数两两间的相互比较称为多重比较。
48.因素:也叫因子,是指对试验指标有影响,在研究中加以(控制)考虑的试验条件。
49.水平:每个因素的不同状态(从质或量方面分成不同的等级)50.主效应:由于因素水平的改变而引起试验指标观测值平均数的改变量称为主效应。
51.互作效应:在多因素试验中,一个因素的作用要受到另一个因素的影响,表现为某一因素在另一因素的不同水平上的简单效应不同,这种现象称为互作效应。
52.谐变关系:在实际研究中,事物之间的相互关系涉及两个或两个以上的变量,只要其中的一个变量变动了,另一个变量也会跟着发生变动,这种关系称为谐变关系。
53.正态分布的特征 :①x=μ时,f(x)值最大,正态分布曲线以平均数μ为中心的分布。
②x-μ的绝对值相等时,f(x)也相等,正态分布密度曲线以μ为中心向左右两侧对称。
③f(x)是非负函数,以x轴为渐近线,x的取值区间为(-∞,+∞) 。
④正态分布曲线由参数μ,σ决定,μ确定正态分布曲线在x轴上的中心位置,σ确定正态分布的变异度。
⑤正态分布曲线在x=μ±σ处各有一个拐点,曲线通过拐点时改变弯曲度。
⑥分布曲线与x轴围成的全部面积为1。
填空:1.在五种不同饲料对仔猪增重效果影响的研究中,试验指标为增重量,试验因素为饲料种类,试验处理为5种饲料。
2.对于一个特定的总体而言,其参数是固定的,而统计数随样本的不同而改变。
3.实验资料的类型分为数量性状资料、质量性状资料、等级资料。
前者又包括计数资料(非连续变量资料)和计量资料(连续变量资料)。
4.计量资料的整理方法:求全距、确定组数、确定组距、确定组限及组中值、归组划线计数,作次数分布表。
5.统计表编制的总原则:结构简单、层次分明、内容安排合理、重点突出、数据准确、便于比较和理解分析。
6.试验误差是衡量试验准确度的依据,误差小的表示准确度高,误差大表示准确度低。
7.统计推断包括两部分内容:统计假设和参数估计。
8.通常情况下,描述连续性资料(计量资料)时用直方图、折线图(多边形图),描述非连续性资料(计数资料)时用条形图、饼图。
9.任意一个变数的分布都有两个基本特征集中性、分散性,表示这两个数的统计数算术平均数、标准差。
10.平均数表示变数的集中特征,标准差表示变数的离散特征。
11.在比较两个变数变异时用变异系数,采用随机单位组设计,单位组可集中可分散。
12.在比较两个性质不同,单位不同,平均数大小各异的样本变异度时,应该采用变异系数比较,而不采用标准差比较。
13.t分布有自由度df 决定,当df越大时,t分布差异越小,决定t分布参数为V0。
14.F分布随自由度不同而不同的一组曲线,取值区间,Fα读作显著水准为α时的F临界值。
15.正态分布曲线共有 2 个拐点。
16.一个正态分布以参数平均数μ确定了它的中心位置,σ确定了它的变异度17.标准正态分布表示为N(0,1)。
18.如果变量X是一具有平均数μ,方差σ2的正态分布,则样本平均数的分布为:19.二项分布是间断性变数的理论分布;正态分布是连续性变数的理论分布。
20.二项总体的平均数μ=p ,方差σ2=pq21.二项总体百分数在性质上是属间断性变异,其分布是间断性二项分布。
因此如把它作连续性分布处理,一般应易发生第一类(α)错误,补救的方法是在假设测验时进行连续性矫正。
22.样本平均数分布的平均数、方差23.样本平均数的差数的分布的平均数,,方差24.为了测验两个样本所属的总体平均数有无显著差异,一般会因设计的不同分为成组比较和成对比较两种。
25.统计设计试验中的无效假设与备择假设的内容是一个对立事件。
26.同一显著水平下,两尾检验的临界值大27.统计推断是指根据抽样分布律和概率理论,由样本结果对总体特征进行推断,假设实验使用的原理小概率事件实际不可能的原理。
28.统计假设测验从本质上说就是将统计数的分布分为接受区和否定区。
29.假设检验又称显著性测验,常有的是t检验、F检验和X2检验。
30.假设实验中的两类错误α错误、β错误,降低犯α、β错误的方法,需采用一个较低的显著水平,同时增加样本容量、减小方差、合理设计试验、正确实验技术。