统计学:计数资料
- 格式:ppt
- 大小:772.00 KB
- 文档页数:77
1. 总体(population):根据研究目的所确定的同质观察单位的全体。
只包括(确定的时间和空间范围内)有限个观察单位的总体,称为有限总体(finite population)。
假想的,无时间和空间概念的,称为无限总体(infinite population)。
2. (总体)参数(parameter):总体的统计指标或特征值。
总体参数是事物本身固有的、不变的。
3. 样本(sample):从总体中随机抽取的部分个体。
4. 样本含量(sample size):样本中所包含的个体数。
5. 变量(variable):观察对象个体的特征或测量的结果。
由于个体的特征或指标存在个体差异,观察结果在测量前不能准确预测,故称为随机变量(random variable),简称变量(variable)。
变量的取值称为变量值或观察值(observation)。
根据变量的取值特性,分为数值变量和分类变量。
6. 数值变量(Numerical variable):又称为计量资料、定量资料,指构成其的变量值是定量的,其表现为数值大小,有单位。
对每个观察单位用定量的方法测定某项指标的数值,组成的资料。
7. 计数资料:将全体观测单位按照某种性质或特征分组,然后再分别清点各组观察单位的个数。
分类变量(categorical variable):或称定性变量,其取值是定性的,表现为互不相容的类别或或属性,有两种情况:1)无序分类(unordered categories):包括①二项分类,如上述“性别”变量,表现为互相对立的结果;②多项分类,如上述“血型”变量,表现为互不相容的多类结果。
2)有序分类(ordered categories):各类之间有程度上的差别,或等级顺序关系,有“半定量”的意义,亦称等级变量。
等级资料:介于计量资料和计数资料之间的一种资料,通过半定量方法测量得到。
8. 抽样(sampling):从总体中抽取部分观察单位的过程称为抽样。
医学统计学第一章绪论第一节医学统计学的定义和内容1.医学统计学的主要内容 :统计推断、统计描述第二节统计工作的基本步骤1.医学统计工作可分为四个步骤:统计设计搜集资料整理资料分析资料第三节统计资料的类型医学统计资料按研究指标的性质一般分为:定量资料、定性资料、等级资料一、定量资料(计量资料)定量资料(quantitative data)是用定量的方法测定观察单位(个体)某项指标数值的大小,所得的资料称定量资料。
如身高(㎝)、体重(㎏)、脉搏(次/分)、血压(kPa,mmHg)等为数值变量,其组成的资料为定量资料。
二、定性资料(计数资料)定性资料(qualitative data)是将观察单位按某种属性或类别分组,清点各组的观察单位数,所得的资料。
亦称无序分类资料。
如:男-女分组;中医的虚、实,阴、阳等分组;按生存-死亡分组;A、B、O、AB分组。
三、等级资料等级资料(ranked data)是将观察单位按属性的等级分组,清点各组的观察单位数,所得的资料为等级资料。
亦称有序分类资料。
如治疗结果分为治愈、显效、好转、无效四个等级。
:疾病的严重程度可以分为,轻、中、重;中医辨证中舌象的颜色有,淡、红、暗、紫。
♦根据需要,各类变量可以互相转化。
♦若按贫血的诊断标准将血红蛋白分为四个等级:重度贫血、中度贫血、轻度贫血、正常,可按等级资料处理。
有时亦可将定性资料或等级资料数量化,如将等级资料的治疗结果赋以分值,分别用0、1、2…等表示,则可按定量资料处理。
第四节统计学中的几个基本概念一、同质与变异同质(homogeneity)是指观察单位或研究个体间被研究指标的主要影响因素相同或基本相同。
如研究儿童的生长发育,同性别、同年龄、同地区、同民族、健康的儿童即为同质儿童。
变异(variation)由于生物个体的各种指标所受影响因素极为复杂,同质的个体间各种指标存在差异,这种差异称为变异。
如同质的儿童身高、体重、血压、脉搏等指标会有一定的差别。
统计学(Statistics):运用概率论、数理统计的原理与方法,研究数据的搜集;分析;解释;表达的科学。
总体(population):大同小异的研究对象全体。
更确切的说,总体是指根据研究目的确定的、同质的全部研究单位的观测值。
样本(sample):来自总体的部分个体,更确切的说,应该是部分个体的观察值。
样本应该具有代表性,能反映总体的特征。
利用样本信息可以对总体特征进行推断。
抽样误差(sampling error)在抽样过程中由于抽样的偶然性而出现的误差。
表现为总体参数与样本统计量的差异,以及多个样本统计量之间的差异。
可用标准误描述其大小。
标准误(Standard Error) 样本统计量的标准差,反映样本统计量的离散程度,也间接反映了抽样误差的大小。
参数估计:指用样本指标值(统计量)估计总体指标值(参数)。
参数估计有两种方法:点估计和区间估计。
区间估计(interval estimation):将样本统计量与标准误结合起来,确定一个具有较大臵信度的包含总体参数的范围,该范围称为臵信区间(confidence interval,CI),又称可信区间。
频数表(frequency table)用来表示一批数据各观察值或在不同取值区间的出现的频繁程度参考值范围描述绝大多数正常人的某项指标所在范围;正态分布法(标准差)、百分位数法,参考值范围用于判断某项指标是否正常置信区间:在统计学中,一个概率样本的置信区间(Confidence interval)是对这个样本的某个总体参数的区间估计。
置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。
给出的是被测量参数的测量值的可信程度。
完全随机设计(completely random design):完全随机设计仅涉及一个处理因素(但可为多水平),故又称单因素(one-way)设计。
它是将受试对象按随机化的方法分配到各个处理组中,观察实验效应,临床试验中的随机对照试验也属于此类设计。
《卫生统计学》一、名词解释1. 计量资料2. 计数资料3. 等级资料4. 总体5. 样本6. 抽样误差7. 频数表8. 算术均数9. 中位数10. 极差11. 方差12. 标准差13. 变异系数14. 正态分布15. 标准正态分布16. 统计推断17. 抽样误差18. 标准误19. 可信区间20. 参数估计21. 假设检验中P的含义22. I型和II型错误23. 检验效能24. 检验水准25. 方差分析26. 随机区组设计27. 相对数28. 标准化法29. 二项分布30. Yates校正31. 非参数统计32. 直线回归33. 直线相关34. 相关系数35. 回归系数36. 人口总数37. 老年人口系数38. 围产儿死亡率39. 新生儿死亡率40. 婴儿死亡率41. 孕产妇死亡率42. 死因顺位43. 人口金字塔二、单项选择题1.观察单位为研究中的( D )。
A.样本 B.全部对象C.影响因素 D.个体2.总体是由( C )。
A.个体组成 B.研究对象组成C.同质个体组成 D.研究指标组成3.抽样的目的是( B )。
A.研究样本统计量 B.由样本统计量推断总体参数C.研究典型案例研究误差 D.研究总体统计量4.参数是指( B )。
A.参与个体数 B.总体的统计指标C.样本的统计指标 D.样本的总和5.关于随机抽样,下列那一项说法是正确的( A )。
A.抽样时应使得总体中的每一个个体都有同等的机会被抽取B.研究者在抽样时应精心挑选个体,以使样本更能代表总体C.随机抽样即随意抽取个体D.为确保样本具有更好的代表性,样本量应越大越好6.各观察值均加(或减)同一数后( B )。
A.均数不变,标准差改变 B.均数改变,标准差不变C.两者均不变 D.两者均改变7.比较身高和体重两组数据变异度大小宜采用( A )。
A.变异系数 B.方差C.极差 D.标准差8.以下指标中( D )可用来描述计量资料的离散程度。
1.统计学(Statistics):运用概率论、数理统计的原理与方法,研究数据的搜集;分析;解释;表达的科学2.医学统计学:是以医学理论为指导,借助统计学的原理和方法研究医学现象中的数据搜集、整理、分析和推断的一门综合性学科。
3.变量:是指观察个体的某个指标或特征,统计上习惯用大写拉丁字母表示4.同质:是指事物的性质、影响条件或背景相同或相近。
5.变异:是指同质的个体之间的差异6.总体:总体(population)是根据研究目的确定的同质的观察单位的全体,更确切的说,是同质的所有观察单位某种观察值(变量值)的集合。
总体可分为有限总体和无限总体。
总体中的所有单位都能够标识者为有限总体,反之为无限总体。
7.样本:从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample)。
样本应具有代表性。
所谓有代表性的样本,是指用随机抽样方法获得的样本。
8.参数:参数(paramater)是指总体的统计指标,如总体均数、总体率等。
总体参数是固定的常数。
多数情况下,总体参数是不易知道的,但可通过随机抽样抽取有代表性的样本,用算得的样本统计量估计未知的总体参数。
9.统计量:统计量(statistic)是指样本的统计指标,如样本均数、样本率等。
样本统计量可用来估计总体参数。
总体参数是固定的常数,统计量是在总体参数附近波动的随机变量。
10.随机抽样:随机抽样(random sampling)是指按照随机化的原则(总体中每一个观察单位都有同等的机会被选入到样本中),从总体中抽取部分观察单位的过程。
随机抽样是样本具有代表性的保证。
11.变异:在自然状态下,个体间测量结果的差异称为变异(variation)。
变异是生物医学研究领域普遍存在的现象。
严格的说,在自然状态下,任何两个患者或研究群体间都存在差异,其表现为各种生理测量值的参差不齐。
12.计量资料:对每个观察单位用定量的方法测定某项指标量的大小,所得的资料称为计量资料。
中南大学现代远程教育课程考试复习题及参考答案《卫生统计学》一、名词解释1.计量资料2.计数资料3.等级资料4.总体5.样本6.抽样误差7.频数表8.算术均数9.中位数10.极差11.方差12.标准差13.变异系数14.正态分布15.标准正态分布16.统计推断17.抽样误差18.标准误19.可信区间20.参数估计21.假设检验中P的含义22.I型和II型错误23.检验效能24.检验水准25.方差分析26.随机区组设计27.相对数28.标准化法29.二项分布30.Yates校正31.非参数统计32.直线回归33.直线相关34.相关系数35.回归系数36.人口总数37.老年人口系数38.围产儿死亡率39.新生儿死亡率40.婴儿死亡率41.孕产妇死亡率42.死因顺位43.人口金字塔二、单项选择题1.观察单位为研究中的( )。
A.样本B.全部对象C.影响因素D.个体2.总体是由()。
A.个体组成B.研究对象组成C.同质个体组成D.研究指标组成3.抽样的目的是()。
A.研究样本统计量B.由样本统计量推断总体参数C.研究典型案例研究误差D.研究总体统计量4.参数是指()。
A.参与个体数B.总体的统计指标C .样本的统计指标D . 样本的总和 5.关于随机抽样,下列那一项说法是正确的( )。
A .抽样时应使得总体中的每一个个体都有同等的机会被抽取 B .研究者在抽样时应精心挑选个体,以使样本更能代表总体 C .随机抽样即随意抽取个体D .为确保样本具有更好的代表性,样本量应越大越好 6.各观察值均加(或减)同一数后( )。
A .均数不变,标准差改变B .均数改变,标准差不变C .两者均不变D .两者均改变 7.比较身高和体重两组数据变异度大小宜采用( )。
A .变异系数 B .方差 C .极差 D .标准差8.以下指标中( )可用来描述计量资料的离散程度。
A .算术均数 B .几何均数 C .中位数 D .标准差9.血清学滴度资料最常用来表示其平均水平的指标是( )。
1. 总体(population):根据研究目的所确定的同质观察单位的全体。
只包括(确定的时间和空间范围内)有限个观察单位的总体,称为有限总体(finite population)。
假想的,无时间和空间概念的,称为无限总体(infinite population)。
2. (总体)参数(parameter):总体的统计指标或特征值。
总体参数是事物本身固有的、不变的。
3. 样本(sample):从总体中随机抽取的部分个体。
4. 样本含量(sample size):样本中所包含的个体数。
5. 变量(variable):观察对象个体的特征或测量的结果。
由于个体的特征或指标存在个体差异,观察结果在测量前不能准确预测,故称为随机变量(random variable),简称变量(variable)。
变量的取值称为变量值或观察值(observation)。
根据变量的取值特性,分为数值变量和分类变量。
6. 数值变量(Numerical variable):又称为计量资料、定量资料,指构成其的变量值是定量的,其表现为数值大小,有单位。
对每个观察单位用定量的方法测定某项指标的数值,组成的资料。
7. 计数资料:将全体观测单位按照某种性质或特征分组,然后再分别清点各组观察单位的个数。
分类变量(categorical variable):或称定性变量,其取值是定性的,表现为互不相容的类别或或属性,有两种情况:1)无序分类(unordered categories):包括①二项分类,如上述“性别”变量,表现为互相对立的结果;②多项分类,如上述“血型”变量,表现为互不相容的多类结果。
2)有序分类(ordered categories):各类之间有程度上的差别,或等级顺序关系,有“半定量”的意义,亦称等级变量。
等级资料:介于计量资料和计数资料之间的一种资料,通过半定量方法测量得到。
8. 抽样(sampling):从总体中抽取部分观察单位的过程称为抽样。
统计学统计学复习题名词解释:(5×3分=15分)计数资料变异系数标准误医学参考值范围P值总体抽样误差构成⽐发病率⼩概率事件四分位数间距计数资料:指先将观察单位按其性质或类别分组,然后清点各组观察单位个数所得的资料变异系数:变异系数⼜称“标准差率”,是衡量资料中各观测值变异程度的另⼀个统计量。
标准误:标准误反映的是样本均数之间的变异(即样本均数的标准差,是描述均数抽样分布的离散程度及衡量均数抽样误差⼤⼩的尺度)医学参考值范围:医学参考值是指正常⼈(或动物)的⼈体形态、功能和代谢产物等的各种⽣理及⽣化常数。
由于个体指标的变异,使其常数不仅因⼈⽽异,⽽且同⼀个体还会随机体内外环境的改变⽽改变,因此需要确定其波动的范围,即把绝⼤多数正常⼈的某指标值范围称为该指标的参考值范围,亦称正常值范围。
有了参考值范围,在评价个体某指标是否正常时便有了依据。
P 值即概率,反映某⼀事件发⽣的可能性⼤⼩。
总体:根据⼀定的⽬的和要求所确定的研究事物的全体,它是由客观存在的、具有某种共同性质的许多个别事物构成的整体。
抽样误差:抽样误差是指样本指标值与被推断的总体指标值之差构成⽐:各构成部分所占的⽐重发病率:某⼀段时期内某⼀特定风险⼈群发⽣某病的或然率。
⼩概率事件:在概率论中我们把概率很接近于0(即在⼤量重复试验中出现的频率⾮常低)的事件称为⼩概率事件,习惯上将P≤0.05或P≤0.01称为⼩概率事件四分位数间距:是上四分位数与下四分位数之差,⽤四分位数间距可反映变异程度的⼤⼩分析题:(3×5分=15分)1.关于校正X2四格表X2检验,分析变异系数再⽐较。
2.判断分析抽样调查,应⽤样本⽐率⽐较的X2检验。
3.计数可信区间,⽤标准误带⼊。
判断题:(⽆参考)选择题:(30题×2分=60分) 注:正确答案为斜体红字1.资料分析的主要内容包括:A.统计描述和统计学检验 B.区间估计和假设检验C.统计图表和统计报告D.统计描述和统计推断2. 根据变量的测验结果不同,可将统计资料的类型分为A.定量变量资料和分类变量资料 B.多项分类变量资料和⼆项分类变量资料C.正态分布变量资料和频数分布变量资料 D.数量变量资料和等级变量资料3. 统计学中所说的样本是指A.随意抽取的总体中任意部分B.有意识的选择总体中的典型部分C. 依照研究者要求选取总体中有意义的⼀部分D.依照随机原则抽取总体中有代表性的⼀部分4. 统计学中所说的总体是指A. 根据⼈群划分的研究对象的全体B. 根据研究⽬的确定的研究对象的全体C. 根据地区划分的研究对象的全体D.根据时间划分的研究对象的全体5. 随机抽样研究中,由于抽样引起的样本指标与总体参数间的差别分为A. 抽样误差B.系统误差C. 过失误差D.随机测量误差6. 描述⼀组偏态分布资料的变异度,恰当的指标为A. 全距B.标准差C.变异系数D.四分位数间距7. ⽤均数与标准差可全⾯描述其资料分布的特点是A. 正偏态分布B.负偏态分布C.正态分布和近似正态分布D.对称分布8. 对于由⼀个错误的实验设计所产⽣的实验数据,在进⾏统计处理前,其补救办法靠A. 统计⽅法B.数学⽅法C.重做实验D.重新设计9. 描述正态分布离散程度最常⽤的指标是:A. 变异系数B.四位分数间距C.⽅差D. 标准差10. 频数分布的连个重要特征是A. 统计量与参数B.正态分布和偏态分布C.集中趋势与离散趋势D. 样本标准差和总体标准差11. 5⼈的⾎清滴数为1:8、1:16、1:32、1:64、1:128,描述其平均滴度宜采⽤A. 算数均数B.中位数C.⼏何均数D.平均数12. 最⼩组段⽆下限或最⼤组段⽆上限的频数表资料,描述其集中趋势宜⽤A.算数均数B.平均数C.众数D.中位数13. 下列哪项值越⼩,表⽰⽤该样本平均数估计总体平均数的可靠性越⼤A.变异系数B.标准差C.标准误D. 极差14. 6⼈的⾎清滴数为<1:20、1:20、1:40、1:80、1:160、1:320,秒速其平均滴数宜采⽤A.算数均数 B.中位数 C.⼏何均数 D.平均数15. 现调查20岁男⼤学⽣100名,升⾼标准差A.体重变异程度⼤B.⾝⾼变异程度⼤C.两者变异程度接近D.两者标准差不能直接⽐较16. 某患者8⼈的潜伏期分别为3、2、6、3、5、30、3、4天,则平均潜伏期为A. 7天B. 3天C. 4天D. 3.5天17. 正态分布曲线下,横轴上,从均数到+∞的⾯积为A.95%B.50%C.97.5%D.α越⼩18. 正态分布的两个参数中,正态曲线越低平,说明A.µ越⼤C.α越⼤D.α越⼩19. 下列关于医学参考值范围的描述中,正确的是A. 绝⼤部分正常⼈中某个指标的波动范围B.没有任何疾病的⼈的解剖、⽣理、⽣化等数据的波动范围C.百分界值选取95%,是因为它最准确D.不能根据专业知识确定取单侧界限或双侧界限20. 若X服从以正态分布µ,α为均数和标准差的正态分布,则X的第95个百分位数等于A. µ-1.64αB.µ+1.64αC. µ+1.96αD. µ+2.58α21. 要评价某市⼀名7岁⼉童的⾝⾼是否偏⾼或偏矮,其统计学⽅法是A.将这名⼉童的⾝⾼与该市其他7岁⼉童⾝⾼的均数做差别性的统计学检验B.⽤该市7岁⼉童⾝⾼的1-α参考值范围评价C.⽤该市7岁⼉童⾝⾼的均数来评价D.⽤该市7岁⼉童⾝⾼的1-α可信区间来评价22. Sx表⽰的是A.总体中各样本均数分布的离散情况B.标准误C.均数抽样误差的⼤⼩D.以上都是23. 在标准差和标准误的关系中A.⼆者均反映个体值变异的程度B.总体标准差减⼩时,总体标准误也减⼩C.总体标准差⼀定时,增⼤样本例数会减⼩标准误D.可信区间⼤⼩与标准差有关,⽽参考值范围与标准误有关24. 统计推断要完成的主要任务是A.统计描述与参数估计B.参数估计和假设检验C.区间估计和点估计D.统计预测和统计控制25. 可信区间估计的可信度是指A. αC.βD.1-β26. 配对设计的⽬的A.提⾼结果精确性B.提⾼结果准确性C.提⾼组间可⽐性D.使⽐较结果更有意义27. 下⾯关于参数估计的说法正确的是A.分点估计和区间估计B.⽤于估计未知参数C.区间估计不但能给出参数的所在范围,还能给出这种估计的可靠程度D.以上答案都对28. 在资料呈正态,⽅差齐时,两样本⽐较做t检验,差别有统计学意义,则P值越⼩说明A.两样本均数差些越⼤B.两总体均数差别越⼤C.越有理由认为两总体均数不同D.越有理由认为两样本均数不同29. 两样本⽐较时,分别取以下检验⽔准,哪⼀个的第⼆类错误最⼤A. α=0.05B.α=0.01C.α=0.10D. C.α=0.2030. 当研究对象个体差异较⼤时,两组计数资料的成组设计与配对设计相⽐,⼀般情况下为A.⾸选成组t检验B.⾸选配对t检验C.两者效率相等D.配对t检验效率⾼⼀些31. 关于假设检验,下列那⼀项说法是正确的A. 单侧检验优于双侧检验B. 采⽤配对t检验还是成组t检验是由实验设计⽅法决定C. 检验结果若P值⼤于0.05,则接受H0的可能性很⼩D.⽤U检验进⾏两样本总体均数⽐较时,要求⽅差齐性32. 配对t检验的备择假设(双侧检验)⼀般可表⽰为A.µ1=µ2C.µd=0D. µd≠033. 假设检验中的第⼀类错误是指A.拒绝了实际上成⽴的H0B.不拒绝实际上成⽴的H0C.拒绝H0时所犯的错误D.不拒绝实际上不成⽴的H034. 当两总体⽅差不齐时,两样本均数⽐较宜采⽤A. t检验B. t’检验C.F检验D.q检验35.当统计分析结果是差别⽆统计学意义,但所求得的检验统计量在界值附近时,下结论应慎重,是因为A.如果将双侧检验改为单侧检验可能得到差别有显著性的结论B.如将检验⽔准α=0.05改为α=0.1可得到差别有显著性的结论C. 如改⽤其他统计分析⽅法可能得到差别有显著性的结论D.如加⼤样本含量可能得到差别有显著性的结论36. 完全随机设计与随机区组设计相⽐较A.两种设计实验效率⼀样B.随机区组设计的误差⼀定⼩于完全随机设计C.随机区组设计的变异来源⽐完全随机设计分得更细D.以上说法都不对37. 配对t检验可以⽤哪种设计类型的⽅差来替代A.完全随机设计B.随机区组设计C.两种设计都可以D.A、B都不⾏38. 某医院某年住院病⼈中胃癌患者占1%,则A.1%是强度百分数B. 1%是构成⽐C. 1%是相对⽐D. 1%是绝对数39. 欲⽐较两地死亡率,计算标准化率可以A.消除两地总⼈⼝数不同的影响B.消除两地各年龄组死亡⼈数不同的影响C.消除两地各年龄组⼈⼝数不同的影响D.消除两地抽样误差不同的影响40. 计算⿇疹疫苗接种后⾎清检查的阳转率,分母为A.⿇疹易感⼈群B.⿇疹患者数C.⿇疹疫苗接种⼈数D.⿇疹疫苗接种后转阳⼈数41.某病患者120⼈,其中男性114⼈,⼥性6⼈,分别占95%与5%,则结论为A.该病男性易得 B.该病⼥性易得 C.该病男性、⼥性患病率相等 D.尚不能得出结论42. 经调查得知A、B 两地的冠⼼病粗死亡率为40/10万,按年龄构成标化后,A地冠⼼病标化死亡率为45/10万,B地为38/10万,因此可以认为A. A地年龄⼈⼝构成较B地年轻B. B地年龄⼈⼝构成较A地年轻C. A地冠⼼病的诊断较B地准确D. A地年轻⼈患冠⼼病较B地多43.有52例可疑宫颈癌患者,分别⽤甲、⼄两法进⾏诊断,其中甲法阳性28例,⼄法阳性25例,两法均为阳性20例,欲⽐较两法阳性率有⽆差别,宜⽤A. 四格表X2检验B. 配对设计X2检验C. ⾏×列表X2检验D. t检验44. 分析四格表资料中,通常在什么情况下需⽤Fisher精确概率法A.140 B. T<5 C. T<1或n<40 D. T<1且n≥4045. X2值的取值范围为A.-∞< X2<+∞B.0≤X2≤+∞C. X2≤1D. -∞≤X2≤046. 三个样本率⽐较得到X2>X20.01(2),可以为A. 三个总体率不同或不全相同B. 三个总体率都不相同C. 三个样本率都不相同D.三个样本率不同或不全相同47.将⾼⾎压病患者随机分为三组,分别⽤甲、⼄、丙三种药物治疗,⽤治疗⾎压下降⽐值⽐较三种药物疗效,这种设计是。
1.样本: 样本从总体中抽出的若干个体所构成的集合称为样本.2.总体: 总体指具有相同性质的个体所组成的集合称为总体.3.连续变量:表示在不变量范围内可抽出某一范围的所有值.4.非连续变量:也称为离散型变量,表示在变量数列中,仅能取得固定数值,并且通常是整数.5.准确性:指在调查或实验中某一试验指标或形状的观测值与真值接近的程度.6.精确性:指调查或实验中同一试验指标或形状的重复观测值彼此接近程度大小.7.资料:指在一定条件下,在生物学实验和调查中,能够获得大量原始数据,对某种具体事务或现象观察的结果.8.数量性状资料:指一般是由计数和测量或度量得到的.9.质量性状资料:是指对某种现象只能观察而不能测量的资料,也称属性资料.10.计数资料;指由计数得到的数据.11.计量资料:有测量或度量得到的数据.12.普查:指对研究对象的每一个个体都进行测量或度量的一种全面调查.13.抽样调查:是一种非全面调查,它是根据一定的原则对研究对象抽取一部分个体进行测量或度量,把得到抽样调查的数据资料作为样本进行统计处理,然后利用样本特征数对总体进行推断.14.全距极差:是指样本数据资料中最大观测值与最小观测值的差值.组中值:是指两个组限下线和上限的中间值.15.算数平均数:是指总体或样本资料中哥哥给观测值的总和除以观测值的个数所得的商.16.中位数:是指将试验或调查资料中所有观测值以大小顺序排列,居中位置的观测值.17.众数:资料中出现次数最多的那个观测值或次数最多一组的中点值.18.几何平均数:指资料中有几个观测值,其乘积开几次方所得的数值.19.方差:指用样本容量 n 来除离均差平方和,得到平均的平方和.20.标准差:指方差的平方根和.21.变异系数:指将样本标准差除以样本平均数得出的百分比.22.概率:指某事件 A 在 n 次重复试验中,发生了几次,当试验次数 n 不断增大时,事件 A 发生的频率 WA 概率就越来越接近某一确定值 P,于是则定 P 为事件 A 发生的概率.23.和事件:指事件 A 和事件 B 至少有一件发生而构成的新事件称为事件 A 和事件 B 的事件.24.积事件:指事件 A 和事件 B 同时发生而构成的新事件,称为事件 A 和事件B 的积事件.25.互斥事件:指事件 A 和事件 B 不能同时发生,称为事件 A 和事件 B 互斥.26.对立事件:指事件 A 和事件 B 必有一个事件发生,但两者不能同时发生.27.独立事件:指事件 A 的发生与事件 B 的发生毫无关系.28.完全事件系:指如果多个事件 A1、A2、、、、、、An 两两相斥,且每次试验结果必然发生其一,则称事件 A1、完全事件系 A2、、、、、、An 为一个完全事件系.29.概率加法定理:指互斥事件 A 和 B 的和事件的概率等于事件 A 和事件 B的概率之和, PA+B=PA+PB.30.概率乘法定理:指事件 A 和事件 B 为独立事件,则事件 A 与 B 同时发生的概率等于事件 A 和事件 B 各自概率乘法定理的乘积,即:PAB=PAPB.31.伯努利大数定律:设 M 是 n 次独立试验中事件 A 出现的次数,而不是事件A 在每次试验中出现的概率,则对于任意小的正数ε ,有如下关系:limp{m/n-p< ε }=132.辛钦大数定律:是用来说明为什么可以用算术平均数来推断总体平均数 m的.33.统计推断:指从样本的统计数对总体参数做出的推断,包括参数估计和假设检验.34.假设检验:指根据总体理论分布和小概率原理,对未知或不完全知道的总体提出两种彼此对立的假设,然后有样本的实际结果,经过一定的计算,做出在一定概率意义上应该接受的那种假设的推断.35.参数估计:指由样本结果对总体参数在一定概率水平下所作出的估计.点估计是用样本统计量直接给出总体相应参数的估计值,由于抽样误差存在,X拔不同的样本将会得到不同的点估计值,点估计缺乏明确的精度概念,而区间估计在一定程度上可以弥补这个不足36.小概率原理:指如果假设一些条件,并在假设的条件下能够准确地算出事件 A出现的概率 a 为很小,则在假设条件下的 n 次独立重复试验中时按预定的概率发生,而在有一次试验中则几乎不可能独立.37.显着水平:指在无效假设和备择假设后,要确定一个否定 H0 的概率标准,这个概率称为显着水平.38.方差同质性:就是指各个总体的方差是相同的.39.α 错误 :H0 是真实的,假设检验却否定了它,就烦了一个否定真实假设的错误,称为α 错误.40.β 错误:指如果H0 不是真实的,假设检验时却接受了 H0,否定了 HA 这样就犯了接受不真实假设的错误,称为β 错误.41.适合性检验:指比较观测值与理论值是否符合的假设检验交适合性检验.42.独立性检验:指研究两个或两个以上因子彼此之间是相互独立的还是相互影响的一类统计方法.43.相关分析:是研究现象之间是否存在某种依存关系, 并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量间的相关关系的一种统计方法.44.回归分析:是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法.45.回归系数:y^=a+bx,自变量 x 改变一个单位,依变量 y 平均增加或减少的单位数,即回归直线的斜率 b.46.回归截距:y^=a+bx,a 是当 x=0 时的 Y^值,即直线在 y 轴上的截距,称为回归截距.47.离回归平方和:它反映除去 x 与 y 相关程度和性质的统计数.48.回归平方和:它反映在 y 的总体变异种由于 x 与 y 的直线关系而产生 y变异减小的部分.49.相关系数:是指通过计算表示 x 和 y 相关程度和性质的统计数.50.决定系数:是变量 x 引起 y 变异的回归平方和与 y 变异总平方和的比率.51.转换:指估计总体相关系数 p 的置信区间时,需要将 r 转换成 z.52.试验设计:广义的指整个研究课题的设计,包括实验方案的拟订,试验方案的拟订,试验单位的选择,分组的排列,实验过程中试验指标的现象记载,试验资料的整理,分析等内容.53.试验结果重演:是指在相同的条件下,在进行实验或实践,应能重复获得与原试验结果相近的结果.54.处理因素:一般指对受试对象给予的某种外部干预.55.主效应:多因素中试验中引起实验结果发生变化的主要.56.互作:因素之间的交互作用.57.受试对象:是处理因素的客体,实际上就是根据研究目的而确立的观测总体.58.处理效应:是处理因素作用于受试对象的反应,是研究最终体现59.误差:在试验中受偶然影响或者说非处理因素影响使观测值偏离试验处理真值的差异.60.随机误差:由于试验中许多无法控制的偶然因素所造成的试验结果与真实结果之间产生的误差.61.系统误差:由于试验处理以外的其他条件明显不一致所产生的带有倾向性或定向性的偏差62.重复:在试验中,同一处理设置的试验单位数.63.随机:是指一个重复的某一处理或处理组合被安排在哪一个试验单位,不要有主观成见.64.均积:是 x 与 y 的平均的离均差的乘积和,简称均积.65.协方差:与均积相应的总体参数.66.协方差分析:把回归分析与方差分析结合.67.试验控制:要提高试验的精确度和灵敏度,必须严格控制试验条件的均匀性,使各处里处于尽可能一致的条件下.68.统计控制:是试验控制的一种辅助手段,是用统计方法来矫正因自变量的不同而对依变量所产生的影响.69.估计量:估计总体参数的统计量70.无偏估计量:如果一个统计量的理论平均数即数学期望等于总体参数,这个统计量就叫无偏估计量71.矩估计:用样本矩作为总体矩的估计值72.矩估计法数字特征法、矩法用样本矩作为相应总体矩的估计量,也可以用样本数字特征作为相应的总体数字特征的估计量.用矩法获得的估计值,叫据估计值.据发的思想实质是用样本去替换总体矩的原则,称之为替换原则73.有效估计量:设a1,a2是A的两个无偏估计量,若vara1<vara2,则a1为有效估计量74.抽样误差:由抽样引起的样本值与总体值之间的差异成为抽样误差,直接原因:总体中各个体之间存在差异,或重复试验中一些服从某种分布的偶然误差的存在75.标注误差标准误:描述样本平均数波动情况的统计量,就是X拔的方差或标准差,计均数抽样误差为西格玛X拔,=西格玛/根号n,西格玛X拔就是标准误差76.估计样本平均数方差:SX拔平方,=S平方/n77.估计标准误:SX拔,=S/根号n78.置信区间:达到某一置信度如95%时,预报量可能出现的范围如Ey±1.96西格玛,这里西格玛是标准差置信区间的意义是:反复抽样多次,每次的样本容量相等,每次的样本值确定一个区间a1,a2,这个区间包含a的概率是1001-阿尔法%,不包含a的概率是100阿尔法%79.置信水平置信度,置信系数,可靠度是指总体参数值落在样本统计值某一区内的概率;而是指在某一置信水平下,样本统计值与总体参数值间误差范围.置信区间越大,置信水平越高.80.拟合优度检验:对总体分布类型的检验,包括检验观测数与理论书之间的一致性,通过检验观测数与理论书之间的一致性来判断事件之间的独立性81.皮尔逊定理:若n充分大,则不论总体服从什么分布,卡平方总是近似服从自由度为m-a-1的卡平方分布82.方差分析:能同时判断多组数据平均数之间的差异显着性,能把随机变异从混杂状态中分离开来,从而为判断因素对实验结果有无确实的影响提供依据83.方差分析的前提条件:等方差,正态性、独立性84.固定因素:若因素的a个水平是经过特意选择的,则该因素为固定因素.发差分析所得到的结论只适合于选定的几个水平,并不能将其结论扩展到未加考虑的水平上85.固定效应模型:处理固定因素所用的模型称为固定效应模型或固定模型86.随机因素:若因素的a个水平,是从该因素水平总体中随机抽出的样本,则该因素称为随机因素,从随机因素a个水平所得到的结论,可以推广到这个因素的所有水平上87.处理随机因素所用的模型称为随机效应模型88.多重比较:对各对均值之间的差异的显着性检验89.LSD法在统计推断时犯第一类错误的概率大,而Duncan法犯第一类错误的概率小.90.多个方差齐性检验bartlett检验,巴特氏卡平方检验:当a个随机样本是从独立正态总体中抽取时,可以计算出统计量K平方,当n=minnj充分大时,K平方的抽样分布非常接近于a-1自由度的卡方分布.由此可对多个总体进行卡平方检验.91.两因素之间交互作用产生新效应的现象为交互作用92.由因素水平的改变而造成的因素效应的改变称为该因素的主效应93.交叉分组设计:假设A药物有a水平,B药物有b水平,共有ab个剂量组合,每一组重复n次.共有abn名病人参加实验,这样的实验设计称为交叉分组设计94.相关:设有两个随机变量X和Y,对于任一随机变量的每一个可能的值,另一个随机变量都有一个确定的分布与之相对应,则称这两个随机变量之间存在相关关系95.如果变量之间的关系可以用函数关系来表达,就称它们之间的关系为确定性关系96.回归关系、相关关系:统计学上把变量之间的非确定性关系称为相关关系,也成为回归关系97.如果对于一个普通变量x的每一个可能的值xj都有随机变量Y的一个分布与之对应,则称随见变量Y的一个分布与之对应,则称随机变量Y对x存在回归关系98.具有回归关系的两变量之间对于任一xi都不会有一个确切的yi与之对应,但为了描述两变量之间的数量关系,可选当x=xi时Y的平均数谬角标Y乘X=xi 与之相对应,则称谬角标Y乘X是Y的条件平均数99.Y1,y2…yn这n个数据的离差平方和,记作SYY,称为总离差平方和,反映了n个yi折的离散程度100.回归平方和y折-y拔平方求和,几座SSR.是n个yi折的离差平方和,反映了n个yi折的离散程度101.剩余平方和残差平方和yi-yi拔平方求和,记作SSe,是除了x对Y的线性影响之外的其他剩余因素造成的平方和,这些因素中包括x对Y的非线性影响及试验误差,观察误差等随机因素102.相关分析是对两个或两个以上随见变量之间相互关联程度进行分析的统计学方法103.存在于两个随机变量之间的相关关系称为简单相关或单相关,存在于三个或三个以上变量之间的相关关系为多重相关或复相关在一元回归中,回归的显着程度,可以用相关系数来表示,同样,在多元回归问题中,回归的显着程度可以用复相关系数表示104.统计学上把衡量变量之间关系密切程度的统计量称为相关系数105.消除了其他变量的影响后两个变量之间的相关关系称为偏相关纯相关.为了反映两变量间的真正关系,就要保证在其他变量都保持不变的情况下,计算它们的相关系数,这时的相关系数称为偏相关系数或纯相关系数106.样本平均数作为总体平均数估计值的优良:无偏均值等于总体平均数、有效方差小雨其他估计值、一致性总体平均数为极限值107.概率论中有关论证随机变量的和的分布服从正态分布的一类定理称为中心极限定理108.若X为一随机变量,则Fx=PX<=x为X的分布函数。
1.总体:总体(population)是根据研究目的确定的同质的观察单位的全体,更确切的说,是同质的所有观察单位某种观察值(变量值)的集合。
总体可分为有限总体和无限总体。
总体中的所有单位都能够标识者为有限总体,反之为无限总体。
样本:从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample)。
样本应具有代表性.所谓有代表性的样本,是指用随机抽样方法获得的样本。
2。
随机抽样:随机抽样(random sampling)是指按照随机化的原则(总体中每一个观察单位都有同等的机会被选入到样本中),从总体中抽取部分观察单位的过程。
随机抽样是样本具有代表性的保证。
3。
变异:在自然状态下,个体间测量结果的差异称为变异(variation)。
变异是生物医学研究领域普遍存在的现象.严格的说,在自然状态下,任何两个患者或研究群体间都存在差异,其表现为各种生理测量值的参差不齐。
4.计量资料:对每个观察单位用定量的方法测定某项指标量的大小,所得的资料称为计量资料(measurement data).计量资料亦称定量资料、测量资料。
.其变量值是定量的,表现为数值大小,一般有度量衡单位.如某一患者的身高(cm)、体重(kg)、红细胞计数(1012/L)、脉搏(次/分)、血压(KPa)等计数资料:将观察单位按某种属性或类别分组,所得的观察单位数称为计数资料(count data).计数资料亦称定性资料或分类资料.其观察值是定性的,表现为互不相容的类别或属性。
如调查某地某时的男、女性人口数;治疗一批患者,其治疗效果为有效、无效的人数;调查一批少数民族居民的A、B、AB、O 四种血型的人数等。
等级资料:将观察单位按测量结果的某种属性的不同程度分组,所得各组的观察单位数,称为等级资料(ordinal data)。
等级资料又称有序变量.如患者的治疗结果可分为治愈、好转、有效、无效或死亡,各种结果既是分类结果,又有顺序和等级差别,但这种差别却不能准确测量;一批肾病患者尿蛋白含量的测定结果分为 +、++、+++等。
统计学基础必学知识点1. 数据的类型:数据可以分为定量数据和定性数据。
定量数据是以数字形式表示的数据,可以进行运算和统计分析,例如身高、体重等;定性数据是以非数字形式表示的数据,通常是描述性的,例如性别、颜色等。
2. 数据的分布:数据的分布描述了数据的值在取值上的分布情况。
常见的数据分布有正态分布、均匀分布、偏态分布等。
3. 描述统计学:描述统计学是研究如何使用统计方法来描述和总结数据的学科。
常用的描述性统计方法包括测量中心趋势的平均数、中位数、众数,以及测量数据分散程度的标准差、方差等。
4. 统计推断:统计推断是研究如何利用样本数据对总体进行推断的学科。
常用的统计推断方法包括参数估计和假设检验。
参数估计是利用样本数据估计总体参数的值,例如利用样本均值估计总体均值;假设检验是对总体参数假设进行推断的方法,例如检验总体均值是否等于某个特定值。
5. 概率:概率是描述事件发生可能性的数值,介于0和1之间。
概率论是研究随机现象的数学理论。
常用的概率计算方法包括计数法、频率法、几何法等。
6. 抽样方法:抽样是从总体中选择部分个体进行观察和分析的方法。
常用的抽样方法包括随机抽样、系统抽样、整群抽样等。
7. 参数和统计量:参数是指总体的某种特征值,例如总体均值、总体方差等;统计量是根据样本数据计算得到的总体参数的估计值,例如样本均值、样本方差等。
8. 假设检验:假设检验是通过比较样本数据与给定假设之间的差异来判断假设是否成立的方法。
常用的假设检验方法有正态总体均值的检验、两个总体均值的检验、总体方差的检验等。
9. 相关分析:相关分析是研究两个或多个变量之间关系的方法。
常用的相关分析方法包括皮尔逊相关系数、斯皮尔曼相关系数等。
10. 回归分析:回归分析是研究变量之间关系的方法,可以用于预测和解释变量之间的关联关系。
常用的回归分析方法包括简单线性回归分析、多元线性回归等。
以上是统计学基础中的一些必学知识点,通过学习和掌握这些知识点,可以帮助我们理解和分析数据,从而做出科学的统计推断。
1-绪论第一节统计学与医学统计学方法1、统计学是收集、分析、解释与呈现数据资料的一门科学收集数据:实验设计、调查设计分析数据:统计学描述、统计学推断解释数据:根据专业等解释统计结果呈现结果:向杂志社、上级部门发表结果2、统计工作的基本步骤①统计设计:包括调查、实验设计②收集资料:取得准确可靠的原始资料③整理资料:对资料进行整理、改错、数量化④分析资料:统计描述、统计推断(参数估计、假设检验)第二节数据类型1、计量资料(定量数据):用仪器、工具等测量方法获得的数据。
特点:有计量单位2、计数资料(定性数据/分类资料):按某种属性分类,然后清点每类的数据。
无固有计量单位,分为二分类和多分类3、等级资料(有序分类资料):半定量或半定性的观察结果。
有大小顺序4、三类资料间关系第三节统计学基本概念1、随机变量(random variable)及其分类简称变量(variable),用大写拉丁字母表示,如X、Y、Z。
变量值用小写拉丁字母表示①离散型变量(discrete variable)相当于计数资料(定性数据)②连续型变量(continuous variable)相当于计量资料(定量数据)③有序变量(ordinal variable)相当于等级资料2、同质与变异(homogeneity and variation)同质:指事物的性质、影响条件或背景相同或非常相近变异:指同质的个体之间的差异3、总体与样本(population and sample)总体:根据研究目的确定的同质研究对象的全体(集合)分有限总体与无限总体样本:从总体中随机抽取的部分观察单位随机抽样(random sampling)为保证样本的可靠性和代表性,需要采用随机的抽样方法4、参数与统计量(parameter and statistic)参数:总体的统计指标,如总体均数,标准差,为固定的常数统计量:样本的统计指标,如样本均数、标准差,为参数附近波动的随机变量5、误差(error)实际观察值与客观真实值之差①系统误差(systematic error)在实际观测中,由受试对象、研究者、仪器设备、研究方法、非实验因素影响等原因造成的有一定倾向性或规律性的误差。