医学统计学名词解释问答题
- 格式:doc
- 大小:40.00 KB
- 文档页数:6
第一章绪论(一)名词解释1.总体与样本2. 随机抽样3. 变异4. 等级资料5. 概率与频率6. 随机误差7. 系统误差8. 随机变量9.参数10. 统计量(二)单项选择题1.观察单位为研究中的( )。
A.样本B. 全部对象C.影响因素D. 个体2.总体是由()。
A.个体组成B. 研究对象组成C.同质个体组成D. 研究指标组成3.抽样的目的是()。
A.研究样本统计量B. 由样本统计量推断总体参数C.研究典型案例研究误差D. 研究总体统计量4.参数是指()。
A.参与个体数B. 总体的统计指标C.样本的统计指标D. 样本的总和5.关于随机抽样,下列那一项说法是正确的()。
A.抽样时应使得总体中的每一个个体都有同等的机会被抽取B.研究者在抽样时应精心挑选个体,以使样本更能代表总体C.随机抽样即随意抽取个体D.为确保样本具有更好的代表性,样本量应越大越好(三)是非题1.研究人员测量了100例患者外周血的红细胞数,所得资料为计数资料。
2.统计分析包括统计描述和统计推断。
3.计量资料、计数资料和等级资料可根据分析需要相互转化。
(四)简答题某年级甲班、乙班各有男生50人。
从两个班各抽取10人测量身高,并求其平均身高。
如果甲班的平均身高大于乙班,能否推论甲班所有同学的平均身高大于乙班?为什麽?第二章计量资料的统计描述(一)名词解释1.频数表2.算术均数3.几何均数4.中位数5.极差6.百分位数7.四分位数间距8.方差9.标准差10.变异系数(二)单项选择题1.各观察值均加(或减)同一数后()。
A.均数不变,标准差改变B.均数改变,标准差不变C.两者均不变D.两者均改变2.比较身高和体重两组数据变异度大小宜采用()。
A.变异系数B.差C.极差D.标准差3.以下指标中()可用来描述计量资料的离散程度。
A.算术均数B.几何均数C.中位数D.标准差4.偏态分布宜用()描述其分布的集中趋势。
A.算术均数B.标准差C.中位数D.四分位数间距5.各观察值同乘以一个不等于0的常数后,()不变。
统计学(Statistics):运用概率论、数理统计的原理与方法,研究数据的搜集;分析;解释;表达的科学。
总体(population):大同小异的研究对象全体。
更确切的说,总体是指根据研究目的确定的、同质的全部研究单位的观测值。
样本(sample):来自总体的部分个体,更确切的说,应该是部分个体的观察值。
样本应该具有代表性,能反映总体的特征。
利用样本信息可以对总体特征进行推断。
抽样误差(sampling error)在抽样过程中由于抽样的偶然性而出现的误差。
表现为总体参数与样本统计量的差异,以及多个样本统计量之间的差异。
可用标准误描述其大小。
标准误(Standard Error) 样本统计量的标准差,反映样本统计量的离散程度,也间接反映了抽样误差的大小。
样本均数的标准差称为均数的标准误。
均数标准误大小与标准差呈正比,与样本例数的平方根呈反比,故欲降低抽样误差,可增加样本例数区间估计(interval estimation):将样本统计量与标准误结合起来,确定一个具有较大置信度的包含总体参数的范围,该范围称为置信区间(confidence interval,CI),又称可信区间。
参考值范围描述绝大多数正常人的某项指标所在范围;正态分布法(标准差)、百分位数法,参考值范围用于判断某项指标是否正常置信区间揭示的是按一定置信度估计总体参数所在的范围。
t分布法、正态分布法(标准误)、二项分布法。
置信区间估计总体参数所在范围可信区间:按预先给定的概率确定的包含未知总体参数的可能范围。
该范围称为总体参数的可信区间(confidence interval,CI)。
它的确切含义是:可信区间包含总体参数的可能性是1- α ,而不是总体参数落在该范围的可能性为1-α 。
参数统计(parametric statistics)非参数统计(nonparametric statistics)是指在统计检验中不需要假定总体分布形式和计算参数估计量,直接对比较数据(x)的分布进行统计检验的方法。
1、常用的统计学资料类型分计量、计数和等级2、正态分布的两个参数是位置参数和形态参数3、统计推断包括两个重要方面是参数估计和假设检验5、方差分析的应用条件是,1样本来自正态整体2方差极性3独立样本资料15、欲比较两组均数相差较大的资料的离散程度宜用变异系数15、统计学将p《0.05或平《0.01定为小概率事件16、概率是以符号p表示,其取值波动于0~1之间20、估计医学正常值的方法有正态法和百分位数法,它们分别用于正态分布资料和偏态分布资料25、常用的相对数率、构成比、相对比40、x2值是反映实际频数和理论频数的吻合程度50、根据资料的内容和性质选用合适的统计图53、实验设计的基本原则是对照原则、均衡原则、随机原则和重复原则64、& 是指样本均数对u的离散程度&x-是指均数的均数对u的离散程度名词解释1.总体:population总体指根据研究目的所确定的同质观察单位的全体,更确切的说,是同质的所有观察单位某项观察值的集合2.样本:sample从总体中随机抽取部分观察单位其某项观察值的集合称为样本。
3.变异:即个体间的差异,是生物医学数据最显著地特征。
4.变异系数:coefficient of variation用CV表示,即标准差与算术均数之比,描述了观察值的变异相对于其平均水平的大小。
5.相对数:relative number是两个有关联的数值或指标之比称为相对数。
是分类变量常用的描述性统计指标,常用相对数有率、构成比、相对比。
6、四分位数间距quartile range、用Q表示,就是上四分位数与下四分位数之差,即P75-P25。
间距越大,说明资料的离散程度越大。
7、均方:将各部分离均差平方和除以相应自由度,其比值称为均方差简称均方。
8、标准误:standard error统计学把样本均数的标准差称为均数的标准误。
标准误是描述均数的抽样误差大小的统计指标,标准误越大,抽样误差越大。
1、标准正态分布(u分布)与t分布有何异同?相同点:集中位置都为0,都是单峰分布,是对称分布,标准正态分布是t分布的特例(自由度是无限大时)不同点:t分布是一簇分布曲线,t 分布的曲线的形状是随自由度的变化而变化,标准正态分布的曲线的形状不变,是固定不变的,因为它的形状参数为1。
3、简述直线回归与直线相关的区别。
1资料要求上不同:直线回归分析适用于应变量是服从正态分布的随机变量,自变量是选定变量;直线相关分析适用于服从双变量正态分布的资料。
2 两种系数的意义不同:回归系数是表明两个变量之间数量上的依存关系,回归系数越大回归直线越陡峭,表示应变量随自变量变化越快;相关系数是表明两个变量之间相关的方向和紧密程度的,相关系数越大,两个变量的关联程度越大。
第一章医学统计中的基本概念2、抽样中要求每一个样本应该具有哪三性?从总体中抽取样本,其样本应具有“代表性”、“随机性”和“可靠性”。
(1)代表性: 就是要求样本中的每一个个体必须符合总体的规定。
(2)随机性: 就是要保证总体中的每个个体均有相同的几率被抽作样本。
(3)可靠性: 即实验的结果要具有可重复性,即由科研课题的样本得出的结果所推测总体的结论有较大的可信度。
由于个体之间存在差异, 只有观察一定数量的个体方能体现出其客观规律性。
每个样本的含量越多,可靠性会越大,但是例数增加,人力、物力都会发生困难,所以应以“足够”为准。
需要作“样本例数估计”。
3、什么是两个样本之间的可比性?可比性是指处理组(临床设计中称为治疗组)与对照组之间,除处理因素不同外,其他可能影响实验结果的因素要求基本齐同,也称为齐同对比原则。
实习一统计研究工作的基本步骤1、什么叫医学统计学?医学统计学与统计学、卫生统计学、生物统计学有何联系与区别?医学统计学:是运用统计学原理和方法研究生物医学资料的搜索、整理、分析和推断的一门学科统计学:是研究数据的收集、整理、分析与推断的科学。
卫生统计学:是把统计理论、方法应用于居民健康状况研究、医疗卫生实践、卫生事业管理和医学科研的一门应用学科。
医学统计学名词解释及问答题统计学(Statistics):运⽤概率论、数理统计的原理与⽅法,研究数据的搜集;分析;解释;表达的科学。
总体(population):⼤同⼩异的研究对象全体。
更确切的说,总体是指根据研究⽬的确定的、同质的全部研究单位的观测值。
样本(sample):来⾃总体的部分个体,更确切的说,应该是部分个体的观察值。
样本应该具有代表性,能反映总体的特征。
利⽤样本信息可以对总体特征进⾏推断。
抽样误差(sampling error)在抽样过程中由于抽样的偶然性⽽出现的误差。
表现为总体参数与样本统计量的差异,以及多个样本统计量之间的差异。
可⽤标准误描述其⼤⼩。
标准误(Standard Error) 样本统计量的标准差,反映样本统计量的离散程度,也间接反映了抽样误差的⼤⼩。
样本均数的标准差称为均数的标准误。
均数标准误⼤⼩与标准差呈正⽐,与样本例数的平⽅根呈反⽐,故欲降低抽样误差,可增加样本例数区间估计(interval estimation):将样本统计量与标准误结合起来,确定⼀个具有较⼤置信度的包含总体参数的范围,该范围称为置信区间(confidence interval,CI),⼜称可信区间。
参考值范围描述绝⼤多数正常⼈的某项指标所在范围;正态分布法(标准差)、百分位数法,参考值范围⽤于判断某项指标是否正常置信区间揭⽰的是按⼀定置信度估计总体参数所在的范围。
t分布法、正态分布法(标准误)、⼆项分布法。
置信区间估计总体参数所在范围参数统计(parametric statistics)⾮参数统计(nonparametric statistics)是指在统计检验中不需要假定总体分布形式和计算参数估计量,直接对⽐较数据(x)的分布进⾏统计检验的⽅法。
变异(variation):对于同质的各观察单位,其某变量值之间的差异同质(homogeneity):研究对象具有的相同的状况或属性等共性。
回归系数有单位,⽽相关系数⽆单位β为回归直线的斜率(slope)参数,⼜称回归系数(regression coefficient)。
●【抽样误差】由抽样引起的样本统计量与总体参数间的差别。
原因:个体变异+抽样 表现:样本统计量与总体参数间的差别、不同样本统计量间的差别。
抽样误差是有规律的 ●【可信区间CI 】区间估计是按一定的概率或者可信度1-α,用一个区间估计总体参数所在的范围CI ,这个范围成为可信度为1-α的可信区间,置信区间。
影响:可信度、个体差异、样本含量 两要素:可信度1-α、可靠性;精确性可信度为95%的CI 涵义:每100个样本计算95%的CI ,平均有95%的CI 包含了总体参数。
95%,指方法本身,而非某个区间。
该区间包含总体参数,可信度为95%●【总体和样本】根据研究目的确定的同质的所有观察单位的某种变量值的集合。
样本是指在研究总体中随机抽出一部分个体进行观察或测量,这些个体的测量值构成的集 ●【参数和统计量】描述总体特征的指标,不变的,固定的,未知的统计量:描述样本特征的指标,变化的,已知的,有误差的●【概率和小概率原理】描述某随机事件发生可能性大小的度量,记做P ,取值0<P <1 小概率原理:P ≤0.05,该事件发生的可能性很小,进而认为在一次抽样中不可能发生 ●【随机】机会均等、随机抽样、随机分组、实验顺序随机●【变异系数CV 】离散系数,标准差S 、均数之比。
用来衡量单位不同的多组资料的变异度、比较均数相差悬殊的多组资料的变异度●【相关系数】两个有直线关系的变量间相关关系的密切程度与相关方向的指标,记做r ,-1≤r ≤1,正、负相关,其绝对值越大表示关系越密切,越接近于0相关越不密切 ●【回归系数】b 回归直线的斜率,自变量增加一个单位,应变量的平均改变量●【标准误】样本统计量的标准差,衡量抽样误差的大小 ●【偏倚】实验中某些非实验因素的干扰所形成的系统误差,歪曲了处理因素的真实效应 ●【一类错误、二类错误】【检验效能】1-β 就是对真实的H 1作出肯定结论之概率●【假设检验中的P 值】从 H0 总体中随机获得等于或大于现有统计量值的概率。
医学统计学名词解释与简答题第一章一、名词解释总体样本变异概率与频率随机误差系统误差参数统计量随机变量二、问答题1. 医学统计学的研究步骤是什么?2. 调查到A、B两种药物治疗同一种疾病的有效率分别为90%、70%,能否认为A药的有效率高于B药?3. 有研究者说:“统计学并不能证明事物,但它可以进行推断,发现线索,提供信息,使得人们有根据去改善事物”。
谈谈你的理解。
第二章一、简答题1. 请简述统计表的基本结构及制表的注意事项。
2. 请简述统计图的基本结构及绘制统计图的注意事项。
第三章一、简答题1. 统计描述主要包括哪几个方面来发现和描述数据的基本特征?2. 频数分布表的主要用途有哪些?3. 正态分布的主要应用有哪些?4. 变异系统与标准差有何异同?第四章一、名词解释结构相对数强度相对数相对比定基比环比平均增长速度二、简答题1. 简述结构相对数和强度相对数的区别。
2. 简述发病率与患病率、死亡率与病死率的不同。
3. 应用相对数时应注意哪些问题?第五章一、名词解释抽样误差 均数的标准误 率的标准误 参数估计 置信区间第六章一、名词解释P 值 I 类错误 II 类错误 检验水准 检验效能二、简答题1. 简述假设检验的基本思想与步骤。
2. 简述假设检验与置信区间的关系。
第八章一、名词解释组间变异 误差变异 均方 方差齐性二、简答题1. 方差分析的基本思想及应用条件?2. 在随机区组设计的方差分析中,误区组处理总及、、MS MS MS MS 的含义?3. 多组均数间差别有统计学意义时,其两两比较的检验方法同两均数t 检验有何不同?第九章一、简答题1. 简述2χ的基本原理。
2. 对于四格表资料,如何正确选用检验方法?3. 简述行⨯列表资料的2χ检验应注意的事项?第十章一、简答题1. 请简述参数检验与非参数检验的区别,各自的优缺点。
2. 请简述非参数检验适用范围。
3. 两组或多组有序分类资料的比较,为什么宜用秩和检验而不用2χ检验?4. 对同一资料,出自同一研究目的,用参数检验和非参数检验所得结果不一致时,应以哪种方法为准?第十一章一、名词解释Pearson相关系数回归系数决定系数二、简答题1. 请简述简单线性相关和简单线性回归的区别和联系。
10、测定某地107名正常人尿铅含量(μmol/L)如下表,该资料是计量资料,呈正偏态分布,欲表示该资料的集中趋势和离散趋势,宜选用的指标分别是中位数和四分位数间距。
12、算术均数常用于描述对称分布资料和正态分态资料的平均水平。
13、描述正态分布或对称分布资料离散程度常用的指标是标准差,而反映偏态分布资料离散程度用四分位数间距。
16、中位数一般用于描述偏态分布、分布型不明或开口资料的平均水平。
19、正态分布是以μ为中心左右对称,正态曲线在均数位置最高,离中心越远,观察值分布越少。
25、正态分布的形态由σ决定,t分布的形态由自由度决定。
20、正态分布和t分布都呈单峰和对称分布,但是曲线下相同的面积所对应的界值是不同的,t界值比u界值大,而且自由度越小,二者相差越大。
22、计算正态分布资料95%正常值范围的公式是X±1.96S ;估计总体均数95%可信区间的公式是X±1.96Sx 。
26、在抽样研究中,当样本含量趋向无穷大时,X趋向等于μ,Sx趋向于 0 ,t(0.05,v)趋向于1.96 。
①选有代表性的、较稳定的、数量较大的人群做标准;②将相互比较的各组数据合并作标准;③选择相互比较的各组中的一组作为标准。
一、名词解释1、定量资料:又称计量资料,是用定量的方法测定观察单位某项指标数值的大小,所得到的资料称为定量资料。
根据变量的取值特征,可分为连续型数据(身高、体重)和离散型数据(家庭成员数、白细胞计数)。
2、定性资料:又称计数资料,是将观察单位按照某种属性或类别分组,清点各组的观察单位数,所得的资料称为定性资料。
各类别属性没有程度或顺序上的差别,如男女,血型。
3、等级资料:又称有序分类资料,是将观察单位按属性的等级分组,清点各组的观察单位数,所得的资料称为等级资料。
各类别属性有程度或顺序上的差别,如显效、有效、无效等。
4、总体:是根据研究目的确定的所有同质观察单位的全体,它包括所有定义范围内的个体变量值。
医学统计学习题二一、名词解释:1、参数2、统计量3、检验水准4、概率5、抽样误差6、医学参考值范围7、统计推断8、标准误9、可信区间10、Ⅰ型错误11、Ⅱ型错误12、标准化死亡比13、非参数检验14、回归系数15、相关系数二、简答题1、医学统计学工作的步骤。
2、正态分布有什么基本特征?有哪几个参数?3、医学正常值范围与可信区间有何区别?4、假设检验中应注意哪些问题?6、应用相对数时应注意的事项?8、非参数检验的适用条件、优缺点?三、是非题1、对数正态分布资料最好计算几何均数以表示其平均水平。
2、不论数据呈什么分布,用算术均数和用中位数表示平均水平都一样合理。
3、理论上只有服从正态分布条件的变量的算术均数等于中位数。
4、随机抽样就是指在抽样研究中不要主观挑选研究个体。
8、同一总体中随机抽样,样本含量越大,则样本标准差越小。
9、只要单位相同,用s和用CV来比较两套变量值的离散度,结论是完全一样的。
10、从同一总体随机抽取的两组数据中,平均数大的组标准差也大。
11、同一批计量数据的标准差不会比标准误大。
12、t检验是对两样本均数的差别作统计检验的方法之一。
13、当总体方差已知时,检验样本均数和某个已知总体均数差别有无统计意义只能用t检验。
14、在配对t检验中,用药前数据减去用药后数据和用药后数据减去用药前数据,作t检验后的结论是相同的。
15、方差分析中均方就是方差。
16、随机区组设计和完全随机设计方差分析的统计效能总是一样的。
17、4个均数作差别的统计检验,可以分别作两两比较的6次t检验以作详细分析。
18、回归系数越大,两变量的数量关系越密切。
19、双变量正态分布资料,样本回归系数小于零,可认为两变量呈负相关。
20、某事物内部某一部分所占的比重就是比例,患病率也是一种比例。
21、要消除甲乙两地各年龄组死亡率不同的影响而对两总的死亡率作比较,可以计算标准化死亡率后再作比较。
22、非参数统计方法不对特定分布的参数作统计推断,但仍要求数据服从正态分布。
医学统计学1、应用相对数时应注意的事项①计算相对数时分母不能太小;②分析时不能以构成比代替率;③当各分组的观察单位数不等时,总率(平均率)的计算不能直接将各分组的率相加求其平均;④对比时应注意资料的可比性:两个率要在相同的条件下进行,即要求研究方法相同、研究对象同质、观察时间相等以及地区、民族、年龄、性别等客观条件一致,其他影响因素在各组的内部构成应相近;⑤进行假设检验时,要遵循随机抽样原则,以进行差别的显著性检验。
2、正态分布的特点及其应用性质:①两头低中间高,略呈钟形;②只有一个高峰,在X=μ,总体中位数亦为μ;③以均数为中心,左右对称;④μ为位置参数,当σ恒定时,μ越大,曲线沿横轴越向右移动;σ为变异度参数,当μ恒定时,σ越大,表示数据越分散,曲线越矮胖,反之,曲线越瘦高;⑤对于任何服从正态分布N(μ,σ2)的随机变量X作的线性变换,都会变换成u服从于均数为0,方差为1的正态分布,即标准正态分布。
应用:①概括估计变量值的频数分布;②制定参考值范围;③质量控制;④是许多统计方法的理论基础。
3、确定参考值范围的一般原则和步骤、方法一般原则和步骤:①抽取足够例数的正常人样本作为观察对象;②对选定的正常人进行准确而统一的测定,以控制系统误差;③判断是否需要分组测定;④决定取单侧范围值还是双侧范围值;⑤选定适当的百分范围;⑥选用适当的计算方法来确定或估计界值。
方法:①正态分布法:②百分位数法(偏态分布)4、总体均数的可信区间与参考值范围的区别概念:可信区间是按预先给定的概率来确定的未知参数μ的可能范围。
参考值范围是绝大多数正常人的某指标范围。
所谓正常人,是指排除了影响所研究指标的疾病和有关因素的人;所谓绝大多数,是指范围,习惯上指正常人的95%。
计算公式:可信区间①②③参考值范围①正态分布②偏态分布用途:可信区间用于总体均数的区间估计参考值范围用于表示绝大多数观察对象某项指标的分布范围5、标准差与标准误的区别与联系区别:含义:标准差反映观察值在个体中的变异大小,标准差越大,变量值越分散;标准误是指样本统计量的标准差,反映来自同一总体的样本统计量的离散程度以及样本统计量与总体参数的差异程度,即抽样误差的大小。
计算方法:标准差:总体标准差:样本标准差:标准误:均数的标准误:率的标准误:用途:标准差①用于对称分布,特别是正态分布资料,表示观察值分布的离散程度②结合均数,描述正态分布的特征、估计参考值范围③结合样本统计量,计算均数标准误④计算变异系数⑤反映均数的代表性标准误①衡量样本均数的可靠性②估计总体均数的可信区间③用于均数的假设检验与样本例数的关系:随着样本量的增加,样本标准差稳定于总体标准差;随着样本量的增加,样本标准误减少并趋于0。
联系:二者均为变异度指标,样本均数的标准差即为标准误,标准误大小与标准差呈正比,与样本例数的平方根呈反比,故欲降低抽样误差,可增加样本例数。
6、假设检验的步骤①建立假设与确定检验水准(α)(反证法思想)H0:μ1=μ2 无效假设H1:μ1≠μ2 备择假设检验水准:α=0.05(双侧或单侧)②选定方法和计算检验统计量:根据资料的性质(变量类型、设计类型、资料组数、样本含量等)和分析目的选择检验统计量。
所有检验统计量均在无效假设成立的前提下,可以证明其分布。
③确定P值,作出判断(利用小概率原理)P值是指在H0成立的前提下,获得现有检验统计量值以及比该统计量值更极端情况下的概率。
P≤α(0.05) ,拒绝H0,接受H1,认为差别有统计学意义,可以认为......不同或不等;P >α(0.05) ,接受H0,拒绝H1,认为差别无统计学意义,还不能认为......不同或不等。
④结合专业知识下结论。
7、假设检验时应注意的问题①样本具有代表性且可比;②正确选用假设检验方法;③差别的统计学意义不等于实际意义;④判断结论时不能绝对化;⑤单侧检验与双侧检验的选择;⑥报告结果应注明样本含量、统计量值、P值,单侧检验也应注明;95%CI既能说明差别的大小,也具有检验的作用,建议使用。
8、方差分析的基本思想、基本条件基本思想:①首先将总变异分解为组间变异和误差(组内)变异,然后比较两者的均方,即计算F值。
②若F值大于某个临界值,表示处理组间的效应不同;若F值接近甚至小于某个临界值,表示处理组间效应相同(差异仅仅由随机原因所致)。
③对于不同设计的方差分析,其思想都一样,即均将处理间平均变异与误差平均变异比较。
④不同之处在于变异分解的项目因设计不同而异。
基本条件:①资料无偏性,各样本是相互独立的随机样本(独立性);②各样本来自正态分布总体(正态性);③各样本组的总体方差相等(方差齐性)。
9、R×C表χ2检验的应用注意事项1. 采用专用公式计算χ2值,无须计算理论频数,但也必须求出最小理论频数。
2. 对R×C表,若T<5的个数超过所有理论频数个数的1/5或有T<1的格子出现,则易犯第一类错误。
此时应:①增大样本含量②根据专业知识将相邻的行或列进行合理合并,一般仅对有序分类合并③精确概率法④似然比χ2检验⑤删去T过小的行或列,但会丢失相应信息3. 多组样本率或构成比比较时,若效应有强弱的等级时,χ2检验只能反映其构成比有无差异,不能比较效应的平均水平。
4. 当结果变量为无序分类时,可采用χ2检验;当结果变量为有序分类时,可考虑趋势检验或等级相关分析。
10、简述直线相关与回归的区别与联系区别:资料:相关分析要求X、Y服从双变量正态分布回归分析要求应变量Y服从正态分布,x无特定要求应用:相关分析用于说明两变量间的相关关系,描述两变量X、Y之间呈线性关系的密切程度和方向回归分析用于说明两变量间的依存关系,可以用一个变量的数值推算另一个变量的数值联系:正负符号:对同一资料中,r与b的符号相同假设检验:对同一资料中,r与b的假设检验是等价的,二者的t值相等,t b=t rr与b可相互转换回归可解释相关:相关系数r的平方称决定系数,表示Y的变异中可由X解释的部分占总变异的比例11、应用直线相关与回归的注意事项①作相关与回归分析要有实际意义。
②对相关关系的作用要正确理解。
③作相关与回归分析前必须先作散点图。
④积差法计算相关系数r适用于正态资料;资料明显偏态或原始资料只能用等级划分或难以判定资料属何种分布时,才宜按等级相关处理。
⑤相关、回归若无统计学意义,不等于无任何关系。
⑥回归方程的适用范围仅适用于自变量X的实测范围内。
12、相关系数的意义、应用直线相关的注意事项相关系数是用以说明在两个变量之间存在线性相关关系以及相关关系的密切程度与方向的统计指标。
样本相关系数用r表示,总体相关系数用ρ表示。
相关系数没有单位,其值为-1≦r≦1。
r值为正表示正相关,r值为负表示负相关,r值为0表示X与Y无线性关系。
r的绝对值越大表示相关越密切。
①线性相关表示两变量之间的关系是双向的分析变量之间的关系;须首先绘制散点图,散点图呈直线趋势时再做分析;②r表示服从双变量正态分布的两变量间的相关关系,描述两变量之间呈线性关系的密切程度和方向;r=0只能说明X与Y之间无线性关系,并不表示X与Y之间无任何相关;③计算出相关系数是样本相关系数,是总体相关系数的估计值,因此判断总体相关时需做假设检验;④相关关系不一定是因果关系。
**13、频数表的编制步骤①找出观察值中的最大值和最小值,并求出极差②按极差大小决定组段数、组段和组距③列出组段④划记计数**14、统计图的制图通则①据资料的性质和分析目的选择合适的图形②确切的标题与编号(在图的下方正中央位置)③纵、横轴之比为5:7,必要时注明度量单位④必要时辅以图例**15、t 分布有如下性质:①单峰分布,曲线在t=0 处最高,并以t=0为中心左右对称②与正态分布相比,曲线最高处较矮,两尾部翘得高③随自由度增大,曲线逐渐接近正态分布;分布的极限为标准正态分布。
**16、非参数统计的优缺点优点:①适用范围广,是对有序分类资料最有效的统计方法②对不满足参数统计的资料,非参数统计的效率高③搜集资料方便缺点:对适用参数统计的资料,应用非参数统计的效率低,即犯第II类错误的概率比参数统计大1、医学统计学:是以医学理论为指导,借助统计学的原理和方法研究医学现象中的数据搜集、整理、分析和推断的一门综合性学科。
2、变量:是指观察个体的某个指标或特征,统计上习惯用大写拉丁字母表示。
3、数值变量/定量变量/计量资料/定量资料:是以定量的方式来表示观察单位某项观察指标的大小,所得的资料称之为~,有度量单位。
4、分类变量/定性变量/计数资料/定性资料:是以定性的方式来表示观察单位某项观察指标,所得的资料称之为~,无固有度量单位。
5、有序分类/等级资料:是以等级的方式来表示观察单位某项观察指标,所得的资料称之为~,为半定量的观察结果,有大小顺序。
6、同质:是指事物的性质、影响条件或背景相同或相近。
7、变异:是指同质的个体之间的差异。
8、总体:是根据研究目的所确定的同质观察单位的全体或集合,分为有限总体和无限总体。
9、样本:是从总体中随机抽取的一部分观察单位所组成的集合。
10、随机变量:是指取值不能事先确定的观察结果。
11、统计量:是样本的统计指标,采用拉丁字母表示,是参数附近波动的随机变量。
12、参数:是总体的统计指标,采用小写的希腊字母,为固定的常数。
13、随机抽样:为了保证样本的可靠性和代表性,需要采用随机的抽样方法,使总体中每个个体均有相同的机会被抽到。
14、抽样误差:是由于个体差异导致在抽样研究中产生的样本统计量与相应的总体参数之间的差异以及统计量间的差异。
15、确定性现象:在一定条件下,一定会发生或一定不会发生的现象。
16、随机现象:在同样条件下可能会出现两种或多种结果,究竟会发生哪种结果,事先不能确定。
其表现结果称为随机事件。
17、频率:样本的实际发生率称为~,0≦f≦1。
18、概率:随机事件发生的可能性大小,0≦P≦1。
19、小概率事件:概率小于等于0.05或0.01的事件称为小概率事件,习惯上以0.05为标准,统计学上认为小概率事件在一次实验中是不大可能发生的。
20、平均数:是反应一组观察值的集中趋势、中心位置或平均水平的指标体系,常用的指标有均数、几何均数、中位数。
21、中位数:是将一组观察值从小到大按顺序排列,位次居中的观察值就是中位数,适用于任何分布、开口资料、偏态分布。
22、百分位数:是指一种位置指标,用Px表示,一个百分位数将按大小顺序排列的变量值分为100份,旦论上有x%的变量值比它小,有(100-x)%的变量值比它大,对应x%位次的数值。
23、标准差:方差是指样本观察值的离均差平方和的均值,方差的正平方根为标准差,表示一组数据的平均偏离程度。