卫生统计学两变量关联性分析
- 格式:pptx
- 大小:1.05 MB
- 文档页数:57
卫生统计学知识点整理1.数据类型:卫生统计学包括两种主要类型的数据,即定量数据和定性数据。
定量数据是数值型数据,如身高、体重等,可以使用各种统计方法进行分析。
定性数据是非数值型数据,如性别、职业等,可以使用描述性统计方法进行分析。
2.数据收集方法:卫生统计学使用多种方法收集数据,其中包括调查、观察、实验和文献研究等。
调查是最常用的数据收集方法,通过设计问卷或面对面访谈等手段收集信息。
观察是观察和记录事件或行为,以获取相关数据。
实验是通过对照组和干预组进行比较来确定原因和效果的方法。
文献研究是通过分析已有的文献、报告和统计数据来获取相关信息。
3.数据描述和总结:在数据收集完成后,卫生统计学需要对数据进行描述和总结。
这包括计算各种统计指标,如平均数、中位数、众数和标准差等,以了解数据的分布和变异程度。
4.假设检验:卫生统计学中常用的方法之一是假设检验,用于判断一些变量是否与其他变量有显著关联或差异。
假设检验基于统计学原理,通过计算样本数据与预期数据之间的差异,评估是否拒绝或接受一些假设。
5.相关分析:相关分析是研究两个或多个变量之间关系的统计方法。
它可以确定变量之间的相关性大小和方向,并计算相关系数来度量相关性的强弱。
6.回归分析:回归分析是用来预测和解释一个或多个因变量与一个或多个自变量之间关系的方法。
它可以估计自变量对因变量的影响程度,并评估其统计显著性。
7.生存分析:生存分析是研究个体在一定时间内生存或发生一些事件的概率的统计方法。
它通常用于研究疾病的生存率和治疗效果。
8.抽样方法:抽样方法是在卫生调查中常用的一种方法,它可以通过选择一部分样本来代表整体群体。
常见的抽样方法包括随机抽样、系统抽样、分层抽样和整群抽样等。
9.统计软件:卫生统计学使用各种统计软件来进行数据分析和统计计算。
常用的统计软件包括SPSS、SAS、R和STATA等,它们提供了丰富的统计功能和图形展示方式。
10.数据伦理:卫生统计学中数据伦理是一个重要的问题,主要涉及数据的保密性、隐私保护和知情同意等方面。
卫生统计学笔记整理第1章绪论1、卫生统计学的概念:2、统计工作的基本步骤:3、卫生统计学的几个基本概念(attention:资料的分类)第2章调查研究设计1、调查研究的特点:2、调查研究的类型,按调查抽样比例划分.第3章实验设计1、实验设计的特点.2、实验设计的三要素四原则。
3、常用的实验设计方案:(attention:正确区别完全随机设计和配对设计)第4章定量资料的统计描述1、频数表的编制步骤和频数表的用途2、集中趋势的描述。
(P55知识点4-2)3、离散趋势的描述。
(P58知识点4-3)4、正态分布的特征5、制定医学参考值范围第5章定性资料的统计描述1、相对数是对定性资料进行统计描述的一类指标。
2、常用相对数(率、构成比、相对比)的定义3、应用相对数需要注意的问题[知识点5-3] P694、标准化法的意义和基本思想5、标准化率的计算方法与注意事项[知识点5-5] P74补充:1、该方法便于比较,但不能反映实际情况。
2、并非所有资料都可以计算标准化率,若各组间出现交叉,不宜用该方法。
3、两样本做标准化率后应做假设检验第6章总体均数和总体率的估计1、抽样误差的概念。
2、标准误的概念。
[知识点6-2] P793、t分布(了解)(一)t分布的概念与计算公式(二)t分布的特征与t界值表4、可信区间的概念。
5、总体均数的估计方法:[知识点6-3] P83第7章假设检验1、假设检验的基本思想及基本步骤[知识点7-1] P922、Ⅰ型错误与Ⅱ型错误。
[知识点7-2] P933、单侧检验与双侧检验区分。
[知识点7-3] P954、假设检验应该注意的问题。
[知识点7-3] P97第8章 t检验第一节样本与总体均数的比较1.检验步骤2.[知识点8-1] P1003.当样本数量n≧50或总体均数已知时用z检验[知识点8-2] P102第二节配对设计均数的比较1.检验步骤2.[知识点8-3] P103第三节两样本均数的比较1.检验步骤2.z检验的适用条件第9章方差分析第一节方差分析的基本思想和应用条件(1)总变异、组间变异、组内变异的定义与公式(2)条件:符合定量资料,具有独立性正态分布方差齐性的特征,多样本(3或3个以上)间的比较第二节完全随机设计的方差分析(1)检验步骤(2)注意事项:[知识点9-2] P120第四节多个样本均数的两两比较1.q检验适用范围:当方差分析得出结论拒绝H0接受H1假设时需进行q检验2.掌握检验步骤第10章 X2检验第一节2x2表的X2 检验(一)完全随机设计X2 检验1.检验步骤及公式2.注意事项:[知识点10-2] p141(二)配对设计X2 检验1.检验步骤及公式2.[知识点10-3] p142第二节RⅹC表的X2 检验1.注意事项:[10-4] p143第11章非参数检验适用条件:(1)总体分布形式未知或分布类型不明(2)偏态分布的资料(3)等级资料不能精确测定,只能以严重程度优劣等级次序先后等表示(4)不满足参数检验条件资料各组方差明显不齐(5)数据的一端或两端为不确定数值的资料、等级资料(6)[知识点11-1] p153第一节秩和检验1.检验步骤:详读p154 (2)(3)3.第二节两样本比较的秩和检验1.掌握编秩的方法2.注意条件详看p157的3第12章双变量关联性分析第一节直线相关1、直线相关的概念:又称简单相关,是用来描述具有直线关系的两变量x、y相互关系的统计方法,要求两变量均来自双变量正态分布的随机变量,且两变量不分主次,处于同等地位。
医学统计学八种检验方法医学统计学是医学研究中一个重要的分支,它通过对医学数据进行收集、整理和分析,以帮助医学研究者得出准确可靠的结论。
而在医学统计学中,检验方法是评价医学研究数据是否具有统计意义的一种重要工具。
下面将介绍医学统计学中常用的八种检验方法。
1.正态性检验:正态性检验是用来检验数据是否符合正态分布的统计性质。
常见的正态性检验方法有Shapiro-Wilk检验和Kolmogorov-Smirnov检验。
2.两独立样本t检验:该方法用于检验两个不相互依赖的样本均值之间是否存在差异。
适用于连续变量的比较,例如治疗前后的体重变化。
3.配对样本t检验:配对样本t检验适用于对同一组研究对象在不同时间或不同条件下进行比较。
如药物治疗前后患者的血压比较。
4.卡方检验:卡方检验是用来检验分类变量之间是否存在关联性的方法。
适用于分组数据的比较,例如男女性别与健康状况之间的关系。
5.方差分析:方差分析是用来检验多个组之间是否存在显著差异的方法。
适用于分析多个因素对结果的影响,如不同年龄组对某种疾病发生率的影响。
6.生存分析:生存分析用于研究事件发生时间和随时间而变化的危险率。
适用于研究患者生存期、疾病复发时间等,常见的分析方法有Kaplan-Meier曲线和Cox比例风险模型。
7.相关分析:相关分析用于研究两个连续变量之间的关系。
常见的相关分析方法包括皮尔逊相关系数和Spearman等级相关系数。
8.回归分析:回归分析用于研究一个或多个自变量对因变量的影响程度和方向的方法。
适用于分析影响因素较多的情况,如探讨年龄、性别、病情等因素对治疗效果的影响。
以上八种检验方法在医学统计学中被广泛运用,每种方法都有其适用的场景和注意事项。
在进行医学研究时,选择合适的检验方法能够提高研究结果的可靠性,从而为临床实践和医学决策提供准确依据。
因此,熟练掌握这些统计方法是每个医学研究者必备的基本技能。
卫生统计学Statistics第一章绪论统计学:是一门通过收集、分析、解释、表达数据,目的是求得可靠的结果。
总体:根据研究目的确定的同质(大同小异)的观察单位的全体。
分为目标总体和研究总体。
样本:从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample)。
样本应具有代表性。
所谓有代表性的样本,是指用随机抽样方法获得的样本。
抽样:从研究总体中抽取少量有代表性的个体。
变量:表现出个体变异性的任何特征或属性。
分定型变量和定量变量。
定型变量:1)分类变量或名义变量:最简单的是二分类变量。
0-1变量也常称为假变量或哑变量。
2)有序变量或等级变量。
定量变量:分离散型变量和连续型变量。
变量只能由高级向低级转化:定量→有序→分类→二值。
常见的三种资料类型1)计量或测量或数值资料,如身高、体重等。
2)计数资料或分类资料,如性别、血型等。
3)等级资料,如尿蛋白含量-、+、++、+++、…第一章定量变量的统计描述此章节x即为样本均数(X拔)1.离散型定量变量的取值是不连续的。
累计频数为该组及前面各组的频数之和。
累计频率表示各组累计频数在总例数中所占的比例。
可用直条图表达。
2.编制频数表的步骤与要点步骤:1确定极差2确定组数3确定各组段的上下限4列表要点(注意事项)1)制表是为了揭示数据的分布特征,故分组不宜过粗或过细。
2)为计算方便,组段下限一般取较整齐的数值3)第一组段应包含最小值,最后一个组段应包含最大值。
3.频率分布表(图)的用途1)描述变量的分布类型2)揭示变量的分布特征3)便于发现某些离群值或极端值4)便于进一步计算统计指标和统计分析。
4.描述平均水平的统计指标算术均数(mean):描述一组数据在数量上的平均水平。
总体均数用μ表示,样本均数用X表示。
适用于服从对称分布变量的平均水平描述,这时均数位于分布的中心,能反应全部观察值的平均水平。
分:直接法和频率表法。
即所有变量值加和除以总数n或所有频数f k乘以组中值X0k后求和再除以总数n。
第一章绪论1.统计学(statistics)是一门处理数据中变异性的科学与艺术,内容包括收集、分析、解释和表达数据,目的是求得可靠的结果。
2.▲总体(population)用来表示大同小异的对象全体,例如一个国家的所有成年人;某地的所有小学生。
可分为目标总体和研究总体。
若试图对某个总体下结论,这个总体便称为目标总体(target population);资料常来源于目标总体中的一个部分,它称为研究总体(study population)。
需要谨慎的是,就研究总体所下的结论未必适用于目标总体。
3.▲样本(sample)是指从研究总体中抽取的一部分有代表性的个体。
获取样本的过程称为抽样(sampling)。
抽样研究的目的是用样本数据推断总体的特征。
需要注意的是,统计学的结论从来就不是完全肯定或完全否定的,能不能成功地达到从样本推断总体的目的,关键是抽样的方法、样本的代表性和推断的技术。
4.▲同质(homogeneity)是指同一总体中个体的主要性质相同。
5.▲变异(variation)是指同质的个体之间存在的差异。
6.▲变量的类型二分类变量分类变量或名义变量定性变量多分类变量变量有序变量或等级变量定量变量离散型变量连续型变量变量的转化:只能由“高级”向“低级”转化,即由信息量多的向信息量少的类型转化,如:定量有序分类二值7.▲参数(parameter)是反映总体特征的指标,参数的大小是客观存在的,是一个常数,不会发生变化,然而往往是未知的,需要通过样本资料来估计,如总体均数μ,总体标准差σ。
8.▲统计量(statistic)又称样本统计量,是反映样本特征的指标,是由观察资料计算出来的,如样本均数 X,样本标准差S。
统计学的任务就是依据样本统计量来推断总体参数。
9.▲概率与频率的区别:概率是参数,频率是统计量;频率总是围绕概率上下波动。
当某事件发生的概率≤0.05时,即P≤0.05,统计学习惯上称该事件为小概率事件。
卫生统计学名词解释(2)卫生统计学名词解释22、cause eliminated life table:去死因寿命表,是用来分析某种疾病或某类疾病对平均预期寿命等指标的影响,可以综合说明某类死因对人群生命的影响程度,它不受人口年龄结构的影响,而且它既能说明某类死因对全人口的综合作用,又能表达对某年龄组人口的作用。
23、剩余平方和(residual of square):,它反映X对Y的线性影响以外的一切因素对Y变异的作用,也就是总平方和中无法用X解释的部分。
25、析因试验设计:factorial design,实验研究常常涉及两个或多个处理因素。
这些因素间可能存在交互作用。
析因试验设计是将两个或多个因素的各个水平进行排列组合,交叉分组进行试验,可用于分析各因素间的交互作用,比较各因素不同水平的平均效应和因素间不同水平组合下的平均效应,寻找最佳组合。
26、vital statistics:生命统计,以人口生命事件为内容的统计活动。
生命事件包括人口的出生、死亡、婚姻,以及有关民事身份的变动等。
从广义上说,生命统计活动可以概括为有关人口生命事件的原始登记、资料整理,以及统计和分析。
27、人流活产比(ratio of induced abortion and live birth):这个指标表示每100个活产,有多少人工流产,它间接反映了计划外怀孕的情况。
28、中心极限定理:29、截尾值(ce-ns-ored data):由于失访、改变防治方案、研究时间结束时事件尚未发生等情况,使得部分病人不能随访到底,称之为截尾。
从起点到截尾所经历的时间,称为截尾数据。
30、enumeration data:计数资料,无序变量的分析,应先分类汇总,计算观察单位数,编制分类资料频数表,又称计数资料。
31、percentile:百分位数,是将n个观察值从小到大依次排列,再把它们的位次依次转化为百分位。
百分位数的一个重要用途是确定医学参考值范围。
卫生统计学统计工作基本步骤:统计设计(调查设计和实验设计)、资料分析{收集资料、整理资料、分析资料【统计描述和统计推断(参数估计和假设检验)】。
★统计推断:是利用样本所提供的信息来推断总体特征,包括:参数估计和假设检验.a参数估计是指利用样本信息来估计总体参数,主要有点估计(把样本统计量直接作为总体参数估计值)和区间估计【按预先设定的可信度(1-α),来确定总体均数的所在范围】。
b假设检验:是以小概率反证法的逻辑推理来判断总体参数间是否有质的区别.变量资料可分为定性变量、定量变量。
不同类型的变量可以进行转化,通常是由高级向低级转化。
资料按性质可分为计量资料、计数资料和等级资料。
定量资料的统计描述1频率分布表和频率分布图是描述计量资料分布类型及分布特征的方法.离散型定量变量的频率分布图可用直条图表达。
2频率分布表(图)的用途:①描述资料的分布类型;②描述分布的集中趋势和离散趋势;③便于发现一些特大和特小的可疑值;④便于进一步的统计分析和处理;⑤当样本含量足够大时,以频率作为概率的估计值. ★3集中趋势和离散趋势是定量资料中总体分布的两个重要指标。
(1)描述集中趋势的统计指标:平均数(算术均数、几何均数和中位数)、百分位数(是一种位置参数,用于确定医学参考值范围,P50就是中位数)、众数.算术均数:适用于对称分布资料,特别是正态分布资料或近似正态分布资料;几何均数:对数正态分布资料(频率图一般呈正偏峰分布)、等比数列;中位数:适用于各种分布的资料,特别是偏峰分布资料,也可用于分布末端无确定值得资料。
(2)描述离散趋势的指标:极差、四分位数间距、方差、标准差和变异系数。
四分位数间距:适用于各种分布的资料,特别是偏峰分布资料,常把中位数和四分位数间距结合起来描述资料的集中趋势和离散趋势。
方差和标准差:都适用于对称分布资料,特别对正态分布资料或近似正态分布资料,常把均数和标准差结合起来描述资料的集中趋势和离散趋势;变异系数:主要用于量纲不同时,或均数相差较大时变量间变异程度的比较。
卫生统计学总结卫生统计学是一门应用广泛的学科,它在医学、公共卫生、生物医学研究等领域发挥着至关重要的作用。
通过收集、整理、分析和解释数据,卫生统计学帮助我们揭示健康和疾病的规律,评估卫生干预措施的效果,为制定卫生政策和决策提供科学依据。
一、数据的类型在卫生统计学中,我们首先要了解数据的类型。
数据可以分为定量数据和定性数据。
定量数据又分为离散型和连续型。
离散型数据通常是计数数据,比如某医院一天内接诊的患者人数。
连续型数据则是可以在一定范围内取任意值的数据,例如身高、体重等。
定性数据则包括分类数据和有序数据。
分类数据如性别(男、女),有序数据如疾病的严重程度(轻、中、重)。
二、数据的收集准确的数据收集是进行有效统计分析的基础。
常用的数据收集方法包括问卷调查、医疗记录审查、实验研究和观察性研究等。
在收集数据时,要确保样本具有代表性,能够反映总体的特征。
同时,要注意数据的准确性和完整性,避免遗漏和错误。
三、数据的整理收集到的数据往往是杂乱无章的,需要进行整理和归纳。
这包括对数据进行编码、录入和核对。
在整理数据的过程中,要检查数据的逻辑一致性,例如年龄和出生日期是否相符。
对于异常值和缺失值,要进行适当的处理。
四、描述性统计描述性统计是对数据的基本特征进行概括和总结。
常用的描述性统计指标包括集中趋势指标(如均值、中位数、众数)和离散程度指标(如标准差、方差、极差)。
均值适用于正态分布的数据,中位数则适用于偏态分布的数据。
对于定性数据,可以使用频率和百分比来描述。
例如,我们研究某地区居民的血压情况,通过测量得到一组数据。
计算出均值和标准差可以让我们了解血压的平均水平和离散程度。
如果数据呈现正态分布,我们可以用均值和标准差来估计总体的血压情况。
五、概率分布概率分布是卫生统计学中的重要概念。
常见的概率分布有正态分布、二项分布、泊松分布等。
正态分布是最常见的分布,许多生理指标如身高、体重等都近似服从正态分布。
二项分布适用于只有两种可能结果的独立重复试验,例如药物治疗的有效和无效。
相关系数医学统计学
在医学统计学中,相关系数是一种用于衡量两个变量之间线性相关性的指标。
它可以帮助我们了解变量之间的关联程度、方向以及强度。
相关系数通常用一个数值来表示,取值范围在-1 到 1 之间。
其中,-1 表示完全负相关,1 表示完全正相关,0 表示完全无相关。
数值越接近-1 或 1,说明两个变量之间的相关性越强;越接近 0,则说明相关性越弱。
在医学研究中,相关系数常用于分析变量之间的关系,例如药物剂量与药效之间的关系、生理指标与疾病状态之间的关系等。
通过计算相关系数,我们可以评估这些变量之间的线性相关性,进而推断它们之间是否存在因果关系或预测关系。
常见的相关系数包括皮尔逊相关系数(Pearson correlation coefficient)和斯皮尔曼相关系数(Spearman correlation coefficient)等。
皮尔逊相关系数适用于连续变量之间的线性相关性分析,而斯皮尔曼相关系数则适用于有序分类变量之间的相关性分析。
需要注意的是,相关系数只是一种统计指标,它并不能证明变量之间存在因果关系。
在解释相关系数时,需要结合专业知识和实际情况进行综合分析,同时还应考虑样本大小、数据分布等因素对相关系数的影响。
总之,相关系数在医学统计学中是一个重要的指标,它可以帮助研究者更好地理解变量之间的关系,为医学研究和临床实践提供有价值的参考。
第一大题:单项选择题1、两个分类变量的频数表资料作关联性分析,可用( )•A。
积距相关或等级相关• B.积距相关或列联系数•C。
列联系数或等级相关• D.只有等级相关2、多组均数的两两比较中,若不用q 检验而用t 检验,则:()• A.结果更合理•B。
结果一样• C.会把一些无差别的总体判断为有差别•D。
会把一些有差别的总体判断为无差别3、Y=14+4X是1~7岁儿童以年龄(岁)估计体重(市斤)回归方程,若体重换成国际单位kg,则此方程:()•A。
截距改变• B.回归系数改变•C。
两者都改变•D。
两者都不变4、两样本均数比较,经t 检验,差别有显著性时,P 越小,说明:( )• A.两样本均数差别越大• B.两总体均数差别越大• C.越有理由认为两总体均数不同• D.越有理由认为两样本均数不同5、用于推断总体特征的样本应该是: ( )•A。
从总体中随机抽取的一部分•B。
从总体中随便抽取的一部分•C。
总体中有价值的一部分•D。
总体中便于测量的一部分6、下列关于医学参考值范围的叙述不正确的是:()•A。
没有疾病的人的解剖、生理、生化等数据的波动范围•B。
习惯以包含95%或99%的观察值为界值• C.根据专业知识确定单侧范围或双侧范围•D。
资料为正态分布时,选择正态分布法计算7、在计算标准化率时,标准人口应选择:( )•A。
文献中经常涉及的非目标人群• B.方便获得、与目标人群不同类的人群• C.前人研究过、与目标人群不相关的人群• D.有代表性的、较稳定的、数量较大的人群8、下列关于直线回归的说法中,错误的是:( )• A.回归分析前应绘制散点图• B.应变量与自变量关系应为线性•C。
回归方程可用来描述两定量变量间数量依存的关系•D。
假设检验的 P 值能够反映自变量对应变量数量上的影响大小9、均数与标准差的关系:( )•A。
均数越大,标准差越大•B。
均数越大,标准差越小• C.标准差越大,均数对各变量值的代表性越好• D.标准差越小,均数对各变量值的代表性越好10、比较身高和体重两组数据变异度大小宜采用:( )• A.变异系数(CV)• B.方差()•C。