预防医学之分类变量的统计推断
- 格式:ppt
- 大小:1.73 MB
- 文档页数:20
《预防医学》(统计学部分)复习第十四章医学统计学概述一、几个基本概念1. 总体与样本、2.抽样误差3. 概率和小概率事件、4.参数和统计量二、统计资料类型1. 计量资料、2. 计数资料、3. 等级资料三、统计工作步骤:设计(关键的步骤)、搜集资料(统计分析的前提)、整理资料、分析资料。
第十五章数值变量的统计分析一、频数表的用途、频数分布特征、频数分布类型;频数分布特征:集中趋势特征、离散趋势特征。
频数分布类型:对称分布、偏态分布(正偏态、负偏态)二、常用平均数指标及其使用的资料;算数均数、几何均数、中位数三、变异指标及其应用;全距、四分位数间距、方差、标准差、变异系数四、集中趋势指标的选择判断步骤:资料是 抗体滴度 G 否 是偏态、开口 M否X五、正态分布1、正态分布的概念2. 正态分布的特征3. 正态曲线下分布面积的规律正态分布曲线下三个特殊区间面积分布的情况,对应的界值。
4.标准化变换及标准正态分布σμ-=X u六、医学参考值范围医学参考值范围的定义,制定医学常考值范围的方法。
正态分布法、百分位数法(应用的资料)七、抽样误差1. 抽样误差的概念2. 抽样误差的特点:⑴客观存在,可控制但不能消除;⑵它是反映抽样误差大小的指标:用Sx来说明均数的抽样误差大小;用Sp 来说明率的抽样误差大小;⑶均数抽样误差的大小与标准差成正比,与√n成反比;⑷减少抽样误差最切实可行的办法为:增加样本含量。
3. 总体均数的估计方法⑴点(值)估计:⑵区间估计:①95%可信区间:X±1.96Sx②99%可信区间:X±2.58Sx附:①正常参考值范围估计:①95%正常值范围:X±1.96S②99%正常值范围:X±2.58S②可信区间与正常值范围的区别4. u变换与t变换:X-μ X-μu变换: u=──── u=────σσxt变换: X-μt=────Sx八、假设检验:1、假设检验的原理(为什么进行建设检验?)2、假设检验的一般步骤⑴建立假设①H0:无效假设;H1:备择假设②单双侧检验:根据专业知识来定。
分类变量资料的统计描述 相对比较简单,一定要理解掌握概念相对数常用指标及其意义相对数是两个有关联的数值之比。
常用的指标有率、构成比和相对比A.A.表示某病发生严重程度表示某病发生严重程度表示某病发生严重程度B.B.B.反映两个指标的相对关系反映两个指标的相对关系C.C.反映某病在各疾病中所占的位次反映某病在各疾病中所占的位次D.D.反映同种病不同时间动态变化情况反映同种病不同时间动态变化情况E.E.反映同种病不同地区的严重情况反映同种病不同地区的严重情况(1)发病率)发病率 A A A ((2)构成比)构成比C (3)相对比)相对比 BB分类资料的统计推断考点总结1、率的抽样误差用抽样方法进行研究时,必然存在抽样误差。
率的抽样误差大小可用率的标准误来表示。
2、X2检验可用于两个及两个以上率或构成比的比较;两分类变量相关关系分析。
其数据构成,一定是相互对立的两组数据,四格表资料自由度v永远=1。
3、直线回归和相关相关分析是相关分析是研究事物或现象之间有无关系、关系的 方向和密切程度。
方向和密切程度。
如血压和血糖的之间的线性关系。
4、Logistic Logistic回归分析多变量统计方法中的重要内容,回归分析多变量统计方法中的重要内容, 它是研究它是研究变量变量Y Y 和多个自变量和多个自变量XX 的关系。
将原本非线性的 关系转化为线性关系。
关系转化为线性关系。
Logistic Logistic回归适用条件:校正混杂因素、帅选危险因素、回归适用条件:校正混杂因素、帅选危险因素、 预测与判别。
预测与判别。
5、生存分析:将终点事件出现的与否和到达终点所经历的 时间结合起来分析的一种统计学分析方法。
时间结合起来分析的一种统计学分析方法。
6、统计表和统计图何为统计图?统计图是用点、线、面或立体图形将事物的数量大小、分布情况、发展变化趋势等特征表达出来。
医学上常见的统计图有线图、直方图、直条图、圆形图、散点图、统计地图等。
预防医学彩色笔记【分章节】第一章绪论一、预防医学的概述1.以环境-人群-健康为模式,以个体和确定的群体为主要对象。
2.三级预防策略:第一级预防:疾病的因子---病因预防、根本性预防第二级预防:三早---早发现,早诊断,早治疗第三级预防:已患病者,促康复3、任何疾病都应强调第一级预防。
第二章医学统计学方法一、基本概念和基本步骤(一)统计学中的几个基本概念1.同质:除实验因素外,影响被研究指标的非实验因素相同。
变异:同质基础上被研究个体之间的差异。
总体:同质的个体所构成的全体。
样体:从总体中抽取部分个体所组成。
误差:观测值和真实值之间的差别。
主要有①系统误差:仪器或标准不符等造成,可影响原始资料准确性,必须克服。
②随机测量误差:各种偶然因素造成同一对象多次结果不一致,应采取措施尽量控制在一定范围。
③抽样误差:总体抽样得到某变量值的统计量和总体参数之间的差别。
概率:描述随机事件(如发病)发生可能性大小的度量,常用P表示。
P值0-1,P≤0.05或P<0.01---小概率事件。
P≤0.05为事物差别有统计学意义;P<0.01为事物差别有高度统计学意义。
变量:观察对象的特征或指标;测量的结果为变量值。
(二)统计工作的基本步骤:设计--基础、最关键;收集、整理、分析资料。
二、数值变量数据的统计描述频数表:组数通常选择8-15之间;组距=(最大值-最小值)/组数;必须包含全部数据,一个数据只能归属某一组,实际组段在每组中只包含下限。
(一)集中趋势指标1.算术均数:μ---总体均数。
样本均数--χ,正态或近似正态分布。
2.几何均数:G表示。
同一组观察值的几何均数总是小于它的算数均数。
3.中位数:M;奇数---中间;偶数---中间两个数的平均值。
4.百分位数:P x;从小到大分成100等分,分割界限上的数值就是百分位数。
(二)离散趋势指标离散二距方标差,正态标准差最佳,偏态四分数最佳1.极差/全距:R---最大值和最小值之差。
预防医学名词解释总结一、统计学部分1.抽样误差(sampling error)(11):由于个体存在差异,因此通过样本推论总体时会存在一定的误差,如样本均数往往不等于总体均数,这种由抽样造成的样本均数与总体均数的差异称为抽样误差。
2.样本(sample)(4):从总体中随机抽取部分观察单位的过程称为抽样,所抽得的部分称为样本。
3.总体(population)(2):根据研究目的确定的同质研究对象的全体4.变量(variable):收集资料时,对每个观察对象的某项特征进行测量的观察,这种被观察单位的特征称为变量。
5.概率(probability)对某一随机现象进行大量观察后得到的一个统计百分数f/N抽样研究(sampling study)(2):从总体中随机抽取有代表性的部分个体进行研究的过程称为抽样研究。
6.计量资料(Quantitative data)(6)对每个观察对象的观察指标用定量方法测定其数值大小所得的资料称为计量资料,通常带有度量衡单位。
7.计数资料(count data)(3):先将观察对象的观察指标按性质或类别进行分组,然后计数各组数目所得的资料称为计数资料,也叫定性数据(Qualitative data)。
8.等级资料(Rank data):同时具有半定性或半定量特征的资料,有大小顺序,所以也叫有序资料。
×100%,主要用于对均数相差较大或9.变异系数(Coefficient of Variation )(1):CV=SX̅单位不同的几组观察值的变异程度进行比较。
10. I类错误(3):当Ho为真时,假设检验结论拒绝H0接受H1,这类错误称为I类错误。
11. II类错误:当真实情况为H0不成立时,假设检验结果不拒绝H0,这类错误称为II类错误。
12.标准正态分布(Standard Normal Distribution) (2):对任何参数的正态分布,都可以化成μ=0和σ=1的标准正态分布。
1.卫生统计学:是应用概率论和数理统计学的基本原理和方法,研究居民卫生状况以及卫生服务领域中数据的收集、整理和分析的一门科学。
2.同质(homogeneity):在统计学中,若某些观察对象具有相同的特征或属性称为同质的。
否则称为异质(heterogeneity)的或者间杂的。
3.变异(variation):同质事物之间的差别称为变异。
[没有个体变异,就没有统计学!]4.总体(population):根据研究目的所确定的同质观察单位的全体。
5.样本(sample):是从总体中随机抽取的具有代表性的部分观察单位的集合。
6.样本含量(sample size):样本中包含的观察单位个数。
7.参数(parameter):反映总体特征的指标。
特点:未知、唯一,希腊字母表示,如总体均数、总体率等。
8.统计量(statistic):根据样本观察值计算出来的指标。
特点:已知、不唯一,拉丁字母表示,如样本均数、样本率等。
9.变量(variable):研究者需要对每个观察单位的某项特征或属性进行观察或测量,这种特征或属性称为变量。
10.变量值(value of variable):变量的观察值或测量值称为变量值或观察值(observed value).11.资料(data):变量值的集合称之为资料.12.定量资料(quantitative data):变量值是定量的,表现为数值大小。
特点:一般有度、量、衡单位,一般属连续性资料。
13.定性资料(qualitative data):观察值是定性的,表现为互不相容的类别或属性。
特点:一般无度、量、衡单位,一般属于离散型资料。
可进一步分为计数资料和等级资料。
14.计数资料(count data):将观察单位按某种类别或属性进行分组,清点各组观察单位数所得的资料。
可进一步分为二项分类资料和无序多项分类资料.15.等级资料(ordinal data):将观察单位按照某种特质或属性的程度或等级顺序分组,清点各组观察单位所得的资料。
第二单元医学统计学方法一、基本概念和基本步骤(一)统计学中的几个基本概念1.总体的类型总体:是根据研究目的而确定的同质的研究对象的集合。
分为有限总体和无限总体。
样本:是指从总体中随机抽取的有代表性的一部分观察单位的集合。
2.同质和变异同质:指被研究指标的影响因素完全相同。
是科学研究的基础,是相对的。
变异:是同质基础上的个体差异。
是绝对的。
统计的任务就是在同质分组的基础上,通过对个体变异的研究,透过偶然现象,反映同质事物的本质特征和规律。
统计数据具有变异的特征。
3.变量和变量值变量:观察对象的特征。
变量分为定量变量、定性变量、有序数据。
变量值:对变量观察或测量的结果。
4.参数和统计量参数:总体的统计指标。
μ,π,σ统计量:样本的统计指标。
,p,s【例如】研究北京2012年正常成年男性的血压值。
研究对象观察单位变量变量值同质变异有限总体总体参数样本统计量5.误差误差:观察值与实际值的差别称为误差。
误差包括抽样误差和非抽样误差。
抽样误差:由于个体变异的存在,在抽样研究中产生的样本统计量与相应的总体参数间的差异。
非抽样误差包括过失误差和系统误差。
6.概率概率:随机事件发生可能性大小的度量。
常用P表示,P值范围在0~1之间。
小概率事件:P<0.05为小概率。
统计学认为小概率事件在一次试验中不大可能发生。
(二)统计学工作基本步骤1.统计设计。
2.数据整理。
3.统计描述。
4.统计推断。
二、定量资料的统计描述描述统计是通过图表或统计指标,对数据资料进行整理、分析,并对数据的分布状态、数字特征进行估计和描述的方法。
(一)集中趋势指标1.算数均数μ,适用于正态分布或近似正态分布资料。
2.几何均数(G)适用于对数正态分布或等比资料。
3.中位数(M)与百分位数(P)中位数:是一组由小到大按顺序排列的观察值中位次居中的数值,用M表示。
百分位数(P X):是把一组数据从小到大排列,分成100等份,各等份含1%的观察值,分割界限上的数值就是百分位数。
医师资格考试蓝宝书预防医学之答禄夫天创作医学统计学方法第一节基本概念和基本步伐(非常重要)一、统计工作的基本步伐设计(最关键、决定成败)、搜集资料、整理资料、分析资料.总体:根据研究目的决定的同质研究对象的全体,确切地说,是性质相同的所有观察单元某一变量值的集合.总体的指标为参数.实际工作中,经常是从总体中随机抽取一定命量的个体,作为样本,用样本信息来推断总体特征.样本的指标为统计量.由于总体中存在个体变异,抽样研究中所抽取的样本,只包括总体中一部份个体,这种由抽样引起的不同称为抽样误差.抽样误差愈小,用样本推断总体的精确度愈高;反之,其精确度愈低.某事件发生的可能性年夜小称为概率,用P暗示,在0~1之间,0和1为肯定不发生和肯定发生,介于之间为偶然事件,<0.05或0.01为小概率事件.二、变量的分类变量:观察单元的特征,分数值变量和分类变量.第二节数值变量数据的统计描述(重要考点)一、描述计量资料的集中趋势的指标有1.均数均数是算术均数的简称,适用于正态或近似正态分布.2.几何均数适用于等比资料,尤其是对数正态分布的计量资料.对数正态分布即原始数据呈偏态分布,经对数变换后(用原始数据的对数值lgX取代X)服从正态分布,观察值不能为0,同时有正和负.3.中位数一组按年夜小顺序排列的观察值中位次居中的数值.可用于描述任何分布,特别是偏态分布资料的集中位置,以及分布不明或分布末端无确定命据资料的中心位置.不能求均数和几何均数,但可求中位数.百分位数是个界值,将全部观察值分为两部份,有X%比小,剩下的比年夜,可用于计算正常值范围.二、描述计量资料的离散趋势的指标1.全距和四分位数间距.2.方差和标准差最为经常使用,适于正态分布,既考虑了离均差(观察值和总体均数之差),又考虑了观察值个数,方差使原来的单元酿成了平方,所以开方为标准差.均为数值越小,观察值的变异度越小.3.变异系数多组间单元分歧或均数相差较年夜的情况.变异系数计算公式为:CV=s/×100%,公式中s为样本标准差,为样本均数.三、标准差的应用暗示观察值的变异水平(或离散水平).在两组(或几组)资料均数相近、怀抱单元相同的条件下,标准差年夜,暗示观察值的变异度年夜,即各观察值离均数较远,均数的代表性较差;反之,暗示各观察值多集中在均数周围,均数的代表性较好.(常考!)四、医学参考值的计算方法,单双侧问题,医学为95%医学参考值是指正凡人体或植物体的各种生理常数,由于存在变异,各种数据不单因人而异,而且同一个人还会随机体内外环境的改变而改变,因而需要确定其摆荡的范围,即正常值范围.医学参考值的计算公式:①正态分布资料95%医学参考值:±1.96s(双侧);+1.645s或 1.645s(单侧),s为标准差.②百分位数法P2.5和P97.5(双侧);P5或P95(单侧).第三节数值变量数据的统计推断(重要考点)一、标准误,标准误与标准差和样本含量的关系标准差和标准误的区别.样本标准误即是样本标准差除以根号下样本含量.标准误与标准差成正比;与样本含量的平方根成反比.因此.为减少抽样误差,应尽可能保证足够年夜的样本含量.样本标准差与样本标准误是既有联系又有区另外两个统计量,二者的联系是公式:二者的区别在于:样本标准差是反映样本中各观测值X1,X2,……,Xn变异水平年夜小的一个指标,它的年夜小说明了对该样本代表性的强弱.样本标准误是样本平均数1,2,……的标准差,它是抽样误差的估计值,其年夜小说明了样本间变异水平的年夜小及精确性的高低.(掌握!)二、t分布和标准正态u分布关系均以0为中心左右两侧完全对称的分布,只是t分布曲线顶端较u分布低,两端翘.(v逐渐增年夜,t分布逐渐迫近u分布).正态分布的特点:①以均数为中心左右两侧完全对称分布;②两个参数,均数u(位置参数)和s(变异参数);③对称均数的两正面积相等.三、总体均数的估计样本统计量推算总体均数有两个重要方面:区间估计和假设检验.样本均数估计总体均数称点估计.总体均数区间估计(可信区间)的概念:按一定的可信度估计未知总体均数所在范围.其统计上习惯用95%(或99%)可信区间暗示总体均数μ有95%(或99%)的可能在某一范围.可信区间的两个要素,一为准确度,反映在可信度1α的年夜小,即区间包括总体均数的概率年夜小,固然愈接近1愈好;二是精度,反映在区间的长度,固然长度愈小愈好.在样本例数确定的情况下,二者是矛盾的,需要兼顾.总体均数可信区间的计算方法:1.当n小按t分布的原理用式计算可信区间为:±tα/2,vS2.当n足够年夜因n足够年夜时,t分布迫近μ分布,按正态分布原理.用式估计可信区间为:±μα/2S可信区间与医学参考值范围的区别:二者的意义和算法分歧.四、假设检验的步伐1.建立假设:H0(无效,两样本代表的总体均数相同),H1(备择,两样原本自分歧总体),当拒绝H0就接受H1,不拒绝就不接受H1.2.确定显著性水平:区分年夜概率和小概率事件的标准,通常取α=0.05.3.计算统计量:根据资料类型和分析目的选择适当的公式计算.4.确定概率P值:将计算获得的t值或u值查界值表获得P 值和α值比力.5.做出推断结论.|t|值、P值与统计结论五、两均数的假设检验(常考!)1.样本均数与总体均数比力 u检验和t检验用于样本均数与总体均数的比力.理论上要求样原本自正态分布总体实际中,只要样本例数n较年夜,或n小但总体标准差σ已知,就选用u检验.n较小且σ未知时,用于t检验.两样本均数比力时还要求两总体方差等.以算得的统计量t,按表所示关系作判断.2.配对资料的比力在医学研究中,经常使用配对设计.配对设计主要有四种情况:①同一受试对象处置前后的数据;②同一受试对象两个部位的数据;③同一样品用两种方法(仪器等)检验的结果;④配对的两个受试对象分别接受两种处置后的数据.情况①的目的是推断其处置有无作用;情况②、③、④的目的是推断两种处置(方法等)的结果有无分歧.v=对子数1;如处置前后或两法无分歧,则其差数d的总体均数应为0,可看作样本均数和总体均数0的比力.为差数的均数;为差数均数的标准误,Sd为差数的标准差;n为对子数.因计算的统计量是t,按表所示关系作判断.3.完全随机设计的两样本均数的比力亦称成组比力.目的是推断两样本各自代表的总体均数μ1与μ2是否相等.根据样本含量n的年夜小,分u检验与t检验.t检验用于两样本含量n1、n2较小时,且要求两总体方差相等,即方差齐.若被检验的两样本方差相差显著则需用t′检验.u检验:两样本量足够年夜,n>50.=v=(n11)+(n21)=n1+n22式中,为两样本均数之差的标准误,Sc2为合并估计方差(combined estimate variance).算得的统计量为t,按表所示关系做出判断.4.Ⅰ型毛病和Ⅱ型毛病弃真,拒绝正确的H0为Ⅰ型毛病α暗示,若显著性水平α定为0.05,则犯Ⅰ型毛病的概率0.05;接受毛病的H0为Ⅱ型毛病,概率用β暗示,β值的年夜小很难确切估计.当样本含量一按时,两者反比,增年夜n,当α一按时,可减少β.1β称为检验效能或掌控度,其统计意义是若两总体确有分歧,按α水准能检出其差另外能力.客观实际拒绝H0 不拒绝H0H0成立Ⅰ型毛病(α)推断正确1αH0不成立推断正确(1β)Ⅱ型毛病(β)5.假设检验注意事项保证组间可比性;根据研究目的、资料类型和设计类型选用适当的检验方法,熟悉各种检验方法的应用条件;“显著与否”是统计学术语,为“有无统计学意义”,不能理解为“分歧是不是年夜”;结论不能绝对化.第四节分类变量资料的统计描述(一般考点)相对数是两个有关联事物数据之比.经常使用的相对数指标有构成比、率、相比较等.一、构成比暗示事物内部各个组成部份所占的比重,通常以100为例基数,故又称为百分比.其公式如下:构成比=×100%该式可用符号表达如下:构成比=×100%构成比有两个特点:(1)各构成部份的相对数之和为100%.(2)某一部份所占比重增年夜,其他部份会相应地减少.二、率用以说明某种现象发生的频率或强度,故又称频率指标,以100,1000,10000或100000为比例基数(K)均可,原则上以结果至少保管一位整数为宜,其计算公式为:率和构成比分歧之处:率的年夜小仅取决于某种现象的发生数和可能发生该现象的总数,不受其他指标的影响,而且各率之和一般不为1.率=×K该式亦可用符号表达如下阳性率=×K(若算阴性率则分子为A())式中A(+)为阳性人数,A()为阴性人数.三、相比较暗示有关事物指标之比较,常以百分数和倍数暗示,其公式为:相比较:甲指标/乙指标(或×100%)或用符号暗示为:A/B×K四、注意事项①构成比和率的分歧,不能以比代率;②计算相对数时,观察例数不宜过小;③率的比力注意可比性,特别是混杂因素的问题,有的话,可用标准化法和分层分析消除;④观察单元分歧的几个率的平均率不即是几个率的算术均数;⑤样本率或构成比的比力应做假设检验.第五节分类变量资料的统计推断(非常重要)一、率的抽样误差用抽样方法进行研究时,肯定存在抽样误差.率的抽样误差年夜小可用率的标准误来暗示,计算公式如下:σp=式中:σp为率的标准误,π为总体阳性率,n为样本含量.因为实际工作中很难知道总体阳性率π,故一般采纳样本率P来取代,而上式就酿成Sp=二、总体率的可信区间由于样本率与总体率之间存在着抽样误差,所以也需根据样本率来推算总体率所在的范围,根据样本含量n和样本率P的年夜小分歧,分别采纳下列两种方法:(一)正态近似法(常考!)当样本含量n足够年夜,且样本率P和(1P)均不太小,如nP 或n(1P)均≥5时,样本率的分布近似正态分布.则总体率的可信区间可由下列公式估计:总体率(π)的95%可信区间:p±1.96sp总体率(π)的99%可信区间:p±2.58sp(二)查表法当样本含量n较小,如n≤50,特别是P接近0或1时,则按二项分布原理确定总体率的可信区间,其计算较繁,读者可根据样本含量n和阳性数x参照专用统计学介绍的二项分布中95%可信限表.三、u检验(非常重要!)当样本含量n足够年夜,且样本率P和(1P)均不太小,如nP 或n(1P)均≥5时,样本率的分布近似正态分布.样本率和总体率之间、两个样本率之间差另外判断可用u检验.1.样本率和总体率的比力公式 u=|Pπ|/σP=|Pπ|/;2.两样本率比力公式u=|P1P2|/Sp1P2=|P1P2|/也可用χ2检验,两者相等.四、χ2检验(非常重要!)可用于两个及两个以上率或构成比的比力;两分类变量相关关系分析.其数据构成,一定是相互对峙的两组数据,四格表资料自由度v永远=1.四格表χ2检验各种公式适用条件,n>40且每个格子T>5,可用基本公式或专用公式,不用校正.基本公式:χ2=∑(AT)2/T专用公式:χ2=∑(adbc)2n/(a+b)(c+d)(a+c)(b+d)只要有一个格子T在1~5之间,需校正.校正公式:基本公式:χ2=∑(|AT|0.5)2/T专用公式:χ2=∑(|adbc|n/2)2n/(a+b)(c+d)(a+c)(b+d)n<40或T<1,用确切概率法.五、行×列表χ2检验当行数或列数超越2时,称为行×列表.行×列表χ2检验是对多个样本率(或构成比)的检验.适用条件:一般认为行×列表中不宜有1/5以上格子的理论数小于5,或有小于1的理论数.1.当理论数太小可采用下列方法处置①增加样本含量以增年夜理论数;②删去上述理论数太小的行和列;③将太小理论数所在组与性质相近的组合并,使重新计算的理论数增年夜.由于后两法可能会损失信息,损害样本的随机性,分歧的合并方式有可能影响推断结论,故不宜作惯例方法.另外,不能把分歧性质的实际数合并,如研究血型时,不能把分歧的血型资料合并.2.如检验结果拒绝检验假设,只能认为各总体率或总体构成比之间总的来说有分歧,但不能说明它们彼此之间都有分歧,或某两者间有分歧.3.关于单向有序行列表的统计处置在比力各处置组的效应有无分歧时,宜用秩和检验法,如作χ2检验只说明各处置组的效应在构成比上有无不同.六、配对计数资料的χ2检验同一样品用两种方法处置,观察阳性和阴性个数.判断两种处置方法是否相同.当b+c>40时,χ2=(bc)2/b+c;b+c<40时,校正公式:χ2=(|bc|1)2/b+c第六节直线相关和回归(一般考点)一、直线相关分析的用途、相关系数及其意义相关分析是研究事物或现象之间有无关系、关系的方向和密切水平.相关系数:是定量暗示两个变量(X,Y)之间线性关系的方向和密切水平的指标,用r暗示,r=lxy/,其值在1至+1间,r 没有单元.r呈正值,两变量间呈正相关,即两者的变动趋势是同向的,r=1时为完全正相关;如r呈负值,两变量呈负相关,即两者的变动趋势是反向的,r=1时为完全负相关.r的绝对值越接近1,两变量间线性相关越密切;越接近于0,相关越不密切.当r=0时,说明X和Y两个变量之间无直线关系.二、直线回归分析的作用、回归系数及其意义直线回归分析的任务在于找出两个变量有依存关系的直线方程,以确定一条最接近于各实测点的直线,使各实测点与该线的纵向距离的平方和为最小.这个方程称为直线回归方程,据此方程描绘的直线就是回归直线.直线同归方程式的一般表达式Y=a+bX式中a为回归直线在Y轴上的截距,即a>0暗示直线与Y轴的交点在原点上方,<0在原点下方,a=0过原点.b为样本回归系数,即回归直线的斜率,暗示当X变动一个单元时,Y平均变动b个单元.b>0:暗示Y随X增年夜而增年夜b<0:暗示Y随X增年夜而减少b=0:暗示Y不随X变动而变动第七节统计表和统计图(重要考点)一、统计表原则:结构简单、条理分明、内容安插合理、重点突出、数据准确.1.题目简练表达表的中心内容,位置在表的上方.2.标目有横标和纵标目,横标目通常位于表内左侧;纵标目列在表内上方,其表达结果与主辞呼应.3.线条力求简洁,一般为三线表.4.用阿拉伯数暗示,如无数据或暂缺资料,也可用“”或“…”来暗示.5.备注一般不列入表内,解释在表下.内容排列:一般按事物发生频率年夜小顺序来排列,比较鲜明,重点突出.二、统计图1.线图(line diagram)(常考!)资料性质:适用于连续变量资料.分析目的:用线段的升降表达某事物的静态(差值)变动.2.半对数线图(semilogarithmic line graph)资料性质:适用于连续变量资料.分析目的:用线段的升降表达事物的发展速度变动趋势.3.直方图(histogram)资料性质:适用于数值变量,连续性资料的频数表资料.分析目的:直方图是以直方面积表达各组段的频数或频率.4.直条图(bar chart)资料性质:适用于彼此自力的资料.分析目的:直条图是用等宽直条的和长短来暗示各统计量的年夜小,进行比力.5.百分条图(percentchart)资料性质:构成比.分析目的:用长条各段的长度(面积)表达内部构成比.6.圆形图(circulargraph)(常考!)资料性质:构成比.分析目的:用圆的扇形面积表达内部构成比.7.散点图(scatterdiagram)资料性质:双变量资料.分析目的:用点的密集度和趋势表达两变量间的相关关系.8.统计舆图(statistical map)资料性质:地区性资料.分析目的:用分歧纹线或颜色代表指标高低,说明地区分布.。