第三章 调查数据的描述分析资料讲解
- 格式:doc
- 大小:442.00 KB
- 文档页数:19
数据的描述与统计分析数据是信息时代的重要组成部分,其描述与统计分析对于各行各业都具有重要的意义。
通过对数据的描述,我们可以准确地了解数据的特征和规律,而统计分析则可以帮助我们发现数据之间的关系和趋势。
本文将介绍数据的描述方法以及常见的统计分析技术。
一、数据的描述数据的描述是对数据进行客观、准确、全面的表述,旨在通过描述数据的特征和规律来帮助我们更好地理解数据。
以下是几种常见的数据描述方法:1. 描述性统计:描述性统计是对数据进行总结和概括的统计方法。
常见的描述性统计指标包括均值、中位数、众数、标准差等。
通过这些指标,我们可以了解数据的集中趋势、离散程度等重要特征。
2. 绘图:绘图是一种直观、形象的数据描述方法。
常见的绘图方法包括直方图、折线图、散点图等。
通过图形化展示数据,我们可以更直观地了解数据的分布、趋势和异常值等情况。
3. 呈现数据表格:数据表格是一种对数据进行系统化整理和组织的方法。
通过数据表格,我们可以清晰地呈现数据的各个变量,并进行比较、分析等操作。
二、统计分析统计分析是对数据进行概括和解释的过程,旨在揭示数据之间的关系和趋势。
以下是几种常见的统计分析技术:1. 相关分析:相关分析用于研究两个或多个变量之间的关系。
通过计算相关系数,我们可以衡量变量之间的相关程度,并判断其相关性的方向和强弱。
2. 回归分析:回归分析是一种研究因果关系的统计方法。
通过建立回归模型,我们可以揭示自变量对因变量的影响,并进行预测和解释。
3. 方差分析:方差分析用于比较多个样本之间均值的差异。
通过方差分析,我们可以确定样本之间是否存在显著差异,并进一步分析差异的原因。
4. t检验:t检验用于比较两个样本均值的差异是否显著。
它可以帮助我们判断两个样本是否来自同一总体,并进行假设检验。
5. 交叉分析:交叉分析是一种同时考虑两个或多个变量的统计方法。
通过交叉分析,我们可以研究变量之间是否存在相互影响或交互作用。
三、总结数据的描述与统计分析是理解和应用数据的重要环节。
第三章描述性研究一、教学大纲要求掌握:现况研究的概念与目的;普查的概念、目的及优缺点;抽样调查的方法;筛检的概念及筛检试验的评价指标。
熟悉:抽样调查估计样本大小的原则;现况研究中常见偏倚及其防止;筛检的应用原则。
了解:抽样调查估计样本大小的公式;生态学研究的概念、研究方法及应用。
二、教学大纲精要描述性研究是流行病学研究的基本步骤,常可通过对疾病和健康状态的分布特征的描述,获得有关病因假设的启发。
㈠现况研究1.概念:是按事先设计的要求在某一人群中应用普查和抽样调查的方法搜集特定时间内疾病的描述性资料,以描述疾病的分布及观察某些因素与疾病之间的关联。
亦称横断面调查或患病率调查。
2.目的:⑴描述疾病或健康状况的三间分布情况,从而发现高危人群及防制的重点疾病,为疾病的防制提供依据。
⑵描述某些因素与疾病或健康状况之间的关联,以逐步建立病因假设。
⑶为评价防制措施及其效果提供有价值的信息。
⑷为疾病的监测或其他类型流行病学研究提供基础。
3.种类⑴普查:是在一定时间内对一定范围内的人群中每一成员所作的调查或检查。
1)普查时必备的条件2)普查的目的3)普查的优缺点⑵抽样调查:用有代表性的样本的调查结果估计出该人群某病的患病率或某些特征的情况的调查方法。
1)抽样方法:①单纯随机抽样②系统抽样③分层抽样④整群抽样⑤多级抽样2)样本大小取决于①对调查结果精确性的要求高低②预期现患率或阳性率的高低3)样品大小的估计公式n= 4s2/d2①计量资料n-样本量s-总体标准差的估计值d-容许误差②计数资料n= 400*Q/pP-总体率的估计值Q=1-P4.现况研究中常见的偏倚及防止5.(1)常见的偏倚1)选择偏倚:①选择性偏倚②幸存者偏倚③无应答偏倚2)信息偏倚:①调查对象引起的偏倚②调查员偏倚③测量偏倚⑵防止偏倚的措施:①抽样遵守随机化原则②提高受检率③选用不易产生偏差的仪器、设备④培训调查员、开展互相监督和服查工作㈡筛检1、定义:是用快速检验方法主动地自人群中发现无症状病人的措施,以便早期发现、早期诊断及早期治疗病人。
第三章+数据分布特征的描述(教案)第三章数据分布特征的描述(一)教学目的通过本章的自学,并使同学们正确理解各种指标的概念及计算方法,学会运用适当的统计数据指标对数据的原产特征展开分析表明。
(二)基本要求并使学生熟练掌握数据分布特征的叙述方法。
(三)教学要点1、集中趋势的测度指标及其计算方法;2、离散趋势的测度指标及其计算方法;3、总体分布的偏度与峰度的测度。
(四)教学时数9――10课时(五)学习内容本章共分三节:第一节数据分布分散趋势的测量一、定类数据集中趋势的测度――众数(mode)(一)概念要点众数就是指一组数据中发生次数最少的变量值,用mo表示。
从变量分布的角度看,众数就是具备显著分散趋势点的数值,一组数据分布的最高峰点所对应的数值即为为众数。
当然,如果数据的原产没显著的分散趋势或最高峰点,众数也可以不存有;如果存有多个高峰点,也就存有多个众数。
1.集中趋势的测度值之一2.出现次数最多的变量值3.不受极端值的影响4.可能将没众数或存有几个众数5.主要用于定类数据,也可用于定序数据和数值型数据众数的不唯一性:并无众数原始数据:10591268一个众数原始数据:659855多于一个众数原始数据:252828364242(二)众数的排序根据未分组数据或单变量值分组数据计算众数时,我们只需找出出现次数最多的变量值即为众数。
对于组距分组数据,众数的数值与其相邻两组的频数分布有一定的关系,这种关系可作如下的理解:设众数组的频数为fm,众数前一组的频数为f?1,众数后一组的频数为f?1。
当众数相连两组的频数成正比时,即f?1=f?1,众数组的组中值即为众数;当众数组的前一组的频数多于众数组后一组的频数时,即f?1>f?1,则众数可以向其前一组依靠,众数大于其组中值;当众数组后一组的频数多于众数组前一组的频数时,即f?1<f?1,则众数可以向其后一组依靠,1众数大于其组中值。
基于这种思路,借助几何图形而求出的分组数据众数的计算公式如下:下限公式:mo?l?下限公式:fm?f?1??d?l?1?d(fm?f?1)?(fm?f?1)?1??2(3.1)fm?f?1??d?u?2?d(fm?f?1)?(fm?f?1)?1??2(3.2)mo?u?式中:l表示众数所在组的下限;u表示众数所在组的上限;d表示众数所在组的组距。
第三章调查数据的描述分析第三章调查数据的描述分析对整理后的调查数据进行统计分析,首先是认识数据的特征。
由于指标是描述总体数量特征的具体表现,故调查数据特征的认识表现为指标的设计与计算。
设计什么样的指标取决于所要认识的数据特征。
本章讨论的数据特征主要有三个方面,即数据间的数量关系特征、数据分布的集中趋势特征和离中趋势特征,相应地,设计的指标有三类,分别为相对指标、平均指标和变异程度指标。
这些指标的计算和运用构成了本章的主要内容。
第一节相对指标分析一、相对指标的概念与作用将两个有联系的数据值进行对比形成的相对数,称为相对指标,它反映着事物内部或事物间的数量关系特征。
例如:将实际完成的数值与计划任务数值对比,可反映计划执行的进度和完成的程度;将不同时间上的同类数据值对比,可反映现象变化的快慢程度,等等。
相对指标通过对比不同数据值,将现象总体数量上的绝对差异抽象化,从而使那些由于规模不同,条件不同,无法直接对比的现象找到可比较的基础,化不可比为可比。
从这个意义上讲,相对指标在统计分析中的运用主要表现在比较分析中。
多数相对指标采用无名数如系数、倍数、成数、百分数、千分数等表示;但也有相对指标采用名数表示,如流动资金周转率指标用“次”表示。
二、常用相对指标及其计算方法(一)反映数据结构特征的相对指标仅供学习与交流,如有侵权请联系网站删除谢谢44仅供学习与交流,如有侵权请联系网站删除 谢谢451.结构相对指标结构相对指标,是总体的部分数值与总体全部数值的比值,需在数据值分组的基础上计算,通常又称为比重,习惯用百分数表示。
其计算公式为:%100⨯=总体的全部数值总体的各组数值结构相对指标【例3.1】某一项城市住房问题的研究中,调查数据值统计整理如表3-1所示:表3-1 甲城市家庭对住房状况的评价在调查数据的分析中,结构相对指标除了能够反映总体内部的结构状态特征,揭示事物的性质外,还可用来说明总体中各个部分对总体的影响程度,即可以用来寻找主要影响因素。
2.比例相对指标比例相对指标,是同一总体内某一部分数值与另一部分数值的比值,也是在数据分组的基础上计算。
如果说结构相对指标反映的是部分与整体的数量关系,那么,比例相对指标反映的则是部分与部分间的数量关系。
比例相对指标的计算公式为:总体中另一部分数值总体中某一部分数值比例相对指标=仅供学习与交流,如有侵权请联系网站删除 谢谢46比例相对指标既可用百分数表示,也可用一比几或几比几的形式表示。
若总体中多于两个部分对比,通常采用连比的形式来表现,如a:b:c 。
在调查数据的分析中,比例相对指标主要用于对具有结构规律的现象进行探索性分析以及评价各种比例关系是否协调。
(二)用于比较分析的相对指标 1.比较相对指标比较相对指标,是同一时间上不同总体的某一项指标对比的结果,它反映同类现象变化的均衡与否。
其计算公式为:另一总体的该项指标值某总体的某项指标值比较相对指标=比较相对指标通常用系数或倍数表示。
【例3.2】2003年甲市和乙市的城镇居民人均消费支出分别为10284.6元和10464.0元,则可得017.16.102840.10464=说明乙市的人均消费是甲市的1.017倍。
在调查数据的分析中,运用比较相对指标的分析,俗称横向比较分析。
它有助于揭露矛盾,找出差剧,挖掘潜力,促进事物进一步发展。
2.动态相对指标动态相对指标,是某一指标同空间、不同时间上的数值对比的结果,用来反映同一现象在时间上的变化快慢程度,又称为发展速度。
其计算公式为:%100⨯=基期水平值报告期水平值动态相对指标公式中,基期水平值是比较的标准,报告期是观察研究的时期。
【例3.3】某企业2000年的总产值为82067万元,2003年为89404万元,则2003年总产值的发展速度为:仅供学习与交流,如有侵权请联系网站删除 谢谢47总产值的发展速度89404100%108.94%82067=⨯= 说明2003年的总产值为2000年的108.94%,增长了8.94%。
在调查数据的分析中,动态相对指标用于反映现象动态变化的数量特征,所进行的分析俗称纵向比较分析。
(三)计划完成程度相对指标计划完成程度相对指标,是某一时期实际完成的数值与该期计划数值的比值,一般用百分数表示,专门用来考核一项计划完成的情况。
其基本计算公式为:%100⨯=计划数值实际完成的数值计划完成程度由于现象的不同特点,人们在制定计划时,有的以总量指标值和平均指标值作计划数值,有的则以相对指标值作计划数值;又由于不同表现形式的数值具有不同的特点,这些导致计划完成程度相对指标的计算方法不尽相同。
下面结合例子分述如下:1.计划数值为总量指标值和平均指标值 【例3.4】设某企业2004年第一季度A 产品计划产量为200台,实际为240台,则2004年第一季度A 产品产量计划完成程度为:计划完成程度相对指标240100%120%200=⨯=说明该企业A 产品产量计划完成了,超额完成计划20%。
【例3.5】设某企业2004年第一季度A 产品计划单位成本为650元/台,计划执行结果表明,实际为630元/台,则2004年第一季度A 产品单位成本计划完成程度为:计划完成程度相对指标630100%96.9%650=⨯=说明该企业A 产品单位成本计划完成了,超额完成计划3.1%。
仅供学习与交流,如有侵权请联系网站删除 谢谢48归纳以上两例,得一般计算公式为:相对指标计划完成程度()()%100⨯=平均指标值计划总量指标值平均指标值实际完成的总量指标值 还可知,对指标值越大越好的计划,计划完成程度不小于100%为完成计划,而对指标值越小越好的计划,计划完成程度不大于100%为完成计划。
2.计划数值为相对指标值 【例3.6】某企业劳动生产率计划规定2003年比2002年提高5%,实际提高8.5%,问企业劳动生产率计划的完成情况如何?这个问题的解答有两种方式。
方式一:以报告期的计划为考核标准,计算公式为:计划变化率实际变化率计划完成程度±±=11本例中,劳动生产率计划完成程度18.5%100%103.33%15%+=⨯=+计算结果表明,2003年劳动生产率提高计划完成,超额完成了3.33%。
方式二:以基期水平为考核标准,计算公式为:计划完成程度=报告期实际变化率-报告期计划变化率 本例中,劳动生产率计划完成程度 = 8.5%-5% = 3.5(百分点)计算结果表明,在2002年的基础上,2003年劳动生产率实际比其计划多提高了3.5个百分点,2003年劳动生产率计划完成。
方式一的计算特点是包括基数在内,不能直接用报告期的变化率对比来说明计划的完成情况;方式二的特点在于报告期实际与计划变化率的差额为正,表示计划完成,差额为负,表示计划没有完成,而且差额不能用百分数表述,而要用百分点表述。
三、计算和运用相对指标分析时应注意的问题 1.分子数值与分母数值必须具备可比性仅供学习与交流,如有侵权请联系网站删除 谢谢49相对指标分析用的是对比的方法,揭示的是现象间的联系程度,反映的是现象间的差异程度。
对比,当然应具有可比性,否则,必然会歪曲事实,导致判断错误。
分子与分母数值的可比性一般包括:计算内容、计算方法、计算范围、计算价格等。
2.相对指标与绝对指标结合运用相对指标在用对比的方法揭示现象间数量关系的同时,因抽象掉了现象的绝对水平,故反映不出现象间绝对量上的差异;绝对指标虽可反映现象的绝对水平,但又不能反映出现象间的联系及数量关系。
因此,应将相对指标与绝对指标结合起来运用。
在对数据作对比分析时,既要看到现象的变化程度,又要看到这一变化程度下的绝对水平差异,从而深刻认识现象变化的实质。
第二节 集中趋势分析一组数据的集中趋势指的是该组数据值的平均水平。
一组数据各不相等乃个性使然,抹杀个性方能表现共性,也就是说,消除数据间的具体差别才能得到平均值。
在调查数据的分析中,常用平均值描述一组数据的共性(集中趋势)。
平均值是一个代表性数值。
平均的实质在于消除差别。
如何消除数据间的数量差别?这既要考虑平均值是否敏感于数据中的极端值,即耐抗性问题,又要考虑各个数据值作为个量与其总量间的数量关系问题,故可将平均方法作如下分类。
一、数值平均法数值平均法是就一组数据中所有数据值进行平均的方法。
其优点是,数据信息利用得充分;缺点是,该组数据中若存在极端值,则平均值将会受其平均方法算术平均法 几何平均法众数法 分位数法(加法模式) (乘法模式)仅供学习与交流,如有侵权请联系网站删除 谢谢50影响,从而失真,即耐抗性不好。
一笔钱存入银行,存期五年且年利息率不同。
若按单利计算利息,则各年的年利率与五年间的总年利率是和的关系,即个量与其总量呈加法模式,此情境下,算术平均法或调和平均法与年平均利率相匹配;若按复利计算利息,则各年的年利率与五年间的总年利率是乘积的关系,即个量与其总量呈乘法模式,此情境下,几何平均法与年平均利率相匹配,故数值平均法又分算术平均法、调和平均法与几何平均法。
1.算术平均法【例3.7】 设某市2002年城市住户抽样调查资料如表3-2所示:根据表3-2数据,计算平均每户月收入如下:=总收入户均月收入总户数350406509095011012501051550701850502150354090110105705035⨯+⨯+⨯+⨯+⨯+⨯+⨯=++++++=5845001169500=(元) 由上例的计算,不难抽象出算术平均值的一般计算公式:仅供学习与交流,如有侵权请联系网站删除 谢谢51112212(3.1)n n n x f x f x f xfx f f f f+++∑==+++∑将3.1式改写为:1212nnf f f x x x x f ff=+++∑∑∑ 即()(3.2)f x xf=∑∑(3.2)由3.1及3.2式可知,算术平均值的大小受两个因素的影响:其一是组变量值水平(x );其二是组变量值所对应的组次数(f )或组次数所占比重()ff∑。
由于组次数的多少或组次数所占比重的大小能衡量相对应的组变量值对平均值的影响程度,即起着权衡轻重的作用,故理论上将组次数或组次数所占比重称为权数。
权数有两种数值表现形式,一是绝对数形式(f ),二是相对数形式()ff∑,但权数的实质为相对数,即权数对平均值大小的影响不取决于其绝对数的多少,而取决于其所占比重的大小。
考虑到数据分组后的一种极端情形:12n f f f ===3.1式变为x x n∑=(3.3)其中:n 为数据个数。
3.3式告诉我们:平均值的大小只受一个因素——组变量值(x )的影响,且为3.1式的一个特例。
至此,我们可以给算术平均值下定义了。
仅供学习与交流,如有侵权请联系网站删除 谢谢52一组数据值和与该组数据值个数的比值称为算术平均值。