第三章 调查数据的描述分析
- 格式:doc
- 大小:514.00 KB
- 文档页数:17
第三章描述性研究一、教学大纲要求掌握:现况研究的概念与目的;普查的概念、目的及优缺点;抽样调查的方法;筛检的概念及筛检试验的评价指标。
熟悉:抽样调查估计样本大小的原则;现况研究中常见偏倚及其防止;筛检的应用原则。
了解:抽样调查估计样本大小的公式;生态学研究的概念、研究方法及应用。
二、教学大纲精要描述性研究是流行病学研究的基本步骤,常可通过对疾病和健康状态的分布特征的描述,获得有关病因假设的启发。
㈠现况研究1.概念:是按事先设计的要求在某一人群中应用普查和抽样调查的方法搜集特定时间内疾病的描述性资料,以描述疾病的分布及观察某些因素与疾病之间的关联。
亦称横断面调查或患病率调查。
2.目的:⑴描述疾病或健康状况的三间分布情况,从而发现高危人群及防制的重点疾病,为疾病的防制提供依据。
⑵描述某些因素与疾病或健康状况之间的关联,以逐步建立病因假设。
⑶为评价防制措施及其效果提供有价值的信息。
⑷为疾病的监测或其他类型流行病学研究提供基础。
3.种类⑴普查:是在一定时间内对一定范围内的人群中每一成员所作的调查或检查。
1)普查时必备的条件2)普查的目的3)普查的优缺点⑵抽样调查:用有代表性的样本的调查结果估计出该人群某病的患病率或某些特征的情况的调查方法。
1)抽样方法:①单纯随机抽样②系统抽样③分层抽样④整群抽样⑤多级抽样2)样本大小取决于①对调查结果精确性的要求高低②预期现患率或阳性率的高低3)样品大小的估计公式n= 4s2/d2①计量资料n-样本量s-总体标准差的估计值d-容许误差②计数资料n= 400*Q/pP-总体率的估计值Q=1-P4.现况研究中常见的偏倚及防止5.(1)常见的偏倚1)选择性偏倚:①选择性偏倚②幸存者偏倚③无应答偏倚2)信息偏倚:①调查对象引起的偏倚②调查员偏倚③测量偏倚⑵防止偏倚的措施:①抽样遵守随机化原则②提高受检率③选用不易产生偏差的仪器、设备④培训调查员、开展互相监督和服查工作㈡筛检1、定义:是用快速检验方法主动地自人群中发现无症状病人的措施,以便早期发现、早期诊断及早期治疗病人。
第三章描述性研究描述性研究(descriptive study)又称描述流行病学。
描述性研究利用已有的资料或对专门调查的资料,按不同地区、不同时间及不同人群特征分组,把疾病或健康状态的分布情况真实地描绘、叙述出来。
描述性研究在揭示因果关系的探索过程中是最基础的步骤,可以说,对任何因果关系的确定,无不始于描述性研究。
例如,当对某病的情况了解不多的时候,往往总是从描述性研究着手,取得该病的分布特征,从而获得有关的研究假设的启发,进而逐步建立研究假设,为分析性研究提供线索。
描述性研究中,除现况研究外,尚包括筛检、生态学研究等方法。
第一节现况研究概述一、概念现况研究是研究特定时点或时期与特定范围内人群中的有关变量(因素)与疾病或健康状况的关系,即是调查这个特定的群体中的个体是否患病和是否具有某些变量或特征的情况,从而探索具有不同特征的暴露与非暴露组的患病情况或是否患病组的暴露情况。
由于所收集的资料一般不是过去的暴露史或疾病情况,也不是通过追踪观察将来的暴露与疾病情况,故又称为横断面研究(cross-sectional study)。
由于这种研究所得到的疾病率,一般为在特定时点或时期与范围内该群体的患病频率,故也称之为患病率研究(prevalence study)。
二、现况研究的目的(一)掌握目标群体中疾病的患病率及其分布状态通过现况研究来揭示目标群体中某病的患病率,以及在不同人群特征上的分布状态是这类研究最常见的用途。
对此经常采用的方法是抽样调查。
例如,若要掌握某个区域内目前居民的酒精性肝病的患病情况,则可通过某种抽样技术,从这个区域的人群(目标人群或总体)中,随机地选取足够数量的合格的研究对象(样本),对此逐个进行酒精性肝病的调查和检测,并同时收集有关的研究因素,诸如,是否饮酒及其程度、性别、年龄、职业,等等,然后分析求得按不同研究因素分组(类)的酒精性肝病的患病率水平。
(二)提供疾病的致病因素的线索任何一个病因未明的疾病,其病因的最终揭示无不始于描述性研究。
分析数据的方法数据分析是现代社会中非常重要的一项工作,它可以帮助我们更好地理解和利用各种数据,从而做出更明智的决策。
在进行数据分析时,我们需要掌握一些有效的方法和技巧,下面将介绍几种常用的数据分析方法。
首先,我们可以使用描述性统计分析方法来对数据进行描述和总结。
描述性统计分析可以帮助我们了解数据的分布情况、中心趋势和离散程度,常用的描述性统计指标包括均值、中位数、标准差、最大最小值等。
通过描述性统计分析,我们可以对数据的基本特征有一个直观的认识,为进一步分析奠定基础。
其次,我们可以使用相关性分析方法来研究不同变量之间的关系。
相关性分析可以帮助我们了解变量之间的相关程度和相关方向,常用的相关性分析方法包括皮尔逊相关系数、斯皮尔曼相关系数等。
通过相关性分析,我们可以发现变量之间的潜在关联,为后续的建模和预测提供依据。
另外,回归分析是一种常用的数据分析方法,它可以帮助我们探究自变量和因变量之间的函数关系。
回归分析可以帮助我们预测因变量的取值,并研究自变量对因变量的影响程度,常用的回归分析方法包括线性回归、逻辑回归等。
通过回归分析,我们可以建立模型来解释和预测数据,为决策提供支持。
此外,聚类分析是一种用于发现数据内在结构的方法,它可以帮助我们将数据划分为不同的类别或簇。
聚类分析可以帮助我们发现数据中的隐藏模式和规律,常用的聚类分析方法包括K均值聚类、层次聚类等。
通过聚类分析,我们可以将数据进行分类,为个性化推荐、市场细分等提供支持。
最后,我们还可以使用时间序列分析方法来研究时间序列数据的规律和趋势。
时间序列分析可以帮助我们预测未来的趋势和变化,常用的时间序列分析方法包括移动平均法、指数平滑法、ARIMA模型等。
通过时间序列分析,我们可以发现数据中的周期性、趋势性等规律,为未来的规划和决策提供支持。
综上所述,数据分析是一项复杂而又重要的工作,我们需要掌握多种数据分析方法来应对不同的情况。
希望以上介绍的几种数据分析方法能够为大家在实际工作中提供一些帮助,也希望大家在数据分析过程中能够灵活运用这些方法,发现数据中的价值和规律。
第三章描述性研究一、教学大纲要求掌握:现况研究的概念与目的;普查的概念、目的及优缺点;抽样调查的方法;筛检的概念及筛检试验的评价指标。
熟悉:抽样调查估计样本大小的原则;现况研究中常见偏倚及其防止;筛检的应用原则。
了解:抽样调查估计样本大小的公式;生态学研究的概念、研究方法及应用。
二、教学大纲精要描述性研究是流行病学研究的基本步骤,常可通过对疾病和健康状态的分布特征的描述,获得有关病因假设的启发。
㈠现况研究1.概念:是按事先设计的要求在某一人群中应用普查和抽样调查的方法搜集特定时间内疾病的描述性资料,以描述疾病的分布及观察某些因素与疾病之间的关联。
亦称横断面调查或患病率调查。
2.目的:⑴描述疾病或健康状况的三间分布情况,从而发现高危人群及防制的重点疾病,为疾病的防制提供依据。
⑵描述某些因素与疾病或健康状况之间的关联,以逐步建立病因假设。
⑶为评价防制措施及其效果提供有价值的信息。
⑷为疾病的监测或其他类型流行病学研究提供基础。
3.种类⑴普查:是在一定时间内对一定范围内的人群中每一成员所作的调查或检查。
1)普查时必备的条件2)普查的目的3)普查的优缺点⑵抽样调查:用有代表性的样本的调查结果估计出该人群某病的患病率或某些特征的情况的调查方法。
1)抽样方法:①单纯随机抽样②系统抽样③分层抽样④整群抽样⑤多级抽样2)样本大小取决于①对调查结果精确性的要求高低②预期现患率或阳性率的高低3)样品大小的估计公式n= 4s2/d2①计量资料n-样本量s-总体标准差的估计值d-容许误差②计数资料n= 400*Q/pP-总体率的估计值Q=1-P4.现况研究中常见的偏倚及防止5.(1)常见的偏倚1)选择偏倚:①选择性偏倚②幸存者偏倚③无应答偏倚2)信息偏倚:①调查对象引起的偏倚②调查员偏倚③测量偏倚⑵防止偏倚的措施:①抽样遵守随机化原则②提高受检率③选用不易产生偏差的仪器、设备④培训调查员、开展互相监督和服查工作㈡筛检1、定义:是用快速检验方法主动地自人群中发现无症状病人的措施,以便早期发现、早期诊断及早期治疗病人。
1、解释描述统计和推断统计(练习卷答案)(1)描述统计是研究数据收集、处理、汇总、图表描述、概括与分析等统计方法,内容有收集数据、整理数据、展示数据、描述性分析。
(2)推断统计是研究如何利用样本数据来推断总体特征的统计学方法、包含参数估计、假设检验。
2、统计数据可分为哪几种类型?不同类型的数据各有什么特点?按照所采用的计量尺度不同,可以将统计数据分为分类数据、顺序数据和数值型数据特点:分类数据是只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,是用文字来表述的。
顺序数据是只能归于某一有序类别的非数字型数据。
顺序数据虽然也是类别,但这些类别是有序的。
数值型数据是按数字尺度测量的观察值,其结果表现为具体的数值。
现实中所处理的大多数是数值型数据。
按照统计数据的收集方法,可以将其分为观测数据和实验数据。
特点:观测数据是通过调查或观测而收集到的数据,这类数据是在没有对事物人为控制条件下得到的,有关社会经济现象的统计数据几乎都是观测数据。
实验数据则是在实验中控制实验对象而收集到的数据。
自然科学领域的大多数数据都为实验数据。
按照被描述的现象与时间关系,可以将其分为截面数据和时间序列数据。
特点:截面数据是在相同或近似相同的时间点上收集的数据,这类数据通常是在不同空间上获得的,用来描述现象在某一时刻的变化情况。
时间序列数据是在不同时间收集到的数据,这列数据是按时间顺序收集得到的,用于所描述现象随时间变化的情况。
3、解释分类数据、顺序数据和数值型数据的含义。
分类数据是只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,是用文字来表述的。
顺序数据是只能归于某一有序类别的非数字型数据。
顺序数据虽然也是类别,但这些类别是有序的。
数值型数据是按数字尺度测量的观察值,其结果表现为具体的数值。
现实中所处理的大多数是数值型数据。
4、变量可分为哪几类?分类变量(是说明事物类别的一个名称,其取值是分类数据)顺序变量(是说明事物有序类别的一个名称,其取值是顺序数据)数值型变量(是说明事物数字特征的一个名称,其取值是数值型数据)可分为离散型变量(只能取可数值的变量,它只能取有限个值而且其取值都以整位数断开,可以一一列举)、连续型变量(可以在一个或多个区间中取任何值的变量,它的取值是连续不断的,不能一一列举)第二章:数据的搜集1、比较概率抽样和非概率抽样的特点。
调查数据分析在当今数字化时代,数据已经成为各个行业的核心资源。
随着互联网的快速发展,越来越多的企业和组织开始注意采集、存储和分析数据,以从中获取有价值的信息和洞察力。
调查数据分析是一种广泛使用的方法,通过对收集的数据进行系统性的分析,揭示数据背后的意义和规律。
调查数据分析通常涉及以下几个步骤:1. 设计调查问卷:在进行调查之前,研究人员需要设计一个有效的调查问卷。
问卷设计的质量直接影响到后续数据分析的准确性和可靠性。
因此,在设计过程中,需要注意问题的明确性、适度性和无偏性。
2. 数据收集:一旦问卷设计完成,研究人员就可以开始收集数据。
数据收集可以通过多种方式进行,如在线调查、面对面访谈、电话调查等。
在这一过程中,确保数据采集的准确性和完整性是非常重要的。
3. 数据清洗和整理:在收集到数据后,研究人员需要对原始数据进行清洗和整理。
这意味着检查数据的完整性和准确性,并修复任何错误或缺失的数据。
此外,还需要将数据整理成适合分析的格式。
4. 数据分析方法选择:根据研究问题的性质和数据的特点,研究人员可以选择合适的数据分析方法。
常用的数据分析方法包括描述性统计分析、推论统计分析、回归分析、因子分析等。
研究人员需要根据具体情况选择合适的方法来解决问题。
5. 数据分析和结果解释:一旦选定了合适的数据分析方法,研究人员就可以开始对数据进行分析并得出结论。
数据分析可以帮助研究人员发现数据中的模式、趋势和关联关系。
根据分析结果,研究人员可以对调查问题进行解释并得出结论。
调查数据分析在许多领域中都有广泛应用。
在市场调研中,通过对潜在消费者进行调查,并分析调查数据,可以了解消费者的需求和喜好,从而指导产品和营销策略的制定。
在医学研究中,通过对大量病例数据进行调查和分析,可以帮助医生和医疗机构改善诊断和治疗方法,提高患者的生活质量。
在社会学研究中,调查数据分析可以用来研究人们的行为和态度。
通过对较大样本的调查数据进行分析,社会学家可以洞察社会问题的根源,并提出改进措施。
调查数据报告分析
在进行数据分析和撰写调查数据报告时,一种系统性的方法是至关重要的。
通过清晰地描述数据收集过程、分析方法和结论,可以确保报告的准确性和可信度。
下面将介绍一种常用的写作方法,以供参考。
1. 简介
•在报告的开始部分,应该简要介绍调查的背景和目的。
描述研究对象以及调查所涉及的变量和假设。
2. 数据收集
•在这一部分,为读者提供关于数据来源、样本选择和调查设计的详细信息。
这有助于读者评估数据的可靠性和适用性。
3. 数据分析方法
•描述数据的处理和分析过程,例如数据清洗、变量转换和统计方法的选择。
确保解释清楚每个步骤的目的和意义。
4. 结果分析
•在这一部分,报告调查结果的主要发现和结论。
使用图表和统计数据来支持你的观点,并确保结果与研究问题相关联。
5. 结论
•总结报告的主要发现,并讨论对研究领域的意义。
提出可能的建议或未来研究方向,以便读者能够进一步思考调查的影响。
6. 参考文献
•最后,列出在报告中引用的参考文献,以便读者查阅相关资料。
通过以上方法,可以清晰、系统地撰写调查数据报告分析,让读者更容易理解研究的目的和结论。
持续练习和反馈可以帮助提升数据分析和写作的水平,让每一份报告都更加完喲。
第三章调查数据的描述分析对整理后的调查数据进行统计分析,首先是认识数据的特征。
由于指标是描述总体数量特征的具体表现,故调查数据特征的认识表现为指标的设计与计算。
设计什么样的指标取决于所要认识的数据特征。
本章讨论的数据特征主要有三个方面,即数据间的数量关系特征、数据分布的集中趋势特征和离中趋势特征,相应地,设计的指标有三类,分别为相对指标、平均指标和变异程度指标。
这些指标的计算和运用构成了本章的主要内容。
第一节相对指标分析一、相对指标的概念与作用将两个有联系的数据值进行对比形成的相对数,称为相对指标,它反映着事物内部或事物间的数量关系特征。
例如:将实际完成的数值与计划任务数值对比,可反映计划执行的进度和完成的程度;将不同时间上的同类数据值对比,可反映现象变化的快慢程度,等等。
>相对指标通过对比不同数据值,将现象总体数量上的绝对差异抽象化,从而使那些由于规模不同,条件不同,无法直接对比的现象找到可比较的基础,化不可比为可比。
从这个意义上讲,相对指标在统计分析中的运用主要表现在比较分析中。
多数相对指标采用无名数如系数、倍数、成数、百分数、千分数等表示;但也有相对指标采用名数表示,如流动资金周转率指标用“次”表示。
二、常用相对指标及其计算方法(一)反映数据结构特征的相对指标1.结构相对指标结构相对指标,是总体的部分数值与总体全部数值的比值,需在数据值分组的基础上计算,通常又称为比重,习惯用百分数表示。
其计算公式为:%100⨯=总体的全部数值总体的各组数值结构相对指标【例】某一项城市住房问题的研究中,调查数据值统计整理如表3-1所示: 表3-1 甲城市家庭对住房状况的评价应该注意到,同一总体各组的结构相对数值之和等于100%。
在调查数据的分析中,结构相对指标除了能够反映总体内部的结构状态特征,揭示事物的性质外,还可用来说明总体中各个部分对总体的影响程度,即可以用来寻找主要影响因素。
(2.比例相对指标比例相对指标,是同一总体内某一部分数值与另一部分数值的比值,也是在数据分组的基础上计算。
如果说结构相对指标反映的是部分与整体的数量关系,那么,比例相对指标反映的则是部分与部分间的数量关系。
比例相对指标的计算公式为:总体中另一部分数值总体中某一部分数值比例相对指标=比例相对指标既可用百分数表示,也可用一比几或几比几的形式表示。
若总体中多于两个部分对比,通常采用连比的形式来表现,如a:b:c 。
在调查数据的分析中,比例相对指标主要用于对具有结构规律的现象进行探索性分析以及评价各种比例关系是否协调。
(二)用于比较分析的相对指标 1.比较相对指标比较相对指标,是同一时间上不同总体的某一项指标对比的结果,它反映同类现象变化的均衡与否。
其计算公式为:另一总体的该项指标值某总体的某项指标值比较相对指标=比较相对指标通常用系数或倍数表示。
)【例】2003年甲市和乙市的城镇居民人均消费支出分别为元和元,则可得017.16.102840.10464=说明乙市的人均消费是甲市的倍。
在调查数据的分析中,运用比较相对指标的分析,俗称横向比较分析。
它有助于揭露矛盾,找出差剧,挖掘潜力,促进事物进一步发展。
2.动态相对指标动态相对指标,是某一指标同空间、不同时间上的数值对比的结果,用来反映同一现象在时间上的变化快慢程度,又称为发展速度。
其计算公式为:%100⨯=基期水平值报告期水平值动态相对指标公式中,基期水平值是比较的标准,报告期是观察研究的时期。
【例】某企业2000年的总产值为82067万元,2003年为89404万元,则2003年总产值的发展速度为:总产值的发展速度89404100%108.94%82067=⨯= '说明2003年的总产值为2000年的%,增长了%。
在调查数据的分析中,动态相对指标用于反映现象动态变化的数量特征,所进行的分析俗称纵向比较分析。
(三)计划完成程度相对指标计划完成程度相对指标,是某一时期实际完成的数值与该期计划数值的比值,一般用百分数表示,专门用来考核一项计划完成的情况。
其基本计算公式为:%100⨯=计划数值实际完成的数值计划完成程度由于现象的不同特点,人们在制定计划时,有的以总量指标值和平均指标值作计划数值,有的则以相对指标值作计划数值;又由于不同表现形式的数值具有不同的特点,这些导致计划完成程度相对指标的计算方法不尽相同。
下面结合例子分述如下:1.计划数值为总量指标值和平均指标值【例】设某企业2004年第一季度A 产品计划产量为200台,实际为240台,则2004年第一季度A 产品产量计划完成程度为:计划完成程度相对指标240100%120%200=⨯=|说明该企业A 产品产量计划完成了,超额完成计划20%。
【例】设某企业2004年第一季度A 产品计划单位成本为650元/台,计划执行结果表明,实际为630元/台,则2004年第一季度A 产品单位成本计划完成程度为:计划完成程度相对指标630100%96.9%650=⨯= 说明该企业A 产品单位成本计划完成了,超额完成计划%。
归纳以上两例,得一般计算公式为:相对指标计划完成程度()()%100⨯=平均指标值计划总量指标值平均指标值实际完成的总量指标值 还可知,对指标值越大越好的计划,计划完成程度不小于100%为完成计划,而对指标值越小越好的计划,计划完成程度不大于100%为完成计划。
2.计划数值为相对指标值【例】某企业劳动生产率计划规定2003年比2002年提高5%,实际提高%,问企业劳动生产率计划的完成情况如何这个问题的解答有两种方式。
…方式一:以报告期的计划为考核标准,计算公式为:计划变化率实际变化率计划完成程度±±=11本例中,劳动生产率计划完成程度18.5%100%103.33%15%+=⨯=+计算结果表明,2003年劳动生产率提高计划完成,超额完成了%。
方式二:以基期水平为考核标准,计算公式为: 计划完成程度=报告期实际变化率-报告期计划变化率 本例中,劳动生产率计划完成程度 = %-5% = (百分点)计算结果表明,在2002年的基础上,2003年劳动生产率实际比其计划多提高了个百分点,2003年劳动生产率计划完成。
方式一的计算特点是包括基数在内,不能直接用报告期的变化率对比来说明计划的完成情况;方式二的特点在于报告期实际与计划变化率的差额为正,表示计划完成,差额为负,表示计划没有完成,而且差额不能用百分数表述,而要用百分点表述。
三、计算和运用相对指标分析时应注意的问题@1.分子数值与分母数值必须具备可比性相对指标分析用的是对比的方法,揭示的是现象间的联系程度,反映的是现象间的差异程度。
对比,当然应具有可比性,否则,必然会歪曲事实,导致判断错误。
分子与分母数值的可比性一般包括:计算内容、计算方法、计算范围、计算价格等。
2.相对指标与绝对指标结合运用相对指标在用对比的方法揭示现象间数量关系的同时,因抽象掉了现象的绝对水平,故反映不出现象间绝对量上的差异;绝对指标虽可反映现象的绝对水平,但又不能反映出现象间的联系及数量关系。
因此,应将相对指标与绝对指标结合起来运用。
在对数据作对比分析时,既要看到现象的变化程度,又要看到这一变化程度下的绝对水平差异,从而深刻认识现象变化的实质。
第二节 集中趋势分析一组数据的集中趋势指的是该组数据值的平均水平。
一组数据各不相等乃个性使然,抹杀个性方能表现共性,也就是说,消除数据间的具体差别才能得到平均值。
在调查数据的分析中,常用平均值描述一组数据的共性(集中趋势)。
平均值是一个代表性数值。
平均的实质在于消除差别。
如何消除数据间的数量差别这既要考虑平均值是否敏感于数据中的极端值,即耐抗性问题,又要考虑各个数据值作为个量与其总量间的数量关系问题,故可将平均方法作如下分类。
一、数值平均法数值平均法是就一组数据中所有数据值进行平均的方法。
其优点是,数据信息利用得充分;缺点是,该组数据中若存在极端值,则平均值将会受其影响,从而失真,即耐抗性不好。
一笔钱存入银行,存期五年且年利息率不同。
若按单利计算利息,则各年的年利率与五年间的总年利率是和的关系,即个量与其总量呈加法模式,此情境下,算术平均法或调和平均法与年平均利率相匹配;若按复利计算利息,则各年的年利率与五年间的总年利率是乘积的关系,即个量与其总量呈乘法模式,此情境下,几何平均法与年平均利率相匹配,故数值平均法又分算术平均法、调和平均法与几何平均法。
1.算术平均法…【例】 设某市2002年城市住户抽样调查资料如表3-2所示: 表3-2 某市2002年城市住户收入抽样调查资料平均方法 算术平均法#、分位数法(加法模式) (乘法模式)根据表3-2数据,计算平均每户月收入如下:《=总收入户均月收入总户数350406509095011012501051550701850502150354090110105705035⨯+⨯+⨯+⨯+⨯+⨯+⨯=++++++=5845001169500=(元) 由上例的计算,不难抽象出算术平均值的一般计算公式:112212(3.1)n n n x f x f x f xfxf f f f+++∑==+++∑将式改写为:1212nnf f f x x x x f ff=+++∑∑∑ 即()f x xf=∑∑ ()…由及式可知,算术平均值的大小受两个因素的影响:其一是组变量值水平(x );其二是组变量值所对应的组次数(f )或组次数所占比重()ff∑。
由于组次数的多少或组次数所占比重的大小能衡量相对应的组变量值对平均值的影响程度,即起着权衡轻重的作用,故理论上将组次数或组次数所占比重称为权数。
权数有两种数值表现形式,一是绝对数形式(f ),二是相对数形式()ff∑,但权数的实质为相对数,即权数对平均值大小的影响不取决于其绝对数的多少,而取决于其所占比重的大小。
考虑到数据分组后的一种极端情形:12n f f f ===即各组权数相等(相当于数据未分组),此时,式变为xx n∑=()其中:n 为数据个数。
式告诉我们:平均值的大小只受一个因素——组变量值(x )的影响,且为式的一个特例。
至此,我们可以给算术平均值下定义了。
一组数据值和与该组数据值个数的比值称为算术平均值。
分为简单平均(式)和加权平均(式、式),且简单平均为加权平均的一个特例。
数据分组则加权平均,否则简单平均。
算术平均在统计学中具有重要的地位,是数值平均的基本方法。
算术平均值有一条重要的数学性质,即各个变量值与其算术平均值的离差之和等于零,数学表达式为:()0x x ∑-= /2.调和平均法【例】一批产品从甲、乙两个市场进货,有关调查资料见表3-3。
表3-3 某批产品成交数据根据表3-3数据,计算该产品的平均进价如下:成交金额平均进价=成交数量5004009001.32500400683.31.2 1.5+===+(元)若用m 表示成交额,x 表示成交价格,H 表示平均成交价格,上式可抽象为:121212m m m H m m mx x x +∑==∑+()%显然0m ≠∑,故11H m x m=∑⋅∑上式中的1mx m ∑⋅∑为1x作变量,m 作权数的加权算术平均值,H 为该加权平均值的倒数。