第二章 单变量的统计描述分析(2)
- 格式:ppt
- 大小:970.00 KB
- 文档页数:42
第一章绪论1.统计学(statistics)是一门处理数据中变异性的科学与艺术,内容包括收集、分析、解释和表达数据,目的是求得可靠的结果。
2.▲总体(population)用来表示大同小异的对象全体,例如一个国家的所有成年人;某地的所有小学生。
可分为目标总体和研究总体。
若试图对某个总体下结论,这个总体便称为目标总体(target population);资料常来源于目标总体中的一个部分,它称为研究总体(study population)。
需要谨慎的是,就研究总体所下的结论未必适用于目标总体。
3.▲样本(sample)是指从研究总体中抽取的一部分有代表性的个体。
获取样本的过程称为抽样(sampling)。
抽样研究的目的是用样本数据推断总体的特征。
需要注意的是,统计学的结论从来就不是完全肯定或完全否定的,能不能成功地达到从样本推断总体的目的,关键是抽样的方法、样本的代表性和推断的技术。
4.▲同质(homogeneity)是指同一总体中个体的主要性质相同。
5.▲变异(variation)是指同质的个体之间存在的差异。
6.▲变量的类型二分类变量分类变量或名义变量定性变量多分类变量变量有序变量或等级变量定量变量离散型变量连续型变量变量的转化:只能由“高级”向“低级”转化,即由信息量多的向信息量少的类型转化,如:定量有序分类二值7.▲参数(parameter)是反映总体特征的指标,参数的大小是客观存在的,是一个常数,不会发生变化,然而往往是未知的,需要通过样本资料来估计,如总体均数μ,总体标准差σ。
8.▲统计量(statistic)又称样本统计量,是反映样本特征的指标,是由观察资料计算出来的,如样本均数 X,样本标准差S。
统计学的任务就是依据样本统计量来推断总体参数。
9.▲概率与频率的区别:概率是参数,频率是统计量;频率总是围绕概率上下波动。
当某事件发生的概率≤0.05时,即P≤0.05,统计学习惯上称该事件为小概率事件。
第二章常用统计参数第二章常用统计参数用参数来描述一组变量的分布特征,便于我们对数据分布状况进行更好的代表性的描述,也有利于我们更好地了解数据的特点。
常见的统计参数包括三类:集中量数、差异量数、地位量数(相对量数X相关量数。
描述统计的指标通常有五类。
第一类集中量数:用于表示数据的集中趋势,是评定一组数据是否有代表性的综合指标,比如平均数、中数、众数等。
概述[不背]第二类差异量数:用于表示数据的离散趋势,是说明一组数据分散程度的指标,比如方差、标准差、差异系数等。
第三类地位量数:是反映个体观测数据在团体中所处位置的量数,比如百分位数、百分等级和标准分数等。
第四类相关量数:用于表示数据间的相互关系,是说明数据间关联程度的指标,比如积差相关、肯德尔和谐系数、①相关等。
第五类:是反映数据的分布形状,比如偏态量和峰度等(不作介绍I第一节集中量数(一)集中量数的定义(种类、作用)[湖南12名]描述数据集中趋势的统计量数称为集中量数。
集中量数能反映大量数据向某一点集中的情况。
常用的集中量数包括算术平均数、加权平均数、几何平均数、中数、众数等等,它们的作用都是用于度量次数分布的集中趋势。
(二)算术平均数(平均数、均数)(一级)简述算术平均数的定义和优缺点。
(1)平均数的含义算术平均数可简称为平均数或均数,符号可记为M。
算术平均数即数据总和除以数据个数,即所有观察值的总和与总频数之比。
只有在为了与其他几种集中.数洞区别时,如几何平均数、调和平均数、加权平均数,才全称为算术平均数。
如果平均数是由变量计算的,就用相应的变量表示,如又匕算术平均数是用以度量连续变量次数分布集中趋势及位置的最常用的集中量数,在一组数据中如果没有极端值, 平均数就是集中趋势中最有代表性的数字指标,是真值的最佳估计值。
(2)平均数的优缺点简述算术平均数的使用特点[含优缺点]算术平均数优点①反应灵敏。
观测数据中任1可一个数值或大或小的变化,甚至细微的变化,在计算平均数时,都能反映出来。
统计学简答汇总第一章:绪论(无)第二章:定量变量的统计描述1.均数﹑几何均数和中位数的适用范围有何异同?答:相同点,均表示计量资料集中趋势的指标。
不同点:表2-5.表2-5 均数,几何均数和中位数的相异点平均数意义应用场合均数平均数量水平应用甚广,最适用于对称分布,特别是正态分布几何均数平均增减倍数①等比资料;②对数正态分布资料中位数位次居中的观①偏态资料;②分布不明资料;③分布一端或两察值水平端出现不确定值2.中位数与百分位数在意义上﹑计算和应用上有何区别与联系?答:1)意义:中位数是百分位中的第50分位数,常用于描述偏态分布资料的集中位置,反映位次居中的观察值水平。
百分位数是用于描述样本或总体观察值序列在某百分位置的水平,最常用的百分位是P50即中位数。
多个百分位数结合使用,可更全面地描述总体或样本的分布特征。
(2)计算:中位数和百分位数均可用同一公式计算,即Px=L+(i/f x)(n·x%-Σf L)可根据研究目的选择不同的百分位数代入公式进行计算分析。
(3)应用:中位数常用于描述偏态分布资料的集中趋势;百分位数常用于医学参考值范围的确定。
中位数常和其它分位数结合起来描述分布的特征,在实际工作中更为常用。
百分位数还可以用来描述变量值的离散趋势(四分位数间距)。
3.同一资料的标准差是否一定小于均数?答:不一定。
同一资料的标准差的大小与均数无关,主要与本资料的变异度有关。
变异大,标准差就大,有时比均数大;变异小,标准差小。
4.测得一组资料,如身高或体重等,从统计上讲,影响其标准差大小的因素有哪些?(1)样本含量的大小,样本含量越大,标准差越稳定。
(2)分组的多少(3)分布形状的影响,偏态分布的标准差较近似正态分布大(4)随机测量误差大小的影响(5)研究总体中观察值之间变异程度大小5.标准差与变异系数的异同点有哪些?答:标准差:是以算数平均数为中心,反映各观测值离散程度的一个绝对指标.当需要对同一总体不同时期或对不同总体进行对比时,缺乏可比性.当总体平均水平不同或计量单位不同时,用标准差是无法实现两组数据离散程度大小对比的.变异系数:标准差与平均数的比值称为变异系数,记为C·V.变异系数可以消除单位和(或)平均数不同对两个或多个资料变异程度比较的影响。
社会统计学讲义(卢淑华)第一章社会学研究与统计分析一、社会调查资料的特点(随时掌握)随机性、统计规律性;二、统计学的作用:为社会研究提供数据分析和推论的方法三、统计分析的作用及其前提。
四、统计分析方法的选择1、全面调查和抽样调查的分析方法2、单变量和多变量的统计分析方法五、不同变量层次的比较;定类、定序、定距、定比定义、数学特征、运算特性、涵盖关系、等第二章单变量统计描述分析一、统计图表,熟悉不同层次变量对应的分析图表,不能混淆。
尤其是直方图的意义。
二、标明组限与真实组限的换算,重要。
三、集中趋势测量法1、定义、优缺点、注意事项;2、众值:定义、计算公式、解释、运用,注意事项;3、中位值:定义、计算公式(频数和比例两种公式)、解释、运用,注意事项;4、均值:定义、计算公式(分组与加权)、解释、运用,注意事项;5、众值、中位值和均值的关系及其相互比较,会用众值和中位值估算均值;四、离散趋势测量法1、定义、优缺点、注意事项,与集中趋势的关系;2、异众比例:定义、计算公式、解释、运用,注意事项;3、质异指数:定义、计算公式、解释、运用,注意事项;4、四分位差:定义、计算公式(频数和比例两种公式)、解释、运用,注意事项;要会举一反三,如求十分位差、以及根据数据求其在总体中的位置。
4、方差及标准差:定义、计算公式(分组与加权)、解释、运用,注意事项;第三章概率一、概率:就是指随机现象发生的可能性大小。
随机现象具有不确定性和随机性。
二、概率的性质:1、不可能事件的概率为0;2、必然事件的概率为1;3、随机事件的概率在0-1之间;三、概率的计算方法:1、古典法:计算等概率事件,P=有效样本点数/样本空间数;2、频率法:求随机事件在多次试验后的极限频率。
3、概率是理论值,只有一个,频率是试验值,不同的试验有不同的频率。
四、概率的运算:会画文氏图1、加法公式:两个或多个随机事件的求和概率‘2、乘法公式:两个或多个随机时间共同发生的概率。
社会统计学整理第二章:单变量统计描述分析各种图:定类:圆瓣图、条形图定序:条形图定距:直方图、折线图组界:真实组界=标明组界0.5 条形图:定类变量:长条排列次序任意,条形离散。
定序变量:长条按序排列,条形是离散或紧挨。
直方图:由紧挨着的长条组成,面积表示频次或相对频次,高度是频次密度。
众值:用具有频数最多的变量值来表示集中值。
连续型变量用中心值来表示众值。
定类预测犯错最少。
异众比率:是非众值在总数N中所占的比例(:众值的频次)质异指数:理论上最多可能差异中实际出现了多少差异(k:类比数f:每类次数)中位值:定序预测犯错最少。
(也可以求25%和75%,改为和)n:中位值组的频次cf:含中位值区间的真实下界累积(向上)平次N:调查总数极差:极差=观察的最大值-观察的最小值四分互差:结论:50%位于*间均值:定距变量预测犯错最少。
标准差:第三章:概率互不相容:两者不能同时出现。
互为对立:不同时出现且两者相加为整体。
如果事件A与B互为对立,则必然满足互不相容,但逆定理不存在。
P(A);P(B),互不相容一定不满足互相独立,反之亦然。
互为对立与相互独立不能同时满足。
全概公式:逆概公式:方差:SKEWNESS(偏态)=>0:正偏态=0:对称<0:负偏态(峰在右边)KURTOSIS(峰态)=>0:正峰态=0:正态分布<0:负峰态(峰矮)第四章:二项分布及其他离散型随机变量的分布排列组合:第五章:正态分布、常用统计分布和极限定理大数定理:在什么条件下,随机事件可以转化为不可能事件或必然事件。
中心极限定理:在什么条件下,随机变量之和的分布可以近似为正态分布。
切贝谢夫不等式:贝努利大数定理:m是n次实验中事件A出现的次数,p是A每次出现的概率切贝谢夫大数定理:μ:数学期望:总体均值中心极限定理:只要n足够大,正态分布:众值=均值=中位值1S-68.26%;2S-95.46%;3S-99.37%;0.05-1.65;0.025-1.96;0.01-2.33;0.005-2.58;0.001-3.09;0.0005-3.30第六章:参数估计点估计:均值—样本均值成数—样本成数方差—样本方差S2是σ2的无偏估计,但S不是σ的无偏估计。
第二章单变量统计描述分析一、填空1.统计表从内容上看,是由(主词)和宾词两部分构成的。
2.主词是统计表要说明的(对象,);宾词是用来说明主词的(标志和标志值)。
3.变量数列有两个构成要素(变量值)和(频数)。
4.统计表通常有一定格式,统计表各部位的名称分别是(总标题)、横行标题、纵栏标题、(统计数值)。
5.对于连续变量,恰是某一组限的数据应按照(上组限不包括在内)的原则归入相应的组别。
6.统计表按主词的分组情况,可分为简单表、简单分组表和(复合分组表)。
7.统计分组的关键在于(选择分组标志)和划分各组界限。
二、单项选择题1.统计表的数字部分中符号“……”代表的含义是(B)。
A.某项数字不存在B.缺少某项数字C.某项数字较大D.提醒注意核计2.某城市男性青年27岁结婚的人最多,该城市男性青年平均结婚年龄为26.2岁,则该城市男性青年结婚的年龄分布为( B )。
A.正偏B.负偏C.对称D.不能作出结论3.上限与下限之差是(B)。
A.组限B.组距C.组中值D.极差4.小吴为写毕业论文去搜集数据资料,(D)是次级数据。
A.问卷调查上的答案B.班组的原始记录C.车间的台账D.统计局网站上的序列5.为掌握商品销售情况,对占该市商品销售额80%的五个大商场进行调查,这种调查方式属于(B)。
A.抽样调查B.重点调查C.统计报表D.普查6将总体中的各单位按某一标志排列,再依固定间隔抽选调查单位的抽样方式为(D)。
A.简单随机抽样 B.整群抽样 C.分层抽样 D.等距抽样7在进行数据分组时,首先考虑的是(D)。
A.分成多少组B.各组差异大小C.分组后计算方便D. 选择什么标志分组8如果统计表中数据的单位都一致,我们可以把单位填写在表格的(A)A.右上角B. 右下角C.左上角D.左下角9. 现有某地区部分住户住房满意调查数据资料,其中包含有性别、文化程度、从业状况、家庭月可支配收入、人均住房面积、住房满意度、计划购买面积等字段。
统计学第三版答案第一章1.什么是统计学?怎样理解统计学与统计数据的关系?答:统计学是一门收集、整理、显示和分析统计数据的科学。
统计学与统计数据存在密切关系,统计学阐述的统计方法来源于对统计数据的研究,目的也在于对统计数据的研究,离开了统计数据,统计方法以致于统计学就失去了其存在意义。
2.简要说明统计数据的来源答:统计数据来源于两个方面:直接的数据:源于直接组织的调查、观察和科学实验,在社会经济管理领域,主要通过统计调查方式来获得,如普查和抽样调查。
间接的数据:从报纸、图书杂志、统计年鉴、网络等渠道获得。
3.简要说明抽样误差和非抽样误差答:统计调查误差可分为非抽样误差和抽样误差。
非抽样误差是由于调查过程中各环节工作失误造成的,从理论上看,这类误差是可以避免的。
抽样误差是利用样本推断总体时所产生的误差,它是不可避免的,但可以控制的。
4.答:(1)有两个总体:A品牌所有产品、B品牌所有产品(2)变量:口味(如可用10分制表示)(3)匹配样本:从两品牌产品中各抽取1000瓶,由1000名消费者分别打分,形成匹配样本。
(4)从匹配样本的观察值中推断两品牌口味的相对好坏。
第二章、统计数据的描述思考题1描述次数分配表的编制过程答:分二个步骤:(1)按照统计研究的目的,将数据按分组标志进行分组。
按品质标志进行分组时,可将其每个具体的表现作为一个组,或者几个表现合并成一个组,这取决于分组的粗细。
按数量标志进行分组,可分为单项式分组与组距式分组单项式分组将每个变量值作为一个组;组距式分组将变量的取值范围(区间)作为一个组。
统计分组应遵循“不重不漏”原则(2)将数据分配到各个组,统计各组的次数,编制次数分配表。
2.解释洛伦兹曲线及其用途答:洛伦兹曲线是20世纪初美国经济学家、统计学家洛伦兹根据意大利经济学家帕累托提出的收入分配公式绘制成的描述收入和财富分配性质的曲线。
洛伦兹曲线可以观察、分析国家和地区收入分配的平均程度。