第四章数据特征的描述统计资料
- 格式:ppt
- 大小:1.26 MB
- 文档页数:115
第四章定性数据的统计描述前面一直在讲定量资料定性数据也叫计数资料,变量的观测值是定性的,表现为互不相容的类别或属性。
“数一数”“无单位”,包括“二分类”“多分类”,如定性数据的统计描述用什么指标?例:甲、乙两学院流感,甲学院流感发病60人甲学生2000人乙学院流感发病30人乙学生1000人甲学院流感发病率=乙学院流感发病率=∴60 30是绝对数(调查或实验研究中清点计数资料所得的数据叫),绝对数可以反映基本信息,但定性数据不能用绝对数直接比较,要用相对数才能描述定性数据的特征。
例:国家钢材产量世界第一,棉花产量世界第二,但人均拥有量?内蒙古牛羊产量全国第一,但人均占有量全国占第17位,最多河南、山东SARS非典,北京今天新增病例10例,内蒙古新增2例,是否北京严重?错,要比相对数,北京人口,内蒙人口,看率P28例:某病A法治疗100人,75人有效;B法治疗150人,100人有效相对数:是两个有关的绝对数之比,也可以是两个有关联统计指标之比。
相对数的性质取决于其分子、分母的意义,不同类型的相对数具有不同的性质常用相对数指标有率、构成比、相对比一率(强度相对数)表示在一定空间或时间范围内某现象的发生数与可能发生的总数之比,说明某现象出现的强度或频率,所以又叫强度相对数(甲乙两学院哪个更严重?发病率高?)。
通常以百分率、千分率万分率十万分率等表示。
如医学上常用的率:患病率、发病率、感染率、病死率、治愈率、出生率、死亡率等。
通常总体率用表示,样本率用P表示注意:率在更多情况下是一个有时间概念的指标,用于说明在一段时间内某现象发生的强度或频率。
如:××年(2010年)某病发病率,死亡率等。
例4-1二构成比(结构相对数)表示某事物内部各组成部分在整体中所占的比重,常以百分数表示。
全体中各构成比之和应为100%例:全班同学有100人,其中女同学占60%,男同学占40%,60%、40%就是构成比(也就是过去说的百分比)例4-2构成比之和为100%,某一构成部分的增减会影响其他构成部分相应的减少或增加(而率不影响)构成比不能用来描述疾病致死的严重程度,与率不同。
统计习题——第四章-数据特征的度量第四章数据特征的度量练习题:1.某城市土地面积和人口资料如下表所示:要求:根据上述资料计算出所有可能计算的相对指标,并指出分别属于哪一种相对指标。
答:可以计算结构相对指标、比例相对指标、比较相对指标、强度相对指标、动态相对指标。
2.某企业2007年产值计划比2006年增加8%,实际比2006年增加10%,试问该企业的产值计划完成程度相对指标是多少?若该企业2007年单位产品成本计划比2006年的699元降低12元,实际单位产品成本为672元,该企业单位产品成本的计划完成程度是多少?解:3.某车间工人操作机床台数的资料如下表所示,试计算该车间工人平均操作机床台数。
解:=510%+660%+730%=6.2fx x f=⋅⨯⨯⨯∑∑(台)4.某集团公司所属的20家企业资金利润资料如下表所示,试计算该集团20家企业的平均利润率。
解:5.某公司三个企业利润计划及执行情况如下表所示:要求:分别根据上面的两个表计算该公司的利润平均计划完成程度相对指标,并比较两种方法有什么不同。
解:(1)(2)6.某投资银行的年利率按复利计算,10年的年利率分别是:第1年3%,第2-4年4%,第5-8年5%,第9-10年6%。
试计算平均年利率是多少? 解:设10年的平均本利率为Gx ,则7.某企业2007年12月份职工工资资料如下表所示:试计算职工平均工资、工资的中位数和众数,并根据三者的关系说明工资分布的特征。
解:平均工资: 中位数: 中位数的位置:192022kii f==∑=460众数:x Me Mo >>因为,所以工资分布呈右偏分布,即多于一半的职工工资低于平均工资。
8.某农作物的两种不同品种在生产条件基本相同的五个地块上试种,结果如下表所示:试计算这两种不同品种的农作物哪一个具有较大的稳定性,值得推广。
解:因为甲品种的变异系数小于乙品种的变异系数,所以甲品种具有较大的稳定性。
第四章 差异量教学目的:1.理解全距、四分位距、百分位距、平均差、方差、标准差和差异系数等概念;2.掌握各种差异量指标的计算方法。
数据的分布特征不仅有集中趋势,还有离中趋势。
以动态的眼光,从不同的角度看,数据是向中间变动的,也是向两端变动的。
两组数据可能平均水平相同,但两组数据的分布特征并不完全相同。
【如】:比较以下两组数据 A 组:88、82、73、76、81 B 组:92、86、70、72、80两组平均数,80==B A X X 但R A =88-73=15,R B=92-70=22。
即A 组较集中,B 组较分散。
因此,我们描述一组数据的分布特征,既要描述其集中趋势,也要描述其离中趋势。
差异量:表示一组数据的离中趋势或变异程度的量称为差异量。
常用的差异量指标有全距、四分位距、百分位距、平均差、方差、标准差和差异系数。
第一节全距、四分位距、百分位距一、全距全距:是一组数距中最大值与最小值之差。
优点:意义明确,计算方便。
缺点:反响不灵敏,易受极端值影响。
二、四分位距〔一〕四分位距的的概念四分位距:是指一组按大小顺序排列的数据中间部位50%个频数距离的一半。
QD :表示四分位距; Q 3:表示第三四分位数; Q 1:表示第一四分位数。
所以:四分位距的公式又为: 〔二〕四分位数的计算方法 1、原始数据计算法〔1〕将数据由小到大进行排列;〔2〕分别求出三位四分位数〔点〕;〔3〕代入公式计算。
【例如】:有以下16个数据25、22、29、12、40、15、14、39、37、31、33、19、17、20、35、30,其中四分位距的计算方法如下:〔1〕先将原始数据从小到大排列好;12、14、15、17、*19、20、22、25、*29、30、31、33、*35、37、39、40Q1=18 Md=27 Q3=34〔2〕求出Q1、Md、Q3;〔3〕将Q1、Md、Q3的得数代入公式〔4.1〕。
2、频数分布表计算法利用频数分布表计算公式为:关键是分别计算P75和P25,百分位数计算方法掌握了,这里的计算就不会有什么问题。
第四章·资料分布特征与描述统计量1.统计描述主要从哪几个方面发现和描述数据特征?统计描述可以从样本含量n,集中趋势(算术均数、几何均数、中位数),离散趋势(极差、四分位数间距、方差和标准差)以及通过绘制统计图,编制统计表来发现和描述数据特征。
2.频数表的主要用途有哪些?(1)描述频数分布的类型;(2)描述频数分布的特征;(3)便于发现一些特大或特小的可疑值;(4)便于进一步做统计分析和处理。
3.算数均数、几何均数和中位数各有什么适用条件?算术均数主要适合描述对称分布资料的集中位置;几何均数适合描述当资料呈倍数关系或对数正态分布时的集中趋势;当大部分观测值比较集中,少数观测值偏向一侧时,或资料分布情况不清楚时,或数据的最大值(最小值)无准确测量数据时,宜用中位数来表示其平均水平。
4.标准差有何用途?(1)表示变量分布的离散程度。
两组资料(总体或样本)均数相近,度量单位相同的条件下,标准差较大,说明变量值的变异度较大,即各变量值较分散(较远离均数),因而均数的代表性较差;反之标准差较小,说明变异度x 来较小,即各变量值较集中在均数周围,因而均数对各变量值的代表性较好,在用数字作统计描述时常用符号s反映均数代表性的好坏。
(2)可用来计算变异系数。
当两组资料单位不同,或单位相同,均数相差较大时,不能直接用标准差比较它们的变异程度,须用变异系数进行比较。
(3)结合均数描述正态分布的特征,并利用正态曲线下面积分布规律,来计算医学上各种生化、生理的参考值范围。
(4)在单纯随机抽样调查中,是计量资料估计样本大小的不可缺的重要依据之一。
(5)可用来计算抽样误差的大小。
5.变异系数与标准差有何异同?同:变异系数与标准差都可反映数据的变异度大小,异:标准差是一组同质数据间变异度大小的量度指标,它带有单位,因而不同单位的数据间的变异度大小不可用标准差作比较;而变异系数是一种不带单位的反映变异度大小的相对数值,因而它可对不同单位数据间的变异度大小作比较。
数据特征的描述范文数据特征是指在数据集中用来描述和区分不同观察对象的属性或变量。
数据特征可以是数值型、分类型或者是其他类型的。
在数据分析和机器学习领域,了解和理解数据特征的性质和特点是非常重要的,因为它们对于数据预处理和特征工程的选择和设计有很大的影响。
首先,数值型特征指的是具有连续数值或离散数值的特征。
这种特征主要用于度量或计量一种数量,如年龄、身高、体重等。
数值型特征的常见统计描述包括平均值、中位数、标准差、最小值和最大值等。
这些统计描述可以帮助我们了解数值型特征的分布情况、集中趋势和离散程度。
此外,时间型特征指的是具有时间戳或时间周期的特征。
这种特征主要用于描述事件发生的时间、顺序或周期性。
在时间序列分析中,时间型特征的统计描述可以帮助我们识别趋势、周期和季节性等模式。
常见的时间型特征包括年、月、日、季度、小时等,可以通过日期函数和时间序列算法进行处理和分析。
另外,文本型特征指的是具有自然语言文本的特征。
这种特征主要用于描述文本内容、主题和情感等。
常见的文本型特征处理方法包括词袋模型、TF-IDF、词嵌入等。
文本型特征通常需要进行文本清洗、分词和向量化等预处理操作,以便于机器学习算法的应用。
除了上述常见的数据特征类型,还有一些其他类型的特征可以进行描述。
例如,图像型特征可以用于描述图像的颜色、纹理和形状等;地理型特征可以用于描述地理位置和区域属性;网络型特征可以用于描述网络拓扑和关系等。
总之,数据特征的描述是指根据特征的类型和属性,通过统计指标、分布图表和描述性方法等获取特征的概括和表达。
理解数据特征的性质和特点,对于数据挖掘、机器学习和决策分析等任务有着重要的指导作用。
通过对数据特征的描述和分析,可以为后续的数据预处理、特征选择和特征工程提供有力的支持。
第四章 静态指标分析法(一)一、填空题1、数据分布集中趋势的测度值(指标)主要有、和。
其中和用于测度品质数据集中趋势的分布特征,用于测度数值型数据集中趋势的分布特征。
2、标准差是反映的最主要指标(测度值)。
3、几何平均数是计算和的比较适用的一种方法。
4、当两组数据的平均数不等时,要比较其数据的差异程度大小,需要计算。
5、在测定数据分布特征时,如果M M e X 0==,则认为数据呈分布。
6、当一组工人的月平均工资悬殊较大时,用他们工资的比其算术平均数更能代表全部工人工资的总体水平。
二.选择题单选题:1.反映的时间状况不同,总量指标可分为( )A 总量指标和时点总量指标B 时点总量指标和时期总量指标C 时期总量指标和时间指标D 实物量指标和价值量指标2、某厂1999年完成产值200万元,2000年计划增长10%,实际完成了231万元,超额完成( )A 5.5%B 5%C 115.5%D 15.5%3、在同一变量数列中,当标志值(变量值)比较大的次数较多时,计算出来的平均数( )A 接近标志值小的一方B 接近标志值大的一方C 接近次数少的一方D 接近哪一方无法判断4、在计算平均数时,权数的意义和作用是不变的,而权数的具体表现( )A 可变的B 总是各组单位数C 总是各组标志总量D 总是各组标志值 5、1998年某厂甲车间工人的月平均工资为520元,乙车间工人的月平均工资为540元,1999年各车间的工资水平不变,但甲车间的工人占全部工人的比重由原来的40%提高到了60%,则1999年两车间工人的总平均工资比1998年( )A 提高B 不变C 降低D 不能做结论 6、在变异指标(离散程度测度值)中,其数值越小,则( )A 说明变量值越分散,平均数代表性越低B 说明变量值越集中,平均数代表性越高C 说明变量值越分散,平均数代表性越高D 说明变量值越集中,平均数代表性越低7、有甲、乙两数列,已知甲数列:07.7,70==甲甲σX ;乙数列:41.3,7==乙乙σX 根据以上资料可直接判断( )A 甲数列的平均数代表性大B 乙数列的平均数代表性大C 两数列的平均数代表性相同D 不能直接判别8、杭州地区每百人手机拥有量为90部,这个指标是 ( )A 、比例相对指标B 、比较相对指标C 、结构相对指标D 、强度相对指标 9、某组数据呈正态分布,计算出算术平均数为5,中位数为7,则该数据分布为 ( ) A 、左偏分布 B 、右偏分布 C 、对称分布 D 、无法判断10、加权算术平均数的大小 ( )A 主要受各组标志值大小的影响,与各组次数多少无关;B 主要受各组次数多少的影响,与各组标志值大小无关;C 既与各组标志值大小无关,也与各组次数多少无关;D 既与各组标志值大小有关,也受各组次数多少的影响11、已知一分配数列,最小组限为30元,最大组限为200元,不可能是平均数的为 ( ) A 、50元 B 、80元 C 、120元 D 、210元12、比较两个单位的资料,甲的标准差小于乙的标准差,则 ( ) A 两个单位的平均数代表性相同 B 甲单位平均数代表性大于乙单位C 乙单位平均数代表性大于甲单位D 不能确定哪个单位的平均数代表性大 13、若单项数列的所有标志值都增加常数9,而次数都减少三分之一,则其算术平均数 ( ) A 、增加9 B 、增加6C 、减少三分之一 D 、增加三分之二 14、如果数据分布很不均匀,则应编制( )A 开口组B 闭口组C 等距数列D 异距数列 15、计算总量指标的基本原则是:( ) A 总体性B 全面性C 同质性D 可比性16、某企业的职工工资分为四组:800元以下;800-1000元;1000—1500元;1500以上,则1500元以上这组组中值应近似为()A1500元 B 1600元 C 1750元D 2000元 17、统计分组的首要问题是( )A 选择分组变量和确定组限B 按品质标志分组C 运用多个标志进行分组,形成一个分组体系D 善于运用复合分组18、某连续变量数列,其末组为开口组,下限为200,又知其邻组的组中值为170,则末组组中值为( )A 230B 260C 185D 215 19、分配数列中,靠近中间的变量值分布的次数少,靠近两端的变量值分布的次数多,这种分布的类型是( )A 钟型分布B U 型分布C J 型分布D 倒J 型分布 20、要了解上海市居民家庭的开支情况,最合适的调查方式是:() A 普查B 抽样调查C 典型调查D 重点调查21、已知两个同类企业的职工平均工资的标准差分别为5元和6元,而平均工资分别为3000元,3500元则两企业的工资离散程度为 ( )A 甲大于乙B 乙大于甲C 一样的D 无法判断 22、加权算术平均数的大小取决于( )A 变量值B 频数C 变量值和频数D 频率23、如果所有标志值的频数都减少为原来的1/5,而标志值仍然不变.那么算术平均数( ) A 不变 B 扩大到5倍 C 减少为原来的1/5 D 不能预测其变化 24、 计算平均比率最好用 ( )A 算术平均数B 调和平均数C 几何平均数D 中位数25、若两数列的标准差相等而平均数不同,在比较两数列的离散程度大小时,应采用() A 全距 B 平均差 C 标准差 D 标准差系数26、若n=20,∑∑==2080,2002x x ,标准差为( )A 2B 4C 1.5D 327、已知某总体3215,3256==eMM,则数据的分布形态为( )A左偏分布B正态分布 C 右偏分布DU型分布28、一次小型出口商品洽谈会,所有厂商的平均成交额的方差为156.25万元,标准差系数为14.2%,则平均成交额为( )万元A11 B 177.5 C 22.19 D 8826、欲粗略了解我国钢铁生产的基本情况,调查了上钢、鞍钢等十几个大型的钢铁企业,这是()A普查B重点调查C典型调查D抽样调查多选题:1.某企业计划2000年成本降低率为8%,实际降低了10%。