第3章 统计描述
- 格式:ppt
- 大小:512.50 KB
- 文档页数:27
补充材料:累计求和运算规则求和算子定义:对于T 个观测值,x 1, x 2, …, x T ,求和可以简化地表示为x 1 + x 2 + …+ x T =∑=Tt t x 1其中∑⋅)(称作求和算子。
求和算子的运算规则如下: ① 变量观测值倍数的和等于变量观测值和的倍数。
∑=T t t kx 1= k ∑=Tt t x 1② 两个变量观测值和的总和等于它们分别求总和后再求和。
∑=+Tt t t y x 1)(= ∑=Tt t x 1+∑=Tt t y 1③ T 个常数求和等于该常数的T 倍。
∑=Tt k 1= kT其中k 是常数。
④ 定义双重求和为∑∑==T j ij T i x 11= ∑=Ti 1(x i 1 + x i 2 + …+ x iT )= (x 11 + x 12 + …+ x 1T ) +(x 21 + x 22 + …+ x 2T ) + … +(x T 1 + x T 2 + …+ x TT )⑤ 两个变量和的双重求和等于它们各自双重求和的和。
∑∑==+T j ij ij T i y x 11)(= ∑∑==T j ij T i x 11+∑∑==Tj ij T i y 11⑥ 两个不同单下标变量积的双重求和等于它们各自求和的乘积。
∑∑==Tj j i Ti y x 11= (∑=T i i x 1) (∑=Tj j y 1)证:∑∑==Tj j i T i y x 11= ∑=+++Ti T i y y y x 121)...(= (∑=T i i x 1) (∑=Tj j y 1)第3章 统计资料的综合(Data Summarization )用频数分布表与统计图可以展示数据分布的大概特征。
为更准确的描述数据的特征,有必要用一些数值描述一组数据的特征,称这些数值为特征数。
特征数分三类:(1)表示集中位置;(2)表示分散程度;(3)表示偏斜程度;(4)相关程度。
3.1 表示集中位置的特征数: (1)平均数;(算术平均数,几何平均数,调和平均数) (2)中位数; (3)众数; (4)百分位数; 3.1.1 平均数(1)算术平均数(Arithmetic mean ) 对于不分组数据算术平均数定义:一组数据,(x 1, x 2, …, x n ),容量为n ,则算术平均数x 表示为x = n x x x n +++ (21)=n1∑=ni i x 1(1)例1:5个学生的英语考试分数是80, 70, 85, 90, 82。
概率与数理统计第3章数据分布特征的描述概率与数理统计是一门关于随机现象的描述和分析的学科。
在实际问题中,我们经常需要对数据进行分析和描述,以便更好地理解数据的特征和规律。
第三章主要介绍了数据分布的特征描述,包括中心位置度量、离散程度度量和分布形状度量。
首先是中心位置度量,它用来描述数据集的平均水平。
一般来说,我们关心的是数据集的平均值和中位数。
平均值是数据的加权平均,它能够反映数据集的集中趋势。
平均值的计算公式是:```平均值=总和/观测数```中位数是按照数据的大小顺序排列后,处于中间位置的观测值。
中位数的计算方法是:```如果数据集的观测数为奇数,中位数为第(n+1)/2个观测值如果数据集的观测数为偶数,中位数为第n/2和(n/2+1)个观测值的平均值```其次是离散程度度量,它用来描述数据集的变异程度。
我们常用的度量指标有极差、方差和标准差。
极差是数据集中最大观测值与最小观测值之间的差距,它反映了数据的全局离散程度。
方差是每个观测值与数据集平均值的差的平方的平均值,它度量了数据的局部离散程度。
标准差是方差的平方根,它与方差具有相同的单位,能够更好地反映数据的离散程度。
最后是分布形状度量,它用来描述数据分布的偏度和峰度。
偏度是描述数据分布对称性的度量,正偏表示数据集的右尾较重,负偏表示数据集的左尾较重。
峰度是描述数据分布峰态的度量,正峰表示数据集的峰部较陡,负峰表示数据集的峰部较平。
偏度和峰度能够帮助我们了解数据分布的形态特征,从而判断数据集是否服从其中一种特定的分布。
在实际应用中,我们可以通过对数据集进行描述统计分析来了解数据的特征。
通过计算平均值、中位数、方差、标准差、偏度和峰度等指标,我们能够更好地理解数据的分布情况。
此外,我们还可以通过绘制直方图、箱线图、概率密度函数等图形来展示数据的分布特征,进一步加深对数据的认识。
总之,数据分布特征的描述是概率与数理统计中重要的内容之一、通过中心位置度量、离散程度度量和分布形状度量,我们能够充分了解数据的平均水平、变异程度和形态特征,为进一步的数据分析和决策提供有力的支持。
《医学统计学》部分习题参考答案颜虹主编第二版第三章统计描述一、最佳选择题1.C2.A3.D4.B5.E6.E7.C8.D9.C10.C11.A12.D三、计算分析题P53-1素食前X1素食后X2X1-X2平均187.75平均168.25平均19.5中位数179中位数165中位数19标准差33.18885标准差26.79593标准差16.80838方差1101.5方差718.0217方差282.5217 4)第四章常见的概率分布一、最佳选择题1.D2.D3.B4.D5.B6.E7.E8.C9.D10.C11.C三、计算分析题P73-41120124.4 1.15793.8u -==-2125124.40.1578953.8u -==查标准正态分布表得1()( 1.1579)( 1.16)0.123u Φ=Φ-≅Φ-=2()(0.15795)(0.16)1(0.16)10.43640.5636u Φ=Φ≅Φ=-Φ-=-=21()()0.56360.1230.4406u u Φ-Φ=-=该地身高界于120cm 到125cm 范围内的8岁男童比例为44.06%。
20044.06%89()⨯≈人200名8岁男童中身高界于120~125cm 范围的人数约为89人。
P73-5Poisson 0.99967Binominal 0.9998P73-6解:(1)由题意可知,随机误差变量X 服从正态分布,其中μ=2,σ=4。
要求测量误差的绝对值不超过3的概率,即求P P ≤≤≤(X 3)=(-3X 3),作标准化变化132 1.254u --==-2320.254u -==1()( 1.25)0.1056u Φ=Φ-=2()(0.25)1(0.25)10.40130.5987u Φ=Φ-Φ-=-=21()()0.59870.10560.4931u u Φ-Φ=-=即测量误差的绝对值不超过3的概率为0.4931。
(2)根据题意,以Y 表示测量误差的绝对值不超过3,则Y 服从二项分布,其中n=3,0.4931π=,根据题意,至少有1次误差的绝对值不超过3的概率为003033(1)1(0)1(1)10.50690.86975P Y P Y C ππ-≥=-==--=-=P73-7解:根据医学知识可知健康成人血清总胆固醇值过高或过低为异常,故应制定双侧医学参考值范围因为已经假定血清总胆固醇值服从正态分布,故可用正态分布法求该指标的95%医学参考值范围,即 1.96μσ±。
第三章 统计描述一、选择题1.有5辆汽车在同一距离的公路上行驶的速度资料,确定汽车平均每小时行驶速度的平均数公式是( C )。
A.xn∑B.xff∑∑C.1nx∑D.mmx∑∑2.加权算术平均数的大小取决于( D )。
(甲)频数绝对量的大小;(乙)频数之间的比率;(丙)变量值的大小。
A.甲丙B.乙C.甲乙D.乙丙二、问答题1.指出表3-1、表3-2和表3-3中的主词与宾词、横行标题与纵栏标题,并根据主词的结构分类法,指出该统计表的类型。
表3-1 ××市2000、2001年国内生产总值表表3-2 国内商业主要经济统计指标(2001年×月)表3-3 ××市饮食业机构、人员基本情况(2001年)答:表3-1为主词简单分组表。
表3-2为主词复合分组表。
表3-3为主词复合分组表,一部分主词(市、县、县以下)放置在宾词的位置。
2.在教材第三章的例3-6中,按调和平均法和按算术平均法计算的结果一致,根据幂平均数是参数k 的单调不减函数的性质,算术平均数≥调和平均数,这两者是否存在矛盾?答:不存在矛盾,因为上面所说的算术平均数≥调和平均数的前提条件是每个变量的权数是相等的,而例3-6中各变量的权数不相等。
所以两者也就不存在矛盾。
三、计算题1.抽样调查某省50户城镇居民平均每人全年可支配收入资料如表3-4所示。
表3-4 居民年人均可支配收入单位:百元要求:(1)试根据上述资料编制次(频)数分布数列;(2)编制向上和向下累计频数、频率数列;(3)根据所编制的次数分布数列绘制直方图、折线图与曲线图,并说明其属于何种分布类型;(4)根据所编制的向上(向下)累计频数(频率)数列绘制累计曲线图;(5)根据频数分布曲线图说明居民年人均可支配收入的分布类型。
解:(1)表3-5(2)表3-6表3-7(3)可以使用Excel的数据分析工具中的“直方图”工具生成如第(1)题所示的次数分布数列以及相应的直方图和折线图等。
第三章统计数据分布特征的描述统计数据分布特征的描述是统计学中非常重要的一个概念,它用于对数据进行系统化的描述和分析。
统计数据分布特征的描述包括位置参数、散布参数和形状参数。
位置参数描述了数据集中心位置的特征。
最常用的位置参数是均值和中位数。
均值是指所有数据值的总和除以数据个数,它能够反映数据集的平均水平。
中位数是将数据值按大小排序后的中间值,它能够反映数据集的中心位置。
均值对异常值比较敏感,中位数能够较好地排除异常值的干扰。
散布参数描述了数据集的离散程度。
最常用的散布参数是方差和标准差。
方差是指每个数据值与均值之差的平方和的平均值,它能够反映数据集的离散程度。
标准差是方差的平方根,它与数据的单位相一致,常用于衡量数据的波动性。
方差和标准差越大,表示数据的离散程度越大。
形状参数描述了数据集的分布形状。
常用的形状参数包括偏度和峰度。
偏度是指数据分布的不对称程度,大于0表示右偏,小于0表示左偏,等于0表示对称。
偏度能够反映数据集的分布形态。
峰度是指数据分布的尖锐程度,大于0表示尖锐,小于0表示平坦,等于0表示与正态分布相似。
峰度能够反映数据集的尖峰或扁平程度。
除了这些常见的参数之外,还有其他一些描述统计数据分布特征的方法,如四分位数和箱线图。
四分位数是将数据分为四等分的值,它包括上四分位数、下四分位数和中位数。
上四分位数是四分之三分位数,下四分位数是四分之一分位数。
箱线图是以箱子和线段的形式展示数据分布特征,箱子的上边界和下边界分别代表上四分位数和下四分位数,箱子的中线代表中位数,箱子的长度代表数据的离散程度。
统计数据分布特征的描述对于研究数据的特征、提取有效信息以及进行统计推断都非常重要。
了解数据的位置、散布和形状特征能够帮助研究者更好地理解数据集的性质和规律。
在实际应用中,统计数据分布特征的描述还可以帮助决策者进行决策,例如对于质量控制的判断和产品的质量评估等。
综上所述,统计数据分布特征的描述是对数据集进行系统化描述和分析的重要工具。
第3 章用统计量描述数据从集中度来看,网民平均年龄为24 岁,中位数为23 岁。
从离散度来看,标准差在为6.65 岁,极差达到26 岁,说明离散程度较大。
从分布的形状上看,年龄呈现右偏,而且偏斜程度较大。
3.2 某银行为缩短顾客到银行办理业务等待的时间,准备采用两种排队方式进行试验。
一种是所有顾客都进入一个等待队列;另一种是顾客在 3 个业务窗口处列队3 排等待。
为比较哪种排队方式使顾客等待的时间更短,两种排队方式各随机抽取9 名顾客,得到第一种排队方式的平均等待时间为7.2 分钟,标准差为 1.97 分钟,第二种排队方式的等待时间(单位:分钟)如下:5.56.6 6.7 6.87.1 7.3 7.4 7.8 7.8(1)计算第二种排队时间的平均数和标准差。
(2)比两种排队方式等待时间的离散程度。
(3)如果让你选择一种排队方式,你会选择哪一种?试说明理由。
详细答案:(1)(岁);(岁)。
(2);。
第一中排队方式的离散程度大。
(3)选方法二,因为平均等待时间短,且离散程度小。
3.3 在某地区随机抽取120 家企业,按利润额进行分组后结果如下:300~400 30400~500 42500~600 18600 以上11合计120计算120 家企业利润额的平均数和标准差(注:第一组和最后一组的组距按相邻组计算)。
详细答案:=426.67(万元);(万元)。
3.4一家公司在招收职员时,首先要通过两项能力测试。
在 A 项测试中,其平均分数是100 分,标准差是15 分;在B 项测试中,其平均分数是400 分,标准差是50 分。
一位应试者在A 项测试中得了115 分,在B 项测试中得了425 分。
与平均分数相比,该位应试者哪一项测试更为理想?详细答案:通过计算标准化值来判断,,,说明在A项测试中该应试者比平均分数高出 1 个标准差,而在 B 项测试中只高出平均分数0.5 个标准差,由于 A 项测试的标准化值高于 B 项测试,所以 A 项测试比较理想。