第十章统计表和统计图
- 格式:ppt
- 大小:691.00 KB
- 文档页数:85
根本统计方法第一章 概论1. 总体〔Population 〕:根据研究目确实定的同质对象的全体〔集合〕;样本〔Sample 〕:从总体中随机抽取的局部具有代表性的研究对象。
2. 参数〔Parameter 〕:反映总体特征的统计指标,如总体均数、标准差等,用希腊字母表示,是固定的常数;统计量〔Statistic 〕:反映样本特征的统计指标,如样本均数、标准差等,采用拉丁字字母表示,是在参数附近波动的随机变量。
3. 统计资料分类:定量〔计量〕资料、定性〔计数〕资料、等级资料。
第二章 计量资料统计描述1. 集中趋势:均数〔算术、几何〕、中位数、众数2. 离散趋势:极差、四分位间距〔QR =P 75-P 25〕、标准差〔或方差〕、变异系数〔CV 〕3. 正态分布特征:①X 轴上方关于X =μ对称的钟形曲线;②X =μ时,f(X)取得最大值;③有两个参数,位置参数μ和形态参数σ;④曲线下面积为1,区间μ±σ的面积为68.27%,区间μ±1.96σ的面积为95.00%,区间μ±2.58σ的面积为99.00%。
4. 医学参考值范围的制定方法:正态近似法:/2X u S α±;百分位数法:P 2.5-P 97.5。
第三章 总体均数估计和假设检验1. 抽样误差〔Sampling Error 〕:由个体变异产生、随机抽样造成的样本统计量与总体参数的差异。
抽样误差不可防止,产生的根本原因是生物个体的变异性。
2. 均数的标准误〔Standard error of Mean, SEM 〕:样本均数的标准差,计算公式:/X σσ=3. 降低抽样误差的途径有:①通过增加样本含量n ;②通过设计减少S 。
4. t 分布特征:①单峰分布,以0为中心,左右对称;②形态取决于自由度ν,ν越小,t 值越分散,t 分布的峰部越矮而尾部翘得越高;③当ν逼近∞,X S 逼近X σ, t 分布逼近u 分布,故标准正态分布是t 分布的特例。
第一章 绪论总体:根据研究目的确定的同质的所有观察单位某种变量值的集合。
总体包括有限总体和无限总体。
样本:从总体中随机抽取的部分观察单位,其实测值的集合。
获取样本仅仅是手段,通过样本信息来推断总体特性才是研究的目的。
资料的类型计量资料、计数资料和等级资料。
误差包括随机误差、系统误差和非系统误差。
抽样误差:由抽样造成的样本统计量和总体参数之间的差异或者是各个样本统计量之间的差异称为抽样误差。
概率:是描述随机事件发生可能性大小的一个度量。
取值范围0≤P ≤1。
小概率事件:表示在一次实验或观察中该事件发生的可能性很小,可以认为很可能不发生。
P ≤0.05或P ≤0.01。
医学统计学的步骤:设计、收集资料、整理资料和分析资料。
统计分析包括:统计描述和统计推断。
统计推断包括:参数估计和假设检验。
第二章计量资料的统计描述频数表和频数分布图的用途:(1)描述频数分布的类型,以便选择相应的统计指标和分析方法。
对称分布:集中位置在中间,左右两侧頻数基本对称。
偏态分布:正、负偏态分布正偏态集中位置偏向值小一侧,负偏态反之。
(2)描述頻数分布的特征;(3)便于发现资料中的可疑值;(4)便于进一步计算统计指标和进行统计分析。
计量资料集中趋势包括算术均数、几何均数和中位数。
算术均数:直接法(样本小):n x x ∑=;頻数表法(样本大)x =nfx ∑ 几何均数:直接法:)lg (lg 1n x G ∑-=;頻数表法)lg (lg )lg (lg 11n x f fx f G ∑∑∑--==(常用于等比资料或对数正态分布资料)中位数:直接法:n 为奇数2/)1(+=n x M ,n 为偶数2/)(12/2/++=n n x x M ;頻数表法:∑-⨯+=)%50(L M M f n f iL M 。
中位数的应用注意事项:可用于各种分布资料,不受极端值的影响,主要用于(1)偏态分布资料(2)端点无确切值的资料(3)分布不明确的资料。
第26讲数据的应用--直方图、统计图1、频数:一般地,我们称落在不同小组中的数据个数为该组的频数。
也称次数。
在一组依大小顺序排列的测量值中,当按一定的组距将其分组时出现在各组内的测量值的数目,即落在各类别(分组)中的数据个数。
2、频率:频数与数据总数的比为频率。
用文字表示定义为:每个对象出现的次数与总次数的比值是频率。
3、频率:频数与数据总数的比为频率。
在相同的条件下,进行了n次试验,在这n次试验中,事件A发生的次数n(A)称为事件A发生的频数。
比值n(A)/n称为事件A发生的频率,并记为fn(A).用文字表示定义为:每个对象出现的次数与总次数的比值是频率。
1、组数和组距:在统计数据时,把数据按照一定的范围分成若干各组,分成组的个数称为组数;每一组两个端点的差叫做组距。
2、列频数分布表的注意事项运用频数分布直方图进行数据分析的时候,一般先列出它的分布表,其中有几个常用的公式:各组频数之和等于抽样数据总数;各组频率之和等于1;数据总数×各组的频率=相应组的频数。
3、画频数分布直方图的目的,是为了将频数分布表中的结果直观、形象地表示出来,其中组距、组数起关键作用,分组过少,数据就非常集中;分组过多,数据就非常分散,这就掩盖了分布的特征,当数据在100以内时,一般分5~12组。
4、直方图的特点通过长方形的高代表对应组的频数与组距的比(因为比是一个常数,为了画图和看图方便,通常直接用高表示频数),这样的统计图称为频数分布直方图。
特点:①清楚显示各组频数分布情况; ②易于显示各组之间频数的差别。
5、制作频数分布直方图的步骤(1)找出所有数据中的最大值和最小值,并算出它们的差。
(2)决定组距和组数。
(3)确定分点。
(4)列出频数分布表。
(5)画频数分布直方图。
1、表示数据的两种基本方法:一是统计表,通过表格可以找出数据分布的规律;二是统计图,利用统计图表示经过整理的数据,能更直观地反映数据的规律。
《医学统计学》习题解答(最佳选择题和简答题)孙振球主编.医学统计学习题解答. 第2版. 北京:人民卫生出版社2005目录第二章计量资料的统计描述 (2)第三章总体均数的估计与假设检验 (3)第四章多个样本均数比较的方差分析 (6)第五章计数资料的统计描述 (7)第六章二项分布与Poisson分布 (9)第七章χ2检验 (11)第八章秩和检验 (13)第九章回归与相关 (14)第十章统计表与统计图 (17)第十一章多因素试验资料的方差分析 (19)第十二章重复测量设计资料的方差分析 (19)第十五章多元线性回归分析 (20)第十六章logistic回归分析 (22)第十七章生存分析 (23)第二十五章医学科学研究设计概述 (26)第二十六章观察性研究设计 (26)第二十七章实验研究设计 (28)第二十七章临床试验研究设计 (29)第二章 计量资料的统计描述(注:题号上有“方框” 的简答题为基本概念,下同)第三章总体均数的估计与假设检验简答题:第四章多个样本均数比较的方差分析简答题:第五章计数资料的统计描述简答题:第六章二项分布与Poisson分布简答题:第七章χ2检验简答题:1. 说明χ2检验的用途2. 两个样本率比较的u检验与χ2检验有何异同?3. 对于四格表资料,如何正确选用检验方法?4. 说明行×列表资料χ2检验应注意的事项?5. 说明R×C表的分类及其检验方法的选择。
第八章秩和检验简答题:5. 两独立样本比较的Wilcoxon秩和检验,当n1>10或n2-n1>10时用u检验,这时检验是属于参数检验还是非参数检验,为什么?6. 随机区组设计多个样本比较的Friedman M 检验,备择假设H1如何写?为什么?第九章回归与相关简答题:第十章统计表与统计图简答题:5. 统计表与统计图有何联系和区别?6. 茎叶图与频数分布图相比有何区别,有何优点?第十一章多因素试验资料的方差分析一、简答题1. 简述析因试验与正交试验的联系与区别。
10.1统计调查(1)1.经调查,某班同学上学所用的交通工具中,自行车占60%,公交车占30%,其他占10%,请你画出扇形图描述以上统计数据. 解:自行车所占扇形的圆心角是%36060216=⨯ 公交车所占扇形的圆心角是%36030108=⨯ 其他所占扇形的圆心角是%3601036=⨯ 扇形图如图所示2.假如你想对以“你帮父母做过家务吗?”为主题在班级进行调查,那么你在通过调查收集数据的过程中:(1)你的调查问题是: 在家里,你帮父母做过家务吗? ; (2)你的调查对象是: 本班同学 ;(3)你感兴趣的是调查对象的 在家做家务的情况 ; (4)你打算采用的调查方法是: 问卷调查或采访调查 ; (5)你打算向你的调查对象设定什么样的问题:(1)每天都做 (2)经常做 (3)偶尔做 (4)从未做过 .10.1统计调查(2)1.为了解全校学生的平均身高,小明调查了座位在自己旁边的3名同学,把他们身高的平均值作为全校学生平均身高的估计. (1)小明的调查是抽样调查吗?(2)如果是抽样调查,指出调查的总体、个体、样本和样本容量. (3)这个调查的结果能较好地反映总体的情况吗?如果不能,请说明理由. 解:(1)小明的调查是抽样调查(2)总体是该校学生的身高;个体是该校每个学生的身高;样本是小明旁边的3名同学的身高;样本容量是3.(3)这次调查不能较好反映总体的情况.理由:一是样本容量太小,二是坐在一起的同学身高都比较接近,所以这样选取的样本缺乏代表性.2.某班级要选3名同学代表本班参加班级间的交流活动,现按下面的办法抽取:把全班同学的姓名分别写在没有明显差别的小纸片上,把纸片混放在一个盒子里,充分搅拌后,随意抽取3张,按照纸片上所写的名字选取3名同学,你觉得上面抽取过程是简单随机抽样吗?为什么?答:上面的调查是简单随机抽样调查.理由:因为把全班同学的姓名写在没有明显差别的纸片上,充分搅拌说明了这些纸片是机会均等的,也就是被抽取的同学机会均等的.10.1统计调查(3)1.如果整个地区的观众中,青少年、成年人、老年人的人数比3:4:3,要抽取容量为500的样本,则各年龄段分别抽取多少人合适? 答:青少年为:3500150343⨯=++(人)成年人为:4500200343⨯=++(人) 老年人为:3500150343⨯=++(人) 另解:500150200150--=(人) ∴青少年抽取150人,成年人抽取200人,老年人抽取150人.习题10.12.两名同学在调查时使用下面两种提问方式,你认为哪一种更好些( B ) A.难道你不认为科幻片比武打片更有意思吗? B.你更喜欢哪一类电影 ——科幻片还是武打片? (A 提问明显透露了提问者的个人观点)3.要调查下面几个问题,你觉得应该做全面调查还是抽样调查? (1)了解全班同学每周体育锻炼的时间. 答: 全面调查(2)调查市场上某种食品的色素含量是否符合国家标准. 答: 抽样调查 (3)鞋厂检测生产的鞋底能承受的弯折次数. 答: 抽样调查(4)了解中央电视台春节联欢晚会的收视率. 答:抽样调查(5)了解九年级某班的每名学生星期六晚上的睡眠时间. 答: 全面调查(6)了解夏季冷饮市场上一批冰淇淋的质量情况. 答:抽样调查4.指出下列调查中的总体、个体、样本和样本容量.(1)从一批电视机中抽取20台,调查电视机的使用寿命.(2)从学校七年级中抽取30名学生,调查学校七年级学生每周用于做数学作业的时间.答:(1)总体:这批电视机的使用寿命.个体:这批电视机中每台电视机的使用寿命.样本:这批电视机中被抽取的20台电视机的使用寿命.样本容量:20(2)总体:该校七年级学生每周用于做数学作业的时间.个体:该校七年级每个学生每周用于做数学作业的时间.样本:被抽取30名学生每周用于做数学作业的时间.样本容量:305.根据下图中所标世界七大洲的面积(单位:万平方千米),画扇形图表示各大洲面积占全球陆地面积的百分比,并用语言描述你获得的信息.解:七大洲总面积为:...24228101044003020179789714051149519++++++=(万平方千米)由图可知,世界陆地面积的一半是亚洲和非洲,尤以亚洲的面积最大,占世界陆地面积的 29.4%,世界上面积最小的洲是大洋洲.其次是欧洲.6.我国体育健儿在最近六届奥运会上获得奖牌的情况如图所示. (1)最近六届奥运会上,我国体育健儿共获得 286 枚奖牌. (2)用条形图表示折线图中的信息.解:条形图如下7. 一家食品公司的市场调查员将本公司生产的一种新点心免费送给36人品尝,以调查这种点心的甜度是否适中,调查结果如下:请你用表格整理上面的数据,画条形图,并推断甜点的甜度是否适中.届数29.4%亚洲 20.2%非洲 9.4%南极洲16.2%北美洲 12%南美洲6%大洋洲6.8%欧洲解: 点心甜度统计表画出条形图:8.对某中学学生户外活动时间进行抽样调查,学校共有学生1 500名,其中有男生800名,女生700名,如果样本容量为150,小明现有三种方案: A.在七年级学生中随机抽取150名学生进行调查 B.在全校学生中随机抽取150名学生进行调查C.分别在男生中随机抽取80名,在女生中随机抽取70名女生进行调查 你觉得哪种方案调查的结果更精确?说说你的理由.答:选择C 更精确.因为男生户外活动的时间一般会比女生多,所以这两个人群在户外活动的时间上有差别.按男女生比分配名额抽样,使得两个人群都有一定的数据入选样本,方案C 抽取的样本会较好地反映总体的情况.9.为了解七年级同学对三种元旦活动方案的意见,校学生会对七年级全体同学进行了一次调查(每人至多赞成一种方案).结果有115人赞成方案1,62人赞成方案2,40人赞成方案3,8人弃权,请用扇形图描述这些数据,并对校学生会采用的哪种方案组织元旦活动提出建议.解:列表如下右图是七年级同学对三种元旦活动方案的意见情况扇形统计图 建议校学生会选择方案1,因为赞成这个方案的同学最多.10.随着我们对外开放程度的不断扩大,我国对外贸易迅速发展,下表是我国近几年的进出口额数据,请选择适当统计图描述这两组数据,并对他们进行比较.答:画折线图如右图所示这些数据说明随着我们改革开放 不断深入,对外进出口额逐年增加.11.镇政府想了解李家庄的经济情况,用简单随机抽样的方法,在130户家庭中抽取20户调查过去一年收入(单位:万元),结果如下:1.3 1.72.4 1.1 1.4 1.6 1.6 2.7 2.1 1.5 0.93.2 1.3 2.1 2.6 2.1 1.0 1.8 2.2 1.8 试估计村中住户的户平均年收入、整村的年收入以及村中户年收入超过1.5万元的百分比.年份••••出口额进口额弃权解:住户平均年收入为1(1.3 1.7 1.8) 1.8220+++=(万元)整村的总收入为=1.82130236.6⨯(万元)村中户年收入超过1.5万元占百分比为13100%65%20⨯=12.据统计,A,B 两省人口总数基本相同,2001年A 省的城镇在校中学生人数为156万,农村在校中学生人数为72万;B 省的城镇在校中学生人数为84万,农村在校中学生人数为103万.李军同学根据数据画出下面两个复合条形统计图.(1)图 2 更好反映两省在校中学生总数;(2)图 1 更好地比较A(B)省城镇和农村在校中学生人数; (3)说说两种图的特点.解:图(1)更直观地反映本省城镇与农村在校中学生人数的差别; 图(2)更好反映两省在校中学生总数的差别.频数B 省农村频数200农村城镇(1)(2)10.2 直方图(1)1.下面数据是截止2002年费尔兹奖得主获奖时的年龄:29 39 35 33 39 28 33 35 31 31 37 32 38 36 31 39 32 38 37 34 29 34 38 32 35 36 33 29 32 35 36 37 39 38 40 38 37 39 38 34 33 40 36 36 37 40 31 38请根据下面的不同分组方法,你觉得比较哪一种分组能更好地说明费尔兹奖得主获奖的年龄分布,并列出频数分布表,画出频数分布直方图. (1)组距是2,各组是2830,3032,≤<≤<x x ; (2)组距是5,各组是2530,3035,≤<≤<x x ; (3)组距是10,各组是2030,3040,≤<≤<x x .解:选(2)组能更好地说明费尔兹奖得主获奖的年龄分布.第(1)组距太小操作麻烦;第(3)组距太大,不能很好说明问题. 频数分布表: 频数分布直方图:习题10.21.江涛同学统计了他家10月份的长途电话明细清单,按通话时间画出频数分布直方图. (1)他家这个月一共打了 77 次长途电话; (2)通话时间不足10分钟的 43 次; (3)通话时间在 0~5 分钟范围最多,一一通话时间在 10~15 分钟范围最少.2.从蔬菜大棚中收集到50株西红柿秧上小西红柿的个数:28 62 54 29 32 47 68 27 55 43 36 79 46 54 25 82 16 39 32 64 61 59 67 56 45 74 49 36 39 52 85 65 48 58 59 64 91 67 54 57 68 54 71 26 59 47 58 52 52 70请按组距为10将数据分组,列出频数分布表,画出频数分布直方图和频数折线图,分析数据分布情况.解:(1)计算最大值与最小值的差:=911675-(2)决定组距与组数:当组距为10时,=757.510∴可分为8组 (3)列频数分布表:答:从统计图上看,一株上结出西红柿 的个数在46~66最多,占一半; 个数在86~96最少,才1个3.体育委员统计了全班同学60秒跳绳的次数,并列出下列频数分布表:(1)全班有 53 名同学; (2)组距是 20 ,组数是 7 ;(3)跳绳次数x 在100140≤<x 范围的同学有 34 人,占全班同学 64.15 %;(精确到0.01%) (4)画出适当的统计图表示上面的信息;(4)画频数分布直方图和频数折线图:(5)你怎样评价这个班的跳绳成绩?4.一位面粉批发商统计了前48个星期的销售情况(单位:吨):24.4 19.1 22.7 20.4 21.0 21.6 22.8 20.9 21.8 18.6 24.3 20.5 19.7 23.5 21.6 19.8 20.3 22.4 20.2 22.3 21.9 22.3 21.4 19.2 23.5 20.5 22.1 22.7 23.2 21.7 21.1 23.1 23.4 23.3 21.0 24.1 18.5 21.5 24.4 22.6 21.0 20.0 20.7 21.5 19.8 19.1 19.1 22.4 请将数据适当分组,列出频数分布表,画出频数分布直方图和频数折线图,并分析这位面粉批发商每星期进面粉多少吨比较合适.解:(1)计算最大值与最小值的差:=24.418.5 5.9- (2)决定组距为1,则组数为6(3)列频数分布表: (4)画频数分布直方图与频数折线图答:从频数分布表, 频数分布直方图和频数折线图来看,这位面粉批发商每个星期进22吨左右比较合适,同时还要根据市场的实际情况灵活地进行调整,做到既不脱销又不积压.答:(5)该班跳绳成绩中等的(每分钟跳x <100140≤范围的同学)约占64.15%,跳绳成绩差的(每分钟跳x <6080≤范围的同学)很少,跳绳成绩特别好的(每分钟跳x <180200≤范围的同学)只有1个,中间大,两头小,符合正常的分布规律.5.下面是1999年全国一些省(自治区、直辖市)的城市园林绿地面积(单位:公顷).北京19 070 上海9 520 湖北63 623 云南9 566 天津7 108江苏57 386 湖南26 804 西藏 1 962 河北22 626 浙江24 180广东112 007 陕西9 234 山西8 581 安徽31 317 广西41 669甘肃4 091 内蒙古15 246 福建17 109 海南5 522 青海1 336辽宁58 906 江西16 561 重庆9 003 宁夏3 303 吉林22 777山东53 424 四川45 798 新疆16 527 黑龙江32 097 河南22 830 贵州9 278根据提供的数据,填写下列表格并分析1999年这些地区的城市园林绿地面积的分布情况直辖市)的城市园林绿地面积频数分布表知:绿地面积偏小的省份较多,尤其是绿地面积小于10 000公顷的有12个,除4个直辖市外绿地面积从小到大的依次是青海、西藏、宁夏、甘肃、海南、山西、陕西、贵州、云南等8个省(自治区),这些地区可谓是绿地贫泛的地区,它们多处于我国的西北、西南,绿地面积40 000公顷以上的7个省从小到大依次是广东、湖北、辽宁、江苏、山东、四川、广西,尤其是广东几乎是湖北的两倍,处于遥遥领先的地位.11。