第5 统计比较分析
- 格式:pptx
- 大小:155.60 KB
- 文档页数:25
分层抽样(15分钟30分)1.为了解某地区的中小学生视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大,在下面的抽样方法中,最合理的抽样方法是()A。
抽签法B。
按性别分层抽样C。
按学段分层抽样 D.随机数表法【解析】选C.事先已经了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大.了解某地区中小学生的视力情况,按学段分层抽样,这种方式具有代表性,比较合理.2。
一班有学员54人,二班有学员42人,现在要用分层抽样的方法从两个班中抽出一部分人参加4×4方队进行军训表演,则一班和二班分别被抽取的人数是()A。
9、7 B。
15、1C.8、8D.12、4【解析】选A.设一班被抽取的人数是x,则=,解得x=9,所以一班被抽取的人数是9,二班被抽取的人数是16—9=7.3。
(2020·铁岭高一检测)某校数学教研组为了解学生学习数学的情况,采用分层抽样的方法从高一600人、高二780人、高三n人中,抽取35人进行问卷调查,已知高二被抽取的人数为13人,则n等于()A.660B.720 C。
780 D。
800【解析】选B.由已知,抽样比为=,所以=,n=720.4。
某工厂的一、二、三车间在12月份共生产了3 600件产品,在出厂前要检查这批产品的质量,决定采用分层抽样的方法进行抽取,若从一、二、三车间抽取的产品数分别为a,b,c,且满足a+c=2b,则二车间在12月份生产的产品数为()A。
800 B。
1 000 C.1 200 D。
1 500【解析】选C.因为2b=a+c,所以二车间抽取的产品数占抽取产品总数的三分之一,根据分层抽样的性质可知,二车间生产的产品数占总数的三分之一,即为3 600×=1 200。
5。
(2020·南京高一检测)某市有中外合资企业160家,私营企业320家,国有企业240家,其他性质的企业80家,为了了解企业的管理情况,现用分层抽样的方法从这800家企业中抽取一个容量为n的样本,已知从国有企业中抽取了12家,那么n=________。
第5章统计指数与综合评价【引例】国家统计局定期公布一些常用的价格指数,以此作为反映我国经济活动的晴雨表。
如居民消费价格指数、商品零售价格指数、工业生产者价格指数、70个大中城市住宅销售价格指数等。
在国家统计局公布的指数中,运用最广泛的是居民消费价格指数,它常常用于通货膨胀的测度。
国家统计局公布的数据显示,2012年12月份,全国居民消费价格总水平同比上涨2.5%。
其中,城市上涨2.5%,农村上涨2.5%;食品价格上涨4.2%,非食品价格上涨1.7%;消费品价格上涨2.5%,服务项目价格上涨2.5%。
2012年,全国居民消费价格总水平比上年上涨2.6%。
第三章的引例中提到,我国“2011年全国农村居民人均纯收入6977元,比上年增加1058元,增长17.9%。
剔除价格因素影响,实际增长11.4%”。
什么是指数?价格指数与价格涨跌百分比是什么关系?上文中两个增长率之间又存在什么关系?指数应如何计算?指数还有什么作用?对这些问题的解答正是本章的主要内容。
本章重点将介绍指数的编制原理、应用及几种常用的价格指数,此外也简要介绍对现象进行多指标综合评价的基本原理和常用方法。
本章小结1.狭义指数是指综合反映复杂现象总体数量变动或差异程度的特殊相对数,具有综合性和平均性的特点。
数量指标指数说明现象总规模、总水平的变动,质量指标指数说明现象对比关系、质量水平的变动。
2.总指数的基本计算方法有综合法和平均法。
综合法指数是通过同度量因素使不同度量、不能加总的现象转化为同度量的现象,再将两个时期的综合总量对比计算的总指数。
同度量因素不仅具有同度量作用还具有权数的作用。
拉氏综合法指数将同度量因素固定在基期;帕氏综合法指数将同度量因素固定在报告期。
平均法指数是通过对个体指数加权平均而求得的总指数。
一定条件下,综合法指数与平均法指数存在变形关系。
3.指数体系是若干个有联系的指数形成的整体。
利用指数体系可进行指数之间的相互推算和进行因素分析。
第四章统计数据的概括性度量4.1 一家汽车零售店的10名销售人员5月份销售的汽车数量(单位:台)排序后如下:2 4 7 10 10 10 12 12 14 15要求:(1)计算汽车销售量的众数、中位数和平均数。
(2)根据定义公式计算四分位数。
(3)计算销售量的标准差。
(4)说明汽车销售量分布的特征。
解:Statistics10Missing 0Mean 9.60Median 10.00Mode 10Std. Deviation 4.169Percentiles 25 6.2550 10.0075单位:周岁19 15 29 25 2423 21 38 22 1830 20 19 19 1623 27 22 34 2441 20 31 17 23要求;(1)计算众数、中位数:排序形成单变量分值的频数分布和累计频数分布:网络用户的年龄(2)根据定义公式计算四分位数。
Q1位置=25/4=6.25,因此Q1=19,Q3位置=3×25/4=18.75,因此Q3=27,或者,由于25和27都只有一个,因此Q3也可等于25+0.75×2=26.5。
(3)计算平均数和标准差;Mean=24.00;Std. Deviation=6.652(4)计算偏态系数和峰态系数:Skewness=1.080;Kurtosis=0.773(5)对网民年龄的分布特征进行综合分析:分布,均值=24、标准差=6.652、呈右偏分布。
如需看清楚分布形态,需要进行分组。
1、确定组数: ()lg 25lg() 1.398111 5.64lg(2)lg 20.30103n K =+=+=+=,取k=6 2、确定组距:组距=( 最大值 - 最小值)÷ 组数=(41-15)÷6=4.3,取53、分组频数表网络用户的年龄 (Binned)分组后的直方图:客都进入一个等待队列:另—种是顾客在三千业务窗口处列队3排等待。
1.数据加密:首先打开Whonet5.5软件,为保护患者隐私,我们对患者资料进行加密,在“数据输入”下选择“将病人的情况加密”,出现下图:点击“浏览”选择需要加密的数据,输入密语,点击“转换”至出现下图:数据加密成功,我们可以打开该数据文件,浏览数据库看看,下图为经过加密后的数据。
病历号、标标编号、实验编号和患者姓名都加密了。
2.科室分布统计:首先打开Whonet5.5软件,点击“数据分析”下的“数据分析”,出现下图:点击“分析类型”出现下图:在上图中行选择“科室”,列选择“检验结果”后点击“确定”,然后在细菌中选择“细菌组”,双击“所有细菌”并“确定”。
然后选择“数据文件”,如下图,若未找到想要的数据文件,可在文件类型下,选择:“所有文件”,选择所要分析的数据文件至右边,也可以多个文件一同分析。
当所有设置选择完后,点击下图“开始分析”出现下图,此为第一阶段的分析表(即详细表格),若有必要可点击左上角的“复制表格”至电子表格中粘贴即可。
然后点击“继续”分析出第二阶段统计表,如下图:若要统计表按病人数量或百分比等从大到小排列,只需要相应列处点击一下即可,如下图为按“病人数量”多少排列。
下图为ICU病房菌株分布柱状图:点击左上角的“复制表格”至电子表格中粘贴即可对此表进行统计分析处理,见下图:3.标本类型统计:依然按上面所述,打开WHONET5软件,打开自己的实验室,点击“数据分析”→分析类型,然后按下图所示选择,当然也可按自己的思路去做的。
选择完毕后点击确定,然后按下图所示选择:点击开始分析,即出现下图:这为详细列表,可以复制和打印,完后点继续即继续分析出第二阶段统计表,见下图:在上图的“文件”选项下有很多选项,你可以在这儿选择复制、打印及调整图形选项美化图形等操作:下面为图形选项调整截图:下图为调整后效果图:下图为保存表格选项:下面为保存后的柱状图:还可能根据需要进行分类:最后设置完毕,可点击“复制表格”等操作将表格复制到电子表格中编辑。
第5章统计比较分析在研究和分析数据时,一种常见的方法是进行统计比较分析。
统计比较分析是通过比较不同组群或不同时间点的数据,来找出它们之间的差异和相似之处。
通过这种方法,我们可以获得对数据更全面和深入的理解,揭示变量之间的关系,并得出相应的结论。
统计比较分析可以是描述性的,也可以是推断性的。
描述性比较分析是对数据进行整体描述和总结,展示不同组群或不同时间点之间的差异和相似之处。
而推断性比较分析则是通过样本数据来推断总体的差异和相似之处。
这种方法需要根据概率统计理论和假设检验来进行。
在进行统计比较分析时,我们首先要明确比较的目标,确定要比较的变量和组群。
然后,我们可以选择合适的统计方法和工具来进行分析。
常用的统计比较方法包括均值比较、频数比较、相关性分析、方差分析等。
均值比较是一种常见的统计比较方法。
它用于比较两个或多个组群的均值是否存在差异。
常用的方法包括独立样本t检验、配对样本t检验和方差分析。
独立样本t检验适用于比较两个独立组群的均值差异,配对样本t检验适用于比较同一组群在不同时间点的均值差异,方差分析适用于比较三个或多个组群的均值差异。
频数比较是一种用于比较两个组群的频数分布是否存在差异的方法。
常用的方法包括卡方检验和Fisher精确检验。
卡方检验适用于比较两个或多个组群的频数分布是否存在差异,而Fisher精确检验适用于样本量较小的情况。
相关性分析是一种用于分析两个变量之间关系的方法。
常用的方法包括皮尔逊相关系数和斯皮尔曼秩相关系数。
皮尔逊相关系数适用于两个变量都是连续变量的情况,而斯皮尔曼秩相关系数适用于至少一个变量是有序变量的情况。
在进行统计比较分析时,我们还要注意一些统计方法的限制和假设。
例如,在使用独立样本t检验时,我们要求样本来自正态分布的总体,并且方差相等。
在使用卡方检验时,我们要求样本频数满足一定的条件。
如果这些假设不满足,我们可以考虑使用非参数方法进行比较分析。
综上所述,统计比较分析是一种重要的数据分析方法,可以帮助我们深入理解数据,揭示变量之间的关系,得出相应的结论。
第五章5.1 设总体x是用无线电测距仪测量距离的误差,它服从(α,β)上的均匀分布,在200次测量中,误差为xi的次数有ni次:Xi:3 5 7 9 11 13 15 17 19 21Ni:21 16 15 26 22 14 21 22 18 25求α,β的矩法估计值α=u-√3sβ=u+√3s程序代码:x=seq(3,21,by=2)y=c(21,16,15,26,22,14,21,22,18,25)u=rep(x,y)u1=mean(u)s=var(u)s1=sqrt(s)a=u1-sqrt(3)*s1b=u1+sqrt(3)*s1b=u1+sqrt(3)*s1得出结果:a= 2.217379b= 22.402625.2为检验某自来水消毒设备的效果,现从消毒后的水中随机抽取50L,化验每升水中大肠杆菌的个数(假设1L水中大肠杆菌的个数服从泊松分布),其化验结果如下表所示:试问平均每升水中大肠杆菌个数为多少时,才能使上述情况的概率达到最大大肠杆菌数/L:0 1 2 3 4 5 6水的升数:17 20 10 2 1 0 0γ=u是最大似然估计程序代码:a=seq(0,6,by=1)b=c(17,20,10,2,1,0,0)c=a*bd=mean(c)得出结果:d= 7.1428575.3已知某种木材的横纹抗压力服从正态分布,现对十个试件做横纹抗压力试验,得数据如下:482 493 457 471 510 446 435 418 394 469(1)求u的置信水平为0.95的置信区间程序代码:x=c(482 493 457 471 510 446 435 418 394 469 )t.test(x)得出结果:data: xt = 6.2668, df = 9, p-value = 0.0001467alternative hypothesis: true mean is not equal to 095 percent confidence interval:7.668299 16.331701sample estimates:mean of x12由答案可得:u的置信水平为0.95的置信区间[7.668299 16.33170 1](2)求σ的置信水平为0.90的置信区间程序代码:chisq.var.test<-function(x,var,alpha,alternative="two.sided"){options(digits=4)result<-list()n<-length(x)v<-var(x)result$var<-vchi2<-(n-1)*v/varresult$chi2<-chi2p<-pchisq(chi2,n-1)result$p.value<-pif(alternative=="less")result$p.value<-pchaisq(chi2,n-1,loer.tail=F)else if(alternative=="two.sider")result$p.value<-2*min(pchaisq(chi2,n-1),pchaisq(chi2,n-1,lower.tail=F))result$conf.int<-c((n-1)*v/qchisq(alpha/2,df=n-1,lower.tail=F),(n-1)*v/qchisq(alpha/2,df=n-1,lower.tail=T))result}x<-c(482,493,457,471,510,446,435,418,394,469)y=var(x)chisq.var.test(x,0.048^2,0.10,alternative="two.side")得出结果:$conf.int: 659.8 3357.0由答案可得:σ的置信水平为0.90的置信区间[659.8 3357.0] 5.4某卷烟厂生产两种卷烟A和B 现分别对两种香烟的尼古丁含量进行6次试验,结果如下:A:25 28 23 26 29 22B:28 23 30 35 21 27若香烟的尼古丁含量服从正态分布(1)问两种卷烟中尼古丁含量的方差是否相等(通过区间估计考察)(2)试求两种香烟的尼古丁平均含量差的95%置信区间(1)程序代码:X=c(25,28,23,26,29,22)Y=c(28,23,30,35,21,27)Var.test(x,y)得出结果:F test to compare two variancesdata: x and yF = 0.2992, num df = 5, denom df = 5, p-value = 0.2115 alternative hypothesis: true ratio of variances is not equa l to 195 percent confidence interval:0.04187 2.13821sample estimates:ratio of variances0.2992由答案可得:其方差不相等,方差区间为[0.04187 2.13821](2)5.5 比较两个小麦品种的产量,选择24块条件相似地实验条,采用相同的耕作方法做实验,结果播种甲品种的12块实验田的单位面积产量和播种乙品种的12块试验田的单位面积产量分别为:A:628 583 510 554 612 523 530 615 573 603 334 564B:535 433 398 470 567 480 498 560 503 426 338 547假定每个品种的单位面积产量服从正态分布,甲品种产量的方差为2140,乙品种产量的方差为3250,试求这两个品种平均面积产量差的置信水平为0.95的置信上限和置信水平为0.90的置信下限。