第四讲 描述性统计
- 格式:pdf
- 大小:996.85 KB
- 文档页数:33
社会实践中的统计数据分析方法统计学作为一门科学,广泛应用于社会实践中的各个领域。
它通过收集、整理和分析数据,帮助我们了解现象背后的规律,并为决策提供依据。
在本文中,我们将探讨社会实践中的统计数据分析方法。
一、数据收集与整理在进行统计数据分析之前,首先需要进行数据的收集与整理。
数据的收集可以通过问卷调查、实地观察、实验研究等方式进行。
在选择数据收集方法时,需要根据研究目的和数据的可行性进行合理选择。
而数据的整理则是将收集到的数据进行分类、筛选、清洗和归档,以便后续的分析工作。
二、描述性统计分析描述性统计分析是对数据进行总结和描述的方法。
它通过计算数据的中心趋势(如均值、中位数、众数)、离散程度(如标准差、极差)和数据的分布情况(如频数分布、百分位数)等指标,来描述数据的特征。
描述性统计分析可以帮助我们了解数据的基本情况,为后续的推断性统计分析提供参考。
三、推断性统计分析推断性统计分析是基于样本数据对总体进行推断的方法。
它通过对样本数据进行抽样分析,得出关于总体的概率推断。
常见的推断性统计分析方法包括假设检验和置信区间估计。
假设检验通过对样本数据进行假设检验,判断总体参数是否符合某种假设;置信区间估计则是通过对样本数据进行分析,给出总体参数的一个区间估计,以反映估计结果的不确定性。
四、相关性分析相关性分析是研究两个或多个变量之间关系的方法。
它通过计算相关系数来衡量变量之间的相关程度。
常见的相关系数包括皮尔逊相关系数和斯皮尔曼相关系数。
相关性分析可以帮助我们了解变量之间的相关性质,从而为决策提供依据。
五、回归分析回归分析是研究因果关系的方法。
它通过建立统计模型,分析自变量对因变量的影响程度。
回归分析可以帮助我们预测和解释变量之间的关系,并从中找出影响因素。
常见的回归分析方法包括线性回归、逻辑回归和多元回归等。
六、时间序列分析时间序列分析是研究时间上变化的方法。
它通过对时间序列数据进行建模和分析,揭示数据随时间变化的规律。
【例1】2009年中央卷在2008年8月8日致24日奥运会器件,北京市的空气质量不仅天天达标,而且有10天达到一级,全面兑现了对奥运会空气质量的承诺。
下图是2008年1-8月北京市大气质量检测情况,图中一、二、三、四级是空气质量等级,一级空气质量最好,一级和二级都是质量达标天气。
2008年北京市的空气质量控制目标是全年达标天数累计达256天。
2008年1-8月北京市天气质量检测情况121、1-8月空气合格天数超过20天的月份有多少个()A.4B.5C.6D.7【苏索朱建国解析】122、1-8月间,月平均空气质量合格天数约为多少天()A.22B.24C.26D.28【苏索朱建国解析】123、若将空气质量达标任务平均分配到各月,截至8月末,全年256天空气质量达标的计划完成情况是()A.完成进度较慢B.完成进度正常C.完成进度提前D.无法判断【苏索朱建国解析】124、第二季度与第一季度相比,空气达标天数的比重()A.上升了3.3%B.下降了3.3%C.上升了12%D.下降了12%【苏索朱建国解析】125、下列关于2008年1-8月间北京空气质量的描述,不正确的是()A.3-5月的空气质量较差B.各月份空气质量相差不大C.8月是空气质量最好的一个月D.有一个月的空气质量达标天数少于15天【苏索朱建国解析】【例2】2008年江苏B卷2006年全国各省(区、市)地下水水质变化趋势151.由上图可看出,2006年水质没有变化的省(区、市)有A.2个B.5个C.4个D.6个【苏索朱建国解析】152.上图中,2006年水质恶化的监测点多于水质好转的监测点的省(区、市)有A.18个B.19个C.12个D.15个【苏索朱建国解析】153.下列省(区、市)中水质恶化率与好转率之比约为30%的是A.山西B.广东C.云南D.重庆【苏索朱建国解析】154.下列说法中正确的是A.2006年各直辖市的水质均保持良好B.2006年水质恶化率最高的省(区、市),其水质好转率相应最低C.总体上2006年全国水质全面好转趋势明显D.以上说法都不对【苏索朱建国解析155.2006年水质好转率高于30% 的省(区、市)份数与水质恶化率低于30%的省(区、市)份数之比为A.4∶11 B.2∶13 C.4∶9 D.2∶5【苏索朱建国解析】【例3】2007年中央1998年世界啤酒消费量 2004年世界啤酒消费量单位:十亿升136.从1998 年到2004 年,美洲地区啤酒销售量占世界啤酒消费总量的比重:A.下降了3 个百分点心.B.下降量2个百分点C.下降了1 个百分点D.上升了l 个百分点【苏索朱建国解析】137.1998 年至2004 年啤酒消费量增长最快的两个地区,其啤酒销售量2004 年占世界啤酒消费量的比重约是:A.20.8%B.35.0 %C. 42.0 % D . 62.4 %【苏索朱建国解析】138.与亚洲相比,整个欧洲的啤酒消费量:A.绝对量多于亚洲,2004年相对于1998 年的增长快于亚洲B.绝对量多于亚洲,2004年相对于1998 年的增长慢于亚洲C.绝对量少于亚洲,2004年相对于1998 年的增长快于亚洲D.绝对量少于亚洲,2004年相对于1998 年的增长慢于亚洲【苏索朱建国解析】139.关于啤酒销售量,下列说法错误的是A.六年来世界啤酒消费总量的增长超过了10%B.北美洲和西欧啤酒销售量的差距在六年间缩小了C.亚洲的啤酒消费量始终占到了世界啤酒消费量的四分之一D.无论是啤酒消费绝对量还是占世界啤酒消费总量的比重,北美都有所增长。
第四讲 数据的基本统计分析数据的基本统计分析1.数据的描述性统计分析通常在得到数据并对数据进行除错的预处理后,需要对数据进行描述性的统计分析。
比如:对数据中变量的最小值、最大值、中位数、平均值、标准差、偏度、峰度以及正态性检验等进行分析。
对于这些经常性遇到的重复过程,我们可以自己编写函数,将函数保存在MATLAB自动搜索文件夹下,然后就可以直接调用自己定义的函数了。
对于上述描述性统计分析,我们可以在MATLAB命令窗口中输入:edit discription,然后在弹出的窗口中选择yes,就创建了一个文件名为discription的M文件。
然后在弹出的空白文件中编写以下M函数: function D=discription(x)%descriptive statistic analysis%input:%x is a matrix, and each colummn stands for a variable%output:%D:structure variable,denotes Minimium,Maximium,Mean,Median,%Standard_deviation,Skewness,Kurtosis,and normal distribution test,respectively.%notes:when the number of oberservations of the colummn variables less than 30,%Lilliefors test is used for normal distribution test,and output D.LSTA denotes%test statistic and D.LCV denote critical value under 5% significant level;%otherwise, Jarque-Bera test is used, and output D.JBSTA denotes test statistic%and D.JBCV denote critical value under 5% significant level.If test statistic is%less than critical value,the null hypothesis (normal distribution) can not%be rejected under 5% significant level.D.Minimium=min(x);D.Maximium=max(x);D.Mean=mean(x);D.Median=median(x);D.Standard_deviation=std(x);D.Skewness=skewness(x);D.Kurtosis=kurtosis(x);if size(x,1)<30disp('small observations,turn to Lilliefors test for normal distribution')for i=1:size(x,2)[h(i),p(i),Lilliefors(i),LCV(i)]=lillietest(x(:,i),0.05);endD.LSTA=Lilliefors;D.LCV=LCV;elsefor i=1:size(x,2)[h(i),p(i),Jarque_Bera(i),JBCV(i)]=jbtest(x(:,i),0.05);endD.JBSTA=Jarque_Bera;D.JBCV=JBCV;end注意在上面给出的函数例子中,我们使用了discription作为文件名,这与函数文件中第一行中的discription保持了一致。