统计实验1
- 格式:doc
- 大小:28.00 KB
- 文档页数:3
实验一SPSS软件的基本操作与均值向量和协方差阵的检验【实验目的】通过本次实验,了解SPSS的基本特征、结构、运行模式、主要窗口等,了解如何录入数据和建立数据文件,掌握基本的数据文件编辑与修改方法,对SPSS有一个浅层次的综合认识。
同时能够掌握对均值向量和协方差阵进行检验。
【实验性质】必修,基础层次【实验仪器及软件】计算机及SPSS软件【实验内容】1.操作SPSS的基本方法(打开、保存、编辑数据文件)2.问卷编码3.录入数据并练习数据相关操作4.对均值向量和协方差阵进行检验,并给出分析结论。
【实验学时】4学时【实验方法与步骤】1.开机2.找到SPSS的快捷按纽或在程序中找到SPSS,打开SPSS3.认识SPSS数据编辑窗、结果输出窗、帮助窗口、图表编辑窗、语句编辑窗4.对一份给出的问卷进行编码和变量定义5.按要求录入数据6.练习基本的数据修改编辑方法7.检验多元总体的均值向量和协方差阵8.保存数据文件9.关闭SPSS,关机。
【实验注意事项】1.实验中不轻易改动SPSS的参数设置,以免引起系统运行问题。
2.遇到各种难以处理的问题,请询问指导教师。
3.为保证计算机的安全,上机过程中非经指导教师和实验室管理人员同意,禁止使用移动存储器。
4.每次上机,个人应按规定要求使用同一计算机,如因故障需更换,应报指导教师或实验室管理人员同意。
5.上机时间,禁止使用计算机从事与课程无关的工作。
【上机作业】1.定义变量:试录入以下数据文件,并按要求进行变量定义。
表1学号姓名性别生日身高(cm)体重(kg)英语(总分100分)数学(总分100分)生活费($代表人民币)200201 刘一迪男1982.01.12 156.42 47.54 75 79 345.00 200202 许兆辉男1982.06.05 155.73 37.83 78 76 435.00 200203 王鸿屿男1982.05.17 144.6 38.66 65 88 643.50 200204 江飞男1982.08.31 161.5 41.68 79 82 235.50 200205 袁翼鹏男1982.09.17 161.3 43.36 82 77 867.00 200206 段燕女1982.12.21 158 47.35 81 74200207 安剑萍女1982.10.18 161.5 47.44 77 69 1233.00 200208 赵冬莉女1982.07.06 162.76 47.87 67 73 767.80 200209 叶敏女1982.06.01 164.3 33.85 64 77 553.90 200210 毛云华女1982.09.12 144 33.84 70 80 343.00200211 孙世伟男1981.10.13 157.9 49.23 84 85 453.80200212 杨维清男1981.12.6 176.1 54.54 85 80 843.00男1981.11.21 168.55 50.67 79 79 657.40 200213 欧阳已祥200214 贺以礼男1981.09.28 164.5 44.56 75 80 1863.90200215 张放男1981.12.08 153 58.87 76 69 462.20200216 陆晓蓝女1981.10.07 164.7 44.14 80 83 476.80200217 吴挽君女1981.09.09 160.5 53.34 79 82200218 李利女1981.09.14 147 36.46 75 97 452.80200219 韩琴女1981.10.15 153.2 30.17 90 75 244.70200220 黄捷蕾女1981.12.02 157.9 40.45 71 80 253.00要求:1)变量名同表格名,以“()”内的内容作为变量标签。
实验报告课程名称:实验项目名称:姓名:学号:班级:指导教师:2016 年 3 月 10 日新疆财经大学实验报告实验要求与数据:1、产生50 个标准正态分布的随机数并画出它们的正态分布概率图形.2、画出参数变化的概率密度分布图,正态分布的u,σ变化,产生100个均值为5,标准差为1的正态分布的随机数,再产生100个均值为6,标准差为1的正态分布的随机数,画概率密度图3、设随机变量X取区间[-5,5]上步长为0.1的各值, 计算X的服从参数为5 的t 分布的概率,并画出概率密度函数图形,同时画出标准正态概率密度曲线,观察二者的区别.4、根据已知数据,求秩和正态得分1.set.seed(1)x<-seq(-5,5,length.out=50)y<-dnorm(x,0,1)plot(x,y,col="red",xlim=c(-5,5),ylim=c(0,1),type='l',xaxs="i",yaxs="i",ylab='density',xlab='',main="The Normal Density Distribution")lines(x,dnorm(x,0,0.5),col="green")lines(x,dnorm(x,0,2),col="blue")lines(x,dnorm(x,-2,1),col="orange")legend("topright",legend=paste("m=",c(0,0,0,-2),"sd=",c(1,0.5, 2,1)),lwd=1,col=c("red","green","blue","orange"))2.画出参数变化的概率密度分布图,正态分布的u,σ变化,产生100个均值为5,标准差为1的正态分布的随机数,再产生100个均值为6,标准差为1的正态分布的随机数,画概率密度图命令:set.seed(1)x <- seq(0,10,length.out=100)y <- dnorm(x,5,1)plot(x,y,col="red",xlim=c(0,10),ylim=c(0,1),type='l',xaxs="i", yaxs="i",ylab='density',xlab='',main="The Normal Density Distribution")lines(x,dnorm(x,6,1),col="green")legend("topright",legend=paste("m=",c(5,6)," sd=", c(1,1)), lwd=1, col=c("red", "green"))3.set.seed(1)x<-seq(-5,5,length.out=1000)y<-dt(x,1,0)plot(x,y,col="red",xlim=c(-5,5),ylim=c(0,0.5),type="l",xaxs="i ",yaxs="i",ylab='density',xlab='',main="The T Density Distribution")lines(x,dt(x,5,0),col="green")lines(x,dt(x,15,0),col="blue")lines(x,dt(x,100,0),col="orange")legend("topleft",legend=paste("df=",c(1,5,15,100),"ncp=",c(0,0 ,0,0)),lwd=1,col=c("red","green","orange")set.seed(1)x<-seq(-5,5,length.out=1000)y<-dunif(x,0,1)plot(x,y,col="red",xlim=c(0,10),ylim=c(0,2),type="l",xaxs="i",yaxs="i",ylab='density',xlab='',main="The Uniform Density Distribution")lines(x,dunif(x,0,0.5),col="green")lines(x,dunif(x,0,2),col="blue")lines(x,dunif(x,1,6),col="orange")lines(x,dunif(x,2,4),col="purple")legend("topright",legend=paste("m=",c(0,0,0,1,2),"sd=",c(1,0.5 ,2,6,4)),lwd=1,col=c("red","green","orange","purple")4. 根据已知数据用SPSS统计软件得到的结果为:(注:文档可能无法思考全面,请浏览后下载,供参考。
一.实验目的与要求(一)目的实验一: EXCEL的数据整理与显示1. 了解EXCEL的基本命令与操作、熟悉EXCEL数据输入、输出与编辑方法;2. 熟悉EXCEL用于预处理的基本菜单操作与命令;3. 熟悉EXCEL用于整理与显示的基本菜单操作与命令。
实验二: EXCEL的数据特征描述、抽样推断熟悉EXCEL用于数据描述统计、抽样推断实验三: 时间序列分析掌握EXCEL用于移动平均、线性趋势分析的基本菜单操作与命令。
实验四: 一元线性回归分析掌握EXCEL用于相关与回归分析的基本操作与命令。
(二)要求1.按要求认真完成实验任务中规定的所有练习;2.实验结束后要撰写格式规范的实验报告, 正文统一用小四号字, 必须有页码;3、实验报告中的图表制作要规范, 图表必须有名称和序号;4、实验结果分析既要简明扼要, 又要能说明问题。
二、实验任务实验一根据下面的数据。
1.1用Excel制作一张组距式次数分布表, 并绘制一张条形图(或柱状图), 反映工人加工零件的人数分布情况。
从某企业中按随即抽样的原则抽出50名工人, 以了解该企业工人生产状况(日加工零件数):117 108 110 112 137 122 131 118 134 114 124 125 123127 120 129 117 126 123 128 139 122 133 119 124 107133 134 113 115 117 126 127 120 139 130 122 123 123128 122 118 118 127 124 125 108 112 135 5091.2整理成频数分布表, 并绘制直方图。
1.3 假设日加工零件数大于等于130为优秀。
实验二百货公司6月份各天的销售额数据如下(单位:万元)257 276 297 252 238 310 240 236 265 278271 292 261 281 301 274 267 280 291 258272 284 268 303 273 263 322 249 269295(1)计算该百货公司日销售额的均值、众数、中位数;(2)计算该百货公司日销售额的极差、标准差;(3)计算日销售额分布的偏态系数和峰度系数。
辅修统计学实验课要求与数据时间地点11、13、14周周1 9-12节信息楼427实验1时间11周周一(2015.11.16)实验内容图表制作、描述性统计分析统计软件Excel, PHstat, Spss实验要求1.逐步熟悉统计软件(Excel, PHstat, Spss),掌握原始数据与统计分析结果的存储、调用和呈现方法。
2.掌握借助于统计软件进行描述性统计分析的方法:编制频数分布表,绘制直方图、茎叶图、箱线图、散点等图形,计算均值、标准差、分位数、峰度、偏度等数据数字特征。
3.完成并提交指定练习题。
试验方法详见《统计实验讲义》,周晓东。
练习题:1.为评价家电行业售后服务的质量,随机抽取了由100家庭构成的一个样本。
服务质量的等级分别表示为:A.好;B.较好;C.一般;D.差;E.较差。
调查结果见“直方图.xml”sheet2,用Excel制作一张频数分布表;以及条形图。
并同时使用SPSS绘制条形图。
2.某行业管理局所属40个企业2002年的产品销售收入数据(单位:万元)见“直方图.xml”sheet3。
要求:1) 根据上面的数据进行适当的分组,编制频数分布表,并计算出累积频数和累积频率;2) 如果按规定:销售收入在125万元以上为先进企业,115~125万元为良好企业,105~115万元为一般企业,105万元以下为落后企业,按先进企业、良好企业、一般企业、落后企业进行分组。
3.某百货公司连续40天的商品销售额(单位:万元)见“直方图.xml”sheet4。
要求:根据上面的数据进行适当的分组,编制频数分布表,并使用不同的工具绘制直方图。
4.为了确定灯泡的使用寿命(小时),在一批灯泡中随机抽取100只进行测试,所得结果见“茎叶图.xml”sheet3。
1)利用计算机对上面的数据进行排序;2)以组距为10进行等距分组,整理成频数分布表,并绘制直方图。
3)制做茎叶图,并与直方图作比较。
5.A,B两个班学生的数学考试成绩数据见“茎叶图.xml”sheet4。
《统计学》实验报告一姓名:王璐专业:财政学(税收方向)学号:2010128107日期:2012年10 月9 日地点:实验中心701实验项目一描述性统计、区间估计在EXCEL里的实现一、实验目的1、掌握利用EXCEL菜单进行数据的预处理;2、掌握利用EXCEL进行描述性统计;3、掌握利用EXCEL进行区间估计。
二、实验要求1、EXCEL环境与数据预处理的操作;2、描述性统计,包括统计图表的绘制;数据分组处理;集中趋势描述、离散程度描述、分布形状描述。
3、区间估计,包括总体均值、总体比例、总体方差的区间估计计算。
三、实验内容(一)分类数据的描述性统计实验数据:餐厅服务质量和价位评价.XLS顾客服务质量评价的频数表(按性别分)、条形图、饼图(二)数值性数据的描述性统计实验数据:城乡居民储蓄数据.XLS随着生活水平的逐渐提高,居民的储蓄存款也在日益增加,数据2.XLS是自1990年~2006年城乡居民人民币储蓄存款额,储蓄存款包括定期和活期(单位:元)。
利用EXCEL,对数据2.XLS作如下分析:1、城乡居民人民币活期存款的众数、中位数和均值是多少?2、城乡居民人民币定期存款的方差和标准差是多少?3、定期存款和活期存款相比,哪种数据的变动性更大?(三)总体参数的区间估计1、成绩分析。
实验数据:期末成绩.XLS1假设学生的各门期末考试成绩均服从正态分布,选定一门课程,并给出该门课程平均成绩的置信水平为95%的区间估计。
2、顾客满意度分析。
某超市为了了解顾客对其服务的满意度,随机抽取了其会员中的50个样品进行电话调查,如果有38个顾客对此超市的服务表示满意,试求对该超市服务满意的顾客比例的95%置信区间。
四、实验结果(一)分类数据的描述性统计A顾客服务质量评价频数表(按性别分)评价等级男女极好45 21很好98 52好49 35一般20 11差9 10B条形图C.饼状图2(二)数值性数据的描述性统计解答:1.众数:无中位数:11615.9 均值:18553.592.方差:887955495.60 标准差:29798.583.活期存款的离散系数=标准差/均值=0.963602定期存款的离散系数=标准差/均值=0.696094因为0.963602>0.696094 所以,活期存款的变动性更大(三)总体参数的区间估计解答:1.根据区间估计的计算公式:均值±半径由题可得,均值=71.89474,半径=1.312076,得出最终结果,置信区间为:(70.5827,73.2068)2.根据总体比例的区间估计公式:比例±半径由题可得,比例 p=38/50=0.76,半径=0.1184 ,得出最终结果,置信区间为:(0.6416,0.8784)五、实验心得我个人认为自己的动手能力比较差,所以在做上机实验前,心里略有担心。
卫生统计学第1-5次实验内容实验一统计表与统计图(一)实验目的1、掌握统计表的基本概念和列表原则;2、掌握统计图的基本概念和常用统计图的绘制方法。
(二)实验内容1、统计表常见错误的纠正。
2、常用统计图的绘制。
(三)实验资料的分析过程1. 某地调查脾肿大和疟疾临床分型的关系、程度与血片查疟原虫结果列表如下,此表有何缺点,请改进2.试根据下表资料绘制适当统计图形表某地1975年839例正常人发汞值分布资料(卩g/g)组段0〜0.2〜0.4〜0.6〜0.8〜 1.0〜 1.2〜 1.4〜1.6〜2.2 合计例数133 193 190 111 83 34 43 16 36 8393. 根据下表分别绘制普通线图和半对数线图,并说明两种统计图型的意义。
某地某年食管癌年龄别发病率(1/10万)年龄(岁)男女40〜 4.4 2.145〜7.2 3.350〜7.3 4.555〜 6.9 5.560〜19.3 6.765〜50.2 16.470〜68.5 12.575〜86.2 19.980〜97.0 15.2实验二计量资料的统计描述(一)实验目的1、掌握各种平均数指标的计算及其适用条件;2、掌握离散趋势指标标准差的计算及其适用条件;3、熟悉频数表和直方图的绘制方法。
(二)实验内容1、编制大样本定量资料的频数分布表,了解资料的分布规律;2、算术均数、几何均数、中位数、极差、标准差的计算,医学参考值范围的制订。
(三)实验资料的分析过程1、某地100例30-40岁健康男子血清总胆固醇值(mg/dl)测定结果如下:202 165 199 234 200 213 155 168 189 170 188 168 184147219 174 130 183178 174 228 156 171 199 185 195 230 232 191 210 195 165178172 124 150 211177 184 149 159 149 160 142 210 142 185 146 223 176 241164197 174 172 189174 173 205 224 221 184 177 161 192 181 175 178 172 136222113 161 131 170138 248 153 165 182 234 161 169 221 147 209 207 164 147210182 183 206 209201 149 174 253 252 156(1)编制频数分布表并画出直方图;(2)根据频数表计算均值和中位数,并说明用哪一个指标比较合适;(3)计算百分位数P5、P25、P75和P95。
实验一 描述性统计分析过程(1)实验目的:学习利用统计分析的means 、univarite 、capability 等过程进行数据分析实验要求:编写程序,结果分析.实验内容:1.简答题:(1)写出一维样本均值、p 分位数、样本方差、四分位极差的计算公式,说明其作用.(2)本章介绍了哪几种检验的方法?1. 一维样本均值: 作用:描述取值的平均位置。
pn x x ni i /)(1∑==分位数: 作用:大体上整批数据⎪⎩⎪⎨⎧+=++是整数不是整数,),np x x np x M np np np p )(21)1()(1]([100p%的观测值不超过p 分位数。
样本方差: 作1)(122--=∑=n x x s n i i 用:描述数据取值分散性的一种度量。
四分位极差: 作用:描述数据分散性的数字特征。
25.075.0131M M Q Q R -=-=2.上机实验题:61名11岁学生的身高(习题1.1)数据1.4要求:(1)计算均值、方差、标准差、变异系数、偏度、峰度;均值:139 方差:49.8983051 标准差:7.06387324 变异系数:5.08192319 偏度:-0.5100771 峰度:-0.1261294(2)计算中位数、上、下四分位数 、四分位极差 、三均值;中位数:130.0000 上四分位数:144.5 下四分位数:135.0四分位极差:9.50000 三均值:0.25*135.0+0.5*139.0000+0.25*144.5=139.375(3)作出直方图,拟合正态分布曲线;学号:班级:姓名:(4)作出茎叶图;(5)作出正态QQ图,并判断数据是否来自正态分布总体;从图中看出,散点近似地在一条直线上,可认为数据来自正态总体。
(6)作正态性W检验.对应程序:data examp1_1;input x @@;cards;126 149 143 141 127 123 137 132 135 134 146 142135 141 150 137 144 137 134 139 148 144 142 137147 138 140 132 149 131 139 142 138 145 147 137135 142 151 146 129 120 143 145 142 136 147 128142 132 138 139 147 128 139 146 139 131 138 149;proc univariate data=examp1_1;proc capability data=examp1_1 graphics noprint;histogram x/normal(mu=est sigma=est) vscale=proportion;cdfplot/normal(mu=est sigma=est);学号:班级:姓名:qqplot x/normal(mu=est sigma=est);proc univariate data=examp1_1 plot;run;实验结果:结果分析:实验二描述性统计分析过程(2)实验目的:学习利用统计分析的corr等过程进行数据分析实验要求:编写程序,结果分析.实验内容:1.简答题(1)写出p总体数字特征的性质,正态分布的密度函数;(2)写出p维总体的样本均值向量、样本协方差矩阵、Pearsen相关系数矩阵.2.上机实验题:习题1.7数据(见文件exersice1_7.txt)要求:(1)计算观测数据的均值向量和中位数向量;(2)计算观测数据的Pearson相关矩阵R,Spearman相关矩阵Q及各元素对应的检验p值,并做相关性的显著性检验.。
第3 章数据的整理与显示3.01 为评价家电行业售后服务的质量,随机抽取了由100家庭构成的一个样本。
服务质量的等级分别表示为:A.好;B.较好;C.一般;D.差;E.较差。
调查结果见book3.01。
要求:1.指出上面的数据属于什么类型?顺序数据2.用Excel制作一张频数分布表;接收频率A 14B 21C 32D 18E 15其他03.绘制一张条形图,反映评价等级的分布。
3.02某行业管理局所属40个企业2002年的产品销售收入数据(单位:万元)见book3.02。
要求:1.根据上面的数据进行适当的分组,编制频数分布表,并计算出累积频数和累积频率;接收频率104.5 9114.5 9124.5 11其他112.如果按规定:销售收入在125万元以上为先进企业,115~125万元为良好企业,105~115万元为一般企业,105万元以下为落后企业,按先进企业、良好企业、一般企业、落后企业进行分组。
3.03 某百货公司连续40天的商品销售额(单位:万元)见book3.03。
要求:根据上面的数据进行适当的分组,编制频数分布表,并绘制直方图。
接收频率先进企业11 良好企业 9 一般企业 10 落后企业 10 其他接收频率25 1 29 3 33 4 37 13 41 6 45 9 49 4 其他 03.04为了确定灯泡的使用寿命(小时),在一批灯泡中随机抽取100只进行测试,所得结果见book3.04。
1.利用计算机对上面的数据进行排序;接收频率650 0660 2670 5680 6690 16700 26710 18720 12730 9740 3750 3其他02.以组距为10进行等距分组,整理成频数分布表,并绘制直方图。
接收频率650 0660 2670 5680 6690 16700 26710 18720 12730 9740 3750 3其他03.制做茎叶图,并与直方图作比较。
V1 Stem-and-Leaf PlotFrequency Stem & Leaf1.00 65 . 85.00 66 . 145686.00 67 . 13467914.00 68 . 1123334555889926.00 69 . 0011112223344556667788889918.00 70 . 00112234566677888913.00 71 . 002233567788910.00 72 . 01225678993.00 73 . 3562.00 74 . 171.00 Extremes (>=749)Stem width: 10Each leaf: 1 case(s)3.05 北方某城市1~2月份各天气温的记录数据见book3.05。
统计学实验报告姓名:学号:班级:成绩:一、实验步骤总结成绩:(一)数据的搜集与整理1.实验一:数据的收集与整理实验步骤:一、统计数据的整理(一)数据的预处理1、数据的编码及录入(1)数据的编码(2)数据的录入2、数据的审核与筛选3、数据的排序(二)数据的整理对数据进行整理的主要方式是统计分组,并形成频数分布。
既可以使用函数FREQUENCE进行统计分组,也可以借助直方图工具进行统计分组。
二、统计数据的描述(一)运用函数法进行统计描述常用的统计函数函数名称函数功能Average 计算指定序列算数平均数Geomean 计算数据区域的几何平均数Harmean 计算数据区域的调和平均数Median 计算给定数据集合的中位数Mode 计算给定数据集合的众数Max 计算最大值Min 计算最小值Quartile 计算四分位点Stdev 计算样本的标准差Stdevp 计算总体的标准差Var 计算样本的方差Varp 计算总体的方差在Excel中有一组求标准差的函数,一个是求样本标准差的函数Stdev,另一个是求总体标准差的函数Stdevp。
Stdev与Stdevp的不同是:其根号下的分式的分母不是N,而是N-1。
此外,还有两个对包含逻辑值和字符串的数列样本标准差和总体标准差的函数,分别是Stdeva和Stdevpa。
(二)运用“描述统计”工具进行数据描述“描述统计”工具可以生成以下统计指标,按从上到下的顺序为:平均值、标准误差、中位数、众数、样本标准差、样本方差、峰度值、偏度值、级差、最小值、最大值、样本总和、样本个数和一定显著水平下总体均值的置信区间。
三、长期趋势和季节变动测定(一)直线趋势的测定1、移动平均法测定直线趋势2、最小二乘法测定直线趋势(二)曲线趋势的测定(三)季节变动测定1、月(季)平均法2、移动平均趋势剔除法测地归纳季节变动实验数据:2.实验二:实验步骤:描述数据的图表方法(1)熟练掌握Excel 2003的统计制表功能(2)熟练掌握Excel 2003的统计制图功能(3)掌握各种统计图、表的功能,并能准确的根据不同对象的特点加以应用实验数据:二、实验心得报告成绩:(一)心得体会16个课时的课以来,在老师的帮助下,我进行了系统的统计学操作实验,加深了对统计学各方面只是以及对EXCEL操作软件的应用了解,同时能更好的把实践与理论相结合。