《统计软件及应用》第三章作业参考答案
- 格式:pdf
- 大小:221.60 KB
- 文档页数:6
《统计分析与SPSS的应用(第五版)》课后练习答案(第3章)第三章:统计分析与SPSS的应用(第五版) 课后练习答案第一节:描述性统计在本章的课后习题中,我们将通过SPSS软件进行一系列的统计分析。
本节将提供第三章的课后习题答案,通过展示实际的数据和分析结果,帮助读者更好地理解统计分析的应用和SPSS软件的操作。
1. 描述性统计分析题目:使用某城市2019年1月至12月的气温数据,计算月平均气温、最高气温和最低气温的描述性统计指标。
答案:通过SPSS导入数据,选择变量"月份"和"气温",并进行描述性统计分析。
结果显示,2019年1月至12月的气温数据的月平均气温、最高气温和最低气温的描述性统计指标如下:月平均气温:- 平均值:20°C- 标准差:2°C- 最小值:15°C- 最大值:25°C最高气温:- 平均值:28°C- 标准差:3°C- 最小值:22°C- 最大值:35°C最低气温:- 平均值:12°C- 标准差:2°C- 最小值:8°C- 最大值:18°C根据以上结果,我们可以得出结论:2019年该城市的月平均气温在20°C左右,最高气温在28°C左右,最低气温在12°C左右。
气温的变化范围相对较小,波动性较小。
这些结果可以帮助我们对该城市的气候情况进行初步了解。
2. 相关性分析题目:使用某企业2018年1月至12月的销售额和广告投入数据,计算销售额和广告投入之间的相关性。
答案:通过SPSS导入数据,选择变量"销售额"和"广告投入",并进行相关性分析。
结果显示,2018年1月至12月的销售额和广告投入之间的Pearson 相关系数为0.85,表明二者呈现强正相关关系。
应用统计学课后习题与参考答案第一章一、选择题1.一个统计总体(D)。
A.只能有一个标志B.只能有一个指标C.可以有多个标志D.可以有多个指标2.对100名职工的工资收入情况进行调查,则总体单位是(D)。
A.100名职工B.100名职工的工资总额C.每一名职工D.每一名职工的工资3.某班学生统计学考试成绩分别为65分、72分、81分和87分,这4个数字是(D)。
A.指标B.标志C.变量D.标志值4.下列属于品质标志的是(B)。
A.工人年龄B.工人性别C.工人体重D.工人工资5.某工业企业的职工数、商品销售额是(C)。
A.连续变量B.离散变量C.前者是离散变量,后者是连续变量D.前者是连续变量,后者是离散变量6.下面指标中,属于质量指标的是(C)。
A.全国人口数B.国内生产总值C.劳动生产率D.工人工资7.以下指标中属于质量指标的是(C)。
A.播种面积B.销售量C.单位成本D.产量8.下列各项中属于数量指标的是(B)。
A.劳动生产率B.产量C.人口密度D.资金利税率二、简答题1.一项调查表明,消费者每月在网上购物的平均花费是200元,他们选择在网上购物的主要原因是“价格便宜”。
(1)这一研究的总体是什么?总体是“所有的网上购物者”。
(2)“消费者在网上购物的原因”是定类变量、定序变量还是数值型变量?分类变量。
(3)研究者所关心的参数是什么?所有的网上购物者的月平均花费。
(4)“消费者每月在网上购物的平均花费是200元”是参数还是统计量?统计量。
(5)研究者所使用的主要是描述统计方法还是推断统计方法?推断统计方法。
2.要调查某商场销售的全部冰箱情况,试指出总体、个体是什么?试举若干品质标志、数量标志、数量指标和质量指标。
总体:该商店销售的所有冰箱。
总体单位:该商店销售的每一台冰箱。
品质标志:型号、产地、颜色。
数量标志:容量、外形尺寸;数量指标:销售量、销售额。
质量指标:不合格率、平均每天销售量、每小时电消耗量。
P86第一题3. 将“ch3_Child.txt”转为Stata文件cd C:\stata11\ado\homework //我自己建立了一个工作目录,把“ch3_Child.txt”拷到这里insheet using ch3_Child.txt,clear4. 将数据以“ch3_Child.dta”为名保存save ch3_Childdes5. 压缩数据,并比较前后数据占用空间的变化compressdes6.描述数据共有多少个变量,多少个观察值共有7个变量,26个观察值。
7.描述变量weight 的基本内容:. codebook weighttype:numeric (double)range: [11,59.4] units: .1unique values: 24 missing .: 1/26mean: 33.284std. dev: 15.8639percentiles: 10% 25% 50% 75% 90%13.6 21 32 44.4 55.6(1)变量的存储形式:double(双精度)(2)取值范围:最大值59.4,最小值11。
(3)独特取值个数:24个(4)测量单位(unit):0.1(5)缺失值:1个(6)均值:33.284(7)标准差:15.86392(8)第10、25、50、75、90百分位情况10% 13.625% 2150% 3275% 44.490% 55.6样本的平均体重为33.284kg,有10%的样本体重在13.6kg以下;90%的样本体重在55.6kg 以下。
8.描述每个变量各有多少个缺失值。
age,sex和id 无缺失值;yrsch 和enroll各有10个缺失值;height 和weight各有1个缺失值9.将数据按照变量age的取值排序sort age10.将变量按首字母顺序排列aorder 或order_all, alpha11.将变量按照id,age,sex,yrsch,enroll,height, weight 的顺序排列order id age sex yrsch enroll height weight12.浏览数据的基本情况browse第二题1.将数据输入stata中并以zuove2.1命名,再进行压缩(用compress 命令)2、将变量math 和chinese 转换为字符型变量,然后转换为数值型变量(1)由数值型转为字符型tostring math chinese, replace(2)由字符型转为数值型destring math chinese,replace3.为数据库zuove2.1添加标签“学生成绩”,为math添加标签“数学成绩”,为gender添加标签1为“male”0为“female”(1)为数据库添加标签“学生成绩”label data “学生成绩”(2)为math添加标签“数学成绩”label var math “数学成绩”(3)为gender添加标签1为“male”0为“female”label define gender1 0“male”1“female”label value gender gender14.将数据库用两种命令按数学成绩排序sort math 或gsort math第三题本章使用的数据为ch6_Child.dta.先给b2、b4、yrschfm和goods1分别贴上标签。
实用统计软件试题及答案一、单项选择题(每题2分,共40分)1. SPSS软件中,用于描述数据集中趋势的统计量是()。
A. 平均值B. 方差C. 标准差D. 众数答案:A2. 在R语言中,用于创建向量的函数是()。
A. vector()B. list()C. matrix()D. array()答案:A3. Excel中,计算一组数据的标准差的函数是()。
A. AVERAGEB. STDEV.PC. STDEV.SD. MEDIAN答案:B4. 在统计学中,用于衡量数据离散程度的指标是()。
A. 均值B. 方差C. 标准差D. 众数答案:C5. MATLAB中,用于生成随机数的函数是()。
A. rand()B. randn()C. randi()D. all of the above答案:D6. Python中,用于计算相关系数的函数是()。
A. corr()B. cov()C. mean()D. median()答案:A7. 在统计分析中,用于检验两个独立样本均值差异显著性的统计方法是()。
A. t检验B. 方差分析C. 卡方检验D. 回归分析答案:A8. SAS中,用于数据清洗的步骤是()。
A. PROC CONTENTSB. PROC FREQC. PROC MEANSD. PROC STANDARD答案:A9. 在统计软件中,用于创建数据框的函数是()。
A. data.frame()B. matrix()C. list()D. array()答案:A10. 用于绘制箱线图的R语言函数是()。
A. boxplot()B. hist()C. plot()D. barplot()答案:A二、多项选择题(每题3分,共30分)1. 下列哪些软件属于统计分析软件?()A. SPSSB. ExcelC. MATLABD. Photoshop答案:ABC2. R语言中,用于数据可视化的函数包括()。
A. plot()B. hist()C. boxplot()D. barplot()答案:ABCD3. Excel中,可以用于描述数据分布的函数有()。
应用统计学课后答案1. 简介本文档是针对应用统计学课程的相关习题和问题的答案汇总。
通过这些答案,学生可以更好地理解和应用统计学的方法和概念,提高解决实际问题的能力。
2. 统计基础2.1 描述性统计1.描述性统计是指对收集到的数据进行总结、表达和描述的统计方法。
它包括数据的中心趋势和离散程度的度量。
2.常见的描述性统计指标包括均值、中位数、众数、标准差、百分位数等。
3.均值是指一组数据的平均值,是描述数据中心趋势的最常用指标。
计算均值时,将所有数据相加后除以数据的个数。
2.2 概率与概率分布1.概率是指某个事件发生的可能性。
它的取值范围在0到1之间,0表示不可能发生,1表示一定发生。
2.概率分布是指随机变量取不同值的可能性分布。
常见的概率分布有正态分布、均匀分布、泊松分布等。
3.正态分布是一种重要的概率分布,它有唯一的均值和标准差。
许多自然现象和统计数据都符合正态分布。
3. 统计推断3.1 参数估计1.参数估计是指利用样本数据来估计总体参数的方法。
常见的参数估计方法有点估计和区间估计。
2.点估计是指通过样本数据来估计总体参数的具体数值。
常见的点估计方法有样本均值、样本方差等。
3.区间估计是指通过样本数据来估计总体参数的取值范围。
常见的区间估计方法是利用置信区间来给出总体参数的范围估计。
3.2 假设检验1.假设检验是用来判断一个统计推断是否可以接受的方法。
主要包括设置假设、选择检验统计量、确定显著性水平和计算p值等步骤。
2.假设检验可以用于检验总体均值、总体比例、总体方差等参数的假设。
4. 回归分析4.1 简单线性回归1.简单线性回归是一种用来研究自变量和因变量之间关系的方法。
它可以通过拟合直线来描述两个变量之间的线性关系。
2.在简单线性回归中,自变量只有一个,因变量可以通过自变量的线性组合来预测。
3.简单线性回归模型可以通过最小二乘法来求解,找出最佳拟合直线。
4.2 多元线性回归1.多元线性回归是一种用来研究多个自变量与因变量之间关系的方法。
《统计分析与SPSS的应用(第五版)》(薛薇)课后练习答案第3章SPSS数据的预处理1、利用第2章第7题数据,采用SPSS数据筛选功能将数据分成两份文件。
其中,第一份数据文件存储常住地是“沿海或中心繁华城市”且本次存款金额在1000至5000之间的调查数据;第二份数据文件是按照简单随机抽样所选取的70%的样本数据。
第一份文件:选取数据数据——选择个案——如果条件满足——存款>=1000& 存款<5000& 常住地=沿海或中心繁华城市。
第二份文件:选取数据数据——选择个案——随机个案样本——输入70。
2、利用第2章第7题数据,将其按常住地(升序)、收入水平(升序)、存款金额(降序)进行多重排序。
排序数据——排序个案——把常住地、收入水平、存款金额作为排序依据分别设置排列顺序。
3、利用第2章第9题的完整数据,对每个学生计算得优课程数和得良课程数,并按得优课程数的降序排序。
计算转换——对个案内的值计数输入目标变量及目标标签,把所有课程选取到数字变量,定义值——设分数的区间,之后再排序。
4、利用第2章第9题的完整数据,计算每个学生课程的平均分以及标准差。
同时,计算男生和女生各科成绩的平均分。
方法一:利用描述性统计,数据——转置学号放在名称变量,全部课程放在变量框中,确定后,完成转置。
分析——描述统计——描述,将所有学生变量全选到变量框中,点击选项——勾选均值、标准差。
先拆分数据——拆分文件按性别拆分,分析——描述统计——描述,全部课程放在变量框中,选项——均值。
方法二:利用变量计算,转换——计算变量分别输入目标变量名称及标签——均值用函数mean完成平均分的计算,标准差用函数SD完成标准差的计算。
数据——分类汇总——性别作为分组变量、全部课程作为变量摘要、(创建只包含汇总变量的新数据集并命名)——确定5、利用第2章第7题数据,大致浏览存款金额的数据分布状况,并选择恰当的组限和组距进行组距分组。
《统计剖析与SPSS的应用(第五版)》课后练习答案第一章练习题答案1、 SPSS的中文全名是:社会科学统计软件包(后更名为:统计产品与服务解决方案)英文全名是: Statistical Package for the Social Science.(Statistical Product and Service Solutions)2、 SPSS的两个主要窗口是数据编写器窗口和结果查察器窗口。
数据编写器窗口的主要功能是定义SPSS数据的结构、录入编写和管理待剖析的数据;结果查察器窗口的主要功能是现实管理SPSS统计剖析结果、报表及图形。
3、 SPSS的数据集:SPSS 运转时可同时翻开多个数据编写器窗口。
每个数据编写器窗口分别显示不一样的数据会合(简称数据集)。
活动数据集:此中只有一个数据集为目前数据集。
SPSS 只对某时辰的目前数据集中的数据进行剖析。
4、 SPSS的三种基本运转方式:完好窗口菜单方式、程序运转方式、混淆运转方式。
完好窗口菜单方式:是指在使用SPSS的过程中,所有的剖析操作都经过菜单、按钮、输入对话框等方式来达成,是一种最常有和最广泛的使用方式,最大长处是简短和直观。
程序运转方式:是指在使用 SPSS的过程中,统计剖析人员依据自己的需要,手工编写 SPSS命令程序,而后将编写好的程序一次性提交给计算机履行。
该方式合用于大规模的统计剖析工作。
5、 .sav混淆运转方式:是前二者的综合。
是数据编写器窗口中的SPSS数据文件的扩展名.spv是结果查察器窗口中的SPSS剖析结果文件的扩展名.sps是语法窗口中的SPSS程序6、 SPSS 的数据加工和管理功能主要集中在编写、数据等菜单中;统计剖析和画图功能主要集中在剖析、图形等菜单中。
7、概率抽样 (probability sampling):也称随机抽样,是指按必定的概率以随机原则抽取样本,抽取样本时每个单位都有必定的时机被抽中,每个单位被抽中的概率是已知的,或是能够计算出来的。
《应用统计X》在线平时作业3试卷总分:100 得分:100一、单选题(共20 道试题,共60 分)1.一个用来估计总体参数的数称为:A.点估计B.区间估计C.假设检验D.样本均值答案:A2.某生物科技研究所,想了解磷肥的实施是否影响玉米的产量,下面做法可行的是:A.收集某个种植区实施磷肥的量与玉米的产量进行研究B.收集某几个种植区实施磷肥的量与玉米的产量进行研究C.选取若干块土地种植玉米,并都实施磷肥,然后收集实施磷肥的量与玉米产量进行分析D.选取若干块土地种植玉米,随机的选取其中部分土地实施磷肥,并保证其他的种植条件都一样,然后收集实施磷肥的量与玉米产量进行分析答案:D3.在有5张记有1、2、3、4、5的卡片中,现无放回的抽取两次,一次一张,则第二次取到奇数卡的概率为:A.4/25B.3/5C.9/25D.1/3答案:B4.研究两个或者更多变量之间的关系问题时,最难回答的问题是:A.从数据来看变量间有关系吗B.如果变量间有关系,这个关系有多强C.是否不仅在样本中,而且在总体中也有这种关系D.这个关系是不是因果关系答案:D5.和我们所熟悉的日常生活有关变量称为()A.经验变量B.理论变量C.定型变量D.定量变量答案:A6.不同小吃中的热量除了受脂肪含量的影响外,还受许多其他变的影响。
其他这些变量称为(),这些变量和脂肪共同决定了食物中热量的含量。
A.残差变量B.公共变量C.虚拟变量D.连续变量答案:A7.为了解我市初三女生的体能状况,从某校初三的甲、乙两班中各抽取27名女生进行一分钟跳绳次数测试,测试数据统计结果如表 4.1, 如果每分钟跳绳次数³105次的成绩即为优秀,那么甲、乙两班的优秀率的关系是:{图}A.甲<乙B.甲>乙C.甲=乙D.无法比较答案:A8.在一组数据中,出现次数最多的数称为:A.参数B.频数C.众数D.组数答案:C9.参考估计量的评价标准,总体均值的一个好的估计是:A.中位数B.样本均值C.众数D.以上都是答案:B10.方差分析中,自变量平方和比上总变量平方和称为R2,它的含义是什么?A.自变量与因变量之间的关系强度B.由于自变量产生的变异占总变异的比例C.由于残差变量产生的变异占总变异的比例D.残差变量与因变量之间的关系强度答案:B11.如图4.1是对37位妇女的结婚年龄的调查而得到的直方图,由图可以得出这些妇女结婚年龄的众数为:{图}A.27.5B.25C.30D.20答案:A12.相关分析是:A.研究变量之间的变动关系B.研究变量之间的数量关系C.研究变量之间相互关系的密切程度D.研究变量之间的因果关系答案:C13.当抛掷一个硬币100次时,差不多会得到50次正面向上,50次反面向上,这说明抛掷硬币这个事件具有某种:A.随机性B.不可预见性C.确定性D.规律性答案:D14.为了控制贷款规模,某商业银行有个内部要求,平均每项贷款数额不能超过60 万元。
北语2024春季《SPSS统计分析与应用》
完美答案文档
介绍
本文档旨在提供北语2024春季学期《SPSS统计分析与应用》课程的完美答案。
以下是该课程的相关内容。
课程概述
《SPSS统计分析与应用》是一门针对统计软件SPSS的应用课程。
通过研究本课程,学生将掌握SPSS软件的基本操作和常用统计分析方法,以及如何应用这些方法来解决实际问题。
课程目标
- 熟练掌握SPSS软件的基本操作
- 理解常用的统计分析方法,如描述统计、t检验、方差分析等- 学会如何应用SPSS软件进行数据处理和分析
- 掌握数据可视化和报告撰写的基本技巧
课程内容
1. SPSS软件介绍和安装
2. 数据输入和清洗
3. 描述统计分析
4. t检验
5. 方差分析
6. 相关分析
7. 回归分析
8. 数据可视化和报告撰写
研究建议
- 认真听课并参与课堂讨论
- 理解每个统计分析方法的原理和应用场景
- 多进行实践操作,熟练掌握SPSS软件的使用
- 阅读相关的统计学和研究方法的教材和参考书籍- 与同学进行讨论和互助,共同解决问题
考试准备
- 复课堂讲授的知识点和案例分析
- 完成课后题和作业
- 制作复笔记和思维导图
- 参考相关的统计学教材和参考书籍
- 进行模拟考试和答题练
结语
通过研究《SPSS统计分析与应用》,你将能够灵活应用SPSS 软件进行数据处理和统计分析,为你未来的研究和工作提供有力支持。
祝你在本课程中取得优异的成绩!。
《统计分析与S P S S的应用(第五版)》课后练习答案第一章练习题答案1、SPSS的中文全名是:社会科学统计软件包(后改名为:统计产品与服务解决方案)英文全名是:Statistical Package for the Social Science.(Statistical Product and Service Solutions)2、SPSS的两个主要窗口是数据编辑器窗口和结果查看器窗口。
●数据编辑器窗口的主要功能是定义SPSS数据的结构、录入编辑和管理待分析的数据;●结果查看器窗口的主要功能是现实管理SPSS统计分析结果、报表及图形。
3、SPSS的数据集:●SPSS运行时可同时打开多个数据编辑器窗口。
每个数据编辑器窗口分别显示不同的数据集合(简称数据集)。
●活动数据集:其中只有一个数据集为当前数据集。
SPSS只对某时刻的当前数据集中的数据进行分析。
4、SPSS的三种基本运行方式:●完全窗口菜单方式、程序运行方式、混合运行方式。
●完全窗口菜单方式:是指在使用SPSS的过程中,所有的分析操作都通过菜单、按钮、输入对话框等方式来完成,是一种最常见和最普遍的使用方式,最大优点是简洁和直观。
●程序运行方式:是指在使用SPSS的过程中,统计分析人员根据自己的需要,手工编写SPSS命令程序,然后将编写好的程序一次性提交给计算机执行。
该方式适用于大规模的统计分析工作。
●混合运行方式:是前两者的综合。
5、.sav是数据编辑器窗口中的SPSS数据文件的扩展名.spv是结果查看器窗口中的SPSS分析结果文件的扩展名.sps是语法窗口中的SPSS程序6、SPSS的数据加工和管理功能主要集中在编辑、数据等菜单中;统计分析和绘图功能主要集中在分析、图形等菜单中。
7、概率抽样(probability sampling):也称随机抽样,是指按一定的概率以随机原则抽取样本,抽取样本时每个单位都有一定的机会被抽中,每个单位被抽中的概率是已知的,或是可以计算出来的。
P86
第一题
3. 将“ch3_Child.txt”转为Stata文件
cd C:\stata11\ado\homework //我自己建立了一个工作目录,把“ch3_Child.txt”拷到这里
insheet using ch3_Child.txt,clear
4. 将数据以“ch3_Child.dta”为名保存
save ch3_Child
des
5. 压缩数据,并比较前后数据占用空间的变化
compress
des
6. 描述数据共有多少个变量,多少个观察值
共有7个变量,26个观察值。
7. 描述变量weight 的基本内容:
. codebook weight
type:numeric (double)
range:[11,59.4]units: .1
unique values:24missing .: 1/26
mean:33.284
std. dev:15.8639
percentiles:10% 25%50% 75% 90%
13.6 2132 44.4 55.6
(1)变量的存储形式:double(双精度)
(2)取值范围:最大值59.4,最小值11。
(3)独特取值个数:24个
(4)测量单位(unit):0.1
(5)缺失值:1个
(6)均值:33.284
(7)标准差:15.86392
(8)第10、25、50、75、90百分位情况
10% 13.6
25% 21
50% 32
75% 44.4
90% 55.6
样本的平均体重为33.284kg,有10%的样本体重在13.6kg以下;90%的样本体重在55.6kg 以下。
8. 描述每个变量各有多少个缺失值。
age,sex和id 无缺失值;yrsch 和enroll各有10个缺失值;height 和weight各有1个缺失值
9. 将数据按照变量age的取值排序
sort age
10. 将变量按首字母顺序排列
aorder 或order_all, alpha
11. 将变量按照id,age,sex,yrsch,enroll,height, weight 的顺序排列
order id age sex yrsch enroll height weight
12. 浏览数据的基本情况
browse
第二题
1.将数据输入stata中并以zuove
2.1命名,再进行压缩(用compress 命令)
2、将变量math 和chinese 转换为字符型变量,然后转换为数值型变量
(1)由数值型转为字符型
tostring math chinese, replace
(2)由字符型转为数值型
destring math chinese,replace
3. 为数据库zuove2.1添加标签“学生成绩”,为math添加标签“数学成绩”,为gender添加标签1为“male”0为“female”
(1)为数据库添加标签“学生成绩”
label data “学生成绩”
(2) 为math添加标签“数学成绩”
label var math “数学成绩”
(3)为gender添加标签1为“male”0为“female”
label define gender1 0“male” 1“female”
label value gender gender1
4. 将数据库用两种命令按数学成绩排序
sort math 或gsort math
第三题
本章使用的数据为ch6_Child.dta.
先给b2、b4、yrschfm和goods1分别贴上标签。
并将yrschfm定义为一个分类变量
use ch6_Child.dta
label var b2 "父母亲是否在业"
label var b4 "具体职业"
label var yrschfm "父母亲的受教育年限"
label var goods1 "家庭耐用消费品拥有量"
将yrschfm定义为分类变量:
replace yrschfm =0 if yrschfm<=6
replace yrschfm =1 if yrschfm>=7 & yrschfm<=9
replace yrschfm =2 if yrschfm>=10 & yrschfm<=12
replace yrschfm =3 if yrschfm>=13 & yrschfm<=17
replace yrschfm=. if yrschfm==.
label define edu 0 "小学" 1 "初中" 2 "高中" 3 "大学及以上"
label values yrschfm edu
1.了解数据的基本情况:该数据一共有多少个变量、多少个观察值
des
该数据共有13个变量,2341个观察值,
2. (1)将sex命名为girl。
将sex原有的取值1替换为0,代表男孩;原有的取值2替换为1,代表女孩。
rename sex girl
replace girl = 0 if girl==1
replace girl = 1 if girl==2
(2) 变量urban的名称不变,但将其原有的取值2替换为0,代表农村;原有取值1保持不变,代表城镇
replace urban= 0 if urban==2
(3)分别给这两个变量的取值贴上标签
label define girl1 0 “男孩” 1 “女孩”
label values girl girl1
label define city 0 “农村” 1 “城镇”
label values urban city
3. 给age girl urban生成各自的频数分布表,并回答:
(1)样本中孩子的年龄分布情况
tab1 age girl urban
样本中孩子年龄在0到19岁之间,7岁和14-15岁左右分布较为密集。
(2)男孩和女孩所占比例
(3)城市样本和农村样本比例
男孩占51.6%,女孩占48.4%。
性别分布较为均匀。
城市样本占样本总量的26.95%,农村样本占73.05%。
接近四分之三的样本来自农村。
4. 在7岁及以上的人群中,给变量yrsch edulevel enroll 生成各自的频数分布表,并回答以下问题(注意各自的缺失值):
tab1 yrsch edulevel enroll if age>=7
(1)受教育年限多集中在9年及以下,受8-9年教育的人占的比例最大(29.31%),受教
育年限不少于9年的比例为32.33%,同时有11.36%的人只受过1年教育。
其中存在615
个缺省值。
(2)受过小学、初中、高中、大学教育的孩子所占比例分别为
47.45%,38.18%,13.85%,0.52%。
将大学作为一个独立分类没有明显的统计意义,因为
最大年龄只统计到19岁,使得大学这一分类比例极小,可以与高中共同归为“高中及以上”。
当然,样本中存在615个缺省值。
(3)在学的孩子占87.33%,不在学的孩子占12.67%。
当然有620个缺省值。
不在学的7
岁以上年龄的孩子所占比例比较高,该问题应当引起关注,可进一步分析这些孩子是农村
还是城市户口、具体年龄分布等问题。