第1章 数据与统计
- 格式:pdf
- 大小:6.36 MB
- 文档页数:43
数据统计【教学内容】数据的排序、筛选、分类【教学目标】1、理解数据排序、筛选、分类的意义。
2、掌握Excel中对数据进行排序、筛选、分类的各种操作。
3、要求学生掌握利用排序、筛选、分类对数据进行分析。
【教学重点】1、各种筛选的方法。
2、“自定义”筛选条件的选择使用。
3、数据的分类汇总。
【教学难点】“自定义”筛选中逻辑符号及运算符的选择。
【教学准备】由教师预先准备一个讲课用的以学生成绩为内容的电子工作薄文件“讲课.xls”和学生练习用的文件“练习.xls”内容为两个工作表分别为“练习1”与“练习2”。
【教学方法】任务驱动式【教学过程】一、导入:当数据经输入运算后,有时候我们有必要对数据进行分析。
例如:当期中考后,语文教师要到教务处去查语文成绩85分以上的同学,或班主任要去查语、数、英三科成绩都为85分以上的同学,或要看各班各科的平均分,其实这些在Excel 中可以很容易地实现。
二、新授课:【板书】(一)数据的排序排序就是将数据清单中的记录按某个(或某几个)字段的值的大小在工作表中重新排列记录的前后次序。
数据的排序分为升序与降序两种,升序结果为由小到大;降序结果为大到小。
【例题一】开打“讲课.XLS”利用演示系统给学生演示升序与降序的不同。
【学生练习】由学生打开文件“练习”工作簿——“练习1”,对积分按降序排列。
(二)数据筛选筛选就是把需要的记录留下,把不需要的记录暂时隐藏。
这样可突出某些重要的数据或数据关系。
在Excel中提供了“自动筛选”和“高级筛选”命令来筛选数据。
1、简单筛选【例题一】将总分中成绩大于或等于450分的学生都列举出来。
【示范1】单击任一数据单元格→“数据”→“筛选”→“自动筛选”→单击“总分”右边的筛选标记,并选择“自定义”在“总分”下拉列表框中选择“大于或等于”,关在其右侧的框中输入450,后单击“确定”。
【分析说明】前十个:筛选突出值。
自定义:有条件地筛选数据。
显示全部:如何将所有隐藏的数据都显示出来撤消筛选:只要再次执行“筛选”“自动筛选”命令即可。
第一章统计和统计数据名词解释1.统计学:收集处理分析解释数据并从数据中得出结论的科学。
2.描述统计:研究数据收集处理汇总图表描述概括与分析等统计方法。
3.推断统计:研究如何利用样本数据来推断总体特征的统计方法。
4.分类数据:只能归于某一类别的非数字型数据。
5.顺序数据:只能归于某一有序类别的非数字型数据。
6.数值型数据:按数字尺度测量的观察值。
7.总体:包含所研究的全部个体(数据)的集合。
8.样本:从总体中抽取的一部分元素的集合。
9.参数:用来描述总体特征的概括性数字度量。
10.变量:说明现象某种特征的概念。
11.分类变量:说明事物类别的一个名称。
12.顺序变量:说明事物有序类别的一个名称。
13.数值型变量:说明事物数字特征的一个名称。
14.概率抽样:随机抽样,遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。
15.非概率抽样:不随机,根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。
16.简单随机抽样:从包括总体的N个单位的抽样框中随机,一个个抽取n个单位作为样本,每单位等概论。
17.分层抽样:将抽样单位按某种特征或某种规则划分为不同的层,然后从不同层中独立、随机地抽取样本。
18.整群抽样:总体中若干单位合并为组,群,抽样时直接抽取群,然后对中选群中的所有单位全部实施调查。
19.系统抽样:总体中所有单位按顺序排列,在规定范围内随机抽取一单位作为初始单位,然后按事先规则确定其它样本单位。
20. 抽样误差:由于抽样的随机性引起的样本结果与总体真值之的误差简答题。
1.概率抽样与非概率抽样比较:性质不同,非概不依据随机原则选样本,样本统计量分布不确切,无法使用样本的结果对总体相应参数进行推断。
操作简便,时效快,成本低,专业要求不很高。
概率抽样依据随机原则抽选样本,理论分布存在,对总体有关参数可进行估计,计算估计误差,得到总体参数的置信区间。
提出精度要求。
2.数据收集方法的选择:抽样框中有关信息,目标总体特征,调查问题的内容,有形辅助物的使用,实施调查的资源,管理与控制,质量要求3.误差的控制:抽样误差是抽样随机性带来的,不可避免可以计算,改大样本量。
第一章第一讲数据的图表展示第一节定类数据的整理和展示第二节定序数据的整理和展示第三节数值型数据的整理和展示统计数据的类型统计数据是对客观现象进行计量的结果。
根据对研究对象计量的不同精确程度,按数据的计量尺度由低到高、由粗略到精确分为两大层次:定性数据和定量数据。
定性数据可以再细分为定类数据和定序数据,定量数据可以再细分为定距数据和定比数据。
定性数据:常用文字表述,计量结果表现为类别定类数据(1)定类数据(Nominal Data)是按照客观现象的某种属性对其进行平行分类,所使用的数值只是作为各种分类的代码,并不反映各类的优劣、量的大小或顺序。
例如,人口按性别分为男和女,用“1”表示男性,“0”表示女性。
定类尺度的主要数学特征是“=”或“≠”。
在统计处理中,对于不同的类别,虽然可以计算单位数,但它不能表明第一类的一个单位可以相当于第二类的几个单位。
定序数据(2)定序数据(Ordinal Data)是对客观现象各类之间的等级差或顺序差测度的数据。
利用定序尺度不仅可以将研究对象分成不同的类别,而且还可以反映各类的优劣、量的大小或顺序。
例如,学生成绩可以分为优、良、中、及格和不及格等五类。
定序尺度虽然无法表明一个优等于几个良,但却能确切地表明优高于良,良又高于中……。
定序尺度的主要数学特征是“<”或“>”。
定量数据:计量结果表现为具体的数值定距数据(1)定距数据(Interval Data),又称间隔尺度数据,不仅能比较各类事物的优劣,还能确切计算出事物之间差异的大小。
例如,对于温度而言,每一度的温差都是相同的。
特点是没有绝对零点,可以做加减运算,但不能做乘除运算定比数据(2)定比数据(Ratio Data),是数据的最高等级,既有测量单位,也有绝对零点。
例如,学生人数、身高等。
注意1. 对定类数据和定序数据主要是做分类整理2. 对定距数据和定比数据则主要是做分组整理3. 适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整理和显示方法并不一定适合于低层次的数据第一节定类数据的整理和展示一、◆基本过程:1. 列出各类别2. 计算各类别的频数3. 制作频数(频率)分布表4. 用图形显示数据定类数据的整理——频数分布二、◆频率的性质(1)任何频率都是界于0和1之间的一个分数。
第一章期末复习总结与习题数据与统计学第一章期末复习总结与习题数据与统计学第一章数据和统计1.1.1统计数据它是统计实践过程中获得的各种数字数据和其他相关实际数据的总称。
它是统计工作的目标和成果。
(1)变量和变量值说明现象的某一数量特征的概念也被称为变量,变量的具体取值是变量值,统计数据就是统计变量的具体表现。
例如,固定资产是一个变量,每个企业固定资产的具体价值就是变量值。
为了区别,在本书中,凡是变量均用大写的英文字母表示,而变量值则用小写英文字母表示。
连续变量是指变量的值在数轴上是连续的,不能逐个枚举,也就是说,可以在一个区间内取任何实数。
例如,气象上的温度、湿度,零件的尺寸等。
离散变量是指变量的值,它们是整数值,可以逐个列出。
比如企业的数量,员工的数量等等。
确定性变量是受确定性因素影响的变量,即影响变量值变化的因素是明确的,是可解释和可控制的。
随机变量是受许多小的不确定因素(也称为随机因素)影响的变量。
变量的值不能预先确定。
社会经济现象既有确定性变量也有随机变量。
统计学所研究的主要是随机变量。
(二)数据的计量尺度统计数据是整体单位符号或统计指标的具体定量表达。
根据对研究对象计量的不同精确程度,人们将计量尺度由低到高、由粗略到精确分为四个层次:定类尺度、定序尺度、定距尺度和定比尺度。
1.1.2统计学统计学是一门关于如何收集、组织、显示和分析统计数据的方法学科学。
其目的是探索数据的内在定量规律。
1.1.3统计数据的规律性客观事物本身是必然性和偶然性的对立统一,必然性反映事物的本质特征,偶然性反映事物表现形式上的差异。
而统计数据是事物必然性与偶然性共同作用的结果,偶然性是对同一事物的多次观察得到的统计数据有差异,而必然性则隐含在统计数据本身。
统计学提供了探索数据内在规律的一套方法,利用统计方法是可以探索出其内在的数量规律性的。
1.4.1直接获取的数据直接统计调查:为获取统计数据而专门组织的调查。
如普查、重点调查和典型调查查、抽样调查、统计报表。
第一章数据与统计学一、单项选择题1、指出下面的数据哪一个属于分类数据()A、年龄B、工资C、汽车产量D、购买商品的支付方式(现金、信用卡、支票)2、指出下面的数据哪一个属于顺序数据()A、年龄B、工资C、汽车产量D、员工对企业某项制度改革措施的态度(赞成、中立、反对)3、某研究部门准备在全市200万个家庭中抽取2000个家庭,据此推断该城市所有职工家庭的年人均收入,这项研究的统计量是()A、2000个家庭B、200万个家庭C、2000个家庭的人均收入D、200万个家庭的人均收入4、一家研究机构从IT从业者中随机抽取500人作为样本进行调查,其中60%的人回答他们的月收入在5000元以上,50%的回答他们的消费支付方式是使用信用卡。
这里的“月收入”是()A、分类变量B、顺序变量C、数值型变量D、离散变量5、一项调查表明,在所抽取的1000个消费者中,他们每月在网上购物的平均消费是200元,他们选择在网上购物的主要原因是“价格便宜”。
这里的参数是()A、1000个消费者B、所有在网上购物的消费者C、所有在网上购物的消费者的平均消费额D、1000个消费者的平均消费额6、一名统计学专业的学生为了完成其统计作业,在《统计年鉴》中找到的2006年城镇家庭的人均收入数据属于()A、分类数据B、顺序数据C、截面数据D、时间序列数据7、一家公司的人力资源部主管需要研究公司雇员的饮食习惯,改善公司餐厅的现状。
他注意到,雇员要么从家里带饭,要么在公司餐厅就餐,要么在外面的餐馆就餐。
他收集数据的方法属于()A、访问调查B、邮寄调查C、个别深度访问D、观察调查8、从含有N个元素的总体中抽取n个元素作为样本,使得总体中的每一个元素都有相同的机会(概率)被抽中,这样的抽样方式称为()A、简单随机抽样B、分层抽样C、系统抽样D、整群抽样9、为了调查某校学生的购书费用支出,从全校抽取4个班级的学生进行调查,这种调查方法是()A、简单随机抽样B、分层抽样C、系统抽样D、整群抽样10、为了调查某校学生的购书费用支出,将全校学生的名单按拼音顺序排列后,每隔50名学生抽取一名进行调查,这种调查方式是()A、简单随机抽样B、分层抽样C、系统抽样D、整群抽样11、在一项调查中,调查单位和填报单位()A、无区别,是一致的B、有区别,是不一致的C、无区别,是人为确定的D、有区别,但有时是一致的12、对家用电器的平均寿命进行调查,应该采用()A、普查B、重点调查C、典型调查D、抽样调查。
第1章数据与R习题1.11. 存为R数据> zhibiao<-c("低收入户","中等偏下户","中等收入户","中等偏上户","高收入户")> y2008<-c(1500,2935,4200,5900,11000)> y2009<-c(1500,3100,4500,6400,12000)> y2010<-c(1870,3600,5222,7440,14000)> y2011<-c(2000,4200,6200,8800,16000)> y2012<-c(2300,4800,7000,10000,19000)> table1_1<-data.frame("指标"=zhibiao,"2008年"=y2008,"2009年"=y2009,"2010年"=y2010,"201 1年"=y2011,"2012年"=y2012)> table1_1指标 X2008年 X2009年 X2010年 X2011年 X2012年1 低收入户 1500 1500 1870 2000 23002 中等偏下户 2935 3100 3600 4200 48003 中等收入户 4200 4500 5222 6200 70004 中等偏上户 5900 6400 7440 8800 100005 高收入户 11000 12000 14000 16000 19000> save(table1_1,file="D:/table1.RData")2. 转化成矩阵> matrix1<-as.matrix(table1_1);matrix1指标 X2008年 X2009年 X2010年 X2011年 X2012年[1,] "低收入户" " 1500" " 1500" " 1870" " 2000" " 2300"[2,] "中等偏下户" " 2935" " 3100" " 3600" " 4200" " 4800"[3,] "中等收入户" " 4200" " 4500" " 5222" " 6200" " 7000"[4,] "中等偏上户" " 5900" " 6400" " 7440" " 8800" "10000"[5,] "高收入户" "11000" "12000" "14000" "16000" "19000"1.21. 排序工作总结人大\\R语言《统计学—基于R》(第3版)—例题和习题数据(公开资源)\\exercis e\\ch1\\exercise1_2.RData")> exercise1_2[order(-exercise1_2$地区生产总值),]地区地区生产总值19 广东省 67809.8510 江苏省 65088.3215 山东省 59426.5911 浙江省 40173.03。