统计学第六版 人大版 复习笔记
- 格式:docx
- 大小:243.94 KB
- 文档页数:10
统计学原理第六版答案统计学原理是一门涉及数据收集、分析和解释的学科,它在各个领域都有着广泛的应用。
统计学原理第六版是一本经典的教材,它详细介绍了统计学的基本概念、方法和应用。
在学习统计学原理的过程中,很多同学都会遇到一些问题,特别是对于课后习题的答案。
本文将为大家提供统计学原理第六版课后习题的答案,希望能够帮助大家更好地理解和掌握统计学原理的知识。
第一章,统计学概述。
1.1 统计学的定义。
统计学是一门研究数据收集、整理、分析和解释的学科,它通过对数据的统计量和概率分布进行分析,从而得出对总体的推断和预测。
1.2 统计学的应用领域。
统计学在各个领域都有着广泛的应用,包括社会科学、自然科学、医学、经济学等。
它可以帮助人们更好地理解和解释数据,从而做出科学的决策。
第二章,数据的整理与展示。
2.1 数据的收集。
数据的收集是统计学研究的第一步,它可以通过实地调查、问卷调查、实验等方式进行。
在数据收集过程中,要注意数据的准确性和完整性。
2.2 数据的展示。
数据的展示可以通过表格、图表、统计量等方式进行。
常用的数据展示方法包括直方图、饼图、折线图等,它们可以直观地显示数据的分布和规律。
第三章,概率。
3.1 概率的基本概念。
概率是描述随机现象发生可能性的数学工具,它可以通过频率概率和古典概率进行计算。
概率的基本概念包括样本空间、随机事件、事件的概率等。
3.2 概率分布。
概率分布描述了随机变量的取值和对应的概率,常见的概率分布包括离散型分布和连续型分布。
在实际应用中,可以通过概率分布对随机变量进行描述和分析。
第四章,随机变量及其分布。
4.1 随机变量的概念。
随机变量是描述随机现象结果的变量,它可以是离散型随机变量或连续型随机变量。
随机变量的分布可以通过概率密度函数或概率质量函数进行描述。
4.2 常见的随机变量分布。
常见的随机变量分布包括二项分布、正态分布、泊松分布等。
这些分布在实际应用中有着广泛的应用,可以帮助人们对随机现象进行建模和分析。
统计学(第六版)期末考试考点梳理统计学(第六版)期末考试考点梳理第⼀章导论1.1.1 什么是统计学统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。
数据分析所⽤的⽅法分为描述统计⽅法和推断统计⽅法。
1.2 统计数据的类型1.2.1 分类数据、顺序数据、数值型数据按照所采⽤的计算尺度不同,可以将统计数据分为分类数据、顺序数据、数值型数据。
分类数据:只能归于某⼀类别的⾮数字型数据,它是对事物进⾏分类的结果,数据表现为类别,是⽤⽂字来表⽰。
例如:⽀付⽅式、性别、企业类型等。
顺序数据:只能归于某⼀有序类别的⾮数字型数据。
例如:员⼯对改⾰措施的态度、产品等级、受教育程度等。
数值型数据:按数字尺度测量的观测值,其结果表现为具体的数值。
例如:年龄、⼯资、产量等。
统计数据⼤体上可分为品质数据(定性数据)和数量数据(定量数据、数值型数据)。
1.2.2 观测数据和实验数据按照统计数据的收集⽅法,可以分为观测数据和实验数据。
观测数据:通过调查或观测⽽收集的数据。
例如:降⾬量、GDP、家庭收⼊等。
实验数据:在实验中控制实验对象⽽收集到的数据。
例如:医药实验数据、化学实验数据等。
1.2.3 截⾯数据和时间序列数据按照被描述的现象与时间的关系,可分类截⾯数据和时间序列数据。
截⾯数据:在相同或近似相同的时间点上收集的数据。
例如:2012年我国各省市的GDP。
时间序列数据:同⼀现象在不同的时间收集的数据。
例如:2000-2012年湖北省的GDP。
1.3.1 总体和样本总体:包含所研究的全部个体(数据)的集合。
样本:从总体中抽取的⼀部分元素的集合。
1.3.2 参数和统计量参数:⽤来描述总体特征的概括性数字度量。
统计量:⽤类描述样本特征的概括性数字度量。
例如:某研究机构准备从某乡镇5万个家庭中抽取1000个家庭⽤于推断该乡镇所有农村居民家庭的年⼈均纯收⼊。
这项研究的总体是5万个家庭;样本是1000个家庭;参数是5万个家庭的⼈均纯收⼊;统计量是1000个家庭的⼈均纯收⼊。
统计学第三章笔记最近在学统计学,这第三章可真是让我印象深刻啊!这一章主要讲的是数据的收集、整理和展示。
说起来好像挺简单,但里面的门道可多了去了。
就拿数据收集来说吧,以前我总觉得收集数据不就是随便问问、随便记记嘛。
可学了这章才知道,这里面的讲究可大了。
比如说,你要确定收集数据的目的是什么,是为了了解市场需求,还是为了评估产品质量?目的不一样,收集的方法和对象也就大不相同。
就拿我前段时间做的一个小调查来说吧。
我想知道我们小区居民对小区停车位紧张问题的看法。
一开始,我想得可简单了,就拿着个本子在小区门口见人就问。
结果呢,有的人行色匆匆,根本不理我;有的人随便应付几句,也说不到点子上。
后来我才发现,这样的收集方法太盲目了。
我回去好好琢磨了一下,重新制定了计划。
我先在小区的业主群里发了个简单的通知,告诉大家我要做这个调查,并且说明了调查的目的和意义,希望大家能支持。
然后,我把调查问卷分成了线上和线下两种方式。
线上的通过问卷星来收集,线下的我选择在小区人多的地方,比如小广场、超市门口设点,专门找那些看起来不忙、愿意交流的居民来填写。
为了让问卷更有针对性,我可花了不少心思。
问题不能太多,不然人家会嫌烦;也不能太简单,否则收集不到有用的信息。
我把问题分成了几个部分,比如居民目前的停车情况,每天找车位花费的时间,对小区停车位规划的建议等等。
而且,每个问题都提供了几个选项,方便大家回答。
在收集数据的过程中,我还遇到了一些有趣的事儿。
有个大爷特别热情,拉着我聊了半天,从小区的历史讲到现在的管理问题,差点把我带偏了。
还有个大妈,对停车位的问题特别有意见,一个劲儿地跟我抱怨,我都插不上话。
不过通过和他们的交流,我也更深入地了解了大家的想法和需求。
数据收集完了,接下来就是整理。
这也是个繁琐但重要的工作。
我把线上线下收集到的问卷都汇总到一起,先进行筛选,把那些填写不完整或者明显乱填的去掉。
然后,对每个问题的答案进行分类统计。
统计必背知识点总结1. 总体和样本统计学的研究对象一般分为总体和样本。
总体是指所有感兴趣的个体的集合,而样本是从总体中抽取出来的一部分个体。
通过对样本进行研究分析,可以对总体做出一些推断和预测。
2. 描述统计描述统计是对数据进行总结和展示的方法。
其中包括均值(平均值)、中位数、众数、标准差、方差等。
这些统计量可以帮助我们了解数据的分布、集中趋势和离散程度。
3. 概率概率是统计学的重要概念之一,它可以帮助我们理解随机现象的规律。
概率描述的是某种事情发生的可能性,它可以用来进行风险评估和决策分析。
4. 随机变量和概率分布随机变量是对随机现象的数值表征,它可以是离散的(比如掷骰子的结果)也可以是连续的(比如身高、体重)。
概率分布描述了随机变量的取值和对应的概率,常见的概率分布包括正态分布、均匀分布、指数分布等。
5. 统计推断统计推断是从样本数据中对总体参数进行推断的过程。
包括点估计和区间估计。
点估计是用样本数据来估计总体参数的具体数值,区间估计则是通过置信区间来估计总体参数。
6. 假设检验假设检验是统计推断的一种方法,它用来检验一个关于总体参数的假设是否成立。
常见的假设检验包括单样本均值检验、双样本均值检验、方差检验等。
7. 回归分析回归分析是一种用来研究变量之间关系的统计方法。
包括简单线性回归、多元线性回归、逻辑回归等。
回归分析可以帮助我们理解变量之间的因果关系,并进行预测和控制。
8. 方差分析方差分析是一种用来比较不同群体之间平均值差异的统计方法。
它可以用来分析实验数据,比较不同处理组之间的效应是否显著。
以上就是统计学的一些基本知识点总结,掌握这些知识可以帮助我们更好地理解数据背后的规律和趋势,做出更加明智的决策。
希望对你有所帮助。
《统计学》(贾俊平)1 参数估计1.参数估计:统计推断的重要内容之一,以抽样和抽样分布为基础,用样本统计量来估计未知总体参数。
2.估计量:估计总体参数的统计量。
3.估计值:用具体样本计算出的估计量的值,即估计量的实现。
4.点估计:用某个估计值作为总体参数的估计。
5.区间估计:以点估计为基础,给出总体参数估计的一个区间范围,由点估计量加减边际误差得到。
能由抽样分布给出估计量与总体参数接近程度的概率度量,即置信水平。
6.置信区间:总体参数的估计区间。
统计学家在某种程度上确信它会包含总体参数真值,是随机区间。
7.置信水平(置信度):重复构造置信区间多次,其中包含总体参数真值的区间个数所占的比例。
它是针对随机区间而言的。
8.估计量评价标准:无偏性、有效性、一致性。
9.理论基础 ①大数定律:揭示了大量随机现象均值的稳定性。
常见的有伯努利大数定律(频率稳定性),辛钦大数定律(简单随机样本均值依概率收敛于总体均值),切比雪夫大数定律。
是用样本估计总体的理论基础。
②中心极限定理:揭示了独立同分布随机变量之和的极限分布是正态分布。
常见的有伯努利试验场合、独立同分布试验场合的中心极限定理。
是区间估计和假设检验的理论基础。
③抽样分布基本定理(正态假定)a. 2~(,/)X N n μσ;b. 222(1)/~(1)n S n σχ--;c. X 与2S 相互独立;d.~(1)X t n -; e. 2212122212/~(1,1) ()/S S F n n σσ--独立样本;f.221212~(2) (=)X Y t n n σσ+-独立样本,。
10.单总体参数估计①目标量:μ,π,2σ。
②影响因素:a.是否是正态总体;b.总体方差是否已知;c.是大样本还是小样本。
③抽样分布a.~(0,1)X Z N =; b.~(1) ~~(0,1) () t n X t N -⎧=⎨⎩,大样本; c.~(0,1) (5()5)Z N np n n p =≥-≥大样本,,;d. 2222(1)/~(1)n S n χσχ=--。
统计学重点笔记在我的学习生涯中,统计学就像一个神秘又有点调皮的小精灵,总是时不时地给我出些难题,又在关键时刻帮我解决困惑。
说起统计学,那可真是有一箩筐的话要说。
还记得刚开始接触统计学的时候,我满心欢喜地以为这会是一门轻松有趣的课程。
毕竟,在我的想象中,统计学不就是数数、算算嘛,能有多难?然而,现实很快就给了我一个响亮的耳光。
第一堂课,老师在黑板上写满了各种奇怪的符号和公式,什么均值、方差、标准差,听得我是云里雾里。
我瞪大眼睛,试图把这些知识点塞进脑子里,可它们就像调皮的孩子,总是从我思维的指缝间溜走。
当时我就在想,这哪里是统计学,分明是“魔法学”!为了能搞懂这些让人头疼的概念,我开始了漫长的“啃书”之旅。
每天晚上,我都坐在书桌前,对着那本厚厚的统计学教材,逐字逐句地读,一个例子一个例子地琢磨。
有一次,我在研究关于抽样调查的内容。
书上说,抽样调查就像是从一大锅汤里舀出一小勺来尝尝,通过这一小勺来推断整锅汤的味道。
为了更形象地理解这个概念,我决定自己动手做个小实验。
我从厨房里找来了一碗豆子,有红豆、绿豆和黄豆。
我把它们混在一起,就当成是我要研究的“总体”。
然后,我闭上眼睛,用勺子随机舀出了一小部分豆子,这就是我的“样本”。
我仔细地数了数样本中各种豆子的数量,然后根据这个比例去推测整碗豆子中每种豆子的大致数量。
在这个过程中,我可真是小心翼翼,生怕自己的动作影响了结果的准确性。
我瞪大眼睛,一颗一颗地数着豆子,就像一个正在执行重要任务的特工。
当我完成计算,将推测的结果和实际的情况进行对比时,发现竟然还挺接近!那一刻,我心中充满了成就感,仿佛自己解开了一道世界级的难题。
随着学习的深入,我遇到了更多复杂的问题,比如假设检验。
这玩意儿就像是一场和数据的“辩论赛”,要通过证据来判断一个说法是对还是错。
有一次做作业,题目是要判断一种新的药物是否对治疗某种疾病有显著效果。
我先是收集了一堆患者使用药物前后的数据,然后根据统计学的方法进行计算和分析。
统计学各章节期末复习知识点统计学是一门研究数据收集、分析和解释的学科。
作为一门广泛应用于各个领域的学科,统计学的知识点非常丰富。
以下是统计学各章节的期末复习知识点汇总:1.数据收集与描述-数据类型:定量数据和定性数据-数据收集方式:问卷调查、观察、实验-描述统计:中心趋势(均值、中位数、众数)、离散程度(范围、方差、标准差)、数据分布(直方图、条形图、饼图)2.概率论基础-随机试验与样本空间-事件与事件概率-古典概型、几何概型和统计概型-条件概率与独立性-伯努利试验与二项分布3.随机变量及其分布-随机变量与分布函数-离散型随机变量与其分布律-连续型随机变量与其概率密度函数-均匀分布、正态分布、指数分布等常见分布4.多个随机变量的分布-边缘分布与条件分布-两个离散型随机变量的联合分布律-两个连续型随机变量的联合概率密度函数-相互独立的随机变量的分布5.随机变量的数字特征-数学期望与其性质-方差与标准差-协方差与相关系数-矩、协方差矩阵与相关系数矩阵6.大数定律与中心极限定理-辛钦大数定律-中心极限定理-切比雪夫不等式与伯努利不等式7.统计推断基础-参数估计:点估计、区间估计-置信区间与置信水平-假设检验:原假设与备择假设、显著性水平、拒绝域-类型Ⅰ错误和类型Ⅱ错误-样本容量与统计检验的效应大小8.单样本与双样本推断-单个总体均值的推断:正态总体与非正态总体-单个总体比例的推断-两个总体均值的推断:独立样本与配对样本-两个总体比例的推断9.方差分析与回归分析-单因素方差分析-两因素方差分析-简单线性回归分析:最小二乘法-多元线性回归分析:拟合优度、剩余平方和、变量选择10.非参数统计方法-指标:秩和检验、秩和相关检验、符号检验- 分布:符号检验、秩和检验、秩和相关检验、Kolmogorov-Smirnov检验这些是统计学各个章节的期末复习知识点的一个概述。
每个章节都拥有更加详细和复杂的内容,需要学生在复习中深入理解并进行练习。
大学统计学笔记(精选5篇)1.2统计学处理所有数据采用SPSS19.0软件进行分析处理,计量资料比较采用t检验,计数资料比较采用χ2检验,P<0.05为差异有统计学意义。
2结果3讨论关键词:笔记策略;多媒体;课件设计课堂笔记是学生在课堂上记下的重难点、要点,有助于学生在课后进行复习巩固。
如果学生能在课堂上做好笔记,那么他们在课后进行复习时就能达到事半功倍的效果。
在传统的课堂教学中,教师是边讲解边板书,学生有了一定的时间做笔记。
而在多媒体教学情境下,据调查:能大部分记下笔记的仅占28.5%;多达40.7%的学生只能记一点笔记;根本不记以及其他原因基本不记笔记的高达30.8%。
可见,多媒体教学的课堂笔记是个较突出的问题,必须引起重视。
1、学生不记笔记的原因据调查,多媒体情境下学生不记笔记的原因,主要基于以下几方面的问题:1.1课程节奏过快。
在多媒体教学情境下,节省了教师板书的时间,导致讲解同样知识的时间缩短,老师鼠标一点就几乎相当于过去的一黑板,屏幕上闪现的教学内容转瞬即逝,致使学生来不及记笔记、来不及思考。
结果导致一堂课后,有的学生课本没有翻动或没有一点记录,课后学生对课堂内容印象不深。
1.2多媒体课件内容不适度。
有的课件文字内容太多,甚至照搬书本,学生对教学内容感到枯燥乏味,不知道重点难点,无从记起;有的课件文字内容太少,很多图片或图像或动画的多媒体,看起来漂亮,但忽略了实际的教学内容,学生同样不知道哪些是应该掌握的,没办法做笔记。
1.3主要脉络层次不如传统板书清晰。
传统板书每堂课结束时,重点都体现在黑板上,但多媒体由于每一屏幕显示的内容有限,不能很好体现这一点。
1.4多媒体课件形式单调。
很多课件的设计手段单一,字多、字体与背景不易分辨,没有选择颜色对比鲜明的配色方案突出重点。
另一方面,为了看到较好的投影效果,往往把窗帘和灯光都关起来,教室里面光线不好,只听老师讲课,学生没条件记笔记。
由此可见,学生的笔记行为较大程度受到多媒体课件质量的影响,教师在制作课件时,应充分考虑到学生笔记策略的运用,根据学生认知规律精心设计多媒体课件。
统计学原理与实务各章节复习知识点归纳第一章总论重点在“第三节:统计学中的基本概念”考点一:掌握以下四组概念(含义及举例)一一肯定考一个名词解释!①总体、总体单位(统计)总体:是由客观存在的,具有某种共同性质的许多个别事物构成的整体。
总体单位:构成总体的个别事物。
②标志、标志值及分类标志:说明总体单位特征的名称分类:a. 品质标志:说明总体单位的品质特征,一般用文字表现。
(有些品质标志虽然以数量表现,但实质表现产品质量差异。
例如产品质量的具体表现未“一等、二等、三等”。
)b. 数量标志:说明总体单位的数量特征。
只能用数值来表现。
u按变异情况可变标志:当一个标志在各个总体单位表现不尽相同时称为可变标志不变标志:……都相同……不变标志。
标志值:标志的具体表现。
③变量、变量值变量:指数量标志。
变量值:指数量标志值,具有客观存在性。
④指标的含义及分类(统计)指标:是综合反映统计总体某一数量特征的概念和数值,简称指标。
a. 按其反映总体现象内容不同:数量指标(绝对数,绝对指标,总量指标),质量指标(相对数或平均数,相对指标和平均指标)。
b. 按其作用不同:总量指标,相对指标和平均指标。
c. 按反映的时间特点不同:试点指标和时期指标d. 计量单位的特点:实物指标、价值指标和劳动指标。
★指标和标志的区别与联系:区别:①标志是说明总体单位特征的名称;指标是说明总体的数量特征;②标志既有反映总体单位数量特征的,也有反映总体单位品质特征;而指标只反映总体的数量特征;③凡是统计指标都具有综合的性质,而标志一般不具有。
联系:①许多指标由数量标志值汇总而得;②指标与数量标志可随统计研究目的而改变;课后习题:。
1“统计”一词一般有三种含义,即统计工作、统计资料和统计学。
统计工作是对社会经济现象数量方面进行搜集、整理和分析工作的总称,它是一种社会调查研究活动。
统计资料也即为统计信息,是统计部门或者单位进行工作所搜集、整理、编制的各种统计数据资料的总称,它是进行国民经济宏观调控的依据,是社会公众了解国情、国力和经济发展状况的信息主体。
2.统计学的特点归纳为四个方面:数量性、总体性、具体性、社会性。
3.总体即为统计总体,是客观存在的、在同一性质基础上结合起来的许多个别单位的总体。
Eg:所有的工业企业都是一个总体。
4.标志是用来说明总体单位特征的名称。
指标又称为统计指标,是说明总体的综合数量特征的。
5.标志与指标的区别:标志是说明总体单位特征的,而指标是说明总体特征的;指标都能用数值来表示的,而标志中的品质标志不能用数值来表示,是属性表示;指标数值是经过一定的汇总取得的,而标志中的数量标志不一定是经过一定汇总,可直接取得;标志一般不具备时间、地点等条件,但作为一个完整的统计指标,一定要讲时间、地点、范围。
其联系是有许多统计指标的数值从总体单位的数量标志值汇总而来的;二者之间存在着一定的变换关系。
6.统计调查方案设计:确定调查目的;确定调查对象和调查单位;确定调查项目;确定调查时间和调查期限;制定调查的组织实施计划;选择调查方法。
7.组织普查必须遵守的四项原则:必须统一规定资料的所属的标准时点;正确选择普查时期;在普查范围内各调查单位或者调查点尽可能的同时进行调查,并尽可能的在最短期限内完成,以便在方法上、步调上协调一致;调查项目一经确认,不能任意改变或增减,以免影响汇总综合,降低资料质量。
8.重点调查是在调查对象范围内选择部分重点调查单位搜集统计资料的非全面调查。
9.典型调查是在调查对象中有意识的选取若干具有典型意义的或有代表性的单位进行非全面调查。
10..统计报表是以基层单位的原始记录为依据,按照国家或者上级部门统一规定的表式、统一的指标项目、统一的报送程序和报送时间、自上而下逐级提供统计资料的一种调查方式。
绪论第一节统计学的含义和作用一、什么是统计学1.统计学的含义统计学是有效收集、处理、分析和解释数据,发现规律,以便更好决策的一门方法论学科。
2. 分析数据的方法有描述统计、推断统计。
⑴描述统计①描述统计是将所收集的数据处理后,用数值、表格或图形形式表现的有用信息。
②描述统计是基础,它为推断统计、统计咨询、统计决策提供必要⑵推断统计就是根据样本数据特征去估计或检验总体的数据特征。
二、统计学的作用和重要性1.统计学的作用人们用数据发现的规律做出更好的决策。
2.要发现规律,对统计数据通常有要求:客观性、适用性、准确性和及时性。
三、统计学是如何解决实际问题的?统计学解决实际问题的基本思路是:①提出与统计有关的实际问题;②建立有效的指标体系;③收集数据;④选用或创造有效的统计方法处理、显示所收集数据的特征;⑤根据所收集数据的特征、结合定性、定量知识作出总体特征的合理推断;⑥根据推断给出更好决策的建议;不解决问题时,重复第②-⑥步。
第二节统计学的基本概念一、总体、单位和样本1.总体统计总体是根据一定目的确定的,由客观存在的、具有某种同质性的许多个别事物构成的整体。
⑴同质性是确定统计总体的基本标准,它是根据统计的研究目的而定的。
研究目的不同,所确定的总体也不同,其同质性的意义也随之变化。
⑵统计总体还应具备大量性,即统计总体应应该由足够数量的同质性单位构成。
2.总体单位(简称单位)是组成总体的各个个体。
如典型案例1中英军的每架战机;事例4中的每个居民。
3.由总体的部分单位组成的集合称为样本(又称子样)。
构成样本的单位称为样品,样本中样品的数目称为样本容量。
4. 统计学解决问题的目的是认识总体的数据特征。
但是,当调查是破坏性的,或者出于成本、时间等因素考虑时,不必要或不可能对构成总体的所有单位都进行调查。
二、标志、指标(参数)和统计量1.标志:(1)总体单位普遍具有的属性或特征称为标志。
(2)标志按其表现分为品质标志和数量标志两种。
一、统计学原理期末考试试题类型及结构1、单项选择题:30分。
考核对基本概念的理解和计算方法的应用。
2、判断题:10分。
考核对基本理论、基本概念的记忆和理解。
3、简答题:30分。
考核对基本概念、基本理论、基本方法的理解和掌握情况。
4、计算题:30分。
考核对基本计算方法的理解、掌握程度及综合应用能力。
二、期末考试形式及答题时限期末考试形式为闭卷笔试;答题时限为90分钟;可以携带计算器。
三、各章复习内容期末复习资料:教材、学习指导书习题、作业第一章统计总论1.理解统计学的含义答:收集、处理、分析、解释数据并从数据中得出结论的科学(收集数据:取得数据;处理数据:整理与图表展示;分析数据:利用统计方法分析数据;数据解释:结果的说明;得到结论:从数据分析中得出客观结论)第二章数据的搜集1.数据的来源答:(1)数据的间接来源:系统外部的数据(统计部门和政府部门公布的有关资料,如各类统计年鉴、各类经济信息中心、信息咨询机构、专业调查机构等提供的数据、各类专业期刊、报纸、书籍所提供的资料、各种会议,如博览会、展销会、交易会及专业性、学术性研讨会上交流的有关资料、从互联网或图书馆查阅到的相关资料)系统内部的数据(业务资料,如与业务经营活动有关的各种单据,记录、经营活动过程中的各种统计报表、各种财务,会计核算和分析资料等)(2)数据的直接来源(原始数据)调查数据实验数据2.收集数据的基本方法:调查的数据(自填式、面访式、电话式);实验的数据3.抽样误差:由于抽样的随机性所带来的误差;所有样本可能的结果与总体真值之间的平均性差异;影响抽样误差的大小的因素(样本量的大小、总体的变异性)重点:数据来源、数据搜集方法、抽样误差第三章数据的图表展示重点:熟悉条形图、直方图、饼图、环形图、箱线图、线图等1.对分类数据和顺序数据主要是作分类整理;对数值型数据则主要是作分组整理2.适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整理和显示方法并不适合于低层次的数据3.分类数据的图示—条形图:用宽度相同的条形的高度或长短来表示各类别数据的图形;有单式条形图、复式条形图等形式;主要用于反映分类数据的频数分布,绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图4.分类数据的图示—帕累托图:按各类别数据出现的频数多少排序后绘制的柱形图;主要用于展示分类数据的分布5.分类数据的图示—饼图:也称圆形图,是用圆形及圆内扇形的角度来表示数值大小的图形;主要用于表示样本或总体中各组成部分所占的比例,用于研究结构性问题;绘制圆形图时,样本或总体中各部分所占的百分比用圆内的各个扇形角度表示,这些扇形的中心角度,按各部分数据百分比乘以360度确定。
6.环形图:中间有一个“空洞”,样本或总体中的每一部分数据用环中的一段表示;与饼图类似,但又有区别(饼图只能显示一个总体各部分所占的比例;环形图则可以同时绘制多个样本或总体的数据系列,每一个样本或总体的数据系列为一个环);用于结构比较研究;用于展示分类和顺序数据7.数值型数据A组距分组:将变量值的一个区间作为一组;适合于连续变量;适合于变量值较多的情况;需要遵循“不重不漏”的原则;可采用等距分组,也可采用不等距分组B直方图:用于展示分组数据分布的一种图形;用矩形的宽度和高度来表示频数分布(本质上是用矩形的面积来表示频数分布);在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图。
C直方图与条形图的区别:条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义;直方图的各矩形通常是连续排列,条形图则是分开排列;条形图主要用于展示分类数据,直方图则主要用于展示数值型数据。
D未分组数据—茎叶图:用于显示未分组的原始数据的分布;由“茎”和“叶”两部分构成,其图形是由数字组成的;以该组数据的高位数值作树茎,低位数字作树叶;树叶上只保留最后一位数字;茎叶图类似于横置的直方图,但又有区别(直方图可观察一组数据的分布状况,但没有给出具体的数值、茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息、直方图适用于大批量数据,茎叶图适用于小批量数据)E未分组数据—箱线图:用于显示未分组的原始数据的分布;由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成;绘制方法(首先找出一组数据的5个特征值,即最大值、最小值、中位数Me和两个四分位数(下四分位数QL和上四分位数QU)连接两个四分位数画出箱子,再将两个极值点与箱子相连接)F时间序列数据—线图:表示时间序列数据趋势的图形;时间一般绘在横轴,数据绘在纵轴;图形的长宽比例大致为10 : 7第四章数据的概括性度量(计算章节)重点:众数、中位数、分位数、平均数、方差(计算);自由度、偏态、峰态等1.离中趋势:数据分布的另一个重要特征;反映各变量值远离其中心值的程度(离散程度);从另一个侧面说明了集中趋势测度值的代表程度;不同类型的数据有不同的离散程度测度值。
2.自由度:自由度是指数据个数与附加给独立的观测值的约束或限制的个数之差;从字面涵义来看,自由度是指一组数据中可以自由取值的个数;当样本数据的个数为n时,若样本平均数确定后,则附加给n个观测值的约束个数就是1个,因此只有n-1个数据可以自由取值,其中必有一个数据不能自由取值;按着这一逻辑,如果对n个观测值附加的约束个数为k个,自由度则为n-k3.偏态:统计学家Pearson于1895年首次提出;数据分布偏斜程度的测度;偏态系数=0为对称分布、偏态系数> 0为右偏分布、偏态系数< 0为左偏分布、偏态系数大于1或小于-1,被称为高度偏态分布;偏态系数在0.5~1或-1~-0.5之间,被认为是中等偏态分布;偏态系数越接近0,偏斜程度就越低。
4.峰态:统计学家Pearson于1905年首次提出;数据分布扁平程度的测度;峰态系数=0扁平峰度适中、峰态系数<0为扁平分布、峰态系数>0为尖峰分布。
第 五 章 概率与概率分布重点:概率的性质、 概率的加法法则、 条件概率与独立事件、期望、方差、正态分布加法公式P ( A ∪B ) = P ( A ) + P ( B ) - P ( A ∩B )乘积公式:P(AB)=P(B)P(A|B),或P(AB)=P(A)P(B|A)独立公式:P(AB)=P(A)·P(B)(1)概率的性质1. 非负性a) 对任意事件A ,有 0 ≤ P (A ) ≤ 12. 规范性a) 必然事件的概率为1;不可能事件的概率为0。
即P ( Ω ) = 1; P ( Φ ) = 03. 可加性a) 若A 与B 互斥,则P ( A ∪B ) = P ( A ) + P ( B )b) 推广到多个两两互斥事件A 1,A 2,…,A n ,有 P ( A 1∪A 2 ∪… ∪A n ) = P ( A 1 ) + P (A 2 )+ …+ P (A n )(2)条件概率:在事件B 已经发生的条件下,求事件A 发生的概率,称这种概率为事件B 发生条件下事件A 发生的条件概率,记为 P(A|B) =P(AB)P(B)(3) 事件的独立性:一个事件的发生与否并不影响另一个事件发生的概率,则称两个事件独立;若事件A 与B 独立,则P (B |A )=P (B ), P (A |B )=P (A ) ;此时概率的乘法公式可简化为 P (AB )=P (A )·P (B ) 推广到n 个独立事件,有 P (A 1 A 2 …A n )=P (A 1)P (A 2) … P (A n ) 数据分布特征集中趋势众数中位数平均数离散程度异众比率四分位差极差平均差方差或标准差离散系数分布形状偏态系数峰态系数(4)离散型随机变量的数学期望:在离散型随机变量X的一切可能取值的完备组中,各可能取值xi与其取相对应的概率pi乘积之和;描述离散型随机变量取值的集中程度;计算公式为(5)离散型随机变量的方差:随机变量X的每一个取值与期望值的离差平方和的数学期望,记为D(X);描述离散型随机变量取值的分散程度;计算公式为(6)正态分布函数的性质:概率密度函数在x的上方,即f(x)>0;正态曲线的最高点在均值μ,它也是分布的中位数和众数;正态分布是一个分布族,每一特定正态分布通过均值μ和标准差σ来区分。
μ决定了图形的中心位置, σ决定曲线的平缓程度,即宽度;曲线f(x)相对于均值μ对称,尾端向两个方向无限延伸,且理论上永远不会与横轴相交;正态曲线下的总面积等于1;随机变量的概率由曲线下的面积给出(描述连续型随机变量的最重要的分布)第六章统计量及其抽样分布重点:统计量,χ2分布,t分布,F分布1.统计量:设X1,X2,…,X n是从总体X中抽取的容量为n的一个样本,如果由此样本构造一个函数T(X1,X2,…,X n),不依赖于任何未知参数,则称函数T(X1,X2,…,X n)是一个统计量(样本均值、样本比例、样本方差等都是统计量)统计量是样本的一个函数;统计量是统计推断的基础2.χ2分布:由阿贝(Abbe) 于1863年首先给出,后来由海尔墨特(Hermert)和卡·皮尔逊(K·Pearson) 分别于1875年和1900年推导出来;分布的变量值始终为正;分布的形状取决于其自由度n的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称;期望为:E(χ2)=n,方差为:D(χ2)=2n(n为自由度)3.t 分布:高塞特(W.S.Gosset)于1908年在一篇以“Student”(学生)为笔名的论文中首次提出;t 分布是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散;一个特定的分布依赖于称之为自由度的参数。
随着自由度的增大,分布也逐渐趋于正态分布。
4.F分布:由统计学家费希尔(R.A.Fisher) 提出的,以其姓氏的第一个字母来命名。
5.中心极限定理:从均值为μ,方差为σ2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布。
第七章参数估计重点:置信区间1.置信水平:将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称为置信水平;表示为 (1 - a) %(a为是总体参数未在区间内的比例)常用的置信水平值有 99%, 95%, 90%(相应的 a为0.01,0.05,0.10)2.置信区间:由样本统计量所构造的总体参数的估计区间称为置信区间;统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区间;用一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值我们只能是希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个;总体参数以一定的概率落在这一区间的表述是错误的3.常用置信水平Z a/2值置信水平 A a/2 Z a/290%0.1 0.05 1.64595%0.05 0.025 1.9699%0.01 0.005 2.58第八章假设检验重点:原假设、备择假设、假设检验的流程、均值检验等1.原假设:待检验的假设,又称“0假设”;研究者想收集证据予以反对的假设;总是有等号 =,£或³表示为 H0(H0:m = 某一数值;指定为 = 号,即£或³;例如, H0:m = 3190(克))2.备择假设:与原假设对立的假设,也称“研究假设”;研究者想收集证据予以支持的假设总是有不等号:¹,<或> 表示为 H1 H1:m <某一数值,或m >某一数值例如, H1:m < 3910(克),或m >3910(克)。