统计学基础
- 格式:doc
- 大小:44.04 KB
- 文档页数:2
第一章:导论1、什么是统计学?统计方法可以分为哪两大类?统计学是收集、分析、表述和解释数据的科学。
统计方法可分为描述统计方法和推断统计方法。
2、统计数据可分为哪几种类型?不同类型的数据各有什么特点?按照所采用的计量尺度不同,分为分类数据、顺序数据和数值型数据;按照统计数据的收集方法,分为观测的数据和实验的数据;按照被描述的对象与时间的关系,分为截面数据和时间序列数据。
按计量尺度分时:分数数据中各类别之间是平等的并列关系,各类别之间的顺序是可以任意改变的;顺序数据的类别之间是可以比较顺序的;数值型数据其结果表现为具体的数值。
按收集方法分时:观测数据是在没有对事物进行人为控制的条件下等到的;实验数据的在实验中控制实验对象而收集到的数据。
按被描述的对象与时间关系分时:截面数据所描述的是现象在某一时刻的变化情况;时间序列数据所描述的是现象随时间而变化的情况。
3、举例说明总体、样本、参数、统计量、变量这几个概念。
总体是包含研究的全部个体的集合。
比如要检验一批灯泡的使用寿命,这一批灯泡构成的集合就是总体。
样本是从总体中抽取的一部分元素的集合。
比如从一批灯泡中随机抽取100个,这100个灯泡就构成了一个样本。
参数是用来描述总体特征的概括性数字度量。
比如要调查一个地区所有人口的平均年龄,“平均年龄”即为一个参数。
统计量是用来描述样本特征的概括性数字度量。
比如要抽样调查一个地区所有人口的平均年龄,样本中的“平均年龄”即为一个统计量。
变量是说明现象某种特征的概念。
比如商品的销售额是不确定的,这销售额就是变量。
第二章:数据的收集1、调查方案包括哪几个方面的内容?调查目的,是调查所要达到的具体目标。
调查对象和调查单位,是根据调查目的确定的调查研究的总体或调查范围。
调查项目和调查表,要解决的是调查的内容。
2、数据的间接来源(二手数据)主要是公开出版或公开报道的数据;数据的直接来源一是调查或观察,二是实验。
3、统计调查方式:抽样调查、普查、统计报表等。
统计学的含义一.什么是统计学统计学是一门研究数据的科学,按大百科全书的定义:统计学是用以收集数据,分析数据和由数据得出结论的一组概念、原则和方法。
统计分析数据分两种:描述统计和推断统计描述统计是研究数据搜集、处理和描述的统计学方法。
其内容包括如何取得研究所需要的数据,如何用图表形式对数据进行处理和展示,如何通过对数据的综合、概括与分析,得出所关心的数据特征。
统计描述是指对由实验或调查而得到的数据进行登记、审核、整理、归类、计算出各种能反映总体数量特征的综合指标,并加以分析,从中抽出有用的信息,用表格或图像把它表示出来。
是统计研究的基础。
它通过对分散无序的原始资料的整理归纳,运用分组法和综合指标法得到现象总体的数量特征,揭露客观事物内在数量规律性,达到认识的目的。
分组法是研究总体内部差异的重要方法,通过分组可以研究总体中不同类型的性质以及它们的分布情况综合指标法是指运用各种统计指标来反映和研究客观总体现象的一般数量特征和数量关系的方法统计模型法是综合指标法的扩展。
它是根据一定的理论和假定条件,用数学方程去模拟现实客观现象相互关系的一种研究方法。
推断统计则是研究如何利用样本数据来推断总体特征的统计学方法,内容包括参数估计和假设检验两大类。
所谓统计推断就是以一定的置信标准要求,根据样本数据来判断总体数量特征的归纳推理的方法。
统计推断是逻辑归纳法在统计推理的应用,所以称为归纳推理的方法。
(1)参数估计法:当总体的界限已划定,总体某一数量特征(如总体平均数、方差等)的数值就是唯一确定的,所以把总体的数量特征称为总体参数。
但是总体参数通常不知道,这就需要通过样本数据计算样本统计量,并以此作为总体参数的估计量来估计总体参数的取值或取值区间,这种方法称之为参数估计法。
(2)假设检验法:假设检验的特点是,由于对总体的变化情况不了解,不妨先对总体的状况作某种假设,然后根据样本实际观察的资料对所作假设进行检验,来判断这种假设的真伪,以决定行动的取舍。
第一章统计和统计数据的收集一、什么是统计?(一)统计包含三种涵义,两重关系1. 统计工作:对统计数据进行搜集、整理和分析的过程。
2. 统计数据:统计工作所产生的成果,用以描述我们所研究现象的属性和特征。
如统计图表,统计分析报告等。
3. 统计学:一门研究总体数量特征的方法论科学。
(二)四个重要的术语总体:所研究的具有某些相同性质的全部单位或事件的整体。
无限总体:含无限多个单位。
有限总体:含有限个单位。
样本:亦可称为抽样总体,是从总体中抽取部分单位所组成的整体,用以分析总体。
参数:亦可称为总体指标,是综合测量的整个总体的某个数量特征。
统计量:亦可称为样本指标,是根据样本数据计算的综合测量值,可用以反映或估计、推断总体的某个数量特征。
(三)统计学的内容1.描述统计关于搜集、展示一批数据,并反映这批数据特征的各种方法,其目的是为了正确地反映总体的数量特点。
2.推断统计根据样本统计量估计和推断总体参数的技术和方法。
描述统计是推断统计的前提,推断统计是描述统计的发展。
二、数据(一)为何需要数据?统计学要研究各种随机变量,通过对这些随机变量的观察所获取的数据包含了我们所需的信息,这些信息能有助于我们在许多场合中做出更为正确的决策。
(二)数据分类的原则互斥原则:每一个数据只能划归到某一类型中,而不能既是这一类,又是那一类。
穷尽原则:所有被观察的数据都可被归属到适当的类型中,没有一个数据无从归属。
(三)数据的类型1. 定性数据和定量数据定性数据:用文字描述的。
定量数据:用数字描述的。
a 2. 离散型数据和连续型数据变量:若我们所研究现象的属性和特征的具体表现在不同时间、不同空间或不同单位之间可取不同的数值,则可称这种数据为变量。
类型离散型变量:数据只能取整数。
连续型变量的数据可以取介于两个数值之间的任意数值。
3. 数据的四个等级定类数据:也称定名数据,这种数据只对事物的某种属性和类别进行具体的定性描述。
能够进行的唯一运算是计数,即计算每一个类型的频数或频率(即比重)。
统计学理论基础知识(史上最全最完整)统计学是一门关于收集、分析、解释和展示数据的学科。
它在许多领域中都发挥着重要作用,包括自然科学、社会科学、商业和医学等。
基本概念- 数据:统计学的研究对象,可以是数值、文字或图像等。
- 总体与样本:总体是我们想要研究的所有个体或事物,而样本是从总体中选择的一部分。
- 参数与统计量:参数是总体的数值特征,统计量是样本的数值特征。
- 频数与频率:频数是某个数值出现的次数,频率是频数与样本大小之比。
描述统计学- 中心趋势:用于衡量数据集中的位置,常用的统计量有平均数、中位数和众数。
- 变异程度:用于衡量数据集中的离散程度,常用的统计量有标准差、方差和四分位数。
- 数据分布:用于描述数据集中每个值的频率分布情况,常用的图表有直方图和箱线图。
推断统计学- 参数估计:通过样本统计量对总体参数进行估计,包括点估计和区间估计。
- 假设检验:根据样本数据对总体参数的假设进行推断性统计分析,包括设置原假设和备择假设,并进行显著性检验。
相关分析- 相关系数:用于衡量两个变量之间的关联程度,常用的相关系数有Pearson相关系数和Spearman等级相关系数。
- 回归分析:用于建立变量之间的数学关系,常用的回归分析有线性回归和多元回归。
统计学软件- 常用统计软件:如SPSS、R、Excel等。
- 数据可视化工具:如Tableau、Power BI等。
这份文档提供了统计学的基础知识概述,包括基本概念、描述统计学、推断统计学、相关分析和统计学软件。
它将帮助读者理解统计学的核心概念和方法,为进一步探索统计学打下坚实的基础。
统计学基础知识统计学是一门研究收集、整理、分析和解释数据的学科,它在各个领域都有广泛的应用。
无论是在科学研究、经济管理、医学领域还是社会科学等领域,统计学都扮演着重要的角色。
本文将介绍统计学的基础知识,包括数据的类型、统计描述、概率与概率分布以及假设检验等内容。
一、数据的类型在统计学中,数据可以分为两种类型:定量数据和定性数据。
定量数据是用数值表示的,可以进行数学运算,如身高、体重等;而定性数据则是描述性的,通常用文字或符号表示,如性别、职业等。
了解数据的类型对于选择合适的统计方法非常重要。
二、统计描述统计描述是对数据进行概括和总结的过程。
其中最常见的统计描述指标包括均值、中位数、众数、标准差和方差等。
其中,均值是指所有观测值的平均值,中位数是将数据按大小排列后位于中间的数值,众数是数据中出现次数最多的数值。
标准差和方差是用来衡量数据的离散程度。
通过统计描述指标,我们可以更好地了解数据的分布和趋势。
三、概率与概率分布概率是统计学中一个重要的概念,它用来描述一个事件发生的可能性。
概率值介于0和1之间,0表示不可能事件,1表示必然事件。
概率分布则是对所有可能事件及其对应概率的描述。
常用的概率分布包括正态分布、二项分布和泊松分布等。
正态分布是一种最为常见的连续性概率分布,它的特点是均值和标准差完全确定了分布的形状。
二项分布是一种离散性概率分布,用于描述在给定次数的独立重复试验中成功次数的概率。
泊松分布则是一种用于描述单位时间或单位空间内事件发生次数的概率分布。
了解概率与概率分布对于统计学分析和预测具有重要意义。
四、假设检验假设检验是统计学中常用的方法之一,用于通过对样本数据进行分析来对总体进行推断。
假设检验通常包括两类假设:零假设和备择假设。
零假设是一种关于总体参数的陈述,备择假设则是对零假设的否定。
通过对样本数据进行统计分析,我们可以进行假设检验来判断零假设是否成立。
常见的假设检验方法包括t检验、卡方检验和方差分析等。
一、数据的特征值(一)数据的位置特征值 1)平均值如果从总体中抽取一个样本,得到一批数据x 1,x 2,x 3….x n ,则样本的平均值x 为:n-数据个数; x i -第i 个数据数; ∑-求和。
2)中位数有时,为减少计算,将数据x 1,x 2,x 3….x n 按大小次序排列,用位居于正中的那个数或中间两个数的平均值(当数据为偶数时)表示数据的总体平均水平。
3)中值M 测定值中的最大值x max 与最小值x min 的平均值,用M 表示。
4)众数在用频数分布表示测定值时,频数最多的值即为众数。
若测定值按区间做频数分布时,频数最多的区间代表值(一般取区间中值)也称众数。
(二)数据的离散特征值 1)极差R测定值中的最大值x max 与最小值x min 之差称为极差。
通常R 用于个数n 小于10的情况下,n 大于10时,一般采用标准偏差s 表示。
2)偏差平方和S 各测定值x i 与平均值 之差称为偏差。
各测定值的偏差平方和称为偏差平方和,简称平方和,用S 表示。
无偏方差各个测定值的偏差平方和除以(n-1)后所得的值称为无偏方差(简称方差),用s 2表示:~x _x _x ∑=--=-=n i i x x n n S s12_2)(1112_2_22_1)(...)()(x x x x x x n -+-+-∑=-ni i x x 12_)(S = =标准偏差s2(三)变异系数以上反映数据离散程度的特征值,只反映产品质量的绝对波动大小。
在工程实践中,测量较大的产品,绝对误差一般较大,反之亦然。
因此要考虑相对波动的大小,在统计技术上上式中σ和μ为总体均值和总体标准差,当过程在受控状态下,且样本容差较大时,可用样本标准差s 和样本均值 估计。
_xCa、Cp、Cpk的计算过程准确度指数(Ca值):表示过程特性中心位置的偏移程度,越小越好Ca=(样本平均值-规格中心值)/(规格公差/2)等级A:|Ca|≦12.5% 表示作业员遵守作业规范,并达规格要求等级B :12.5%< |Ca|≦25% 表示必要时尽可能提升至A级等级C:25%< |Ca|≦50% 表示作业员可能看错或未按标准作业,或须修改规格及作业标准。
一、数据的特征值(一)数据的位置特征值 1)平均值如果从总体中抽取一个样本,得到一批数据x 1,x 2,x 3….x n ,则样本的平均值x 为:n-数据个数; x i -第i 个数据数; ∑-求和。
2)中位数有时,为减少计算,将数据x 1,x 2,x 3….x n 按大小次序排列,用位居于正中的那个数或中间两个数的平均值(当数据为偶数时)表示数据的总体平均水平。
3)中值M 测定值中的最大值x max 与最小值x min 的平均值,用M 表示。
4)众数在用频数分布表示测定值时,频数最多的值即为众数。
若测定值按区间做频数分布时,频数最多的区间代表值(一般取区间中值)也称众数。
(二)数据的离散特征值 1)极差R测定值中的最大值x max 与最小值x min 之差称为极差。
通常R 用于个数n 小于10的情况下,n 大于10时,一般采用标准偏差s 表示。
2)偏差平方和S 各测定值x i 与平均值 之差称为偏差。
各测定值的偏差平方和称为偏差平方和,简称平方和,用S 表示。
无偏方差各个测定值的偏差平方和除以(n-1)后所得的值称为无偏方差(简称方差),用s 2表示:~x _x _x ∑=--=-=n i i x x n n S s 12_2)(1112_2_22_1)(...)()(x x x x x x n -+-+-∑=-ni i x x 12_)(S = =标准偏差s2(三)变异系数以上反映数据离散程度的特征值,只反映产品质量的绝对波动大小。
在工程实践中,测量较大的产品,绝对误差一般较大,反之亦然。
因此要考虑相对波动的大小,在统计技术上上式中σ和μ为总体均值和总体标准差,当过程在受控状态下,且样本容差较大时,可用样本标准差s 和样本均值 估计。
_xCa、Cp、Cpk的计算过程准确度指数(Ca值):表示过程特性中心位置的偏移程度,越小越好Ca=(样本平均值-规格中心值)/(规格公差/2)等级A:|Ca|≦12.5% 表示作业员遵守作业规范,并达规格要求等级B :12.5%< |Ca|≦25% 表示必要时尽可能提升至A级等级C:25%< |Ca|≦50% 表示作业员可能看错或未按标准作业,或须修改规格及作业标准。
统计学基础作业2
班级:姓名:学号:
一、填空题:
1、统计数据分组的关键在于。
2、根据分组标志的不同,统计分组可以有分组和分组。
3、组距式变量数列,根据各组的组距是否相等可以分为和。
4、从形式上看,统计表主要有、、和
四部分组成;从内容上看,统计表由、两部分组成。
5、直方图是用的宽度和高度来表示频数分布的图形。
6、按绝对数的计量单位不同可分为、、
三类指标。
7、中位数是位于变量数列的那个标志值,众数是在总体中出现次数的那个标志值,中位数和众数也可以称为。
8、当变量数列中算术平均数大于众数时,这种变量数列的分布呈分布;反之,算术平均数小于众数时,变量数列的分布则呈分布。
二、判断题:
1、能够对统计总体进行分组,是由统计总体中各个单位所具有的差异性特点决定的。
()
2、简单分组涉及总体的某一标志,复合分组则涉及总体两个以上标志,因此,将两个简单分组排列起来,就是复合分组。
()
3、单项式频数分布的组数等于变量所包含的变量值的种数。
()
4、按年代排列各种指标属于按数量标志分组。
()
5、圆形图是以圆的面积或圆内各扇形的面积来表示数值大小或总体内部结构的一种图形。
()
6、结构相对数的的数值只能小于1。
()
7、反映总体内部构成特征的指标只能是结构相对数。
()
8、算术平均数的大小,只受总体各单位标志值大小的影响。
()
9、中位数和众数都属于平均数,因此它们数值的大小受到总体内各单位标志值大小的影响。
()
10、当各标志值的连乘积等于总比例或总速度时,宜采用几何平均法计算平均数。
三、单项选择题:()()1、某连续变量数列,其末组为开口组,下限为200,又知其邻组的组中值为170,则末组组中值为。
A、260
B、215
C、230
D、185
()2、下列分组中按品质标志分组的是。
A、人口按年龄分组
B、产品按质量优劣分组
C、企业按固定资产原值分组C、乡镇按工业产值分组
()3、对企业先按经济类型分组,再按企业规模分组,这样的分组,属于。
A、简单分组
B、平行分组
C、复合分组
D、再分组
()4、在编制组距数列时,当全距不变的情况下,组距与组数的关系是。
A、正比例关系
B、反比例关系
C、乘积关系
D、毫无关系
()5、用组中值与次数求坐标点连接而成的统计图是。
A、直方图
B、条形图
C、曲线图
D、折线图
()6、下面属于结构相对数的有。
A、人口出生率
B、产值利润率
C、恩格尔系数
D、工农业产值比()7、属于不同总体的不同性质指标对比的相对数是。
A、动态相对数
B、比较相对数
C、强度相对数
D、比例相对数()8、某商场计划4月份销售利润比3月份提高2%,实际去下降了3%,则销售利润计划完成程度为。
A、66.7%
B、95.1%
C、105.1%
D、99.0%
()9、已知某班40名学生,其中男、女学生各占一半,则该班学生性别成数方差为。
A、25%
B、30%
C、40%
D、50%
()10、假如各个标志值都增加10个单位,那么平均值。
A、增加到原来的10倍
B、增加10个单位
C、不变
D、不能预期平均值的变化
四、解答题:(所有答案注明题号写在反面)
1、某商业企业下属50家连锁店,某年某月销售额资料如下(单位:万元)1.5 7.0 12.8 14.8 19.3 4.0 7.4 13.4 8.5 5.0 13.2 15.5 11.4 8.3 4.5 21.0 15.7 15.5 11.9 13.6
16.3 22.0 5.8 9.5 16.0 13.9 16.7 25.0 6.0 12.0
17.1 3.5 29.0 6.8 10.5 23.0 12.6 14.2 18.7 2.0 6.4 26.0 17.3 14.7 18.2 10.0 12.4 17.5 14.5 20.0 要求:(1)上述资料应编制单项式数列还是组距式数列?
(2)若编制组距式数列,应如何编制,并画出直方图。
2、某高校人文系市场营销专业09级学生的体重资料如下:
按体重分组(公斤)学生人数(人)
52以下28
52—55 39
55—58 68
58—61 53
61以上24
合计212
试根据所给资料计算学生体重的算术平均数、中位数、众数。
(2)说明成年组和幼儿组平均身高的代表性那个大?为什么?。