人大版-贾俊平-第五版-统计学-第9章-分类数据分析PPT课件
- 格式:ppt
- 大小:289.00 KB
- 文档页数:37
第9章分类数据分析一、思考题1.简述列联表的构造与列联表的分布。
答:列联表是由两个以上的变量进行交叉分类的频数分布表。
列联表的分布可以从两个方面看,一个是观察值的分布,又称为条件分布,每个具体的观察值就是条件频数;一个是期望值的分布。
2.用一张报纸、一份杂志或你周围的例子构造一个列联表,说明这个调查中两个分类变量的关系,并提出进行检验的问题。
答:对三个生产厂甲、乙、丙提供的学习机的A、B、C 三种性能进行质量检验,欲了解生产厂家同学习机性能的质量差异是否有关系。
抽查了450部学习机次品,整理成为如表9-2所示的3×3列联表。
表9-2A B C 总计甲乙丙204015459065357070100200150总计75200175450根据抽查检验的数据表明:次品类型与厂家(即哪一个厂)生产是无关的(即是相互独立的)。
建立假设:H 0:次品类型与厂家生产是独立的,H 1:次品类型与厂家生产不是独立的。
次品类型生产厂可以计算各组的期望值,如表9-3所示(表中括号内的数值为期望值)。
表9-3各组的期望值计算表A B C 总计甲乙丙20(17)40(33)15(25)45(44)90(89)65(67)35(39)70(78)70(58)100200150总计75200175450所以2222(2017)(4033)(7058)9.821173358χ---=+++=…。
而自由度等于(R -1)(C -1)=(3-1)×(3-1)=4,若以0.01的显著性水平进行检验,查χ2分布表得20.01(4)13.277χ=。
由于220.019.821(4)13.277χχ=<=,故接受原假设H 0,即次品类型与厂家生产是独立的。
3.说明计算2χ统计量的步骤。
答:计算2χ统计量的步骤:(1)用观察值o f 减去期望值e f ;(2)将(o f -e f )之差平方;(3)将平方结果2)(e o f f -除以e f ;(4)将步骤(3)的结果加总,即得:22()o e ef f f χ-=∑。
第9章 分类数据分析一、思考题1.简述列联表的构造与列联表的分布。
答:列联表是由两个以上的变量进行交叉分类的频数分布表。
列联表的分布可以从两个方面看,一个是观察值的分布,又称为条件分布,每个具体的观察值就是条件频数;一个是期望值的分布。
2.用一张报纸、一份杂志或你周围的例子构造一个列联表,说明这个调查中两个分类变量的关系,并提出进行检验的问题。
答:对三个生产厂甲、乙、丙提供的学习机的A、B、C三种性能进行质量检验,欲了解生产厂家同学习机性能的质量差异是否有关系。
抽查了450部学习机次品,整理成为如表9-2所示的3×3列联表。
表9-2根据抽查检验的数据表明:次品类型与厂家(即哪一个厂)生产是无关的(即是相互独立的)。
建立假设:H0:次品类型与厂家生产是独立的,H1:次品类型与厂家生产不是独立的。
可以计算各组的期望值,如表9-3所示(表中括号内的数值为期望值)。
表9-3 各组的期望值计算表所以2222(2017)(4033)(7058)9.821173358χ---=+++=…。
而自由度等于(R -1)(C -1)=(3-1)×(3-1)=4,若以0.01的显著性水平进行检验,查χ2分布表得20.01(4)13.277χ=。
由于220.019.821(4)13.277χχ=<=,故接受原假设H 0,即次品类型与厂家生产是独立的。
3.说明计算2χ统计量的步骤。
答:计算2χ统计量的步骤:(1)用观察值o f 减去期望值e f ;(2)将(o f -e f )之差平方;(3)将平方结果2)(e o f f -除以e f ;(4)将步骤(3)的结果加总,即得:22()o e ef f f χ-=∑。
4.简述ϕ系数、c 系数、V 系数的各自特点。
答:(1)ϕ相关系数是描述2×2列联表数据相关程度最常用的一种相关系数。
它的计算公式为:ϕ,式中,∑-=ee of f f 22)(χ;n 为列联表中的总频数,也即样本量。
统计学完整(贾俊平)人大课件ppt课件•引言•数据收集与整理•描述性统计分析目录•概率论基础•推断性统计分析•方差分析与回归分析•时间序列分析与预测•统计决策与风险管理目录•总结与展望01引言统计学是一门研究如何收集、整理、分析和解释数据的科学。
统计学的定义统计学的历史统计学的分支统计学的发展经历了古典统计学、近代统计学和现代统计学三个阶段。
统计学可以分为描述统计学和推断统计学两大分支。
030201统计学概述社会科学医学与健康工程与技术商业与经济统计学应用领域01020304在社会科学领域,统计学被广泛应用于调查研究、民意测验、市场分析等方面。
在医学和健康领域,统计学被用于临床试验、流行病学研究、健康风险评估等方面。
在工程和技术领域,统计学被用于质量控制、可靠性分析、信号处理等方面。
在商业和经济领域,统计学被用于市场分析、财务分析、经济预测等方面。
通过学习,学生应掌握统计学的基本概念和方法,包括数据收集、整理、描述和分析等方面的内容。
掌握统计学基本概念和方法具备数据处理和分析能力了解统计学的应用领域培养批判性思维学生应具备独立处理和分析数据的能力,能够运用适当的统计方法进行数据分析和解释。
学生应了解统计学的应用领域,能够运用所学知识解决实际问题。
学生应培养批判性思维,能够对统计结果进行合理的解释和评估。
学习目标与要求02数据收集与整理数据来源及类型数据来源包括原始数据和二手数据,原始数据是通过直接调查、实验或观察获得的数据;二手数据则是已经经过他人收集、整理和处理过的数据。
数据类型包括定性数据和定量数据,定性数据是描述性的、非数值的,如文字、图像等;定量数据则是可以用数值表示的,如年龄、收入等。
此外,还可以根据数据的测量尺度将其分为名义型数据、顺序型数据、间隔型数据和比率型数据。
调查法实验法观察法大数据收集数据收集方法通过问卷、访谈、电话调查等方式收集数据,可以获取大量的、详细的信息。
直接观察研究对象的行为、状态等,记录相关数据,适用于无法控制或干预的情况。
3.1 为评价家电行业售后服务的质量,随机抽取了由100个家庭构成的一个样本。
服务质量的等级分别表示为:A.好;B.较好;C一般;D.较差;E.差。
调查结果如下:B EC C AD C B A ED A C B C DE C E EA DBC C A ED C BB ACDE A B D D CC B C ED B C C B CD A C B C DE C E BB EC C AD C B A EB AC E E A BD D CA DBC C A ED C BC B C ED B C C B C要求:(1)指出上面的数据属于什么类型。
顺序数据(2)用Excel制作一张频数分布表。
用数据分析——直方图制作:接收频率E16D17C32B21A14(3)绘制一张条形图,反映评价等级的分布。
用数据分析——直方图制作:(4)绘制评价等级的帕累托图。
逆序排序后,制作累计频数分布表:接收频数频率(%)累计频率(%)C 32 32 32B 21 21 53D 17 17 70E 16 16 86A 14 14 1005101520253035CDBAE204060801001203.2 某行业管理局所属40个企业2002年的产品销售收入数据如下: 152 124 129 116 100 103 92 95 127 104 105 119 114 115 87 103 118 142 135 125 117 108 105 110 107 137 120 136 117 108 9788123115119138112146113126要求:(1)根据上面的数据进行适当的分组,编制频数分布表,并计算出累积频数和累积频率。
1、确定组数:()l g 40l g () 1.60206111 6.32l g (2)l g 20.30103n K =+=+=+=,取k=62、确定组距:组距=( 最大值 - 最小值)÷ 组数=(152-87)÷6=10.83,取10 3(2)按规定,销售收入在125万元以上为先进企业,115~125万元为良好企业,105~115 万元为一般企业,105万元以下为落后企业,按先进企业、良好企业、一般企业、落后企业进行分组。
课件•引言•统计数据的收集与整理•统计描述目•概率论基础•统计推断录•统计指数与因素分析•相关与回归分析•统计决策目•统计学的应用与发展录引言统计学概述统计学的定义统计学的发展历史统计学的分支领域1 2 3统计学在决策中的应用统计学在科学研究中的应用统计学在社会生活中的应用统计学的重要性统计学的研究对象01020304数据的收集数据的整理数据的分析数据的解释统计数据的收集与整理原始数据二手数据定性数据定量数据时序数据030201数据的收集方法观察法调查法实验法数据的整理与显示数据整理数据显示通过图表、图像等方式将数据呈现出来,以便于直观理解和分析。
常见的数据显示方式包括表格、条形图、折线图、饼图等。
统计描述集中趋势的描述算术平均数适用于数值型数据,反映数据的平均水平。
中位数适用于顺序数据,反映数据的中等水平。
众数适用于分类数据,反映数据的多数水平。
离散程度的描述四分位数间距极差上四分位数与下四分位数之差,反映中间50%数据的离散程度。
方差与标准差分布形态的描述偏态峰态统计图表的应用适用于分类数据,表示各类别的频数或频率。
适用于时间序列数据,表示事物随时间的变化趋势。
适用于分类数据,表示各类别在总体中的占比。
适用于两个数值型变量,表示它们之间的相关关系。
条形图折线图饼图散点图概率论基础随机事件与概率随机试验与样本空间随机试验是具有某些基本特点的试验,其所有可能结果构成的集合称为样本空间。
随机事件随机试验的某个(些)样本点构成的集合称为随机事件。
概率的定义概率是描述随机事件发生的可能性大小的数值,常用P(A)表示。
概率的性质与运算法则概率的性质01概率的加法公式02概率的乘法公式03事件的独立性如果事件A 与事件B 相互独立,则P(A∩B)=P(A)P(B)。
条件概率在事件B 发生的条件下,事件A 发生的概率称为条件概率,记作P(A|B)。
多个事件的独立性如果事件A1,A2,...,An 相互独立,则对于任意k 个事件Ai1,Ai2,...,Aik(1≤i1<i2<...<ik≤n),都有P(Ai1∩Ai2∩...∩Aik)=P(Ai1)P(Ai2)...P(Aik)。