当前位置:文档之家› 数据分析的种类及分布情况

数据分析的种类及分布情况

数据分析的种类及分布情况
数据分析的种类及分布情况

数据的分析

从总体中抽取样本,收集测定的数据,这些数据总是参差不齐的,即具有散差。我们需要对收集的数据进行整理和分析,然后才能对总体作出推测和判断。

一、数据的种类

数据大体可以分为计量值和计数值二种。所谓计数值数据,是指1,2,3,……这种非连续性取值的数据,如一批产品的不合格品数,缺陷的个数以及工厂的事故发生件数等。把不合格数用全部产品所除得到的不合格率,仍是计数值。而计量值数据,是指一些可以连续取值的数据。如钢材的厚度、抗拉强度,零件的尺寸等测定值都属于计量值数据。

计量值与计数值数据差别,决定了数据所反映的统计的性质不同,进而数据的处理方法也有变化。例如,计量数据属于连续概率分布,最典型的使正态分布;而计数值数据属于离散概率分布,最典型的是二项分布和泊松分布。

二、数据的分布

即时在同样的条件下制造的产品,其质量都会有差别,故我们收集到的数据总是大小不等的,称这种数据的不均一性为具有散差。如果把数据控制在一定的范围哪,数据间的散差就会有某种规律性,我们称之为分布。可以构造频数分布来了解分布状态。

们如下图所示,为某一个样本所反映的频数分布图。(相当于直方图)

从两个图可以看出两个分布的不同,也很容易看出两个样本的差别,进而反映了总体的分布状况。

三、数据分布的定量表示

上面的频数直方图,可以用来观察数据的大致离散情

况即分布的形状,但是得不到数量方面的信息。特别是比较两个以上的分布时,尽管可以凭视觉观察出分布状态上的差异,却不能定量地求出他们的差别。如果能把分布状态的特性予以数量化,就便于比较。一般需要有表示数据整体即分布中心位置(中心趋向)和离散程度的尺度。前者可以用平均值,后者可以用标准偏差。有时,还需要从数量上表示分布状态的偏斜程度(可用偏斜度)以及表示分布峰顶的陡峭程度(可用陡度)

1. 中心位置的表示

表示中心位置的量有平均值、中位值、最多值、中值以及众数等。最常使用平均值。

平均值:各个测定值的总和除以测定值的个数,称为平均值(算术平均值),用表示X 。计算分式为:

中位值:将测定值按大小顺序排列,位居正中的那个数值∑==+Λ++=n i i x n x x x x n 1

21

称为中位值。若测定值的个数为奇数,则中位值为居于中央位置的那个数值;若测定值的个数为偶数,则中位值为中间两个数的平均值。

中值M :测定值的最大值和最小值的平均值,称为中值。

2、散差的表示

1) 极差(range )R

测定值的最大值和最小值之差为极差,用R 表示。通常,当测定个数n 小于10的场合,用极差R 表示离散程度;而当n 大于10时,则用标准偏差s 表示离散程度。

2) 偏差的平方和(sum of squares )S

各个测定值与平均值之差称为偏差。各测定值的偏差的平方和称为偏差平方和,简称平方和,用S 表示。设各个测定值与为X 1,X 2,……X n ,其平均值为:

则:

3)无偏方差(unbiased variance )S 2

各个测定值的偏差平方和除以(n-1)后,所得到的值称∑==n i n x x i 1/n

x x n x x x x x x x x s n i n i i n i i n i i i n x x /)()()()()(2

112212212

2221∑∑∑∑====-=-=-=-+Λ+-+=-221n S

为无偏方差(简称为差),用S 2表示,其中n 为测定值个数,由S 的计算公式可以得到S 2的公式为:

方差的单位为测定值单位的平方。

4) 标准偏差(Standard deviation )s

方差S 2的平方根称为标准偏差(简称标准差),s 表示,标准差s 的单位与测定值的单位相同,标准差的公式为:

附录:

方差的含义

标准偏差是测量由于取样引起的估计的可变性。它指出样本估计的可变性,它可以从所有已知设计和规模的样本中获得。标准偏差用来测量从一组特定样本得到的数据的精确度。如果所有可能的样本都在类似的条件下接受调查,标准偏差在+1.96到-1.96的范围内的概率分布包括了95%的样品的情况,这个区间被成作是95%置信区间.

(https://www.doczj.com/doc/b25817699.html, )

Excel 的计算公式

∑=--=-==n i x x n n S S s i 1

22)(111

1、平均值

平均值=3.5883

公式: =AVERAGE(B2:G2)

AVERAGEA也可以计算,不过包括逻辑值在内

2、偏差

偏差0.0081

公式: =DEVSQ(B8:F8)

3、无偏方差

无偏方差0.0020

公式: =STDEV(B13:F13)*STDEV(B13:F13)

4、标准偏差

标准偏差0.0451

公式: =STDEV(B18:G18)

在统计过程中,可以应用各种工具,其中最常用的统计方法有检查表、层别法、直方图、帕累托图、特性要因图、管理图和散布图,统称为常用的七种工具。其中,控制图用来直接监控过程,是七种工具的核心。随着全面质量管理的进

一步发展,于20世纪70年代又提出了质量管理的新七种工具,即关连图法、KJ法、系统图法、PDPC法(过程决策程序图法)、矩阵法、矩阵数据解析法及箭头图法。但新七种工具已不是统计质量控制的具体方法,只是组织实施、计划调度等所采用的一些简明有效的方法,它们的许多思路来源于运筹学系统工程,这里不作介绍。

七种工具可分为三类:

一、用来作整理和分析数据用的目的:检查表和分层法

二、普通的科学归纳分析方法:帕累托图和特性要因图

三、数据统计方法:直方图、管理图和散布图

层别法

一、分层的定义

层别即将很多的数据按照其所持有的特性进行层次划分。

将数据以状况、原因分类进行分析的方法

二、分层的方法

1.按问题的发生状况分:

1)不合格项目、缺陷内容

2)形状、长度、深度

3)发生位置、发生区域

4)天气、状态

2.按可能有问题的原因分:

通常可以根据层别获取比整体事件更多的分析结果。但由

于某些层别的失败导致了错误的情报,所以在划分层别的时候必要使用工程技术方面的知识及经验,也要使用特性要因图,并要检讨其特性质及其同要因的关系,即运用特性要因图里的中骨、小骨的项目划分数据便得到较好的层别,在做层别的过程中,以下事件也是极其重要的:

1)人的区别:在划分制造要因的层别时,通常也要根据实施人的区别进行层别。(从作业班分析)这样对作业管理、作业方法有益。另外,还可根据性别区分、年龄区分、经验区分。

2)机械、装置的区别:在有几台相同机械的时候,可以根据每一台机械的数据进行判断不良原因是否因机械差异而产生,另外,像炉子这样的设备会因位置的不同而温度不同,所以在炉内的位置上考虑层别将会得到良好的效果。

3)原材料区分:从供应者、前工程、批量、原材料的比例等方面考虑层别。

4)时间区分:上午、下午、日期、季节

5)环境区分:温度、湿度、气候、环境状况

6)作业方法区分:作业的方法、作业条件、批量、测定方法。一个出色的层别应是将数据层别后,能清楚的将层间的区别表现出来

三、层别的手顺

手顺1:明确层别的目的

手顺2:决定特性值

手顺3:决定层别的项目

手顺4:取数据

手顺5:将数据层别

手顺6:追究错误的原因

手顺7:采取对策

四、层别的实例

例:为查明不良原因

某汽车部件在生产过程中因折、弯曲所造成的不良

层别Array

不良中占不良比率的再按不良状况现象进行层别,然后

将其中大的两项问题进行层别,如此反复试验就可查明

不良原因

图三按发生场所再次层别(n=47为前两项多发生性不良)

按原因分的层别项目

(1)按人——按个人、年龄、工作年数、性别、组别(2)按机械设备——按机种、号机、型式、新旧

(3)按原料——按生产厂家、购入地、产地、品牌、进货日期、接纳批量、成份

(4)按方法——按加工顺序、条件、温度、湿度、转速、力度、销售方式

(5)按测量检查——按测量器、测量者、测量方法、检查人员、检查方法

(6)按工夹模具——按夹具、工具、模具、安装工具、螺丝板

(7)按零件——按生产厂家、制造批量、接纳批量、包装(8)接流通——按市场、顾客、销售形式

(9)按组织——按部门、小组、班组

分层时注意:

(1)很好的观察分类问题的内容

(2)数据记录用纸事先设计好,并且能够简单的将分层的数据记录

例题:上一节不良原因调查用检查表用层别方法可能得到几种结论?

在调查服装品牌喜好和个人特性不同方面如何应用层别法呢?

帕累托图

一、概述

工场内常常需处理不良品、灾害、故障、投诉等问题点,这些问题点按项目分类后会有2-3个项目占全体的大部分。帕累托图是针对这些问题点按现象、原因来分类,将数据按由大至小的顺序排列,以柱状图和累积曲线图作成帕累托图是在不良对策中发现重要问题点的情况下使用。也就是说,不良损失额的大部分是由几个主要项目构成,残余的小部分则为多数的不良项目。其意义在于对前者的不良项目采取相应的对策并实施,能够有效的降低不良数或使成本大幅度的减低。

二、帕累托图的作法

步骤1 数据的收集

对于发现的不良、灾害、及错误等问题点收集数据,数据收集期间我们可以根据问题发生状况及性质来决定数据集计的周期,例如:以一个月、三个月(一年四次)为周期,也可以根据问题的具体情况每星期每星期的来收集。

下表是某制品检查中所发现的不良数,期间是一个月,检

查台数为500台。

表一不良的数据

步骤2 将数据根据原因及内容进行分类

原因可按材料、机械、作业者、作业方法分类;

内容可按不良项目、场所、时间进行分类步骤3 根据分类项目来整理数据,并作成计算表

分类项目按数据多少由大到小排列,“其他”项目不论多大都是排在最后

表二计算表

例如:到涂装位置的累积件数为

(脏污)+(涂装)→31+18=49

并且,最后项目的累积件数一定要等于总件数

步骤4 图表中纵轴和横轴的作成

纵轴和横轴最好是一样长,并适当的决定刻度的间隔

纵轴:坐标终点应稍大于数据的合计数,并且恰当选择(凑整)

横轴:按项目的数据多少从左至右依次排列,并在下面记入相应的项目名称

纵轴是记录件数、金额等特征值;横轴记录分类项目

下面是纵轴、横轴记录项目的具体举例:

表三项目举例

步骤5 柱状图的作成

柱状图中“其他”项放置最右端,各项目之间无间隔。“其他”项不论它有多大,应放在最右端作为最后一个项目,并且作为检讨的对象

步骤6累积曲线的作成

累积的值在各个柱状图的右上部打点,然后用直线连接

这些点,做出折线,折线的起始点为0。

折线即为帕累托图的累积曲线

步骤7累积比率的作成

在帕累托图的右侧作纵轴,与左侧轴相应的建立右纵轴的起点(0)、终点(100%),将0-100%的长度进行等分,并记录刻度,例如:20%可以五等分,10%可以十等分。而即使数据比率的合计值超过100%(累积为100.1%,四舍五入的原因),但仍以100%为准记录纵轴。

终点(100%)的确定:从左侧纵轴的数据合计数点引出横轴平行线(即垂直与左侧纵轴),其必与左侧纵轴相交,即其相交点位右纵轴100%点

数据的修约口决:“五下舍五上入,整五偶舍奇入”,即4以下舍去,6以上入1的原则,数字是五时,要看其前的数字而定,若是偶数则舍去,若是奇数则入1。

例:10.26 10.3 10.24 10.2

10.25 10.2 10.15 10.2

等分有以下两种方法

(1)根据0-100%的测量长度,然后进行等分;

(2)从0点引辅助线OA,以1cm为间隔,OA画10cm 长,辅助线OA十等分。将A点与右纵轴100%点连结,以该线做出各等分点的平行线与右纵轴交并打点,这些

点即为右纵轴的等分点。(辅助线及点须用铅笔画出,作完后应清除)

下表举例说明通过计算求出各分类项目比率与累积比率值

脏污不良的比率:

{脏污不良件数/总件数}×100 31/74×100=41.9

涂装不良比率:

{脏污不良件数/总件数}×100 18/74×100=24.3

涂装不良累积比率:

{脏污不良的比率}+{涂装不良的比率}=41.9+24.3=66.2 检查台数期间:9.2-9.28

500 作成日:10月1日

步骤8 记入必要事项

(1)帕累托图表表题在图表的下部记入

(2)记入数据的收集时间

(3)记入数据的合计值;

例:件数n= ; 金额= 元

(4)记入作成日期

三、帕累托图的应用有观察·判断方法

帕累托图是针对不良损失金额、投诉件数、错误件数等问题点按原因、现象、工程、品种分类,并根据数据的大小顺序来进行排列的图表

图表可以告诉我们这样的一些信息:

·整体上观察不良及错误有多少?

·它们是怎样的顺序?

·根据以上两项,可以推测如果哪一项目降低多少,会给整

体效果造成怎样的影响?

因此,图表横轴的分类项目最好是按容易改善的原因分类,从记录数据时就考虑到这一点易取得明显的效果。

另外,纵轴应尽量体现特征值(量化)。很多时候,金额与件数也可以放在一起一同检讨

例:

(1)决定采取相应对策的顺序

在排列图上,通常将曲线的累积百分数分为三级,则相应的也就将因素分为三类:

A类因素:频率由0-80%,这一区间影响产品质量的因素,是主要影响因素;

B类因素:频率由80-90%,这一区间影响产品质量的因素,是次要影响因素;

C类因素:频率由90-100%,这一区间的因素,是影响产品质量的一般因素。

(2)通过图表确认报告、记录的改善效果

(3)获取信息,调查不良故障的原因;

(4)明确问题点的内容

例如:同样的不良,有些修理后OK,有些降为二极品,有些废弃,因此,其损金的金额是不一样的,在这种情况下做成金额损失帕累托图将会使不良内容和其影响程度更加清楚明了。

(5)帕累托图中柱状图的表示比较平坦,可以考虑改变纵轴、横轴的内容。

从金额上发现不了问题,可以用件数表示,反之亦然。(6)帕累托图中“其他”项过高,可以重新考虑分类项目的内容

应用帕累托图确认改善前后的效果时,改善前及改善后的帕累托图应水平排列且站在同一水平线上,并注明改善取得的效果,以使图表易懂,观察直观。

检查表

检查表用于多种目的,是一种预先设计的适当的规格用纸,以便于数据简单记录、提取及整理,且能够对检查、确认项目进行毫无遗漏的核对、检查。因此,设计合适的检查表可以将必要的数据整理归纳出来,收集情报并且有条不紊的对需检查确认的项目进行毫无遗漏的点检核对。

利用检查表可以迅速地将繁琐数据记录在纸上,方便的知道问题是什么,缺陷集中在什么地方,另外在作直方图、帕累托图时也经常使用检查表。

一、检查表的种类及使用

检查表按其使用的不同大致可分为:

1.记录用检查表

记录用检查表是将数据以项目、位置等分类,并在其图表上记录数据或用记号等,能够一目了然的知道,记录完整后

的数据大体集中在哪个项目上,是怎样分布的。

记录用检查表又可分为如下:

1)不良项目调查用检查表

用于调查何种不良项目属于多发。

作业者在发现不衣时填写不良项目检查表,记录检查

记号并对应到相应栏中,作业结束时,就可以看出哪一个项目不良有多少?

2)工程分布调查用检查表

需要了解有关特性值的分布形式、分布中心、数据的偏差情况以及规格值的关系等分布状况时使用。

关于数据是怎样进行分布的,可以通过直方图表现,并作成度数分布表,但在进行工程调查时需了解分布的形式、规格值与目标值之间的关系时,在收集数据时以检查表的形式进行分类,更为简单

易懂。

检查表中可以观察数据分布状态,处于规格内的数据分布有无“双峰型”或“孤岛型”,规格中心与分布中心有无偏心大小,估计超出规格的比率等,及时发现问题,采取措施进行改善。

相关主题
文本预览
相关文档 最新文档