划分:等频、等宽 光滑:用箱均值、用箱中位数、
用箱边界(去替换箱中的每个数 据)
28
分箱法光滑数据
Sorted data for price (in dollars): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34
* Partition into equal-frequency (equi-depth) bins:
位数Q1 、中位数、上四分位数Q3和最大值
盒的长度等于IRQ 中位数用盒内的横线表示 盒外的两条线(胡须) 分别延伸到最小和
最大观测值。
盒图的功能 1.直观明了地识别数据集中的离群点 2.判断数据集的偏态和尾重 3.比较几批数据的形状
2.2.3 基本描述数据汇总的图形显示
直方图、 分位数图、分位数-分位数图(q-q图) 散布图、散布图矩阵 局部回归(Loess)曲线
不一致的
采用的编码或表示不同,如属性名称不同
冗余的
如属性之间可以相互导出
数据错误的不可避免性
数据输入和获得过程数据错误 数据集成所表现出来的错误 数据传输过程所引入的错误 据统计有错误的数据占总数据的5%左
右[Redmen],[Orr98]
3
数据错误的危害性
高昂的操作费用 糟糕的决策制定 组织的不信任 分散管理的注意力
四分位数
中位数是第50个百分位数,是第2个四分位 数
第1个是第25个百分位数,Q1 中间四分位数极差 IQR = Q3 – Q1
离群点outlier
与数据的一般行为或模型不一致的数据对象
盒图 方差、标准差
反映了每个数与均值相比平均相差的数值 15
度量数据的离散程度…
盒图boxplot,也称箱线图 从下到上五条线分别表示最小值、下四分