数据挖掘第二章——认识数据(1)2

  • 格式:ppt
  • 大小:1.09 MB
  • 文档页数:126

下载文档原格式

  / 126
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

▪位
方法2
置: 1 2 3 4
QL位置
9
1 4
2.5
5 6 789
QU位置
3(9 1) 4
7.5
QL
780 850 2
815
QU
1500
1630 2
1565
四分位数的例子(数值型数据)
▪ 9个家庭的人均月收入数据
▪ 原始数据: 1500 750 780 1080 850 960 2000 1250 1630 ▪ 排 序: 750 780 850 960 1080 1250 1500 1630 2000
▪ 值有序 ▪ E.g., temperature in C˚or F˚, calendar dates
▪ 没有真正的零点
▪ Ratio
▪ 有真正的零点 ▪ 可以讲值是被测量单位一个数量级 (10 K˚ is twice
as high as 5 K˚).
▪ e.g.,温度在开尔文,长度,计数,货币的数量
10
0.050
5.0
其他广告
2
0.010
1.0
合计
200
1
100
解:这里的变量为“广告类 型”,这是个定类变量,不 同类型的广告就是变量值。 我们看到,在所调查的200 人当中,关注商品广告的人 数 最 多 , 为 112 人 , 占 总 被 调查人数的56%,因此众数 为“商品广告”这一类别, 即
离散 vs. 连续属性
▪ Discrete Attribute
▪ 一个有限的或可数无限集值 ▪ E.g., zip codes,the set of words in a collection of documents
▪ 有时,表示为整数变量 ▪ 注: 二元属性是离散属性的一个特殊情况
▪ Continuous Attribute
2.25
5678 9
QU 位置
39 4
6.75
QL 780 (850 780) 0.25 QU 1250 (1500 1250) 0.75
797.5
1437.5
四分位数的例子(数值型数据)
▪ 9个家庭的人均月收入数据
▪ 原始数据: 1500 750 780 1080 850 960 2000 1250 1630 ▪ 排 序: 750 780 850 960 1080 1250 1500 1630 2000
Mo=商品广告
定序数据:中位数(median)
▪ 排序后处于中间位置上的值
▪ 用Me表示 ▪ 不受极端值的影响
▪ 主要用于定序数据,也可用数值型数据, 但不能用于定类数据
▪ 各变量值与中位数的离差绝对值之和最小,

最小 n
Xi Me
i 1
中位数
中位数位置 N 1 2
Me
X
N 1 2
位置 N+1 6+1 3.5
22 中位数 8 + 9 8.5
2
定序数据:四分位数(quartile)
▪ 排序后处于25%和75%位置上的值 ▪ 用ML和MU表示 ▪ 不受极端值的影响 ▪ 主要用于定序数据,也可用于数值型数据,
但不能用于定类数据
四分位数
方法1:定义算法
QL位置
n 4
QU位置
▪ 练习:指出下面变量的测量尺度:
▪ 学生住址距学校的距离 ▪ 学生某门课的一次测验成绩(5分制) ▪ 学生的出生地 ▪ 按年级分类的高校学生 ▪ 每周学生学习的小时数
数据分布特征的描述
数据分布的特征
集中趋势 (位置)
离中趋势 (分散程度)
集中趋势的测度
▪ 定类数据:众数 ▪ 定序数据:中位数和四分位数 ▪ 定距和定比数据:平均数(均值) ▪ 众数、中位数和均值的比较
▪ 一般认为,数据是对客观现象计量的结果。
▪ 按照对事物计量的精确程度,可将所采用的 计量尺度由低级到高级分为四个层次:
▪ 定类尺度(Nominal Level) ▪ 定序尺度(Ordinal Level) ▪ 定距尺度(Interval Level) ▪ 定比尺度(Ratio Level)
定类尺度
▪ 对定类尺度的计量结果,可以且只能计算每一 类别中各元素个体出现的频数 (frequency)。
▪ 对事物进行分类时,必须符合穷尽(exhaustive) 和互斥(mutually exclusive)要求。
定序尺度
▪ 定序尺度(顺序尺度):是对事物之间等 级或顺序差别的一种测度。
▪ 例:产品等级(一等品、二等品…);考试成 绩(优、良、中、可、差)
集中趋势 (Central tendency)
▪ 一组数据向其中心值靠拢的倾向和程度 ▪ 测度集中趋势就是寻找数据一般水平的代表值或
中心值 ▪ 不同类型的数据用不同的集中趋势测度值 ▪ 低层次数据的集中趋势测度值适用于高层次的测
量数据,反过来,高层次数据的集中趋势测度值 并不适用于低层次的测量数据
▪ 定类尺度(列名尺度):按照事物的某种 属性对其进行平行的分类或分组。
▪ 例:人口的性别(男、女);企业的所有制性 质(国有、集体、私营等)
▪ 计量层次最低 ▪ 对事物进行平行的分类 ▪ 各类别可以指定数字代码表示 ▪ 具有=或的数学特性 ▪ 数据表现为“类别”
定类尺度
▪ 定类尺度只测度了事物之间的类别差,而对各 类之间的其他差别却无法从中得知,因此各类 地位相同,顺序可以任意改变。
甲城市 户数 (户) 累计频数
非常不满意
24
24
不满意
108
132
一般
93
225
满意
45
270
非常满意
30
300
合计
300

解:QL位置= (300)/4 =75 QU位置 =(3×300)/4 =225
从累计频数看, QL在“ 不 满意”这一组别中; QU在 “一般”这一组别中
四分位数为 QL = 不满意 QU = 一般
四种计量尺度的比较
四种计量尺度的比较
定类尺度 定序尺度 定距尺度 定比尺度
分类(=,≠ )




排序( < ,> )

√ห้องสมุดไป่ตู้

间距( + ,- )


比值( × ,÷)

“√”表示该尺度所具有的特性
四种计量尺度的区别与联系
▪ 高层次的计量尺度具有低层次计量尺度的全部特 性,但反之不行
▪ 可将高层次计量尺度的计量结果转换为低层次计 量尺度的计量结果,但不能反过来
3n 4
方法2:较准确算法
QL 位置
n 1 4
QU 位置
3(n 1) 4
四分位数
方法3:
Q位置
n 1 2
2
1
▪ 其中[ ]表示中位数的位置取整。这样计算 出的四分位数的位置,要么是整数,要么 在两个数之间0.5的位置上
四分位数的例子(定序数据)
甲城市家庭对住房状况评价的频数分布
回答类别
▪ 例:100分制考试成绩;摄氏温度对不同地区温度的测 量
▪ 不仅能将事物区分为不同类型并进行排序,而且 可准确指出类别之间的差距是多少
▪ 比定序尺度精确 ▪ 定距尺度通常以自然或物理单位为计量尺度,因
此数据表现为“数值” ▪ 没有绝对零点;“0”是测量尺度上的一个测量点,
并不代表“没有” ▪ 计量结果可以进行加减运算,具有 + 或 - 的数学
▪ 对事物分类的同时给出各类别的顺序 ▪ 比定类尺度精确 ▪ 不仅可以测度类别差(分类),还可以测
度次序差(比较优劣或排序) ▪ 数据表现为“类别”,但有序
定序尺度
▪ 无法测出类别之间的准确差值 ▪ 该尺度的计量结果只能排序,不能进行算
术运算。 ▪ 具有>或<的数学特性
定距尺度
▪ 定距尺度(间隔尺度):是对事物类别或次序之 间间距的测度。
一个众数 原始数据:
659855
多于一个众数 原始数据: 25 28 28 36 42 42
众数的例子
例 某城市居民关注广告类型的频数分布
广告类型
人数(人) 比例 频率(%)
商品广告
112
0.560
56.0
服务广告
51
0.255
25.5
金融广告
9
0.045
4.5
房地产广告
16
0.080
8.0
招生招聘广告
属性类型
▪ 名词性Nominal:类别,状态, or “名目”
▪ Hair_color = {auburn, black, blond, brown, grey, red, white}
▪ 婚姻状态, 职业occupation, ID numbers, zip codes ▪ 二元
▪ 只有2个状态的名词性属性 (0 and 1) ▪ 对称二元Symmetric binary: 同样重要的两相
四分位数的例子(数值型数据)
▪ 9个家庭的人均月收入数据
▪ 原始数据: 1500 750 780 1080 850 960 2000 1250 1630 ▪ 排 序: 750 780 850 960 1080 1250 1500 1630 2000
▪ 位 置: 1 2 3 4
方法1
QL 位置
9 4
▪ 值有一个有意义的顺序(排序) 但连续值之间的大小未知. ▪ Size = {small, medium, large},等级,军队排名
数值属性的类型
▪ 数量Quantity (integer or real-valued) ▪ 区间Interval
▪ 在某个同等大小的一个尺度单位上Measured on a scale of equal-sized units
▪ 属性值为实数 ▪ E.g., temperature, height, or weight
▪ 实际上,实值只能使用有限位数进行测量和代表 ▪ 连续属性通常表示为浮点变量
数据概述
数据的计量与类型
▪ 数据的计量尺度 ▪ 数据的类型 ▪ 数据的表现形式
数据的计量尺度
▪ 数据的计量尺度(Levels of Measurement)
属性
▪ 属性Attribute (or维度, 特征, 变量):一个数据字段, 表示 一个数据对象的某个特征. ▪ E.g., customer _ID, name, address
▪ 类型: ▪ 名词性Nominal ▪ 二元的 ▪ 数字的Numeric: 数量的 ▪ Interval-scaled ▪ Ratio-scaled
Me=一般
中位数的例子(数值型数据)
▪ 原始数据: 24 22 21 26 20 ▪ 排 序: 20 21 22 24 26 ▪ 位 置: 1 2 3 4 5
位置 N 1 5 1 3 22
中位数 22
中位数的例子(数值型数据)
▪ 原始数据: 10 5 9 12 6 8 ▪ 排 序: 5 6 8 9 10 12 ▪ 位 置: 1 2 3 4 5 6
当N为奇数时
1 2
X
N 2
X
N 2
1
当N为偶数时
中位数的例子(定序数据)
例 甲城市家庭对住房状况评价的频数分布
回答类别
甲城市
户数 (户)
累计频数
非常不满意
24
24
不满意
108
132
一般
93
225
满意
45
270
非常满意
30
300
合计
300

解:中位数的位置为:
300/2=150
从累计频数看,中位数 的在“一般”这一组别 中。因此
特性
定比尺度
▪ 定比尺度(比率尺度):是能够测算两个测 度值之间比值的一种计量尺度。
▪ 例:职工月收入;企业产值;公制的距离、重量
▪ 与定距尺度属于同一层次,计量结果也表现 为数值;
▪ 除了具有其他三种计量尺度的全部特点外, 还具有可计算两个测度值之间比值的特点;
▪ “0”表示“没有”,即它有一固定的绝对 “零点”,因此它可进行加、减、乘、除运 算(而定距尺度只可进行加减运算)
第2章 认识数据
• 数据对象
▪ 数据集由数据对象构成 ▪ 一个数据对象代表一个实体 ▪ 例子:
▪ 销售数据库sales database:客户/顾客,商店物品, sales ▪ 医学数据库: patients, treatments ▪ 大学数据库: students, professors, courses ▪ 又称为 样本, 事例,实例, 数据点, 对象,元组tuples. ▪ 数据对象由属性来描述 ▪ Database rows -> data objects; columns ->attributes.
▪ e.g., gender ▪ 非对称Asymmetric binary: 非同等重要
▪ e.g., 医疗检查 (positive vs. negative) ▪ 惯例Convention: assign 1 to most important
outcome (e.g., HIV positive) ▪ 顺序的 Ordinal
▪ 选用哪一个测度值来反映数据的集中趋势,要根 据所掌握的数据的类型来确定
定类数据:众数(mode)
▪ 出现次数最多的变量值 ▪ 用Mo表示 ▪ 不受极端值的影响 ▪ 可能没有众数或有几个众数 ▪ 主要用于定类数据,也可用于定序数据和
数值型数据
众数的不唯一性
无众数 原始数据:
10 5 9 12 6 8