非监督学习
----聚类分析
张文生
研究员
中国科学院自动化研究所
监督学习
在具有标签的样本集基础上,学生对输入变量X推断输 出变量Y,教师对学生的答案进行评判
设Pr(X,Y)是随机变量(X,Y)的概率密度,监督学习 估计条件概率密度Pr(Y|X),一般可以用位置参数表示为
µ ( x ) = arg min EY | X L(Y ,θ )
1 N2
∑ ∑ D ( x i , x i ′ ) = ∑ w j ⋅ d j , d j=
i =1 i′=1 j =1
N
N
p
1 N2
∑ ∑ d j ( x ij , x i ′j ) ′
i =1 i =1
N
N
对象的相异度
如果聚类目标是把数据分成不同的组,不同的属性可能有不 同的贡献
虽然选择属性相异度和权值的规则简单通用,但是往往跟实 际问题紧密相关,因此一般性的研究并不多
原型方法
• 训练数据由N个数对(x1,g1), …,(xN,gN)组成,其中,gi是 {1,2,…N}中取值的类标号 • 用特征空间中的点表示训练数据,除了1-最近邻分类外,通常 这些原型都不是训练样本中的例子 • 每个原型都有一个相关连的类标号,查询点被分类到最近原型 所在的类 • 将每个特征标准化,使之在训练样本上具有均值0和方差1 • 如果原型被恰当定位以捕捉每个类的分布,那么这些方法可能 是非常有效的 • 主要挑战:使用多少个原型,把它们放在什么位置
2-类混合数据上的k-最近邻。左图显示误分类率,作为邻域大小的函数。右图显 示7-最近邻的判定边界,关于极小化检验误差,看上去它是最优的。背景上的紫 色虚线是贝叶斯判定边界。
向量量化