5
Techniques
第七章 聚类分析
• 什么是聚类分析? • 数据类型及其相似性与非相似性计算 • 算法复杂性及近似算法概念 • 划分方法
– k-center、k-cluster、k-means、谱聚类NCut • 层次方法
– 单链接与全链接
2024年8月6日星期二
Data Mining: Concepts and
Data Mining: Concepts and
26
Techniques
天河一号有关数据
• 天河一号由140个机柜组成,占地约70 0平方米,总重量约160吨。
• 6144个通用处理器, 5120个加速处理器,内 存总容量98TB,存储容量为2PB 。
• 峰值运算速度为每秒4700万亿次、持续运算 速度2507万亿次每秒浮点运算。
解决方案:启发式方法与近似算法!
2024年8月6日星期二
Data Mining: Concepts and
28
Techniques
一些定义
• P = {C1, C2, …, Ck}:n个对象的一个划分,满足条件
Ci (i = 1, 2, …, k), V = iCi, 及Ci Cj = (i j)。
• k-Center:最大半径最小化
min r(P)
PPnk
k 3: NP-Hard问题!
• k-Cluster:最大直径最小化:
min d (P)
PPnk
k 3: NP-Hard问题!
2024年8月6日星期二
Data Mining: Concepts and
30
Techniques
一些常见的优化准则
d(i, j) q (| xi1 x j1 |q | xi2 x j2 |q ...| xip x jp |q)