聚类分析(Q型,R型聚类)算法

  • 格式:doc
  • 大小:91.50 KB
  • 文档页数:10

下载文档原格式

  / 10
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

信息与计算科学专业课程设计

信息与计算科学专业实验报告

课程名称数据挖掘原理与算法总实验学时:第次共次实验项目名称聚类分析本次实验学时数:实验类型日期20 16 年 5 月 25 日星期三年级本13信计01班学生姓名黄顺团学号20134390131 课任教师唐志刚

1.实验目的:

用数据挖掘聚类算法(Q型聚类、R型聚类)求分类微博数据。

2.实验环境:

MATLAB 7.0。

Windows 7操作系统。

3.实验内容

由于数据集比较大,数据TXT文件不引入报告中。命名为julei.txt。相关两个源文件代码文件如下:

1、Untitled.m

clc,clear

load julei.txt %把原始数据保存在纯文本文件julei.txt 中

r=corrcoef(julei); %计算相关系数矩阵

d=1-r; %进行数据变换,把相关系数转化为距离

d=tril(d); %取出矩阵d 的下三角元素

d=nonzeros(d); %取出非零元素

d=d'; %化成行向量

z=linkage(d,'average'); %按类平均法聚类

dendrogram(z); %画聚类图

T=cluster(z,'maxclust',4) %把变量划分成4类

for i=1:4

tm=find(T==i); %求第i 类的对象

tm=reshape(tm,1,length(tm)); %变成行向量

fprintf('第%d类的有%s \n',i,int2str(tm)); %显示分类结果end

r %显示相关系数矩阵

2、Untitled2.m

clc,clear

load julei.txt %把原始数据保存在纯文本文件julei.txt中

julei(:,5)=[]; %删除数据矩阵的第5列,即使用变量1,2,3,4 julei=zscore(julei); %数据标准化

y=pdist(julei); %求对象间的欧氏距离,每行是一个对象

z=linkage(y,'average'); %按类平均法聚类

dendrogram(z); %画聚类图

for k=2:8

fprintf('划分成%d类的结果如下:\n',k)

T=cluster(z,'maxclust',k); %把样本点划分成k类

for i=1:k

tm=find(T==i); %求第i类的对象

tm=reshape(tm,1,length(tm)); %变成行向量

fprintf('第%d类的有%s \n',i,int2str(tm)); %显示分类结果 end

if k==8

break

end

fprintf('************\n');

End

输出结果为:

1、

图一(R型聚类)

>> T =

4

2

3

1

2

第1类的有4

第2类的有2 5

第3类的有3

第4类的有1

>> r =

1.0000 -0.1824 0.0439 -0.0298 -0.0871

-0.1824 1.0000 0.2844 0.4158 0.9003

0.0439 0.2844 1.0000 0.1883 0.3327

-0.0298 0.4158 0.1883 1.0000 0.4965

-0.0871 0.9003 0.3327 0.4965 1.0000

2、

图2 (各对象聚类树形图)

划分成2类的结果如下:

第1类的有128 268

第2类的有

************

划分成3类的结果如下: