当前位置:文档之家› 数据挖掘工具集TH-Miner

数据挖掘工具集TH-Miner

79

数据挖掘工具集TH TH--Miner

Miner

任 靖

翟旭君

刘璧松

李春平

(

清华大学软件学院北京100084)

要TH-Miner

是以Java

实现的跨平台数据挖掘可视化系统

在TH-Miner

中实现了多种经典的数据挖掘算法并构造了几种新的改进

算法TH-Miner

包括可视化聚类挖掘工具

分类算法工具

序列模式挖掘算法工具以及文本分类工具 关键词

数据挖掘工具

分类

聚类

序列模式挖掘

文本分类

TH-Miner: A Data Mining Toolkit

REN Jing, LU Shen, ZHAI Xujun, DAI Tao, LIU Bisong, LI Chunping

(School of Software, Tsinghua University, Beijing 100084)

Abstract TH-Miner system is a visualization data mining system independent of operating platforms. The paper realizes several classical data mining arithmetic and constructs several new methods. TH-Miner system includes the visualization clustering tool, classifier tool, sequence pattern finder and text categorizer. Key words

Data mining toolkit; Classification; Clustering; Sequence pattern discovery; Text categorization

机 工

程 Computer Engineering 第32

卷 第4期

V ol.32 4 2006年2

February 2006

软件技术与数据库

文章编号

1000

3428(2006)04

0079

03

文献标识码

A

中图分类号

TP311

随着数据库技术的发展及应用人们积累的数据越来越

多激增的数据背后隐藏着许多重要的信息简单的查询和

统计已经无法满足商业的需求需要出现一种挖掘数据背后隐藏的知

识的手段数据库中的

知识发现(Knowledge Discovery in Databases, KDD)应运而生从数据库中发现出来的知识可以用在信息管理

过程控制

科学研究决策支持

等许多方面

数据挖掘是从大量的不完全的

有噪声的模糊的随机的实际应用数据中提取隐含在其中的人们事先不知

道的但又是潜在有用的信息和知识的过程

经历十多年的发展数据挖掘已经成为一个自成体系的应用学科数据挖

掘涉及的学科领域和方法很多

有人工智能数据统计

可视化

并行计算等数据挖掘有多种分类法

根据挖掘任务分可分为分类或预测模型发现数据总结聚类关联规则发现

趋势分析偏差分析

模式分析等

如今已有很多公司或科研机构开发的数据挖掘产品

如IBM 公司的Intelligent Miner SAS 公司的 Enterprise Miner Weka DBMiner DataEngine 等但是不同的挖掘算法往往有不同的适用范围现有工具集中的算法不能满足某些领域数据的要求需要研究新的算法在数据挖掘工具集中我们实现了多种经典的数据挖掘算法并构造了几种新的改进算法TH-Miner 包括可视化聚类挖掘工具分类算法工具序列模式挖掘算法工具和文本分类工具

TH-Miner 系统是以Java 实现的跨平台数据挖掘可视化系统数据存取能力强能够访问文本文件和JDBC 几个模块采用的都是经典算法和验证有良好性能的改进算法用户界面友好操作简单TH-Miner 系统从总体结构子模块和各模块的类各个层次的精心设计保证了系统的可扩展性

1 可视化聚类挖掘工具

图1是可视化工具的主界面

图1 可视化聚类聚类挖掘工具界面

在数据挖掘中多维数据的可视化分析已成为探测数据中隐藏信息的强有力工具通过人机交互充分利用人类的很强的感知和联想能力并且可以结合领域知识将图形所呈现出的数据结构转化为有用的信息常用的数据可视化技术有基于几何的技术面向像素技术基于图标的技术基于层次的可视化技术在基于几何的技术中平行坐标方法是最常用也是最直观的一种方法我们实现了一个结合平行坐标和基于混合模型聚类技术实现的可视化聚类挖掘工具

常用的数据挖掘聚类算法很多如划分方法层次方法基于密度的方法基于网格的方法基于模型的方法等其

基金项目国家863

计划基金资助项目(2002AA444120) 作者简介任 靖(1977

)女

硕士生

主研方向

数据挖掘

陆 翟旭君

戴 涛

刘璧松

硕士生

李春平

博士

副教授 收稿日期

2005-02-02 E-mail rj02@https://www.doczj.com/doc/164661103.html,

万方数据

相关主题
文本预览
相关文档 最新文档