Web挖掘研究综述

格式：pdf
大小：203.92 KB
文档页数：4

下载文档原格式

WEB安全研究文献综述

WEB安全研究金丽君摘要：本文主要针对WEB安全问题越来越引起人们的重视这一现状，初步地介绍了国内外对WEB安全问题的研究现状，全面地介绍和分析了WEB服务和应用中存在的各种威胁，并探讨了WEB安全问题的防护对策，来提高计算机网络的安全性。

关键词：WEB安全、安全威胁、安全防护Abstract：This article will focus WEB security has drawn increasing attention to this situation, the initial introduction to security issues at home and abroad on the WEB Research, a comprehensive description and analysis of the WEB services and applications that exist in a variety of threats, and to explore the WEB security protection measures.一、引言1.1研究背景及目的随着网络时代的来临，人们在享受着网络带来的无尽的快乐的同时，也面临着越来越严重和复杂的网络安全威胁和难以规避的风险，网上信息的安全和保密是一个至关重要的问题。

网络的安全措施应是能全方位地针对各种不同的威胁和脆弱性，这样才能确保网络信息的保密性、完整性和可用性，计算机网络的安全以及防范措施已迫在眉睫。

网络安全评估技术是评价计算机网络安全的重要手段，现今在众多的安全技术中已经占据越来越重要的位置。

通过风险评估，对系统进行细致而系统的分析，在系统分析的基础上对系统进行综合评价，最后通过评价结果来了解系统中潜在的危险和薄弱环节，并最终确定系统的安全状况，为以后的安全管理提供重要依据。

随着Internet的普及，人们对其依赖也越来越强，但是由于Internet的开放性，及在设计时对于信息的保密和系统的安全考虑不完备，造成现在网络的攻击与破坏事件层出不穷，给人们的日常生活和经济活动造成了很大麻烦。

数据挖掘中的本体应用研究综述

数据挖掘中的本体应用研究综述摘要：数据挖掘是个交叉领域，与人工智能、信息科学、统计分析等领域有着紧密的联系。

而本体作为一个新兴的研究领域，与数据挖掘在应用的学科领域范围上有着较大的重合，比如在生物科学和化学领域，这两者的结合研究也非常活跃。

在数据挖掘中引入本体能够极大地解决数据挖掘面临的问题。

系统研究了在数据挖掘中本体的应用情况。

关键词：数据管理；数据挖掘；本体0引言摩尔定律见证了过去40多年来计算机技术的发展：芯片的处理速度越来越快，集成电路的体积越来越小、性价比越来越高。

以硬盘为例，机械硬盘存储单位兆的成本不断下降，而性能更好的固态硬盘正在进入民用市场。

计算机的硬件成本越来越低，而硬件的性能越来越好。

存储每兆信息所需要的成本越来越低。

这为大规模的数据存储打下了物质基础。

计算机技术的普及大大提升了数据采集、存储和操作能力。

数据库与DBMS顺应了大规模的数据管理而产生。

从20世纪60年代早期简单的数据收集到建立数据库，到20世纪70年代数据库管理系统的发展，到后来各种新型数据库，到数据仓库与数据挖掘的发展，数据库发展的内在驱动因素正是出于人们对快速增长的数据利用的需求。

身处于大量数据之中，却依然感到缺乏信息，数据挖掘的产生正是为了满足从数据中挖掘信息的需求。

数据挖掘这些年来被广泛应用和研究，比如在生物科学、化学、天文和商业领域等等，这些领域的共同特点都是面临大量数据处理。

数据挖掘也面临者许多问题：处于复杂的数据环境中，需要支持多种数据源类型；挖掘算法的选择容易受使用者个人知识背景影响；产生规则过多；规则难以理解，需要领域知识背景等等。

而本体的引入，从各个方面改进了数据挖掘面临的问题。

1理论背景1.1数据挖掘的定义和KDD过程数据挖掘是“从资料中提取出隐含的过去未知的有价值的潜在信息”（1992年提出），也被认为是“从大量的、不完全的、有噪声的、模糊的、随机的数据中, 提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程”（2001年提出），后者是被广泛引用的数据挖掘定义。

基于Web的数据挖掘技术研究综述

１１，基于Ｗｅｂ的数据挖掘任务Ｗｅｂ信息的多样性决定了Ｗｅｂ挖掘任务的多样性。总的来
说Ｗｅｂ挖掘的对象可分为内容挖掘、访问信息挖掘和结构挖
掘。
页，权威网页往往对于某一主题包含比较多的用户所需要的信
息，常有许多指向它的链接。导网页虽然不一定包含很多某常引
Ｋｅｙｗｏｄｓｏｅｖｅ；ａｅｉｎｔｃｏｏ；ｅｂｒ：ｖｒｉｗｄｔｍｎｉｇｅｈｎｌｇＷｙ
数据库中的知识发现ＫＤｆＫｏｌｇＤｓｏｅｉＤｎｗｅｅｉｖｒｎｄｃｙＤｔｂｓｓ是指从数据库中发现潜在的有意义的未知的关系模ａａｅ１ａ式和趋势，以易被理解的方式表示出来。并但传统ＫＤ技术所Ｄ涉及的主要是结构化的数据库，而网上资源却没有统一的管理和结构，数据往往是经常变动和不规则的，因此人们需要比信息检索层次更高的新技术，我们称之为Ｗｅｂ中的知识发现ＫＷＤ
ＷＡＮＧＪｎｉｇ
（ｎｅｎｔｎｌＣｏｌｇ；ＣｎｒｌＳｕｈＵｎｖｒｉｆＦｒｓｒｎｅｈｏｏｙ，Ｈｕａｈｎｓａ４１０４）ＩｔｒａｉａｌｅｅｔｏｔｉｅｓｙｏｏｅｔａｄＴｃｎｌｇｏｅａｔｙｎｎＣａｇｈ００
要的一种。
接。ＨＴ（ｙｅｉｋｎｕｅＴｐｃＳａｃ）ＩＳＨｐｒｎＩｄｃｄｏｉｅｒｈ算法就是这样一ｌ个通过分析权威页面和引导页面进行Ｗｅｂ结构挖掘的算法。使

Web数据挖掘技术综述

【关键词】ＷＥＢ数据技术应用
中图分类号：ＴＰ３１１文献标识码：Ｂ文章编号：１００９－４０６７（２０１３）１５．３２．０２
一
、
Ｗｅｂ数据挖掘的难点
下特点：
ｗｅｂ上有海量的数据信息，怎样对这些数据进行复杂的应用成了现今数据库技术的研究热点。数据挖掘就是从大量的数据中发现隐含的规律性的内容，解决数据的应用质量问题。充分利用有用的数据，废弃虚伪无用的数据，是数据挖掘技术的最重要的应用。相对于Ｗｅｂ的数据而
因为如果所需的数据不能很有效地得到，对这些数据进行分析、集成、
处理就无从谈起。．
（二）半结构化的数据结构
搬用于数据库的数据挖掘技术。
ｌ、Ｗｅｂ挖掘技术的分类
一
Ｗｅｂ上的数据与传统的数据库中的数据不同，传统的数据库都有一定的数据模型，可以根据模型来具体描述特定的数据。而Ｗｅｂ上的数据非常复杂，没有特定的模型描述，每一站点的数据都各自独立设计，并
ｗｅｂ内容挖掘有两种策略：直接挖掘文件的内容，或在其他工具搜索的基础上进行改进。采取第１种策略的有锁定网络的查询语言ＷｅｂＬｏｇ、ＷｅｂＳｈｏｙ等；采取第２种策略的方法主要是对查找引擎的查询结果进行进一步的处理，
１、庞大性。由于ｗｅｂ的开放性，使得ｗｅｂ上的信息与臼俱增，呈
爆炸性增长。网上的网页数量达到ｌ０亿，而且正在以每月近千万的速度增长。
２、动态性。ｗｅｂ不仅以极快的速度增长，而且其信息还在不断地发生更新。新闻、公司广告、股票市场、Ｗｅｂ服务中心等都在不断地更新

Web挖掘在电子商务中的应用的综述

200 7 N0 . 3匕 SC IF NC「 & T任 CHNOLOOY } ORMA NF ON
学术论坛
Web 挖掘在电子商务中的应用的综述
李晓勇
(江苏联合职业技术学院南京工程分院
江苏南京
21113 ) 5
摘要: Web 挖掘技术已经得到了广泛的发展，并渗透到各个行业。本文介绍了 We b 挖掘的概念、任务和分类，并重点介绍了 Web 挖掘在电子商务中的应用。关键词: Web 挖掘电子商务综述文章编号: 1627 一3791(2007)12(b)一 0229一 1 0 中图分类号: T P 393 文献标识码 : A
1.3 We 挖掘的分类 b We 挖掘分为We 内容挖掘、We 结构 b b b
挖掘、W e b 使用挖掘。
(l We 内容挖掘。We 内容挖掘是指在 ) b b 组织的We 上， b 从文件内容及其描述中获取有用信息的过程。Web 内容挖掘和基于多媒体信息(包括TEXT、HTML 等格式)的挖掘和基于多媒体信息(包括IMAGE、 AUD1 、 0 VIDEO 等煤体类型)的挖掘，是数据挖掘技术在网络信息处理中的应用。基于文本的Web 挖掘软件有AGENT 方法和数据库方面，基于多体的媒 Web 挖掘有关联规贝方法和特征提取方法曰 J I 。 (2 Web 结构挖掘。Web 结构挖掘是从 ) WWW的组织结构和链接关系中获取有用的知识的过程。大量的We 链接信息提供了 b 丰富的关于Web 内容相关性和结构方面的信息，为
I Web挖掘介绍
1. I Web挖掘的概念， ] 数据挖掘是指从大量的、不完全的、模糊的、随机的数据中提出隐含在其中的、潜在的知识的过程。We b 数据挖掘贝是数据挖 1 掘技术的重要应用，它是指在大量训练样本的基础上，得到数据对象间的内在特性，并以此为依据在网络资源中进行有目的的信息提取。 1 2 Web挖掘的任务!2 ] Web 挖掘是对Web 存取模式、Web 结构和规则，以及动态的We 内容的查找。We 挖 b b 掘包括信息检索、信息提取、概括和分析等

Web数据挖掘与个性化搜索引擎综述

数据挖掘的发展现状、发展趋势以及将来可能的研究方向，并简单介绍了个性化搜索引擎的一些情况，最后论述了ｗｅｂ数据挖掘在个性化搜索引擎中的应用。关键词：ｅ数据挖掘；Ｗｂ个性化；索引擎搜
中图分类号：Ｐ９Ｔ３３文献标识码：Ａ
，
１Ｗｅ据挖掘综述ｂ数
１１Ｗｅ．ｂ数据挖掘的概念和分类
图１Ｗｅ数据挖掘分类ｂ
Ｗｅｂ数据挖掘是数据挖掘技术与Ｗｅ结合的ｂ相
ｗｅ内容挖掘是从文档内容或其描述中抽取有ｂ趣知识的一种过程，是一种基于网页内容元素对象的Ｗｅｂ挖掘。这些元素对象既有文本和超文本数据，也有图形、图像等多媒体数据；既有来自于数据库的结构化数据，也有用ＨＭＴＬ或ＸＬ标记的半结构化Ｍ数据和无结构的自由文本。Ｗｅ结构挖掘是从网页的超级链接中发现其结ｂ
０引言
Ｗｅｂ已成为人们获取信息的一个重要途径，随着ｗｅｂ信息的日益增长，人们不得不花费大量的时间去搜索浏览自己需要的信息。搜索引擎已成为人们最普遍使用的信息检索的工具。该工具涉及到信息检索、数据库、数据挖掘、人工智能、分布式处理、自然语言处理等多个领域的理论和技术，因而具有综合性和挑战性。但是，前大多数的搜索引擎提供的服目务还不能令用户满意，尤其是个性化的查询请求。因此，个性化搜索引擎成为当前的一个重要研究课题。
维普资讯
２０年第８０７期
文章编号：０６２７（０７０－０４０１０－４５２０）８４－４０

基于Python的网络爬虫技术综述

基于Python的网络爬虫技术综述随着互联网的发展，网络上的信息量呈爆炸式增长，每天都有海量的数据在互联网上产生。

这些数据包含了丰富的信息，对于企业、学术研究、个人等各个领域都有重要的参考价值。

要想获取这些数据并加以利用，就需要一种有效的手段来收集网络上的信息。

网络爬虫（Web Crawler）技术应运而生，它是自动化地获取互联网上信息的一种技术手段。

一、网络爬虫技术原理网络爬虫技术主要是通过编程的方式，模拟浏览器行为，访问网络上的页面，获取页面的内容并进行解析，从而实现自动化获取信息的过程。

其主要原理包括：1. 发起请求：网络爬虫首先需要向目标网站发起HTTP请求，请求特定的网页内容。

2. 获取响应：目标网站接收到请求后，会返回相应的HTML页面内容。

3. 解析页面：爬虫需要解析HTML页面，从中提取出所需信息，如文本、图片、链接等。

4. 存储数据：爬虫将解析出的数据存储到本地数据库或文件中，以便后续分析使用。

二、基于Python的网络爬虫常用库在Python中，有许多成熟的第三方库可供使用，极大地简化了网络爬虫的开发过程。

以下几个库是网络爬虫常用的：1. requests：用于发送HTTP请求，并获取响应内容的库，是网络爬虫的基础库。

2. BeautifulSoup：用于解析HTML页面内容的库，能够方便地提取出页面中的各种信息。

3. Scrapy：一个功能强大的网络爬虫框架，提供了完整的爬虫开发工具，包括URL管理、数据存储、页面解析等功能。

4. Selenium：用于模拟浏览器操作的库，可以实现动态页面的爬取。

5. PyQuery：类似于jQuery的库，提供了类似于jQuery的操作方式，便于解析HTML 页面。

这些库的出现大大简化了网络爬虫的开发工作，使得爬虫开发者能够专注于业务逻辑的实现，而不必关心底层的网络请求和页面解析过程。

基于Python的网络爬虫一般可以分为以下几个步骤：4. 遍历链接：对于需要爬取多个页面的情况，需要遍历页面中的链接，继续发起请求和解析页面的过程。

第1章数据挖综述

2020/6/18
第1章数据挖掘综述
1.2.4 数据挖掘和数据仓库
➢ 大部分情况下，数据挖掘都要先把数据从数据仓库中拿到数据挖掘库或数据集市中（见图1-1）。
图1-1 数据挖掘从数据库中得出
如果数据在导入数据仓库时已经清理过，很可能在做数据挖掘时就没必要再清理一次，而且所有的数据不一致的问题都已经被解决了。
数据进化的阶段
进化阶段
数据搜集
数据访问
表1-1 数据进化的四个阶段
时间段
60年代
技术支持
计算机，磁带等
生产厂家
IBM, CDC
产品特点
提供静态历史数据
80年代
关系数据库，结构化查询语言SQL
OracleSybase, Informix,IBM, Microsoft
在纪录中动态历史数据信息
数据仓库数据挖掘
90年代
联机分析处理，多维数据库
Pilot, Comshare, Arbor,Cognos, Microstrategy
在各层次提供回溯的动态的历史数据
正在流行
高级算法，多处理系统，海量算法
Pilot,Lockheed, IBM, SGI, 其他初创公司
可提供预测性信息
2020/6/18
第1章数据挖掘综述
人工神经网络
训练过度的“模型”对训练集会有很高的准确率，而一旦离开训练集应用到其他数据，很可能准确度急剧下降。为了防止这种训练过度的情况，必须知道在什么时候要停止训练。
➢ 图1-5中的曲线可以帮我们理解为什么利用测试集能防止训练过度的出现。在图1-5中可以看到训练集和测试集的错误率在一开始都随着训练周期的增加不断降低，而测试集的错误率在达到一个谷底后反而开始上升，这个开始上升的时刻就是应该停止训练的时刻。

Web日志挖掘技术的研究与应用

面对巨大而复杂的网络系统以及浩如烟海的信息资源，研究人员将传统的数据挖掘技术和相结合，进行Web 挖掘，从半结构或无结构的页面中，以及使用者的Web Web 活动中，抽取感兴趣的、潜在的模式，分析、研究，并加以利用。

挖掘可分为类：内容挖掘、结构挖掘和Web 3Web Web 日志挖掘。

而日志挖掘作为挖掘的一个重要组Web Web Web 成部分，有其独特的理论和实践意义。

所谓日志，是指在服务器上有关访问的各种日Web Web 志文件，包括访问日志、引用日志、代理日志、错误日志等文件。

这些文件里包含了大量的用户访问信息，如用户的IP 地址、所访问的、访问日期和时间、访问方法或URL (GET 、访问结果功、失败、错误、访问的信息大小等。

POST)()而日志挖掘，就是通过对日志记录的挖掘，发Web Web 现用户访问页面的模式，从而进一步分析和研究日Web Web 志记录中的规律，以期改进站点的性能和组织结构，提Web 高用户查找信息的质量和效率，并通过统计和关联的分析找出特定用户与特定地域、特定时间、特定页面等要素之间的内在联系，这在电子商务等领域是大有作为的。

日志挖掘技术1 Web 目前，日志挖掘技术主要分为两大类：基于事Web Web 务的方法和基于数据立方体的方法。

基于事务的日志挖掘技术1.1 Web Web 基于事务的日志挖掘技术最早是由等人Web Web ,Chen [1]提出的图。

他将数据挖掘技术应用于服务器日志文(1)Web 件，提出最大向前引用算法的概念。

他将用户会话分割MF 成一系列的事务，然后采用与关联规则相类似的方法挖掘频繁访问序列，从而取得用户访问模式。

基于事务的日志挖掘技术的基本流程是：Web 预处理过程服务器日志中的内容非常丰富，(1) Web 但是由于本地缓存、代理服务器、防火墙的存在，使得直接在数据上进行挖掘变得十分困难和不准确。

因此，Web log 在实施数据挖掘之前，首先必须对文件进行数据净Web Log 化、用户识别、会话识别、页面过滤、路径补充等一系列的工作[9]。

数据挖掘神经网络法的研究现状和发展趋势综述

数据挖掘神经网络法的研究现状和发展趋势综述摘要：随着计算机技术的迅猛发展，数据挖掘技术越来越受到世界的关注。

从数据挖掘的概念出发，介绍了数据挖掘的对象、功能及其挖掘过程，结合数据挖掘的几种常见挖掘算法：决策树法、关联规则法和神经网络法等，对其主要思想及其改进做了相关描述；总结了国内外数据挖掘的研究现状和应用，指出了数据挖掘的发展趋势。

关键词：数据挖掘；决策树法；关联规则法；神经网络法；研究现状；发展趋势0引言数据挖掘作为一个新兴的多学科交叉应用领域，正在各行各业的决策支持活动中扮演着越来越重要的角色。

随着信息技术的迅速发展，各行各业都积累了海量异构的数据资料。

这些数据往往隐含着各种各样有用的信息，仅仅依靠数据库的查询检索机制和统计学方法很难获得这些信息，迫切需要将这些数据转化成有用的信息和知识，从而达到为决策服务的目的。

数据挖掘分析得到的信息和知识现在已经得到了广泛的应用，例如商务管理、生产控制、市场分析、工程设计和科学探索等。

数据挖掘是一个多学科领域，它融合了数据库技术、人工智能、机器学习、统计学、知识工程、信息检索等最新技术的研究成果。

本文主要介绍了数据挖掘的几种主要算法及其改进，并对国内外的研究现状及研究热点进行了总结，最后指出其发展趋势<sup>[1]</sup>。

1研究背景1.1数据挖掘目前数据挖掘是人工智能和数据库领域的研究热点，数据挖掘是发现数据库中隐含知识的重要步骤。

数据挖掘出现于20世纪80年代末，早期主要研究从数据库中发现知识（Knowlegde Discovery in Database，KDD），数据挖掘的概念源于1995年在加拿大召开了第一届知识发现和数据挖掘国际会议<sup>[2]</sup>。

数据挖掘作为一种多学科综合的产物，综合利用人工智能、机器学习、模式识别、统计学、数据库、可视化技术等，自动分析数据并从中得到潜在隐含的知识，从而帮助决策者做出合理并正确的决策。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

&+,-’
。 ()* 挖掘可在多
方面发挥作用，如搜索引擎结构的挖掘，搜索引擎的开发，改进和提高搜索引擎的质量和效率，确定权威页面 &%%,%+’， ()* 文档分类 &%.,%/’，智能查询，建立 4)567()* 数据仓 ()* 012 挖掘 &%3,%-’、库等。
!
!"# 挖掘研究综述
涂承胜 %
% !
鲁明羽 !
陆玉昌 !
（重庆三峡学院计算机科学系，重庆万州 +"+""" ）
F7<6=B： BG@H5;=C2I?6$)A?$@C
（清华大学计算机科学技术系智能技术与系统国家重点实验室，北京 %"""-+ ）
摘
要
论文介绍了 ()* 挖掘的概念，指出了 ()* 挖掘中存在的问题，给出了 ()* 挖掘研究的三种分类： ()* 内容挖
#
&’( 挖掘的分类
即人们通常所说的 &’( &’( 数据有三种类型： &’( 数据，
文档（主要是 EFGH 或 IGH 格式的）、如 &’( &’( 结构数据（文档中的超链接）、用户访问数据（如服务器上的 &’( 934 日志信息）。相应地， &’( 挖掘也分为三类： &’( 内容挖掘（ &’( 、和 &’( 035*’5* 815154 ） &’( 结构挖掘（ &’( J*/K0*K/’ 815154 ）使用挖掘（。图 % 给出了 &’( 挖掘的分类 &’( KJ.4’ 815154 ）图。
掘、针对每一种分类介绍了各自的研究对象、表示方法、处理方法、应用领域及最近的研究 ()* 结构挖掘、 ()* 使用挖掘，情况，同时展望了 ()* 挖掘的未来研究方向。关键词数据挖掘
()* 挖掘
()* 内容挖掘
()* 结构挖掘
()* 使用挖掘
文章编号 %""!7-##%7（ !""# ） %"7""J"7"+
文献标识码 K
中图分类号 9L%-
!"# $%&%&’ (")"*+,- ./+0"1
2/ 3-"&’)-"&’4 5/ $%&’1/6 5/ 7/,-*&’8 % （ M)D5$1N O1<D?5)> P@=)C@) OI1C2Q=C2 9I>)) R1>2); O1BB)2) ， (6CSI1?， OI1C2Q=C2 +"+""" ） ! （ O1<D?5)> P@=)C@) 6CA 9)@IC1B12G M)D5$ ， 9I) P565) T)G 06*1>651>G 1N UC5)BB=2)C5 9;=C2I?6 VC=W)>;=5G， E)=X=C2 %"""-+） 9)@IC1B12G 6CA PG;5)<，
%
引言
数据挖掘是从海量的数据中自动、高效地提取有用知识的
抽取和知识发现具有极大的挑战性，会面临很多具体问题，主要有：目前，对感兴趣的信息仅限于利用各种搜索引擎进行（ %）但其检索性能和服务查找。尽管业界开发了很多的搜索引擎 &+’，质量并不令人满意。主要表现在：检索时间 !检索方式单一，长，检索结果质量差，难以精确表达用户需求，无法适应用户群精度）导致引体的多样性。" 检索召回率和精度低。低查准率（擎返回的检索结果中往往含有大量无关信息。有用信息匮乏，用户难以得到真正感兴趣或有用的信息。低查全率（召回率）导致很多相关的文档查不到。 # 搜索引擎的更新周期较长，无法用户无法顺利、快适应信息的快速增长。 $ 缺乏检索导航信息。速地从巨大的信息网络中找到目标信息。 % 定制服务能力差。不能根据用户多样化的的需求，自动地、最大程度地满足用户的需求。 & 主动服务和个性化服务能力差。呈现的半结构（ !） ()* 页面以某种格式（ 8940 或 :40）化数据（，其数据结构不规则（或 ;)<=7;5>?@5?>)A A656 ） =>>)2?B6>）不完整（，复杂程度远远高于普通的文本文档，其数 =C@1<DB)5) ）据结构隐含、模式信息量大、模式变化快。大量的文档无任何排列次序，无分类索引。分布、动态的信息源。()* 及其数据（ #） ()* 是一个异质、的更新、增长速度极快，也无固定的模式。 ()* 上的信息几乎都是隐藏的、潜在的、未知的，从 ()* 上发现这些未知的信息和有用的模式，仅用传统的基于关键字的检索方式很难实现，现在的搜索引擎尚不具备这些功能。目前 ()* 上的数据以 9E 数量级计算，且在迅速地增（ +）
一种新兴的数据处理技术，包括分类、聚类、关联规则挖掘、特征与偏差、时序模式发现、趋势分析等 &!’。近年来，因特网的飞速发展与广泛应用，使得 ()* 上的信息量以惊人的速度增长，为数据挖掘提供了丰富的数据源和新的研究课题。面对 ()* 丰富的信息内容，巨大的数据量，加之由于万维网分布、动态、海量、异质、复杂、开放性的特点，人们如何从这海量的数据中，查找自己想要的数据和有用信息，迫切需要一种新的技术能自动地从 ()* 资源上发现、抽取和过滤信息。因此出现了 ()* 挖掘技术。()* 挖掘就是从 ()* 文档和 ()* 活动中发现、抽取感兴趣的潜在的有用模式和隐藏的信息。它以从 ()* 上挖掘有用知识为目标，以数据挖掘、文本挖掘、多媒体挖掘为基础，并综合运用计算机网络、数据库与数据仓储、人工智能、信息检索、可视化、自然语言理解等技术，将传统的数据挖掘技术与 ()* 结合起来
图%
&’( 挖掘的分类
若对象为原子对象，则其值为原子值，否则为其包含的下层对象的标记（即引用别的对象的复杂对象）。另外，可用 T?G （ T(@ 模型。 T?G 是 TUG 的一种变形数据模 V’0* ?5*’4/.*135 G36’9）型，其对象描述子为（，增加了节点 16’5*1=1’/， 5.8’ ， *P+’ ， 2.9K’ ）的 C.8’ 和 FP+’ ，可表示集合、可变长和引用类型的数据。半结构化对象的查询语言采用类似 TWH （ 3(V’0* XK’/P 的风格。如采用 T?WH （ 9.54K.4’ ） 3(V’0* 15*’4/.*135 XK’/P 9.5@ ，采用 HTNUH。对半结构化数据的模式抽取采用 GONT 4K.4’）（方法：用 TUG 模型表示 G1518.9 OK99 N’+/’J’5*.*135 T(V’0*J）数据对象，用 GONT 方法表示半结构化层次数据中的模式。其应用集中在模式发现、多层数据库的建立或数据向导（的建立和 &’( 查询系统。多层数据库是由若干 B.*. YK16’J）层信息构成的数据库，低层为原始的、半结构化的数据，较高层为元数据或从低层抽取的模式，高层被表示为关系或对象。该方法的优点是：充分利用现有的数据库、数据挖掘技术；提供高层的查询接口；提供关于 &’( 页内容的全局视图；信息资源的高效管理等。其缺点是：需要额外的软件支持；处理多媒体对象计算机工程与应用 !""#$%"
#$%$!
数据库方法数据库方法主要集中在对 &’( 上异质的、半结构化的数
据进行整合与组织，使之成为结构化较好的、高层的资源集合，以便进行更好的信息管理和查询。这些元数据（或泛化了的数据）可以组织成有结构的数据集（如关系数据库或面向对象数据库），然后再对其加以分析。在数据库方法中，用数据库技术处理半结构数据。半结构化数据的表示一般采用 TUG（ T(V’0* 及其变形模型。 TUG 使用带有根节点的带标 U70).54’ G36’9）记的有向图来表示，节点表示对象，边表示对象的聚合关系，节点或边上的标记表示对象的属性。对象包含惟一的标记和值。
()* 挖掘面临的问题
分布广泛、全球性的信息服务中心，涉 ((( 是一个巨大、
及经济、文化、教育、新闻、广告、消费、娱乐、金融、保险、销售、电子商务等信息服务，内容极其丰富。对 ()* 进行有效的信息
J"
!""#$%" 计算机工程与应用
长，能否或如何构建一个庞大的数据仓库把 &’( 上所有分布和异质的数据集成在一起。但这几乎是不可能的。最近，有些研究工作在致力于存储和集成 &’( 上的所有数据。例如在 )**+ ：可访问到一个巨大的数十兆 , , ---$./0)12’$3/4 , 156’7%$)*89 下，兆字节的因特网存档。（不同的用户访问 &’( 的兴趣、爱好和使用目的千差万 :）别，面对一个非常广泛的形形色色的用户群体，能否使用户根据自己的爱好兴趣定制网页，甚至 &’( ;’/2’/ 能否根据发现的用户 </3=19’ 自动为用户定制网页，从而提供个性化的信息检索和查询服务。网络上信息储备量极大且信息内容十分丰富，但信息（ >）的利用率很低。 &’( 上的信息对用户个人而言，被使用到的只是极小的一部分，其余信息对用户来说是不感兴趣的。这些问题推动了如何有效且高效地发现和充分利用 ?5*’/@ 万维网的分布、动态、海量、异质、变化、 5’* 上资源的研究工作。开放性的特点，网页内容的半结构化特征决定了 &’( 挖掘比传统的 ABB 和以关键字搜索为主的信息检索问题更为复杂和困难，很多问题甚至是 C<D)./6 问题。解决 &’( 挖掘问题需要有新的数据模型、体系结构和算法等，在理论上、方法上要有新的突破，要求有更高级的 &’( 信息处理技术。

Web挖掘研究综述

合集下载

WEB安全研究文献综述

数据挖掘中的本体应用研究综述

基于Web的数据挖掘技术研究综述

Web数据挖掘技术综述

Web挖掘在电子商务中的应用的综述

Web数据挖掘与个性化搜索引擎综述

基于Python的网络爬虫技术综述

第1章数据挖综述

Web日志挖掘技术的研究与应用

数据挖掘神经网络法的研究现状和发展趋势综述

文档推荐

最新文档

Web挖掘研究综述

合集下载

WEB安全研究 文献综述

数据挖掘中的本体应用研究综述

基于Web的数据挖掘技术研究综述

Web数据挖掘技术综述

Web挖掘在电子商务中的应用的综述

Web数据挖掘与个性化搜索引擎综述

基于Python的网络爬虫技术综述

第1章 数据挖综述

Web日志挖掘技术的研究与应用

数据挖掘神经网络法的研究现状和发展趋势综述

文档推荐

最新文档

WEB安全研究文献综述

第1章数据挖综述