Web数据挖掘技术
- 格式:doc
- 大小:28.50 KB
- 文档页数:4
电子商务中Web数据挖掘的应用[摘要] 本文介绍了web数据挖掘的概念及其分类,探讨了电子商务中web数据挖掘的过程,研究了web数据挖掘在电子商务方面的应用。
[关键词] 电子商务数据挖掘 web挖掘搜索引擎中图分类号:f407.63 文献标识码:a 文章编号:网络的发展带动了电子商务市场的繁荣,大量的商品、信息在现有的网络平台上得以交易,大大简化了传统的交易方式,节约了时间,提高了效率,但电子市场繁荣背后隐藏的问题,也成为人们关注的焦点,突出表现在海量信息的有效利用上,如何更加有效的管理利用潜在信息,使他们的最大效用得以发挥,成为人们现在研究的重点,数据挖掘技术的产生,在一定程度上解决了这个问题。
一、电子商务与web数据挖掘电子商务是利用计算机技术、网络技术和远程通信技术,实现电子化、数字化和网络化的整个商务过程。
无论是b2b、b2c还是b2g 电子商务模式,商品的采购者都需要通过web方式与商品的供应商及其合作者之间建立信息流的交互,那么,一方面通过web方式与购买者主动、方便、快捷的获得期望主题的信息;另一方面供应商与合作伙伴们如何通过他们的集成信息系统,运用知识把访问者、网上购买者的访问数据从潜在的、隐含的、事先不知的状态,经过提取、洗涤、加工变为潜力巨大的价值信息,从而提高企业的核心竞争力。
web数据挖掘(web data mining)是利用数据挖掘从web文档及web服务中自动发现并提取用户感兴趣的、潜在的、有用的模式和隐藏信息。
web数据挖掘的主要目标就是从web的访问记录中抽取用户感兴趣的模式,www服务器中的访问日志,记录了关于用户访问和交互的信息,通过web数据挖掘,就可以根据用户的访问兴趣、访问频度、访问时间动态地调整页面结构,改进服务,开展有针对性的电子商务活动,以更好地满足客户的需求。
二、web挖掘的分类电子商务web数据挖掘一般可分为三个部分:内容挖掘、结构挖掘、用法挖掘。
Web数据挖掘研究与探讨作者:刘树超, 李永臣, 武洪萍, LIU Shu-chao, LI Yong-chen, WU Hong-ping作者单位:刘树超,武洪萍,LIU Shu-chao,WU Hong-ping(山东信息职业技术学院,潍坊,261041), 李永臣,LI Yong-chen(潍坊市社会保险事业管理中心,潍坊,261061)刊名:制造业自动化英文刊名:MANUFACTURING AUTOMATION年,卷(期):2010,32(9)参考文献(12条)1.R.Kosala;H.Blockeel Web Mining Research:A SLINey,SIGKDD Expioration 20002.马保国.侯存军.王文丰.钱方正Web数据挖掘技术及应用 2006(6)3.Kleinberg J Authoritative Sources in a Hyperlinked Environment 19984.张蓉Web挖掘技术研究 2006(15)5.刘晓鹏;邢长征基于Web文本数据挖掘的研究[期刊论文]-计算机与数字工程 2005(09)6.Web数据挖掘技术研究 2006(15)7.薛鸿民Web数据挖掘技术研究[期刊论文]-现代电子技术 2006(15)8.刘晓鹏.邢长征基于WEB文本数据挖掘的研究 2005(9)9.张蓉Web挖掘技术研究[期刊论文]-计算机工程 2006(15)10.Kleinberg J Authoritative Sources in a Hyperlinked Environment 199811.马保国;侯存军;王文丰;钱方正Web数据挖掘技术及应用[期刊论文]-计算机与数字工程 2006(06)12.R.Kosala.H.Blockeel Web Mining Research:A SLINey,SIGKDD Expioration 2000本文链接:/Periodical_zzyzdh201009050.aspx。
数据挖掘在Web中的应用研究摘要:web中的数据挖掘技术是一种新型的技术,web自身的特点,决定了web数据挖掘技术具有更多的特点,而且应用也非常广泛,不仅能够提取页面的信息,进行站点设计分析,而且在电子商务方面也具有非常广阔的应用前景。
本文对数据挖掘技术在web中的应用进行分析。
关键词:数据挖掘技术;web应用;网络技术中图分类号:tp352 文献标识码:a 文章编号:1007-9599 (2012)18-0000-02随着网络技术的快速发展,网络上数据资源的越来越丰富,人们迫切需要将这些数据转换成有用的信息和知识,进而促生了数据挖掘(data mining,dm)和知识发现(knowledge discovery,kd)领域。
信息技术的发展,对web应用提出更高了要求,为了能够满足人们对信息获取的要求,研究基于web的数据挖掘技术,以便人们能够更加智能、更加自动地抽取数据以及信息中的知识。
1 数据挖掘技术相关概述1.1 基本概念数据挖掘技术主要是指寻找隐藏在大量数据中有价值的信息,从中寻找其规律,揭示出隐含的、具有潜在价值的知识,从而为决策支持提供有力依据的过程。
数据挖掘的目标主要包括特征、趋势以及相关性等多个方面的信息。
随着网络应用的普及,网络中信息量迅速增加,传统的知识发现(kdd:knowledge discovery indatabases)技术和方法已经不能满足人们从web中获取信息的需要,基于网络技术提供对各类数据的深层次实时分析,提供决策支持服务,就使得基于web的数据挖掘技术应运而生,这种技术将传统的数据挖掘和web应用技术相互结合起来,实现高度自动化的分析和归纳性的推理。
图1为web数据挖掘原理流程:2.3 在购物网站的应用web数据技术采用web-dms系统可以构建一个基于web 的挖掘的购物网站和交易环境,还能够充分利用站点上积累的信息,从而更好地服务于企业和客户。
在购物网站中采用web 数据挖掘技术不仅能够通过了解购物者的行为习惯,选择提供最佳的服务方式、消费习惯,还能够分析购物者的个人爱好[3],从而提供更加贴切的商品推介。
⼤数据的常⽤算法(分类、回归分析、聚类、关联规则、神经⽹络⽅法、web数据挖掘)在⼤数据时代,数据挖掘是最关键的⼯作。
⼤数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的⼤型数据库中发现隐含在其中有价值的、潜在有⽤的信息和知识的过程,也是⼀种决策⽀持过程。
其主要基于,,模式学习,统计学等。
通过对⼤数据⾼度⾃动化地分析,做出归纳性的推理,从中挖掘出潜在的模式,可以帮助企业、商家、⽤户调整市场政策、减少风险、理性⾯对市场,并做出正确的决策。
⽬前,在很多领域尤其是在商业领域如、电信、电商等,数据挖掘可以解决很多问题,包括市场营销策略制定、背景分析、危机等。
⼤数据的挖掘常⽤的⽅法有分类、回归分析、聚类、关联规则、⽅法、Web 数据挖掘等。
这些⽅法从不同的⾓度对数据进⾏挖掘。
数据准备的重要性:没有⾼质量的挖掘结果,数据准备⼯作占⽤的时间往往在60%以上。
(1)分类分类是找出数据库中的⼀组数据对象的共同特点并按照分类模式将其划分为不同的类,其⽬的是通过分类模型,将数据库中的数据项映射到摸个给定的类别中。
可以应⽤到涉及到应⽤分类、趋势预测中,如淘宝商铺将⽤户在⼀段时间内的购买情况划分成不同的类,根据情况向⽤户推荐关联类的商品,从⽽增加商铺的销售量。
分类的⽅法:决策树——是最流⾏的分类⽅法特点:a、它的每次划分都是基于最显著的特征的;b、所分析的数据样本被称作树根,算法从所有特征中选出⼀个最重要的,⽤这个特征把样本分割成若⼲⼦集;c、重复这个过程,直到所有的分⽀下⾯的实例都是“纯”的,即⼦集中各个实例都属于同⼀个类别,这样的分⽀即可确定为⼀个叶⼦节点。
在所有⼦集变成“纯”的之后,树就停⽌⽣长了。
决策树的剪枝:a、如果决策树建的过深,容易导致过度拟合问题(即所有的分类结果数量基本⼀样,没有代表性);b、剪枝通常采⽤⾃上⽽下的⽅式。
每次找出训练数据中对预测精度贡献最⼩的那个分⽀,剪掉它;c、简⾔之,先让决策树疯狂⽣长,然后再慢慢往回收缩。
Web数据挖掘在急性高原病易感人群预测中的应用摘要:将Web数据挖掘技术应用于急性高原病易感人群的预测中,通过Web技术与数据挖掘技术相结合,将分散于Web中的数据经过检索、清洗、处理后存储在专门的数据仓库中。
在现有研究成果的基础上,提出一个简便、高效的急性高原病易感人群预测模型。
关键词:Web数据挖掘;数据仓库;急性高原病易感人群0 引言随着数据库技术及数据挖掘技术的迅速发展,人们积累起来的数据越来越多,在这些数据的背后隐藏着巨大的信息及规律。
数据挖掘技术是在数据库技术广泛应用、深入发展的基础上应运而生的,它的主要价值就在于通过对大量新旧数据之间关系的分析,挖掘隐藏在这些数据背后的信息,进而促进信息的传递。
Web是一个全球性的信息服务中心,随着单位、个人每天发布的大量新的Web网页及在线文档,使得Web数据信息以指数形式进行激增。
如何从这些浩如烟海的数据中,寻找出有价值的信息,使其为相应的人群、行业服务,已成为目前Web技术和数据挖掘技术的重要发展方向。
初进高原时,由于对低压低氧环境的不适应,人群中不可避免地要出现“急性高原病”。
许多研究指出,人群中确实存在着急性高原病易感人群,如果能将数据挖掘技术应用于急性高原病易感人群的预测模型中,对于从根源上控制易感人群的基数将起到极其关键的作用[1]。
1 Web数据挖掘1.1 Web内容挖掘及方法Web内容挖掘[2]包括Web文本挖掘和Web多媒体数据挖掘,主要是从Internet上挖掘出有用的数据信息及文档信息,是一种基本Web检索工作的延伸。
Web内容挖掘在传统信息检索的基础上,通过各种新技术的应用来对原先搜索引擎进行改进。
Web内容挖掘的方法主要包括数据库方法和代理人方法。
Web 内容挖掘的基本技术是文本挖掘,可以把Web数据看成是一个大型数据库,而对该数据库的查询、检索则需要多种技术进行融合,如:关键词检索、相似性检索、关联规则检索、聚类分析、自然处理语言等;使用代理人方法,是指通过软件代理来进行内容挖掘[3],如:信息过滤、个性化Web代理及智能信息检索方法等。
S l LI-■V A数据挖掘技术探讨及其基于w eb的应用研究李慧(苏州建设交通高等职业技术学校江苏苏州215000)信患科学[摘要]w eb七有海量的数据信息.怎样对这些数据进行复杂的应用成了现令数据库技术的研究热点。
数据挖掘就是从大景的数据中发现隐含的规律性的内容。
解决数据的麻用质量问题。
允分利j}j有用的数据.绂弃虚伪无用的数据,是数据挖掘技术的最重要的戍用。
论述web数据挖掘的基本概述,基本蟓理,然后讨论web数据挖掘的实现.最后对w eb数据挖掘的麻_【}I进行阐述。
【关键词)数据挖掘w eb应用中图分类号:TP3文献标识码:^文章编号:1671--7597(2008)1120071--01一、引曹在嘲络环境下.人们可以借助互联网卜.f#富的信息资源、功能强人的搜索引擎和快捷的传送手段,使文献资料的搜集和抉取变得十分容易.然而在使用中,人们也发现要准确、快速地查找自L所需的信息却足越来越}f{难。
W e b数据挖掘应运而牛,w e b挖掘指使用数据挖掘技术在w w数据I}I发现潜在的、有用的模式或信息。
w eb挖掘研究覆盖J,多个研究领域,包括数据库技术、信息获取技术、统计学、人I.智能I}I的机器学爿和神经网络等,数据挖掘技术不仪能够对过去的数据进行青询和遍历,并且能够找}{j数据间的潜在联系,从而促进信息的1‘递。
他使数据库技术进入一个吏高的阶段。
二、w eb数据挖掘摄述和基本原理(一)w e b数据挖掘概念。
w eb数据挖掘是一项综合技术,是从w w资源上抽取信息(或知谚{)的过程,是对w eb资源中蕴涵的、未知的、自.潜在应用价值的模式的提取。
他反复使用多种数捌挖掘算法,从观测数据l|l确定模式或合理模型,也是将数据挖掘技术和理论应用于埘w w资源进行挖掘的一个新兴的研究领域。
w e b数据挖掘从数据挖掘发展而来,都是在分析人荤数据的基础上,做出归纳性的推理,预测客户的行为,帮助企qk的决镱者调整市场策略、减少风险"做f I{正确决策的过程。
Web数据挖掘技术
【摘要】文章主要描述了Web挖掘的原理、分类、数据挖掘的关键技术和数据挖掘的方法。
针对Web数据的复杂性和特殊性,Web的数据挖掘必须对Web 页做必要的数据处理,使之达到结构化数据的挖掘要求,或使用XML技术来构造半结构数据模式再进行数据挖掘。
【关键词】Web挖掘;内容挖掘;结构挖掘;使用挖掘
0引言
随着Internet/Intranet技术的发展,尤其是Web的全球普及使得Web上信息量无比丰富,Web已经成为人们获取信息的重要途径,但最先进的搜索引擎也只能找到Web网页上面很少的网页,而且无论怎么选择关键词都会返回大量并不需要的结果。
如何从非格式化数据信息中有效地挖掘出有用的信息是对数据挖掘领域的一个新挑战。
Web上的数据信息不同于数据库。
它主要是些大量的、异质的Web信息资源,文档结构性差,其数据多为半结构化或非结构化,信息不能清楚地用数据模型来表示。
因此在Web的数据挖掘需要用到很多不同于单个数据仓库挖掘的技术。
1Web数据挖掘概述
1.1 Web数据挖掘概念
Web数据挖掘是一项综合技术,是利用数据挖掘技术从WWW数据资源中抽取信息的过程,结合了数据挖掘、信息处理、可视化、数理统计等领域的成熟技术,是对Web数据资源中蕴含的未知的有潜在应用价值的模式的提取。
1.2 Web数据挖掘原理
通常Web挖掘过程可以分为以下几个处理阶段:资源发现、数据抽取及数据预处理、数据汇总及模式识别、分折验证。
目标数据集根据用户需求,从Web 数据源中提取的相关数据,Web数据挖掘主要从这些数据通信中进行数据提取;预处理过程从数据中去除明显错误或冗余的数据,并将数据转换成为有效和易于理解的形式;模式分析对发现的模式进行解释和评估;最后将发现的知识以用户能理解的方式提供给用户。
1.3 Web数据挖掘分类
根据挖掘对象的不同,Web挖掘可以分为三类,Web内容挖掘(WCM)、Web结构挖掘(WSM)和Web使用挖掘(WUM)。
1.3.1 Web 内容挖掘
Web内容挖掘实际上是从Web文档及描述中获取知识,具体来说就是对Web 上大量的文档集合的内容进行摘要、分类、聚类、关联分析、以及利用Web文档进行趋势预测等。
Web内容挖掘的对象包括文本、图像、音频、视频、多媒体等各种类型的数据。
其中聚类是事先没有确定类别,但要求把相似度高的文档归于相同的类。
1.3.2 Web结构挖掘
Web结构挖掘是从WWW的组织结构和链接关系中推导知识的过程。
主要是通过对Web 站点的结构进行归纳、分析和变形,将Web页面进行分类,以利于信息搜索。
HTML页面所包含的知识不仅存在于各个页面的内容中,也存在于这些页面之间的相互链接中。
利用这方面的知识可以对页面进行排序以发现重要的页面。
1.3.3 Web使用挖掘
Web使用挖掘就是对用户访问Web时在服务器留下的访问记录进行挖掘,也叫网络使用挖掘。
挖掘对象是在服务器上的日志信息,也称Web日志挖掘。
它通过分析日志记录中的规律,可以识别用户的忠实度、喜好、满意度,发现潜在用户,增强站点的服务竞争力。
Web使用记录数据除了服务器的日志记录外还包括代理服务器日志、浏览器端日志、注册信息、用户会话信息、交易信息、Cookie中的信息、用户查询、鼠标点击流等一切用户与站点之间可能的交互记录。
2Web数据挖掘的关键技术
Web数据挖掘中常用的技术有Web使用的特有路径分析技术和数据挖掘领域常用的关联规则、序列模式、分类聚类技术以及中文分词处理和词频统计技术等。
2.1 路径分析技术
使用路径分析技术进行Web数据挖掘时,最常用的是图。
图最直接的来源是网站结构图,网站上的页面定义为节点,页面之间的超链接定义为图中的边。
基于Web的数据挖掘,就是从图中确定最频繁的路径访问模式。
2.2 关联规则挖掘技术
关联规则挖掘技术主要用于从用户访问序列数据库的序列项中挖掘出相关的规则。
在Web数据挖掘中,它负责挖掘出用户在一个访问期间从服务器上访问的页面/文件之间的联系,这些页面之间可能并不存在直接的参引关系。
2.3 序列模式挖掘技术
序列模式数据挖掘负责挖掘交易集之间的有时间序列的模式。
例如,最出名的尿布与啤酒,这种信息对于电子商务网站非常有用。
2.4 聚类分类技术
分类规则可以挖掘某些共同的特性。
这个特性可用来对新添到数据库里的数据项进行分类。
2.5 中文分词处理技术
中文信息处理的一大障碍是词与词之间没有物理的分隔符。
因此在进行词频统计等处理前先要进行词条切分处理。
中文文本的分词方法有很多种,一般采用较为简单的基于词典的正向匹配遍历分词方法。
词典的选取通常根据挖掘目标建立专业的分词词典,以提高系统的运行效率。
3Web数据挖掘的方法
3.1 Web数据的半结构化
3.1.1异构数据库环境
从数据库研究的角度出发,Web网站上的信息也可以看作一个更大、更复杂的数据库,每个站点之间的信息和组织都不一样。
如果想要利用这些数据进行数据挖掘,首先必须要研究站点之间异构数据的集成问题,只有将这些站点的数据都集成起来,提供给用户一个统一的视图,才有可能从巨大的数据资源中获取信息。
其次还要解决Web上的数据查询问题,因为如果不能有效地得到所需的信息,则对这些数据进行分析、集成、处理就无从谈起。
3.1.2半结构化的数据结构
Web上的数据与传统的数据库中的数据不同,Web上的每一站点的数据都各自独立设计,数据没有特定的模型描述,并且数据本身具有自述性和动态可变性。
因而,Web上的数据这也被称之为半结构化数据。
3.2 用XML技术进行Web数据挖掘
针对Web上的数据半结构化的特点,XML可看作一种半结构化的数据模型,可以很容易地将XML的文档描述与关系数据库中的属性一一对应起来,实施精确的查询与模型抽取。
XML是一种中介标示语言,可提供描述结构化资料的格式。
XML解决了两
个Web问题,即Internet发展速度快而接入速度慢的问题,以及可利用的信息多,但难以找到自己需要的信息的问题。
运用XML的扩展功能不仅能从Web服务器下载大量的信息,还能大大减少网络业务量。
3.3 具体实现
其实现过程可以由以下四个步骤来实现:第一步得到XHTML格式的源信息,即确定了信息源,将数据从HTML转换成XML,目前在高级语言中例如JA V A、VC等都有专门的函数或类来实现;第二步查找数据的引用点,完成这一任务的最简单的办法通常是,检查Web页面,然后使用XML。
只需要看一下页面,记下观察到的内容,考虑页面所生成的XHTML,并将把记录的信息作为引用点;第三步将数据映射成XML,找到了这个引用点,就可以创建实际抽取数据的代码;第四步合并与处理结果,需要反复执行抽取过程,把结果合并到单个XML数据文件中。
可以再次使用XSL执行,也可以创建类的方法把在当前抽取中获得的数据合并到包含以前抽取数据的文档中。
4总结
基于WWW技术的应用正以惊人的速度向社会生活的方方面面渗透,人类交互信息不可避免地电子化和海量化,从这些大量数据中发现有用的重要的知识是数据挖掘与知识发现的是一个重要研究和应用领域。
本文讨论了Web数据挖掘的一些基本知识、方法、技术。
Web挖掘是一项综合技术涉及多个领域,目前随着XML技术的成熟,研究利用XML技术进行Web的数据挖掘必将越来越深入。
【参考文献】
[1]王志明,沙莎.Web数据挖掘技术及其应用.软件导刊,2006,10.[2]李健.Web的数据挖掘.电脑知识与技术,2006.
[3]原娇杰,赵杰文.基于Web 的数据挖掘.软件导刊,2006,10.
[4]于升峰.Web 使用挖掘的模式发现.情报学报,2006-10-25.
[5]崔建群,何炎祥.基于XML的Web数据挖掘关键技术的研究.计算机工程,2006-10-32.。