Web日志挖掘最新
- 格式:ppt
- 大小:255.50 KB
- 文档页数:19
web数据挖掘的处理流程对web数据的处理可以分为数据获取、数据预处理、数据的转换集成、知识发现和模式分析几个过程,如图6-2所示。
(1) web数据的获取Web数据的来源包括:log日志,记录了用户的访问页面、时间、IP地址等主要信息;web内容,用户所浏览的文字、图片等;用户注册信息,web站点采集的用户输入的自身信息;web结构数据,指web本身在频道、链接上的布局。
Web数据的获取方法有:a) 服务器端信息。
web服务器端产生3种类型的日志文件:Server logs,Error logs,Cookie logs,这些日志记录了用户访问的基本情况,是Web使用挖掘中最重要的数据来源。
服务器日志(Server logs)记录了多个用户对单个站点的用户访问行为。
错误日志(Error log)记录存取请求失败的数据。
Cookie logs用于识别用户和用户会话。
b) 客户端的数据收集。
用户客户端log记录了该用户对各个网站的访问情况,比服务器端Log数据更能准确地反映用户的访问行为,但由于隐私保护,需要用户同意才能获得。
c) 代理服务器端的数据收集。
代理端log数据记载了通过该代理进入Internet 的所有用户对各个网站的访问行为。
但是由于Cache的大量存在,使得代理服务器中的log数据不能准确地确定用户和时间,采集信息也不全面[50]。
(2) web数据的预处理Web数据的预处理包含数据清洗、用户识别、会话识别和事务识别等过程。
a) web数据的清洗数据的清洗,是指删除Web日志中与挖掘任务无关的数据。
将有用的web 日志记录转换为适当的数据格式,同时对用户请求页面时发生错误的记录进行适当处理。
在web日志中,包含许多对挖掘任务毫无意义的数据。
数据清洗的目标是消除冗余数据,方便于数据分析。
常见的数据清洗方法包括:删除日志文件中后缀为gif, jpg, jpeg的自动下载项;删除访问返回错误记录等。
M oder n sci ence6今日科苑科苑论坛K E Y U A N LU N TA N摘要:互联网发展到今天已经成为了人们生活中不可缺少的一部分了,而互联网从某种意义上讲也可以看作是一个庞大的数据库,并且涉及到各个领域。
那么在这个庞大的数据库中,数据挖掘技术有什么用武之地呢?本文通过对互联网上数据挖掘的简单论述,说明现在互联网上数据挖掘的一些趋势和相关技术,并且着重分析一下其中一种互联网上数据挖掘的应用方向相关的技术——W eb 使用记录的挖掘。
关键词:w eb 数据挖掘;W eb 日志;数据预处理一、引言目前,互联网已经和我们的生活密不可分,它可以说是一个巨大的、分布广泛和全球性的信息服务中心。
它涉及新闻、广告、消息信息、金融信息、教育、政府、电子商务和许多其他信息服务。
根据有关机构统计,目前互联网的数据以几百兆字节来计算,而且增长速度很快,如果将这个庞大的数据库用一般的统计分析来处理的话,显然是有心无力的。
自从数据挖掘技术成功地应用于传统数据库领域之后,人们对于数据挖掘在像互联网数据这样的一些特殊数据源的应用也寄予了厚望,并且做了许多相应的研究和发展了相应的技术。
将数据挖掘技术应用到互联网数据上,理论上可行,但是由于互联网自身的特点,也使它面临一些需要克服的技术难点。
可以说,在互联网上应用数据挖掘技术的前途是光明的,但道路也是曲折的。
目前互联网上的数据挖掘技术主要根据挖掘的方向一般分为三类:W eb 内容挖掘,W eb 结构挖掘和W eb 使用记录的挖掘。
而结构本来就蕴藏在内容中,是内容的骨,因此有些分类方法又分为W eb 内容挖掘和W eb 使用记录挖掘。
这里按照后一种分类方法来看一下目前的相关技术和应用。
二、技术(一)W eb 日志目前市面上比较流行的W eb 服务器,例如I I S 通常都保存了对W eb 页面的每一次访问的日志项。
它忠实地记录了访问该W eb 服务器的数据流的信息。
Web日志挖掘技术在电子商务网站中的应用
董立凯;曲守宁
【期刊名称】《济南大学学报(自然科学版)》
【年(卷),期】2008(022)003
【摘要】在电子商务网站中,根据客户的访问日志挖掘出有价值的信息,划分客户群体和发现潜在的客户,使网站可以提供个性化信息服务.Web日志挖掘是数据挖掘在Web页面上的应用,给出Web日志挖掘的步骤和方法,对Web日志挖掘工具进行分析,并应用到电子商务网站中,取得较好的效果.
【总页数】4页(P251-254)
【作者】董立凯;曲守宁
【作者单位】济南大学,信息科学与工程学院,山东,济南,250022;济南大学,信息科学与工程学院,山东,济南,250022
【正文语种】中文
【中图分类】TP311.13
【相关文献】
1.Web日志挖掘在中小型电子商务网站中的应用探析 [J], 顾黎萍;胡芳
2.Web日志挖掘技术在电子商务网站中的应用 [J], 董立凯;曲守宁
3.Web日志挖掘技术在校园网信息处理中的应用研究 [J], 张琳
4.Web日志挖掘技术在电子商务网站优化中的应用 [J], 裴大容
5.基于web日志的数据挖掘技术在电子商务网站中的应用 [J], 李孟
因版权原因,仅展示原文概要,查看原文内容请购买。