Web日志挖掘的数据预处理研究
- 格式:pdf
- 大小:267.47 KB
- 文档页数:4
改进的Web日志挖掘数据预处理方法研究摘要Web日志挖掘中的数据预处理按处理流程,分为数据收集、数据清洗、用户识别、会话识别、路径补充、事务识别6步。
本文对会话的特点对预处理算法进行改进,直接由会话得到事务,不需要经过路径补充,从而简化处理过程,增强后期挖掘的正确性。
关键词Web日志挖掘;预处理;事务Web日志挖掘属于数据挖掘的一种,它是对用户访问Web时在服务器端留下的访问记录(即Web日志)进行分析处理,从中得到用户感兴趣的信息或模式。
并以此作为依据来改善网站结构,更好的满足不同用户的需求。
数据挖掘对数据的格式是要求严格的,而Web日志往往达不到该标准,直接处理会产生错误或无意义的工作,因此在挖掘前必须进行预处理,必须将Web日志转化为传统的数据挖掘方法能够处理的数据。
1 传统的方法Web日志挖掘的对象是Web日志,挖掘的主要目的是进行用户聚类,聚类的依据是页面访问序列,因此只考虑用户请求的页面,在请求方法当中只选取GET方法的。
日志中请求错误的、无用的信息记录在进行挖掘时都应该删除。
对数据整合,规范化,形成事务数据库,为挖掘做准备。
按处理的先后顺序,分6步来完成,它们分别是:数据收集、数据清洗、用户识别、会话识别、路径补充、事务识别。
2 改进的方法通过分析上述方法,同时结合实际情况:用户访问网站中的页面可以从网站根目录进来,也可能从历史纪录直接进入到某个页面,不难发现,能够反映用户真实兴趣的会话序列往往需要将路径补充完整,然后进行分割才能得到,过程较为复杂,而且补充路径的过程也比较费时。
若是简化过程,直接由会话序列得到事务则将大大提高算法的效率。
2.1 设计思想通过分析网站的结构,不难发现它是一棵有向树,为了处理方便可以看成一棵普通的树,而树中的一个结点就相当于一个页面。
当浏览到网站时就相当于从树根出发去遍历树中的结点,当到达分枝的叶子结点时,就认为已经浏览到了边界,这时要再访问别的页面就需要回退,即可认定新的会话开始了;或者当出现页面序列不连续,也可作同样的处理。
Web日志挖掘中的数据预处理技术研究杨玉梅【摘要】Preprocessing is the key of Web log mining, the result of preprocessing has a great influence on rules and pattern produced by mining algorithm, which is key ensuring the quality of Web mining. This paper presents DUI technology, enhance the preprocessing technology. It is proved by experiments, advanced data preprocessing technology may enhance the result quality of data preprocessing .%预处理是Web日志挖掘的重点,预处理的结果对挖掘算法产生的规则与模式有很大的影响,是保证 Web 日志挖掘质量的关键。
本文提出了DUI技术,增强了预处理技术。
并通过实验证明,先进的数据预处理技术可以提高数据预处理的结果质量。
【期刊名称】《科技视界》【年(卷),期】2014(000)012【总页数】3页(P24-25,20)【关键词】Web日志挖掘;数据预处理;用户识别【作者】杨玉梅【作者单位】川北医学院图书馆,四川南充 637000【正文语种】中文0 介绍Web挖掘是数据挖掘在Web上的应用,它利用数据挖掘技术从与WWW相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息,涉及Web技术、数据挖掘、计算机语言学、信息学等多个领域,是一项综合技术。
Web使用挖掘能提供网站设计的支持,提供个性化服务和其他的商业决策等。
根据挖掘对象不同,大致有三个知识发现领域涉及到Web挖掘:Web内容挖掘、Web结构挖掘和Web使用挖掘,如图1所示。
Web日志数据挖掘的数据预处理方法研究张娥,郑斐峰,冯耕中(西安交通大学管理学院,陕西西安710048)摘要:主要介绍了Web用户访问日志数据挖掘数据预处理过程,综述了国际上的研究现状,流行的预处理方法。
在对用户访问行为的合理假定基础上,最后提出了基于综合最大前向参引模型和时间窗口模型的新方法。
关键词:Web用户访问日志数据挖掘;数据预处理方法中图法分类号:TP274+.2文献标识码:A文章编号:1001-3695(2004)02-0058-03Study on Web Usage Data Mining Preparation MethodsZHANG E,ZHENG Fei-feng,FENG Geng-zhong(School of Management,Xi’an Jiaotong Uniuersity,Xi’an Shanxi710048,China)Abstract:This paper introduces Web usage data mining preparation process.Summarize studies aIready did in this area.Based on the reasonaI hypothesis,it brought out a new method to set server session which based on time window moduIe and maximaI forward reference moduIe.Key words:Web Usage Data Mining;Data Preparation Method1Web日志数据挖掘数据预处理介绍由于互联网传输协议HTTP的无状态性、客户端和代理服务器端缓存的存在,用户访问日志分别存在于服务器、代理服务器和客户端。
同时,这分布在不同地方的访问日志数据集也分别记载了用户使用网络资源的不同模式,比如,客户端浏览器日志记录了单个用户访问多个网站的模式;Web服务器的日志则记录了多个用户访问一个网站的模式;代理服务器日志跟踪记录了多个用户访问多个网站的情况。