NT . 5 0:I tr e p o e 6. n en tEx l r r 0”
的图片、 声音 和脚本代码一起被下载到了客户端。
当挖掘 的 目的是 用户 访 问模 式时 , 片和声 音文 件 图 显然 用 处 不 大 。可 以 把 后 缀 为 JE MP , I , P G, 3 GF WMV等 的记 录删除 。但是 , 当挖掘的 目的是 为 了进 行 网络 流量分析 时 , 些信息又会 显得非 常 的重要 , 这
典 型 的 日志 记 录形 式如 下 :
次客户 连接请求 完所 要 的 网页后 , 服务 器会 自动与 客户断开 连接 , 同时被 申请 的网页文 件 连 同文件 上
22 129 .6 一 [2:35 8620 ] 一 0 .9 .46 1 2 :52/ /06
“G T d y lg h l . t l / .1” 一 1 0 — E / r / o / e p h ml Hr TP 1 0 1 0 1 一 “ t / w w. e p e u c ” 一 “ i d ws 12 ht / w h l . d . n p: W no
理, 包括删除无关紧要的数据 , 合并某些记录 , 对用 户请求 页 面时发 生 错 误 的记 录进 行 适 当 的处 理 等 等。只有当服务器 日志 中的数据能够准确地反映 用户 访 问 We 点 的情 况 时 , 过 挖掘 得 到 的关 b站 经
联规 则才 是真 正有 用 的。 由于 H r 议 是一 个 面 向非 连接 的协议 , T P协 每
表 1 E L 日志格 式 CF
雷 H H H H簦H
图 1 We b日志挖 掘 的预 处 理过 程
2 1 数据 清理 .
数 据 预处理 的第 一 步 是 数据 清 理 , , 据清 ’数 ] 理是 指 根 据 实 际 需 求 , WE 日志 文 件 进 行 处 对 B