当前位置:文档之家› 分析网站用户行为方法

分析网站用户行为方法

分析网站用户行为方法
分析网站用户行为方法

网站用户行为数据收集和分析方法

为改善网站的可用性, 一般采用可用性工程方法, 其核心是以用户为中心的设计方法论(UCD)。综合介绍了目前国内外对于用户行为数据收集和分析方法所进行的研究, 各种方法的特点, 并介绍一些利用相应方法所开发出的工具实例, 使得建设的网站更加符合用户的需要, 以保障用户与网站之间沟通的顺畅。

随着In ternet 的不断发展, 各种各样的网站如雨后春笋般成倍增长, 各个商业网站之间的竞争越来越激烈, 随之而来的是, 网站的建设不可避免的出现了很多问题。从最近一次国外对15 个大型网站进行统计分析表明, 用户在寻找自己所需要的信息时, 只有42% 的概率可以找到, 而在大部分的时间里用户都无法找到自己所需要的信息, 这使得用户在浏览网站时经常遭遇挫折, 严重影响了用户对网站的兴趣和信任。正如 J acob N ielsen 所指出的“如果你想通过网站找到某些信息, 那么在一般情况下很难找到, 就算能够找到, 也要经过一番周折。从以往的经验可以得知, 除非项目管理团队在整个网站设计过程中就特别考虑网站的可用性, 否则结果往往令人失望”。针对网站的特点, 目前国内外提出了很多依靠计算机辅助来自动收集和分析用户行为数据的方法, 本文以下部分将重点介绍基于服务器日志收集和分析用户行为数据的方法和从客户端收集和分析用户行为数据的方法, 并对根据不同的方法所开发出的一些工具进行了介绍。

1 基于服务器日志收集和分析用户行为数据的方法

目前, 对于网站来说, 自动获得用户行为数据最流行的方法之一是基于服务器日志的方法(Server log) ,就是通过从w eb 服务器所产生的日志文件来获取有用的数据。服务器日志文件就是用来记录w eb 服务器的活动, 提供了详细的客户和服务器的交互活动日志, 其中包括客户的请求和服务器的响应。通过日志文件收集到的数据形式依赖于具体的w eb 服务器类型, 不同的w eb 服务器产生的信息是不一样的。

1. 1 基于服务器日志方法的优点通过日志文件可以获得很有价值的网站使用情况的数据。①日志文件是由w eb 服务器自动生成, 所以花费比较小。②与人为建造的可用性实验室环境相比, 通过日志文件获得的数据更能够反映真实环境下用户的真实情况。③与只对几个用户在几小时内进行的测试所获得的数据相比, 通过日志文件获得的是大量的用户在相当长一段时间内的行为数据, 这对分析用户的行为是十分有利的, 可以利用数据挖掘等技术对用户进行分析。④开发基于日志文件的数据分析工具相对比较容易, 花费也不是太大。

1. 2 基于服务器日志方法的缺点基于日志的方法对于网站的可用性研究来说还存在着很多不足之处, 由于日志文件就是被设计用来产生站点级的性能统计数据, 因此不可避免的是, 日志文件所提供的数据与用来分析网站可用性所需的大量数据相比会有所不足, 对于研究潜在的可用性问题只能提供少量的数据甚至还可能提供一些误导性的数据。这是因为一旦w eb 服务器把用户请求的页面发送出去之后, 如果用户不发出请求, 则页面和用户之

间发生了什么w eb 服务器并不记录。下面是一些从日志文件中获取的数据不足或有误导性数据的例子。

①谁正在访问网站。如果想知道谁正在访问网站, 要求日志文件必须包含一个个人ID 或者登录到服务器的登录标示, 但是目前的网站一般不需要用户登录, 大多情况下由日志

文件提供的客户端信息是客户的IP 地址, 而这些IP 地址很多情况下是由In ternet 提供商提供的动态IP。并且有时用通过代理服务器来访问In ternet (例如, 学校的校园网) , 这样就不能正确得知是哪个用户在访问网站。

②用户访问网站的路径。如果日志文件能够记下用户所浏览的每个页面, 那么自然可以清楚的记录用户的访问路径, 然而, 当把用户的浏览器设置为可使用缓存(cache) 时(通常是缺省设置) , 用户所浏览的一些页面就不能被w eb 服务器所记录, 例如, 使用Back 按钮浏览的页面就不能被记录。而且, 如果同一页面中提供了多个选择可链接到同一个页面的话, 用户到底是使用哪一个链接过去, 这一信息从log 文件中也难以获得, 但是这一信息对改善网站的可用性也是很重要的。如果是通过图片链接,w eb 服务器可能会记下用户单击的坐标位置, 从而可以获得用户的确切信息, 如果没有使用这种技术的话, 就很难捕获这

一信息。而且, 当用户通过键入U RL 地址, 或通过书签来访问页面时,w eb 服务器也不能记录这一信息。

③用户在每页的停留时间。日志文件记录的是数据开始传输的时间, 而不是传输完成的时间。而且也不清楚, 在页面下载的过程中, 用户到底在什么时间开始浏览页面。除非在页面显示的时候, 用户因有事离开了, 不然可以通过比较用户的当前请求和下一次请求之

间的时间来粗略计算用户在此页面停留的大概时间 (通过后一次的请求时间减去第一次的

请求时间得到, 但对于从cache 中获取的页面来说就出现很大偏差)。

④用户离开站点的位置。日志文件记录了在用户会话期间所发送的最后一页, 但是这可能并不是用户所看到的最后一页。其中有两个原因: 第一, 用户所看到的最后一页可能是从cache 中得到。第二, 用户可能已经有事离开了很长时间, 而这段时间已经超过了 w eb 服务器所定义的用户会话时间。

⑤用户是否成功完成自己想要做的事情。这是最根本的可用性问题, 只是通过单独的日志文件统计是很难回答的, 如果是“用户是否完成了交易? 用户是否成功地下载了文件?”之类的问题, 答案还是很容易推断。然而, 如果要回答“用户是否找到了所需要的信息?”类似这样的问题, 仅通过日志文件就很难回答了。

1. 3 基于服务器日志文件方法获取数据的辅助工具 Click T races A nalyzer 是分析网站用户行为的一套工具, 为进一步了解用户的浏览行为提供了强大的功能, 它把大量

的复杂数据用非常简单的方法表达出来, 使可用性人员在分析用户行为时一目了然。

2 客户端收集和分析用户行为数据的方法

由于通过日志文件获得的信息会出现失真的情况, 而且有很多重要的数据只通过日志

文件很难获得, 这些信息对研究网站的可用性问题却很重要, 因此为了进一步获得更多的

有价值的可用性数据, 发现更多的网站可用性问题, 逐渐产生了很多技术用于从客户端(page- side) 直接获得用户与网站的交互情况。由于是直接从客户端获得数据, 所以, 能够获得大量的难以从服务器端获得的用户行为数据, 这对进一步分析用户浏览网站行为,

改善潜在的网站可用性问题提供了更大的帮助。

2. 1 客户端收集用户行为数据的优点

①由于用户是在真实的环境下所进行的操作(如在家里或办公室) , 减少了人为地干扰因素, 因此获得的数据更加真实。

②与基于日志文件的方法相比, 从客户端收集到的数据更加精确, 能够克服如上描述的很多问题。

●不受动态分配IP 地址或代理服务器的影响: 通过使用客户端跟踪技术(如由w eb 服务器对每个访问站点的客户机自动分配ID 并将其记录在客户端的 Cook ies 中, 每次用户浏览网站,w eb 服务器可通过访问客户端的Cook ies 就知道此客户机是否访问过本网站)。

●正确的用户浏览路径: 由于是在客户端记录用户行为, 因此客户端代码可自动跟踪

用户的浏览路径, 不管是否通过本机缓存或通过代理服务器。例如, 用户的实际浏览路径是从A ` B, 点击Back 钮, ` A ` C, 但是从log 文件中得到的路径是A ` B` C。页面浏览时间: 举例如图1 (页面是由cgi 脚本产生的动态文件)。这是使用Click st ream 收集工具与基于服务器的日志文件产生的数据比较, 日志文件丢失了很多重要数据。

分析网站用户行为5方法

站在网站运营角度,不同的网站提供的内容和服务不同,用户行为分析的侧重点也不尽相同。但是,几乎所有的网站用户分析都是基于用户属性和用户具体行为来展开各种关联或逻辑推理分析。以下是网站用户分析的5大常规方法:

一、用户轨迹分析法

所谓轨迹分析法,就是对用户从网站某页面…着陆?后的一系列行为轨迹,这个行为轨迹基本上反应了网站用户的核心需求。如果能把握用户的行为数据,就可以了解用户的喜好,以及页面设计对用户关注度的影响,从而为网站调整提供第一手的资料。

二、用户基本动作分析法

类似广播体操的分解动作一样,网站用户行为也是可以分解的。通过分解用户行为动作,可以提炼出分析单元,从而为进一步的数据分析做好基础性工作。例如,首先对用户按照点击、上传、下载、播放、注册、购买、留言、投票等行为进行分解,然后归类,分为浏览类,互动类等,对基本动作进行数量统计分析,得出每个类型行为的数据总量,并得出用户行为的相关总体数据。

三、关联分析法

关联分析是把一种用户行为习惯和其他行为习惯进行联系分析,包括用户上网习惯和用户网站行为的关联,用户的基本属性和社会属性与用户网站行为的关联。例如,一个电子商务购物网站,可分析用户的收入水平跟购物频率,购买金额的关联度;主体人群与性别的关联度;购买人群与当地地区经济发展程度的相关度等等。这些数据对网站的营销推广具有重要意义。

四、目标向量分析法

针对网站日志中的流量来源、跳出率、平均页面停留时间、平均访问页数等等网站目标的向量值,站长能够对网站用户黏度和忠诚度进行具体的分析。

五、TOP分析法

通过研究最活跃用户的特征,例如其基本属性、上网习惯、网站用户行为等,得出网站活跃用户群体特征,从而为网站推广提供重要数据。抓住了该类用户的需求和心理,网站才能真正具有活力。

通过对用户行为的分析推断用户的喜好和目的,提供符合用户喜好和要求的信息,用户

研究用户行为,原因在于:

1.设计的优劣最终还是需要从用户行为数据中得到反馈。

2.当产品用户达到一定数量级时,可以从用户行为中挖掘需求。

3.设计很多经验来源于用户行为规律,前沿的设计必然要研究用户。

4.“小步快跑”的敏捷开发依赖行为分析,最具说服力。而传统基于人种志和调查问卷等定性定量方法并不一定能和产品设计紧密结合。

先以最常用搜索引擎为例,个人杜撰出一段日志来揣测网页是如何做行为分析:

18:23:21 直连搜索引擎首页

18:23:25 输入关键词”拥护日志”,按键盘回车键

18:23:29 点击智能纠错“用户日志”

18:23:34 用户点击第二条结果链接

18:23:37 用户点击第一条结果链接

18:23:59 用户输入关键词“用户日志分析”,按键盘回车键

18:24:03 用户点击第一条结果链接

从这个过程中可以得出以下结论:

1.用户从开始搜索到找到想要的网页,总计用时42秒,而找到网页的时间可以作为衡量搜索引擎设计的重要指标,目标是缩短用户找到网页的时间。

2.利用拼音和词语关联性的智能纠错对改进用户搜索发挥了作用。

3.搜索“用户日志”第二条结果内容与用户预期相差较大,3秒变跳出网页,没有形成正常的浏览行为,如果多数用户操作如此,说明第二条结果网页内容较差,应该对其重新排序。第一条结果用户花费了22秒浏览,但内容并不是用户最终想要的。

4.用户修改了关键词重新搜索,第一条结果满足了用户需求。

分析比较简单,但可以从中看到如何利用日志分析,从用户总用时、智能纠错和结果页的点击发现问题。当以时间作为衡量指标时,界面中的各种元素都以此标准为设计依据。比

如:

1.什么样的按钮最利于用户点击,需要考量到按钮的大小、位置和形状,按钮的颜色、质感和阴影等视觉元素可能偏向主观因素,但同样对用户操作有影响。

2.通过统计得知用户使用回车键和点击按钮搜索的比例。

3.搜索框有下拉选项的搜索建议。搜索建议可以减少用户输入,有效并且精准的关键词可以减少用户反复搜索。

4.服务器搜索时间的时间、网页加载速度、查全率和排序虽然属于技术衡量指标,但设计师需要知道。

5.搜索关键词的即时搜索省去从首页跳转结果页的时间。

6.从用户输入关键词的统计中可以分析出用户组织关键词的习惯,比如词组,加上限定词和句式等,并对其分类得到总的比例。控制用户反复搜索的次数,比如输入“用户日志”没有找到想要内容,如验证属于普遍问题的话,说明搜索结果页有问题。

7.通过A/B和多变量测试得知什么样的结果和广告展示形式最佳,比如链接的颜色、长度、字体和字号等。

当找到产品的核心标指标时,设计会变得容易的多,直接可以从用户日志中反馈出设计是否发挥了作用。这种思路同样适用一些移动应用,当列举出所有影响因素并确定因素的权重时,会有种产品架构的感觉。创新也不是凭空设想,每一项设计都是为了改进核心指标。

用户网站访问行为分析

随着互联网的发展,网站推广、网站营销成为一种任何一个想利用互联网成就一番事业的企业都不能忽视的手段,毕竟与采用传统方式营销推广所需要的花费相比,网络无疑具有先天优势。但同时问题也随之而来,如何得到网站推广网站营销的效果评估?如何制定下一步的策略?

为了解决这些问题,网站流量统计产品应运而生,国外多家调查研究机构的研究也都证实了网站流量统计分析对于网络营销效果的价值,但在网站营销管理实践应用中,大部分的企业只是通过网站流量统计产品关心一下在线人数,至多也就是大致了解一下访问者的来源,如通过搜索引擎带来了多少用户,以及用户主要利用哪些关键词进行检索而来到网站等等。以此来作为seo优化的依据,当然这也为网站未来策略的制定提供了一定的依据,但是,这些依据毕竟十分有限而且凌乱。最终,都只能演变成只是日复一日的对大量数据的查看。

那么,这样看来,单纯的数据呈现对于网站营销管理的参考意义也就屈指可数了。我们不禁要问,现有的网站流量统计产品是否还缺少了一点分析的角度?

我们来看,一个用户要访问一个网站,他都会使用到哪些事物、留下哪些踪迹呢?鼠标,键盘,浏览器这三样无疑是必不可少的,登录网站之后,他的整个访问轨迹,停留时间等等。那么,这些事物和踪迹又能告诉我们什么呢?

第一,用户的鼠标点击某种程度上可以告诉我们用户在某个网页上的视觉轨迹。因为根据人的一般行为规律,用户会先点击他最先注意到的网页元素,无论这个元素是个按钮还是其它。因此,对用户鼠标点击的总结和分析将能够告诉我们用户在一个网页上的视觉大致浏览轨迹,由此可以得出一个网页设计是否合理,是否能够使得用户真正注意并且能够点击到企业需要让他点击的位置。最终影响到整个网站的信息架构甚而网站结构。

第二,浏览器,对于浏览器和用户操作系统信息的获取已经不是什么新鲜的功能,它们能够告诉我们的无非是用户使用机器的一些基本信息,此处不再多做叙述。

第三,访问轨迹,停留时间。对于这两项就大有文章可做了,从大的层面而言,它可以告诉我们用户在整个访问网站的过程中都做了哪些事情,既用户的客观行为,从小的层面而

言,它可以告诉我们一些我们不通过分析访问轨迹无法得知的网站在用户操作流程上可能存在的问题,加上停留时间的参数进行分析的话,甚至可以告诉我们访问网站的用户的类型。以下分别举例说明这两种情况。

例一,我们通过网站访问轨迹的分析,发现一个用户在购买某件商品的付款流程中,总是在结算过程中跳出,那么,此时就可能存在两个可能:第一,结算页面存在误操作。第二:用户还想继续购买其它物品。此时我们结合对结算页面的鼠标点击分析,发现用户是点击了错误的链接导致总是意外跳出。此时,就可以断言,这个结算页面的设计存在问题,需要改进。

例二:有两名用户,其中一个登录新浪之后首先点击“科技”频道,随后点击了“互联网”,另外一个先点击了“科技”频道,随后点击了“数码”但在数码仅停留了很短的一个时间立即点到了“互联网”,那么,某种程度上这两名用户的操作习惯存在一致性,而且根据他们所感兴趣的内容可以一定几率上判定他们是it行业从业人员。通过对无数次同样的归类,我们就可以通过对这些数据的分析,得到我们网站用户的大致类型,所谓知己知彼才能百战百胜,知道我们面对的是什么样的用户,策略的制定才能有的放矢。

综上所述,我们不难看出网站访问行为分析的几个基本维度和它所能带来的好处。目前的网站流量统计分析产品普遍缺乏这样的维度,导致只是数据堆砌洏无法对这些用户行为获得有效的获知。而只有了解了用户的行为,企业才能有的放矢,做出相应的策略。

那么,如何使用一些工具或者对数据的采集分析来达到对用户行为的初步分析呢?笔者注意到近日国内统计厂商中异军突起的一个新的服务提供商——统计啦 https://www.doczj.com/doc/7914199731.html, ,他们已经做到了对用户鼠标落点的统计,以及对网站单页面用户覆盖的相关分析,但是笔者提到的对用户的归类他们好像还没有涉及,不过据说他们仍在不断改版,笔者也就拭目以待了。各位看官如果有所兴趣也可以观看一二。

网站用户行为的分析

主要有如下几个阶段:

一、当刚接触到网站分析的前一两年,那是新奇与兴奋。当我开始使用HBX,Coremetrics,看到Omniture SiteCatalyst,看到免费的Google Analytics等等非常好的工具,以及那么多可以拿到的指标。觉得网站分析很神奇,我可以了解用户的所有行为。这个阶段,我做了很多很多的报告,给公司各个level上至CEO下至Marketer提供各种各样的数据,诸如网站的整体流量,页面的表现,流量的来源,各渠道流量的质量,站内搜索行为,站外引擎的情况,等等。我相信很多网站分析人员目前所处的阶段跟我当时是一样的,就是reporter的角色远远大于analyst。但是这个过程是很有必要的,因为只有经过这样的过程,你才能对分析系统有深入的了解,知道各个指标的详细定义,并且知道什么情况下大概需要什么样的指标来衡量。

二、接触网站一段时间之后,就发现其实不知道的还有很多,变得越来越谨慎与小心。这个时候,我会用更高级一些的分析功能,诸如segment,path,scenario等。大概情况是这样,当你需要对很多人提供越来越多的数据的时候,你就会发现数据源会越来越多,不仅仅是你这儿的数据源,还有其他人能接触到的数据源,但是这些数据源很多情况下数据是不一致的,会有很多人来challenge你。于是就需要进一步研究数据追踪的原理,为什么不一致,这些不一致究竟代表什么。这段时间给我的帮助很多,帮助我了解了很多数据产生的原理,以及很多指标真实的定义,比如对于市场投放attribution window的了解,过程就很复杂。

三、大概三四年之后,做得更多的就是要分析为什么数据会这样变化。这是一个比较综合的分析过程,你需要了解各渠首的流量数据,以及网站上用户的所有行为。并且,你要知

道外部市场的情况有什么变化。所有这些都会影响很多指标,诸如流量、转化率等重要的指标。在这个过程中,会发现网站分析有的时候很无力,因为在有些情况下,并不能找出数据变化的原因,既使你能找出,由于原因太多,通常会耗费你大量的精力与脑力去做这件事情。因为有一点情时刻需要提醒自己,就是错误的分析导致的结果很严重,所以很多时候,分析过程只占不到三分之一的工作,更多的工作在于验证分析结果是否准确,是否能从很多方面验证下来结论都合理。

四、最近,我将主要的精力都转移到网站用户行为的分析上来。网站用户行为的分析,可以说是网站分析最困难的部分。不同于市场投放,因为marketing这边,总体来说,还是有迹可寻。而对于用户行为研究,情况则全然不同,很多时候你看到某些用户的行为,你没有办法判断是因为网站设计还是用户需求导致这种行为。当对网站做出一些变动的时候,你希望能分析这种变动是好是坏,于是你去看所有用户的路径,所有用户的点击行为,所有用户的转化。

于是情况就复杂起来,首先,我们需要判断哪些数据变化是有利的,比如某些网站功能,改进后的结果恰恰是数据变糟了,但对于用户来说是方便的。举个例子,在购物流程中,比较通行的做法是尽量减少出口,让用户不至于流失,然而,有很多功能是在购物流程中让用户用起来会比较方便的,在这个时候,我们不能仅仅是为了数据而过于减少结账流程中的出口。其次,在分析用户行为的时候,由于市场投放行为的变化,用户群本身就是变化的,所以往往很多好的改进在数据上看起来,效果并不理想。当然,也有一些方法来解决这些问题,诸如A/B Testing,诸如问卷调研,但很多情况下,网站功能是从无到有的过程,在这时,A/B Testing就很难适用。第三,由于做了很久的网站分析,因此逻辑上趋向于一切以数据为说话,而很多时候,你需要站在系统的角度来考虑。举个例子来说明,在考察用户行为的时候,我们可以看到非常多的网站行为路径,而我们在改进其中一个页面的时候,用户的用户路径也会变化。此时,就不能简单的只看这个改进的页面是否效率提升,是否有所改进。而应该分析整个网站的用户行为路径发生了何种变化,这种变化是否与我们最终的业务目标一致。

如前文所说,其实网站分析最终的瓶颈在于如何与业务相结合,世界上没有一套放之四海而兼准的分析步骤。因此你在组织中的位置,所能接触到的信息,对业务的了解情况,也一定程度上决定了网站分析是否能真正与业务相契合。

最后,我想说的是我们是analyst,不是reporter,我们需要提供的是帮助决策的insights,不是data。

监控网站的用户点击行为

——基于Google Analytics的应用

用户在网站的行为其实无非就是输入和点击,而点击又是最常见的行为,其实用户行为分析一大部分就是在分析用户各种各样的点击行为。我们可以通过各种途径来监控用户点击行为,同时各类网站分析工具都相继提供了丰富的事件监控功能,来满足不断发展变化的网站交互。刚好我的博客需要监控某些用户点击行为,并且要将这些点击行为设置成网站目标,所以这里跟大家分享一下我的实现步骤。

用户点击对你的网站重要吗?

首先需要明确的是我们是否有必要去监控用户的点击行为,或者说用户点击对网站分析是否有价值?网站中有些按钮完全是交互或者浏览的需要,对于分析并不是那么重要,但显然有些按钮对于网站分析有着至关重要的作用,比如电子商务网站的“放入购物车”、“购买”、“支付”等按钮的点击;微博网站的“关注”、“发布微博”等按钮;视频网站的“播放”、“暂停”等按钮。通过统计和分析这些按钮的点击数据,我们可以对用户的这些对网站产生关键影响的行为了如指掌。

我们需要去统计这些重要的用户点击,但也不是所有的这些点击都需要进行额外的设置,当点击跳转到一个新的页面时就会有新的Pageview产生,这类点击我们就不需要另外进行监控。但某些点击,比如Ajax架构的点击交互,或者是Flash中的点击按钮,抑或是出站的按钮或链接点击,这类行为不会产生新的页面浏览行为,也就不会有Pageview的记录,那么如果刚好这些点击像上面说的对网站来说是重要的,我们就必须对其进行监控和统计。

以我的博客为例,对于我的博客而言,通过右方侧边栏最上方的5个按钮可以对博客进行订阅或关注,用户的这些行为对于我而言是十分有价值的,因为至少用户开始对我的博客内容感兴趣了,我需要知道每天有多少用户会尝试去点击这些按钮(无论点击的结果如何,因为最终的结果超出了监控的范围,无法追踪=_=” ),其实通过Google Analytics就能简单地统计到这些点击数据。

Google Analytics的点击监控统计

Google Analytics中监控点击一般通过事件追踪(Event Track)和虚拟页面(Virtual Page)两种方式。我原先使用的是事件追踪的方法,因为事件追踪是GA专门为这类用户行为量身定制的,可以设置类别(Category)、行为(Action)、标签(Label),甚至可以为每个事件定义它的价值(Value),所以对于各类时间的分类汇总非常方便,比如我在RSS订阅中加入onClick=”_gaq.push([…_trackEvent?,…Feed&Follow?,…Feed?,…RSS?]);”类别为Feed&Follow,行为为Feed,标签是RSS,另外设置邮件订阅的标签为为Email,关注的3个按钮的动作为Follow,再根据标签区分类别,这样就可以非常方便的看到汇总和细分的数据了.

但事件追踪有一个局限性就是无法设置为网站目标,熟悉Google Analytics的朋友都知道GA的目标只能是三种类型:页面浏览(URL Destination)、停留时间(Time on Site)、每次访问页面数(Pages/Visit)。所以如果我要将我的博客的订阅和关注的点击作为网站的目标,在GA中通过事件追踪的方式就没法实现了,就需要通过设置虚拟页面的方式,这里

但是设置虚拟页面后会出现另外一个问题,就是导致Pageviews的增加,因为虚拟页面也会被算到页面浏览量中去,所以还需要进行另外一步操作——添加过滤器,下面来看一下过滤器(Filter)的添加,及如何将点击行为设置为网站目标。

将点击设置为网站目标

首先来看一下通过上面的设置后在Google Analytics的报表上显示的结果:

虚拟页面统计

虚拟页面在数据展现其实与普通的页面浏览并没有区别,也是在Content模块中,可以在Top Content报表中查看,根据我上面的设置可以直接filter出包含“virtual”的页面统计:

同时,根据上面虚拟页面的URL结构,也可以使用Content Drilldown中按层次一次向下展开,可以同时查看各类汇总数据和细分数据,详细介绍参考前一篇文章——让URL更适合分析。这样依次展开的顺序为:virtual=》feed=》feed的各子项,virtual=》follow=》follow 的各子项,十分清晰。

设置网站目标

因为虚拟页面已经将点击转变成了页面浏览,因此可以将这些行为设置成网站目标了:

这里的目标类型(Goal Type)选择URL目标(URL Destination),我在这里使用了正则表达式进行匹配,将所有/virtual/feed或follow/开头的URL设置成目标,同时设置该目标的价值(Value)为10(对于博客而言,这类点击价值较高,同时博客还设置了其他的目

标,价值相对低一些),这样按确定就设置完成了,可以在报表上查看每天的目标转化率(Conversion Rate)和价值了。

添加过滤器

因为使用虚拟页面监控点击行为将点击当做了页面浏览统计,因此会导致网站的Pageviews虚高,我们需要将这些虚拟页面的浏览量从网站的Pageviews统计中过滤掉,所以需要用到Google Analytics的过滤器功能。首先要新建一个配置文件(Profile),这一步是必需的,因为一旦在配置文件中加入过滤器后不符合条件的数据就会直接被剔除,无法找回,所以我们必须保留一个最原始的配置文件以查看未过滤的虚拟页面的统计情况。我这里只要用到预定义过滤器(Predefined filter)中的排除子目录即可,详细的设置参见下图:

只要把所有以/virtual/开头的子目录的流量过滤,然后把新建的配置文件放到下方右侧“已选择的配置文件”的区域即可,非常简单方便,之后你就可以从你新建的配置文件中看到“干净”的网站Pageviews的统计了。不过需要注意的是,因为在这个配置文件中虚拟页面被过滤,所以上面设置的目标只能通过查看原配置文件的报表中才能看到。

最后总结一下,网站的点击行为统计对于某些网站的分析而言是十分重要的,基于Google Analytics的点击事件追踪可以通过事件追踪和虚拟页面两种方式,如果你单纯为了统计点击事件发生的情况(当然不一定是点击,同样适用于其它事件),那么时间追踪是非常不错的选择,如果你要将点击最为网站目标,那么就需要通过虚拟页面的方式了。我的博客也是刚换过来,大家也可以自己动手试试。

用户点击行为模型分析

数据挖掘实验报告基于用户网站点击行为预测

...数据挖掘实验报告. (1) 一.概要: (3) 二.背景和挖掘目标: (3) 三.难点分析: (4) 四.难点解答: (4) 五.数据采集: (5) 六.分析方法: (6) 七.数据探索: (8) 7.1数据无效: (8) 7.2数据缺失: (8) 八.数据预处理 (9) 8.1数据清洗 (9) 8.2数据丢弃 (10) 8.3数据转换 (10) 九.挖掘过程: (11) 9.1计算用户爱好 (11) 9.2基于协同过滤算法进行预测 (12) 十.结果分析: (13) 十一.实验总结 (14) 11.1数据的采集 (14) 11.2在试验过程中遇到的问题 (14) 11.3解决方案以及改进 (14) 11.4数据挖掘学习体会: (15)

一.概要: 这次的数据挖掘我们团队做的是基于用户网站点击行为预测,其中遇到的问题有数据量大,机器难以处理,含有时序关系,特征难以描述等,我们运用正负样本比例平衡的方法和时间衰减函数来解决这些问题,运用到的算法有基于协同过滤算法进行预测。 二.背景和挖掘目标: 随着互联网和信息技术的快速发展,广告的精准投放一直是各大广告商面临的问题。点击网络广告的一般有两类人。第一种是不小心点错的,相信大部分人都是不喜欢广告的,但由于网络的互动性,仍然会有部分人把广告当内容点击,其中网站诱导用户点击占了很大一部分比例。第二种是真的想看广告内容,这部分人对广告的内容感兴趣,或是符合他们的需求,才会点击网络广告。认真去研究这两类的行为,进行广告个性化的投放将产生巨大的价值。 基于这个背景,本次课题我们进行了网站点击行为的数据挖掘。数据来自网络,包含了2015年1月1日-2015年6月22日间广告曝光和点击日志。目的是预测每个用户在8天内即2015年6月23日-2015年6月30日间是否会在各检测点上发生点击行为。 利用数据挖掘技术可以帮助获得决策所需的多种知识。在许多情况下,用户并不知道数据存在哪些有价值的信息知识,因此对于一个数据挖掘系统而言,它应该能够同时搜索发现多种模式的知识,以满足用户的期望和实际需要。此外数据挖掘系统还应能够挖掘出多种层次(抽象水平)的模式知识。数据挖掘系统还应容许用户指导挖掘搜索有价值的模式知识

用户行为分析

一、什么是用户行为分析: 用户行为分析:在获得网站访问量最基本数据的情况下,对有关数据进行统计、分析,从中发现用户访问网站的规律,并将这些规律与网络营销策略相结合,从而发现目前网络营销活动中可能存在的问题,并为进一步的修正或者是重新制定网络营销策略提供依据。 以上只是很多种情况中一种———-针对网站的用户行为分析。那么,对于目前的互联网行业成千上万的产品,我们又该如何重新定义用户行为分析呢?重新定义的用户行为是什么呢? 1、分析用户行为,那我们应该先确定用户群体特征; 2、用户对产品的使用率。网站类产品主要体现在点击率、点击量、访问量、访问率、访问模块、页面留存时间等等;移动应用产品主要体现在下载量、使用频率、使用模块等等; 3、用户使用产品的时间。比如用户基本是每天中的什么时候使用产品。 综合以上说说的几点,其实用户行为分析可以这样来看:用户行为分析就是对用户使用产品过程中的所有数据(包括下载量、使用频率、访问量、访问率、留存时间等等)进行收集、整理、统计、分析用户使用产品的规律,为产品的后续发展、优化或者营销等活动提供有力的数据支撑。 二、用户行为分析方式都有哪些? 既然是对用户的行为进行分析,那么在得到数据后,我们需要如何进行行为分析呢?分析方式有哪些呢?这里我们主要从几个维度来分析:方式、侧重、优缺点。应该具体从何开始呢?我们先说说用户行为分析的方式: 1、网站数据分析。通过对每个模块的点击率、点击量、访问量进行数据捕获,然后进行分析; 2、用户基本动作分析。用户访问留存时间、访问量等; 3、关联调查数据分析。主要在电商上的相关推荐、你可能喜欢等等; 4、用户属性和习惯分析。对用户属性和用户习惯两个维度进行分析。用户属性包括性别、年龄等固有的;用户习惯包括用户的一起喜爱度、流量习惯、访问习惯等等; 5、用户活跃度分析。 综合以上可以概括为:以数据分析为导向、以产品设计反馈为导向、以对用户的调查为导向。通过上面的分析方式,我们需要整理出每种方式的分析侧重点。那么,下面我们谈谈用户行为分析的侧重点,主要有以下几点: 1、网站数据分析的侧重点:数据监测、挖掘、收集、整理、统计。 2、用户基本动作分析侧重点:统计用户基本信息,比如:性别、年龄、地域,分析用户群体; 3、关联分析侧重点:分析数据为精准营销提供数据支撑; 4、用户活跃度侧重点:主要是用户的使用频率进行分析,可以得出分析为什么用户喜欢使用这个产品这个功能。 三、用户行为分析的工具有哪些?如何做好用户行为分析? 工欲善其事必先利其器,我们知道了我们需要做什么事情,那么我们应该用什么工具来提高效率呢?

淘宝用户行为数据分析(例)

淘宝用户行为数据分析报告(例)

01 分析背景 选取了2017年11月25日至2017年12月3日之间,有行为的约500名随机用户的所有行为(行为包括点击、购买、加购、喜欢),数据量约5万,分析了用户行为与商品规律。 02 分析思路

03 分析过程 3.1 前提 数据来源:阿里天池。 分析工具:MySQL 8.0,Navicat for MySQL。绘图工具:Excel。 对数据进行数据清洗后再进行进一步分析,处理过程略,下文中仅显示数据处理后结果,不展示处理过程。 3.2 整体数据 3.2.1 数据体量 3.2.2 整体数据概览 3.2.3 日均数据概览

从图中数据可以看出,12月2日和12月3日的日访客数和点击数较前几日更多,可能由于这两日为周末,且双十二临近,但访客数与点击数的提升并未影响成交量,因缺少后续数据,故暂时推测为这是为双十二活动预热。 3.3 用户分析 3.3.1 复购率和跳失率

复购率=购买次数>1的用户/所有购买用户 跳失率=点击次数为1的用户/所有点击用户 从复购率可以看出,一半以上的用户有复购行为,且跳失率为0,说明淘宝对用户有足够的吸引力,让用户停留。 因仅有9天的数据,对用户复购时间特征没有足够的数据进行分析,因此没有对复购时间特征进行分析。 3.3.2 用户行为分析 用户行为可分为四种:点击、收藏、加购、购买,对这四类行为进行分析。

因用户购买途径有4种:点击-购买;点击-收藏-购买;点击-加购-购买;点击-收藏-加购-购买。因此,从上图中暂时无法判断点击、收藏、加购与成交数的关系,需进一步分析。 将用户成交方式分为四类:仅有点击行为;仅有收藏行为;既有收藏行为又有加购行为;仅有加购行为。分别计算出这四类人群的成交率。成家率=有下单行为的该类用户/该类用户总人数。可以看出,有收藏加购行为的和仅加购用户的购买率相较另外两者更高,因此,可以推测,用户的加购行为在一定程度上可以提高成交率。 3.3.3 用户时间分布分析 以日为单位对用户行为进行分析,可以看出,加购量与点击量几乎呈正相关趋势,收藏数与点击数相关性也较好,而购买量则与其他量没有呈现出明显的相关性。由前文我们已经推测,12月2日与12月3日点

用户行为分析

用户行为指标分析 目录 1. 了解用户,对用户进行分类 (2) 1.1了解用户的黏性、活跃度和产出 (2) 1.2对客户进行等级划分 (2) 2.分析客户留存,找出提高方法 (3) 2.1对流失客户进行调研 (3) 2.2留存率关注前两周 (4) 2.3提高前八周的留存率 (4) 2.4通过产品复购检验有效留存 (4) 3. 分析客户流量,侧面了解产品 (5) 3.1关注产品浏览情况,发现产品热销OR参数Bug (5) 3.2关注用户实时活跃度,进行有效时段的信息推送 (5) 3.3优化用户访问最多的3个界面,推介新产品 (5) 4. 分析环节转化率,优化获客渠道 (5) 4.1量化各个步骤的转化率 (6) 4.2波士顿矩阵评价获客渠道 (6) 5.行为分析中有效指标汇总 (6) 5.1基于客户的指标 (6) 5.2基于留存率的指标 (6) 5.3基于流量的指标 (7) 5.4基于转化率的指标 (7) 所有企业的运营根本是用户,用户是一个企业持续运营下去的源泉,如果没有用户,企业必将死亡。因此,用户行为分析就变成了最重要的事情,比你的招聘计划,年度规划等等重要的多。 那么,想研究用户行为单纯靠想是不行的,用户在我们的网站、app上浏览之后,唯一留下的不是脚印,而是数据。当然,前提是你的企业足够重视数据,对用户的行为数据进行了监测和留存。如果你做了这一步,恭喜你,你已经超越了60%的同行竞品。 用户行为其实涵盖了我们所有日常进行的数据分析。让用户的行为数据,指导运营、指导产品迭代更新、甚至可以指导企业内部运作和各部门的竞争。 事实上,用户行为数据分析中,最重要的就三点: 1)用户从哪来?(渠道流量、渠道转化率) 2)用户都经过了哪里?(访问路径、注册路径、停留时间、跳失率、访问深度) 3)用户为什么留下/离开?(导致流失的原因、各页面转化率、页面跳失率、各页面交互和体验、用户活跃量、用户粘性。) 只要抓住这几点,就能全面分析出当前产品的用户行为。细分下来,可以做以下分类: 1)了解用户,对用户进行分类:了解研究对象; 2)分析客户留存,找出提高方法:从结果找原因;(购买产品的客户) 3)分析客户流量,侧面了解产品:从过程找原因;(客户关注的产品) 4)分析环节转化率,优化获客渠道:从源头找原因;(客户的来源渠道)

用户行为数据分析数据挖掘BI 项目计划书

用户行为数据分析项目计划书 2011/5/4 修改记录

目录 一、项目背景 (5) 二、相关术语 (5) 1. Web数据挖掘 (5) 1)Web数据挖掘分类 (6) 2) Web数据的特点 (7) 3) 典型Web挖掘的处理流程 (7) 4) 常用的数据挖掘技术 (7) 5) Web商业智能BI(Business Intelligence) (8) 2. 网站流量统计 (10) 3. 统计指标/术语 (10) 4. 用户分析-- 网站用户的识别 (13) 5. WEB日志的作用和缺陷 (15) 6. 漏斗模型(Funnel Model) (17) 7. 目前提供此服务产品/企业 (18) 三、项目目的 (18) 四、项目需求 (18) 1. 页面统计 (18) 2. 用户行为指标 (19) 3. 潜在用户特征分析 (19) 4. 指定User Cookie的分析 (20) 5. 用户趋势分析 (20) 五、项目系统设计 (20) 六、项目详细设计 (21) 1. 数据收集 (21) 2. 数据模型 (22) 1) 统计PV量(趋势) (22) 2) 消重统计独立IP量/ IP的平均访问页面量(趋势) (22) 3) 消重统计独立UV量/ UV的平均访问页面量(趋势) (23) 4) 统计URL的访问来源Ref的量/ Ref排行(趋势) (23) 5) 统计Ref=URL的去访URL*/跳出的量/ 去访/跳出排行(趋势) (23) 6) 统计分析/预测/规律特定用户的行为(趋势) (24) 7) 统计新访客/老访客(趋势) (24) 8) 页面平均停留时间/ 页面平均时长(趋势) (24) 9) 搜索引擎列表 (24) 10) 搜索引擎关键词 (25) 11) 搜索引擎关键词(各搜索引擎) (25) 12) 老用户回头率(用户黏性) (25) 13) 新增用户增加/流失(用户黏性) (25) 14) 不活跃用户激活(用户黏性) (26) 15) 用户浏览深度(用户黏性) (26)

用户行为数据分析+项目计划书

用户行为数据分析项目计划书 用户行为数据分析项目计划书 2011/5/4 修改记录

用户行为数据分析项目计划书

目录 一、项目背景 (5) 二、相关术语 (5) 1. Web数据挖掘 (5) 1)Web数据挖掘分类 (6) 2) Web数据的特点 (7) 3) 典型Web挖掘的处理流程 (7) 4) 常用的数据挖掘技术 (7) 5) Web商业智能BI(Business Intelligence) (8) 2. 网站流量统计 (10) 3. 统计指标/术语 (10) 4. 用户分析-- 网站用户的识别 (13) 5. WEB日志的作用和缺陷 (15) 6. 漏斗模型(Funnel Model) (17) 7. 目前提供此服务产品/企业 (18) 三、项目目的 (18) 四、项目需求 (18) 1. 页面统计 (18) 2. 用户行为指标 (19) 3. 潜在用户特征分析 (19) 4. 指定User Cookie的分析 (20) 5. 用户趋势分析 (20) 五、项目系统设计 (20) 六、项目详细设计 (21) 1. 数据收集 (21) 2. 数据模型 (22) 1) 统计PV量(趋势) (22) 2) 消重统计独立IP量/ IP的平均访问页面量(趋势) (22) 3) 消重统计独立UV量/ UV的平均访问页面量(趋势) (23) 4) 统计URL的访问来源Ref的量/ Ref排行(趋势) (23) 5) 统计Ref=URL的去访URL*/跳出的量/ 去访/跳出排行(趋势) (23) 6) 统计分析/预测/规律特定用户的行为(趋势) (24) 7) 统计新访客/老访客(趋势) (24) 8) 页面平均停留时间/ 页面平均时长(趋势) (24) 9) 搜索引擎列表 (24) 10) 搜索引擎关键词 (25) 11) 搜索引擎关键词(各搜索引擎) (25) 12) 老用户回头率(用户黏性) (25) 13) 新增用户增加/流失(用户黏性) (25) 14) 不活跃用户激活(用户黏性) (26) 15) 用户浏览深度(用户黏性) (26)

用户行为数据分析的三个层次

用户行为数据分析的三个层次,你真的了解吗? 在这样一个「数据驱动」的时代,很多产品团队都选择在产品早期就引入或搭建数据分析平台,并希望能够通过数据驱动产品的快速成长,但即便如此,大多数的初创企业还是难逃失败的厄运。除去战略、经营等导致企业死亡的情况,数据分析的「深度不够」也是让产品铩羽的重要原因——大多数企业构建的数据分析平台仅仅能看一些统计指标——而这并不足以指导产品改进,并使之走向成功! 产品数据分析的三个层次 对产品用户和行为数据的研究可以大致划分为宏观层、微观层和中间层三个层次: 宏观层:由一系列的数据指标构成。如产品每日的「活跃用户数」、「新增用户数」、「订单数量」、「点赞的次数和人数」、「次日或7日留存率」等,这些指标能够帮您从整体上把握产品的运营状况; 微观层:由产品中每个用户及其行为的细节数据构成。如每一个用户的年龄性别……、他在什么时间打开应用、做了什么、他的购物车里都有哪些商品等,这些数据可以让您去深入的了解和理解每一个用户以及用户的行为? 中间层:中间层由一系列相互关联的分析方法、模型以及相应的数据构成。如行为分析、漏斗、留存、细分、画像洞察等等。 决定成败的「中间层」

「中间层」是至关重要的一层——针对您产品和业务目标展开的大部分分析,都需要在中间层的方法模型支持下完成。这是因为: ?宏观层的数据指标过于概括,虽然可以帮您了解产品的整体状况,却很难基于这些指标直接构建出切实的产品改进策略; ?而微观层的行为的数据量实在太大,海量细节让人无从下手。 如果,中间层能够基于丰富的维度提供有效的方法和模型,您就有机会对存在问题的宏观数据指标进行逐级深入的剖析(Drill down),逐步缩小问题的范围和人群,甚至深入微观层洞察相关的用户及行为,直至对问题原因得到清晰的认识(或有效猜测)——并据此构建出产品改进策略并逐步改进,产品就有机会走向成功。 相反,如果中间层缺失,或提供的方法模型不能支持您对问题指标进行足够的剖析,您就只能回到「看数据→拍脑袋」的老路上去,产品快速增长并最终走向成功的几率将因此降低。 典型实例剖析 以一款假想的「视频分享社区」产品为例:

大数据实例:网站用户行为分析

山西大学研究生项目设计报告(2015 ---- 2016学年第1学期) 学院(中心、所):计算机与信息技术学院 专业名称:软件工程(专硕) 课程名称:大数据处理 论文题目:网站用户行为分析 授课教师(职称):杜亮 研究生姓名:温杰 年级:2016级 学号:201622405011 成绩: 评阅日期: 山西大学研究生学院 2016年12月20日

大数据实例:网站用户行为分析 大数据实例:网站用户行为分析 (2) 一、案例简介 (4) 二、案例目的 (4) 三、软件工具 (4) 四、案例任务 (4) 五、实验步骤 (5) 5.1、实验步骤一:实验环境准备 (5) 5.1.1、linux系统的安装 (5) 5.1.2、Hadoop的安装 (6) 5.1.3、MySQL的安装 (6) 5.1.4、HBase的安装 (8) 5.1.5、Hive的安装 (8) 5.1.6、Sqoop的安装 (10) 5.1.7、Eclipse安装 (12) 5.2、实验步骤二:本地数据集上传到数据参考Hive (12) 5.2.1、实验数据集的下载 (12) 5.2.2、解压下载得到的数据集到指定目录 (12) 5.2.3、数据集的预处理 (13) 5.3、实验步骤三:Hive数据分析 (15) 5.4、实验步骤四:Hive、MySQL、HBase数据互导 (19) 5.4.1、Hive预操作 (19)

5.4.2、使用Sqoop将数据从Hive导入MySQL (20) 5.4.3、使用Sqoop将数据从MySQL导入HBase (21) 5.5、实验步骤五:利用R进行数据可视化分析 (22) 5.5.1、R安装 (22) 5.5.2、可视化分析MySQL中的数据 (23)

基于大数据的用户行为分析技术、个性化推送服务技术

基于大数据的用户行为分析技术、个性化 推送服务技术 天津大学机械工程学院机械工程专业2013级硕士 摘要:本文介绍了大数据的背景,概念,特点,产生的来源,通过对用户行为的分析等,基于用户产生的大量的数据进行个性化的推送服务技术等。最后通过分析对大数据的应用前景和展望进行了分析。 关键词:大数据用户行为分析个性化展望 1 大数据的产生背景 从硅谷到北京,大数据的话题正在被传播。随着智能手机以及“可佩带”计算设备的出现,我们的行为、位置,甚至身体生理数据等每一点变化都成为了可被记录和分析的数据。如今,一个大规模生产、分享和应用数据的时代正在开启。我们所了解的大数据的真实价值如冰山一角,所以有待我们去挖掘。 1.1 大数据概念 大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。 1.2 大数据的特点 大数据的4个“V”,或者说特点有四个层面:第一,数据体量巨大。从TB级别,跃升到PB级别;第二,数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等等。第三,价值密度低,商业价值高。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。第四,处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume(大量)、Velocity (高速)、Variety(多样)、Value(价值)。 1.3 大数据的产生来源 与传统数据的来源不同,大数据的来源不再仅仅局限于ERP、CRM等业务数据,还包括机器生成数据和社交数据。机器生成数据包括电话呼叫数据、各类服务器日志、传感器数据等,随着物联网的不断发展和传感器设备的普及,可获取的传感器数据变得越来越多。社交数据则指在Web 2.0网络中用户参与的微博、社交网络、用户反馈等数据。 根据IDC的研究报告,人类社会的信息量每两年就会翻一番,2011年新产生和复制的数据总量达到1.8ZB(1.8万亿GB),其中75%的数据是个人产生的。人们日常生活中使用的网络、手机或其他电子设备,每天都在不停地产生大量新的数据,超出了以往系统所能分析的能力。然而大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。 由于大数据的来源和类型多样,分析大数据时必须能同时处理结构化和半结构化,甚至是原始格式的数据。因此这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据必然无法用单台的计算机进行处理,必须采用分布式计算架构。它必须依托云计算的分布式处理、分布式数据库、云存储和虚拟化技术。 云计算为我们打开大数据的宝藏提供了钥匙,突破了数据处理的瓶颈。因此基于大数据的用户行为分析技术、个性化推送服务技术的研究将翻开崭新的一页。

基于通信数据的移动用户行为分析

基于通信数据的移动用户行为分析

基于通信数据的移动用户行为分析 [摘要] 认为分析移动用户行为特征与分类,对移动应用个性化服务的改进具有重要的参考价值。基于国内电信运营商随机抽取某市一万移动用户一周的日志记录,其中含有4万余条通话记录和200余万条网络请求,每条请求包含对应的基站标号以及基站地理位置。本研究从消费能力、通话量、网络请求量、位移量四个维度从这批数据中提取14种基本特征指标。利用K-Means聚类方法将移动用户区分成规律通话型、随机上网型、居家节约型和随机高消费型等四类用户模型。 [关键词] 用户行为分析;移动用户研究;聚类分析;数据挖掘 [分类号] G35 1 引言 随着移动通信技术的迅猛发展和广泛应用,移动终端大量普及于民众,也产生了大量用户信息记录,如何利用大数据来了解移动用户行为与习惯特征的研究不断涌现。经过对移动用户的分析与了解,许多企业与政府部门能够依据结果提供各式各样的服务与应用方案。移动用户行为分析一般是指基于地理信息涉及用户访问网络、通话的行为规律与活动研究。电信运营商经过获取用户访问移动互联网、使用移动应用及通话的行为规律,能够有效地配置网络资源并提供具有针对性的服务。

近年来,针对桌面端日志挖掘的研究层出不穷,[15, 16, 17]都是针对桌面端web服务的后台日志挖掘入手,经过分析用户访问页面的占比、用户访问的页面顺序等对用户的行为进行建模。而针对移动用户的行为分析研究则在很多方面借鉴了桌面端的研究,同时利用移动端设备的地理位置位置记录,挖掘出用户移动轨迹模式,找出轨迹中重要的位置并结合通信数据、互联网日志数据以及移动应用数据作为研究的基础,分析挖掘移动用户的需求、行为、兴趣,甚至是经过预测用户的目的地、推测用户下一步即将到达的位置以便提供针对性的推荐服务[1,13]。传统的移动用户轨迹分析,多数利用软件采集仿真数据,属于细时空粒度下的数据,即能够采集到用户一天中连续时间段的位置数据。Y.Zhu等作者着眼于用户位置数据中经常出现的地点,并根据出现时间来推测用户所处的位置是家还是公司[2]。另外,S.Akoush和A.Sameh则经过指定时间粒度,聚类用户在多日同一时间段的行动轨迹,利用稀疏数据拟合出用户在这时间段移动轨迹的目的[3]。研究用户的移动轨迹,实现预测用户下一步位置目的的方法,包括利用贝叶斯算法、聚类、数据挖掘方法等。实际上,电信运营商服务器上的数据是粗时间粒度的,唯有请求通信或上网时才会被记录,因此用户位置变化是不连贯的,具有随机性、稀疏性的特点,不能支持用户行为轨迹直接且连续的刻画描述。谭均元等人提出了生活熵概念作为用户移动轨迹规律程度的度量[4],采用了个人多天时段移动序列的算法来弥补实际数据的这种

相关主题
文本预览
相关文档 最新文档