当前位置:文档之家› 微博用户行为统计特性及其动力学分析_何静

微博用户行为统计特性及其动力学分析_何静

微博用户行为统计特性及其动力学分析_何静
微博用户行为统计特性及其动力学分析_何静

微博用户行为统计特性及其动力学分析*

何静郭进利徐雪娟

(上海理工大学管理学院上海200093)

【摘要】以新浪微博为研究对象,运用复杂网络和统计学的方法从个体和群体层面对微博的网络拓扑结构和用户的行为特性进行统计分析。结果表明,微博用户的行为表现出多重的标度特性,其中节点的度分布和微博发布行为近似服从幂律分布,而转发和评论行为表现为指数截断的幂律分布。在此基础上,运用兴趣驱动机制和重尾特性对其进行分析,得到微博用户行为的一些共性。这可以为微博信息的传播动力学研究提供有益的帮助。

【关键词】微博社交网络用户行为指数截断的幂律分布

【分类号】N94

Analysis on Statistical Characteristic and Dynamics for User Behavior in Microblog Communities

He Jing Guo Jinli Xu Xuejuan

(Business School,University of Shanghai for Science and Technology,Shanghai200093,China)

【Abstract】Using the complex network and statistical methods,this paper analyzes the network topology and user behav-ior characteristics of the Sina micro-blogging on the individual and group levels.The results show that human behaviors have different multi-scaling characteristics.Of which,node degree distribution and microblog-post behavior approxi-mately obey the power law distribution;however the forwarding and comment behavior obeys exponential truncated power -law distribution.Based on this,the interest-driven mechanism and heavy-tail characteristics of the user behavior are studied and some commonalities are botained.It is helpful to the research of public opinion propagation dynamics.【Keywords】Micro-blogging Social network User behavior Exponential truncated power-law distribution

1引言

随着微博应用的发展,人类社会跃入了移动互联网时代。微博作为主流的在线社交网络平台,具有即时发布、实时传播、多途径参与、简便易用等特点,成为人们生活、娱乐和工作中的一个重要组成部分。CNNIC发布的第31次《中国互联网络发展状况统计报告》[1]显示,截至2012年底,我国网民规模达到5.64亿,微博用户为3.09亿。鉴于其庞大的用户群,微博成为移动互联网时代的又一关键应用。

在传统的人类动力学研究中,大多数学者利用泊松过程来描述人类行为,认为人们的相继行为发生的时间间隔分布是均匀的。但是随着数据挖掘和信息处理技术的提高,许多研究表明人类的行为偏离了泊松过程。Barabási[2]通过对实际的电子邮件发送与回复等人类邮件通信行为的时间间隔进行统计分析,发现人类行为的发生具有短时间内的爆发和长时间的静默并存的特征,这些行为并不能用泊松过程来描述。在现实生活中,大多数

收稿日期:2013-06-03

收修改稿日期:2013-07-02

*本文系国家自然科学基金项目“基于随机服务理论的复杂网络和人类动力学演化模型”(项目编号:70871082)、上海市一流学科建设项目“上海市管理科学与工程一流学科建设项目”(项目编号:S1201YLXK)和上海市研究生创新基金项目“基于复杂网络的微博舆论传播动力学研究”(项目编号:JWCXSL1202)的研究成果之一。

94

的人类行为也具有类似的特征。比如研究者对人们的网页浏览[3]、手机通信[4]、电影点播[5]等行为进行了统计分析,结果均表明,人类行为发生的时间间隔服从标度幂律分布,且幂律指数在1-3之间。樊超等[6]对某大学师生的图书借阅行为进行了统计分析,结果表明群体和个体的借阅行为表现出不同的统计特征。在人类行为的内在驱动机制方面,戴双星等[7]提出了基于兴趣驱动的动力学模型;Guo等[8]通过对科学网博客的用户评论行为进行研究,发现用户评论时间间隔近似服从指数为1-2的幂律分布,由此提出了一个兴趣逐渐消失的人类动力学模型。

人类的行为是非常复杂的,而且容易受到个人的兴趣爱好、所从事的工作类型以及人际关系网络等因素的影响,微博用户也同样如此。在微博中,用户的行为偏好大多体现在他所关注的用户类型,如旅游、交友、新闻等。用户之间通过关注和粉丝关系进行信息的传递和共享,从而形成一个人际关系网络。目前关于微博用户行为特性的研究还比较少。尹书华[9]对新浪、腾讯和搜狐三大微博网络进行了统计,结果表明微博网络用户的节点度服从幂律分布,具有无标度特性和小世界效应。Yan等[10]对新浪微博用户的信息发布行为进行研究,提出了一个由兴趣和社会身份驱动的人类行为动力学模型,研究结果表明用户的社会身份驱动着兴趣的变化,从而影响着信息的转发或评论行为。赵文兵等[11]以和讯财经微博为例,对微博用户的特性及动机进行了分析,结果表明关注数、被关注数和博文数均具有统计特性,且具有地域差异性。其他关于微博的研究大都集中在微博的网络演化、信息的传播机制以及微博营销等方面。随着大数据时代的来临,用户的行为和信息的传播方式都呈现出多样化的发展趋势,通过对用户行为的研究进而预测事件的发展趋势,可以为微博的发展提供更好的策略。

现有关于人类行为偏离泊松过程的研究大都集中于针对事件发生的时间间隔的统计。但是人类的行为是高度复杂的,用户的行为不仅仅体现在时间间隔上,事件发生的频次和概率、事件之间的相关性等也能够反映出人类行为的某种规律。因此,从个体和群体层面对微博用户的信息发布、转发和评论行为进行多角度研究,可以得出用户行为的若干特性。

本文基于新浪微博的实际用户数据,构建了一个微博用户关系网络,综合运用复杂网络和统计学的方法对微博的网络特性和用户行为特性进行定量分析。结果表明,微博用户的行为具有高度的复杂性和多重标度特性。在此基础上,结合人类行为动力学理论得出了微博用户行为的一些共性。

2数据采集

作为当前国内主流的社交网络平台,新浪微博(http://weibo.com)拥有庞大的用户群。笔者选取新浪微博的实际用户作为研究样本,以某一特定用户为根节点,运用广度优先搜索算法和爬虫软件,收集了近10000个微博用户的样本数据(数据集1),包括用户的粉丝数、关注数、发布的微博数等数据。此外,还抓取了微博名人堂中前100位媒体、网站和名人等不同类型用户的实际微博数据(数据集2)。数据集的结构如下:

Dataset1(user_ID,follower,following,weibo_No);

Dataset2(user_ID,weibo_ID,zf_No,pl_No,fb_time,zf_time)。

其中,user_ID作为主关键字代表着微博用户的身份标识;用户的粉丝数follower、关注数following和微博数weibo_No表征微博的用户属性;微博信息weibo_ ID、转发数zf_No、评论数pl_No、发布时间fb_time和转发时间zf_time表征微博的传播属性。在微博中,可以通过用户ID和用户之间的连接关系(粉丝和关注)构建一个微博用户网络,因此可以借助于复杂网络和人类行为动力学理论对用户的行为特性进行深入分析。

尽管获取的数据量不大,但是根据人际关系中的六度分割理论,这些用户数据的统计结果在很大程度上仍然可以反映微博用户行为的若干普适性。在数据分析的过程中,主要运用Matlab、SPSS和Excel等工具对样本主体数据进行处理和分析,得到双对数坐标下的分布散点图,再采用一元线性回归或最小二乘法进行拟合,拟合曲线的斜率即为幂指数。

3微博网络节点的度分布分析

舆论的形成是大众传媒与人际传播共同作用的结果,其在微博上的传播过程可以看作是服从某种规律的网络传播行为。在微博中,若以注册用户为节点,以用户之间的关系为连接边,则可以构造一个微博用户关系网络。例如用户A是用户B的粉丝,则形成一条A→B的连接边;用户B是C的关注好友,则形成一条

95

96

C →B 的连接边。如果某用户发布了一条微博信息,则该信息会沿着他的粉丝向外界传播。

在复杂网络中,常用节点的度分布、网络的聚类系数及最短路径长度来描述网络的整体特征。对用户的粉丝数和关注数进行统计分析,得到网络的入度和出度分布图,

如图1所示

:图1

微博用户网络的入度和出度分布

由图1分析得出,微博用户网络的节点度近似服从幂律分布,幂律指数γin =0.8,γout =1.12。借助Pajek 对其进行可视化分析,得到网络聚类系数C =0.267,最短路径长度L =3.45。可以看出微博用户网络具有较短的平均路径长度和较高的聚类系数,是一个典型的小世界网络,具有无标度特性和小世界效应。

此外,从图1中可以明显地看到用户的粉丝数分布表现出明显的重尾特性,即大部分的普通用户的粉丝和关注的数量都比较少;而一些少量的用户如企业家、

体育和娱乐明星等,却拥有大量的粉丝群。这些明星用户往往具有较高的影响力和吸引度,成为网络中的Hub 节点,表现出富者愈富的现象。

4

微博信息的发布行为统计分析

4.1

个体用户微博发布时间的概率分布

在现实社会中,人们每天都要参与大量不同类型

的活动,如QQ 聊天、网页浏览、参加娱乐活动等,而人们的这些行为通常都会表现出一定的规律性。比如在同一活动中连续两次相继行为发生的时间间隔就反映

了人类行为发生的密度和概率。

为了探究用户微博信息发布的时间规律,笔者从得到的数据集中选取某位活跃用户A ,

统计其在一天内发布微博信息的时间序列,

时间间隔精确到分钟。用户A 一天共发布140多条微博,但大多数都集中于中午12-14点和晚上19-22点这两个时间段内。这与电子邮件、移动通讯等使用高峰期常常出现在上午10点和下午3点左右的情况存在显著差异。微博使用高峰期滞后的现象表明,微博的使用主要是在工作之余的碎片时间。每个单位时间(1h )内用户A 发布微博的时间序列如图2所示

图2用户A 发布微博的时间序列

从图2中可以看出,用户微博信息发布行为的阵

发现象比较显著,明显地偏离了泊松过程。可见,用户的行为具有周期性和阵发性等特点。为了进一步研究用户的微博发布行为,

笔者对用户A 发布微博信息的时间间隔进行了统计,

得到双对数坐标下用户A 发布微博的时间间隔的概率分布,如图3所示

图3双对数坐标下用户A 发布微博的时间间隔分布运用回归方法得到主体样本数据的拟合直线,结果表明A 用户发布微博的时间间隔服从幂指数γ=0.7的幂律分布,拟合优度R =0.976。正是由于个体用户发布微博时间的非均匀性,造成了微博发布时间概率呈现幂律分布的现象。4.2

群体用户的微博发布行为分析

社会中人与人之间并不是孤立的,而是一个相互

97

联系的有机整体,如所有的微博用户就可以看作是一个群体,信息正是在群体环境中才能进行共享和传递。但由于微博群体用户的数量较大,这里选择数据集1中的部分用户作为群体样本进行分析,以考察群体用户在一天24小时内发布微博的时间序列的统计特征。群体用户发布微博的时间序列和单位时间内(1h )发布微博的数量统计结果如图4所示

图4群体用户发布微博的时间序列

群体用户发布微博的行为与个体相似,高峰期出现在中午和晚上两个时间段,

这主要与用户的闲余时间有关。大部分的用户都会选择在工作之余或吃饭、候车等排队等待的时间进行微博娱乐活动,表现出一定的规律性和阵发性。此外,还对群体用户发布的微博数进行了统计分析,如图5所示

图5群体用户发布微博数的统计

用户发布的微博数体现了用户的活跃度和对于信息的贡献度。图5表明,群体用户发布微博频数表现出较强的不均匀性,

其度分布也呈现幂律分布形式。在微博中,大多数用户发布微博数很少,只有少量的用户表现得非常活跃,而这些活跃用户成为了微博信息的主要来源。

5

微博信息的转发和评论统计分析

5.1

单条微博被转发的时间间隔分布

与微博用户的信息发布行为相比,转发和评论行

为更容易受到用户关系的影响。微博信息被转发的频次越高,表明该信息的被关注度越高,传播的范围就越广,

也越能容易引起公众的共鸣。在一系列的新闻事件(如7.23动车事故、

小悦悦事件和药家鑫事件等)中,微博都起到了推波助澜的作用。公众通过微博表达对事件的诉求,

甚至出现公众舆论主导了事件的结果。笔者选取了某突发事件中的一条热门微博,以天为单位,

统计该微博被转发的时间序列和时间间隔,得到双对数坐标下该微博被转发的时间概率分布,如图6所示

图6

某微博被转发的时间间隔分布

由图6分析得出,微博信息被转发的时间间隔概率分布服从幂指数为1.36的幂律分布。在2012年11月到2013年5月,该条微博总共被转发了7860次。在事件发生的初期,人们对该信息表现出极大兴趣,转发量都在1000次以上,当天的转发量更是达到4600多次。随着时间的推移,人们对于该信息的兴趣渐渐消失,其转发量趋于一个稳定的水平,日均转发量在5次左右。

考虑人类行为中的兴趣驱动机制:事件发生的概率与人们对该事件的兴趣成正比,并且处于不断地调整变化中。在微博网络中,当一个突发事件发生时,与之相

关的信息立刻会成为社会舆论和公众关注的焦点,这将导致微博用户会高度关注相关的微博信息;随着时间的推移,舆论逐渐退出人们的视线或被新的突发事件所代替,用户的兴趣逐渐减弱,关注度减小,微博信息被转发的次数也随之减少。因此,

社会关注程度和用户兴趣与微博信息被转发的频次呈现出一定的正相关性。5.2

群体用户的微博转发和评论数分布

在微博信息的传播过程中,信息被转发和评论的频次分布能够直观地表现出信息的传播范围。因此,针对数据集2,笔者分别对媒体用户、网站用户和名人用户的微博被转发和评论的频次分布进行分析。样本主体数据的分布图和拟合结果如图7所示。

图7媒体、网站和名人用户的微博被转发和评论的频次统计(注:A和B为媒体用户,C和D为网站用户,E和F为名人用户。)

从图7中可以看出,微博信息被转发的频次并非服从单一的幂律分布或指数分布,具有典型的非均匀分布特性。其中大多数的微博信息被转发和评论的次数都非常少,只有很少的微博被大量转发。这表明,用户对微博信息的转发和评论行为具有优先选择的特点。

采用最小二乘法对主体数据进行拟合,得到微博信息的转发和评论行为近似服从指数截断的幂律分布,其分布形式可以用f(x)=aeαx(x+b)γ来表示,拟合结果见图7。从拟合结果来看,媒体用户和网站用户的幂指数都在1.5左右,而名人用户的幂指数却小于1,表现出两种不同的统计特征。这可能是源于名人用户的名人效应,他们拥有很高的关注度和影响力,成为网络中的意见领袖。而普通用户往往倾向于关注那些已获得较高转发或评论次数的微博信息,从而造成微博信息在传播过程中出现两极分化的现象。

5.3用户的粉丝数与微博被转发数的相关性分析转发和评论行为在一定程度上代表着微博信息对于用户的吸引力。笔者推测,用户的粉丝数与转发和评论行为之间可能存在一种必然的联系。用户的粉丝数越多,那么他所发布的微博信息就会被越多的人所接收,被用户转发的几率就越大;另一方面,如果用户对于该信息表现出浓厚的兴趣,他就越想通过转发来吸引公众的目光,使得该信息被更多的人所接收,实现传播的最大化。从这个意义上来说,相比信息评论,用户的微博转发行为更值得研究。因此,笔者对数据集1中10000名用户的微博的最大被转发数和其粉丝数进行统计分析,结果如图8所示。

对统计数据进行线性拟合,得到相应的拟合直线f(x)=ax+b。结果表明,在双对数坐标下,用户的粉丝数和微博被转发数之间存在较为显著的线性正相关性。即用户的粉丝数越多,其微博被转发的频次就越高。这表明,除了用户的兴趣驱动和优先选择外,微博用户的影响力(可由粉丝数来直观体现)是形成转发频次分布服从指数截断的幂律分布的重要原因。

98

99

图8双对数坐标下粉丝数与转发数的相关关系

根据样本拟合结果,用户的粉丝数和微博被转发数之间的相关性关系可以用方程lny =alnx +b 进行描述,其中,x 表示粉丝数,y 表示被转发数。解之得y =e b

x a

,表现为一条平缓弯曲右上的曲线,这与理论分析结果也吻合。

6结语

本文从个体和群体层面对微博用户的信息发布、转发和评论行为进行了实证分析,实证结果表明:人类行为的统计规律在群体或组织层面有着混合或者分段的分布形态,而个体行为都服从单一的幂律分布。说明人类行为具有高度复杂性和多重标度特征。鉴于庞大的微博用户群,很难获取所有的用户数据来研究用户的行为特征。但是通过抽样分析,在一定程度上也反映出用户行为的一些共性。

纵观以上的分析结果,可以得出微博用户的行为具有以下普遍特性:

(1)重尾特性:不论是发布微博信息,还是转发和评论微博信息,

用户行为发生的时间间隔都服从无标度幂律分布,且幂律指数在1-2之间。

(2)级联特性:大多数用户在转发和评论微博信息的过程中,都会倾向于优先选择热门微博,这样大大缩减了事件发生的时间间隔,对幂律的成因进行了较好的解释。

(3)兴趣驱动:用户行为的发生很大程度上是一种兴趣驱动行为,这种兴趣也具有较大的非均匀性。当用户的兴趣减弱时,事件发生的概率也随之降低。

(4)自相似性:不同类别的群体用户的转发和评论行为表现出相同的分布形式,表明用户的行为具有自相似特性,即表现出一定的规律性。

本文对微博用户行为模式的定量分析有助于揭示用户行为与信息传播之间的功能关系,进而对研究微

博的网络结构和信息的传播控制等有一定的借鉴意义。

参考文献:

[1]中国互联网络信息中心.中国互联网络发展状况统计报告[R /

OL ].[2013-05-16].http ://www.cnnic.net.cn.(China In-ternet Network Information Center.China Internet Development

Statistics Report [R /OL ].[2013-05-16].http ://www.cnnic.net.cn.)

[2]Barabási A L.The Origin of Bursts and Heavy Tails in Human Dy-namics [

J ].Nature ,2005,435:207-211.[3]赵庚生,张宁.群体用户的网页浏览模式[A ].//郭进利,周涛,

张宁,等.人类行为动力学模型[M ].香港:上海系统科学出版社,

2008:138-143.(Zhao Gengsheng ,Zhang Ning.The Patterns of Web Browse for Group Users [A ].//Guo Jinli ,Zhou Tao ,Zhang Ning ,et al.Dynamic Model of Human Behavior [M ].HongKong :Shanghai System Scientific Publishers ,2008:138-143.)

[4]洪伟,韩筱璞,周涛,等.短信息通信中的多重标度特性[A ].//

郭进利,周涛,张宁,等.人类行为动力学模型[M ].香港:上海系统科学出版社,2008:108-117.(Hong Wei ,Han Xiaopu ,Zhou Tao ,et al.Multi -scale Characteristics of Short Message Communication [A ].//Guo Jinli ,Zhou Tao ,Zhang Ning ,et al.Dynamic Model of Human Behavior [M ].HongKong :Shanghai System Scientific Publishers ,2008:108-117.)

[5]周涛.在线电影点播中的人类动力学模式[J ].复杂系统与复

杂性科学,

2008,5(1):1-5.(Zhou Tao.Human Activity Pattern on On -line Movie Watching [J ].Complex Systems and Complexity Science ,2008,5(1):1-5.)

[6]樊超,郭进利,纪雅莉,等.基于图书借阅的人类行为标度律分

析[J ].图书情报工作,

2010,54(15):35-39.(Fan Chao ,Guo Jinli ,Ji Yali ,et al.Analysis of Human Behavior Scaling Law Based on Library Loans [J ].Library and Information Service ,2010,54(15):35-39.)

[7]戴双星,陈冠雄,周涛,等.兴趣驱动的人类动力学模型研究

[A ].//郭进利,周涛,张宁,等.人类行为动力学模型[M ].香港:上海系统科学出版社,

2008:54-58.(Dai Shuangxing ,Chen Guanxiong ,Zhou Tao ,et al.Research on Interest -Driven Human Dynamics Model [A ].//Guo Jinli ,Zhou Tao ,Zhang Ning ,et al.Dynamic Model of Human Behavior [M ].HongKong :Shanghai System Scientific Publishers ,2008:54-58.)

[8]Guo J ,Fan C ,Guo Z.Weblog Patterns and Human Dynamics with

Decreasing Interest [J ].The European Physical Journal B -Con-densed Matter and Complex Systems ,2011,81(3):341-344.[9]尹书华.基于复杂网络的微博用户关系网络特性研究[J ].西

南师范大学学报:自然科学版,2011,36(6):57-61.(Yin Shuhua.A Research of User Relations Properties Based on a Com-plex Network of Microblog[J].Journal of Southwest China Normal University:Natural Science Edition,2011,36(6):57-61.)[10]Yan Q,Yi L,Wu L.Human Dynamic Model Co-driven by Inter-est and Social Identity in the MicroBlog Community[J].Physica A:Statistical Mechanics and Its Applications,2012,391(4):

1540-1545.

[11]赵文兵,朱庆华,吴克文,等.微博客用户特性及动机分析———以和讯财经微博为例[J].现代图书情报技术,2011(2):69-

75.(Zhao Wenbing,Zhu Qinghua,Wu Kewen,et al.Analysis of Micro-blogging User Character and Motivation[J].New Technolo-gy of Library and Information Service,2011(2):69-75.)

(作者E-mail:hjsyzs1988@126.com)

Facebook进入Google“主场”,力推搜索工具Graph Search

长期以来,Google一直是人们寻找网站和信息的选择,而Facebook则是与朋友聊八卦和分享图片的地方。但这些差别现在越来越模糊。2013年1月,扎克伯格(Mark Zuckerberg)在媒体活动上宣布推出一个搜索工具Graph Search(图谱搜索),这种新的搜索工具可以通过用户资料筛选搜索结果,进行查找时将基于4种使用要素:人、照片、地点及兴趣。图谱搜索将帮助用户完成复杂的、与其朋友资料相关的查询,如“我朋友们去过的法国旅游景点”。

Facebook这样做其实是在向Google搜索这一核心业务、同时也是利润最丰厚的产品发起攻击。从全球来看,Google的年收入为400亿美元,其中大部分来自在搜索引擎上出售的广告。据市场研究机构eMarketer统计,Google在美国通过搜索广告产生的收入预计将超过130亿美元,占整个美国市场的75%。而2012年数字营销公司Greenlight进行的一项全球消费者调查结果显示,如果Facebook使用其自主开发的搜索引擎,它将可能在搜索市场上占据近1/4的份额。

Google的信息库规模目前仍是其他公司望尘莫及的。去年,Google改变了搜索引擎,在搜索结果页面的最上端显示搜索查询的图片、事实和其他“直接答案”等,而不是简单地给出蓝色链接。在目睹了Facebook的崛起并且预测到它将移师搜索界后,Google在2011年创建了自己的社交网络服务Google+,以获取有关人名、个人爱好和朋友身份等具体用户的数据,然后把Google+与其网络搜索服务整合到一起。这样,人们在搜索具体的网站、当地饭馆或真实产品时,如果他们在Google+上的联系人给过相应的正面或负面评价,他们都会收到相关提醒。

Facebook的社交网络在规模上要比Google大得多,并且在时机把握方面也算捷足先登,这要归功于多年来Facebook一直鼓励用户将图片和各种个人信息添加到他们资料中的努力。这些信息既包括地理位置、雇主名称和兴趣爱好等基本信息,也包括年龄、宗教和婚姻状况等敏感资料。经过一年多的开发,上述信息中有很多可通过Facebook的图谱搜索新功能搜索到。Facebook在今年1月份推出这一搜索工具,面向有限的用户进行测试。对于Facebook无法呈现的网络搜索,则由该公司合作伙伴微软公司旗下的搜索引擎Bing来完成。

扎克伯格承认图谱搜索可能有助于公司增收,但他并不透露Facebook可能会在何时利用这些机会获利。他在产品发布会上说,“一段时间过后,本产品可能会成为一项业务,但目前我们的重点其实是完善用户体验。”Facebook近几个月推出的一系列新产品都表明它在寻找新的收入来源。这些新产品包括独立的手机短信应用,允许广告商更精确瞄准具体人群的实时广告竞价交易所“Facebook交易所”(Facebook Exchange),以及网上商店“Gifts”等。

Facebook很久以来就有一个基本的搜索工具,但它只用于寻找某个姓名或某公司的Facebook页面等原始搜索。通过图谱搜索,Facebook将其数据整合起来,分成多个类别,使人们在用自然语言关键词搜索的时候更容易找到结果。人们可能会担心这一搜索功能对隐私的影响,Facebook说,它将只允许用户看到那些已经能够看到的信息。除此以外,在这一搜索产品面向整个Facebook公布之前,用户将在主页上看到一则通知,劝他们检查一下哪些个人数据会被图谱搜索搜到。扎克伯格表示,隐私是这一产品的构成部分,深深根植其中。

(编译自:http://www.wired.com/business/2013/01/the-inside-story-of-graph-search-facebooks-weapon-to-challenge-google/ all/)

(本刊讯)

100

spss的数据分析报告范例

关于某地区361个人旅游情况统计分析报告 一、数据介绍: 本次分析的数据为某地区361个人旅游情况状况统计表,其中共包含七变量,分别是:年龄,为三类变量;性别,为二类变量(0代表女,1代表男);收入,为一类变量;旅游花费,为一类变量;通道,为二类变量(0代表没走通道,1代表走通道);旅游的积极性,为三类变量(0代表积极性差,1代表积极性一般,2代表积极性比较好,3代表积极性好 4代表积极性非常好);额外收入,一类变量。通过运用spss统计软件,对变量进行频数分析、描述性统计、方差分析、相关分析,以了解该地区上述方面的综合状况,并分析个变量的分布特点及相互间的关系。 二、数据分析 1、频数分析。基本的统计分析往往从频数分析开始。通过频数分地区359个人旅游基 本状况的统计数据表,在性别、旅游的积极性不同的状况下的频数分析,从而了解该地区的男女职工数量、不同积极性情况的基本分布。 统计量 积极性性别 N 有效359 359 缺失0 0 首先,对该地区的男女性别分布进行频数分析,结果如下 性别 频率百分比有效百分 比 累积百分 比 有效女198 55.2 55.2 55.2 男161 44.8 44.8 100.0

性别 频率百分比有效百分 比 累积百分 比 有效女198 55.2 55.2 55.2 男161 44.8 44.8 100.0 合计359 100.0 100.0 表说明,在该地区被调查的359个人中,有198名女性,161名男性,男女比例分别为44.8%和55.2%,该公司职工男女数量差距不大,女性略多于男性。 其次对原有数据中的旅游的积极性进行频数分析,结果如下表: 积极性 频率百分比有效百分 比 累积百分 比 有效差171 47.6 47.6 47.6 一般79 22.0 22.0 69.6 比较 好 79 22.0 22.0 91.6 好24 6.7 6.7 98.3 非常 好 6 1. 7 1.7 100.0 合计359 100.0 100.0 其次对原有数据中的积极性进行频数分析,结果如下表:

用户点击行为模型分析

数据挖掘实验报告基于用户网站点击行为预测

...数据挖掘实验报告. (1) 一.概要: (3) 二.背景和挖掘目标: (3) 三.难点分析: (4) 四.难点解答: (4) 五.数据采集: (5) 六.分析方法: (6) 七.数据探索: (8) 7.1数据无效: (8) 7.2数据缺失: (8) 八.数据预处理 (9) 8.1数据清洗 (9) 8.2数据丢弃 (10) 8.3数据转换 (10) 九.挖掘过程: (11) 9.1计算用户爱好 (11) 9.2基于协同过滤算法进行预测 (12) 十.结果分析: (13) 十一.实验总结 (14) 11.1数据的采集 (14) 11.2在试验过程中遇到的问题 (14) 11.3解决方案以及改进 (14) 11.4数据挖掘学习体会: (15)

一.概要: 这次的数据挖掘我们团队做的是基于用户网站点击行为预测,其中遇到的问题有数据量大,机器难以处理,含有时序关系,特征难以描述等,我们运用正负样本比例平衡的方法和时间衰减函数来解决这些问题,运用到的算法有基于协同过滤算法进行预测。 二.背景和挖掘目标: 随着互联网和信息技术的快速发展,广告的精准投放一直是各大广告商面临的问题。点击网络广告的一般有两类人。第一种是不小心点错的,相信大部分人都是不喜欢广告的,但由于网络的互动性,仍然会有部分人把广告当内容点击,其中网站诱导用户点击占了很大一部分比例。第二种是真的想看广告内容,这部分人对广告的内容感兴趣,或是符合他们的需求,才会点击网络广告。认真去研究这两类的行为,进行广告个性化的投放将产生巨大的价值。 基于这个背景,本次课题我们进行了网站点击行为的数据挖掘。数据来自网络,包含了2015年1月1日-2015年6月22日间广告曝光和点击日志。目的是预测每个用户在8天内即2015年6月23日-2015年6月30日间是否会在各检测点上发生点击行为。 利用数据挖掘技术可以帮助获得决策所需的多种知识。在许多情况下,用户并不知道数据存在哪些有价值的信息知识,因此对于一个数据挖掘系统而言,它应该能够同时搜索发现多种模式的知识,以满足用户的期望和实际需要。此外数据挖掘系统还应能够挖掘出多种层次(抽象水平)的模式知识。数据挖掘系统还应容许用户指导挖掘搜索有价值的模式知识

2019年微博用户分析

2019年微博用户分析 一份新的数据报告详细展示了中国总体主要社交产品的用户数据和使用情况,包括微信,微博,陌陌,百度贴吧,多闪等。这本报告由极光大数据发布,报告使用的数据终止到2019年2月。 这份报告说,到19年2月末,整个社交网络行业的用户装机规模是9.73亿,安装渗透率达到88.5%。熟人社交仍然是主流,有67.1%的用户对熟人的主动性高于对陌生人。但是,陌生人社交的市场也很大,有三成用户对陌生人和熟人的主动性一致。 下面我们看下主要的社交产品的数据。微信仍然是当之无愧的国民级应用,月活用户达到9.9亿(甚至超过2月底整个社交行业的用户数,一个解释是,用户会在手机上卸载产品),日均使用时长是64分钟,日均启动次数达到17次。有超过5成的用户表示对微信比较依赖或非常依赖。 就微信而言,超过1成用户好友人数多于500人,超过2成用户微信好友人数在200人到500人之间。但是,实际上有超过6成的用户,每周交流的人数不超过20人。 用户发朋友圈的频率差异也很大。4成用户每天都发,与此同时,有2成用户一个月发不到一次。不过,大家倒都很爱看别人发的内容。有9成用户每周会刷朋友圈,有6成用户每天都会刷朋友圈。

发朋友圈和刷朋友圈的频次跟年龄相关性很强。报告说,年龄越大的用户,朋友圈发和刷都越勤:“近6成60后用户每天发朋友圈,而00后发朋友圈的频次最低,仅14.9%的00后每天发朋友圈。” 腾讯的另一款社交产品QQ的月活用户是6亿,日均使用时长也有57分钟。 在腾讯的两款产品之后,最大的社交网络产品是新浪微博。它的月活用户达到3亿,日均使用时长是34分钟。 此外,新浪微博用户明显要更加年轻。25岁以下的用户占了微博用户的57.4%。在微博的用户中,男性用户更喜欢表达观点,因此发微博更频繁。女性用户更喜欢关注名人状态,因此更喜欢刷微博而不是发微博,有18.4%的女性用户几乎从不发微博。 其他主要的社交产品中,陌陌的月活用户达到4783万,日均使用时长31分钟;百度贴吧的月活用户也超过了4000万,日均使用时长为30分钟。其他两个老牌社区豆瓣和虎扑用户数量也很大。豆瓣的月活用户达到601万,日均使用时长21分钟;虎扑月活用户671万,日均使用时长46分钟。 最后再来看两个社交领域的新星,音遇和多闪。音遇是一款音乐社交产品,月活是589万,日均使用时长达到40分钟。多闪的用户

新浪微博分析报告

新浪微博分析报告

新浪微博分析报告 新浪微博加粉丝,完善个人资料。最好用自己的真实姓名(或有趣的匿名)、真实的头像(美女、帅锅或有趣的头像)、个人介绍(可以是搞笑的吸引人的)。真实的信息让人觉得更可信,会大大提高被收听的几率。 通过微博第三方应用(狠狠转、互粉大厅、粉丝大师、互粉加加、互粉小助手、推兔、爱互粉、推兔互粉等。。。)来添加粉丝数量。最好不要用软件,软件刷的粉丝大多是死粉,且用软件刷还很容易被封号。 我发现想让一个人转发或评论你的微博不是件容易的事。首先微博必须有看点(让别人有耐心看下去)、笑点(让别人对你产生兴趣)、创意(让别人新鲜有趣),或者有活动优惠(大部分网民是爱贪便宜的)。且不要刷屏,网民是很反感刷屏的,所以一天发3~5条微博就差不多了。多参加一些热点话题的讨论,尽量把自己的曝光度提升。如:我申请了#第三代搜索技术#这个话题的主持人,那么怎么推广呢?

我们可以点击微博下面的推广, 也可以通过狠狠转的“我要转发”,其他第三方应用也有这项功能, 也可以借助热门话题的力量进行宣传

借助话题,如:#第三代搜索技术#话题镶入#360#、#360好搜#、#奇虎360#等这些热门话题中,从而有了间接的关系,我们可以这样做:这就是借助引流方式。

添加相应的标签,有助于网民的搜索 还有就是借助其他渠道宣传,qq、微信、论坛、软文等。。。。推广方式很多,我也不多说了。 针对一个兴趣(或一个产品)来发布微博,如果每天都发不同的兴趣(或产品)那样会损失一批粉丝。明星就可以不在乎这些,但我们不是,所以要多多与网民互动,培养信任度,这样也有助于提高网民的转帖效率。 微博营销,也就是社会化媒体营销,同微信、论坛、博客、sns社区是一样的,他们不同于其他传统营销,它们的内容都是由用户自愿提供的,而不是直接的雇佣关系,这个就需要社交思维。这种营销方式广泛,易于流行。我们可以从微博、论坛寻找潜在用户,让其进入微信进行一对一交谈,从而成为精确用户进行维护。 最近了解到微博在2014.04月份采取了措施,在微博发微信二维码、微信公众号会被删或封号等

2019年统计学数据分析报告

统计学数据分析报告 一、调查研究方案的设计与组织实施 (一)调查目的 (1)描述和反映本校商学院14级金融系学生对于毕业去向的意向,分析并研究各意向的分布情况; (2)在专业,性别,家庭因素,个人因素等方面对毕业意向的分布进行研究,探究这些因素对于毕业意向分布的影响。(3)分析和解释形成毕业意向分布差异的因素和原因; (二)调查对象和调查单位 本次调查的基本调查对象是本校商学院金融类的部分同学。调查单位为此范围内的每一个同学。 在此基础上,在每个专业内随机抽取样本进行抽样调查,进而对整体进行推断。 (三)调查的组织和实施方法 获取资料的方法:问卷法、文献法本小组采用的基本方法为问卷法,发放问卷60份,收回问卷54份。辅助方法为文献法,通过图书馆和网络获取相关背景资料,对研究素材进行丰富和补充。调查方法:抽样调查抽样方法:分层抽样 将调查对象按专业分为金融工程、金融学和信用管理三个类别,然后从各个类别中随机抽取组成样本,用于对整体进行推断。数据资料整理结果如下:

在全部被调查对象中,男生23人,占43%,女生31人,占57%,金融学18人,占总体1/3,信用管理18人,占总体1/3,金融工程18人,占总体1/3。选择考研的有14人,占总体的26%。选择出国深造的有1人,占总体的2%。选择自主创业的有3人,占总体6%。选择直接就业的有29人,占总体54%。选择考公务员的有7人,占总体12%。 (四)调查时间和调查期限 调查时间:20XX年5月9日 调查期限:20XX年5月9日―20XX年5月14日(五)调查项目和调查表 调查项目:性别年级专业毕业意向家庭收入情况性格特点就业优势调查表如下: 二、统计数据的整理和分析 (一)总体分布情况与相关分析 根据问卷统计的数据得到的频数分布表和毕业意向分布饼图如下: 由上表可以得到以下结论: 选择直接就业的人数占总体的比例最大,占总体的54%其次是选择考研和考公务员,分别占总体的26%和12%。 选择出国深造和自主创业的人数最少,只占总体的2%和6%。可以看出大部分同学的毕业意向集中在直接就业和考研两个方面,而出国深造和自主创业对本校商学院来说仍旧是比较冷僻的意向。

用户行为分析

一、什么是用户行为分析: 用户行为分析:在获得网站访问量最基本数据的情况下,对有关数据进行统计、分析,从中发现用户访问网站的规律,并将这些规律与网络营销策略相结合,从而发现目前网络营销活动中可能存在的问题,并为进一步的修正或者是重新制定网络营销策略提供依据。 以上只是很多种情况中一种———-针对网站的用户行为分析。那么,对于目前的互联网行业成千上万的产品,我们又该如何重新定义用户行为分析呢?重新定义的用户行为是什么呢? 1、分析用户行为,那我们应该先确定用户群体特征; 2、用户对产品的使用率。网站类产品主要体现在点击率、点击量、访问量、访问率、访问模块、页面留存时间等等;移动应用产品主要体现在下载量、使用频率、使用模块等等; 3、用户使用产品的时间。比如用户基本是每天中的什么时候使用产品。 综合以上说说的几点,其实用户行为分析可以这样来看:用户行为分析就是对用户使用产品过程中的所有数据(包括下载量、使用频率、访问量、访问率、留存时间等等)进行收集、整理、统计、分析用户使用产品的规律,为产品的后续发展、优化或者营销等活动提供有力的数据支撑。 二、用户行为分析方式都有哪些? 既然是对用户的行为进行分析,那么在得到数据后,我们需要如何进行行为分析呢?分析方式有哪些呢?这里我们主要从几个维度来分析:方式、侧重、优缺点。应该具体从何开始呢?我们先说说用户行为分析的方式: 1、网站数据分析。通过对每个模块的点击率、点击量、访问量进行数据捕获,然后进行分析; 2、用户基本动作分析。用户访问留存时间、访问量等; 3、关联调查数据分析。主要在电商上的相关推荐、你可能喜欢等等; 4、用户属性和习惯分析。对用户属性和用户习惯两个维度进行分析。用户属性包括性别、年龄等固有的;用户习惯包括用户的一起喜爱度、流量习惯、访问习惯等等; 5、用户活跃度分析。 综合以上可以概括为:以数据分析为导向、以产品设计反馈为导向、以对用户的调查为导向。通过上面的分析方式,我们需要整理出每种方式的分析侧重点。那么,下面我们谈谈用户行为分析的侧重点,主要有以下几点: 1、网站数据分析的侧重点:数据监测、挖掘、收集、整理、统计。 2、用户基本动作分析侧重点:统计用户基本信息,比如:性别、年龄、地域,分析用户群体; 3、关联分析侧重点:分析数据为精准营销提供数据支撑; 4、用户活跃度侧重点:主要是用户的使用频率进行分析,可以得出分析为什么用户喜欢使用这个产品这个功能。 三、用户行为分析的工具有哪些?如何做好用户行为分析? 工欲善其事必先利其器,我们知道了我们需要做什么事情,那么我们应该用什么工具来提高效率呢?

微博活动总结报告

微博活动总结报告 篇一:微博营销之微活动推广总结 微博营销推广:微活动推广总结 ——礼氏物语有奖转发微活动总结 一、活动内容 引言:这次微活动是礼氏物语有奖转发的第一期活动,主要是为礼氏物语微博活动接下来的活动预热。活动主要流程是关注@礼氏物语新浪微博:/lishiwuyu。礼氏物语微博活动强力出击第二弹,大奖等着来拿~~ 活动具体内容:#我的中秋国庆梦想之旅#有奖转发微活动,赢取阳澄湖大闸蟹(3对,每对 两) 二、活动成果 1、活动中带来新增粉丝约938个,多数为偏好转发类活动的粉丝。活动结束一周后粉丝数量:2738人,粉丝流失量约:40人左右 2、活动转发人数:789人 3、转发和评价:活动共计1089次转发,831人参与互动,其中成功转发用户数为789个,其中包括公司同事微博转发以及公司自有其他微博转发10个左右。 3、活动成本: 阳澄湖大闸蟹:199元×3=597元

快递运费:约70元左右 合计约:660元左右 4、活动转发数据图 图片1:最近7天活动参与,成功转发,总转发数的统计 图片2:参与有奖转发粉丝统计数据 三、参与转发理由分析 1. 纯属喜欢参与各种转发活动碰运气(主要是僵尸粉,以及微博游民),这是所有有奖转 发活动的通病,多数参与转发的都是基于奖品。这是参与转发人数最多的一部分粉丝。理由是:此类账号其微博内容多数为转发有奖活动的信息,而且不参与话题的互动,多数评论是“感谢小编带来奖品”或是“奖品很吸引人”之类的;二次转发率较低,较多的用户是专门关注各类企业和新浪的官方活动账号。 2. 络营销能力秀学生参与转发的人数较多,且转发的频率较高,经常是复制式的转发, 经常是转发@相同的同学。一部分是为了奖品,另外一部分据说是因为能力秀要求关注礼氏物语微博。 3. 对话题感兴趣的,参与到互动转发的粉丝,极少的一部分。 4. 原有粉丝的友情支持,以及公司同事微博或是自有

统计学数据分析报告记录

统计学数据分析报告记录

————————————————————————————————作者:————————————————————————————————日期:

统计学数据分析报告 一、调查研究方案的设计与组织实施 (一)调查目的 (1)描述和反映本校商学院14级金融系学生对于毕业去向的意向,分析并 研究各意向的分布情况; (2)在专业,性别,家庭因素,个人因素等方面对毕业意向的分布进行研 究,探究这些因素对于毕业意向分布的影响。 (3)分析和解释形成毕业意向分布差异的因素和原因; (二) 调查对象和调查单位 本次调查的基本调查对象是本校商学院金融类的部分同学。 调查单位为此范围内的每一个同学。 在此基础上,在每个专业内随机抽取样本进行抽样调查,进而对整体进行推断。 (三)调查的组织和实施方法获取资料的方法:问卷法、文献法 本小组采用的基本方法为问卷法,发放问卷60份,收回问卷54份。 辅助方法为文献法,通过图书馆和网络获取相关背景资料,对研究素材进行丰富和补充。 调查方法:抽样调查 抽样方法:分层抽样 将调查对象按专业分为金融工程、金融学和信用管理三个类别,然后从各个类别中随机抽取组成样本,用于对整体进行推断。 数据资料整理结果如下:

在全部被调查对象中,男生23人,占43%,女生31人,占57%,金融学18人,占总体1/3,信用管理18人,占总体1/3,金融工程18人,占总体 1/3。选择考研的有14人,占总体的26%。选择出国深造的有1人,占总体的2%。选择自主创业的有3人,占总体6%。选择直接就业的有29人,占总体54%。选择考公务员的有7人,占总体12% 。 (四)调查时间和调查期限 调查时间:2016年5月9日 调查期限:2016年5月9日―2016年5月14日 (五)调查项目和调查表 调查项目:性别年级专业毕业意向家庭收入情况性格特点就业优势 调查表如下: 毕业意向 专业性别 考研出国深造自主创业直接就业考公务员金融工程男7 0 0 0 6 1 女11 2 0 0 8 1 金融学男8 2 1 0 4 1 女10 6 0 1 2 1 信用管理男8 1 0 1 5 1 女10 3 0 1 4 2 合计54 14 1 3 29 7 二、统计数据的整理和分析

新浪微博研究报告

新浪微博研究报告 前言:这份报告是对新浪微博的全方位解读。新浪目前已经在微博领域赢得先发优势,在用户数量上正试图与腾讯相抗衡,不过在公司营收上,其最大竞争对手是百度。我们给予新浪微博20亿美元估值,并认为其将挑战腾讯在社交应用领域的霸权。腾讯在规模上有优势,但是新浪在影响力上占了上风。与此同时,我们维持新浪“持有”评级,但是将其目标价上调最高至80美元。在中国新一轮SNS爆发期,我们认为腾讯将在营收上领先于新浪。 摘要:不到一年时间,已经有14%的中国互联网用户使用微博,其中新浪的市场份额接近87%,腾讯接近8%(附1) 新浪目前正遭到腾讯全产品线的围攻,在综合六类互联网社交沟通产品的整体市场份额对比中,腾讯占有88%份额,但新浪只有2%; 我们对新浪微博估值为20亿美元。估值的一半依据来自广告收入,另一半依据增加用户活跃程度所带来的营收;但是这样一来会造成对新浪自身其他板块的营收总体照成20%的减额。 如果以40x2011PE(36x ex-cash)衡量,新浪已经很贵;但以28x2012PE(24x ex-cash)估算,新浪股价将是合理的。 研究正文(共分为九大部分) 1.按浏览时间衡量新浪微博占87%市场份额 自新浪推出微博产品一年后,中国已有14%的互联网用户使用微博服务,在中国最常用网络应用程序中排名第16位。2010年中国微博用户增加5倍,总浏览时间增加11倍。在移动互联网领域,微博的上述市场份额更高。按总浏览时间衡量,新浪微博以87%份额居统治地位,按活跃用户数衡量,新浪微博的市场份额为54%(2010年11月数据)。新浪将继续引领微博产品的创新。 新浪推出微博产品后的股价表现注:以下图片如无特殊说明,均来自MIRAE ASSET 2.新浪微博与腾讯的整体数据对比 单纯对比新浪微博与腾讯微博的做法并不可取。正确的方法应该是对比新浪微博与腾讯Qzone,腾讯Qzone目前也是腾讯全社交战略(total SNS)的核心。腾讯全社交战略(total SNS)包括博客、IM、邮箱、BBS、SNS以及最新发布的免费短信应用微信(Kik),此战略的目的是提供一站式平台服务,满足网络用户的各种在

微博调研报告

微博调研报告 微博自从2007年开始兴起,2010年是微博在中国高速发展的一年,2011年中国的微 博依旧是受欢迎的服务,但总的增长速度有所降低,甚至是有所下降,这说明微博服务经 过一两年的高速发展之后开始逐步进入平稳期。纵观微博的发展,可以说微博已经改变了 传统的媒体和信息传播模式,带动了公众数字化发展的潮流。 国内新浪和腾讯微博现状 4月6日,DNG数据调研中心发布2011一季度国内微博调研报告,报告称国内微博形 成两大阵营,新浪和腾讯居第一阵营,在人气榜、媒体影响力和基于微博开放平台应用软 件等三方面都处于领先地位;搜狐和网易处于第二阵营,全面落后于第一阵营。以目前的 状况来看,微博的霸主地位将在新浪和腾讯之间展开争夺已是无可争辩的了。 据报告显示,在人气榜方面,腾讯凭借其强大的QQ用户群,排行榜首的刘翔粉丝数已达1400万之多,居于领先地位,新浪微博排行榜首的姚晨粉丝数为700多万,处于追赶地位:在媒体影响力方面,DNG选择李泽楷和梁洛施分手、大S和汪小菲结婚、利比亚战争 和日本地震等四大热门事件作为参考指标。从博友围观来看,新浪凭借着自身的新闻优势 仍然有优势,但优势地位在缩减。在前三个事件中,新浪微博仍然居于第一位,腾讯则在 日本地震事件中超越了新浪。按照这样的趋势,腾讯微博媒体影响力可能会超越新浪微博;在基于微博开放平台应用软件方面,新浪凭借其动手早和强大品牌知名度,无论是在软件 数量还是种类上都居于第一位。而在日前bShare公布的2011年3月份社会化分享量排行 榜单中,腾讯微博上升了一名,赶过开心网成为新科第4名,新浪微博位居于第2位,QQ 空间依旧是平台里的老大。有分析称,腾讯微博和新浪微博谁将会成为最终的霸主,今年 之内应该会有答案。 微博产生和流行的原因 微博产生的原因 现代社会,人们追求个体自由,市场经济也需要能够独立选择的个体存在,才能实现 价值的交换。人们摆脱了封建社会的族群、出身和等级。此外,启蒙运动之后,神学日渐 式微,人们的理性和科学精神日益增强,这就是马克斯@韦伯所说的“祛魅”,一切形而上的神灵都作为迷信人们抛弃,人们为了自由不愿意受宗教的束缚。然而,自由却给人们带 来了另外的困境,按照弗洛姆的思想,在这个世界中,只有过去和死亡是确定的,而其余 一切都是不确定的,变化无常的。个体化使“孤独日益加深”,而且个人的欲望不断滋生 但现代社会却无法满足所有个人的欲望,个人面对强大世界的危险自能独自承担。也就是说,人摆脱了束缚,获得了自由,但却没有自决的能力来驾驭这种自由。“解决个体化的 人与世界关系的唯一可能的创造性方案是:人积极地与他人发生联系,以及人自发地活动——爱与劳动。”(弗洛姆《逃避自由》)人们需要广泛的归属感,认同感,而事实上, 身边的同事是竞争关系,家人虽然有亲情在,然而却未必是知心人。所以,网络的交流就 成为了主流了。QQ、SNS交友网站只能小范围的和人交流,而博客却需要写长篇的文章, 并且要用电脑。在繁忙的社会生活中,人们大多没有时间和精力来进行长篇大论,但又想 将自己的灵感和思想公之于众。所以微博的产生为我们提供了一个很好的渠道。现在,手 机的WAP、3G业务日益发达,微博可以用手机发布,这种“公开的短信“就理所当然地成

淘宝用户行为数据分析(例)

淘宝用户行为数据分析报告(例)

01 分析背景 选取了2017年11月25日至2017年12月3日之间,有行为的约500名随机用户的所有行为(行为包括点击、购买、加购、喜欢),数据量约5万,分析了用户行为与商品规律。 02 分析思路

03 分析过程 3.1 前提 数据来源:阿里天池。 分析工具:MySQL 8.0,Navicat for MySQL。绘图工具:Excel。 对数据进行数据清洗后再进行进一步分析,处理过程略,下文中仅显示数据处理后结果,不展示处理过程。 3.2 整体数据 3.2.1 数据体量 3.2.2 整体数据概览 3.2.3 日均数据概览

从图中数据可以看出,12月2日和12月3日的日访客数和点击数较前几日更多,可能由于这两日为周末,且双十二临近,但访客数与点击数的提升并未影响成交量,因缺少后续数据,故暂时推测为这是为双十二活动预热。 3.3 用户分析 3.3.1 复购率和跳失率

复购率=购买次数>1的用户/所有购买用户 跳失率=点击次数为1的用户/所有点击用户 从复购率可以看出,一半以上的用户有复购行为,且跳失率为0,说明淘宝对用户有足够的吸引力,让用户停留。 因仅有9天的数据,对用户复购时间特征没有足够的数据进行分析,因此没有对复购时间特征进行分析。 3.3.2 用户行为分析 用户行为可分为四种:点击、收藏、加购、购买,对这四类行为进行分析。

因用户购买途径有4种:点击-购买;点击-收藏-购买;点击-加购-购买;点击-收藏-加购-购买。因此,从上图中暂时无法判断点击、收藏、加购与成交数的关系,需进一步分析。 将用户成交方式分为四类:仅有点击行为;仅有收藏行为;既有收藏行为又有加购行为;仅有加购行为。分别计算出这四类人群的成交率。成家率=有下单行为的该类用户/该类用户总人数。可以看出,有收藏加购行为的和仅加购用户的购买率相较另外两者更高,因此,可以推测,用户的加购行为在一定程度上可以提高成交率。 3.3.3 用户时间分布分析 以日为单位对用户行为进行分析,可以看出,加购量与点击量几乎呈正相关趋势,收藏数与点击数相关性也较好,而购买量则与其他量没有呈现出明显的相关性。由前文我们已经推测,12月2日与12月3日点

微博使用情况调查报告

微博使用情况调查报告 一、导言 微博这一新事物正被越来越多的大学生所认识并使用,但我们对微博的使用给大学生的日常行为、思想道德、学习风气等方面产生的影响。为充分真实地了解当前大学生使用微博情况,进一步了解当前大学生的思想道德方面的情况,,我们小组通过抽样问卷调查的形式,抽取部分大学生作为调查对象,对大学生进行了一次使用微博状况调查。通过调查,我们了解了我校大学生使用微博的情况,以及分析得到我校大学生思想道德方面的情况,并提出相关的建议。 二、调查情况 1、调查范围、对象:我校的16个系不同年级的大学生,基本上反映了不同性别、不同年级、不同学科、不同专业的学生。 2、调查方式:采用抽样调查,直接访问调查法与网络调查法相结合,采集数据,保证客观事实。 3、调查时间:XX年9—10月 4、资料收集:本次发放问卷100份,回收情况如下:男生38个 (%),女生37个 (%); 大一(1个,%),大二(67个,%),C大三(6个,8%),大四(1个,%)。(由于我们是大二的学生,所以调查的对象会集中在大二,因此会对本次造成一定的影响。)

三、本次调查数据分析 1、微博的用户数据分析 通过数据分析,我们得到现在大学生基本上都有微博。 2、没有使用微博的原因分析 根据数据分析,我们已经知道大学生不了解微博的几乎为零,但我们大学生却不使用微博,下面我们来看看其中的原因。在没有使用微博大学生中油个说已经有QQ、博客、MSN 等等,不需要微博,而且那些能比较及时可以和朋友们联系;另外3个对微博不感兴趣,而且微博更新的很快,如果你没有浏览之前的,它就会被覆盖掉,要花费一定的时间去查阅。 3、注册使用微博原因分析 通过数据可知,%大学生使用微博是用来打发时间,这可说明大学生对于时间充分利用的观点并不强,大学还是一个学习的空间,时间应该还是挺紧迫的,但现在的大学生却用微博却打发时间,大学生的学习责任感还需继续提高。%大学生使用微博随时表达自己的观点,说明微博可以让我们无阻碍的把自己的观点、意见、情绪在全社会面前释放,让他们感觉不到束约,这会对大学生的思想受到双面的影响。%会利用微博关注熟人、朋友的动态,这说明大学生与朋友的联系是挺密切的,会动的通过各种方法去主动关心朋友,这是我们值得提倡的。%大学生认为周围的人都在用微博,自己不用就会落伍。虽然说现在的年轻人是很喜欢跟随时代的

统计年报分析报告

***统计年报分析报告 基层统计工作担负着为上级党政决策提供科学依据,为社会经济发展提供优质服务的神圣使命,是国家统计最基本的根基。2014年我办事处统计工作在市委、市政府的正确领导下和上级各单位的精心指导及有关部门的密切配合下,以践行党的群众路线重要思想作为统计工作的出发点和落脚点,紧紧围绕统计和党工委的中心工作,开拓创新,狠抓落实,工作取得了新的成绩。充分发挥了统计信息、咨询和监督的整体功能,为我市社会经济发展作出了应有的贡献。 近年来,我办事处经济发展态势虽然平稳增长,特备是在第三产业发展方面取得了较好的成绩,但与周边乡镇相比,在工业经济发展增速方面还有一定的差距。 一、企业发展方面 主要是工业发展空间不足。与豫龙镇相比,我办事处位臵处于我市的城区地带,现已无可发展工业企业的空间,我办管辖范围已全部处于城控区域内,陇海线以南全部都规划为商住用地,工业用地仅有道北建设路京城路以西的部分土地,新上企业已没有土地可用。造成规模工业总产值、规模工业增加值、工业企业固定资产投资严重不足,从而影响了财政总收入等方面的落后。 2、是部分工业企业由于受到环境污染因素或城中村改造的影响将逐步减少。我辖区工业企业主要以磨料、服装、

食品和机械加工为主导产业。辖区原有磨料磨具企业**市新型氧化铝有限公司、**崟城磨料磨具有限公司、**玉发磨料磨具有限公司、**铝城三星白刚玉厂、**信宇磨料有限公司、河南宏鑫隆磨料磨具有限公司、**市特耐磨料有限公司、**市泰和刚玉有限公司等11家规模以上企业。大部分都建设于1995-1998年左右。2000年左右**玉发磨料磨具有限公司为亚洲产量最大的白刚玉生产销售厂家,在玉发公司为龙头的带领下占据了我国70%以上的白刚玉市场。办事处在2007年关停了达不到要求的**市小天鹅磨料有限公司等3家刚玉企业,2009年又关停了**市鑫源磨料有限公司,2010年关停了**银竹冶炼有限公司,2011年关停了**市太和刚玉有限公司,2012年关停了**特耐磨料有限公司,目前仅有4家2000年以前建设的刚玉企业还在辖区生产,由于一电厂的完全停产,由于我市的电价政策变化,(企业目前电价为0.69元/度,加基本电价为0.72-0.73元/度,上街区企业为0.45-0.47元/度)企业产品逐渐失去市场竞争力,企业都有外迁的意向。辖区刚玉企业完全享受不到优惠电价,并且上街区企业还有峰谷电价的优惠措施,这些企业均在上街或上街邻近的区域建有新厂或分厂,由于企业注册地在我辖区,统计数字还稍偏大,我辖区冶炼已完全停产,仅靠买来冶炼好的刚玉块粉碎制沙来维持经营,真实产值逐年下降,但统计数字逐年累加。磨料企业统计数字除玉发磨料是企业填报的之外,其余几家统计产值均在4亿元以上,有的突破5亿

微博的运营报告

微博和腾讯空间的运营方案 一、漫画微博 微博是一种社交网络平台,它以140个字的长度来书写内容。微博是在博客的基础上开发出来的,首先出现在国外,从08年开始中国开始建设了自己的微博。目前中国最大的微博平台要数新浪微博了,它借助明星路线成长起来,始终坚持着明星或者名人路线的发展方向。微博的实质是社交化关系网,也注定了它是众人关注的热点。在微博上,吸引用户的就是一种分享和交流。你可以将你今天中午吃过的饭,分享给你的朋友;或者你还可以将你买到的一件漂亮衣服分享给你的粉丝。(粉丝就是微博上关注你的用户)微博改变了互联网上很多的局限性,它让你感觉到你的生活收到了很多的关注。再就是微博的用户到现在已经有两个多亿,他们中很多都是拥有高学历或者是高收入的群体,其中学生属于主流。而我们公司的初期目标客户群体定位在校园,那么微博的使用率在学生群体中还是很高的,所以对于我们来说微博必将会发挥很大的作用的。 二、微博的功能和用途 如果我们公司开通了微博账号,我们可以做一些什么呢? 首先,我们可以通过微博去结交很多的目标客户,通过互联网来补充我们传统渠道的不足。因为微博的的使用是一种交互式的的社交工具,所以很多时候,这些目标客户就会成为我们的朋友或者是口碑。他们会分享我们的微博或者@我们,让我们的微博内容可以让他身边的朋友看到,这种病毒式的传播方式,营销效果很好。再就是我们可以通过微博来宣传我们公司的产品或者是我们公司的品牌价值,因为我们的粉丝每天上下线时可以互相打个招呼,就像是邻居一样,每天网上见面问个早安晚安的,很是亲切,并且这种亲切感是不需要支付什么成本就可以建立的。除此之外呢,其实他还有很多的用途,譬如说:在节假日或者促销季节,我们可以通过微博开展一些活动,像转微博送我们公司的产品,或者是参加我们的抽奖。并且这种宣传活动的传播力度会非常的大,因为它会使你粉丝的粉丝成为你的“粉丝”(因为你粉丝的粉丝可以看到我们的促销活动,并且如果我们活动的趣味性够强,可能会是这个粉丝的粉丝成为我们的粉丝,并且自主的去宣传这个活动)在这些方面做得比较成功的有凡客诚品的送“围脖”事件、国外的一个移动贩卖摊、还有北京的背包书店。 三、微博应用中的问题 对于微博的开发也不是像想象中的那么简单,其中还是有很多需要注意的问题的: 一、在微博建立初期,要积累一定量的粉丝。这其中可以采用的方法有很多, 找一些人来互粉、或者刷僵尸粉、也可以去找一些微博营销公司来购买粉丝。 (但是对于这些方法的运用呢,要适可而止,毕竟你是像用微博来开展营销的,所以就要尽可能的去吸收一些目标用户) 二、等到有一定量的人气,可以去申请实名认证,(就是微博平台的开发者, 可以确定你的身份)认证的用处就是可以提高你的信用度,还有他可以提高你的人气,一般加V的认证的人都会的到新浪微博的推荐,也就是说你会被推荐给其它的用户。 三、如何去吸引你的目标客户的眼球,我想这也是工作的主要部分,这里可 以做的工作就是多去关注目标群体关注的话题,然后就是适时发表,注意发表的时间和数量,再就是对产品宣传的内容要控制在每天一到两条(具体看

SPSS简单数据统计分析报告

精选范文、公文、论文、和其他应用文档,希望能帮助到你们! SPSS简单数据统计分析报告

目录 一、数据样本描述 (4) 二、要解决的问题描述 (4) 1 数据管理与软件入门部分 (4) 1.1 分类汇总 (5) 1.2 个案排秩 (5) 1.3 连续变量变分组变量 (5) 2 统计描述与统计图表部分 (5) 2.1 频数分析 (5)

2.2 描述统计分析 (5) 3 假设检验方法部分 (5) 3.1 分布类型检验 (5) 3.1.1 正态分布 (6) 3.1.2 二项分布 (6) 3.1.3 游程检验 (6) 3.2 单因素方差分析 (6) 3.3 卡方检验 (6) 3.4 相关与线性回归的分析方法 (6) 3.4.1 相关分析(双变量相关分析&偏相关分析) (6) 3.4.2 线性回归模型 (6) 4 高级阶段方法部分 (6) 三、具体步骤描述 (7) 1 数据管理与软件入门部分 (7) 1.1 分类汇总 (7) 1.2 个案排秩 (8) 1.3 连续变量变分组变量 (10) 2 统计描述与统计图表部分 (11) 2.1 频数分析 (11) 2.2 描述统计分析 (14) 3 假设检验方法部分 (16) 3.1 分布类型检验 (16)

3.1.1 正态分布 (16) 3.1.2 二项分布 (17) 3.1.3 游程检验 (18) 3.2 单因素方差分析 (22) 3.3 卡方检验 (24) 3.4 相关与线性回归的分析方法 (26) 3.4.1 相关分析 (26) 3.4.2 线性回归模型 (28) 4 高级阶段方法部分 (32) 4.1 信度 (32) 一、数据样本描述 本次分析的数据为某公司474名职工状况统计表,其中共包含11个变量,分别是:id(职工编号),gender(性别),bdate(出生日期),edcu(受教育水平程度),jobcat(职务等级),salbegin(起始工资),salary(现工资),jobtime(本单位工作经历<月>),prevexp(以前工作经历<月>),minority(民族类型),age(年龄)。通过运用SPSS统计软件,对变量进行统计分析,以了解该公司职工总体状况,并分析职工受教育程度、起始工资、现工资的分布特点及相互间的关系。 二、要解决的问题描述 1 数据管理与软件入门部分

微博用户的行为特征及动机分析

课程设计 微博用户的行为特征及动机分析 姓名: 班级: 2012年12月

微博用户的行为特征及动机分析 摘要:微博作为近几年新兴的一种网络应用形式,在诞生不久就以强大的影响力和迅速攀升的用户数量引发了一场“微革命”。本文主要研究这一网络新现象,并以微博用户为研究对象,探究微博用户的行为特征和用户使用微博的动机,以及两者之间可能存在的联系和相互影响关系。 关键字:微博;微博用户;行为特征;使用动机; 1 引言 1.1 研究背景 微博习惯上被理解为“微型博客”,但与博客不同,它更类似于一种引入了社交网络关系结构的即时书写平台。在微博上,用户可以通过电脑、手机、即时聊天工具等多种途径随时随地向网站发布文字(不超过140个字符)、图片和视频,也可以实时关注及转发其他用户发布的信息。 微博具有发布、转发、关注、评论等功能,传播内容具有碎片化和多样性的特点,传播的即时性和互动性以及裂变式、背对脸式的传播特点使得微博用户通过相互关注而构建自己的人际关系网络,同时,微博是将人际传播、组织传播、大众传播整合在一起的平台,这使得微博上的信息能够借助人际圈快速扩散,扩展了微博用户的人际关系,有利于个人的自我呈现和表达[1]。 在微博出现后三到四年的时间里,其用户数量迅速攀升,影响力不断扩大,被认为引发了一场极具意义的“微革命”。微博以强大的用户粘度、交互性和随时随地的信息传播等特点,一方面极大地改变着人们的信息获取、人际交往和休闲娱乐等工作、学习和生活方式,另一方面又给传统媒体的发展、信息把关等旧问题带来新挑战,成为很多学者和社会媒体广泛关注的对象[2]。 1.1.1 微博在国内外的发展状况 (1)微博在国外的发展状况 美国的埃文.威廉姆斯(Evan Williams)和俗利兹.斯通(Biz Stone)于2006年3月创办最早的微博Twitter时只是为了促进公司工作成员之问的沟通,以便及时地了解员工动态,随着该平台的信息发布优势显现,他们看到了其所蕴含的潜在价值,于是他们向全世界推出了正式版本的Twitter。在最初阶段,Twitter 的功能十分有限,只用于向好友的手机发送文本信息。2006年底,obvious公司对Twitter进行了升级,此后,Twitter用户可以通过即时信息服务和个性化

微博营销分析工作报告

微博营销分析工作报告 p.p1 {margin: 0.0px 0.0px 8.0px 0.0px; font: 14.0px 'Hiragino Sans GB'; color: #000000; -webkit-text-stroke: #000000}p.p5 {margin: 0.0px 0.0px 8.0px 0.0px; font: 14.0px 'Hiragino Sans'; color: #000000; -webkit-text-stroke: #000000}li.li2 {margin: 0.0px 0.0px 8.0px 0.0px; font: 12.0px 'Hiragino Sans GB'; color: #000000; -webkit-text-stroke: #000000}li.li3 {margin: 0.0px 0.0px 18.0px 0.0px; font: 12.0px 'Hiragino Sans GB'; color: #000000; -webkit-text-stroke: #000000}li.li4 {margin: 0.0px 0.0px 18.0px 0.0px; font: 12.0px 'PingFang SC'; color: #000000; -webkit-text-stroke: #000000}li.li6 {margin: 0.0px 0.0px 8.0px 0.0px; font: 12.0px 'Hiragino Sans'; color: #000000; -webkit-text-stroke: #000000}li.li7 {margin: 0.0px 0.0px 18.0px 0.0px; font: 14.4px 'Helvetica Neue'; color: #000000; -webkit-text-stroke: #000000}li.li8 {margin: 0.0px 0.0px 0.0px 0.0px; font: 12.0px 'Hiragino Sans GB'; color: #000000; -webkit-text-stroke: #000000}span.s1 {font: 14.0px 'Hiragino Sans'; letter-spacing: 0.2px}span.s2 {letter-spacing: 0.2px}span.s3 {font: 14.4px

SPSS简单数据统计分析报告

SPSS简单数据统计分析报告

目录 一、数据样本描述 (4) 二、要解决的问题描述 (4) 1 数据管理与软件入门部分 (4) 1.1 分类汇总 (4) 1.2 个案排秩 (5) 1.3 连续变量变分组变量 (5) 2 统计描述与统计图表部分 (5) 2.1 频数分析 (5) 2.2 描述统计分析 (5)

3 假设检验方法部分 (5) 3.1 分布类型检验 (5) 3.1.1 正态分布 (5) 3.1.2 二项分布 (6) 3.1.3 游程检验 (6) 3.2 单因素方差分析 (6) 3.3 卡方检验 (6) 3.4 相关与线性回归的分析方法 (6) 3.4.1 相关分析(双变量相关分析&偏相关分析) (6) 3.4.2 线性回归模型 (6) 4 高级阶段方法部分 (6) 三、具体步骤描述 (7) 1 数据管理与软件入门部分 (7) 1.1 分类汇总 (7) 1.2 个案排秩 (8) 1.3 连续变量变分组变量 (10) 2 统计描述与统计图表部分 (11) 2.1 频数分析 (11) 2.2 描述统计分析 (14) 3 假设检验方法部分 (16) 3.1 分布类型检验 (16) 3.1.1 正态分布 (16)

3.1.2 二项分布 (17) 3.1.3 游程检验 (18) 3.2 单因素方差分析 (22) 3.3 卡方检验 (24) 3.4 相关与线性回归的分析方法 (26) 3.4.1 相关分析 (26) 3.4.2 线性回归模型 (28) 4 高级阶段方法部分 (32) 4.1 信度 (32) 一、数据样本描述 本次分析的数据为某公司474名职工状况统计表,其中共包含11个变量,分别是:id(职工编号),gender(性别),bdate(出生日期),edcu(受教育水平程度),jobcat(职务等级),salbegin(起始工资),salary(现工资),jobtime(本单位工作经历<月>),prevexp(以前工作经历<月>),minority(民族类型),age(年龄)。通过运用SPSS统计软件,对变量进行统计分析,以了解该公司职工总体状况,并分析职工受教育程度、起始工资、现工资的分布特点及相互间的关系。 二、要解决的问题描述 1 数据管理与软件入门部分 1.1 分类汇总

相关主题
文本预览
相关文档 最新文档