针对微博用户信息的数据挖掘分析
- 格式:docx
- 大小:77.71 KB
- 文档页数:6
社交网络中的数据分析与挖掘随着互联网的迅猛发展,社交网络成为了人们日常生活中不可或缺的一部分。
我们可以通过社交网络和朋友们保持联系,获取新的信息和知识,分享自己的生活和思想。
同时,随着数据挖掘技术的发展,我们也可以通过社交网络中的各种数据,来挖掘用户的行为习惯、个性特征和情感倾向。
一、社交网络中的数据类型社交网络中的各种操作行为和内容,如个人资料、发表的文章、浏览历史、评论和点赞等,都会被记录下来。
这些数据可以被分成以下几个类型:1. 用户个人信息:例如姓名、性别、年龄、地理位置、职业、爱好等。
2. 用户行为数据:包括发布的内容、点赞、评论、转发、关注、私信、浏览和搜索历史等。
3. 数据关系:用户之间的关系网络,包括好友关系、粉丝关系、关注关系等。
4. 文本数据:包括用户发布的文字内容,如微博、朋友圈、评论和私信等。
5. 图片、视频数据:包括用户发布的图片、视频等多媒体内容。
二、社交网络中的数据分析与挖掘应用1. 社交网络情感分析情感分析是一种将自然语言处理和机器学习技术结合起来的技术,可用于分析社交网络用户发表的文字内容,并判断其中包含的情感倾向。
例如,可以通过对用户发表的带有标签的评论进行情感分类,判断该评论是正面、中性还是负面的。
2. 社交网络推荐系统社交网络平台与许多其他应用程序常常充当基于兴趣的推荐系统。
根据用户的兴趣和行为数据,推荐系统会向用户提示可能感兴趣的人、内容和社区。
这些推荐系统常常基于机器学习模型和大规模的数据挖掘算法构建。
3. 社交网络网络分析社交网络中的各种关系可以用网络图的形式呈现,根据节点的度、网络密度等统计指标,可以分析出某一社交圈子或社区的特征。
通过网络分析算法,可以找到关键节点、社区、子图等。
网络分析可以揭示个体之间的关系,以及这些关系的长期变化规律。
4. 社交网络用户画像社交网络还可以用于用户画像的建立。
根据用户在社交网络平台上的行为、兴趣和其他数据,可以对用户进行分析和分类,并建立用户画像。
社交网络数据挖掘与分析一、社交网络数据挖掘概述社交网络数据挖掘是一种从社交网络中提取有用信息的技术过程。
因为社交网络已经成为了很多人生活的一部分,所以社交网络数据挖掘也变得越来越重要。
社交网络数据挖掘可以用于许多领域,例如社交推荐、情感分析、社交媒体营销等。
二、社交网络数据挖掘方法社交网络数据挖掘有许多方法,包括:文本挖掘、网络分析、机器学习等。
下面分别介绍它们的具体内容。
1. 文本挖掘文本挖掘是从文本数据中提取知识的过程。
在社交网络中,文本数据通常是指用户发表的帖子、评论、私信等。
文本挖掘的任务包括情感判断、主题提取、关键字提取等。
以情感判断为例,我们可以通过分析用户发表的评论来判断用户对某个话题的态度是积极的还是消极的。
2. 网络分析网络分析是指分析社交网络中的用户之间的互动关系。
社交网络中的用户可以通过关注、点赞、分享等方式进行互动。
通过网络分析,我们可以了解哪些用户之间交流比较频繁,哪些用户之间交流不太频繁等。
通过对这些数据的分析,我们可以了解用户的兴趣、好友、群组等信息。
3. 机器学习机器学习是指通过训练模型来预测新数据的过程。
在社交网络中,我们可以通过机器学习方法来预测用户的兴趣和行为。
以兴趣预测为例,我们可以通过分析用户的历史行为来预测用户可能感兴趣的话题。
这对于社交推荐来说非常重要。
三、社交网络数据挖掘应用社交网络数据挖掘可以应用于许多领域,下面分别介绍它们的具体内容。
1. 社交推荐社交推荐是指通过挖掘用户在社交网络中的行为数据,提供个性化、精准的推荐服务。
以朋友圈为例,我们可以通过分析用户在朋友圈中发布的内容和与之交互的用户,来向用户推荐他们感兴趣的内容、关注的用户等。
2. 情感分析情感分析是指从文本数据中挖掘出句子或文章的情感(如积极、消极、中立等)。
社交网络中的文本数据非常丰富,通过对用户评论、点赞等行为的分析,我们可以挖掘出用户对某个话题的情感倾向,如用户对某个品牌的态度、对某个事件的反应等。
社交媒体数据挖掘与分析随着社交媒体的普及,人们已经习惯了在社交媒体上分享和交流信息。
教育、政治、经济、文化乃至个人生活已经开始逐渐依赖社交媒体。
社交媒体平台上的数据包含大量的用户信息、关系网络和实时信息,这些数据对于企业、政府、学术界以及社会发展都具有重大意义。
社交媒体数据挖掘与分析是一种获取和处理社交媒体数据的方法,可以帮助人们了解社交媒体上所涉及的话题、人物和群体的行为、偏好和态度等信息。
本文将从社交媒体数据的来源、数据挖掘与分析方法、数据应用等方面来介绍社交媒体数据的挖掘与分析。
一、社交媒体数据的来源1.主流社交媒体平台目前,主流的社交媒体平台包括微博、微信、Facebook、Twitter、Instagram、Snapchat、YouTube等。
这些平台都非常受欢迎,拥有大量的用户和互动信息。
因此,分析这些平台上的数据可以帮助我们了解用户的行为和态度。
2.个人博客除了主流的社交媒体平台外,个人博客也是一种重要的社交媒体数据来源。
博客是一种自由的表达和交流的平台,博客主人可以在博客上发布文章、图片和视频等内容,同时博客上的读者也可以发布评论和提出问题。
通过分析个人博客中的内容和互动,我们可以了解到一些非主流意见和观点。
3.论坛和社区在互联网上,有很多针对特定领域的论坛和社区,例如汽车玩家论坛、游戏玩家社区等。
这些社区吸引了一大批热衷于特定领域的人们。
通过分析这些社区的数据,我们可以了解到社区成员的行为和态度,更好地了解他们的需求和兴趣。
二、社交媒体数据的挖掘与分析方法社交媒体数据挖掘与分析是一个多学科交叉的领域,其中涉及计算机科学、数据科学、社会学、心理学等多个学科。
常见的社交媒体数据挖掘与分析方法包括以下几种。
1.基础统计分析基础统计分析是一种最简单的社交媒体数据分析方法。
它包括计算某个指标的平均值、标准差、最大值和最小值等。
这种方法可以用来了解数据集的整体情况,但是不够深入,无法发现数据间的内在联系。
微博用户行为及其分析方法随着社交网络的兴起,微博已经成为了很多人日常生活中不可或缺的一部分。
作为一种虚拟社交工具,微博用户行为的研究已经成为了社会学、心理学、传播学、计算机科学等领域的研究热点。
本文将对微博用户行为及其分析方法进行综述。
一、微博用户行为的特点1、短小精干的表达方式微博用户的信息表达方式主要以短小精干的形式为主,这种表达方式比较容易被用户接受和传播,也符合现代人们追求快捷、简单、直接的表达方式,因此在社交网络中具有广泛的应用。
2、关注社会热点事件微博用户喜欢关注社会热点事件,这种行为不仅可以扩大自己的社交圈,还可以获取最新的信息和观点,从而更好地参与社交活动和社会事件。
3、交流互动和社交微博用户更喜欢在互动和社交方面进行行为,不仅可以增强自己在社交网络中的影响力,还可以互相借鉴、反思、分享各种知识和社会经验。
二、微博用户行为的分析方法1、社会网络分析社会网络分析是一种基于“节点”和“连边”理论的分析方法,它主要研究人与人之间的各种社交行为,包括信息传播、影响力分析、社交群落的发现和演化规律等。
2、文本分析文本分析是一种通过计算机技术对文本信息进行挖掘和分析的方法,它涉及到自然语言处理、信息检索、数据挖掘等领域,在微博用户行为分析中,文本分析主要用来分析微博用户的话题、情感和用户行为等方面。
3、空间分析空间分析是一种基于地理信息系统技术的分析方法,它可以将微博用户在社交网络中的行为与地理位置信息结合起来,探索用户的社交活动区域、影响范围、人口分布等方面的规律。
三、微博用户行为分析的应用1、舆情监测微博用户行为分析可以帮助政府、企业、媒体等部门对公众舆情进行监测、预警和应对,发现和解决重大社会事件,维护社会稳定和民生和谐。
2、粉丝分析微博用户行为分析可以帮助新媒体账号的管理者了解其粉丝的属性、兴趣和行为等方面,从而更好地制定运营策略,增加用户黏度和社交影响力。
3、市场分析微博用户行为分析可以帮助企业了解消费者的购买行为、偏好和需求等方面的信息,从而制定更精准的营销策略,提高市场竞争力。
数据挖掘在社交网络中的应用分析社交网络已经成为了人们日常生活中不可或缺的一部分,越来越多的人通过社交网络与他人进行沟通交流,分享生活中的点滴。
这些大量的数据给数据分析带来了巨大的挑战和机遇。
数据挖掘技术在社交网络中的应用分析已成为研究热点,可以为社交网络的发展和应用提供有力的帮助。
一、社交网络中的数据挖掘技术社交网络中的数据主要包括用户的个人信息、发布的文本信息、图片和视频等。
数据挖掘在社交网络中的应用需要依赖于大数据技术,包括数据存储、数据预处理、数据分析和数据可视化等。
其中,数据挖掘技术主要包括关联规则挖掘、分类算法、聚类分析、时序分析、异常检测等。
1.关联规则挖掘关联规则是在一组笛卡尔积数据中发现物品间的关联关系,可以用于解释为什么某个事件会发生或某个人会购买某种商品等。
在社交网络中,关联规则挖掘常用于识别某些行为或特征之间的相互依赖性。
例如,挖掘用户的好友之间的关系、用户经常访问的网站等等。
2.分类算法分类算法是将数据集划分为不同类别的方法。
在社交网络中,分类算法应用很广泛,可以应用于用户的性别、年龄、职业、教育程度等多个方面的分类。
例如:用户的爱好细分。
3. 聚类分析聚类分析是将数据按照相似度划分到不同的类别中。
在社交网络中,聚类分析应用广泛,可以将用户分成不同的类别,如活跃用户、沉默用户、高价值用户等等。
还可以将用户的兴趣爱好等信息进行聚类分析,以便于为用户推荐相应的内容或用户。
4. 时序分析时序分析用于监测随时间变化的模式。
在社交网络中,时序分析主要用于研究用户的行为变化和趋势,如某个时间段内用户的访问量和活跃度等等。
5. 异常检测异常检测是识别与一般模型偏离的数据的过程。
在社交网络中,异常检测可以用于识别欺诈用户、识别不适当或有害的内容等。
二、社交网络中的数据挖掘应用案例社交网络中的数据挖掘应用案例主要包括用户行为分析、事件追踪、个性化推荐等等。
下面以微博为例,详细阐述在社交网络中数据挖掘技术的应用。
基于数据挖掘的微博人气用户特征分析与研究摘要:通过网络爬虫从新浪微博站点上爬取人气百强用户信息数据,利用clementine软件的c5.0决策树模型对这些数据进行分析。
结果表明:人气用户中,娱乐明星占据着大部分,并且微博中的名人具有关注数小,被关注数大的特征。
名人效应非常显著,“非著名话唠”想要引起大家的观注依然困难。
关键词:微博;决策树;用户分析;名人效应中国分类号:tp39 文献标识码:a文章编号10053824(2013)010017020 引言微博在中国开始以不可思议的速度流行起来,并在人们的生活中扮演着越来越重要的角色,它逐渐地改变着人们的生活、思想、行为以及我们的社会文化。
针对这些变化,越来越多的专家学者将目光转向微博,开始对其特点、传播模式以及用户群展开分析研究。
目前,新浪微博用户数已超过1亿。
仅仅两年时间,新浪微博就为新浪生下了一个价值几十亿美金的“金蛋”。
那么新浪微博的用户群包括哪些人?他们当中的人气用户都是来自哪些行业?他们的空间分布又有什么特征?这些人群通过微博主要是为了了解信息,还是朋友交流?为什么他们会受到这么多的关注?给我们的社会带来什么启示?本文以新浪微博为研究对象,提取前100名人气用户数据作为分析数据,通过分析分类,挖掘用户行为特征、空间分布以及圈层特征等,找出这些问题的答案。
了解微博在社会中的作用,了解“微博人”的真实想法和思想认识,将有助于社会和相关部门更好地把控微博的舆论方向,对建设和谐社会有着积极的意义[15]。
1 研究设计1.1 样本来源研究所需的样本数据利用爬虫工具通过微博站点开放的api获取。
获取的微博人气用户数据信息主要包括:昵称、性别、地址、描述、被关注数、关注数以及微文数等属性,并以这些数据作为用户特征分析挖掘的基础。
1.2 研究方法和思路利用c5.0算法,根据用户的名人标识以及其他用户信息,分析名人的用户特征。
c5.0算法是决策树模型的经典算法之一,它的基本思想是利用信息论原理对大量样本的属性进行分析和归纳而产生树的结构或规则,其目的是使系统的熵最小,以提高算法的运算速度和精确度[67]。
社交媒体数据的分析与挖掘技术当今社会,随着互联网的高速发展,社交媒体已经成为了人们生活中难以绕过的重要组成部分。
借助社交媒体,人们可以实现交流、分享、娱乐和获取信息等多种目的,而社交媒体本身也产生了海量的数据,如何分析和挖掘这些数据,对于企业和研究机构来说,已经成为了一个极为重要的课题。
下面,本文将以社交媒体数据的分析与挖掘技术为主题,简要介绍相关技术和实践案例。
一、社交媒体数据的来源社交媒体是指那些用户之间可以交流、分享信息和创造内容的网站或平台,常见的社交媒体包括微博、微信、QQ、Facebook等。
而这些社交媒体平台上的数据包括了用户的个人信息、发表的文字、图片、视频等多种形式。
通过分析这些数据,可以挖掘出人们的需求和兴趣,从而为企业和研究机构提供有用的参考和决策依据。
二、社交媒体数据的分析工具为了分析和挖掘社交媒体数据,需要借助一些专门的工具和技术。
下面,简要介绍几种常用的社交媒体数据分析工具。
1、社交媒体监测工具社交媒体监测工具是通过对社交媒体平台上的数据进行实时监测和分析,获取用户的情感、需求和反馈等信息的工具。
常见的社交媒体监测工具有Hootsuite、Sprout社交、Brandwatch等。
这些工具可以分析用户的情感倾向、提供舆情分析和行业趋势分析等服务,帮助企业更好地了解市场和用户需求。
2、社交媒体分析工具社交媒体分析工具是通过对社交媒体数据进行统计分析,获取用户行为、趋势和态度等信息的工具。
常见的社交媒体分析工具有Google Analytics、comScore、Kissmetrics等。
这些工具可以分析用户的访问次数、在线时间、地域分布、兴趣偏好和转化率等指标,为企业的网站优化和用户体验提供有力支持。
3、社交媒体数据挖掘工具社交媒体数据挖掘工具是通过对社交媒体数据进行机器学习和数据挖掘,发现隐藏在数据背后的规律和模式。
常见的社交媒体数据挖掘工具有IBM Watson、Alibaba Clouder、Tencent AI Lab等。
基于微博数据的舆情分析研究舆论是公众对于某一事件、问题或话题所持观点和评价的集合,通过舆情分析,可以了解公众对某一事件的态度、情绪以及关注度等信息。
而微博作为中国最具影响力的社交媒体平台之一,拥有庞大的用户基数和日益增长的活跃程度,成为了舆情分析的重要数据来源。
微博数据的舆情分析研究可以通过数据挖掘与分析的方法,深入挖掘微博用户在某一事件或话题上的观点、情绪等信息,并通过可视化分析等手段,将这些信息呈现出来。
本文将基于微博数据的舆情分析研究进行探讨。
首先,基于微博数据的舆情分析研究可以通过爬虫技术获取大量的微博数据。
由于微博平台的开放性,研究者可以自主选择感兴趣的事件或话题,爬取相关微博数据,并进行后续的分析。
这样的数据获取方式使得舆情分析更具实时性和全面性。
其次,舆情分析研究可以通过文本挖掘技术对微博数据进行情感分析。
情感分析是一种自然语言处理技术,可以通过对文本进行情感倾向性的判断,即判断文本表达的观点是积极的、消极的还是中性的。
通过对微博数据进行情感分析,可以了解公众对某一事件或话题的情感倾向,从而直观地了解其态度和观点。
另外,舆情分析研究还可以通过主题挖掘技术对微博数据进行主题分析。
主题挖掘是一种文本挖掘技术,可以自动地从大量文本数据中抽取出具有代表性的主题。
在微博数据的舆情分析中,主题挖掘可以帮助研究者发现公众对某一事件或话题关注的重点是什么,从而加深对公众关注度和热点问题的了解。
此外,舆情分析研究还可以通过网络图谱分析技术对微博数据进行网络分析。
网络图谱是一种表示网络关系的可视化工具,可以将微博用户之间的关注、转发和评论等关系呈现出来。
通过对微博数据进行网络图谱分析,可以了解公众在某一事件或话题上的信息传播路径和影响力,从而更好地分析舆情形势。
综上所述,基于微博数据的舆情分析研究具有重要的价值和意义。
通过对微博数据的挖掘与分析,可以客观地了解公众对某一事件、问题或话题的观点、情绪和关注度等信息,为政府、企业和组织等提供决策依据和反馈参考。
基于数据挖掘的微博用户行为分析研究随着互联网的发展,社交媒体已经成为人们日常生活中不可或缺的一部分。
微博作为最早出现的社交媒体之一,具有强大的信息传播和交流功能,吸引了大量用户的关注。
近年来,基于数据挖掘的微博用户行为分析研究越来越受到关注。
一、数据挖掘在微博用户行为分析中的应用数据挖掘是从大量数据中提取对决策有用的信息的过程。
在微博用户行为分析研究中,数据挖掘可以帮助我们了解微博用户的兴趣、观点和行为习惯等,从而更好地满足用户需求,提高用户体验。
首先,数据挖掘可以挖掘用户的兴趣爱好。
通过对微博用户发布的内容进行分类和分析,可以了解用户关注的主题、领域和话题,进而为用户推荐相关的内容和用户,提高用户留存率。
其次,数据挖掘可以挖掘用户观点和态度。
通过文本情感分析和主题挖掘等技术,可以了解用户对特定话题的态度和看法,进而为企业、政府和媒体等提供决策参考。
最后,数据挖掘可以挖掘用户行为习惯和模式。
通过对用户的浏览记录、点赞、评论和分享等数据进行分析,可以了解用户的行为习惯和模式,为企业和广告主提供个性化服务和广告投放建议。
二、微博用户行为分析的方法和技术微博用户行为分析不仅需要运用数据挖掘方法,还需要结合多种技术手段进行研究。
首先,文本分析是微博用户行为分析中常用的方法。
文本分析可以挖掘微博用户发布的文本数据中的信息和规律,包括语言特征、话题和观点等。
文本分析可以采用自然语言处理、文本挖掘和情感分析等技术。
其次,网络分析是微博用户行为分析中能够揭示用户之间关系和互动模式的方法。
网络分析可以通过分析用户之间的关注、粉丝、转发、评论等行为数据,了解用户之间的交流互动模式和社交网络关系。
网络分析可以采用社交网络分析和复杂网络分析等技术。
最后,机器学习是微博用户行为分析中能够通过算法模型自动识别和预测用户行为的方法。
机器学习可以应用于用户画像、用户行为预测和个性化推荐等方面,帮助企业和广告主更好地了解用户需求,提供更好的服务和广告。
针对微博用户信息的数据挖掘分析数据挖掘什么是数据挖掘?百度百科上定义,数据挖掘是“一种透过数理模式来分析企业内储存的大量资料,以找出不同的客户或市场划分,分析出消费者喜好和行为的方法”。
简单来说,就是通过一定的分析,找出大量的数据中隐藏的一些特殊的相关性或者规律,并由这些规律挖掘出一些事物的特性。
数据挖掘被广泛运用于企业的运营和发展中,企业常常通过对源自客户的大量的数据的分析,以获取客户的特性,由此尽可能应和客户的需求,从而能够在市场上博取更多消费者的青睐,以更具竞争力。
分类分析、聚类分析和关联分析是数据挖掘的三大主要任务。
在本项目中,重点运用到了聚类分析,并辅以关联分析。
聚类分析主要任务是确立某一个对象属性作为标准(如空间坐标、时间等),然后根据数据对象在该属性上的相近程度或密集程度,将数据对象分成不同的簇,使得相比之下在同一个簇中的对象具有很高的相似性,并由此导出规则;而关联分析则是根据对象的属性,得出对象与其他对象之间隐含的关联,并得出规律,以便达到以下目的:给出某一个对象的某一种属性,便可知道该种情况包含了其他哪些对象的哪些属性。
聚类和关联分析在文章接下来会有更加详细的描述异常分析、特异群组分析和演变分析是数据挖掘的另外三大任务,在这里我们不作详细描述。
微博数据分析网络社交平台已经是现代人的生活中不可缺少的一部分,脸书、推特、人人、QQ、微博、微信等等类似的社交平台层出不穷,而这样的社交平台中无疑蕴含着大量的信息。
企业可以分析这些数据,大致提取出用户的特征和生活规律,了解客户的需求,以便更好的利用这个平台,扩展业务,从而获取更大的盈利。
对这些企业来说,这无疑是一个巨大的商机。
本项目的工作“基于空间轨迹和发博特点的微博用户特征数据分析”的主要任务是通过分析微博用户所发过的大量的微博中的时间及空间坐标,来得出用户的工作地/居住地、活动性、消费水平(消费偏好)、职业、亲子状况(孩子年龄)等特征及偏好,并最终提取出上述各种属性的关系,运用关联分析勾画出该用户的立体形象。
下面,本文将对用户的活动性(及工作地/居住地)这一属性的分析及其相对应的数据挖掘分析,及其后续改进工作进行重点描述,并对关联规则的初步应用简要提及。
1、用户活动性、工作地/居住地我们用活动性来衡量一个用户的活跃程度,即判断该用户是尝尝四处奔波,还是喜欢老呆在家的“宅男宅女”。
在这里我们将活动性划分为四个不同的层次:(1)活跃型;(2)较为活跃型;(3)较为安静型;(4)安静型。
开始工作,我们将用户A的原始微博数据的坐标点打在全局坐标轴上,然后运用聚类,将坐标轴上的点聚成簇,剩下未被聚成簇的点作为离群点。
簇和离群点是聚类分析中两个重要的概念。
多数聚类方法都拥有一定的标准将给定的数据集聚成簇,并给出不属于任何一个簇的点,即为离群点。
聚类方法根据四个不同的基准被划分为四大类:基于划分的聚类方法、基于密度的聚类方法、基于层次的聚类方法、基于网格的聚类方法。
而每一大类方法又有不同的具体的算法。
在研究用户A的活动性的分析中,我们使用基于密度的方法中的DBSCAN算法。
DBSCAN算法DBSCAN算法是一种基于密度的聚类方法。
算法事先规定两个参数:Eps(最大半径,该参数约定了聚类结果中的簇的半径上限)和MinPts(最小点数,该参数约定了聚类结果中的簇内含点数的下限)。
规定好了这两个参数之后,DBSCAN算法根据这两个参数的值,通过不断建立核心对象和抓取密度可达点将全局的数据点进行聚类1,基本原理是依据密度的疏密将密度趋于密集的点群聚成一簇,而处在较稀疏环境中的点则更趋于被视为离群点,因而DBSCAN算法属于基于密度的聚类方法。
回到我们的用户A上来,我们的聚类结果如图1所示图1这是我们用weka软件(一种数据挖掘分析工具,在这里不作详细介绍)中自带的DBSCAN 聚类方法生成的聚类结果效果图(其中簇已经在图中圈出,未圈出的点为离群点。
两个参数选取的均是weka软件提供的默认值),我们看到,该用户的所有活动点2被聚为4簇,另有少量离群点。
根据源数据3判断大约占用户A所有活动点的2.88%。
做好了聚类处理之后,我们进一步将聚类结果转化为活动性的衡量标准,即衡量用户A 是活跃型、较为活跃型、较为安静型,还是安静型。
在这里,我们定义一个公式:λX+(1-λ)Y = Z其中X代表所聚的簇的个数,Y代表离群点的比例(保留三位小数),λ是自定义的一个参数。
这个公式的思想如下:我们知道数据集中的簇,可以看做是该用户的常去的地方,1《数据挖掘概念与技术》原书第3版Jiawei Han, Micheline Kamber 著;范明,孟小峰译;机械工业出版社2012.7 版2即数据点3源数据已配套给出一般如住宅、工作单位等等;而离群点,则一般为用户在闲暇时间的一些行踪,如放假期间外出购物、踏青及访友等等。
那么这样的离群点比例越大,说明该用户越喜欢外出而不是呆在家中。
至于聚出的簇,先前说明了这一般是用户常去的地方,如住宅等等。
但如果这样的簇过多,那么则代表用户的常去地点较多,这意味着用户可能有许多住宅,或者是经常来往各亲友家。
总之这样的簇如果较多,也能说明用户的活跃程度较高。
参数λ的选取,则是通过不断的试验而调试的结果。
这里我们以0.05为间隔选取了0.1-0.5之间的所有可能的系数,然后分别将其结果近似拟合成正态分布,选取图像合理者为最终系数。
至于分别用λ和1-λ作为系数的原因,是因为实际上这里的λ属于一个权重值,作为簇的个数和离群点的比例在活动性大小基准中的一个权重系数,因为簇和其相关的离群点构成了一个完整的数据集。
而结果Z,则是一个量化的标准,用来衡量活动性的大小,我们依据合适的方法,选取三个阀值,将Z值划分为四个不同的区间,用来代表四种不同程度的活跃性。
当然,这个公式只是为了使聚类结果应用于实际的一个后续处理。
我们讨论的重点应该回归到数据挖掘算法本身。
然而,上述数据挖掘的DBSCAN算法有一个不可忽视的弱点,就是DBSCAN的两个参数Eps和MinPts均只能是先固定,然后为了不使工作量过于繁重,我们将每一个用户都使用这一事先固定的标准。
然而每个用户的数据点的数量及分布特点必会存在着或多或少的差异,所以这就造成了部分聚类结果显得不是十分合理。
形象地说,我们说数据较少的用户(即那些发微博较少的用户),他的簇的个数总是趋于少的,离群点比例也不会很多,那么这样得出来的Z值就会较少,那么一句我们之前的标准,这个用户的活动性就趋于安静。
而相对而言如果另外有一个发微博较多的用户,他的数据中聚出的簇的个数比上一个客户稍多,那么他的Z值也会趋于较大。
但是不排除这样一种情况,前一个用户发微博虽少,然而在他所发的有限的微博所形成的数据集中,点与点之间的空间分布较为稀疏(以他本人自身的数据为参照),而由于参数不变的原因,致使他的很多点被包含进一个簇,导致了他的活动性看似较低的一种假象,而另外发微博较多的用户实际上行踪更偏固定,这就造成了结果与实际情况的一种潜在的偏差。
为了改善这种偏差,我们在因特网上搜寻前人的各种可能的解决算法,我们发现了曾经有人将DBSCAN算法改进为VDBSCAN算法4,这个算法定义了一个参量K,然后将各点到距该点第K近的点的距离收集起来,画出坐标图,如图2所示。
在这里他选区的K为4图2接下来,作者选取图中B(A曲线为参照),依据纵坐标的导数结果再作出下图,即图3所示4《VDBSCAN:变密度聚类算法》周董,刘鹏;上海财经大学,信息管理与工程学院,上海,20433;2009年图3从图中我们可以看出图2纵坐标的导数值存在几个峰值,而图2的纵坐标则表示的是每个点到其第K近的点的距离,那么它的导数值无疑就反映了各距离的差值,也就是说出现峰值的时候,峰值所在的点所处的区域的疏密程度与前一个点有着较大的差异。
依据这一关键,我们就可以选取图3的一个最显著的峰值,并找到其在图2中所对应的距离,来作为最终的最大半径值,即Eps,并将最小点数MinPt设为该峰值在图2中所对应的横坐标,并将其代入DBSCAN算法进行聚类。
但这样的话依旧有一个问题没有解决,就是如何确定这个K值。
在这里,我们对其进行了进一步的研究,并发表论文《Improve VDBSCAN with Global Optimum K》5,当然,里面肯定会存在一些值得商榷的问题,欢迎各位读者批评指正。
说完了活动性,下面再谈一下用户的工作地/居住地。
实际上,运用与用户工作地/居住地的数据挖掘聚类算法与分析用户活动性的聚类算法是一样的,都是以DBSCAN聚类算法为基础,将单个用户的数据集聚类完毕后,在对聚类结果进行一些细节上的不同的处理。
我们还是以前面提及的用户A为例。
如上文图1所示,用户A的活动点被聚成了4个簇。
在这里我们需要结合时间,对每一个簇内所含点进行时间的归类,按照一定的标准得到白天点和晚上点。
并统计一个簇内白天点和晚上点分别占的比例,选取合适的标准,将簇分为白天簇和晚上簇,然后将点数最多的白天簇视为工作地,点数最多的晚上簇视为居住地。
DBSCAN算法在我们的微博数据挖掘项目中还用在了上述分析之外的许多其他方面,如城市商圈的划分等。
城市商圈的划分对于评价用户的消费水平具有重要意义,但其基本原理也是基于DBSCAN算法,并结合一定的经济学原理,将城市中位置相近的一处消费区按照一定规律聚为一个商圈,并将结果作为基础进行用户的消费水平的一种研究手段。
当然,商圈的研究我们还在进行中。
2、关联规则的初步应用因为需要对用户的大致生活规律及个性特点有一个较为立体化的描述,所以我们需要将现在分析好的用户属性做一个有机的结合。
每一个用户都有活动性、工作地/居住地、消费水平、职业及亲子状况等属性,而这些属性大多是连续属性,即都具有不同的程度作为衡量5已配套给出的标准。
而数据挖掘教材6上讲的关联属性大多是针对不连续数据的操作,最典型的便属Apriori算法。
而我们为了满足解决连续属性的关联分析的要求,在Apriori算法的基础上作了改进,并为此发表了论文《Improve Apriori for Continuous Attributes》7。
算法验证1、活动性算法验证我们使用DBSCAN算法作为主要算法研究用户的活动性,并用公式定量衡量活动性的大小。
当然,在衡量活动性大小这一环节,我们同时运用另外一种聚类算法做为验证:基于划分的K均值算法8。
我们根据由DBSCAN算法给出的每个用户所聚的簇的个数以及离群点比例的结果,一句K均值算法进行聚类,并作出分别以离群点比例和簇的个数作为横纵坐标的图像,来形容一个用户的活动性大小。
具体图像已经在相关压缩包里给出。
此外,我们还在研究一种聚类结果合理度的一种验证算法。