基于微博用户评论和用户转发的数据挖掘
- 格式:pdf
- 大小:1.36 MB
- 文档页数:3
微博传播中用户影响力评估与传播力分析研究微博是中国最大的社交媒体平台之一,拥有数亿的用户。
随着微博的发展,微博用户的影响力和传播力越来越受到关注。
本文就微博传播中用户影响力评估与传播力分析进行探讨。
一、微博传播中用户影响力评估在微博传播中,用户的影响力评估是非常重要的。
影响力越大的用户,其微博传播的效果也会越好。
那么,如何评估微博用户的影响力呢?传统的影响力评估主要是依据用户的粉丝数量、互动程度、转发量等来评估的。
但这些数据并不能完全反映用户的影响力。
因为有些用户虽然粉丝数量很少,但是他们的微博内容质量很高,能够引起广泛的关注和讨论。
因此,我们需要综合考虑各种因素来评估用户的影响力。
目前,影响力评估主要是基于数据挖掘和机器学习技术开发的。
通过分析微博用户的行为数据、互动数据、转发数据等来量化用户影响力。
例如,可以通过分析用户的粉丝质量和互动情况来评估用户的影响力。
如果一个用户的粉丝质量较高,互动较多,那么他的影响力就会更高。
另外,也可以通过分析用户的微博内容、转发情况等来评估其影响力。
如果一个用户的微博内容能够引起广泛的转发和评论,那么他的影响力也会相应提升。
总之,在评估微博用户的影响力时,需要综合考虑多种因素,采用多种评估方法,以得到比较准确的结果。
二、微博传播中用户传播力分析影响力评估只是微博传播中一个方面,还有一个与之相关的指标就是传播力分析。
用户的传播力是指用户发布的信息在微博平台上的传播效果,可以体现用户在微博传播过程中的作用。
在微博传播中,用户的传播力受到多种因素的影响,如微博内容、粉丝数量、转发量、点赞量、评论量等。
因此,在分析用户的传播力时,也需要综合考虑多种因素。
传播力的分析方法主要是基于数据挖掘和机器学习技术。
可以通过分析微博的转发链、评论链等来评估微博的传播效果。
例如,可以通过分析微博的转发量、评论量、点赞量等来评估微博的传播效果。
如果一个微博的转发量很大,评论量很多,点赞数量也相对较高,那么就说明它的传播效果比较好。
社交网络中的数据分析与挖掘随着互联网的迅猛发展,社交网络成为了人们日常生活中不可或缺的一部分。
我们可以通过社交网络和朋友们保持联系,获取新的信息和知识,分享自己的生活和思想。
同时,随着数据挖掘技术的发展,我们也可以通过社交网络中的各种数据,来挖掘用户的行为习惯、个性特征和情感倾向。
一、社交网络中的数据类型社交网络中的各种操作行为和内容,如个人资料、发表的文章、浏览历史、评论和点赞等,都会被记录下来。
这些数据可以被分成以下几个类型:1. 用户个人信息:例如姓名、性别、年龄、地理位置、职业、爱好等。
2. 用户行为数据:包括发布的内容、点赞、评论、转发、关注、私信、浏览和搜索历史等。
3. 数据关系:用户之间的关系网络,包括好友关系、粉丝关系、关注关系等。
4. 文本数据:包括用户发布的文字内容,如微博、朋友圈、评论和私信等。
5. 图片、视频数据:包括用户发布的图片、视频等多媒体内容。
二、社交网络中的数据分析与挖掘应用1. 社交网络情感分析情感分析是一种将自然语言处理和机器学习技术结合起来的技术,可用于分析社交网络用户发表的文字内容,并判断其中包含的情感倾向。
例如,可以通过对用户发表的带有标签的评论进行情感分类,判断该评论是正面、中性还是负面的。
2. 社交网络推荐系统社交网络平台与许多其他应用程序常常充当基于兴趣的推荐系统。
根据用户的兴趣和行为数据,推荐系统会向用户提示可能感兴趣的人、内容和社区。
这些推荐系统常常基于机器学习模型和大规模的数据挖掘算法构建。
3. 社交网络网络分析社交网络中的各种关系可以用网络图的形式呈现,根据节点的度、网络密度等统计指标,可以分析出某一社交圈子或社区的特征。
通过网络分析算法,可以找到关键节点、社区、子图等。
网络分析可以揭示个体之间的关系,以及这些关系的长期变化规律。
4. 社交网络用户画像社交网络还可以用于用户画像的建立。
根据用户在社交网络平台上的行为、兴趣和其他数据,可以对用户进行分析和分类,并建立用户画像。
基于大数据挖掘技术的社交网络用户画像研究随着社交网络在我们日常生活中越来越普及,我们不断地分享自己的信息并与别人交流。
在这个大数据时代,社交网络用户造就了一个巨大的数据平台,这些数据不仅可以反映用户的兴趣爱好和行为习惯,还可以做出更为深入和准确的预测。
本文将探讨基于大数据挖掘技术的社交网络用户画像研究。
首先,社交网络用户画像是什么?社交网络用户画像是从用户在社交网络上自愿上传的个人资料、用户行为和交互数据中,通过数据分析、挖掘和建模等技术,形成用户的个性化画像。
社交网络用户画像可以反映用户的性别、年龄、职业、学历、兴趣爱好、购买行为和消费偏好等信息。
通过社交网络用户画像的研究,可以更好地理解和掌握社交网络用户的特征,为企业和个人提供更为精准的服务。
接下来,让我们来了解一下大数据挖掘技术是如何应用到社交网络用户画像研究中的。
大数据挖掘技术在社交网络用户画像研究中的应用在大数据挖掘技术的支持下,建立社交网络用户画像的过程可以分为以下几个步骤:1. 数据采集数据采集是建立社交网络用户画像的第一步。
通过网络爬虫、API接口、用户行为记录等方式,获取大量的社交网络用户数据。
这些数据包括用户的个人资料、好友列表、微博、评论、点赞和转发等信息。
2. 数据清洗获取的大量数据中,可能存在不少干扰性信息,比如垃圾邮件、重复数据,还有一些不合理、不完整的数据。
因此,需要对采集的数据进行清洗和过滤,提取出真正有效的数据。
3. 数据预处理预处理是为了让原始数据更好地被挖掘算法理解和处理。
对于社交网络来说,预处理工作主要包括文本分词、词性标注、去停用词、去重等。
4. 数据建模建模是社交网络用户画像研究中的核心环节。
通过数据建模,可以建立用户画像的模型,并以此为基础进行用户特征分析和预测。
数据建模可以采用机器学习算法、分类方法、聚类方法等,以实现对用户特征的准确识别和分析。
5. 数据分析和应用在建立好用户画像模型后,可以进行数据的分析和应用。
社交网络数据挖掘与分析一、社交网络数据挖掘概述社交网络数据挖掘是一种从社交网络中提取有用信息的技术过程。
因为社交网络已经成为了很多人生活的一部分,所以社交网络数据挖掘也变得越来越重要。
社交网络数据挖掘可以用于许多领域,例如社交推荐、情感分析、社交媒体营销等。
二、社交网络数据挖掘方法社交网络数据挖掘有许多方法,包括:文本挖掘、网络分析、机器学习等。
下面分别介绍它们的具体内容。
1. 文本挖掘文本挖掘是从文本数据中提取知识的过程。
在社交网络中,文本数据通常是指用户发表的帖子、评论、私信等。
文本挖掘的任务包括情感判断、主题提取、关键字提取等。
以情感判断为例,我们可以通过分析用户发表的评论来判断用户对某个话题的态度是积极的还是消极的。
2. 网络分析网络分析是指分析社交网络中的用户之间的互动关系。
社交网络中的用户可以通过关注、点赞、分享等方式进行互动。
通过网络分析,我们可以了解哪些用户之间交流比较频繁,哪些用户之间交流不太频繁等。
通过对这些数据的分析,我们可以了解用户的兴趣、好友、群组等信息。
3. 机器学习机器学习是指通过训练模型来预测新数据的过程。
在社交网络中,我们可以通过机器学习方法来预测用户的兴趣和行为。
以兴趣预测为例,我们可以通过分析用户的历史行为来预测用户可能感兴趣的话题。
这对于社交推荐来说非常重要。
三、社交网络数据挖掘应用社交网络数据挖掘可以应用于许多领域,下面分别介绍它们的具体内容。
1. 社交推荐社交推荐是指通过挖掘用户在社交网络中的行为数据,提供个性化、精准的推荐服务。
以朋友圈为例,我们可以通过分析用户在朋友圈中发布的内容和与之交互的用户,来向用户推荐他们感兴趣的内容、关注的用户等。
2. 情感分析情感分析是指从文本数据中挖掘出句子或文章的情感(如积极、消极、中立等)。
社交网络中的文本数据非常丰富,通过对用户评论、点赞等行为的分析,我们可以挖掘出用户对某个话题的情感倾向,如用户对某个品牌的态度、对某个事件的反应等。
基于数据挖掘的微博人气用户特征分析与研究摘要:通过网络爬虫从新浪微博站点上爬取人气百强用户信息数据,利用clementine软件的c5.0决策树模型对这些数据进行分析。
结果表明:人气用户中,娱乐明星占据着大部分,并且微博中的名人具有关注数小,被关注数大的特征。
名人效应非常显著,“非著名话唠”想要引起大家的观注依然困难。
关键词:微博;决策树;用户分析;名人效应中国分类号:tp39 文献标识码:a文章编号10053824(2013)010017020 引言微博在中国开始以不可思议的速度流行起来,并在人们的生活中扮演着越来越重要的角色,它逐渐地改变着人们的生活、思想、行为以及我们的社会文化。
针对这些变化,越来越多的专家学者将目光转向微博,开始对其特点、传播模式以及用户群展开分析研究。
目前,新浪微博用户数已超过1亿。
仅仅两年时间,新浪微博就为新浪生下了一个价值几十亿美金的“金蛋”。
那么新浪微博的用户群包括哪些人?他们当中的人气用户都是来自哪些行业?他们的空间分布又有什么特征?这些人群通过微博主要是为了了解信息,还是朋友交流?为什么他们会受到这么多的关注?给我们的社会带来什么启示?本文以新浪微博为研究对象,提取前100名人气用户数据作为分析数据,通过分析分类,挖掘用户行为特征、空间分布以及圈层特征等,找出这些问题的答案。
了解微博在社会中的作用,了解“微博人”的真实想法和思想认识,将有助于社会和相关部门更好地把控微博的舆论方向,对建设和谐社会有着积极的意义[15]。
1 研究设计1.1 样本来源研究所需的样本数据利用爬虫工具通过微博站点开放的api获取。
获取的微博人气用户数据信息主要包括:昵称、性别、地址、描述、被关注数、关注数以及微文数等属性,并以这些数据作为用户特征分析挖掘的基础。
1.2 研究方法和思路利用c5.0算法,根据用户的名人标识以及其他用户信息,分析名人的用户特征。
c5.0算法是决策树模型的经典算法之一,它的基本思想是利用信息论原理对大量样本的属性进行分析和归纳而产生树的结构或规则,其目的是使系统的熵最小,以提高算法的运算速度和精确度[67]。
网络数据分析的3种方法随着互联网技术的不断发展,网络数据分析成为了当代企业经营不可或缺的一部分。
通过对互联网上各个领域的数据进行深入的挖掘和分析,企业可以更好地掌握市场趋势和消费者行为,以更精细化的方式进行运营管理,提高产品和服务的市场竞争力。
本文将介绍网络数据分析的3种方法,希望对您有所帮助。
一、监测分析法监测分析法是一种通过对网站、社交媒体、论坛、微博和移动应用等各种渠道的评论、留言、转发、点赞等信息进行定量和定性分析的方法。
它可以反映消费者对企业品牌、产品和服务的态度和需求,对企业制定营销策略和优化产品设计提供重要参考。
监测分析法一般可以分为以下三个步骤:1.选择分析工具。
市面上有很多网络数据分析工具,如百度指数、好搜指数、微指数、新加坡数字营销公司Pulsar的社交情报平台等。
企业可以根据自己的需求选择适合自己的分析工具。
2.数据采集。
数据采集是监测分析的第一步,它的数据来源应当充分、客观、真实,选取的数据应该具有代表性,以保证分析的可靠性与精确性。
3.数据分析。
通过对数据的清洗、过滤、排序和统计,分析师可以挖掘大量隐含在数据背后的信息和规律,制定有效的营销策略和产品方案。
例如,配合百度指数等工具,分析消费者搜索行为、关注度以及用户画像,从而了解产品的市场需求以及客户的心理需求,根据分析结果调整营销策略,提高业绩。
二、模型预测法模型预测是基于大量的历史数据和学术理论构建预测模型,根据模型将未来相关变量进行预测或决策的方法。
随着预测模型的逐渐成熟和工具的不断完善,模型预测法的使用逐渐在企业内部得到了普及。
其优点在于可以有效地解决不确定性、复杂性以及难以测量的因素等诸多问题,提高决策的准确性、可靠性和有效性。
模型预测主要有以下三个步骤:1.确定预测指标。
企业需要明确自己所需要预测的因素,如未来市场需求、竞争对手策略等,再根据这些因素选择适合的预测模型。
2.建立预测模型。
根据选取的预测要素与统计学原理,建立预测模型,并对模型参数进行逐步测试和优化。
社交媒体的数据挖掘在当今信息化的社会,社交媒体已经成为人们日常生活的重要组成部分。
从 Facebook 到Twitter,再到微信和微博,这些平台不仅为个人提供了表达自我的机会,也为企业和组织提供了丰富的数据源。
数据挖掘作为一种分析和处理信息的方法,能够深入洞察用户行为、社交趋势及市场变化,促进决策的优化与创新。
数据挖掘的概念数据挖掘指的是从海量数据中提取潜在信息和知识的过程。
它涉及多种技术,包括统计分析、机器学习、模式识别等。
通过这些技术,数据挖掘能够发现数据中隐藏的规律和趋势。
这对于社交媒体来说尤为重要,因为其用户生成的内容量庞大且多样,蕴含着丰富的用户行为和偏好信息。
社交媒体数据的类型社交媒体产生的数据主要可以分为以下几类:1. 用户生成内容:用户在社交媒体上发布的帖子、评论、照片和视频等。
2. 社交关系数据:用户之间的关注关系、评论互动及分享行为。
3. 用户行为数据:用户在平台上的浏览记录、点赞行为及转发记录。
这些数据为分析用户的偏好、社交网络结构以及传播模式提供了基础。
数据挖掘的应用用户行为分析社交媒体数据挖掘可以用于分析用户行为,通过关注用户在平台上的活动,帮助企业理解用户的偏好和需求。
例如,通过分析用户的互动频率和内容偏好,企业可以制定更有针对性的营销策略。
舆情监测社交媒体是信息传播的快速通道,舆情监测可以实时追踪热点话题和用户情感走向。
应用数据挖掘技术,企业可以快速捕捉用户对品牌或事件的态度,及时调整市场策略,避免潜在的公共关系危机。
内容推荐系统数据挖掘技术被广泛应用于社交媒体平台的内容推荐系统。
通过分析用户的历史行为和偏好,系统能够向用户推送更符合其兴趣的内容,提高用户留存率和互动率。
社交网络分析社交网络分析旨在挖掘用户之间的关系结构及信息传播路径。
通过分析社交关系数据,研究人员可以识别出网络中的关键节点和影响力人物,这对于市场营销和信息传播策略都有重要意义。
挑战与未来尽管社交媒体的数据挖掘带来了诸多优势,但也面临一系列挑战。
微博数据挖掘的方法及其应用微博是中国最大的社交媒体平台之一,拥有着数亿的用户,每天都有数以亿计的消息在微博上进行传播。
这些数据中蕴藏着丰富的信息,因而微博数据挖掘逐渐成为了一个热门话题。
本文将介绍微博数据挖掘的方法及其应用,并探讨这一领域的发展潜力。
一、微博数据挖掘的方法微博数据挖掘主要涉及文本挖掘、网络分析、情感分析等多个方面。
下面将对这些方面的方法进行详细介绍。
1. 文本挖掘文本挖掘主要涉及文本的提取、清洗、分词、去噪、特征提取等操作,以便对文本数据进行分析和分类。
在微博数据挖掘中,文本挖掘可以用来识别话题、发现事件、分析情感等。
例如,可以通过对微博文本进行关键词提取等操作,来找出与特定话题相关的微博。
2. 网络分析网络分析主要涉及社交网络的构建、社交网络中信息的传播、节点的重要性等方面的研究。
在微博中,网络分析可以用来分析用户之间的互动关系、发现社交网络中的影响者等。
例如,在一个社交网络中,影响力比较高的用户可能会更容易将某个话题传播出去,因而这些用户在分析中可能会受到更多的关注。
3. 情感分析情感分析主要涉及人类情感的识别、分类、理解等方面的研究。
在微博数据挖掘中,情感分析可以用来探测微博用户对某个话题的情感倾向,从而得出对话题的态度和立场。
例如,可以通过对微博文本中表达情感的词汇进行提取和分析,来判断用户对某个话题的喜欢程度或厌恶程度。
二、微博数据挖掘的应用微博数据挖掘可以应用于多个领域,这里列举了几个主要应用领域。
1. 舆情分析舆情分析可以通过对微博数据进行挖掘和分析,来了解民众对某个话题的反应和态度。
例如,可以通过对特定事件相关的微博进行分析,来了解事件的发展趋势和舆情变化。
这种分析可以帮助政府、企业和个人及时了解公众的反应,并做出相应的决策和应对措施。
2. 社交网络分析社交网络分析可以通过对微博社交网络的分析,来了解用户之间的互动关系和影响力等。
这种分析可以帮助企业或组织找到合适的影响者进行宣传,并更加精确地推广和营销产品,提高社交网络媒体的效益。
基于微博数据的舆情分析研究舆论是公众对于某一事件、问题或话题所持观点和评价的集合,通过舆情分析,可以了解公众对某一事件的态度、情绪以及关注度等信息。
而微博作为中国最具影响力的社交媒体平台之一,拥有庞大的用户基数和日益增长的活跃程度,成为了舆情分析的重要数据来源。
微博数据的舆情分析研究可以通过数据挖掘与分析的方法,深入挖掘微博用户在某一事件或话题上的观点、情绪等信息,并通过可视化分析等手段,将这些信息呈现出来。
本文将基于微博数据的舆情分析研究进行探讨。
首先,基于微博数据的舆情分析研究可以通过爬虫技术获取大量的微博数据。
由于微博平台的开放性,研究者可以自主选择感兴趣的事件或话题,爬取相关微博数据,并进行后续的分析。
这样的数据获取方式使得舆情分析更具实时性和全面性。
其次,舆情分析研究可以通过文本挖掘技术对微博数据进行情感分析。
情感分析是一种自然语言处理技术,可以通过对文本进行情感倾向性的判断,即判断文本表达的观点是积极的、消极的还是中性的。
通过对微博数据进行情感分析,可以了解公众对某一事件或话题的情感倾向,从而直观地了解其态度和观点。
另外,舆情分析研究还可以通过主题挖掘技术对微博数据进行主题分析。
主题挖掘是一种文本挖掘技术,可以自动地从大量文本数据中抽取出具有代表性的主题。
在微博数据的舆情分析中,主题挖掘可以帮助研究者发现公众对某一事件或话题关注的重点是什么,从而加深对公众关注度和热点问题的了解。
此外,舆情分析研究还可以通过网络图谱分析技术对微博数据进行网络分析。
网络图谱是一种表示网络关系的可视化工具,可以将微博用户之间的关注、转发和评论等关系呈现出来。
通过对微博数据进行网络图谱分析,可以了解公众在某一事件或话题上的信息传播路径和影响力,从而更好地分析舆情形势。
综上所述,基于微博数据的舆情分析研究具有重要的价值和意义。
通过对微博数据的挖掘与分析,可以客观地了解公众对某一事件、问题或话题的观点、情绪和关注度等信息,为政府、企业和组织等提供决策依据和反馈参考。
社交媒体之微博的用户行为分析与数据挖掘随着互联网和移动设备的普及,社交媒体已经成为人们日常生活中不可或缺的一部分。
而微博作为中国广大用户群体都熟悉的社交媒体平台,拥有庞大的用户数量和海量的数据,成为研究用户行为和进行数据挖掘的重要资源。
本文将通过对微博的用户行为分析与数据挖掘,探讨微博平台的特点及其对用户行为的影响。
第一部分:微博平台的特点微博作为一种社交媒体平台,具有以下几个特点:1. 即时性:微博通过短文本形式来传递信息,用户可以随时随地发布、转发和评论信息。
这种即时性使得微博成为了人们获取新闻和时事信息的重要渠道。
2. 用户参与性高:微博平台鼓励用户参与社交互动,用户可通过发布微博与他人分享自己的观点和感受。
此外,微博还提供了点赞、转发和评论等功能,使用户在社交中可以更加活跃和自由地表达自己。
3. 群体话语权:微博用户之间的关系并非一对一,而是一对多的关系。
用户可以通过关注其他用户来看到其发布的信息,同时也可以被其他用户关注。
这种群体话语权使得微博中的信息传播更加广泛和迅速。
第二部分:微博用户行为分析微博用户行为的分析可以通过以下几个方面进行:1. 用户活跃度分析用户活跃度是指用户在微博上的行为频率和程度。
通过分析用户的微博发布数量、评论数量、转发数量等指标,可以了解用户在平台上的活跃程度。
同时,还可以通过分析用户发布内容的类型和频率,了解用户的兴趣和关注点。
2. 用户关系网络分析微博用户之间的关系网络是一个重要的研究对象。
通过分析用户之间的关注关系和被关注关系,可以构建用户关系网络,并发现其中的社交群体和意见领袖。
这对于了解用户之间的互动和信息传播具有重要意义。
3. 用户情感分析微博平台上的用户往往会发表自己的情感和观点。
通过对微博文本进行情感分析,可以了解用户情感倾向,判断用户的态度和情绪。
这对于企业和政府等进行舆情分析和舆情监控具有重要意义。
4. 用户行为的时间和地理分析用户在微博上的行为往往与时间和地理位置有关。
数据库与信息管理本栏目责任编辑:代影Computer Knowledge and Technology 电脑知识与技术第8卷第27期(2012年9月)基于微博用户评论和用户转发的数据挖掘张国安1,钟绍辉2(1.中国石化江汉油田信息中心,湖北潜江433124;2.江西工业工程职业技术学院,江西萍乡337000)摘要:随着微博的日趋流行,微博网站已成为海量信息的发布体,对微博的研究也需要从单一的用户关系分析向微博用户及其转发内容的挖掘进行转变,该文提出了一种新的方法挖掘微博用户评论和所转发微博的文字信息,将被用户关注的层面发掘出来,从而并产生推荐。
关键字:用户评论;用户转发;微博;用户推荐中图分类号:TP393文献标识码:A文章编号:1009-3044(2012)27-6455-02Mining Based on the Users ’s Content and Microblogging Forwarded ZHANG Guo-an 1,ZHONG Shao-hui 2(1.Sinopec Jianghan Oilfield Information Center,Qianjian 433134,China;2.Jiangxi Polytechnic College,Pingxiang 33700,Chi⁃na)Abstract:With the growing popularity of microblogging,microblogging site has become a massive body of the release of infor⁃mation,thes study in inmicroblogging need transform from analysising a single customer relationship to mining microblogging users ’s content,.this paper presents a new methods of mining microblogging users comments and microblogging forwarded text messages,through minging the level of concern of the user the microblog can recommended valuable information for user.Key words:users ’s content;microblogging forwarded ;microblogging;recommended for user微博是一个基于用户关系的信息分享、传播以及获取平台,用户可以通过网页,WAP 以及各种客户端组件登录到个人社区,以140字左右的文字更新信息,并实现即时分享。
目前国内外外对微客的研究体现出了多样性。
Nadri 等探讨了博客用户的使用动机,认为博客是人们分享经验、观点和评价的工具[1],何黎通过对微博用户的信息和关系数据进行决策树分析、相关性分析和关联规则来挖掘用户特征,并对微博网络进行核心用户发掘[2]。
随着互联网的发展和微博用户数据的急剧增长如何在海量数据中挖掘表征用户兴趣度的特征,向用户进行更有针对性的个性化推荐,对于提升用户体验至关重要。
目前一般的关注推荐算法主要有基于项目的推荐和基于内容的推荐两种[3]。
目前各大微博运营商主要是采用“热点人物”和好友的“间接关注”的推荐模式,这种方式收到了很好的效果,但是忽略了用户本身的行为和关注的兴趣。
作者通过对用户本身的行为(微博的转发和微博的评论)的分析,将被用户关注的层面发掘出来并评分,根据这些层面的分数以及用户过往的评论学习出用户的偏好,根据用户的偏好,最后根据用户的偏好预测其他待评分对象的分数并产生推荐。
1基于K-MEAN 聚类的用户层面的挖掘在微博中,用户可以对某条微博发表评论,也可以转发某条微博。
用户的评论和用户转发的微博得数据包含了很多有价值的信息。
比如用户关注的层面,用户的兴趣和爱好等,通过对这些评论数据和转发微博数据的处理可以挖掘并推测出各个关注层面的分数的方法。
本文通过对用户评论和用户转发微处理,利用聚类方法找到用户的关注的层面,为用户的推荐做准备。
用户的评论通常都比较简短,只有一两句话,可以对其进行分词和词性标注,并将其中的名词以及与该名词对应形容词提取出来并构成一个词组。
定义词组:一个词组f =(w m , w n )是由名词w m 和修饰它的形容词w n 共同组成。
一般而言,名词代表用户的关注的一个层面和对象的一个特征,如比赛,奥运,照片等。
这样我们可以将一条评论看成是词组的集合。
对一条评论或一条转发微博的处理如下:A)对评论和转发的微博进行处理,提取出其中的词组f ,对每个词组中w n ∈f ,w m ∈f 进行统计,将其转换成向量v (w m )=v (c (w m ,w n 1),c (w m ,w n 2)⋯⋯)其中c (w n ,w m 1)表示所有包含w m 的f 中w n 1出现的次数。
记c (f )为包含w n 的词组f 的个数。
收稿日期:2012-06-28作者简介:张国安(1963-),男,湖北天门人,主任工程师,本科,现就职于中国石化江汉油田信息中心;钟绍辉(1979-),男,湖南邵阳人,助教,系统分析师,硕士,现就职于江西工业工程职业技术学院计算机系。
E-mail:jslt@ Tel:+86-551-56909635690964ISSN 1009-3044Computer Knowledge and Technology 电脑知识与技术Vol.8,No.27,September 2012.6455本栏目责任编辑:代影数据库与信息管理Computer Knowledge and Technology 电脑知识与技术第8卷第27期(2012年9月)B)根据v (w m )将w m 聚类成k 个层面。
由于每个用户的评论w m 有很多,许多w m 都是指的同一个层面。
如对刘翔,林丹等指的都是同一个层面。
为了避免过多的相似的层面,因此可以采用相似度分析来合并相似的层面,最后通过采用K-means 聚类分析,将其聚类成K 个层面{}A k 。
C)从K 个层面中选择出具有代表性的层面。
对于每个层面根据每个相似层面中c (f )的大小进行排序,选择前面的s 层面。
因为c (f )的值越大,说明用户评论中和转发的微博中对该层面的关注度就越高。
2实验分析本文的研究目的在与通过分析用户的评论数据和微博的转发数据来分析出用户的兴趣和爱好,为微博得关注推荐提供出更加精准的方法。
通过抽样获取微博关注的样本数据的基础上,通过聚类分析挖掘出用的兴趣和爱好。
,最后在事实发现的基础上对微博平台的用户关注推荐提出相关建议。
1)数据的获取国内多数具有影响力的门户网站都开始提供微博服务,如新浪、腾讯、网易、和讯等。
其中,新浪微博更加提供了微博应用平台的API 。
本文采用文献[4]的数据获取方案,通过数据的清洗,分词等步骤最终获得用户的数据。
本文随机抽取50个用户的所有评论和转发数据。
2)用户关注层面的发现及聚类分析本文对数据集中的所有评论进行分词及词性标注,并将其中的所有形容词、名词词组找出来进行统计,然后使用K--means 进行聚类(k =10),各个词组之间的距离使用相关相似性(correlation)进行计算。
下面是通过该算法后,对其中某个用户数据分析后获得的层面及其聚类的结果。
用户层面发现及其聚类结果代表性的名词聚类的结果用户用户1教育(89)高考(34)高中(14)幼儿园(20)制度(25)异地高考(50)分数线(67)娱乐(45)演唱会(90)好声音(79)刘欢(35)七天乐(34)那英(45)用户2影片(20)青瓷(2)质量(100)结局(60)心情(100)明星(50)生活(50)慈善(89)演唱会(69)情节(67)图1从结果中可以看出,分类还是比较准确的。
由于随机选取的用户的属于普通的用户,用户评论和转发的微博不是特别多,随着用户评论数量的增多,对其偏好的学习就越来越准确,预测结果也越发精确。
3结束语文章通过对微博用户的评论和转发的微博的分析,通过分词的方法来对用户的数据进行处理,通过聚类分析来挖掘用户所关注的层面,相对其它通过用户的关注数和被关注数来发掘用户的兴趣更加准确。
参考文献:[1]Nardi Ba,Schiano D J,Gumbrechtm,et al.Why Web blog[J].Communicationsofthe ACM,2004,47(12):41-46.[2]何黎,何跃,霍叶青.微博用户特征分析和核心用户挖掘[J].信息系统,2010,34(11):121-123[3]平亮,宗利永.基于社会网络中心性分析的微博信息传播的研究——以Sina 微博为例[J].图书情报知识,2010(6):92-97.[4]廉捷,周欣,曹伟,等.新浪微博数据挖掘方案[J].清华大学学报:自然科学版,2005,51(10):1300-1305.6456基于微博用户评论和用户转发的数据挖掘作者:张国安, 钟绍辉作者单位:张国安(中国石化江汉油田 信息中心,湖北 潜江 433124), 钟绍辉(江西工业工程职业技术学院,江西 萍乡337000)刊名:电脑知识与技术英文刊名:Computer Knowledge and Technology年,卷(期):2012(27)1.Nardi Ba;Schiano D J;Gumbrechtm Why Web blog 2004(12)2.何黎;何跃;霍叶青微博用户特征分析和核心用户挖掘 2010(11)3.平亮;宗利永基于社会网络中心性分析的微博信息传播的研究--以Sina 微博为例 2010(06)4.廉捷;周欣;曹伟新浪微博数据挖掘方案 2005(10)本文链接:/Periodical_dnzsyjs-itrzyksb201227015.aspx。