一种Twitter社区中社会网络分析方法
- 格式:pdf
- 大小:302.10 KB
- 文档页数:4
社会网络与社交关系社会网络的兴起和发展,对人们的社交关系产生了深远影响。
在这个数字化时代,社交媒体和网络平台已经成为了人们日常生活中不可或缺的一部分。
本文将探讨社会网络对社交关系的影响,并分析其中的利与弊。
一、社会网络的定义与发展社会网络是指通过互联网连接起来的人与人之间的关系网络。
这种网络形式出现的初衷是为了方便人们之间的沟通和交流。
社交媒体平台如Facebook、Twitter和Instagram等的兴起,使人们能够以更加便捷的方式分享信息、建立联系,并扩大社交圈子。
二、社会网络对社交关系的积极影响首先,社交媒体和网络平台提供了一种新的交流方式。
人们可以通过即时通讯工具与亲友保持沟通,无论身处何地都能够及时了解到朋友圈和亲友的动态。
这种便利的交流方式有助于人们的情感交流和支持,促进社交关系的亲密度。
其次,社会网络的兴起还激发了人们寻找共同兴趣和爱好的需求。
社交媒体平台上的“群组”功能,使得人们能够更容易地找到志同道合的人,并在共同的兴趣领域进行交流和分享。
这有助于人们拓宽自己的社交圈子,建立起更加紧密的社交关系。
另外,社交媒体的普及还为人们提供了更多的社交机会。
在现实生活中,有些人可能因为不自信或社交障碍而无法主动与他人交往,而社交媒体则为他们提供了一种更舒适的社交环境。
他们可以在网络平台上以虚拟身份认识新朋友,逐渐培养自己的社交能力,并最终在现实中建立真实的社交关系。
三、社会网络对社交关系的负面影响尽管社会网络给社交关系带来了许多益处,但同时也存在一些负面影响。
首先,社会网络的过度依赖可能使人们与现实生活中的社交互动减少。
虽然社交媒体可以方便人们与亲友保持联系,但沉迷于社交媒体中会使人们忽略身边真实的人际关系。
长时间的沉迷于社交网络可能导致与现实社交的脱节,甚至加剧孤独感。
其次,社会网络的信息泛滥也带来了社交关系的问题。
社交媒体上的信息往往存在着真实性的问题,人们很难辨别信息的真假。
虚假的信息可能导致误解和误导,进而破坏人们之间的信任和友谊。
利用新媒体平台建立社区和在线社交网络在当今数字化时代,新媒体平台的兴起为人们的社交方式带来了巨大的变革。
利用新媒体平台建立社区和在线社交网络已经成为了一种趋势,不仅为人们提供了更多的社交机会,也为企业和组织提供了更多的宣传和推广渠道。
本文将探讨利用新媒体平台建立社区和在线社交网络的意义和方法。
一、建立社区的意义社区是人们共同生活和交流的地方,而利用新媒体平台建立社区可以带来以下几个方面的意义:1.1 提供交流和分享的平台利用新媒体平台建立社区可以为人们提供一个交流和分享的平台。
通过社区,人们可以与志同道合的人交流,分享彼此的经验和知识,从而获得更多的启发和帮助。
社区还可以促进人们之间的互动和合作,形成良好的学习和工作氛围。
1.2 增强社会凝聚力社区是社会的基本单位,而利用新媒体平台建立社区可以增强社会的凝聚力。
通过社区,人们可以更好地了解和关心自己所在的社区,参与社区事务,共同解决社区问题,从而促进社区的发展和进步。
社区的凝聚力也可以帮助人们建立更多的社交关系,增加社交圈子,提高生活质量。
1.3 促进经济发展利用新媒体平台建立社区还可以促进经济的发展。
通过社区,企业和组织可以与潜在客户建立联系,了解客户需求,提供更好的产品和服务。
社区还可以为企业和组织提供一个宣传和推广的平台,帮助他们扩大影响力,提高知名度,从而促进业务的增长和发展。
二、建立在线社交网络的方法建立在线社交网络是利用新媒体平台建立社区的一种重要方式。
以下是建立在线社交网络的几种常见方法:2.1 利用社交媒体平台社交媒体平台是建立在线社交网络的重要工具。
通过在社交媒体平台上创建个人或组织的账号,可以与其他用户建立联系,分享信息和内容,进行互动和交流。
常见的社交媒体平台包括微信、微博、Facebook、Twitter等。
利用社交媒体平台建立在线社交网络可以帮助个人和组织扩大影响力,吸引更多的关注和支持。
2.2 创建专业社交平台除了利用社交媒体平台,还可以创建专业社交平台来建立在线社交网络。
社会化媒体发展现状及其趋势分析社会化媒体是指具有互动性的多媒体数字交流平台,包括社交网络、微博、博客、在线论坛、虚拟社区等。
社会化媒体的出现改变了人们获取信息和传递信息的方式,成为现代社会的重要组成部分,对各行各业产生了深刻影响。
社会化媒体的发展可以追溯到20世纪90年代,当时的互联网刚刚开始普及。
2002年,出现了第一个追求个性化的社交网络Friendster,在短短几个月内便吸引了数百万用户。
此后,MySpace、Facebook、Twitter等社交网络陆续问世,以其方便、快捷、低成本等优点赢得了广大用户的青睐。
除了社交网络,微博、博客等平台也在不断发展壮大。
国内微博巨头新浪微博上线于2009年,迅速崛起并成为中国最大的微博平台。
博客则是更加主打个人化,提供了一个自由发表意见和分享知识的空间。
虚拟社区也成为社会化媒体中的重要组成部分,如魔兽世界、QQ群、微信群等,其社交性质不亚于社交网络,用户在其中可以交流思想、分享资源、建立社交关系等。
1.移动化随着移动设备的普及,社会化媒体也不断向移动平台转移,成为一个移动化时代的代表。
国内的微信、QQ空间、快手、抖音等应用,已经成为许多年轻人日常生活中必不可少的沟通和娱乐工具。
2.个性化未来社会化媒体将更加注重个性化定制,更好地满足人们多元化的需求。
从人工智能、大数据等角度进行个性化推荐,提供更加准确的内容,将成为社会化媒体发展的趋势。
3.融合性社会化媒体将不断向融合方向发展,与其他互联网应用、传统媒体等形成深度融合,如社交电商应用、社交媒体平台推出自己的内容等。
以此,社会化媒体将成为一个集多种功能于一身的综合服务平台。
4.全球化社会化媒体除了在国内发展迅速,也在海外市场崛起。
Facebook、Twitter等海外社交网络成为国际领先的社交平台。
未来,社交平台也将更加注重跨国合作、全球拓展,推动更加全球化的发展趋势。
总之,社会化媒体在不断创新、不断发展的过程中不断形成新的发展趋势。
复杂网络的分析方法及其应用作为信息时代的焦点,网络已经成为人们生活和工作中不可或缺的一部分。
不同于传统的线性关系,网络关系呈现出复杂的非线性特征。
复杂网络在社交网络、生物网络、物理网络等方面有广泛的应用,因而对复杂网络的研究显得尤为重要。
本文将着重介绍复杂网络的分析方法及其应用。
1. 复杂网络的基本特征复杂网络主要特征包括:规模大、拓扑结构多样、动态性强、非线性特性明显。
复杂网络的规模远远超越了人们的想象,例如Facebook里面就包含了数十亿的用户,而Twitter和微博则分别拥有了超过3亿和2亿的用户。
而不同的网络就会呈现出拓扑结构多样的特征,例如,社交网络中存在着星形拓扑,生物网络中则有着小世界结构,物理网络则对应着无标度网络等。
复杂网络的动态性主要表现在其拓扑结构及其元素的不断演化,这同样也就让复杂网络具备了非线性特性的表现。
2. 复杂网络的分析方法为了能够更加准确地描述和分析复杂网络的特征和性质,研究人员一直在探索各种适用的分析方法。
以下是几种常用的分析方法:(1)复杂网络的聚类分析:聚类分析是指根据元素之间的相似度或距离建立起元素之间关系的方法。
在复杂网络中,聚类分析是将节点按照拓扑结构聚类成相对稳定的社团或子网络。
(2)复杂网络的中心性分析:中心性分析主要是通过计算节点相对于整个网络的重要程度进行的,包括度中心性、接近度中心性、介数中心性等。
(3)复杂网络的结构分析:结构分析主要是通过分析网络的一些拓扑结构指标,包括平均路径长度、簇系数、度分布等来描述和分析复杂网络的特征和性质。
3. 复杂网络的应用(1)社交网络中的应用:社交网络是目前应用最广泛的网络之一,它可以用于研究社会网络、个人间的关系等。
通过聚类分析和中心性分析,可以有效地对社交网络进行刻画。
(2)生物网络中的应用:生物网络主要是指生物体内生物分子之间相互作用的网络。
在生物网络中,结构分析和聚类分析都可以用于对网络进行分析和研究。
社会网络的构建和应用一、社会网络基础社会网络是由一群人互相联系组成的社会结构,人与人之间通过建立联系,分享信息和资源。
这些联系可以是家庭、工作或兴趣爱好等方面。
社会网络的构建是一个动态过程,需要不断地更新,才能跟上快速变化的社会需求。
在社会网络中,人们可以找到对自己有帮助的资源和信息,例如工作机会、学习资源、社交机会等。
同时,社会网络也可以促进人与人之间的交流和合作,打破物理上的障碍,扩大社会影响和资源利用,提高社会效率。
二、社会网络的构建1. 社交媒体平台社交媒体平台是用于人与人之间相互分享信息,互动和交流的渠道。
多数社交媒体平台提供了个人资料,用户可以在其中上传自己的照片、兴趣爱好、职业经历等信息,与其他用户建立联系。
目前最流行的社交媒体平台包括Facebook、Twitter、Instagram、Snapchat等。
这些平台大多数以移动设备为主要客户端,实现随时随地的交流和分享。
2. 专业社交网络专业社交网络是针对特定行业设计的社交平台,和传统的社交媒体不同的是,它们更注重专业性和商业化。
已经有很多成功的专业社交平台,例如LinkedIn、Github等,它们为有特定职业和技能的人们提供了一个交流和分享经验的平台。
3. 开放数据平台开放数据平台是一个开放式的数据管理系统,用于收集和分享各种类型的数据。
它为数据所有者和数据使用者提供了一个共享数据的空间。
例如,数据.gov是美国联邦政府的一个开放数据平台,允许公共和私有部门的组织共享各种类型的数据,促进了科研以及一系列与社会利益相关的活动。
三、社会网络的应用1. 招聘和人才发现社会网络的一个重要应用是帮助公司和招聘者找到合适的人才,尤其是在专业社交网络中,人才发现更加精准。
通过分析用户的个人信息,以及他们在专业社交网站上发布的项目、经验和技能等信息,招聘者可以找到最适合他们要求的人才。
2. 个性化营销社交媒体是个性化营销的有力工具,品牌可以利用用户的兴趣爱好、浏览历史、互动习惯等信息,制定个性化的广告策略,推广商品和服务。
社交媒体影响力测度模型研究社交媒体影响力是一种相对而言的概念,它基于多种指标的综合评估来量化用户在社交网络平台上的活跃程度、社交范围和传播力等方面的特征。
尽管社交媒体的影响力分类方法存在不确定性和主观性,在评价标准、样本数据、分析工具等方面都需要有一定的科学性和客观性,但是随着社交网络的普及和深化,研究社交媒体影响力的测度模型已经成为一个重要的课题,其结论和预测具有广泛的应用价值。
一、社交媒体影响力的基本概念和影响因素社交媒体影响力是指社交网络用户在社交平台上所具有的获取和分发信息、影响和引导用户、塑造和建立个人品牌的能力和实力。
影响力是由多种因素综合作用、产生的复合效应,包括用户活跃度、交互频次、内容创新、传播范围、品牌形象等几个方面,其中影响力的高低取决于其在社交媒体平台上所积累的曝光度和关注度。
1、用户活跃度用户活跃度是刻画用户在社交平台上活动情况的重要指标之一,它体现了用户对社交网络的使用频率、时间、持久性以及对互动关系的维护。
活跃度越高,越能反映出用户对个人信息和用户群体的关注度和热情,同时更容易促进信息的传播和社会化分享。
2、交互频次交互频次是指用户之间互相转发、评论、点赞、分享信息的频率和程度。
它是社交交流的重要体现形式,可以反映出用户之间互动的邀请程度和响应能力。
频繁的交互可以增加信息的曝光率和话题敏感度,形成更加有价值的信息流传递和社会化传播效应。
3、内容创新内容创新是指用户在社交媒体平台上发布、转发的信息内容所表现出的信息价值、创意性、原创性和标签化程度等因素。
它可以提高信息流传播和用户之间的互动交流效率,同时能够产生更大的个人品牌形象和话题影响力。
4、传播范围传播范围是指用户的社交网络规模和关系网络结构,是社交媒体影响力的重要指标之一。
社交网络规模越大、互动关系越紧密,信息的传播速度和覆盖面积也就越广,个人品牌的影响力也就越强。
二、社交媒体影响力测度模型研究进展随着社交媒体的出现和发展,如何精确测定用户的社交媒体影响力成为了信息科学和管理学领域的研究热点。
使用Python进行社交网络分析和影响力评估社交网络分析和影响力评估已成为现代社会研究和商业决策的重要工具。
它们可以揭示个体、群体和组织之间的相互关系,理解信息传播和影响力扩散的模式。
Python作为一种强大、灵活且易于使用的编程语言,为社交网络分析和影响力评估提供了很多有用的工具和库。
本文将介绍如何使用Python进行社交网络分析和影响力评估。
一、数据获取与预处理在进行社交网络分析和影响力评估之前,首先需要获取相关数据并进行预处理。
常见的数据来源包括社交媒体平台、用户行为记录等。
Python中的一些库,如`tweepy`和`pandas`,可以方便地帮助我们获取和处理数据。
例如,使用`tweepy`库可以通过API获取Twitter上的用户数据,而`pandas`库则可以对数据进行整理和清洗。
二、网络构建在得到数据后,我们需要将其转化为网络结构,以便进行分析。
网络可以用图表示,其中用户或实体表示为节点,他们之间的关系表示为边。
Python中的`networkx`库提供了一套丰富的网络分析工具,可以用来构建和分析各种类型的网络。
通过将数据转换为`networkx`库支持的格式,我们可以方便地建立和操作网络。
三、网络分析一旦网络被构建起来,我们可以对其进行各种分析。
社交网络分析常用的指标包括节点的度中心性、介数中心性、紧密中心性等,这些指标可以帮助我们了解节点在网络中的重要性和位置。
Python中的`networkx`库提供了计算这些指标的函数,我们可以直接调用它们。
四、影响力评估影响力评估是社交网络分析的一个重要应用,它可以帮助我们确定哪些节点或用户在网络中具有较大的影响力。
Python中的`networkx`库提供了一系列用于计算影响力的算法,如PageRank和HITS算法。
这些算法可以帮助我们找到网络中的关键节点和意见领袖。
五、可视化分析结果的可视化是理解和传达社交网络分析和影响力评估结果的重要手段。
社交网络S N S一、社交网络简介1、SNSSocial Networking Services,即社会性网络服务2、涵义社交网络即社交网络服务,是一个人与人之间的网络,通过网络这一载体把人们连接起来,从而形成具有某一特点的团体。
旨在帮助人们建立社会节点,编织社会结构,扩大社交范围的互联网应用与服务3、应用领域集即时通信、博客、论坛、邮箱、游戏、音乐、视频等于一体,其用户在线上线下皆以相对真实化的背景为纽带,以朋友和朋友的朋友为节点,形成一张巨大的用户关系网。
社交网络的一个重要特点就是网络效应,使用这项产品或者服务的人越多,这项产品或服务就越有价值和吸引力。
4、基本理论(1)六度分隔(Six Degrees of Separation)理论:1967年,哈佛大学心理学教授斯坦利.米尔格拉姆(Stanley Milgram)提出了著名的“六度分割”理论:一个人与世界上任意一个人之间所间隔的人不会超过6个。
(2)“150法则”150定律,也称“邓巴数字”,是由罗宾.邓巴(Robin Dunbar)——英国牛津大学人类学家提出的,150定律指出:维持稳定的社会交往关系人数的最大值约为150人。
(2)强连接和弱连接理论根据沟通的频率和深度看,人们在社会网络中,有的关系是“强连接”,如血亲关系、亲密朋友关系等,而有的关系则属于“弱连接”,如偶然在某聚会上结识的熟人关系等。
最早的SNS网站SixDegrees.Com创立于1997年,随后各种SNS迅速发展。
但由于当时SNS本身的服务模式不成熟,无法满足网民的访问需求,SNS 并没有成为主流网站。
直到2004年以社交游戏和实名制交友见长的Facebook出现后,SNS才真正兴起。
5、传播特征SNS具有互动性强、去中心化、开放封闭并存以及同步异步传播等四个主要传播特征。
6、主要功能(1)个人页面人们在其上通过自我描述让自己页面栩栩如生。
SNS的个人页面包括姓名、年龄、地区、兴趣、生日、爱好等个人信息。
社会网络中恶意节点检测与分析随着互联网的发展,社交网络逐渐成为人们高频使用的工具。
无论是与朋友分享生活点滴还是商家推广产品,社交网络都为人们的生活带来极大便利。
然而,随着社交网络规模的不断扩大,也给网络安全带来了威胁。
其中,社交网络中的恶意节点成为了一大安全隐患,对用户的个人隐私和信息安全造成了一定的风险。
什么是恶意节点?社交网络中的恶意节点,是指在网络中存在的进行恶意操作的节点,其目的是为了从网络中获取不当利益、影响其他用户或者破坏网络的正常运作。
恶意节点主要包括虚假账户、机器人账户、恶意软件等。
为什么需要检测恶意节点?社交网络作为人们生活中必不可少的一部分,其信息的披露也对用户的隐私产生了严重的威胁,需要对安全隐患进行及时的检测。
除此之外,如何区分真实用户和虚假用户也是网络管理者的工作任务之一。
恶意节点检测可以有效地保障用户的信息安全、维护社交网络的良好运作、防止欺诈行为。
如何检测恶意节点?社交网络中,恶意节点可以通过以下方式识别。
1.网络行为检测网络行为是用户在社交网络中的主要表现,因此社交网络必须依靠用户的行为来分辨恶意节点。
恶意节点通常表现为异常、频繁的行为。
如频繁刷屏、群发垃圾信息、关注大量不相干账户或关注用户无法识别的账户等。
2.社交网络拓扑检测社交网络中,具有相似行为模式的用户可能具有相似的网络拓扑结构。
因此,社交网络可以利用网络拓扑结构来发现恶意节点。
例如在Twitter中,如果用户关注较多互相不相关的账户,即表现出群体效应,则有可能是虚假或垃圾账户。
3.智能算法检测社交网络中,恶意节点通常采用自动化或混淆等方式进行行为,具有一定的随机性和复杂性。
因此,社交网络可以利用智能算法进行检测。
常用的检测算法包括基于图的方法、K-均值聚类、支持向量机等。
如何防范恶意节点?网络安全应该是一个持续的过程,社交网络用户可以通过以下几点来预防恶意节点的危害。
1.加强账户安全措施用户可以加强自己的账户安全,如更改密码、账户绑定手机或邮箱、开启二次验证等,以便提高恶意节点的入侵难度。
社会网络分析(SNA)的简要文献综述社会网络分析(SNA)是一种研究社交关系的方法,结合网络理论和社会学的概念,来研究人际关系和社会结构。
SNA专注于社会关系的连接和流动,透过数学模型的应用,帮助研究者理解组织和社会关系的模式并预测这些模式的变化。
下面我们将看看相关的文献。
社会网络分析的回溯与发展:社会网络分析起源于20世纪中叶。
在社交心理学方面,Jacob L. Moreno因其创新地使用图形化方法来研究团体互动而被认为是SNA的创始人。
另一方面,约翰·巴特利特和哈罗德·加芬斯·怀特开创了SNA的基础研究方向,康利和罗杰斯等学者则成为了SNA的代表人物。
当SNA最初出现时,它还没有像现在这样的计算机科学技术来支持。
在20世纪70年代,随着大型计算机的出现,研究者开始从数据和方法的角度来分析网络。
到了80年代,更多的统计工具和算法被引入,绘制社交网络图和网络图的方式也变得更精细。
近年来,SNA的方法和应用已经越来越广泛,包括社交咨询、企业分析、健康和医疗等方面。
社会网络分析的实际应用:社交咨询:许多社交应用程序(如Twitter,Facebook,Instagram)使用了SNA,帮助用户探索与自己相关的人、地点和话题。
例如,Gomez-Rodriguez等人的研究发现,Twitter上的影响力和知名度取决于用户的邻居数量和他们的连接质量。
此外,科学家们还使用SNA来鉴定影响健康行为的社交影响因素。
由此我们可以得出,SNA不仅在社交领域有应用,在健康和医疗方面也可以通过社交儒询来发挥其作用。
企业分析:SNA被广泛用于商业领域的组织结构分析。
它可以帮助企业了解其内部关系和流程,分享知识和信息,从而提高生产力。
例如,Paolo和Nardella的研究发现,使用SNA技术,可以为某一工厂的流程优化提供一种替代方法,而这个变革可以减少延误和错误,并促进生产力提高。
研究社交网络的挑战:研究社交网络面临的挑战包括数据采集,数据质量,以及研究者所使用的算法和模型。
社会网络有哪些功能-V1社交网络是现代社会的重要组成部分,它为人们带来了诸多的功能和便利,下面就让我们来一起了解一下。
一、交流功能社交网络最重要的功能之一是为人们提供了一种便捷的交流平台,例如微信、QQ、Twitter等。
人们可以通过这些平台随时随地与朋友、家人或其他人进行联系。
这种交流不仅可以看到对方文字信息,还可以通过语音、视频等多种形式进行交流。
二、信息传播功能社交网络是信息传播的重要平台。
人们可以通过社交网络发布各种信息,例如新闻、文化活动、推广产品等。
尤其在危机时期,社交网络能够迅速传播信息,帮助人们做出正确的决策。
三、个人展示功能社交网络为人们提供了展示自己的平台。
例如,人们可以在微博、ins等平台上展示自己的照片、文字、音乐等内容,从而向其他人展示自己的生活、爱好和人格魅力。
四、娱乐功能许多社交网络平台也是人们娱乐的重要来源。
例如,人们可以在下棋、聊天、观看影片等活动中快速消磨时间,还可以通过了解各种娱乐信息来满足自己的消遣需求。
五、商业功能社交网络也是许多商家推销产品的重要平台。
在社交网络上,商家可以通过广告投放、微博推广等方式,向用户宣传自己的产品,增加自己的曝光率和知名度。
六、网络社群功能社交网络还为人们提供了一种建立网络社群的平台。
例如,人们可以通过微信群、QQ群、Facebook群等方式,建立自己感兴趣的社群。
这些社群不仅可以帮助人们找到志同道合的朋友,还可以为人们提供信息交流平台。
总之,社交网络作为现代社会重要组成部分,不仅带来了诸多的交流、信息传播、个人展示、娱乐、商业和社群等功能,而且也为人们的生活带来了更多的便利。
第3期2024年2月无线互联科技Wireless Internet Science and TechnologyNo.3February,2024作者简介:叶帅辰(1994 ),男,工程师,博士;研究方向:网络安全,电气系统控制及可靠性㊂社交媒体中开源网络威胁情报挖掘技术分析叶帅辰(中国信息通信研究院安全研究所,北京100191)摘要:威胁情报是网络安全防御的重要信息资源,其准确性㊁时效性直接决定了系统对于外来未知威胁的感知发现能力㊂目前,除威胁情报自生产及商业购买外,从社交媒体(如网络安全博客㊁技术论坛㊁安全报告发布平台等)中直接提取挖掘开源情报的方式因具有高时效㊁低成本等特点,受到了业界的广泛关注㊂文章结合近年来代表性研究梳理归纳了从社交媒体中采集及提取挖掘开源网络威胁情报的主要技术,并分析了相应的优缺点及适用场景,可为情报提取模型选择及优化设计提供参考㊂关键词:社交媒体;网络安全;开源情报;采集挖掘中图分类号:TP391.1㊀㊀文献标志码:A0㊀引言㊀㊀随着互联网通信的大范围普及,网络空间已延伸至社会生产的各个领域,与此相伴的是针对网络上组织或个人的攻击破坏事件层出不穷㊂尤其在当今大国博弈的背景下,有组织㊁有目的的国家级新型网络攻击日趋频繁,以高级持续性威胁(Advanced Persistent Threat,APT)㊁0day 漏洞利用为代表的网络威胁充分利用电子邮件㊁移动应用程序等途径对重要生产资料进行渗透窃取㊂目前,常规的网络安全防御手段是在防御对象系统的网络空间边缘部署入侵检测系统㊁全流量探针㊁防火墙等防御设备[1],发现并阻断带有特定五元组信息或报文特征的攻击流量,这种方法虽然可以在一定程度上感知网络威胁,但是其防御能力很大程度上取决于安全防御设备中内置的威胁情报规则准确与否㊂虽然除常规防御手段外,还可以通过对捕获的流量进行行为特征分析来挖掘新型威胁的攻击线索,但是这样会消耗大量运营成本,且多作为事后复盘分析手段,无法做到事前防御㊂因此,能够及时㊁准确㊁全面地获取最新网络威胁情报并将其配置在边缘防御设备中,仍然是目前对抗新型网络攻击的最有效手段㊂本文通过对近年代表性文章中开源网络威胁情报提取挖掘技术进行归纳分析,明确了威胁情报的常用标准化规范及主要提取来源,梳理了最新的情报采集及提取方法,并从准确率㊁提取速度㊁普适性3个方面分析了各方法的特点及适用场景,为网络安全运营人员选择使用或改善优化相关方法时提供参考㊂1㊀网络威胁情报标准化㊀㊀为满足跨组织㊁跨地域㊁跨行业㊁跨平台的威胁情报交互共享,催生了网络威胁情报的标准化需求㊂目前,常见的威胁情报标准已超过20种,其中应用比较广泛的包括美国MITRE 公司提出的STIX 标准㊁TAXII 标准,Mandiant 公司的openIOC 标准,国际互联网工程任务组的MILE 标准,以及国内于2018年提出的GB /T 36643 2018标准㊂STIX 初代版本STX1.0于2013年提出,是一种基于可扩展标记语言的表述形式,其包含8个威胁信息构件(即8个情报要素):可观测信息㊁攻击特征㊁安全事件㊁攻击行为㊁威胁来源㊁攻击目的㊁技战术㊁应对方法㊂随后MITRE 公司在2017年提出的STX2.0版本中,又对8个构件中的技战术㊁威胁来源和攻击目标进行了扩充和细化,达到了12个要素,并重新以解析手段更为丰富的JSON语言进行表述[2]㊂TAXII是一种威胁情报传输标准,其最初是为用户间共享STIX格式情报而制定的,旨在保证情报共享过程中的机密性㊁完整性㊂其包括3种传输模式:单一信息源的消息订阅分发模式㊁中心化资料库的信息消费模式㊁点对点群组共享模式㊂除STIX格式外,该标准也广泛适用于其他标准格式的威胁情报共享传输㊂国内GB/T36643 2018标准全称为‘信息安全技术网络安全威胁信息格式规范“,该标准定义了网络安全威胁信息模型的3个表述维度:对象域㊁方法域和事件域,以及不同域内的8个威胁信息描述组件㊂其中,对象域包含威胁主体㊁攻击目的2个组件,方法域包含攻击方法㊁应对措施2个组件,事件域包含攻击活动㊁安全事件㊁攻击指标㊁可观测数据4个组件㊂该标准为国内各网络安全威胁信息供应方和需求方之间进行威胁情报生成和共享提供规范㊂2㊀网络威胁情报主要来源㊀㊀威胁情报的标准化定义使不同组织㊁地域间的网络威胁信息共享及协同防御成为可能,但从何处能够源源不断地获取最新的威胁情报却无统一标准,因此尽可能大量㊁快速㊁准确地获取情报便成了评价一个组织情报收集能力的重要指标㊂目前,主要的网络威胁情报来源分为内部来源和外部来源两类,内部来源主要是指组织或单位通过对其自有网络资产的主机日志㊁网络出口所部署安全设备采集的流量日志及安全告警日志等进行聚合分析,并经过与主机㊁系统㊁网络设备运行状态㊁行为特征进行长时间的观察比对,形成的基于攻击危害的情报信息㊂但这种情报输出方式的应用受限于以下3个方面:(1)多数组织或单位不具备在各网络节点大规模部署安全设备的能力,导致原始数据来源范围有限,影响情报输出的准确性;(2)部署在各网络节点的安全设备需要基于已有情报规则才会触发生成相应的告警日志,想要满足此条件必须先行导入大量的原始情报,同时通过该方式生产情报又与已有情报关联紧密,因此价值有限;(3)该方式输出情报是以长期对攻击所产生危害的观察为依据的,因此在使用时难免会造成一定的网络风险㊂而外部来源主要是指从开源媒体中提取挖掘,常见的媒体情报源主要包括技术博客(如fireeye㊁kaspersky㊁Talo㊁symantec等)㊁社交网站(如Twitter㊁Freebuf等)㊁新闻网站㊁公共报告,甚至是深网地下论坛等,这种方式不仅具有较低的采集成本,且时效性㊁普适性更好,因此,相比于内部生产方式,其在业界的应用更为广泛,同时也是本文讨论的重点㊂3㊀基于社交媒体的开源威胁情报采集及提取技术㊀㊀在确定情报源后,如何从海量开源媒体中更高效㊁完整㊁准确地采集及提取网络威胁情报,一直受到业界及学术界的高度关注,本文检索了近10年中外学者在主流安全期刊㊁学术会议㊁学位论文上发表的文献,统计情况如图1所示㊂可以看出,针对相关主题的研究热度一直呈上升趋势,但从数量上看中文数据库相关研究与国外数据库相比仍存在一定差距㊂3.1㊀开源威胁情报采集㊀㊀威胁情报采集是威胁情报全生命周期管理中的基础环节,其采集数量与质量直接关系到后续识别提取效率以及输出情报价值㊂采集开源威胁情报一般利用网络爬虫,并结合语句识别㊁话题检测等技术对多源媒体(如技术博客㊁黑客论坛等)中的特定内容信息进行捕获留存㊂近年来,随着Web攻防技术的不断完善,开源社交网络的反爬取机制也在加强,因此常规的网络爬虫很难快速大量获取网站中的高价值原始情报㊂针对此问题,徐留杰等[3]列举了当下较为常见的反爬取策略并给出了具体的应对措施,如:对于设置了Headers信息检测的网站,可在爬虫中预置Headers 各个参数真实值;对于具备用户行为检测机制的网站,可采用设置多个代理IP并预留访问时间间隔的方式等,同时利用所提出方法对端侧邮件系统中的开源情报订阅信息进行采集提取及标准化处理㊂虽然表网中能够获取数量可观的开源情报,不过相比于深网,其获取的威胁情报准确性和时效性都较差,想要构建高质量的威胁情报管理体系,深网同样是一个不可忽视的情报获取源[4-5]㊂不过和表网不同的是,深网各个站点间没有形成互联互通的网状架构,更多是以散点状形式呈现的,在对深网中的情报进行采集之前需要广泛搜集站点信息[6]㊂因此,黄莉峥等[4]提出利用人工搜集近期活跃的深网市场和地下论坛链接,之后再对各站点逐一进行内容爬取的方法来提取初始情报,不过这种方式在大规模应用场景下及时性和效率都有待提高㊂在此基础上,Vlachos等[7]提出了一种双层爬虫架构,第一层为Hidden Wiki爬虫,其负责爬取深网的.onion URL地址,并基于网页的HTML架构留存站点目录层级,以 24位标识码(id),实体类型(Entity-type),网站名称(Name),网站链接(URL),网站状态(State),目录(Category),子目录(Subcategory),爬取时间(Time UTC) 的形式将爬取的站点信息落盘至.csv文件;第二层为ACHE爬虫,其将上一层爬取的.csv文件作为输入,利用代理服务器连接Tor 网络,对网页各目录层级内容进行自动爬取,并将爬取后的初始情报信息写入JSON文件㊂图1㊀近10年开源网络威胁情报采集及提取主题文献发表趋势知网数据库检索关键词: 开源 and{ 网威胁情报采集 or 网络威胁情报提取 or 网络威胁情报挖掘 };Engineering Village数据库检索关键词: Open Access and Cyber Threat Intelligence and{ Crawl or Extract or Collect }㊀㊀除上述研究中所用静态爬虫方法外,Zhang等[8]结合文本语义检测技术开发了能够对开源威胁情报进行迭代采集的动态爬虫iMCircle,其通过爬虫引擎㊁信息预处理㊁情报检测㊁新情报源提取4个模块,实现对威胁情报的自动化循环采集,相关结果表明,整合了语义检测的动态爬虫相比于静态爬虫具有更高的采集效率及准确性㊂3.2㊀开源威胁情报提取㊀㊀通过上述研究中的静态或动态爬虫技术从社交网络获取非结构化开源威胁情报文本后,需进一步利用信息提取技术,输出具有分析价值的标准化或非标准化威胁情报㊂该过程涉及处理海量原始数据集,手工方法效率低下,因此多采用人工智能方法作为主要提取手段㊂目前,常见的威胁情报提取识别方法基于其依赖的技术不同主要分为两大类:基于自然语言处理的提取技术和基于神经网络的提取技术㊂相关研究在对这两类方法细分衍生的基础上,又整合各类人工智能算法形成了适用不同场景需求的组合式提取识别技术㊂3.2.1㊀基于自然语言处理的提取理技术㊀㊀自然语言处理技术(Natural Language Processing,NLP)的基本原理是通过对只有人类能够理解的自然语言进行编码,将其转化为计算机能够理解和输出的语言形式,从而实现利用机器代替人工对从社交媒体中采集的原始威胁情报关键信息进行提取㊁识别㊁摘录㊂Feng等[9]针对物联网设备中的漏洞威胁,通过开发自动化爬虫工具,从社交网络上收集下载开源漏洞报告,利用NPL技术分析报告语义,提取漏洞类型㊁漏洞位置㊁软硬件名称㊁版本号等信息,摘录形成结构化威胁情报㊂在使用中,该方法收集了7514个漏洞报告,提取出其中披露的12286个物联网设备漏洞,人工核对结果表明该方法的识别准确率可达到94%㊂Zhu等[10]使用Stanford NPL方法对14155篇工业报告及技术文章中收录的24654个威胁情报进行提取,并基于不同攻击阶段设置4个标签:载荷投递(Baiting)㊁利用与开发(Exploitation)㊁木马植入(Installation)㊁命令与控制(Command and Control)对所提取的威胁情报进行分类㊂相关实验结果表明,该方法对威胁情报提取准确率达到了91.9%,对威胁情报攻击阶段信息认定准确率也可达到78.2%㊂在此基础上,Ghaith等[11]引入了利用基于语义学的信息检索方法(Information Retrieval,IR)对传统NLP进行优化㊂该方法可从非结构化报告中提取攻击技战术㊁杀伤链等威胁情报关键字,并按照不同的威胁情报标准(如STIX等)进行结构化输出㊂结果表明,该方法相比于传统NLP具有更高的检索准确性㊂进一步地,该团队在Ghaith等[12]中同样对传统NLP 进行了改进,将熵和互信息(Entropy and Mutual Information,EMI)度量引入网络安全领域,对采集的开源威胁情报按照危害等级进行筛选,滤除低危情报,支撑安全防御快速决策,大大提高了情报提取输出效率㊂为使NLP方法能够更加智能化地解析提取来自深网或暗网的隐蔽情报信息,Varsha等[13]引入了Google BERT训练模型㊂该模型具有两层训练任务:第一层为Masked LM,即在句子中随机遮盖一部分单词,训练模型通过上下文信息推测该单词;第二层为Next Sentence Prediction,通过对下一句进行预测,训练模型理解深层语义㊂因此,该模型有效避免了传统Word2Vec或Doc2Vec语言编译模型对于多义词的混淆㊂结果表明Google BERT+NLP方法能够高效地从深网粗情报中提取黑客ID㊁使用工具㊁软件信息㊁组织信息等要素㊂3.2.2㊀基于神经网络的提取技术㊀㊀利用神经网络(Neural Network,NN)提取威胁情报的核心是通过大量原始数据集对所构建的网络模型开展长期训练,进而利用该模型对待分析原始文本形成的数据矩阵中关键短语向量进行定位㊁筛选㊁整合,从而实现原始信息到结构化威胁情报的端对端提取㊂Zhou等[14]提出了一种带有双向长短期记忆(Long Short Term Memory,LSTM)模块的人工神经网络(Artificial Neural Network,ANN)㊂该网络为常规的输入层-计算层-输出层3层架构,可提取网络安全报告长句子中的低频威胁情报㊂该方法的优势是能够在仅通过少量数据集训练的条件下,便可达到90%以上的情报提取准确率㊂然而,Long等[15]在应用该ANN方法后发现其容易在提取过程中混淆疑似威胁情报,于是在此基础上引入多头自注意力模块和语境特征分析模块,并同时利用中英文数据集对该模型进行训练,结果表明,相比于Zhou等[14]中的方法,该方法对于英文安全报告中威胁情报的提取准确性可提升至93%以上,对于中文安全报告中威胁情报的提取准确率也可达到82.9%㊂除ANN外,卷积神经网络(Convolutional Neural Network,CNN)也是应用较为广泛的威胁情报提取方法,Kim[16]最先将CNN应用于文本识别领域,其证实了仅带有一层卷积计算层的CNN仍具有良好的文字信息提取效果㊂基于此,Xun等[17]提出了一种带有两层卷积的CNN模型㊂其能够更加精细化地从网络安全文献中识别威胁情报文本特征㊂在使用相同数据集开展训练的条件下,该双层CNN的威胁情报提取准确性相比于传统单层CNN结构提高了4%㊂Zhao等[18]在常规CNN的基础上,首次整合了威胁情报领域识别模块,其除能够提取威胁情报外,还能根据情报特征对其潜在影响领域(如物联网㊁金融㊁教育㊁政府部门等)进行推断并打标签㊂该方法从2002至2018年共118000篇网络安全报告中提取了超过一百万条情报信息,经验证情报提取准确率高达94%,针对威胁情报的所属领域认定准确率也达到了84%㊂进一步地,里斯本大学团队的Dionisio等[19]提出了一种5层CNN架构,除包含常规的输入层㊁嵌入层㊁卷积层和输出层外,在卷积层和输出层之间插入了池化层,目的是降低模型的过拟合程度并减少计算量,作者通过该方法对社交媒体Twitter中的网络威胁信息进行了结构化情报提取,并在使用相同数据集的条件下与另外8种情报提取方法进行了比对,结果验证了该方法的优越性能㊂3.2.3㊀其他混合型提取技术㊀㊀受益于人工智能理论的发展,大量研究将支持向量机(Support Vector Machine,SVM)㊁狄利克雷分配(Latent Dirichlet Allocation,LDA)㊁机器学习(Machine Learning,ML)等算法融入传统NLP或NN方法中,形成了多种功能特点各异的混合型威胁情报提取方法㊂Wang等[20]通过引入注意力机制(Attention Mechanism, AM)和强化学习模块(Reinforcement Learning,RL)形成了能够减轻标注数据噪声的分段式卷积神经网络结构,并利用Google BERT模型对其进行训练,结果表明在对同一情报源进行提取时,所提出方法准确率相比于常规CNN增加了15%以上㊂Deliu等[21]提出了一种基于支持向量机和狄利克雷分配的二级威胁情报提取模型,该模型通过第一层的支持向量机先对从黑客论坛爬取的无关主题帖子进行剔除,再利用第二层的狄利克雷分配对具有相同特征的威胁情报(如凭证泄露㊁代理服务器㊁逃逸攻击等)进行快速聚类,通过对百万量级黑客论坛帖子中情报信息进行提取,验证了该模型的快速性和准确性㊂为解决开源威胁情报中存在的中英文表述混杂难以识别等问题,王瀛等[22]提出了基于一种融合迭代膨胀卷积神经网络与双向门控循环单元深度学习模型的文本威胁信息实体识别方法,并引入人工规则词典进行输出矫正,在与其他深度学习方法,如双向长短期记忆网络模型,进行比对后证明该方法能够在最小化信息损失的同时,对文本特征具有更全面的提取识别效果㊂除提出新的情报提取方法外,部分研究致力于对已有提取方法进行性能比较,以确定不同方法的最佳适用场景㊂Gasmi等[23]针对情报提取过程中用于文本关系特征识别的长短期记忆(LSTM)模型3种常见架构:序列树结构(Sequences and Tree Structures, STS)㊁最短依赖路径结构(Shortest Dependency Paths, SDP)㊁最近共同父节点二叉树结构(Least Common Ancestor Sub Tree,LCA)进行了多方面能力(识别率㊁准确性等)比对,作者利用相同数据集对不同结构进行训练后发现,同一模型的提取准确性和对于不同文本形式的适应性呈近似负相关㊂Deliu等[24]将基于人工智能理论的支持向量机㊁卷积神经网络和基于图论的决策树模型进行比对,结果表明基于人工智能理论的方法相比于传统数学模型方法需要的训练时间的确更短,不过提取准确度方面却没有明显区别,同时SVM方法所需训练时间虽然相比于使用范围更广的CNN方法略长,但在部分场景下具有更小的计算量以及更快的提取速度㊂4 结语㊀㊀本文聚焦于开源网络威胁情报提取挖掘技术,从近年代表性工作中梳理了开源社交媒体的情报提取常用手段,简要分析了各提取方法的技术特点及优势,针对各方法的适用性㊁速度㊁准确率等评价指标,可初步归纳如下结论㊂(1)威胁情报提取的准确率和速度呈近似负相关㊂以NN方法为例,想要提高模型针对各类媒体中情报提取的准确性,必然需要在模型中引入多层卷积结构或降噪模块,而在使用相同训练数据量对模型进行训练的前提下,额外的功能单元必然会增加整体计算量,减慢单个情报提取的速度㊂(2)威胁情报提取速度和文本类型适用性呈近似负相关㊂与上一结论的情况类似,若要所构建的提取模型对不同结构㊁不同语种的开源媒体都具有很好的兼容性,那么必然要增加模型的判断逻辑单元和适应性功能模块,从而提升了提取复杂度,降低提取效率㊂此外,虽未有研究直接表明,但可以推断威胁情报提取模型的文本类型适用性和提取准确性应该也为负相关,因不同模型的设计都是为满足特定语言㊁特定媒体形式的快速准确提取需求,难免会一定程度上牺牲针对其他文本类型的提取性能㊂参考文献[1]叶帅辰,卢泓宇,周成胜.网络安全防护设备应用研究[J].信息与电脑(理论版),2022(17):213-216.[2]石志鑫,马瑜汝,张悦,等.威胁情报相关标准综述[J].信息安全研究,2019(7):560-569.[3]徐留杰,翟江涛,杨康,等.一种多源网络安全威胁情报采集与封装技术[J].网络安全技术与应用,2018(10):23-26.[4]黄莉峥,刘嘉勇,郑荣锋,等.一种基于暗网的威胁情报主动获取框架[J].信息安全研究,2020(2): 131-138.[5]NUNES E,DIAB A,GUNN A,et al.Darknet and deepnet mining for proactive cybersecurity threat intelligence[C].Tucson:2016IEEE Conference on Intelligence and Security Informatics(ISI),2016. [6]张永超.暗网资源挖掘的关键技术研究[D].西安:西安电子科技大学,2013.[7]VLACHOS V,STAMATIOU Y,TZAMALIS P,et al.The SAINT observatory subsystem:an open-source intelligence tool for uncovering cybersecurity threats[J]. International Journal of Information Security,2022 (21):1091-1106.[8]ZHANG P,YA J,LIU T,et al.iMCircle: automatic mining of indicators of compromise from the Web[C].Barcelona:2019IEEE Symposium on Computers and Communications(ISCC),2019. [9]FENG X,LIAO X,WANG X,et al.Understanding and securing device vulnerabilities through automated bug report analysis[C].Santa Clara:The28th USENIX Conference on Security Symposium,2019. [10]ZHU Z,DUMITRAS T.ChainSmith:automatically learning the semantics of malicious campaigns by mining threat intelligence reports[C].London:2018IEEE European Symposium on Security and Privacy,2018.[11]GHAITH H,EHAB A,MOHIUDDIN A,et al. TTPDrill:automatic and accurate extraction of threat actions from unstructured text of CTI sources[C]. Orlando:33rd Annual Computer Security Applications Conference,2017.[12]GHAITH H,XI N,BILL ing entropy and mutual information to extract threat actions from cyber threat intelligence[C].Miami:2018IEEE International Conference on Intelligence and Security Informatics,2018.[13]VARSHA V,MAHALAKSHMI S,SENTHILKU-MAR K B.Extraction of actionable threat intelligence from Dark Web data[C].Chengdu:2023International Conference on Control,Communication and Computing,2023.[14]ZHOU S,LONG Z,TAN L,et al.Automatic identification of indicators of compromise using neural-based sequence labelling[C].Hongkong:Proceedings of the32nd Pacific Asia Conference on Language, Information and Computation,2018.[15]LONG Z,TAN L,ZHOU S,et al.Collecting indicators of compromise from unstructured text of cybersecurity articles using neural-based sequence labelling[C].Budapest:2019International Joint Conference on Neural Networks,2019. [16]KIM Y.Convolutional neural networks for sentence classification[C].Doha:Conference on Empirical Methods in Natural Language Processing,2014. [17]XUN S,LI X,GAO Y.AITI:an automatic identification model of threat intelligence based on convolutional neural network[C].Xiamen:Proceedings of the20204th International Conference on Innovation in Artificial Intelligence,2020.[18]ZHAO J,YAN Q,LI J,et al.TIMiner: automatically extracting and analyzing categorized cyber threat intelligence from social data[J].Computers& Security,2020(95):1-14.[19]DIONISIO N,ALVES F,FERREIRA P,et al. Cyberthreat detection from twitter using deep neural networks[C].Budapest:2019International Joint Conference on Neural Networks,2019. [20]WANG X,CHEN R,SONG B,et al.A method for extracting unstructured threat intelligence based on dictionary template and reinforcement learning[C]. Dalian:2021IEEE24th International Conference on Computer Supported Cooperative Work in Design,2021.[21]DELIU I,LEICHTER C,FRANKE K.Collecting cyber threat intelligence from hacker forums via a two-stage,hybrid process using support vector machines and Latent Dirichlet Allocation[C].Seattle:2018IEEE International Conference on Big Data,2018. [22]王瀛,王泽浩,李红,等.基于深度学习的威胁情报领域命名实体识别[J].东北大学学报(自然科学版),2023(1):33-39.[23]GASMI H,LAVAL J,BOURAS rmation extraction of cybersecurity concepts:an lstm approach [J].Applied Sciences,2019(9):1-15. [24]DELIU I,LEICHTER C,FRANKE K.Extracting Cyber threat intelligence from hacker forums:support vector machines versus convolutional neural networks [C].Boston:2017IEEE International Conference on Big Data,2017.(编辑㊀王永超)Analysis of open source cyber threat intelligence mining technology from social mediaYe ShuaichenSecurity Research Institute China Academy of Information and Communications TechnologyBeijing100191 ChinaAbstract Threat intelligence TI is an important information resource for network security defense.The accuracy and timeliness of TI directly determine the perceive and discover ability to external unknown threats for a network defense system.In addition to the self-production and purchase of TI the method of extracting open source TI from social media such as network security blogs technical forums security report publishing platforms etc.has been widely concerned because of its characteristics of high time-efficient and low cost.Based on the representative research in recent years this paper summarizes main technologies of collecting and mining open source network TI from social media and analyzes their applicable scenarios which can provide references for the selection and optimization design of intelligence extraction model.Key words social media network security open source threat intelligence collection and mining。
社交网络用户行为分析及应用方案 第一章 社交网络概述 ..................................................................................................................... 2 1.1 社交网络的定义 ............................................................................................................... 2 1.2 社交网络的发展历程 ....................................................................................................... 3 1.3 社交网络的类型及特点 ................................................................................................... 3 第二章 用户行为分析基础 ............................................................................................................. 4 2.1 用户行为数据获取 ........................................................................................................... 4 2.2 用户行为分析的方法 ....................................................................................................... 4 2.3 用户行为分析的指标体系 ............................................................................................... 5 第三章 用户画像构建 ..................................................................................................................... 5 3.1 用户画像的概念与作用 ................................................................................................... 5 3.1.1 用户画像的概念 ........................................................................................................... 5 3.1.2 用户画像的作用 ........................................................................................................... 5 3.2 用户画像的构建方法 ....................................................................................................... 6 3.2.1 数据来源 ....................................................................................................................... 6 3.2.2 数据处理与分析 ........................................................................................................... 6 3.2.3 用户画像构建 ............................................................................................................... 6 3.3 用户画像的应用案例 ....................................................................................................... 6 第四章 用户行为模式挖掘 ............................................................................................................. 7 4.1 用户行为模式的定义 ....................................................................................................... 7 4.2 用户行为模式的挖掘方法 ............................................................................................... 7 4.2.1 数据采集 ....................................................................................................................... 7 4.2.2 数据预处理 ................................................................................................................... 7 4.2.3 模型构建与评估 ........................................................................................................... 7 4.3 用户行为模式的应用场景 ............................................................................................... 8 4.3.1 个性化推荐 ................................................................................................................... 8 4.3.2 社交网络营销 ............................................................................................................... 8 4.3.3 用户画像构建 ............................................................................................................... 8 4.3.4 网络舆情监控 ............................................................................................................... 8 4.3.5 人工智能 ....................................................................................................................... 8 第五章 社交网络影响力分析 ......................................................................................................... 8 5.1 社交网络影响力的概念 ................................................................................................... 8 5.2 社交网络影响力的评估方法 ........................................................................................... 8 5.2.1 量化评估方法 ............................................................................................................... 8 5.2.2 定性评估方法 ............................................................................................................... 9 5.3 社交网络影响力的应用 ................................................................................................... 9 5.3.1 营销推广 ....................................................................................................................... 9 5.3.2 社会舆论引导 ............................................................................................................... 9 5.3.3 知识传播 ....................................................................................................................... 9 5.3.4 个人品牌塑造 ............................................................................................................... 9 第六章 社交网络情感分析 ........................................................................................................... 10 6.1 情感分析的基本原理 ..................................................................................................... 10
59近年来,社会网络成为计算机领域的热门研究话题。作为一个研究分支,社会网络在社会学中的发展已超过了半个世纪,形成了一套比较有效的概念体系和研究方法,对当前计算机领域内的社会网络研究应该有可借鉴之处。本文简要介绍社会学中的社会网络研究(social network analysis,SNA),希望对计算机专业研究人员有所启发。
社会网络研究介绍传统的定量社会科学把个人的一些“标签”式的属性,如性别、收入、社会地位、阶级等,作为基本的分析单位,得到诸如性别比、人口统计、平均收入等指标,并研究其相互关系。以研究社会中的不平等现象为例,其标准的过程是:根据收入、职业等指标,对个人的社会地位进行量化,进而对量化结果进行统计分析,计算诸如均值、方差等参数,并试图建立其与性别、地域、受教育程度等因素的函数关系,再试图通过经济、文化、历史、社会心理来理解这些关系(现象)的成因。不过,这种方法忽视了个人之间的社会交往对这些属性的影响。如统计平均收入,其实假定了个体的独立性。而正如俗语所言,“人以群分”,个人收入与朋友收入往往呈现正相关,并且个人往往会有意识地利用社会关系,来改善自己的社会地位。因此,属性化的分析多是一种“后观”式的描述,无法为解释社会现象提供系统的方法。社会网络研究则是把关系放在中心的地位。在
这套理论中,个人被抽象为节点,个人之间的社会关系作为节点之间的边,共同形成一个网络。社会学家希望网络的结构属性可以为社会现象提供系统性的解释。相关研究内容包括:个人的权力和声望 通过在网络中定义节
点的度数,介数(betweenness)和接近度(close-ness)等概念,可以分别揭示个人在社会中声望某个方面的状况。如节点度数代表与一个人有关系的人数的多少;介数反映个人在网络中是否占据中间地位,隐含着沟通不同群体的能力;接近度则反映一个人与其他所有人的平均距离。在社会学意义下,这些概念蕴含着个人的权力或社会声望,反映一个人的社会资本。而社会网络中节点度数的分布则反映社会的分层情况[1]。社会中的横向结构(社会群体) 社会中