网络大数据_复杂网络的新挑战_如何从海量数据获取信息_
- 格式:pdf
- 大小:534.84 KB
- 文档页数:2
复杂网络视角下的城市热点区域空间交互分析周 博1,马林兵2*(1.广州市城市规划勘测设计研究院,广东 广州 510060;2.中山大学地理科学与规划学院,广东 广州 510275)摘 要:借助物理场的理论方法识别城市热点区域的空间分布特征,进一步从复杂网络的视角可视化分析热点区域之间的空间交互。
结果显示:节假日和工作日热点区域空间分布特征显著不同,其驱动机制主要是居民不同时间的出行需求差异。
城市热点区域在空间联系方面表现出基于区域功能互补的抱团现象,并且热点区域空间交互网络满足小世界效应和无标度特征。
关键词:复杂网络;热点区域;出租车轨迹;空间交互;深圳市中图分类号:P208 文献标志码:B文章编号:1672-4623(2021)06-0115-04城市热点区域是居民出行起讫点较集中、交通流量较大,并能吸引居民频繁到访的区域,热点区域的时空分布和内在联系是城市规划、交通和应急等政府部门行使特定职权、配置公共资源的重要参考,同时也是推进城市治理体系和治理能力现代化过程中的决策依据。
空间中任何事物都不是孤立存在的,其必以物质、能量、信息等形式在空间不同位置之间发生着作用和联系,这种地理过程被称为空间交互[1]。
复杂网络作为一种描述自然、社会及工程技术中相互关联的理论,其严谨的数理知识体系和全面的基础统计指标,为研究现实网络系统的空间交互提供了全新视角[2]。
近年来,随着时空轨迹数据的可获取性增强、数据挖掘技术的推广应用和城市地理学的网络转向,促使城市热点区域[3-4]、城市功能及网络结构[5-9]成为地理学、城市规划等学科的研究热点。
现有城市热点区域研究多是基于移动定位大数据讨论热点区域如何识别、分布和演变,网络结构相关研究主要集中在宏观位序关系、节点联系特征和时序变化等方面。
带有时空标记的、个体粒度的出租车轨迹数据具有空间交互特性,其累积效应在某种程度上就是热点区域的空间表现。
学术界很少从复杂网络视角将出租车流动的交互行为嵌入到居民出行的地理空间,缺乏对出租车轨迹映射的热点区域空间交互关系进行全面定量表达以及微观地理解释。
大数据领域面临的最大挑战是什么?”除了整合多个系统以从开源领域获得合理的解决方案外,那些取得成功的企业通常具有强大数据管理流程。
也就是说,了解正在收集哪些数据、收集数据的方式、数据中涉及的PII“个人身份信息”,然后确定是谁正在使用这些数据及其目的,以及数据如何被利用。
数据管理可非常有效地帮助客户掌控他们的黑暗数据。
企业应该如何处理所有这些黑暗数据?Tully:首先要确保收集数据。
大量数据被记录而未被收集,这些数据就变成了僵尸数据,然后由于日志过期而逐渐被删除。
企业应该做的是对这些数据部署强大的数据管理。
数据会过期,确保PII应用到这些数据,然后,向内部人员教授新技能,以帮助他们应对这些数据。
在我们的调查中,企业领导者表示,恢复黑暗数据的主要障碍是数据量和缺乏必要的技能。
解决方案之一是提供培训。
我经常看到这样的情况,无论数据是否是黑暗,海量数据都会淹没企业。
而且当大多数分析师使用这些数据时,它会以仪表板的形式显示出来。
通常情况下,仪表板让人们无所适从,他们在这种仪表板环境中会感到有点不愿意深入挖掘。
这里更多的是关于学习新技能并确保拥有强大的数据管理,为了处理这种类型的数据,人们应该学习哪些主要技能?Tully:其中之一是更好地了解这些数据如何生成。
了解数据是如何来到当前位置以及数据背后的人。
同时,与数据相关的人员交谈,并理解这个过程,这样可以更好地帮助他们接受挑战,以获得不同格式的数据或不同报告。
另外,编程技巧也非常重要。
如果你想以不同的形式查看仪表板,你要做的一件事就是将基础数据集脱机,并对其进行一些轻量编码。
一些轻量级的Python,一些轻量级的R-甚至在数据足够小的情况下将数据放入Excel,并且能够针对它编写宏,这些基本方法就足以处理这类数据。
识别危险WiFi的6个小技巧无论你是坐在机场内候机,还是在图书馆做课堂作业,都有可能在日常生活中的某个时刻用到公共WiFi。
但是在未受保护的情况下,这些网络会被黑客用作入侵其使用者的密道。
基于复杂网络的灾害事件演化与控制模型研究I. 内容概述随着社会经济的快速发展和人口的不断增长,灾害事件频发,给人类社会带来了巨大的损失。
为了更好地应对和控制灾害事件,研究其演化规律和影响因素具有重要意义。
本文旨在构建一个基于复杂网络的灾害事件演化与控制模型,以期为灾害防治提供理论支持和技术指导。
首先本文对复杂网络的基本概念、特点和应用进行了简要介绍,分析了复杂网络在灾害事件演化过程中的作用及其优势。
在此基础上,本文从多个维度对灾害事件进行了分类和划分,明确了研究对象和研究范围。
其次本文采用多种方法对灾害事件的演化过程进行了建模和仿真。
通过构建网络动力学模型、随机过程模型等,分析了灾害事件在不同阶段的演化规律和影响因素。
同时本文还考虑了人为干扰、自然灾害等多种因素对灾害事件的影响,提高了模型的实用性和准确性。
本文针对灾害事件的控制策略进行了探讨,通过对现有控制方法的梳理和总结,提出了一种基于复杂网络的灾害事件控制策略。
该策略主要包括风险评估、预警预报、资源调配、应急响应等多个环节,旨在实现灾害事件的有效预防和控制。
本文通过构建基于复杂网络的灾害事件演化与控制模型,系统地研究了灾害事件的演化规律和影响因素,为灾害防治提供了理论依据和技术支持。
灾害事件的定义和特点突发性:灾害事件往往发生在短时间内,给人们的生命财产安全带来极大威胁。
例如地震、洪水、火灾等灾害事件的发生往往是突然的,难以预测和防范。
紧迫性:灾害事件的紧迫性表现在它对人类生命财产安全的影响是立即发生的,一旦发生就可能导致大量人员伤亡和财产损失。
因此及时采取措施应对灾害事件至关重要。
不可预测性:虽然科学家们通过研究和观测可以提前预警一些灾害事件的可能性,但灾害事件的发生仍然是不可预测的。
这是因为灾害事件的发生受到多种因素的影响,如自然环境、人为活动等,而这些因素的变化往往是复杂多变的。
破坏性:灾害事件对人类生命财产安全和生态环境造成的破坏程度往往非常严重。
第 22卷第 10期2023年 10月Vol.22 No.10Oct.2023软件导刊Software Guide基于GRU网络的格兰杰因果网络重构杨官学,王家栋(江苏大学电气信息工程学院,江苏镇江 212013)摘要:传统格兰杰因果依赖线性动力学,无法适应非线性应用场景的需求,因此提出一种基于GRU网络的格兰杰因果网络重构方法。
该方法将整个网络重构划分为每个目标节点的邻居节点选择问题,针对每个目标节点构建基于GRU网络的格兰杰因果模型,在循环神经网络中引入简单的门控机制控制信息的更新方式,并对网络输入权重施加组稀疏惩罚以提取节点间的格兰杰因果关系。
然后集成每一个子网络,获得最终完整的因果网络结构,并在GRU网络建模训练过程中考虑采用正则化的优化方法。
通过线性矢量自回归、非线性矢量自回归、非均匀嵌入时滞矢量自回归、Lorenz-96模型及DREAM3竞赛数据集的实验表明,所提网络鲁棒性较强、有效性较高,在网络重构性能上具有明显的优越性。
关键词:网络重构;因果推断;循环神经网络;格兰杰因果;门控循环单元DOI:10.11907/rjdk.231360开放科学(资源服务)标识码(OSID):中图分类号:TP183 文献标识码:A文章编号:1672-7800(2023)010-0049-09Network Reconstruction via Granger Causality Based on GRU NetworkYANG Guanxue, WANG Jiadong(School of Electrical and Information Engineering, Jiangsu University, Zhenjiang 212013, China)Abstract:Reconstruction method of Granger causality network based on GRU network is proposed to address the traditional Granger causality that relies on linear dynamics and cannot meet the needs of nonlinear application scenarios. This method divides the entire network reconstruc⁃tion into neighbor node selection problems for each target node, constructs a Granger causality model based on GRU network for each target node, introduces a simple gating mechanism to control the update of information in the recurrent neural network, and applies a sparse penalty to the network input weight to extract the Granger causality between nodes. Then integrate each sub network to obtain the final complete causal network structure, and consider using regularization optimization methods during the GRU network modeling and training process. The experi⁃ments on linear vector autoregressive, nonlinear vector autoregressive, non-uniformly embedded time-delay vector autoregressive, Lorenz-96 model, and DREAM3 competition dataset show that the proposed network has strong robustness, high effectiveness, and obvious superiority in network reconstruction performance..Key Words:network reconstruction; causal inference; recurrent neural network; Granger causality; gated recurrent unit0 引言现实生活中,许多复杂系统均可在网络角度被抽象表达,其中网络节点代表系统变量,连边代表各变量间的相互作用关系。
大数据驱动的管理与决策前沿课题摘要:大数据作为互联网、物联网、移动计算、云计算之后IT产业又一次颠覆性的技术变革,正在重新定义社会管理与国家战略决策、企业管理决策、组织业务流程、个人决策的过程和方式。
大数据已经在政府公共管理、医疗服务、零售业、制造业,以及涉及个人的位置服务等领域得到了广泛应用,并产生了巨大的社会价值和产业空间。
关键词:大数据管理与决策前沿课题;大数据资源管理与政策、基于大数据的管理与决策创新、大数据技术的信息科学基础、大数据分析与处理的数学与计算基础等4个主要领域的前沿课题进行了梳理,并对制造业/服务业、公共管理、商务、医疗、开放式教育和金融等典型大数据应用领域的实践发展及其潜在影响进行了讨论,以期推动相关研究探索与实践发展,把握和应对大数据为管理与决策科学研究及应用所带来的大机遇和大挑战。
一、大数据资源管理与政策1.大数据生态系统与开放共享机制。
随着大数据在商务管理、公共管理与社会生活中作用的不断提升,以大数据及所产生知识在社会各主体间流动为基础的社会生态系统将逐步完善。
对大数据生态系统基本运行机理及与之相关的大数据管理模式问题的探讨是开展广泛大数据研究的前提和先导。
这方面的主要研究问题包括:大数据生态系统的治理模式重构;大数据资源的共享机制及其信息孤岛互联技术;大数据共享及治理的度量与评估;大数据产业发展的公共政策等等。
2.大数据质量分析与价值度量。
大数据具有重要的战略价值,已成为世界范围内政府、组织、企业以及个人的共识,但大数据固有的稀疏性和低价值密度特性也是对其进行处理和分析所要面对的重要难题,如何从海量异构稀疏的数据中定位有价值的信息?如何判断大数据的价值?回答这些问题,就需要探讨大数据的质量及其价值度量问题。
3.大数据研究应用的权属与隐私问题。
大数据的伦理与隐私问题是在大数据背景下对社会情境关系与面临问题的反思,同时也是大数据知识与价值开发合法性的基本保障。
在这个问题的研究上,即包括管理与治理、社会伦理、政策法规的相关内容,也包括隐私保护的信息技术的创新与突破,主要研究问题包括:大数据隐私保护机制的原理与实现方法;大数据产权问题,包括拥有、转让、接收和使用大数据权利的界定与让渡机制、大数据分析产生知识及生产效益的享有和分配等;大数据责任问题,包括大数据预测技术应用中的道德选择和责任承担的问题等、多主体协作大数据分析的责任边界问题、以及消费者/公民隐私、企业商业秘密和国家安全信息的保护政策、法规及其新技术等等。
网络数据建模、分析与应用研究综述一、网络数据建模随着互联网的快速发展,网络数据已经成为了研究和应用的重要领域。
网络数据建模是指通过对网络结构和属性进行抽象描述,构建出能够反映网络特征的数据模型。
网络数据建模的目的是为了更好地理解网络的结构、功能和动态变化,为网络分析、管理和决策提供理论依据和技术支持。
图论建模:图论是研究图(Graph)结构及其性质的数学分支。
在网络数据建模中,图论建模主要关注如何用图的形式表示网络结构,以及如何利用图论方法对网络进行分析。
常用的图论建模方法有邻接矩阵法、邻接表法、边权法等。
社会网络建模:社会网络是一种特殊的网络结构,由具有关联关系的人或组织组成。
社会网络建模主要研究如何用图的形式表示社会网络结构,以及如何利用图论方法对社会网络进行分析。
常用的社会网络建模方法有无向图法、有向图法、贝叶斯网络法等。
复杂网络建模:复杂网络是由大量相互连接的节点和边组成的网络结构。
复杂网络建模主要研究如何用图的形式表示复杂网络结构,以及如何利用图论方法对复杂网络进行分析。
常用的复杂网络建模方法有随机游走模型、小世界模型、斑图模型等。
动态网络建模:动态网络是指网络结构和属性随时间发生变化的网络。
动态网络建模主要研究如何用图的形式表示动态网络结构,以及如何利用图论方法对动态网络进行分析。
常用的动态网络建模方法有马尔可夫链模型、随机过程模型等。
多模态网络建模:多模态网络是指具有多种不同类型的信息载体的网络。
多模态网络建模主要研究如何用图的形式表示多模态网络结构,以及如何利用图论方法对多模态网络进行分析。
常用的多模态网络建模方法有多模态图模型、多模态贝叶斯网络模型等。
网络数据建模是一个涉及多个领域的交叉学科,其研究内容和技术方法不断丰富和发展。
随着大数据时代的到来,网络数据建模将继续发挥重要作用,为网络分析、管理和决策提供更多有价值的理论和实践支持。
1. 网络数据的基本概念和特点随着互联网的普及和发展,网络数据已经成为了当今社会中不可或缺的一部分。
基于k—核分解的在线社交网络精准营销新客户识别研究作者:高鹏群邓建高来源:《中国市场》2018年第17期[摘要]在线社交网络精准营销是现代营销理论的重点发展方向。
文章以新浪微博用户作为研究对象,分析用户微博文本内容信息,创建微博用户交互内容数据库。
运用复杂网络分析方法构建加权用户关系网络。
最后,基于潜在用户价值分析,采用改进的k-核分解方法实现在线社交网络新客户识别。
该方法兼顾文本内容信息和用户影响力因素,精准识别在线社交网络中的新客户,实现企业精准化营销对象发现。
[关键词]k-核分解;在线社交网络;精准营销;新客户识别[DOI]10.13939/ki.zgsc.2018.17.1191 引言中国已形成庞大的在线社交网络。
2018年中国互联网络信息中心(CNNIC)发布的第41次《中国互联网络发展状况统计报告》[1]数据显示,截至2017年12月,中国网民规模达7.72亿,互联网普及率达到55.8%。
网民数量的激增推动了新浪微博、微信等在线社交网络新媒体平台的迅猛发展,其对市场营销和计算广告产生重大影响。
基于在线社交网络和大数据的精准营销将是企业营销理论发展的方向。
一方面,在线社交网络塑造了全新的社会生活形态,成为产品推广、营销互动以及挖掘潜在客户的重要平台。
低成本、高效率以及个性化传播等特点,决定了其作为精准营销手段的巨大潜力。
在线社交网络被认为是现代企业开展高效精准营销最有效的方法。
[2]另一方面,大数据环境下,在线社交网络平台保存了大量用户数据信息,海量数据为目标客户准确定位提供了强大的支持。
面对以“分众市场”为主要特征的现代市场,消费者需求越来越细分化,企业具备从网络平台获取营销信息的能力,有助于细分目标市场,识别潜在新客户。
目前,关于精准营销的研究主要集中在内涵分析和体系构建等方面。
现代营销大师Philip Kotler首先分析了精准营销的内涵,他认为企业需要更精准、可衡量和高投资回报的营销沟通,制定更具针对性的营销策略。
智慧审计的七种武器之知识图谱(来源:德勤微信公众号,2019-05-20)一、前言在大数据和人工智能时代,数据是非常重要的资源。
通过知识图谱,可以将企业海量且繁杂的数据内容整合为一个知识网络,从而突破关系型数据库的限制,更精准、迅速地攫取数据价值,提高内审的效率和精度,为企业打造更加高效、专业的风险管理方案。
二、正文1、形态随着大数据时代的到来,大数据分析技术受到了广泛关注,而将海量的数据转化为知识,是大数据分析的关键。
知识图谱技术提供了一种从海量非结构化数据(如文本、图像)中抽取计算机能够理解的结构化数据的手段,对大数据时代的知识获取、知识共享、知识创新具有非常重要的应用价值。
知识图谱是语义网络的知识库,以语义网络为基础,结合自然语言处理、机器学习、数据挖掘、知识表示等技术,旨在描述客观世界的概念实体事件以及其之间的关系。
通过知识图谱可以高效直观地刻画目标主体(如企业、事件等)之间地关联网络,从而全维度地对企业进行画像,立体复现主体的真实情况和错综复杂的关系。
2、招式相对于传统的知识表示形式,知识图谱可提供更多的隐含知识。
利用知识图谱技术,可以将银行内部、外部海量且繁杂的数据内容整合为一个统一的知识网络,通过与银行业务经验相结合,实现知识图谱技术在银行内部审计中的具体应用。
●反欺诈除了通过信息造假等手段进行欺诈申请外,不少欺诈会涉及团伙作案并形成复杂的关联网络,这就给反欺诈审核带来了新的挑战。
知识图谱包含丰富复杂的关系,这种直观的表示方法可以帮助我们更有效地分析复杂关系中潜在的风险。
●企业风险图谱由于企业业务间的交叉、创新,外部的风险对企业的影响越来越大。
通过构建企业风险图谱可以描绘企业风险视图全貌,结合外部风险点,实现内外部风险数据的融合,从而高效地感知外部风险的传导、渗透对企业的影响。
如果某公司风险发生变动,可以通过经营关系、担保关系、投资等关系进行传播,通过知识图谱可以轻松通过复杂网络挖掘进行判断。
第1期 网络科学热点问题荟萃
7
网络大数据
——复杂网络的新挑战:如何从海量数据获取信息?
周 涛
(电子科技大学互联网科学中心 成都 610054)
doi:10.3969/j.issn.1001-0548.2013.01.004
2012年3
月,奥巴马政府公布了“大数据研发计
划”,美国国家科学基金会、国防部、能源部、国
家健康研究所、地质勘探局和国防部先进研究计划
局六个联邦部门和机构共同投资
2
亿美元,致力于提
高和改进人们从海量和复杂的数据中获取知识的能力。这是美国1993年宣布“信息高速公路”计划后又一次重大科技发展部署。2012年5月,我国召开第424次香山科学会议,这是我国第一个以大数据为主题的重大科学工作会议。中国计算机学会、通信学会等于今年分别成立了“大数据专家委员会”。国家自然科学基金委员会2013年的《项目指南》中,大数据成为最热门关键词!2012年12月13日,中关村成立大数据产业联盟,由云基地、联通、用友、联想、百度、腾讯、阿里巴巴等企业组成了第一批理事单位。 数据量的激增带来了很多共性问题,譬如数据的可表示、可处理和可靠性问题等等。与此同时,各学科自身也有各具特色的大数据问题。网络科学既是以网络为研究对象的一门有数百年历史的专业性很强的学科,又是众多学科中不同研究对象的统一抽象的表达方式,其所遭遇的问题和挑战往往特别典型、特别重要!目前万维网具有超过万亿的统一资源定位符(URL),Facebook有10亿节点和千亿连边,大脑神经元网络有数百亿节点,中国三大运营商的手机通讯网络无一不拥有数亿用户……如何处理超大规模的网络数据,已经成为学术界和企业界亟待解决的关键科学技术问题。 很多与网络紧密相关的大数据问题是具有共性的。网络数据是典型的非结构化数据,针对大型网络的存储和管理的图数据库设计是目前非关系型数据库的一个重要分支。尽管有学者坚信随着计算能力和数据采集能力的提升,处理全体数据将成为趋势,但抽样仍然是目前处理海量数据问题的一种常用方法,而网络抽样不同于从一堆数中抽样去逼近原始分布,后者有明确的最优目标,前者则无章可循——什么样的网络抽样才算是好的呢?应该用什
么方法抽样呢?抽样误差如何估计呢?大数据之间
需要通过关联和交叉复用展现出
1+1>2
的价值,以网
络科学的语言来做比喻,就是希望破译“人人网”
里面的某
A就是“中国移动手机通讯网络”中的某B
,
并且分析两个网络之间到底存在多少结构和功能的
关联性。另外,可视化展示能够帮助科学家快速从
大数据中验证科学猜想并获得新的科学发现,大规
模网络的可视化也已被认为是一种有助于理解和分
析网络的有效方法。
除了上述提到的一些共性问题外,此处我们着
重介绍两个网络大数据独特的问题:一是预测问题,
二是图的快速算法问题。
预测是大数据最核心的科学问题。目前学术界
主要关心两类预测问题,一是趋势预测,二是缺失
信息预测。趋势预测是指通过事物的一些基本属性
信息和早期的态势分析,预测事物发展的轨迹和最
终影响力
[1-2]
。这样的例子很多,譬如通过分析社交
网络中注册一个月的用户的行为以及这些用户与其
他用户的互动,预测哪些用户将来会成为很有影响
力的用户;通过用户
–
商品二部分图中产品的早期表
现,例如一首新歌或一个新歌手上线一周的情况,
来预测这首歌或者这个歌手有没有可能走红;通过
一条信息早期数小时在微博网络上的传播情况,来
预测这条信息最终的影响力等等。信息传播的趋势
预测是一个正问题,其相应的反问题是对传播路径
进行还原,确定扩散源节点的位置
[3]
。这个问题虽
收稿日期:
2012 − 12 − 15
作者简介:周涛(1983 − ),男,教授,主要从事统计物理与复杂性科学方面的研究.
电 子 科 技 大 学 学 报 第42卷
8
然不属于典型的预测问题,但也是相关且值得关注的问题。缺失信息预测假设我们观察到的网络只是真实网络的一部分,在这个基础上探讨如何利用当前信息去预测缺失边[4]。以基因调控网络和蛋白质相互作用网络为例,我们已经知道的网络结构只是完整结构很小的一部分,这时候缺失预测方法就能够起到很大的作用。另外,社交网络朋友推荐也可以看做是缺失信息预测,因为我们推荐的基本假设是“他们应该认识并成为好朋友”,其方法论和缺失信息预测是完全一致的。推荐系统设计的核心问题,就是用户–商品二部分图上的缺失信息预测[5]。这和上面提到的一部分图上的链路预测问题理念相近但方法技术上有所不同。 图的快速算法问题在大数据时代尤其具有挑战性。以前O(N2)或者O(N3)的算法就被认为效率很高了,而在动辄数亿节点的网络中,O(NlogN)甚至线性算法可能都是不可接受的——快速算法和分布式计算是必然的努力方向。在这种规模的网络上,即便是求取簇系数和平均距离,都是一件开销昂贵的事情。当然,这些毕竟还是简单的事情,因为精确计算的复杂性也不大,而且近似算法设计也比较容易。此处主要介绍图匹配的问题和图社区划分问题,因为这两个问题本身复杂性高,而且具有特别重要的应用价值。图匹配最严格的是要求判定两个同阶图是否同构,较弱的定义是判定两个图是否是子图同构的,也就是是否存在顶点之间的一个单射关系,若图A中两个顶点相连,则其在图B中的单射的两个顶点也必须相连。注意,此时A、B两个图不需要同阶,A的顶点数可以少于B。一般而言,两个图既不是同构的,也不会是子图同构的,这个时候,可以通过寻找最大公共诱导子图来描述两个图的相似性。这些问题在大数据时代往往没有太大实用价值,因为计算复杂性大得惊人,这个时候寻找近似的最大公共子图或者通过传播算法以及谱算法快速寻找两个图的顶点对应关系就变得重要了[6]。社区挖掘的重要性不需赘述,不仅是展开网络中观结构从而 观察网络组织规律的有力武器,也对包括推荐系统
设计[5]在内的很多网络应用问题的重要辅助算法。
目前,表现良好的算法已经可以在单机上实现数小
时内划分千万节点规模的简单无向网络
[7]
,划分效
果主要还是采用模块化程度这一指标,尽管这个指
标在社区规模分辨率等方面存在缺陷。社区挖掘还
有一个针对超大网络非常直接的应用,就是大规模
网络的分布式存储。这个时候我们希望把网络的节
点分别存在在不同机器上,并且跨机器的交叉边越
少越好,而且为了负载平衡,还要求每个机器上节
点总数是差不多的。这就相当于社区挖掘的时候给
出了两个限定条件,一是知道社区数目,二是要求
每个社区的节点数几乎相等。最近微软亚洲研究院
提出了一个可以处理十亿规模的分布式算法
[8]
。一
个大胆的猜测是,现在和将来优秀的快速社团挖掘
算法,也包括求解平均距离和其他网络特征的近似
算法,都会越来越多地利用重整化群的理念与方法。
参 考 文 献
[1] ASUR S, HUBERMAN B A. Predicting the future with
social media[C]//IEEE/WIC/ACM International Conference
on Web Intelligence and Intelligent Agent Technology
(WI-IAT). New York: IEEE Press, 2010: 492-499.
[2] ALTSHULER Y, PAN W, PENTLAND A. Trends prediction
using social diffusion models[J]. Lect Notes Comput Sci,
2012(7227): 97-104.
[3] PINTO P C, THIRAN P, VETTERLI M. Locating the source
of diffusion in large-scale networks[J]. Phys Rev Lett,
2012(109): 068702.
[4] LÜL, ZHOU T. Link prediction in complex networks: a
survey[J]. Physica A, 2011(390): 1150-1170.
[5] LÜL, MEDO M, YEUNG C H, et al. Recommender
systems[J]. Physics Reports, 2012(519): 1-49.
[6] TIAN Y, MCEACHIN R C, SANTOS C, et al. SAGA: a
subgraph matching tool for biological graphs[J].
Bioinformatics, 2007(23): 232-239.
[7] BLONDEL V D, GUILLAUME J-L, LAMBIOTTE R, et al.
Fast unfolding of communities in large networks[J]. J Stat
Mech, 2008(10): 10008.
[8] WANG L, XIAO Y, SHAO B, et al. How to partition a
billion-node graph[R]. Beijing: MSRA, 2012.
编 辑 蒋 晓