粗粒度并行遗传算法的 MapReduce 并行化实现

格式：pdf
大小：1.08 MB
文档页数：6

下载文档原格式

基于MapReduce的机器学习并行化研究与实现

分析。
【关键词】机器学习算法；ｋＮＮ；并行化；Ｈａｄｏｏｐ【作者单位】陈薇，湖北工业大学
一
、
引言
布式存储系统ＨＤＦＳ和一个并行计算框架ＭａｐＲｅｄｕｃｅ，使用户无须具备并行化的底层知识，也能直接编写程序并在Ｈａ — ｄｏｏｐ上运行。目前，Ｈａｄｏｏｐ凭借可靠性高、扩展性强等优势
条件。在快堆服役工况下，动导管可能会引入裂纹，应当对Ｈｅ脆问题引起重视。
被国内外各大公司广泛应用。
近年来，在国内外越来越受到重视的机器学习技术已经深入到人类的生活、工作中。大数据时代的到来，使机器学
习有了新的应用领域，从金融、医疗等领域，甚至是消费、网
络行为等数据中发现有价值的信息已经成为机器学习研究
ｘ１０～ｇ，引入的Ｈｅ不少于０．６ａｐｐｍ。
将导致脆化出现。通过理论公式和Ｏｒｉｇｅｎ２程序分别计算３０年服役寿期内动导管的产Ｈｅ量，结果显示一致。进一步分析发现，Ｈｅ原子的浓度达到了１．８３ａｐｐｍ，满足产生Ｈｅ脆
机器学习的快速发展也同时面临着问题：一是高维特征空间与样本数的不足。二是大数据量的计算。数据集体量
大，导致时间和空间的复杂性过大。此外，寻找最优解的困

mapreduce并行编程原理 -回复

mapreduce并行编程原理-回复为什么需要并行编程？随着计算机系统的发展，数据量的爆炸性增长推动了对计算能力的巨大需求。

然而，传统的单线程编程模型已经无法满足这一需求，因为它们无法充分利用现代计算机系统中的多核处理器和分布式计算资源。

为了提高计算效率，人们开始使用并行编程来实现任务的并发执行。

并行编程是一种编程模式，它可以在多个处理单元或计算资源上同时执行不同的任务。

这种模式允许任务之间以并行方式协同工作，从而提高整体系统的处理能力。

并行编程的一个重要应用领域是数据处理，而MapReduce是一种常用的并行编程框架。

MapReduce是一种用于大规模数据处理的并行编程框架，它由Google 提出，并被广泛应用于分布式计算领域。

它提供了一种简单而有效的方式来处理大量的数据，无论是在单机还是分布式环境中。

MapReduce的核心原理是将任务分解为两个阶段：映射（Map）和归约（Reduce）。

在映射阶段中，系统将输入数据集分割为若干个小块，并对每个小块应用相同的映射函数。

映射函数将输入数据转换为键值对的形式，并输出中间结果。

在归约阶段中，系统将相同键的中间结果进行合并，并通过归约函数将它们转换为最终结果。

为了实现MapReduce，并行处理框架需要进行任务的分配和调度。

在分布式环境中，MapReduce框架可以自动将数据和任务分配到可用的计算资源上，从而实现任务的并行执行。

这种分布式任务调度可以大大提高数据处理的效率，充分利用了计算资源的并行性。

为了更好地理解MapReduce，并行编程的原理，我们可以通过一个例子来说明。

假设我们有一个包含1亿条日志记录的文件，我们希望统计每个IP地址出现的次数。

传统的单线程方法可能需要花费很长时间来处理这么大的数据集，而使用MapReduce并行编程框架可以有效地加快处理速度。

首先，我们需要将输入数据集分割为若干个小块，并将它们分发给不同的节点进行处理。

每个节点将接收到的数据块应用映射函数，将其中的IP 地址作为键，并将出现的次数作为值输出。

大数据分析领域中基于MapReduce技术的并行处理方法研究

大数据分析领域中基于MapReduce技术的并行处理方法研究一、引言大数据是当今社会中的重要问题之一，随着大数据的快速增长，对数据的处理和分析变得越来越困难。

因此，为了解决这一问题，大数据分析技术变得越来越重要和热门。

MapReduce技术是解决大数据分析的一种有效方法，它可以将大数据分成许多小数据块，这些小数据块可以并行处理。

因此，在此篇文章中，我们将详细介绍基于MapReduce技术的并行处理方法。

二、MapReduce技术的基本概念MapReduce技术是一种用于处理大数据的并行计算模型，它采用了两个不同的阶段：Map阶段和Reduce阶段。

Map阶段：该阶段的目的是将输入数据分成小块，并将其分成键-值对。

然后，计算节点将对每个键-值对进行操作，并生成一个临时的键-值对列表。

Reduce阶段：该阶段的目的是将Map阶段产生的临时键-值对列表合并到一个更小的列表，并产生一个最终的输出结果。

三、MapReduce技术的主要优点1. MapReduce技术可以在大规模数据处理中实现高度的扩展性和性能。

2. MapReduce技术采用分布式计算模型，允许在集群中的多个计算节点上并行处理数据。

3. MapReduce技术可以通过多次迭代和优化提高系统的效率和可靠性。

4. MapReduce技术可以在不消耗大量系统资源的情况下解决大规模数据处理和分析的问题。

四、基于MapReduce技术的并行计算模型基于MapReduce技术的并行计算模型包括以下几个步骤：1.数据划分：在MapReduce模型中，数据被分成多个数据块，每个数据块被分配给一个计算节点，以便并行处理。

2.映射函数：映射函数负责将输入的数据块转换成键-值对，生成一个键-值对的列表。

3.排序函数：排序函数将Map阶段产生的键-值对按照键进行排序，以便在Reduce阶段进行进一步的处理。

4.合并函数：合并函数负责将具有相同键的键-值对合并并生成减小的键-值对列表。

阐述mapreduce并行计算模式

阐述mapreduce并行计算模式MapReduce是一种并行计算模式，它被广泛应用于大规模数据处理和分析。

本文将阐述MapReduce的工作原理和并行计算模式，并探讨其在实际应用中的优缺点。

一、MapReduce的工作原理1.1 Map阶段Map阶段是MapReduce任务的第一阶段，其主要作用是将输入数据集中的每个数据项映射为一组键值对。

在这个阶段中，MapReduce 将输入数据集分成M个小的数据片段，并将这些数据片段交给多个Map任务并行处理。

每个Map任务会对其分配的数据片段进行处理，将其转化为一组键值对，并将这些键值对暂时存储在内存中。

1.2 Shuffle阶段Shuffle阶段是MapReduce任务的第二阶段，其主要作用是将Map 阶段产生的键值对按照键的值进行排序，并将相同键值的键值对分配到同一个Reduce任务中进行处理。

在这个阶段中，MapReduce会将所有Map任务产生的键值对进行合并，并按照键的值进行排序。

排序后的键值对会被分配到相应的Reduce任务中进行处理。

1.3 Reduce阶段Reduce阶段是MapReduce任务的第三阶段，其主要作用是对Shuffle阶段产生的键值对进行聚合计算。

在这个阶段中，每个Reduce任务会对其分配的键值对进行聚合计算，并将计算结果输出到磁盘上。

二、MapReduce的并行计算模式MapReduce的并行计算模式主要包括Map并行计算和Reduce并行计算两种模式。

2.1 Map并行计算Map并行计算是指将输入数据集中的每个数据项映射为一组键值对的过程。

在Map并行计算中，MapReduce将输入数据集分成M个小的数据片段，并将这些数据片段交给多个Map任务并行处理。

每个Map任务会对其分配的数据片段进行处理，将其转化为一组键值对，并将这些键值对暂时存储在内存中。

Map并行计算的优点是可以充分利用多核CPU的计算能力，提高计算效率。

mapreduce并行编程原理

mapreduce并行编程原理MapReduce并行编程是一种用于大规模数据处理的编程模型。

它的核心思想是将数据分成若干块，然后并行处理每一块数据，最后将结果合并起来。

MapReduce模型具有以下两个阶段：1. Map阶段：在这个阶段，输入数据被映射为一系列的键值对。

每个键值对由一个映射函数处理，这个函数可以是用户定义的。

映射函数接收输入数据作为参数，并根据需求将其转化为键值对。

映射函数执行的结果会生成一个中间键值对列表。

2. Reduce阶段：在这个阶段，中间键值对列表被合并为输出结果。

用户定义的归约函数（reduce函数）接收相同键的键值对列表，并输出归约结果。

MapReduce编程模型的核心特点是可扩展性和容错性。

它可以在一个集群中运行，将数据分布在多个节点上进行处理，并在需要时进行数据重新分配以实现负载均衡。

此外，当某个节点失败时，MapReduce能够自动将任务重新分配给其他可用的节点，从而保证任务的完成性。

MapReduce编程模型可以应用于各种各样的数据处理任务，包括文本分析、数据挖掘、网页排名等。

下面是MapReduce编程模型的一些关键原理：1.数据切片：MapReduce将输入数据分成若干块，并将每个块分配给不同的节点进行处理。

这样可以实现数据的并行处理，提高处理效率。

2.映射函数：映射函数将输入数据转换为一系列的键值对。

用户可以根据任务的需求自定义映射函数。

3.归约函数：归约函数将相同键的键值对列表合并为一个结果。

归约函数也是用户自定义的，它可以根据任务的需求来实现不同的合并逻辑。

4.分布式存储：MapReduce使用分布式文件系统来存储数据。

这样可以将数据分布在多个节点上，实现数据的可靠性和高效访问。

5.任务调度和分配：MapReduce使用主节点来进行任务的调度和分配。

主节点负责将输入数据分配给不同的节点，并协调它们的执行。

6.容错处理：MapReduce能够在节点失败时进行容错处理。

MapReduce并行化

mapreduce工作流程1.客户端启动一个job，并向job Tracker请求一个任务号。

系统将运行作业所需要的资源文件复制到HDFS上。

2.系统将文件拆分成splits(片)分发到多台机器上，（其中，splite包含若干条记录），然后将每个split按行分割形成<key,value>对（每个记录生成一个<key,value>对），其中key值为记录的偏移量（默认）。

可自定义INputFormat和RecodReader自定义key,value.继承类重写里面方法。

3.Mapper根据输入，经过逻辑处理生成想要的多个<key,value>对，并传递到Reduce4.Reduce根据输入，将相同key的value进行聚合，然后经过处理得到想要的结果。

5.其中，在map和reduce之间可以加一层combine,在每个map处进行聚合，在传递给reduce,以减少网络消耗。

combine作用：map和Reduce通过网络传送传递数据,为了减少网络I/O的消耗，在某些应用场景下在Mapper端本地进行数据合并，将合并后的数据通过网络传送给Reducer。

combine的过程是在每个机器上求出局部聚合求的最大值，然后reduce在聚合求的相同key的全局最大值。

Mapreduce,inputslite,recoder输入首先被分为很多InputSplit，每个InputSplit是输入的其中若干条数据，每个Mapper 处理一个InputSplit。

每个InputSplit被分成多条记录（record），每一个record就会产生一个key-value对。

InputFormat负责产生input split，并将input split分成一条条的record。

输入过程：客户端运行一个Job时，客户端会自动调用getSplits方法，然后将得到的InputSplit 列表发送给jobtracker。

遗传算法的并行实现

遗传算法的并行实现遗传算法（Genetic Algorithm，GA）是一种模拟自然进化过程的优化算法。

它模拟了生物进化的基本原理，通过迭代的方式不断优化空间中的解，以找到最优解或者接近最优解。

在遗传算法的实现中，可以采用并行计算的方式来提高算法的效率和性能。

并行计算将任务拆分成多个子任务，同时进行处理，并通过协同工作来加速计算过程。

并行实现遗传算法的主要思路有以下几种方式：1. 池式并行（Pool-Based Parallelism）：多个遗传算法进程同时运行，并且每个进程都具有自己的种群和繁殖操作。

这些进程可以根据需要交换信息，例如交换最佳个体，以进一步加速过程。

2. 岛模型并行（Island Model Parallelism）：将种群划分为多个子种群，每个子种群在独立的进程中进行演化。

定期地选择一些个体进行迁移，使得不同子种群的个体可以交流基因信息。

这种方式类似于地理上的岛屿，每个岛屿代表一个子种群，岛屿之间的迁移模拟了个体在不同岛屿之间的迁徙。

3. 数据并行（Data Parallelism）：将种群的每个个体划分成多个部分，每个部分在不同的处理器上进行计算。

这种方法将空间分割成多个子空间，以加速算法的收敛过程。

4. 任务并行（Task Parallelism）：将遗传算法的各个操作（例如选择、交叉、变异等）分解为多个任务，并行执行这些任务。

每个任务可以在不同的处理器上同时进行，从而加速算法的执行。

并行实现遗传算法的优势在于它可以通过利用多个处理单元，同时处理并行化的任务，使得算法的过程更加高效。

并行计算可以加速算法的收敛速度，减少空间中的局部最优解，并提供更好的全局能力。

然而，并行实现也会带来一些挑战和注意事项。

例如，如何划分任务以达到最佳的负载均衡，如何设计通信、同步和数据共享机制等等，都需要仔细考虑和解决。

总之，遗传算法的并行实现是一个非常广泛且复杂的课题，需要综合考虑问题的特性、硬件的条件和算法设计的需求。

人工智能基础(试卷编号1191)

人工智能基础(试卷编号1191)1.[单选题]以下不是贝叶斯回归的优点的是哪一项A)它能根据已有的数据进行改变B)它能在估计过程中引入正则项C)贝叶斯回归的推断速度快答案:C解析:2.[单选题]人工神经网络是一种模仿生物神经网络行为特征，进行信息处理的数学模型。

A、正确A)错误B)正确C)错误答案:A解析:3.[单选题]RNN作为图灵机使用时，需要一个（）序列作为输入，输出必须离散化以提供（）输出。

A)二进制B)八进制C)十进制D)十六进制答案:A解析:4.[单选题]Spark比MapReduce快的原因不包括（）。

A)Spark基于内存迭代,而MapReduce基于磁盘迭代B)DAG计算模型相比MapReduce更有效率C)Spark是粗粒度的资源调度，而MapReduce是细粒度的资源调度D)Spark支持交互式处理，MapReduce善于处理流计算答案:D解析:A、B、C是Spark比MapReduce快的原因。

MapReduce不善于处理除批处理计算模式之外的其他计算模式，如流计算、交互式计算和图计算等。

5.[单选题]L1正则和L2正则的共同点是什么？A)都会让数据集中的特征数量减少B)都会增大模型的偏差C)都会增大模型方差D)没有正确选项答案:D解析:6.[单选题]无轨导航规划的主要研究内容不包括( )。

A)路径规划B)轨迹规划C)自主定位D)避障规划答案:C解析:7.[单选题]声码器是由编码器和( )组成。

A)解码器B)特征提取器C)预处理器D)滤波器答案:A解析:8.[单选题]pandas从CSV文件导入数据的方法是A)pd.read_csv()B)pd.read_table()C)pd.read_excel()D)pd.read_sql()答案:A解析:9.[单选题]平滑图像处理可以釆用RGB彩色（）模型。

A)直方图均衡化B)直方图均衡化C)加权均值滤波D)中值滤波答案:C解析:平滑图像处理可以采用RGB彩色加权均值滤波模型。

大数据挖掘中的MapReduce并行聚类优化算法研究

大数据挖掘中的MapReduce并行聚类优化算法研究吕国;肖瑞雪;白振荣;孟凡兴【摘要】针对传统数据挖掘算法只适用于小规模数据挖掘处理,由于数据规模不断增大,其存在计算效率低、内存不足等问题,文中将MapReduce用于数据挖掘领域,对大数据挖掘中的MapReduce进行了并行化改进,并设计相应的并行化实现模型,以期满足大数据分析需求,完成低成本、高性能的数据并行挖掘与处理.【期刊名称】《现代电子技术》【年(卷),期】2019(042)011【总页数】4页(P161-164)【关键词】大数据;MapReduce;并行化处理;聚类算法;数据挖掘;Map任务【作者】吕国;肖瑞雪;白振荣;孟凡兴【作者单位】河北建筑工程学院现代教育技术中心,河北张家口 075000;河北建筑工程学院现代教育技术中心,河北张家口 075000;河北建筑工程学院现代教育技术中心,河北张家口 075000;河北建筑工程学院现代教育技术中心,河北张家口075000【正文语种】中文【中图分类】TN911.1-34;TP311.140 引言随着大数据时代的来临，互联网的数据量正呈现出爆炸式的增长，采用传统数据分析法对其进行分析和研究，已经无法满足海量数据处理的需求。

基于此，数据挖掘技术随之产生。

数据挖掘就是从大量、随机、模糊、有噪声的数据内提取有价值的信息。

数据挖掘技术是指从大量数据中利用算法对隐藏信息进行搜索的过程，目前被广泛应用于金融、网络、决策及教育等行业中。

数据挖掘技术以统计学作为基础，增设模式识别、机器学习、数理统计、人工智能等多种技术，通过流数据及数据库完成工作[1]。

在数据技术不断发展的过程中，还融入了数据安全、数据结构算法、信息检索、信号处理、信息论等多种技术。

聚类分析则是一项比较实用的数据挖掘技术，因其能有效分析数据并发现其中的有用信息，被广泛用于文本搜索、人工智能、图像分析等领域[2]。

聚类分析把数据对象划分为多个簇，虽然同一个簇内的数据对象相似，但不同簇内的对象存在一定的差异。

mapreduce的实现机制

MapReduce是一种分布式计算框架，可以用于大规模数据处理，它的实现机制主要包括以下几个方面。

1. 数据分片在MapReduce中，数据会被分成多个数据块，并且这些数据块会被复制到不同的节点上。

这样做的目的是为了提高数据的可靠性，同时也可以避免单节点故障导致的数据丢失。

2. Map阶段在Map阶段中，每个节点会同时执行Map函数，将输入的数据块转换为键值对的形式。

Map函数的输出结果会被分配到不同的Reducer节点上，这里需要注意的是，Map函数的输出结果必须是无状态的，即输出结果只能依赖于输入参数，而不能依赖于其他状态信息。

3. Shuffle阶段在Shuffle阶段中，Map函数的输出结果按照键的哈希值进行排序，并将相同键的值归并到一起。

这个过程需要消耗大量的网络带宽和磁盘I/O，因此Shuffle阶段是整个MapReduce计算中的瓶颈之一。

4. Reduce阶段在Reduce阶段中，每个Reducer节点会对Map函数输出结果中相同键的数据进行聚合操作。

Reduce函数的输入参数由Map函数输出结果中相同键的数据组成，而Reduce函数的输出结果是最终结果，MapReduce框架会将所有Reducer节点的输出结果合并为一个最终结果。

5. 容错机制在分布式计算中，可能会出现节点故障、网络异常等问题，这些问题会导致数据丢失或者计算结果错误。

因此，MapReduce框架需要具备一定的容错机制，比如在Shuffle阶段中，如果某个节点的输出结果没有及时到达目标节点，MapReduce框架会自动重新发送数据。

6. 优化策略为了提高MapReduce计算的性能和效率，MapReduce框架还可以采用多种优化策略，比如合并小文件、增加Map和Reduce的任务并行度、调整数据分片大小等。

总的来说，MapReduce框架通过数据分片、Map函数、Shuffle 阶段、Reduce函数等组件的协同工作，实现了大规模数据的分布式处理。

粗粒度并行遗传算法的 MapReduce 并行化实现

第 27 卷
第 10 期
重庆理工大学学报( 自然科学)
Journal of Chongqing University of Technology( Natural Science)
2013 年 10 月
Oct． 2013 Vol． 27 No． 10
［7 ］
如图 3 所示。
图4
粗粒度并行遗传算法 Ma遗传算法的 MapReduce 并行化实现 Mapper 和 Re为了保证各个子群独自繁衍， ducer 的节点数量都为 n，同时确保 Mapper i 的数据在对应的 Reducer i 进行处理。待处理的每个个体给予一个子群 key，在 Map 处理过程中，最优个体的 key = （ key + 1 ） mod n，而 Partition 的操作是 key mod n，从而实现最优个体的环形迁移。 3． 1 Map 函数的设计 Map 函数先对子群中的个体进行杂交、变异操作，然后遍历子群，计算其适应值，根据适应值找出子群中的最优个体和最差个体，最优个体用于迁移到下一个子群（ key + 1 ） mod n，而淘汰最差个体。当然，也可以实现迁移若干最优个体，但数量不宜过大，否则会影响子群的差异性。 Map 函数伪代码清单
［2 ］
。本文在基于 Hadoop
。
技术的云计算基础平台上研究了粗粒度并行遗传
图1
MapReduce 详细执行过程
相互结合渗透而成的算法，是具有“生成 + 检测 ”
2
粗粒度并行遗传算法
遗传算法（ GA ）是自然遗传学和计算机科学
的迭代过程的搜索算法，即产生、选择优良个体、

并行计算论文：并行计算大数据处理序列比对MapReduce优化

【关键词】并行计算大数据处理序列比对 MapReduce优化【英文关键词】parallel computing big data processing sequence alignment MapReduce optimization并行计算论文：MapReduce并行计算应用案例及其执行框架性能优化研究【中文摘要】当前,商业领域、科学领域以及社会生活中所产生的数据都在以惊人的速度增长。

以关系型数据库为代表的传统数据存储、处理技术和工具,已无法存储、管理和处理如此大规模急速增长的数据。

大数据包含了的有用信息,也带来了的挑战。

大数据处理技术已成为当前的研究热点。

在此背景下,通过并行计算技术解决大数据处理问题已成为学术界和工业界的普遍共识。

然而并行计算技术与应用问题紧密相关,且应用问题本身具有不同的复杂性和多样性,这使得大数据的处理具有很大的技术挑战,需要寻找和研究有效的大数据处理并行计算模型和系统。

由Google公司所发表的MapReduce并行计算技术,因其高可扩展性和高易用性而成为目前最成功的大数据处理技术,得到广泛应用。

Hadoop作为当前主流的开源MapReduce框架实现,已成为大数据处理应用事实上的工业标准。

但是,现有的MapReduce执行框架的实现主要面向大规模数据批处理作业,而目前各行业出现了越来越多的对作业响应性能有较高要求的在线数据处理或查询应用,现有的MapReduce并行计算框架在处理这类应用时,其响应性能存在明显的不足。

为了解该问题,本文从MapReduce上层应用到底层框架逐步深入,以MapReduce并行计算应用案例的研究工作为基础,研究并实现了对现有MapReduce执行框架的性能优化。

本文的研究工作主要分为以下两部分：(1) MapReduce并行计算应用案例研究,以生物信息学中的著名序列比对工具BLAST为研究案例,对BLAST算法并行化所涉及到的数据划分和计算划分的难点加以分析,提出并实现了基于MapReduce的两种并行化方案,通过多组实验测试对两种方案作了评估和比较。

MapReduce并行编程模型研究综述

ＭａｐＲｅｄｕｃｅ并行编程模型研究综述李建江１崔健１王聃１严林１黄义双２１．北京科技大学计算机与通信工程学院计算机科学与技术系，北京１０００８３；２．中国石油化工股份有限公司勘探南方分公司研究院，四川成都６１００４１摘要：ＭａｐＲｅｄｕｃｅ并行编程模型通过定义良好的接口和运行时支持库，能够自动并行执行大规模计算任务，隐藏底层实现细节，降低并行编程的难度．本文对ＭａｐＲｅｄｕｃｅ的国内外相关研究现状进行了综述，阐述和分析了当前国内外与ＭａｐＲｅｄｕｃｅ相关的典型研究成果的特点和不足，重点对ＭａｐＲｅｄｕｃｅ涉及的关键技术（包括：模型改进、模型针对不同平台的实现、任务调度、负载均衡和容错）的研究现状进行了深入的分析．本文最后还对ＭａｐＲｅｄｕｃｅ未来的发展趋势进行了展望．ＭａｐＲｅｄｕｃｅ；并行编程模型；运行时支持库；海量数据处理ＴＰ３１６．４Ａ０３７２－２１１２　（　２０１１　）１１－２６３５－０８Ｓｕｒｖｅｙ　ｏｆ　ＭａｐＲｅｄｕｃｅ　Ｐａｒａｌｌｅｌ　Ｐｒｏｇｒａｍｍｉｎｇ　ＭｏｄｅｌＬＩ　Ｊｉａｎ－ｊｉａｎｇＣＵＩ　ＪｉａｎＷＡＮＧ　ＤａｎＹＡＮ　ＬｉｎＨＵＡＮＧ　Ｙｉ－ｓｈｕａｎｇ２０１１－０１－１２２０１１－０３－１７基金项目：教育部重点基金（Ｎｏ．　１０８００８）；国家８６３高技术研究发展计划（Ｎｏ．　２００８ＡＡ０１Ｚ１０９）；北京市教育重点学科计算机系统结构（Ｎｏ．ＸＫ１０００８０５３７）函数把Ｈａｄｏｏｐ也利于其ＳＡＭＲ仍＠＠［　１　］　Ｊ　Ｄｅａｎ，　Ｓ　Ｇｈｅｍａｗａｔ．　ＭａｐＲｅｄｕｃｅ：　Ｓｉｍｐｌｉｆｉｅｄ　ｄａｔａ　ｐｒｏｃｅｓｓｉｎｇｏｎ　ｌａｒｇｅ　ｃｌｕｓｔｅｒｓ［　Ｊ］．　Ｃｏｍｍｕｎｉｃａｔｉｏｎｓ　ｏｆ　ｔｈｅ　ＡＣＭ，　２００８，　５１（１）：１０７－　１１３．＠＠［　２　］　Ｊ　Ｌ　Ｗａｇｅｎｅｒ．　Ｈｉｇｈ　ｐｅｒｆｏｒｍａｎｃｅ　ｆｏｒｔｒａｎ　［　Ｊ　］．　Ｃｏｍｐｕｔｅｒ　Ｓｔａｎｄａｒｄｓ　＆　Ｉｎｔｅｒｆａｃｅｓ，Ｅｌｓｅｖｉｅｒ，　１９９６，１８（４）　：３７１　－　３７７．＠＠［　３　］　Ｗ　Ｇｒｏｐｐ，　Ｅ　Ｌｕｓｋ，　ｅｔ　ａｌ．　Ｕｓｉｎｇ　ＭＰＩ：　Ｐｏｒｔａｂｌｅ　Ｐａｒａｌｌｅｌ　Ｐｒｏｇｒａｍｍｉｎｇ　ｗｉｔｈ　ｔｈｅ　Ｍｅｓｓａｇｅ　Ｐａｓｓｉｎｇ　Ｉｎｔｅｒｆａｃｅ［　Ｍ］．　Ｃａｍｂｄｄｇｅ：　ＭＩＴＰｒｅｓｓ，　１９９９．１　－　３５０．＠＠［４］　Ａ　Ｇｅｉｓｔ，　Ａ　Ｂｅｇｕｅｌｉｎ，　ｅｔ　ａｌ．　ＰＶＭ：　Ｐａｒａｌｌｅｌ　Ｖｉｒｔｕａｌ　Ｍａｃｈｉｎｅ：　ＡＵｓｅｒｓ＇　Ｇｕｉｄｅ　ａｎｄ　Ｔｕｔｏｒｉａｌ　ｆｏｒ　Ｎｅｔｗｏｒｋｅｄ　Ｐａｒａｌｌｅｌ　Ｃｏｍｐｕｔｉｎｇ［Ｍ］．　Ｃａｍｂｒｉｄｇｅ：　ＭＩＴ　Ｐｒｅｓｓ，　１９９５．１　－　２９９．＠＠［５］廖名学，范植华．ＭＰＩ程序同步通信基本模型死锁检测［Ｊ］．电子学报，２００８，３６（２）：４０２　－　４０７．Ｌｉａｏ　Ｍｉｎｇ－ｘｕｅ，Ｆａｎ　Ｚｈｉ－ｈｕａ．　Ｄｅａｄｌｏｃｋ　ｄｅｔｅｃｔｉｏｎ　ｉｎ　ｂａｓｉｃ　ｍｏｄｅｌｓ　ｏｆ　ＭＰＩ　ｓｙｎｃｈｒｏｎｉｚａｔｉｏｎ　ｃｏｍｍｕｎｉｃａｔｉｏｎ　ｐｒｏｇｒａｍｓ　［　Ｊ　］．　ＡｃｔａＥｌｅｃｔｒｏｎｉｃａ　Ｓｉｎｉｃａ，２００８，３６（２）　：４０２　－　４０７．　（ｉｎ　Ｃｈｉｎｅｓｅ）＠＠［６］　Ａ　Ｖｅｒｍａ，　Ｎ　Ｚｅａ，　ｅｔ　ａｌ．　Ｂｒｅａｋｉｎｇ　ｔｈｅ　ｍａｐｒｅｄｕｃｅ　ｓｔａｇｅ　ｂａｒｒｉｅｒ［　Ａ］．　Ｐｒｏｃ　ｏｆ　ＩＥＥＥ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｃｌｕｓｔｅｒ　Ｃｏｍｐｕｔｉｎｇ［　Ｃ］　．Ｌｏｓ　Ａｌａｍｉｔｏｓ：　ＩＥＥＥ　Ｃｏｍｐｕｔｅｒ　Ｓｏｃｉｅｔｙ，２０１０．２３５－２４４．＠＠［７］　Ｈ　Ｃ　Ｙａｎｇ，Ａ　Ｄａｓｄａｎ，ｅｔ　ａｌ．Ｍａｐ－Ｒｅｄｕｃｅ－Ｍｅｒｇｅ：　Ｓｉｍｐｌｉｆｉｅｄ　ｒｅｌａｔｉｏｎａｌ　ｄａｔａ　ｐｒｏｃｅｓｓｉｎｇ［　Ａ　］．　Ｐｒｏｃ　ｏｆ　ＡＣＭ　ＳＩＧＭＯＤ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｍａｎａｇｅｍｅｎｔ　ｏｆ　Ｄａｔａ　［　Ｃ　］．　Ｎｅｗ　Ｙｏｒｋ：ＡＣＭ，２００７．　１０２９　－　１０４０．＠＠［　８　］　Ｓ　Ｖ　Ｖａｌｖａｇ，　Ｄ　Ｊｏｈａｎｓｅｎ．　Ｏｉｖｏｓ：　Ｓｉｍｐｌｅ　ａｎｄ　ｅｆｆｉｃｉｅｎｔ　ｄｉｓｔｒｉｂｕｔｅｄｄａｔａ　ｐｒｏｃｅｓｓｉｎｇ［Ａ］　．Ｐｒｏｃ　ｏｆ　ＩＥＥＥ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎＨｉｇｈ　Ｐｅｒｆｏｒｍａｎｃｅ　Ｃｏｎ－ｐｕｔｉｎｇ　ａｎｄ　Ｃｏｍｍｕｎｉｃａｔｉｏｎｓ［　Ｃ］．　Ｐｉｓｃａｔａｗａｙ：　ＩＥＥＥ，２００８．１１３　－　１２２．＠＠［９］　Ｚ　Ｖｒｂａ，Ｐ　Ｈａｌｖｏｒｓｅｎ，ｅｔ　ａｌ．Ｋａｈｎ　ｐｒｏｃｅｓｓ　ｎｅｔｗｏｒｋｓ　ａｒｅ　ａ　ｆｌｅｘｉｂｌｅ　ａｌｔｅｒｎａｔｉｖｅ　ｔｏ　ｍａｐｒｅｄｕｃｅ　［　Ａ　］．　Ｐｒｏｃ　ｏｆ　ＩＥＥＥ　ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｈｉｇｈ　Ｐｅｒｆｏｒｍａｎｃｅ　Ｃｏｍｐｕｔｉｎｇ　ａｎｄ　Ｃｏｍｍｕｎｉｃａｔｉｏｎｓ［　Ｃ］．　Ｐｉｓｃａｔａｗａｙ：　ＩＥＥＥ，２００９．１５４－　１６２．＠＠［　１０　］　Ａｐａｃｈｅ　ｈａｄｏｏｐ　［　ＥＢ／ＯＬ　］．　ｈｔｔｐ：／／ｌｕｃｅｎｅ．　ａｐａｃｈｅ．　ｏｒｇ／ｈａｄｏｏｐ／，　２０１０－１０－１５／２０１０－１２－２８．＠＠［　１１　］　Ｃ　Ｒａｎｇｅｒ，　Ｒ　Ｒａｇｈｕｒａｍａｎ，　ｅｔ　ａｌ．　Ｅｖａｌｕａｔｉｎｇ　ｍａｐｒｅｄｕｃｅ　ｆｏｒｍｕｌｔｉ－ｃｏｒｅ　ａｎｄ　ｍｕｌｔｉｐｒｏｃｅｓｓｏｒ　ｓｙｓｔｅｍｓ［　Ａ］．　Ｐｒｏｃ　ｏｆ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｓｙｍｐｏｓｉｕｍ　ｏｎ　Ｈｉｇｈ　Ｐｅｒｆｏｒｍａｎｃｅ　Ｃｏｍｐｕｔｅｒ　Ａｒｃｈｉｔｅｃｔｕｒｅ［Ｃ］．　Ｐｉｓｃａｔａｗａｙ：　ＩＥＥＥ，２００７．１３　－　２４．＠＠［　１２］　Ｒ　Ｍ　Ｙｏｏ，Ａ　Ｒｏｍａｎｏ，　ｅｔ　ａｌ．　Ｐｈｏｅｎｉｘ　ｒｅｂｉｒｔｈ：Ｓｃａｌａｂｌｅ　ｍａｐｒｅｄｕｃｅ　ｏｎ　ａ　ｌａｒｇｅ－ｓｃａｌｅ　ｓｈａｒｅｄ－ｍｅｍｏｒｙ　ｓｙｓｔｅｍ　［　Ａ　］．　Ｐｒｏｅ　ｏｆＩＥＥＥ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｓｙｍｐｏｓｉｕｍ　ｏｎ　Ｗｏｒｋｌｏａｄ　Ｃｈａｒａｃｔｅｒｉｚａｔｉｏｎ［Ｃ］．　Ｐｉｓｃａｔａｗａｙ：　ＩＥＥＥ，　２００９．１９８－　２０７．＠＠［　１３］　Ｈｅ　Ｂｉｎｇｓｈｅｎｇ，　Ｆａｎｇ　Ｗｅｎｂｉｎ，ｅｔ　ａｌ．Ｍａｒｓ：Ａ　ｒｎａｐｒｅｄｕｃｅ　ｆｒａｍｅｗｏｒｋ　ｏｎ　ｇｒａｐｈｉｃｓ　ｐｒｏｃｅｓｓｏｒｓ［　Ａ］．　Ｐｒｏｃ　ｏｆ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｐａｒａｌｌｅｌ　Ａｒｃｈｉｔｅｃｔｕｒｅｓ　ａｎｄ　Ｃｏｍｐｉｌａｔｉｏｎ　Ｔｅｃｈｎｉｑｕｅｓ［　Ｃ］．　Ｐｉｓｃａｔａｗａｙ：　ＩＥＥＥ，　２００８．２６０　－　２６９．＠＠［１４］　Ｍ　ｄ　Ｋｍｉｊｆ，　Ｋ　Ｓａｎｋａｒａｌｉｎｇａｍ．　ＭａｐＲｅｄｕｃｅ　ｆｏｒ　ｔｈｅ　ｃｅｌｌ　ｂｒｏａｄｂａｎｄ　ｅｎｇｉｎｅ　ａｒｃｈｉｔｅｃｔｕｒｅ［　Ｊ］．　ＩＢＭ　Ｊｏｕｒｎａｌ　ｏｆ　Ｒｅｓｅａｒｃｈ　ａｎｄ　Ｄｅｖｅｌｏｐｍｅｎｔ，２００９，５３　（５）　：７４７　－　７５８．＠＠［１５］　Ａ　Ｄｏｕ，　Ｖ　Ｋａｌｏｇｅｒａｋｉ，ｅｔ　ａｌ．　Ｍｉｓｃｏ：Ａ　ｍａｐｒｅｄｕｃｅ　ｆｒａｍｅｗｏｒｋ　ｆｏｒ　ｍｏｂｉｌｅ　ｓｙｓｔｅｍｓ　［　Ａ　］．　Ｐｒｏｃ　ｏｆ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎＰＥｒｖａｓｉｖｅ　Ｔｅｃｈｎｏｌｏｇｉｅｓ　Ｒｅｌａｔｅｄ　ｔｏ　Ａｓｓｉｓｔｉｖｅ　Ｅｎｖｉｒｏｎｍｅｎｔｓ［Ｃ］．　Ｎｅｗ　Ｙｏｒｋ：　ＡＣＭ，２０１０．＠＠［　１６　］　Ｓｕ　Ｙ　Ｌ，　Ｃｈｅｎ　Ｐ　Ｃ，　ｅｔ　ａｌ．　Ｖａｒｉａｂｌｅ－ｓｉｚｅｄ　ｍａｐ　ａｎｄ　ｌｏｃａｌｉｔｙａｗａｒｅ　ｒｅｄｕｃｅ　ｏｎ　ｐｕｂｌｉｃ－ｒｅｓｏｎｒｃｅ　ｇｒｉｄｓ［　Ａ］．　Ｐｒｏｅ　ｏｆ　Ａｄｖａｎｃｅｓｉｎ　Ｇｒｉｄ　ａｎｄ　Ｐｅｒｖａｓｉｖｅ　Ｃｏｍｐｕｔｉｎｇ．　［　Ｃ　］．　Ｂｅｒｌｉｎ：　Ｓｐｒｉｎｇｅｒ，２０１０．２３４　－　２４３．＠＠［１７］　Ｍ　Ｚａｂａｒｉａ，　Ｄ　Ｂｏｒｔｈａｋｕｒ，　ｅｔ　ａｌ．　Ｄｅｌａｙ　ｓｃｈｅｄｕｌｉｎｇ：　Ａ　ｓｉｍｐｌｅｔｅｃｈｎｉｑｕｅ　ｆｏｒ　ａｃｈｉｅｖｉｎｇ　ｌｏｃａｌｉｔｙ　ａｎｄ　ｆａｉｒｎｅｓｓ　ｉｎ　ｃｌｕｓｔｅｒｓｃｈｅｄｕｌｉｎｇ［　Ａ］．　Ｐｒｏｃ　ｏｆ　ＥｕｒｏＳｙｓ　２０１０　Ｃｏｎｆｅｒｅｎｃｅ［Ｃ］．　ＮｅｗＹｏｒｋ：　ＡＣＭ，２０１０．２６５　－　２７８．＠＠［１８］　Ｍ　Ｚａｈａｒｉａ，Ａ　Ｋｏｎｗｉｎｓｋｉ，ｅｔ　ａｌ．　Ｉｍｐｒｏｖｉｎｇ　ｍａｐｒｅｄｕｃｅ　ｐｅｒｆｏｒｍａｎｃｅ　ｉｎ　ｈｅｔｅｒｏｇｅｎｅｏｕｓ　ｅｎｖｉｒｏｎｍｅｎｔｓ　［　Ａ　］．　Ｐｒｏｃ　ｏｆ　ＵＳＥＮＩＸｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｏｐｅｒａｔｉｎｇ　ｓｙｓｔｅｍｓ　ｄｅｓｉｇｎ　ａｎｄ　ｉｍｐｌｅｍｅｎｔａｔｉｏｎ［　Ｃ］．　Ｂｅｒｋｅｌｅｙ：　ＵＳＥＮＩＸ　Ａｓｓｏｃｉａｔｉｏｎ，　２００８．２９　－　４２．＠＠［　１９］　Ｊ　Ｐｏｌｏ，Ｄ　Ｃａｒｒｅｒａ，ｅｔ　ａｌ．　Ｐｅｒｆｏｒｍａｎｃｅ－ｄｒｉｖｅｎ　ｔａｓｋ　ｃｏ－ｓｃｈｅｄｕｌｉｎｇｆｏｒ　ｍａｐｒｅｄｕｃｅ　ｅｎｖｉｒｏｎｍｅｎｔｓ［　Ａ］．　Ｐｒｏｅ　ｏｆ　ＩＥＥＥ／ＩＦＩＰ　ＮｅｔｗｏｒｋＯｐｅｒａｔｉｏｎｓ　ａｎｄ　Ｍａｎａｇｅｍｅｎｔ　Ｓｙｍｐｏｓｉｕｍ　［　Ｃ　］．　Ｐｉｓｃａｔａｗａｙ：ＩＥＥＥ，２０１０．３７３　－　３８０．＠＠［　２０　］　Ｔ　Ｂｉｃｅｒ，　Ｗ　Ｊｉａｎｇ，　ｅｔ　ａｌ．　Ｓｕｐｐｏｒｔｉｎｇ　ｆａｕｌｔ　ｔｏｌｅｒａｎｃｅ　ｉｎ　ａ　ｄａｔａ－ｉｎｔｅｎｓｉｖｅ　ｃｏｍｐｕｔｉｎｇ　ｍｉｄｄｉｅｗａｒｅ［　Ａ］．　Ｐｒｏｃ　ｏｆ　ＩＥＥＥ　ＩｎｔｅｍａｔｉｏｎａｌＳｙｍｐｏｓｉｕｍ　ｏｎ　Ｐａｒａｌｌｅｌ　＆　Ｄｉｓｔｒｉｂｕｔｅｄ　Ｐｒｏｃｅｓｓｉｎｇ［　Ｃ］．　Ｐｉｓｃａｔａｗａｙ：　ＩＥＥＥ，　２０１０．１　－　１２．＠＠［　２１　］　Ｍ　Ｋｏｎｔａｇｏｒａ，　Ｈ　Ｇ　Ｖｅｌｅｚ．　Ｂｅｎｃｈｍａｒｋｉｎｇ　ａ　ｍａｐｒｅｄｕｃｅ　ｅｎｖｉｒｏｎｍｅｎｔ　ｏｎ　ａ　ｆｕｌｌ　ｖｉｒｔｕａｌｉｚａｔｉｏｎ　ｐｌａｔｆｏｒｍ［　Ａ］．　Ｐｒｏｃ　ｏｆ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｃｏｍｐｌｅｘ，　Ｉｎｔｅｌｌｉｇｅｎｔ　ａｎｄ　Ｓｏｆｔｗａｒｅ　Ｉｎｔｅｎｓｉｖｅ　Ｓｙｓｔｅｍｓ［　Ｃ］．　Ｐｉｓｃａｔａｗａｙ：　ＩＥＥＥ，２０１０．４３３　－　４３８．＠＠［２２］　Ｋ　Ｋｉｍ，　Ｋ　Ｊｅｏｎ，　ｅｔ　ａｌ．　ＭＲＢｅｎｃｈ：　Ａ　ｂｅｎｃｈｍａｒｋ　ｆｏｒ　ｍａｐｒｅｄｕｃｅｆｒａｍｅｗｏｒｋ［　Ａ］．　Ｐｒｏｃ　ｏｆ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｐａｒａｌｌｅｌａｎｄ　Ｄｉｓｔｒｉｂｕｔｅｄ　Ｓｙｓｔｅｍｓ［　Ｃ］．　Ｐｉｓｃａｔａｗａｙ：　ＩＥＥＥ　ｃｏｍｐｕｔｅｒ　ｓｏｃｉｅｔｙ，２００８．１１　－　１８．＠＠［　２３　］　Ｑ　Ｌｉｕ，　Ｔ　Ｔｏｄｍａｎ，　ｅｔ　ａｌ．　Ａｕｔｏｍａｔｉｃ　ｏｐｔｉｍｉｚａｔｉｏｎ　ｏｆ　ｍａｐｒｅｄｕｃｅｄｅｓｉｇｎｓ　ｂｙ　ｇｅｏｍｅｔｒｉｃ　ｐｒｏｇｒａｍｍｉｎｇ［　Ａ］．　Ｐｒｏｅ　ｏｆ　ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｆｉｅｌｄ－Ｐｒｏｇｒａｍｍａｂｌｅ　Ｔｅｃｈｎｏｌｏｇｙ　［　Ｃ　］．　Ｐｉｓｃａｔａｗａｙ：　ＩＥＥＥ，　２００９．２１５　－　２２２．＠＠［　２４］　Ｔ　Ｓａｎｄｈｏｌｍ，　Ｋ　Ｌａｉ．　ＭａｐＲｅｄｕｃｅ　ｏｐｔｉｍｉｚａｔｉｏｎ　ｕｓｉｎｇ　ｒｅｇｕｌａｔｅｄｄｙｎａｍｉｃ　ｐｒｉｏｒｉｔｉｚａｔｉｏｎ　［　Ｊ　］．　Ｐｅｒｆｏｒｍａｎｃｅ　Ｅｖａｌｕａｔｉｏｎ　Ｒｅｖｉｅｗ，２００９，３７（１）　：２９９－　３１０．＠＠［　２５　］　Ｙ　Ｂｅｃｅｒｒａ，　Ｖ　Ｂｅｌｔｒａｎ，ｅｔ　ａｌ．　Ｓｐｅｅｄｉｎｇ　ｕｐ　ｄｉｓｔｒｉｂｕｔｅｄ　ｍａｐｒｅｄｕｃｅａｐｐｌｉｃａｔｉｏｎｓ　ｕｓｉｎｇ　ｈａｒｄｗａｒｅ　ａｃｃｅｌｅｒａｔｏｒｓ［　Ａ　］．　Ｐｒｏｃ　ｏｆ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｐａｒａｌｌｅｌ　Ｐｒｏｃｅｓｓｉｎｇ　［　Ｃ　］．　Ｐｉｓｃａｔａｗａｙ：ＩＥＥＥ，２００９．４２　－　４９．＠＠［２６］　Ｗｅｉ　Ｗｅｉ，Ｄｕ　Ｊｕａｎ，ｅｔ　ａｌ．ＳｅｃｕｒｅＭＲ：Ａ　ｓｅｒｖｉｃｅ　ｉｎｔｅｇｒｉｔｙ　ａｓｓｕｒａｎｃｅ　ｆｒａｍｅｗｏｒｋ　ｆｏｒ　ｍａｐｒｅｄｕｃｅ［　Ａ］　．Ｐｒｏｃ　ｏｆ　Ａｎｎｕａｌ　ＣｏｍｐｕｔｅｒＳｅｃｕｒｉｔｙ　Ａｐｐｌｉｃａｔｉｏｎｓ　Ｃｏｎｆｅｒｅｎｃｅ　［　Ｃ　］．　Ｐｉｓｃａｔａｗａｙ：　ＩＥＥＥ，２００９．７３　－　８２．＠＠［２７］　Ｌｉｕ　Ｑｉａｎｇ，Ｔ　Ｔｏｄｍａｎ，ｅｔ　ａｌ．　Ｃｏｍｂｉｎｉｎｇ　ｏｐｔｉｍｉｚａｆｉｏｎｓ　ｉｎ　ａｕｔｏｍａｔｅｄ　ｌｏｗ　ｐｏｗｅｒ　ｄｅｓｉｇｎ［　Ａ］．　Ｐｒｏｃ　ｏｆ　Ｄｅｓｉｇｎ，　Ａｕｔｏｍａｔｉｏｎ　＆Ｔｅｓｔ　ｉｎ　Ｅｕｒｏｐｅ　Ｃｏｎｆｅｒｅｎｃｅ　＆　Ｅｘｈｉｂｉｔｉｏｎ　［　Ｃ　］．　Ｐｉｓｃａｔａｗａｙ：ＩＥＥＥ，２０１０．１７９１　－　１７９６．＠＠［２８］　Ｎ　Ｖａｓｉｃ，Ｍ　Ｂａｒｉｓｉｔｓ，ｅｔ　ａｌ．Ｍａｋｉｎｇ　ｃｌｕｓｔｅｒ　ａｐｐｌｉｃａｔｉｏｎｓ　ｅｎｅｒｇｙａｗａｒｅ［　Ａ］．　Ｐｒｏｃ　ｏｆ　Ｗｏｒｋｓｈｏｐ　ｏｎ　Ａｕｔｏｍａｔｅｄ　Ｃｏｎｔｒｏｌ　ｆｏｒ　Ｄａｔａｃｅｎｔｅｒｓ　ａｎｄ　Ｃｌｏｕｄｓ［　Ｃ］　．Ｎｅｗ　Ｙｏｒｋ：ＡＣＭ，２００９．３７　－　４２．＠＠［２９］　Ｉｎｓｔｉｔｕｔｉｏｎｓ　ａｎｄ　ｃｏｍｐａｎｉｅｓ　ｕｓｉｎｇ　ｈａｄｏｏｐ［ＥＢ／ＯＬ］．　ｈｔｔｐ：／／ｗｉｋｉ．　ａｐａｃｈｅ．　ｏｒｇ／ｈａｄｏｏｐ／ＰｏｗｅｒｅｄＢｙ，　２０１０－１２－２５／２０１０－１２－２８．＠＠［３０］陈康，郑纬民．云计算：系统实例与研究现状［Ｊ］．软件学报，２００９，２０（５）：１３３７　－　１３４８．Ｃｈｅｎ　Ｋａｎｇ，　Ｚｈｅｎｇ　Ｗｅｉ－ｍｉｎ．　Ｃｌｏｕｄ　ｃｏｍｐｕｔｉｎｇ：　Ｓｙｓｔｅｍ　ｉｎｓｔａｎｃｅｓ　ａｎｄ　ｃｕｒｒｅｎｔ　ｒｅｓｅａｒｃｈ［Ｊ］．　Ｊｏｕｒｎａｌ　ｏｆ　Ｓｏｆｔｗａｒｅ，　２００９，２０（５）：１３３７－　１３４８．　（ｉｎ　Ｃｈｉｎｅｓｅ）＠＠［３１　］　Ｕ　Ｋａｎｇ，　Ｃ　Ｅ　Ｔｓｏｕｒａｋａｋｉｓ，　ｅｔ　ａｌ．　ＰＥＧＡＳＵＳ：　Ａ　ｐｅｔａ－ｓｃａｌｅｇｒａｐｈ　ｍｉｎｉｎｇ　ｓｙｓｔｅｍ－ｉｍｐｌｅｍｅｎｔａｔｉｏｎ　ａｎｄ　ｏｂｓｅｒｖａｔｉｏｎｓ　［　Ａ　］．Ｐｒｏｃ　ｏｆ　ＩＥＥＥ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｄａｔａ　Ｍｉｎｉｎｇ［Ｃ］．Ｐｉｓｃａｔａｗａｙ：　ＩＥＥＥ，　２００９．２２９　－　２３８．＠＠［３２］　Ｌｉｕ　Ｙａｎｇ，　Ｊｉａｎｇ　Ｘｉａｏ－ｈｏｎｇ，　ｅｔ　ａｌ．　ＭａｐＲｅｄｕｃｅ－ｂａｓｅｄ　ｐａｔｔｅｒｎｆｉｎｄｉｎｇ　ａｌｇｏｒｉｔｈｍ　ａｐｐｌｉｅｄ　ｉｎ　ｍｏｔｉｆ　ｄｅｔｅｃｔｉｏｎ　ｆｏｒ　ｐｒｅｓｃｒｉｐｔｉｏｎｃｏｍｐａｔｉｂｉｌｉｔｙ　ｎｅｔｗｏｒｋ［　Ａ］．　Ｐｒｏｃ　ｏｆ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｓｙｍｐｏｓｉｕｍｏｎ　Ａｄｖａｎｃｅｄ　Ｐａｒａｌｌｅｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｔｅｃｈｎｏｌｏｇｉｅｓ　［　Ｃ］．　Ｂｅｒｌｉｎ：Ｓｐｒｉｎｇｅｒ，　２００９．３４１　－　３５５．＠＠［３３］　Ｙａｎｇ　Ｌａｉ，Ｓｈｉ　Ｚｈｏｎｇ－ｚｈｉ．Ａｎ　ｅｆｆｉｃｉｅｎｔ　ｄａｔａ　ｍｉｎｉｎｇ　ｆｒａｍｅｗｏｒｋｏｎ　ｈａｄｏｏｐ　ｕｓｉｎｇ　ｊａｖａ　ｐｅｒｓｉｓｔｅｎｃｅ　ａｐｉ［Ａ］．　Ｐｒｏｃ　ｏｆ　ＩＥＥＥ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｃｏｍｐｕｔｅｒ　ａｎｄ　Ｉｎｆｏｒｍａｔｉｏｎ　Ｔｅｃｈｎｏｌｏｇｙ［Ｃ］．　Ｌｏｓ　Ａｌａｍｉｔｏｓ：　ＩＥＥＥ　Ｃｏｍｐｕｔｅｒ　Ｓｏｃｉｅｔｙ，２０１０．２０３－　２０９．＠＠［３４］　Ｓｈａｈ　Ｙｉ，Ｗａｎｇ　Ｂｏ，ｅｔ　ａｌ．　ＦＰＭＲ：　ＭａｐＲｅｄｕｃｅ　ｆｒａｍｅｗｏｒｋ　ｏｎＦＰＧＡ　ａ　ｃａｓｅ　ｓｔｕｄｙ　ｏｆ　ｒａｎｋｂｏｏｓｔ　ａｃｃｅｌｅｒａｔｉｏｎ　［　Ａ　］．　Ｐｒｏｃ　ｏｆＡＣＭＳＩＧＤＡＩｎｔｅｒｎａｔｉｏｎａｌＳｙｍｐｏｓｉｕｍｏｎＦｉｅｌｄ－Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙｓ［Ｃ］．　Ｎｅｗ　Ｙｏｒｋ：　ＡＣＭ，　２０１０．９３　－１０２．＠＠［３５］　Ｇｕｏ　Ｌｅｉ－ｔａｏ，　Ｓｕｎ　Ｈｏｎｇ－ｗｅｉ，　ｅｔ　ａｌ．　Ａ　ｄａｔａ　ｄｉｓｔｒｉｂｕｔｉｏｎ　ａｗａｒｅｔａｓｋ　ｓｃｈｅｄｕｌｉｎｇ　ｓｔｒａｔｅｇｙ　ｆｏｒ　ｍａｐｒｅｄｕｃｅ　ｓｙｓｔｅｍ［　Ａ］．　Ｆｉｒｓｔ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｃｌｏｕｄ　Ｃｏｍｐｕｔｉｎｇ　［　Ｃ　］．　Ｂｅｒｌｉｎ：Ｓｐｒｉｎｇｅｒ，２００９，６９４　－　６９９．＠＠［３６］　Ｃｈｅｎ　Ｑｕａｎ，　Ｚｈａｎｇ　Ｄａ－ｑｉａｎｇ，　ｅｔ　ａｌ．　ＳＡＭＲ：　Ａ　ｓｅｌｆ－ａｄａｐｔｉｖｅｍａｐｒｅｄｕｃｅ　ｓｃｈｅｄｕｌｉｎｇ　ａｌｇｏｒｉｔｈｍ　ｉｎ　ｈｅｔｅｒｏｇｅｎｅｏｕｓ　ｅｎｖｉｒｏｎｍｅｎｔ［Ａ］　．Ｐｒｏｃ　ｏｆ　ＩＥＥＥ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｃｏｍｐｕｔｅｒ　ａｎｄＩｎｆｏｒｍａｔｉｏｎ　Ｔｅｃｈｎｏｌｏｇｙ［　Ｃ］．　Ｌｏｓ　Ａｌａｍｉｔｏｓ：　ＩＥＥＥ　ｃｏｍｐｕｔｅｒｓｏｃｉｅｔｙ，　２０１０．２７３６　－　２７４３．＠＠［３７］　Ｃｈｅｎ　Ｔｉｎｇ，　Ｗａｎｇ　Ｙｏｎｇ－ｊｉａｎ，　ｅｔ　ａｌ．　Ａ　ｔｗｏ－ｐｈａｓｅ　ｌｏｇ－ｂａｓｅｄｆａｕｌｔ　ｒｅｃｏｖｅｒｙ　ｍｅｃｈａｎｉｓｍ　ｉｎ　ｍａｓｔｅｒ／ｗｏｒｋｅｒ　ｂａｓｅｄ　ｃｏｍｐｕｔｉｎｇｅｎｖｉｒｏｎｍｅｎｔ［Ａ］．　Ｐｒｏｃ　ｏｆ　ＩＥＥＥ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｓｙｍｐｏｓｉｕｍ　ｏｎＰａｒａｌｌｅｌ　ａｎｄ　Ｄｉｓｔｒｉｂｕｔｅｄ　Ｐｒｏｃｅｓｓｉｎｇ　ｗｉｔｈ　Ａｐｐｌｉｃａｔｉｏｎｓ［　Ｃ］．　Ｐｉｓｃａｔａｗａｙ：　ＩＥＥＥ，　２００９．２９０　－　２９７．＠＠［３８］　Ｈｕａｎｇ　Ｓｈｅｎｇ－ｓｈｅｎｇ，Ｈｕａｎｇ　Ｊｉｅ，ｅｔ　ａｌ．　Ｔｈｅ　ｈｉｂｅｎｃｈ　ｂｅｎｃｈｍａｒｋｓｕｉｔｅ：　ｃｈａｒａｃｔｅｒｉｚａｔｉｏｎ　ｏｆ　ｔｈｅ　ｍａｐｒｅｄｕｃｅ－ｂａｓｅｄ　ｄａｔａ　ａｎａｌｙｓｉｓ［Ａ］．　Ｐｒｏｃ　ｏｆ　ＩＥＥＥ　Ｉｎｔｅｍａｔｉｏａｎｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｄａｔａ　Ｅｎｇｉｎｅｅｒｉｎｇ　Ｗｏｒｋｓｈｏｐｓ　［　Ｃ］．　Ｐｉｓｃａｔａｗａｙ：　ＩＥＥＥ，　２０１０．４１　－　４５．＠＠［３９］　Ｚｈａｎｇ　Ｓｈｕ－ｂｉｎ，　Ｈａｎ　Ｊｉ－ｚｈｏｎｇ，　ｅｔ　ａｌ．　Ａｃｃｅｌｅｒａｔｉｎｇ　ｍａｐｒｅｄｕｃｅ　ｗｉｔｈ　ｄｉｓｆｆｉｂｕｔｅｄ　ｍｅｍｏｒｙ　ｃａｃｈｅ［　Ａ］．　Ｐｒｏｃ　ｏｆ　ＩＥＥＥ　ＩｎｔｅｍａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｐａｒａｌｌｅｌ　ａｎｄ　Ｄｉｓｔｒｉｂｕｔｅｄ　Ｓｙｓｔｅｍｓ［　Ｃ］．　Ｐｉｓｃａｔａｗａｙ：　ＩＥＥＥ，　２００９．４７２　－　４７８．＠＠［４０］　Ｍ　Ｃ　Ｈｅｒｂｏｒｄｔ，Ｔ　Ｖ　Ｃｏｕｒｔ，　ｅｔ　ａｌ．　Ａｃｈｉｅｖｉｎｇ　ｈｉｇｈ　ｐｅｒｆｏｒｍａｎｃｅ　ｗｉｔｈ　ＦＰＧＡ－ｂａｓｅｄ　ｃｏｍｐｕｔｉｎｇ　［　Ｊ　］．　Ｃｏｍｐｕｔｅｒ，　２００７，４０　（　３　）　：　５０－　５７．＠＠［４１　］　Ｋ　Ｌａｎｇｅｎｄｏｅｎ，　Ｊ　Ｒｏｍｅｉｎ，　ｅｔ　ａｌ．　Ｉｎｔｅｇｒａｔｉｎｇ　ｐｏｌｌｉｎｇ，　ｉｎｔｅｒｒｕｐｔｓ，ａｎｄ　ｔｈｒｅａｄ　ｍａｎａｇｅｍｅｎｔ［Ａ］．　Ｐｒｏｃ　ｏｆ　Ｓｙｍｐｏｓｉｕｍ　ｏｎ　ｔｈｅ　Ｆｒｏｎｔｉｅｒｓ　ｏｆ　Ｍａｓｓｉｖｅｌｙ　Ｐａｒａｌｌｅｌ　Ｃｏｍｐｕｔａｔｉｏｎ　［　Ｃ］．　Ｌｏｓ　Ａｌａｍｉｔｏｓ：ＩＥＥＥ　ｃｏｍｐｕｔｅｒ　ｓｏｃｉｅｔｙ，　１９９６．１３　－　２２．＠＠［４２　］　Ｍ　Ｔｒｅａｓｔｅｒ．　Ａ　ｓｕｒｖｅｙ　ｏｆ　ｆａｕｌｔ－ｔｏｌｅｒａｎｃｅ　ａｎｄ　ｆａｕｌｔ－ｒｅｃｏｖｅｒｙｔｅｃｈｎｉｑｕｅｓ　ｉｎ　ｐａｒａｌｌｅｌ　ｓｙｓｔｅｍｓ［　ＥＢ／ＯＬ］．　ｈｔｔｐ：／／ａｒｘｉｖ．　ｏｒｇ／ａｂｓ／ｃｓ／０５０１００２，２００５－０１－０１／２０１０－１２－２８．＠＠［４３］　Ａ　Ｍｕｎｉ，　Ｊ　Ｈａｎｓｅｎ．　Ａｍａｚｏｎ　ｗｅｂ　ｓｅｒｖｉｃｅｓ［Ｊ］．　Ｄｒ．　Ｄｏｂｂ＇　ｓＪｏｕｒｎａｌ，　２００５，３０（１２）　：６６　－　６７．＠＠［４４］宁焕生，徐群玉．全球物联网发展及中国物联网建设若干思考［Ｊ］．电子学报，２０１０，３８（１１）：２５９０－２５９９．Ｎｉｎｇ　Ｈｕａｎ－ｓｈｅｎｇ，Ｘｕ　Ｑｕｎ－ｙｕ．　Ｒｅｓｅａｒｃｈ　ｏｎ　ｇｌｏｂａｌ　ｈｉｔｅｍｅｔ　ｏｆ　ｔｈｉｎｇｓ＇　ｄｅｖｅｌｏｐｍｅｎｔｓ　ａｎｄ　ｉｔ＇ｓ　ｃｏｎｓｔｒｕｃｔｉｏｎ　ｉｎ　ｃｈｉｎａ［Ｊ］．　Ａｃｔａ　Ｅｌｅｃｔｒｏｎｉｃａ　Ｓｉｎｉｃａ，　２０１０，３８　（　１１　）　：　２５９０　－　２５９９．　（　ｉｎ　Ｃｈｉｎｅｓｅ　）＠＠［４５］宁焕生，张瑜，等．中国物联网信息服务系统研究［Ｊ］．电子学报，２００６，３４（１２Ａ）：２５１４　－　２５１７．Ｎｉｎｇ　Ｈｕａ．ｒ－ｓｈｅｎｇ，Ｚｈａｎｇ　Ｙｕ，ｅｔ　ａｌ．　Ｒｅｓｅａｒｃｈ　ｏｎ　Ｃｈｉｎａ　ｉｎｔｅｒｎｅｔ　ｏｆ　ｔｈｉｎｇｓ＇　ｓｅｒｖｉｃｅｓ　ａｎｄ　ｍａｎａｇｅｍｅｎｔ［　Ｊ］　．Ａｃｔａ　Ｅｌｅｃｔｒｏｈｉｃａ　Ｓｉｎｉｃａ，　２００６，３４（１２Ａ）　：　２５１４　－　２５１７．　（　ｈｉ　Ｃｈｉｎｅｓｅ）李建江男，１９７１年生于四川广安，博士，副教授，ＣＣＦ会员，主要研究方向为高性能计算、并行编译和并行软件工程Ｅ－　ｍａｉｌ：ｊｉａｎｊｉａｎｇｌｉ＠　ｇｍａｉｌ．　ｃｏｍ崔健男，１９８６年生于江苏苏州，硕士生，主要研究方向为高性能计算、并行软件工程．Ｅ－ｍａｉｌ：　ｃｕｉｊｉａｎ６１３＠　ｙａｈｏｏ．ｃｏｍ．ｃｎMapReduce并行编程模型研究综述作者：李建江，崔健，王聃，严林，黄义双， LI Jian-jiang， CUI Jian， WANG Dan， YAN Lin， HUANG Yi-shuang作者单位：李建江,崔健,王聃,严林,LI Jian-jiang,CUI Jian,WANG Dan,YAN Lin(北京科技大学计算机与通信工程学院计算机科学与技术系,北京,100083)，黄义双,HUANG Yi-shuang(中国石油化工股份有限公司勘探南方分公司研究院,四川成都,610041)刊名：电子学报英文刊名：Acta Electronica Sinica年，卷(期)：2011,39(11)本文链接：/Periodical_dianzixb201111026.aspx。

基于SPark的并行遗传算法研究

基于SPark的并行遗传算法研究作者：余涛刘泽檠来源：《计算机时代》2017年第01期摘要：当前Spark分布式编程框架由于内存计算得到了快速发展，相对于传统MapReduce 并行编程模型在迭代运算上有明显优势。

针对串行遗传算法处理大规模问题能力有限的现状，提出了一种基于Spark平台的粗粒度并行遗传算法（sPGA）。

该方法利用Spark框架并行实现了遗传算法的选择、交叉和变异操作，并对并行操作算子的性能进行了分析，优化了算法并行化实现方案，极大地提高了遗传算法全局搜索效率。

实验结果表明，新的并行遗传算法在收敛速度上有显著的提高，能够很好地提高优化效率。

关键词：Spark；RDD；并行遗传算法；多目标优化；大规模变量中图分类号：TP18文献标志码：A文章编号：1006-8228（2017）01-43-030.引言遗传算法是一种模拟生物进化的随机学习方法，主要包括选择、交叉和变异三种遗传操作。

面对大规模复杂优化问题时，遗传算法的寻优时间长，所以有人提出了并行遗传算法，主要将遗传算法的天然并行性跟并行编程模型相结合，加快搜索优化过程。

近年来，机器学习领域的众多专家做了许多加快并行遗传算法寻优速度的研究和探索。

郭肇禄在并行遗传算法中提出了自适应迁移策略，降低了通信开销。

李建明等人实现了一种基于GPU的细粒度并行遗传算法，抑制了种群的早熟，提高了搜索效率。

Verma A等人则从数据处理规模的角度实现了MapReduce跟遗传算法的结合。

这些基于GPU或者MapReduce实现的并行遗传算法，虽然取得了一定的进展，但是GPU可扩展能力欠佳，MapReduce的迭代速度较慢，这些缺陷都制约了并行遗传算法对大规模复杂优化问题的快速求解。

近期快速发展的Spark并行计算引擎能够提供内存计算机制，被普遍认为是下一代大数据并行处理框架，但是基于Spark计算模型实现并行遗传算法需要尝试不同的Spark算子和参数来对比分析其性能。

遗传算法的并行实现

遗传算法的并行实现章衡 2007310437一、问题描述遗传算法是通过模拟自然界生物进化过程来求解优化问题的一类自组织、自适应的人工智能技术。

它主要基于达尔文的自然进化论和孟德尔的遗传变异理论。

多数遗传算法的应用是处理一个由许多个体组成的群体，其中每个个体表示问题的一个潜在解。

对个体存在一个评估函数来评判其对环境的适应度。

为反映适者生存的思想，算法中设计一个选择机制，使得：适应度好的个体有更多的机会生存。

在种群的进化过程中，主要存在两种类型的遗传算子：杂交和变异。

这些算子作用于个体对应的染色体，产生新的染色体，从而构成下一代种群中的个体。

该过程不断进行，直到找到满足精度要求的解，或者达到设定的进化代数。

显然，这样的思想适合于现实世界中的一大类问题，因而具有广泛的应用价值。

遗传算法的每一次进化过程中的，各个体之间的操作大多可以并列进行，因此，一个非常自然的想法就是将遗传算法并行化，以提高计算速度。

本报告中试图得到一个并行遗传算法的框架，并考察并行化之后的一些特性。

为简单起见（本来应该考虑更复杂的问题，如TSP 。

因时间有些紧张，请老师原谅），考虑的具有问题是：对给定的正整数n 、n 元函数f ，以及定义域D ，求函数f 在D 内的最大值。

二、串行遗传算法 1．染色体与适应度函数对函数优化问题，一个潜在的解就是定义域D 中的一个点011(,,...,)n x x x -，因此，我们只需用一个长度为n 的实数数组来表示一个个体的染色体。

由于问题中要求求函数f 的最大值，我们可以以个体所代表点011(,,...,)n x x x -在f 函数下的值来判断该个体的好坏。

因此，我们直接用函数f 作为个体的适应度函数。

2．选择机制选择是遗传算法中最主要的机制，也是影响遗传算法性能最主要的因素。

若选择过程中适应度好的个体生存的概率过大，会造成几个较好的可行解迅速占据种群，从而收敛于局部最优解；反之，若适应度对生存概率的影响过小，则会使算法呈现出纯粹的随机徘徊行为，算法无法收敛。

大讲台分享：五种基于MapReduce的并行计算框架介绍及性能测试讲解

大讲台分享：五种基于MapReduce 的并行计算框架介绍及性能测试当使用 Hadoop 技术架构集群，集群内新增、删除节点，或者某个节点机器内硬盘存储达到饱和值时，都会造成集群内数据分布不均匀、数据丢失风险增加等问题出现。

本文对 HDFS 内部的数据平衡方式做了介绍，通过实验案例的方式向读者解释内部数据平衡的解决办法。

并行计算模型和框架目前开源社区有许多并行计算模型和框架可供选择，按照实现方式、运行机制、依附的产品生态圈等可以被划分为几个类型，每个类型各有优缺点，如果能够对各类型的并行计算框架都进行深入研究及适当的缺点修复，就可以为不同硬件环境下的海量数据分析需求提供不同的软件层面的解决方案。

•并行计算框架并行计算或称平行计算是相对于串行计算来说的。

它是一种一次可执行多个指令的算法，目的是提高计算速度，以及通过扩大问题求解规模，解决大型而复杂的计算问题。

所谓并行计算可分为时间上的并行和空间上的并行。

时间上的并行就是指流水线技术，而空间上的并行则是指用多个处理器并发的执行计算。

并行计算（Parallel Computing）是指同时使用多种计算资源解决计算问题的过程，是提高计算机系统计算速度和处理能力的一种有效手段。

它的基本思想是用多个处理器来协同求解同一问题，即将被求解的问题分解成若干个部分，各部分均由一个独立的处理机来并行计算。

并行计算系统既可以是专门设计的、含有多个处理器的超级计算机，也可以是以某种方式互连的若干台的独立计算机构成的集群。

通过并行计算集群完成数据的处理，再将处理的结果返回给用户。

•国内外研究欧美发达国家对于并行计算技术的研究要远远早于我国，从最初的并行计算逐渐过渡到网格计算，随着 Internet 网络资源的迅速膨胀，因特网容纳了海量的各种类型的数据和信息。

海量数据的处理对服务器 CPU、IO 的吞吐都是严峻的考验，不论是处理速度、存储空间、容错性，还是在访问速度等方面，传统的技术架构和仅靠单台计算机基于串行的方式越来越不适应当前海量数据处理的要求。

mapreduce编程模型的实现过程

mapreduce编程模型的实现过程实现MapReduce编程模型的过程包括以下几个步骤：1. 数据划分：将输入数据划分为多个小的数据块，每个数据块称为一个输入分片。

输入分片的大小通常由系统自动确定。

2. Map阶段：在Map阶段中，将输入数据分片传递给多个Map任务。

每个Map任务将输入分片的一部分数据进行处理，并生成中间键/值对（key/value pairs）。

Map任务可以是并行执行的，每个任务都是独立的。

3. Shuffle阶段：在Shuffle阶段中，系统对中间键/值对进行重新排序和分组，以便将相同key的数据发送给同一个Reduce任务。

Shuffle阶段通常涉及网络传输和磁盘读写等操作。

4. Reduce阶段：在Reduce阶段中，将相同key的中间值传递给对应的Reduce任务。

每个Reduce任务对传入的中间值进行处理，并生成最终的输出数据。

Reduce任务可以是并行执行的，每个任务都是独立的。

5. 结果收集与输出：最后，系统将所有Reduce任务的输出结果收集起来，并以适当的形式进行输出，如存储到文件系统中或发送给用户。

实现MapReduce编程模型的具体步骤可以依据所使用的具体框架进行。

例如，Hadoop是一个常用的大数据处理框架，它提供了MapReduce编程模型的实现。

在Hadoop中，可以使用Java编写Map和Reduce函数，并通过Hadoop提供的API来调度和执行MapReduce任务。

此外，还可以使用其他编程语言和框架，如Python和Apache Spark等，来实现MapReduce 编程模型。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

［3 ］
。 MapReduce 模
型是 Google 实验室提出的分布式并行编程模型或框架，它能在普通的 PC 机上构建集群来处理大规模数据集，成为云计算平台主流的并行数据处理模型。Apache 开源社区的 Hadoop 项目用 Java 语言实现了该模型，同时 Hadoop 项目还设计了开放源代码的云计算技术平台
Parallel Implementation of CoarseGrained Parallel Genetic Algorithm with MapReduce model
CHENG Xingguo，XIAO Nanfeng
（ School of Computer Science and Engineering， South China University of Technology，Guangzhou 510006 ，China） Abstract： According to the properties of CoarseGrained Parallel Genetic Algorithm，the article provides a method to implement it based on MapReduce programming model． Firstly，the initial population is divided into a few subpopulations，and each of these subpopulations is maintained by different Tasktracker in which the classical Genetic Algorithm （ GA ），such as fitness calculation，selection， crossover and mutation are executed in Map function，and then some excellent individuals are selected and migrated to other subpopulation in the Partition phase． The experiments on the Hadoop platform indicate this method can not only improve the efficiency of Genetic Algorithm thanks to the high Parallelism of MapReduce model， but also eliminate， to some extent， the problem of early convergence and local optima of classic GA． Key words： genetic algorithm （ GA）； coarsegrained parallel genetic algorithm （ CGPGA）； MapReduce
［6 ］
。它将
随机生成的初始种群依处理器个数分割成若干个较大的子种群，各个子种群在不同的处理器上相互独立地并发执行遗传操作，每经过一定的进化代数，各子种群间再相互交换若干数量的个体，以实现各个子种群的共同进化。对经典遗传算法进行粗粒度并行改进的主要目的是：在不增加适应度计算量的基础上，通过提高种群多样性来提高计算结果。粗粒度并行遗传算法（ CPGA ）可以形式化地定义为一个三元组： CPGA = （ T， G， SGA）式中： T 是进行迁移操作的时间间隔（频率）； G 是迁移操作所交换的个体和信息； SGA 是经典遗传算法（单一种群），它将根据子种群的数量多次重复地执行。粗粒度并行遗传算法的子种群间常用的环行连接结构
基本流程如图 2 所示。
68 重庆理工大学学报
图3
子种群环形连接结构
3
图2 遗传算法流程
粗粒度并行遗传算法的 MapReduce 并
行化实现
粗粒度并行遗传算法进行 MapReduce 的基本思路是：把串行遗传算法的每一次迭代变为一次 MapReduce 操作。其中，在 Map 中完成计算个体适应值、杂交、变异的操作； Reduce 则判断是否满 “是” 足收敛条件，若为则输出结果，否则进入下一次 MapReduce 操作。与普通的 MapReduce 操作不同，在 Map 阶段结束后，粗粒度并行遗传算法 MapReduce 通过 Partition 实现并行化，在子种群间用而其他大部分个体保持环行算法迁移最优个体，独立，如图 4 所示。
传统的遗传算法有两个严重的不足： ① 容易过早收敛； ② 在进化后期搜索效率较低，使得最终搜索得到的结果往往不是全局最优解而是局部最优解，并且该算法不能有效克服过早收敛现象
［5 ］
。
因此，现有的大量研究集中于如何改进传统的遗传进化思想。目前各种改进思想层出不穷，粗粒度模型就是其中的一种。粗粒度模型又称分布式模型（ distributed style）或孤岛模型（ islandbased model ），是适应性最强和应用最广的遗传算法并行化模型
法。将随机生成的初始种群分割成若干个子种群，用 Map 方法实现单个子种群的传统遗传算法。各个子种群在不同的 Node 上相互独立地并发执行个体适应值计算、选择、交叉和变异等操作，在 Partition 环节将每个子群所提取的最优个体迁移到其他子种群中，以实现各个子种群的共同进化。该方法充分利用了 MapReduce 的高度并行性，提高了算法的效率，同时在一定程度上克服了过早收敛和局部最优解问题。关键词：遗传算法; 粗粒度并行遗传算法; MapReduce 文献标识码： A 文章编号： 1674 － 8425 （ 2013 ） 10 － 0066 － 05 中图分类号： TP18
［1 ］
算法的 MapReduce 并行编程实现方法，并进行了相关实验。
1
MapReduce 编程模型
MapReduce 编程模型的基本思路是将大数据
集分解为成百上千的小数据集 splits，每个（或若干个）数据集分别由集群中的 1 个节点（一般是 1 台普通计算机）并行执行 Map 计算任务（指定了并生成中间结果，然后这些中间结果映射规则），又由大量的节点并行执行 Reduce 计算任务（指定了归约规则），形成最终结果。图 1 描述了 MapReduce 的运行机制：在数据输入阶段， JobTracker 获得待计算数据片在 NameNode 上的存储元信息； JobTracker 指派多个 TaskTracker 完在 Map 阶段，成 Map 运算任务并生成中间结果；在 Partition 阶段完成中间结果对 Reducer 的分派；在 Shuffle 阶段完成中间计算结果的混排交换； JobTracker 指派 TaskTracker 完成 Reduce 任务； Reduce 任务完成后通知 JobTracker 与 NameNode 以产生最后的输出结果。MapReduce 详细执行过程如图 1 所示
［7 ］
如图 3 所示。
图4
粗粒度并行遗传算法 MapReduce 的并行化实现
69 程兴国，等: 粗粒度并行遗传算法的 MapReduce 并行化实现 Mapper 和 Re为了保证各个子群独自繁衍， ducer 的节点数量都为 n，同时确保 Mapper i 的数据在对应的 Reducer i 进行处理。待处理的每个个体给予一个子群 key，在 Map 处理过程中，最优个体的 key = （ key + 1 ） mod n，而 Partition 的操作是 key mod n，从而实现最优个体的环形迁移。 3． 1 Map 函数的设计 Map 函数先对子群中的个体进行杂交、变异操作，然后遍历子群，计算其适应值，根据适应值找出子群中的最优个体和最差个体，最优个体用于迁移到下一个子群（ key + 1 ） mod n，而淘汰最差个体。当然，也可以实现迁移若干最优个体，但数量不宜过大，否则会影响子群的差异性。 Map 函数伪代码清单
doi： 10． 3969 / j． issn． 1674－8425（ z）． 2013． 10． 014
粗粒度并行遗传算法的 MapReduce 并行化实现
程兴国，肖南峰
（华南理工大学计算机科学与工程学院，广州 510006 ）摘要：针对粗粒度并行遗传算法的特点，给出了 MapReduce 编程模型实现遗传算法的方
［2 ］
。本文在基于 Hadoop
。
技术的云计算基础平台上研究了粗粒度并行遗传
图1
MapReduce 详细执行过程
相互结合渗透而成的算法，是具有“生成 + 检测 ”
2
粗粒度并行遗传算法
遗传算法（ GA ）是自然遗传学和计算机科学
的迭代过程的搜索算法，即产生、ቤተ መጻሕፍቲ ባይዱ选择优良个体、
［4 ］基因组合（变异）、再产生、再选择、再组合 … ，其
收稿日期： 2013 － 05 － 21 基金项目：国家自然科学基金资助项目（ 61171141 ）；广东省产学研省部合作专项资金资助项目（ 2012B091100448 ）作者简介：程兴国（ 1973 —），男，江西九江人，博士研究生，讲师，主要从事智能算法研究；肖南峰（ 1962 —），男，江西南昌人，博士，博士生导师，主要从事人工智能和仿人机器人研究。

遗传算法并行化的研究.doc

页数:4
设计研究生作业_基于遗传算法优化多元多目标函数的MATLAB实现

页数:8
遗传算法与优化问题

页数:17
粗粒度并行遗传算法的 MapReduce 并行化实现

页数:6
并行遗传算法

页数:8
遗传算法的并行实现

页数:22
遗传算法

页数:81
粗粒度并行遗传算法的MapReduce并行化实现

页数:6
遗传算法的原理及MATLAB程序实现

页数:15
并行遗传算法

页数:5

粗粒度并行遗传算法的 MapReduce 并行化实现

合集下载

基于MapReduce的机器学习并行化研究与实现

mapreduce并行编程原理 -回复

大数据分析领域中基于MapReduce技术的并行处理方法研究

阐述mapreduce并行计算模式

mapreduce并行编程原理

MapReduce并行化

遗传算法的并行实现

人工智能基础(试卷编号1191)

大数据挖掘中的MapReduce并行聚类优化算法研究

mapreduce的实现机制

粗粒度并行遗传算法的 MapReduce 并行化实现

并行计算论文：并行计算大数据处理序列比对MapReduce优化

MapReduce并行编程模型研究综述

基于SPark的并行遗传算法研究

遗传算法的并行实现

大讲台分享：五种基于MapReduce的并行计算框架介绍及性能测试讲解

mapreduce编程模型的实现过程

文档推荐

最新文档