基于多核DSP的OpenMp研究与实现

格式：pdf
大小：587.83 KB
文档页数：8

下载文档原格式

多核多线程技术OpenMP_实验报告2

实验二：OpenMP多线程编程模块一：基础练习3 编译执行，执行结果：简答与思考：1 写出关键的并行代码（1）四个线程各自执行6次迭代。

#include"stdafx.h"#include<omp.h>int _tmain(int argc, _TCHAR* argv[]){printf("Hello World \n");#pragma omp parallel{for(int i=0; i<6; i++){printf("Iter:%d Thread%d\n ",i,omp_get_thread_num());}}printf("GoodBye World\n");return 0;}（2）四个线程协同完成6次迭代。

#include"stdafx.h"#include<omp.h>int _tmain(int argc, _TCHAR* argv[]){printf("Hello World \n");#pragma omp parallel{#pragma omp forfor(int i=0; i<6; i++){printf("Iter:%d Thread%d\n ",i,omp_get_thread_num());}}printf("GoodBye World\n");return 0;}2 附加练习：（1）编译执行下面的代码，写出两种可能的执行结果。

int i=0,j = 0;#pragma omp parallel forfor ( i= 2; i < 7; i++ )for ( j= 3; j< 5; j++ )printf(“i = %d, j = %d\n”, i, j);可能的结果:1种2种i=2，j=3 i=2，j=3i=2，j=4 i=2，j=4i=3，j=3 i=3，j=3i=3，j=4 i=3，j=4i=6，j=3 i=5，j=3i=6，j=4 i=5，j=4i=4，j=3 i=5，j=3i=4，j=4 i=5，j=4i=5，j=3 i=6，j=3i=5，j=4 i=6，j=4（2）编译执行下面的代码，写出两种可能的执行结果。

多核软件开发技术第六讲： OpenMP多线程编程及性能优化

运行时库函数
• OpenMP运行时函数库主要用以设置和获取执行环境相关的信息 • 它们当中也包含一系列用以同步的API
编译指导语句
运行时函数库
环境变量
使用VS 2005编写OpenMP程序
• 当前的Visual Studio .Net 2005完全支持 OpenMP 2.0标准 • 通过新的编译器选项 /openmp来支持 OpenMP程序的编译和链接
循环并行化编译指导语句的子句
• 循环并行化子句可以包含一个或者多个子句来控制循环并行化的实际执行 • 常见子句有：
– 作用域子句 – 控制线程的调度（schedule ）子句 – 动态控制是否并行化（if ）子句 – 进行同步的子句（ordered ）子句 – 控制变量在串行部分与并行部分传递（copyin ）子句
}
循环并行化中的顺序语句（ordered）
• 对于循环并行化中的某些处理需要规定执行的顺序 • 典型的情况：在一次循环的过程中
– 一大部分的工作是可以并行执行的，而其余的工作需要等到前面的工作全部完成之后才能够执行
• 在循环并行化的过程中，可以使用ordered子句使得顺序执行的语句直到前面的循环都执行完毕之后再执行
明确的同步屏障语句
• 在有些情况下，隐含的同步屏障并不能提供有效的同步措施 • 程序员可以在需要的地方插入明确的同步屏障语句 #pragma omp barrier • 在并行区域的执行过程中，所有的执行线程都会在同步屏障语句上进行同步
• #pragma omp parallel
{
initialization（）; #pragma omp barrier process（）;
OpenMP多线程应用程序性能分析

基于OpenMP技术的多核处理器程序的开发实现

通过ＯｅＭ技术，ｐｎＰ只需要在原有程序代码上稍加修改，可以得到多核ＣＵ强大的并行处理能力。就Ｐ
１ＯｅＭｐｎＰ原理
ＯｅＭＰ技术是多家计算机供应商联合开发ｐｎ的、针对共享内存多处理器体系结构的可移植并行编程模型。它采用分叉一合并的并行执行模式。当
第９卷第１期
２１００年１月
北京工业职业技术学院学报
ＪＵＮＬＯＥｉＧＰＬｆＣＮＣＯ正ＥＯＲＡＦＢＩＮＯＹ＇ＨＩＣＵＧｊＩＥ
Ｎ．１Ｖｏ．ｏ１９
Ｊｎ２０ａ．０ｌ
基于ＯｅＭｐｎＰ技术的多核处理器程序的开发实现
பைடு நூலகம்
线程遇到并行构造时，就会创建由其自身及其他一
些额外线程组成的线程组。遇到并行构造的线程成
为新组中的主线程，中的其他线程称为组的从属组线程。所有组成员都执行并行构造内的代码。如果
作者简介：洪迪（９２）女，孙１８一，山东高密人，助理讲师，主要从事计算机网络应用方面的教学及研究工作。
Ｋｅｙｗｏｒｄｓ：ｍｕｔｌｉ—ｃｒｒｃｓｏｓ；ａａｌｌｚｔｎ；ｅＭＰｅｈｏｏｙｏｅｐｏｅｓｒｐｒｌｅｉａｉｏＯｐｎｔｃｎｌｇ
０引言
近年来，Ｐ中央处理器）飞速的发展，断ＣＵ（在不的有主频更高、理能力更强的新产品问世，处而如今主频之路已经走到了拐点。控制ＣＵ电压和发热Ｐ量成为限制提高ＣＵ主频从而提高ＣＵ计算能力ＰＰ的最大障碍。面对主频之路走到尽头，具实际意最

基于OpenMP技术的多核处理器程序的开发实现

基于OpenMP技术的多核处理器程序的开发实现孙洪迪;高柱【摘要】随着多核处理器的日益普及,应用程序能够充分地利用多核处理器的处理能力成为编程的重点.介绍了OpenMP技术的实现机制、使用方法、编程过程中常遇到的问题以及OpenMP技术的优点和缺陷.【期刊名称】《北京工业职业技术学院学报》【年(卷),期】2010(009)001【总页数】4页(P19-22)【关键词】多核处理器;并行化;OpenMP技术【作者】孙洪迪;高柱【作者单位】北京工业职业技术学院,北京100042;目标软件(北京)有限公司,北京100083【正文语种】中文【中图分类】TP311.110 引言近年来,CPU(中央处理器)在飞速的发展,不断的有主频更高、处理能力更强的新产品问世,而如今主频之路已经走到了拐点。

控制 CPU电压和发热量成为限制提高CPU主频从而提高 CPU计算能力的最大障碍。

面对主频之路走到尽头,最具实际意义的方式是增加 CPU内处理核心的数量。

多核 CPU目前市场上已经比较普及了,如何让我们写的程序最大限度的在多核CPU上得到性能的提升,本文将介绍一种解决方案,即 OpenMP技术。

通过OpenMP技术,只需要在原有程序代码上稍加修改,就可以得到多核 CPU强大的并行处理能力。

1 OpenMP原理OpenMP技术是多家计算机供应商联合开发的、针对共享内存多处理器体系结构的可移植并行编程模型。

它采用分叉 -合并的并行执行模式。

当线程遇到并行构造时,就会创建由其自身及其他一些额外线程组成的线程组。

遇到并行构造的线程成为新组中的主线程,组中的其他线程称为组的从属线程。

所有组成员都执行并行构造内的代码。

如果某个线程完成了其在并行构造内的工作,它就会在并行构造末尾的隐式屏障处等待。

当所有组成员都到达该屏障时,这些线程就可以离开该屏障了。

主线程继续执行并行构造之后的用户代码,而从属线程则等待被召集加入到其他组。

因此,大部分的OpenMP线程都在第一次使用线程的时候将其创建,并在整个程序中重复的被使用。

OpenMP的应用与实现

OpenMP的应用与实现OpenMP的应用与实现随着计算机技术的不断发展，程序员们需要在更短的时间内开发出更高效、更快速的程序，以满足现代科学和工程领域对计算的需求。

在多核处理器和集群系统的背景下，一种新的编程技术——OpenMP，应运而生。

OpenMP为C、C++和Fortran等语言提供了一种简单而有效的方式来并行化应用程序，可显著加速程序的执行速度。

本文将介绍OpenMP的应用与实现。

一、OpenMP的基本概念OpenMP是一种可移植、可扩展的共享内存并行编程技术，被广泛用于高性能计算应用中。

它可以在现有的串行代码中添加共享内存并行性，从而提高程序的效率。

OpenMP采用指令集合作，程序员可以通过在应用程序中添加特定的OpenMP指令，来控制并行执行的细节。

这些指令将告诉编译器如何将串行代码并行化。

OpenMP的并行模型是基于线程的共享内存模型。

线程是程序执行的最小单元，可以实现不同的计算任务同时运行。

OpenMP使用共享内存模型，即多个线程可以访问同一块内存，从而实现数据的共享。

为了保证数据的安全性，OpenMP提供了同步机制，可以保证共享资源的一致性和正确性。

二、OpenMP指令OpenMP定义了一系列指令，用于控制多线程的创建、同步和运行。

下面是一些常用的OpenMP指令：1. #pragma omp parallel该指令用于创建一个并行区域。

在这个区域内所有指令都会被多个线程执行。

当线程遇到这个指令时，会创建一个线程队列，然后每个线程会执行这个指令块内的内容。

2. #pragma omp for该指令用于循环并行化。

在多核处理器或者集群系统中，循环的迭代次数可以分配给不同的线程来并行执行，从而加速程序的执行速度。

3. #pragma omp sections该指令用于将代码分成多个段，每个段可以由不同的线程执行。

4. #pragma omp critical该指令用于保证在同一时间只有一个线程可以执行指定的代码块。

基于多核集群的MPI+OpenMP混合并行编程模型研究

并行硬件体系的不断发展对软件开发人员相应的提出了新的挑战为了应该这种新挑战计算机科学家们经过不断的努力提出了许多并行编程模型其中对这些系统最方便的编程方法就是忽略混合的内存系统而使用一种消息传递编程模型对于大多数系统这是一种合理的策略因为大多数利用消息传递接口01/2*3,4库的开发人员可以利用一个节点内的共享内存并且可以优化节点内的通信这样一来开发人员可以通过单个标准的编程模式给应用程序提供好的性能然而也有一些其他的编程
模式包括共享内存 .5671/*8,-99*(,/:;<6=>*$, 消息传递 /?1*@,数据并行 A/B*C,1=5D6>EF6*",等
在诸多的并行编程模式中目前比较流行的是基于分布式内存的 1/2 和基于共享内存的 .567 1/ 关于这方面的研究已经有许多丰硕的成果文献*+&G+',主要研究了 1/2H.5671/ 混合编程模式并用许多基准程序对这种混合编程模式在诸如包括 IJ2KL:MN8@&&2915(@(H和 IJ2KL:MN2OPC%&&PQ 等各种计算机平台上做了相应的性能测试经过测试表明利用这种混合编程模式比单纯使用 1/2 可以得到更好的性能文献*+&,中还提出了对 .5671/ 的一种扩展文献*+3,中除了研究 1/2.5671/ 并行编程模式外主要介绍了目前非常流行的针对 J/R 加速的 ORSK 编程模型通过将 O/R 加速效果通 J/R 加速效果比较得知在计算密集型的应用中利用 J/R 加速比 O/R 能够取得更加好的效果

OpenMP在多核处理器上的应用研究

Computer Science and Application 计算机科学与应用, 2014, 4, 175-180Published Online September 2014 in Hans. /journal/csa/10.12677/csa.2014.49025The Application Research of OpenMP onMulticore ProcessorsXiaoping Wang, Xiucheng Dong, Weicheng XieSchool of Electrical and Information Engineering, Xihua University, ChengduEmail: sichuanwww@Received: Jul. 6th, 2014; revised: Aug. 6th, 2014; accepted: Aug. 15th, 2014Copyright © 2014 by authors and Hans Publishers Inc.This work is licensed under the Creative Commons Attribution International License (CC BY)./licenses/by/4.0/AbstractMulticore operating system is superior in assigning and scheduling the general processes, but it is unsatisfying in processing parallel data of the application layer. We study the characteristics of OpenMP and propose a mechanism for the development of application-layer multi-core parallel program. We conduct a comprehensive study and compare its performance. Our experimental re-sults show that the mechanism is convenient and flexible to control the multicore parallel granu-larity of data, take advantage of multicore computing resources, and enhance the real-time of ap-plications. To the ten million of computation, there are greater improvements in running time: the ratio is 0.5:1 between the dual-core and the non-parallel systems; the ratio is 0.38:1 between the quad-core and the non-parallel systems; the ratio is 0.19:1 between the eight-core and the non- parallel systems; the ratio is 0.14:1 between the sixteen-core and the non-parallel systems.KeywordsMulticore Programming, Parallel Computing, OpenMPOpenMP在多核处理器上的应用研究王孝平，董秀成，谢维成西华大学电气信息学院，成都Email: sichuanwww@收稿日期：2014年7月6日；修回日期：2014年8月6日；录用日期：2014年8月15日摘要多核操作系统在解决通用进程的分配和调度等宏观问题上表现优越，而对于应用层的多核数据并行计算没有做到精确控制。

多核微机基于OpenMP的并行计算

多核微机基于OpenMP的并行计算
蔡佳佳;李名世;郑锋
【期刊名称】《计算机技术与发展》
【年(卷),期】2007(017)010
【摘要】随着四核微机走向市场和八十核处理器在实验室研制成功,多核正引领软件研发发生基础性变化.开发人员需要在代码中添加线程来利用系统所提供的多个内核,从而提升PC应用软件的功能和性能.文中探讨在多核微机上进行并行计算的实现技术.介绍了共享存储系统并行编程接口OpenMP的模型、指令和库函数,以及Intel C++编译器9.1和Microsoft Visual Studio 2005等对OpenMP的支持;着重探讨了二维离散快速傅里叶变换并行算法的设计、实现与优化技术;展望了高性能并行计算软构件库的开发前景.
【总页数】5页(P87-91)
【作者】蔡佳佳;李名世;郑锋
【作者单位】厦门大学,计算机科学系,福建,厦门,361005;厦门大学,计算机科学系,福建,厦门,361005;厦门大学,计算机科学系,福建,厦门,361005
【正文语种】中文
【中图分类】TP301.6
【相关文献】
1.基于OpenMP并行计算的匹配追踪时频分析方法 [J], 邓世广;王淑艳;赵文津;刘志伟;何润
2.基于OpenMP一维CSAMT正演并行计算研究 [J], 黄浩;欧东新
3.基于OpenMP和OpenCV的归一化植被指数并行计算研究 [J], 左宪禹;商东东;李贝贝;熊明豪;黄祥志;;;;;;;;;
4.基于OpenMP的多地电模型的并行计算方法——以一维大地电磁测深法为例[J], 杨泽宇; 佟铁钢
5.基于OpenMP的旋翼气动噪声并行计算 [J], 任明霞;杨爱明
因版权原因，仅展示原文概要，查看原文内容请购买。

基于OpenMP的并行求和算法的研究与分析

基于OpenMP的并行求和算法的研究与分析【摘要】目前几乎所有主流CPU厂商都致力于大力发展多核处理器，增加芯片支持的并行能力，从而提升计算机运算速度。

本文主要探讨近来流行的多核计算技术，介绍一种重要的工业标准OpenMP，以及通过一个基于OpenMP的并行求和的简单例子来分析和说明并行计算效率与传统串行计算效率比较的优势。

【关键词】多核处理；并行求和算法；多线程；OpenMP0.引言多核技术始终是近年来全球计算机技术发展的重要内容。

自从英特尔在2006年底发布了全球第一基于OpenMP的并行遗传算法探讨397款主流服务器四核处理器后，英特尔一直致力于推动多核应用生态系统的成熟与发展。

实际上，从2002年推出超线程技术开始，英特尔就开始了向多核技术转型的步伐。

最终，英特尔公司将四个计算“大脑”装入一枚处理器中，随着至强5300的诞生，计算机行业宣告正式进入了多核时代。

多核计算将成为一种广泛普及的计算模式，影响企业和消费者用户的使用模式。

如目前的服务器应用，要求高的吞吐率和在多处理器上的多线程应用；Internet的应用、P2P和普适计算的应用都促使了计算机性能的不断提升。

大型企业的ERP、CRM等复杂应用，科学计算、政府的大型数据库管理系统、数字医疗领域、电信、金融等都需要高性能计算，多核技术可以满足这些应用的需求。

1.OpenMPOpenMP是一种适用于多种硬件平台的共享存储编程的工业应用标准，提供了一个可用的编程模型，具有简单、可移植性和可扩展性，灵活支持多线程和负载平衡的潜在能力，目前支持Fortran语言，c和c++。

OpenMP规范中定义的制导指令、运行库和环境变量，能够在保证程序可移植性的前提下，按照标准将已有的串行程序逐步并行化。

OpenMP论文：多核并行插值算法的研究

OpenMP论文：多核并行插值算法的研究【中文摘要】目前多核计算机已经普及,多核的意义在于其超高的多任务处理能力。

然而多核计算机仅仅提供了一个可以更高效工作的平台,如何实现更高效地运算的关键还是将程序并行化。

采用多核并行算法可以突破物理极限的约束,以较低的投入完成大计算量的任务,能够满足人们对更高性能的需求。

在并行程序设计领域,共享存储工业标准OpenMP因其简单易用,而且开发周期较短,并行效率较高等优点,在多核体系结构的并行编程中得到了广泛的应用。

插值法具有广泛的应用背景和实用价值,被应用于外形设计、图像重建、现代土木、天文学以及水利等许多与科学计算相关的领域。

关于插值的理论与应用方面的研究一直是极受关注的重要课题。

随着科技的发展,对插值问题的求解速度也提出了极高的要求,因此学者们开始研究各种加快插值问题求解速度的方法,多核计算机的出现为其提供了一个更加有效的途径。

本文研究了三次样条插值和双线性插值算法,针对三次样条插值过程中因需求解大量的三对角方程组而运算量大、运行速度慢的问题,提出了一种加速三次样条插值计算的方法。

解三对角方程组的并行算法有矩阵分解法、循环约化法、递推耦合法等,本文选择比较适合于多核环境的奇偶约化法进行并行化。

通过实验结果的加速比对比,证明本并行算法加快了求解三对角方程组的速度,从而减少了求解样条插值问题的时间。

其次针对目前一些特殊场合实时图像处理的需要,对常用的图像插值算法进行了比较分析,研究了双线性插值算法的计算过程及数据相关性,提出了基于OpenMP的双线性插值多核并行算法,并通过在图像放大处理中的应用,证明了此并行算法的有效性及可行性。

本文验证了并行程序设计理论与多核平台相结合提高插值问题速度的优越性,具有重要的现实意义和使用价值,达到了研究的。

【英文摘要】At present multi-core computers are widespread.The significance of multi-core lies in its high multi-tasking capability.However,multi-core only provides a platform for more efficient work, the key of how to achieve more efficient operation is to parallel the programs. Multi-core parallel algorithms can break the constraints of physical limit,complete large calculating tasks in lower investments and can meet the demand of higher performance.In parallel programming field,the industry standard of shared memory OpenMP is ease to use,its development cycle is shorter and parallel efficiency is higher.It is widely used inmulti-coreparallel programming. Interpolation has widely practical background and value,be used to shape design, image reconstruction,modern civil,astronomy,water calculation and many other science-related fields.The research about interpolation theory and application is an important subject always be great concerned.With the development oftechnology,requirements about resolving interpolation speed also be proposed,scholars began to study variety interpolation methods to accelerate resolve speed, the emergence ofmulti-core provides a more effective way.This paper studies cubic spline interpolation and bilinear interpolation algorithm. Because in cubic spline interpolation processing demands resolving tridiagonal equations,so has many operations and running slowly,proposes a method of resovling cubic spline interpolation acceleratly.The parallel algorithm of solving tridiagonal equations has matrix decomposition,cyclic reduction,recursive coupling,etc.This paper chooses odd-even reduction method to parallelization,because it is suitable for multi-core environment.Through compare with the speedup ratio,proves this parallel algorithm can resolve tridiagonal equations acceleratly,then reduce the time of resolving spline interpolation.Secondly,according to some special occasion’s demands of real-time image processing,contrasts common image interpolation algorithm,researches the calculating process and data dependency of bilinear interpolation algorithm.The paper raises the bilinear interpolation multi-core parallel algorithm based on OpenMP.Through apply in the image zooming processing,indicates that the algorithm is effective andfeasible.This paper verifies the advantage of combining parallel programming theory with multi-core platform to enhance the interpolation speed.It has realistic significance and the value of use,achieving the purpose of the research.【关键词】OpenMP 多核CPU 并行算法插值【英文关键词】OpenMP multi-core parallel algorithm interpolation【目录】多核并行插值算法的研究摘要3-4Abstract41 绪论7-111.1 研究背景和意义7-81.1.1 硬件平台的多核趋势71.1.2 多核并行编程的意义7-81.2 研究现状8-91.3 本文主要工作及组织结构9-112 多核并行计算11-192.1 并行机体系结构11-132.2 并行算法13-162.2.1 数据相关性13-142.2.2 并行算法设计方法142.2.3 并行算法性能度量14-162.3 并行编程环境16-172.3.1 共享存储编程环境162.3.2 分布存储编程环境16-172.4 多核技术17-192.4.1 多核处理器硬件结构17-182.4.2 多核并行设计模式182.4.3 多核编程面临的挑战18-193 插值的基本理论19-233.1 插值概念19-203.2 插值算法20-213.3 插值的应用21-234 OpenMP 多核程序设计23-304.1 OpenMP 并行编程基础23-254.1.1 OpenMP 编译指导语句23-244.1.2 OpenMP 任务调度24-254.1.3 OpenMP 常用库函数254.2 OpenMP 性能优化25-274.2.1 影响OpenMP 程序性能的因素25-264.2.2 提高OpenMP 程序性能的方法26-274.3 编译环境的设置27-304.3.1 Microsoft Visual Studio27-284.3.2 VC6.0＋Intel编译器28-305 三次样条插值多核并行算法30-375.1 三次样条插值函数的定义305.2 三次样条插值函数的构造30-315.3 求解三对角方程组31-355.3.1 串行追赶算法32-335.3.2 奇偶约化并行算法33-355.4 实验结果分析35-365.5 小结36-376 双线性插值图像放大多核并行算法37-436.1 图像放大37-386.2 常用算法38-396.3 双线性插值原理396.4 并行算法设计与实现39-416.5 实验结果分析41-426.6 小结42-43结论43-44参考文献44-47攻读硕士学位期间发表学术论文情况47-48致谢48。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Journal of Image and Signal Processing 图像与信号处理, 2016, 5(4), 147-154 Published Online October 2016 in Hans. /journal/jisp /10.12677/jisp.2016.54017文章引用: 张琪, 王正勇, 余艳梅. 基于多核DSP 的OpenMp 研究与实现[J]. 图像与信号处理, 2016, 5(4): 147-154.Research and Realization of OpenMp Based on Muiticore DSPQi Zhang, Zhengyong Wang, Yanmei YuImage Information Institute, College of Electronics and Information Engineering, Sichuan University, Chengdu SichuanReceived: Sep. 18th , 2016; accepted: Oct. 4th , 2016; published: Oct. 7th, 2016Copyright © 2016 by authors and Hans Publishers Inc.This work is licensed under the Creative Commons Attribution International License (CC BY)./licenses/by/4.0/AbstractAiming at the complexity of multicore model in practical application, the three major models of data flow, master-slave and OpenMp are analyzed in this paper. Because the OpenMp model is easier to be implemented, it is taken as the major research object. Firstly, the implementation principle of OpenMp model is studied; the time consumed by the thread creation and task parti-tioning in the nested loop of the OpenMp model is analyzed in this paper. Then, the relationship between the core number and the number of threads in the OpenMp model is also studied. Finally, taking TMS320C6678 multi-core DSP of TI Company as the core processor, a simple image processing algorithm is used to verify the conclusions drawn from the above research. The results of test have proved OpenMp model when the number of threads is equal to the core number shortest execution time.KeywordsTMS320C6678, OpenMp, Linear Assembly, Threads Scheduling基于多核DSP 的OpenMp 研究与实现张琪，王正勇，余艳梅四川大学电子信息学院图像信息研究所，四川成都收稿日期：2016年9月18日；录用日期：2016年10月4日；发布日期：2016年10月7日张琪等摘要针对目前在实际应用场景中多核模型的复杂性，本文在分析了数据流、主从、OpenMp三大多核模型后，选取其中更易实现的OpenMp模型作为主要研究对象。

本文研究了OpenMp模型的实现原理，对多核模型OpenMp在嵌套循环中的线程创建以及任务划分所消耗的时间进行了分析，然后研究了OpenMp模型的核数和线程数之间的关系，最终以TI公司的多核DSP TMS320C6678为核心处理器，使用典型的图像处理算法对在以上研究中得出的结论进行了验证。

经测试，OpenMp模型在线程数等于核数时执行时间最短。

关键词TMS320C6678，OpenMp，线性汇编，线程调度1. 引言随着社会的发展，摩尔定律预言的半导体发展在2013年年底开始逐渐放缓，于是单芯片多处理器的解决方案成为改善处理器性能的一个重要方向，使用多核处理器已经成为一种趋势，但对于多核DSP处理器而言，主从模型、数据流模型、OpenMp模型是现在多核DSP处理器的三大主要并行程序处理模型。

其中主从模型是以主核作为控制核心，从核在主核的调度下完成任务处理，从核之间工作相互独立，即如果其中一个核停止工作，不会影响其他核的执行；数据流模型是一个线性的处理模型，其工作方式按流水线的方式依次串行处理；OpenMp则是由一个主线程开始，程序中的串行部分由主线程完成，并行的部分是由派生的其他线程来执行，但是如果并行部分没有结束，则不会执行后面的串行部分。

比较主从模型、数据流模型和OpenMp模型这三种方式，主从模型、数据流模型较为复杂，并且为了考虑负载的平衡，需要考虑算法处理时间的协调、任务的合理分割以及映射核的处理，而OpenMp使用就相对来说简单一些，大多数情况下只需要考虑该循环数据上的相关性，然后在其循环前面加上OpenMp的相关指令，就可以实现并行，这就降低了并行编程的难度和复杂度[1]。

文献[2]利用OpenMp 对HEVC进行解码，但是没有深入分析核数和线程数的关系，文献[3]分析了在不同处理平台下核数和线程数对处理速度的影响，但是没有针对具体算法进行验证。

因此本文基于TMS320C6678硬件平台、采用OpenMp模型、以图像处理中值滤波作为分析验证，分析了多核多线程的调度，然后以512 × 512的椒盐噪声图片为素材，采用3 × 3的滤波模板实现了图片的去噪。

实验结果表明，在TMS320C6678 (1 Ghz 8核)上经过各种优化后得到处理的平均时间为34.5 ms；比较多核DSP的单核处理时间与八核处理时间，得出在TMS320C6678上使用OpenMp实现中值滤波算法加速达到7.88倍。

2. TMS320C6678介绍多核定点浮点信号处理器TMS320C6678是基于KeyStone多核架构，整合了8个C66x核，每个核的频率可以运行在1.0 GHz到1.25 GHz，提供每秒高达40 GB MAC定点运算和20 GB FLOP浮点运算能力，可在10 W功耗下实现160GFLOP (Giga-Floating Point Operation per Second)浮点计算性能[4]。

因此TMS320C6678非常适用于高速信号处理领域，如医学成像，虚拟现实以及人工智能等。

此外，C66x核DSP也是TI第一款支持OpenMp API的多核DSP [5]。

张琪等3. OpenMp介绍OpenMp是由OpenMP Architecture Review Board开始提出的，是用共享内存并行系统的多线程程序设计的一套指导性的编译处理方案(Compiler Directive)，并且已经被广泛采用。

OpenMP支持的编程语言包括C、C++和Fortran [6]，支持OpenMp的编译器包括Sun Compiler、GNU Compiler和Intel Compiler 等。

OpenMp提供了对并行算法的高层抽象描述，程序员通过在源代码中加入专用的pragma来指明自己的意图，由此编译器可以自动将程序进行并行化，并在必要之处加入同步互斥以及通信信号。

当选择忽略这些pragma，或者编译器不支持OpenMp时，程序又可退化为通常的程序(一般为串行)，代码仍然可以正常运作，只是不能利用多线程来加速程序执行。

OpenMp的实现是基于fork-join模型的，主线程顺序执行，当主线程遭遇并行区域时，分配的子线程按照任务各自执行，直到并行区域结束[7]，主线程处理流程如图1所示。

在C/C++中，OpenMP指令使用的格式为：#pragma omp 指令 [子句[子句]…]其中常用指令如表1所示。

其中常用字句如表2所示。

其中常用调度类型如表3所示。

4. OpenMp的并行分析4.1. OpenMp在嵌套循环中的分析在图像处理领域中，for循环扮演着不可或缺的角色，而本文OpenMp也是主要针对for循环进行展开的，实际处理中OpenMp指令在for循环中位置不同，程序执行的方式也会随之不同，图2为OpenMp 针对for循环的两种表现形式。

图2(a)这种放置位置表示把最外层的for循环进行并行处理，即对循环变量i进行线程创建以及线程分配，假设其创建线程花费时间为a，线程分配花费时间为b，则其花费的总时间为a + b，图2(b)表示把嵌套里面的for循环进行并行处理，即对循环变量j进行线程创建以及线程分配，那么其花费的总时间为i × (a + b)，显然i × (a + b) > a + b；在某些处理的时候还需要对特定变量进行写保护，即有且只能让一个线程去操作该变量，但是由于每个核派生的任务不一样，造成执行完任务的时间也会不相同，所以当操作该变量时可能需要等待，那么这也导致程序执行效率降低。

图1. OpenMp主线程处理流程张琪等Table 1. Commonly used instructions表1. 常用指令Parallel 表示这段代码将被多个线程并行执行For 一般用在for循环之前，表示将循环分配到多个线程中并行执行；也可以与parallel for相结合，表示for循环的代码将被多个线程并行执行Sections 一般用在可能会被并行执行的代码段之前Critical 一般用在代码的临界区之前Table 2. The commonly used words表2. 常用字句Private 表示每个线程都拥有自己的变量私有副本Schedule 表示如何调度for循环迭代Shared 表示一个或多个变量将成为多个线程间的共享变量Table 3. Commonly used scheduling type表3. 常用调度类型Dynamic 循环变量区域分为n等份，某个线程执行完1份之后再执行其他需要执行的那一份任务Guided 循环变量区域由大到小分为不等的n份，运行方法类似于dynamicRuntime 在运行时使用上述三种调度策略中的一种，默认是使用staticStatic 循环变量区域分为n等份，每个线程平分n份任务(a) (b)Figure 2. Two kinds of forms of OpenMp in view of the for loop图2. OpenMp针对for循环的两种表现形式4.2. OpenMp中关于线程数与核数的分析当使用OpenMp模型时，还应该对其核数与线程数加以考虑，假设在一个任务中，其核数为m，线程数为n，当m > n时，即核数大于线程数，那么操作系统在分配线程时，将存在一些核分配不到线程，而造成核出现饥饿状态；当m < n时，即核数小于线程数，那么操作系统在分配线程时，将存在一些线程由于核数不够导致其出现等待状态；综上，我们可以得出当线程数等于核数时，即没有线程等待，也没有核出现饥饿，即一个核执行一个线程。

基于多核DSP的OpenMp研究与实现

合集下载

多核多线程技术OpenMP_实验报告2

多核软件开发技术第六讲： OpenMP多线程编程及性能优化

基于OpenMP技术的多核处理器程序的开发实现

基于OpenMP技术的多核处理器程序的开发实现

OpenMP的应用与实现

基于多核集群的MPI+OpenMP混合并行编程模型研究

OpenMP在多核处理器上的应用研究

多核微机基于OpenMP的并行计算

基于OpenMP的并行求和算法的研究与分析

OpenMP论文：多核并行插值算法的研究

文档推荐

最新文档