程序切片技术在软件测试中的应用.pdf

格式：pdf
大小：309.20 KB
文档页数：5

下载文档原格式

无定型程序切片研究与应用

陈春晓片研究与应用
（汕头大学计算机系，汕头
５５６）１０３
（ｅａｔｅｔｏｏｐｔｒＳｉｎｅａｄＴｃｎｌｇ，ＳａｔｕＵｉｅｓｔ，Ｓａｔｕ５６）ＤｐｒｍｎｆＣｍｕｅｃｅｃｎｅｈｏｏｙｈｎｏｎｖｒｉｙｈｎｏ１０３５
ｅｎｇｉｅｒｇｎｅｉｎａｎｓｏｄｏｎ・Ｉｔｈｐｐｎｉｓａｅｒ，ｉｔｋｓｔａｌａｂｔｈｅｏｎｅｐｔｏｎ，ａｌｏｒｉｈｏｕｔｃｃｉｇｔｍａａｎｄｐｐｌｃｔｉａｒｐｈｕｓｉａｏｎｏｆｍｏｏ
中图分类号：Ｔ３１Ｐｌ文献标识码：Ａ文章编号：１７ — ７２（０７３００ — ２４９一２０）— ０９０６１
ＡｂｔａｔＰｏｒｍＳｉｉｇｉｎｉｐｒａｔｔｃｎｑｅｉｒｇａｎｙｉ，ａｄｉｓｂｏｄｙａｐｉｄｊａｙｓｒｃ＇ｒｇａｌｎｓａｍｏｔｎｅｈｉｕｎｐｏｒ．ｃｍａａｌｓｓｎｔｉｒ．ｌｐｌｅｍｎａｎ
维普资讯
无
定型
程
序
ＲｓａｃｎｐＩｃｔＯｆＡｏｐｏｓＰｏｒｍＳｃｅｈｉｕｅｅｒｈａｄＡｐａｉｎｏｍｒｈｕｒｇａ１ｅＴｃｎｑｅｉｉ
一
用。
１程序切片的基本概念程序切片的概念最早由Ｍｒｅｓｔ在其博士论文中ａｋＷｉｅ提出，被作为程序在人脑中的一种智力抽象，是对原程序语句的剪裁或者过滤。通过计算，人们得到其中只与兴趣点相关的部分，而不去管其余的部分。这样就得到了一个比原程序要小的语句集合，大大减少了开发人员的工作负担，从而提高效率并避免出错。切片准则（ｌｃｎｒｔｒｏ）Ｓｉｉｇｃｉｅｉｎ是进行切片的依据，是个由语句位置和感兴趣变量组成的二元组。程序切片是根据切片准则对原程序进行删减操作得到语义匕等价的语句集

02软件测试方法2-黑盒测试

19
第2章软件测试方法章
2.8单元测试方法 2.8单元测试方法
2.8.1黑盒测试黑盒测试
2.8.1.2等价类划分等价类划分例子2：保险费率计算
程序界面：
20
第2章软件测试方法章
2.8单元测试方法 2.8单元测试方法
2.8.1黑盒测试黑盒测试
2.8.1.2等价类划分等价类划分例子2：保险费率计算：输入数据说明
c
c c c u u u c u u c c u c u u
u c c c c c c c u u u u u u c u u u c c c c c u c c c c u u u u u u u c u u c c u c u c c c c u
30
第2章软件测试方法章
2.8单元测试方法 2.8单元测试方法
年龄 20 ～ 39 40 ～ 59 60岁以上20岁以下 60 20 性别婚姻抚养人数男女已婚未婚 6点 4点 2点 2 5点 3点 3点 5点
1人扣0.5点，最多3点(四舍五入取整数)
21
第2章软件测试方法章
2.8单元测试方法 2.8单元测试方法
2.8.1黑盒测试黑盒测试
2.8.1.2等价类划分等价类划分例子2：保险费率计算：输入数据说明
31
第2章软件测试方法章
2.8单元测试方法 2.8单元测试方法
2.8.1.3组合测试组合测试
2.8.1黑盒测试黑盒测试
组合覆盖（全对偶）：组合覆盖（全对偶）：
一个详细例子：一个函数有三个参数一个详细例子：一个函数有三个参数v1,v2,v3;v1有三个取有三个取 v2有两个取值 v3有两个取值有两个取值，有两个取值。值，v2有两个取值，v3有两个取值。

一种简单测量凸透镜焦距的方法

（Ｄ）程序切片阶段。ｏｗｔ，．ｅｓ和ＤＢｎｌｙ等８Ｇ的ＨｒｉｚＴＲｐ．ｉｋｅ
．
２５．
杂，利用该算法也就无能为力了。
【考文献】参
… 李必信．１程序切片技术及其在面向对象软件定量和软件测试中的应用【．京：Ｄ】南南京大学，００６１．２０：— ８
［ＩＥＭ．ｒｇａｓｃｇ］ＥＥＴａｓｔｎｎＳｆａｅ２ＷＥＳＲＰｏｒｌｉｌ．ＥｒｎａｉｓｏｔｒＪｍｉｎＪＩｃｏｏ－ｗ
Ｅｎｉｅｒｎ，９４２０４：５ —３７ｇｎｅｉｇ１８，１（）２５．３
第二阶段（９４１８）我们称之为基于程序依赖图１８－９７：（Ｄ）的程序切片阶段。ｔｅｓｅｎ等人于１８年引入基ＰＧＯｔｎｔｉ９４于ＰＧ（ｒｇａｅｅｄｎｅＧａｈＤＰｏｒｍＤｐｎｅｃｒｐ）的算法，该算法可以
【文献标识码】Ａ
【文章编号】１０ — １１２１）１０２ — ２０８１５（１０ — ０４００
（）引言一
凸透镜测量焦距是普通物理实验内容之一。它是通过用
（）实验装置三
如图２放置实验装置，为方便读数把凸透镜固定在光具
２１年第１０１期（总第１７期Ｊ３
大众科技
ＤＡＺＨｏＮＧＫＥＪ

软件缺陷检测与修复技术综述

软件缺陷检测与修复技术综述1. 概述现代软件通常非常复杂，由数百万甚至数十亿行代码编写而成。

在这种情况下，软件缺陷检测和修复对于保证软件质量和可靠性至关重要。

本文将讨论不同种类的软件缺陷检测和修复技术。

2. 静态分析工具静态分析工具在不运行程序的情况下检查其源代码。

这种方法可以提供全面的代码覆盖率，但也容易产生误报和漏报。

经验表明，静态分析工具通常适合用于发现空指针引用、未定义的变量、类型错误、内存泄漏、并发问题等缺陷。

常见的静态分析工具包括 Coverity、CodeSonar、Fortify、PVS-Studio 等。

3. 动态分析工具动态分析工具在程序运行时检测缺陷。

与静态分析工具不同，它们无法提供代码的全面覆盖。

然而，它们可以轻松检测到问题，例如内存泄漏、访问无效的内存块、死锁等严重漏洞。

常见的动态分析工具包括 Valgrind、AddressSanitizer、UBSan 等。

4. Fuzz TestingFuzz 测试通过采用随机输入和观察程序的行为来检测缺陷。

这种测试方法对于发现输入格式错误或者处理异常情况的代码段非常有用。

Fuzzing 可以通过代码覆盖率来评估测试的效果。

常见的Fuzz 测试工具包括 AFL、Peach、American Fuzzy Lop 等。

5. 运行时错误检测运行时错误检测是一种检测和修复程序中逻辑和语义错误的方法。

它基于代码中的断言或错误检测机制，并在程序执行期间发生问题时向开发人员发出警告、记录日志或中断程序。

常见的运行时错误检测工具包括断言、Log4J、Java 断点调试等。

6. 自动修复自动化缺陷修复是指在不人工参与的情况下，通过机器学习、规则引擎或其他技术自动检测和修复代码中的缺陷。

自动修复可以提高代码的可靠性和可维护性，并降低缺陷修复的时间和成本。

常见的自动修复工具包括模式匹配、程序合成、程序切片等技术。

7. 结论本文介绍了多种软件缺陷检测和修复技术。

基于依赖性分析的UML状态图切片技术

ＬＵａｓｎ，ＹｎｈｅｇＷＡＮＧ，Ｅａｄｎ，ＡＯｅｇｉｇＸｉＸＩＸｉｏｏｇＭＣｈｎｙｎ
（ｃｏｌｆＣｏｕｅｃｅｃｎｅｈｏｏｙＨｕｚｏｇＵｎｖｒｉｙｏｃｅｃｎｅｈｏｏｙＷｕａ０４ＳｈｏｍｐｔｒＳｉｎｅａｄＴｃｎｌｇ，ａｈｎｉｅｓｔｆＳｉｎｅａｄＴｃｎｌｇ，ｈｎ４３０７）ｏ
通过依赖性分析，提出了基于模型的减少回归测试用例的方法。ｐａｒｌＧｕｔＨａｒｄ和Ｓｆ＿阐述了利用切片技术进行回归测，ｏｏａｉ４
定义２使用节点。节点ｎ∈ Ｐ是变量ｖＧ（） ∈Ｖ的使用节点，记作ＵＳ（，．，当且仅当变量ｖ的值在对应节点ｎ的ＥｆＶ）。ｎ
［ｙｗｏｄ］ＵＭＬＵＭＬｓｔｃａｔｉｒｍ；ｌｅＤｐｎｅｃｎｌｓｓＫｅｒｓ；ａｅｈｒｄａａＳｉ；ｅｅｄｎｙａａｉｔｇｃｙ
传统的软件技术主要是基于数据流分析和控制流分析，
先给出几个相关定义。
语句片段处使用，为对应的成员方法。用节点的集合记为ｆ使
Ｓ。，即：
试的方法：通过在改动的地方计算前向切片和后向切片判别
受改动影响的程序——只有那些执行了受影响的定义引用对的测试用例需要重新执行，这就大大减少了测试工作。
［ｓｒｃ｜ＴｉｐｐｒｏｉｅｅｔｒｅｔｃｎｑｅＭＬｓａｃａｔｉｇａｐｏｒｍｓｃｎｎｏｔｒｔｓｎｇｔｅｅｅａｅｔｅＵＬＡｂｔａｔｈｓａｅｍｂｎｓｈｅｈｉｕｓＵｔｈｒｄａｒｍ，ｒｇａｌｉｇａｄｓｆｅｅｔｇｔｅｈｒＯｇｎｒｔｈＭｃｔｈｅｔｅｉｗａｉｏｔ

基于动态切片与预训练模型的代码漏洞检测

基于动态切片与预训练模型的代码漏洞检测随着软件开发的快速发展，代码漏洞检测已成为确保软件质量和安全性的关键环节。

动态切片技术结合预训练模型为代码漏洞检测提供了一种新的视角和方法。

动态切片是一种在程序执行过程中，根据特定条件收集程序状态信息的技术。

这种方法可以有效地识别出程序中可能存在的漏洞和异常行为。

通过动态分析，可以实时监控程序的运行状态，及时发现问题并进行修复。

预训练模型是机器学习领域中一种常用的技术，它通过在大量数据上进行训练，形成对特定问题的通用解决方案。

在代码漏洞检测中，预训练模型可以用于识别代码中的潜在问题，提高检测的准确性和效率。

结合动态切片和预训练模型，可以构建一个更加智能和高效的代码漏洞检测系统。

首先，通过动态切片技术收集程序的运行数据，然后使用预训练模型对数据进行分析和处理，识别出可能的漏洞和问题。

这种方法不仅可以提高检测的准确性，还可以减少人工检测的工作量，提高开发效率。

此外，动态切片与预训练模型的结合还可以应用于不同类型的软件和编程语言。

无论是C/C++、Java还是Python，都可以利用这种方法进行漏洞检测。

同时，这种方法也可以适应不同的开发环境和需求，为软件开发提供更加全面和可靠的安全保障。

在实际应用中，动态切片与预训练模型的结合还可以与其他技术相结合，如静态代码分析、模糊测试等，形成一个多维度的代码漏洞检测体系。

这不仅可以提高检测的全面性，还可以根据不同的需求和场景进行定制和优化。

总之，动态切片与预训练模型的结合为代码漏洞检测提供了一种新的解决方案，它不仅可以提高检测的准确性和效率，还可以适应不同的开发需求和环境。

随着技术的不断发展和完善，这种方法有望在未来的软件开发中发挥更大的作用。

软件安全缺陷检测技术最新研究进展综述

软件安全缺陷检测技术最新研究进展综述Abstract：Software security detection has become a very important work in the software industry. Fatal security vulnerabilities are caused by undefined behaviors of C/C++ language used in Safety-Critical software. This paper will give out eight kinds of new technology about the software security detection based on eight cutting-edge papers.design.摘要：软件安全缺陷检测已经成为软件行业非常重要的一项工作。

安全关键软件设计使用的C/C++语言含有大量未定义行为，使用不当可能产生重大安全隐患。

本文将根据八篇前沿论文，总结提出八种比较新的软件安全缺陷检测技术和算法。

1、基于XML的软件安全检测[1]软件静态检测是从软件代码和结构中找出安全缺陷的重要手段。

从安全规则的角度，提出了基于XML（eXtensible Markup Language）中间模型的静态检测方法。

该方法将C/C++源代码解释为XML中间模型，将安全规则转化为缺陷模式，利用Xquery 查询表达式对软件安全缺陷进行定位。

基于该方法的原型系统检验结果表明：该方法能够有效地检测出违反安全规则的软件缺陷，并具有安全规则可定制的特点。

航天型号软件等安全关键（Safety-Critical）软件中广泛使用的C/C++语言并不是一种安全编程语言，一个重要的原因在于其标准中存在大量未定义行为和不安全用法，使用不当将产生严重的安全隐患。

当前，避免这些安全隐患的通常做法是制定针对C/C++语言编程的安全子集，在编写代码阶段加以限制和规范。

基于函数切片的嵌入式软件回归测试研究

ＣＮＸｉｏｊ，ＩｎｆＨＥＧａ－Ｌ・ｕＲｅａ
（ｃｏｌｆｏｕｅｄｍｍｕｉａｉｎＨｎｎＵｎｖｒｉ，ｈｎｓａ０５ＣｉａＳｈｏｍｐｔｒｎｏＣａＣｏｎｃｔ，ｕａｉｅｓｙＣａｇｈ１７，ｈｎ）ｏｔ４０
ｅｅｄｄｓｔｒｙｔｍｅａｓｆｔｅｓｌｃａｇｓｉｈｏｒｅｃｄ，ｈｉｐｐｒｐｅｅｔｎｔｏＳｉｅＩｉｅｅｃｎｅｔｎｏｕｃｉｎｍｂｄｅｏｆｗａｅｓｓｅｂｃｕｅｏｍａｌｈｎｅｎｔｅｓｕｃｏｅｔｓａｅｒｓｎｓＦｕｃｉｎｌ．ｔｇｖｓｔｏｃｐｉｆｆｎｔｈｃｈｏｏｓｉｅＩｅｕｅｈｅｒｓｉｎｔｓｕｔｓｂｌｃｄａ，ｅｅｔｎｈｅｔｓｉｅｗｈｃｓａｓｃａｅｔｏｒｅｃｄｈｎｅｒｒｇｅｓｏｅｔｌ．ｔｒｄｃｓｔｅｒｇｅｓｏｅｔｓｉｙｓｉｅｉｅｓｓｌｃｉｇｔｅｔｓｕｔｉｈｉｓｏｉｔｄｗｉｓｕｃｏｅｃａｇｓｆｅｒｓｉｎｔｓ．ｃｅｈｏ
［ｓｒｃ］ＩｒｅｏｉｒｖｈｅｆｒｎｅｏｇｅｓｎｔｓｆｒｌｒｅｓｆｒｎｖｒｏｈｉａｖｎａｅｆｔｅｅｔｅｒｔｓｏＡｂｔａｔｎｏｄｒｔｍｐｏｅｔｅｐｒｍａｃｆｒｒｓｉｅｔｏａｇｏｔｅａｄｏｅｃｍｅｔｅｄｓｄａｔｇｓｏｎｉｅｅｔｆｏｅｏｗａｈｒ

基于Word2Vec和决策树的故障定位技术

基于Word2Vec和决策树的故障定位技术作者：王露露陈军华来源：《上海师范大学学报·自然科学版》2024年第02期Abstract：Word2Vec technology was utilized to perform deep semantic encoding on Java source code，generating file-level and line-level semantic vectors. These vectors were used as input data to train the decision tree model，aiming to achieve precise file-level and line-level fault location and to optimize the fault detection process. An efficient fault localization framework was constructed by this method which integrated file-level and line-level analysis. The experimental results showed that the fault localization accuracy of the model in all projects was higher than 83%.Key words：fault location；semantic representation；Word2Vec；decision tree譜分析故障定位（SBFL）［1］根据程序的执行信息（覆盖率信息）和程序的执行结果（是否发生错误）来计算每一行代码可能导致错误的概率，该方法虽然注重检测代码语法，却常常忽视了对程序的语义与功能层面的检测.程序切片故障定位［2］是一种静态分析技术，用于识别可能影响特定变量或计算结果的代码行，但计算复杂、内存需求高，并不适用于大型软件系统，且缺乏灵活性. 基于机器学习的软件故障定位［3］，是一个使用机器学习技术来识别软件中错误或缺陷位置的方法，其中构建有效的预测模型至关重要，不仅可以识别出与软件缺陷紧密相关的属性，还能准确地捕捉到这些属性在源程序中的表现.本文作者提出了一种利用Word2Vec方法对程序源代码的语义进行编码的方法，旨在提炼程序的深层语义信息，以优化故障定位流程.通过结合文件级和行级故障定位技术，将程序文件的语义表示引入文件级故障定位框架，以筛查潜在缺陷. 一旦发现问题，进一步将代码每一行的语义表示纳入行级故障定位，以精确定位错误. 相较于传统方法，该方法不仅深入挖掘程序的语义层面，准确提取了源程序的语义特征，还展现了更强的适应性和更高的定位效率，进而实现了高效的自动化行级故障诊断.1 相关技术基础1.1 程序频谱故障定位是一项软件维护任务，利用程序故障的相关信息来定位必须纠正的错误源代码［4］. 程序频谱是一种每个程序元素（语句、基本块、分支等）执行与否或执行次数的信息，使用测试套件获得这些信息，程序频谱常见的类型为计数频谱和命中频谱［5］.1.2 程序表示程序表示是一种对程序或代码进行结构化和抽象化表示的方法，其传统形式有：抽象语法树（AST）、控制流图（CFG）、数据流图（DFG）以及中间表示（IR）. 程序表示学习已经渗透在命名推荐，代码补全，缺陷检测、缺陷定位、缺陷修复等软件开发的多个环节［6］. 由于程序员在编写代码时遵循某种规律，使得代码具有自然性［7］，可以对大规模代码库进行程序语义表示.1.3 數据集选择采用Defects4J作为本研究的数据集. Defects4J是一个公开可用、内容丰富、覆盖多版本、囊括真实缺陷的Java程序缺陷数据库，广泛应用于软件工程的各个研究领域，包括自动程序修复、缺陷预测、故障定位和软件测试等［8］. Defects4J包含多个不同版本的软件项目以及相应的缺陷修复记录. 对于每个特定缺陷，Defects4J提供了存在缺陷的版本、修复后的版本，以及一组可以复现该缺陷的测试用例.在本研究中，将重点分析Defects4J中的以下5个项目：JFreeChart，Apache Commons Math，Apache Commons Lang，Mockito以及Joda-Time，如表1所示.通过Defects4J中的测试框架获取软件的代码覆盖率和测试信息，方便后续提取命中频谱所涉及的程序代码文件级和行级语义信息. 同时，结合分布式版本控制系统Git的历史提交信息，对故障文件和故障代码行进行标记，以便更好地理解和分析软件的缺陷.2 基于Word2Vec提取程序语义向量Word2Vec是一种先进的神经网络语言模型，它构建了一个词嵌入空间，能够将词汇表中的每个单词转换成向量形式. 在这个多维空间中，那些在语义上互有关联的词语被赋予了彼此接近的向量表示.本研究中，借助Word2Vec这一自然语言处理技术，有效地提炼出程序代码中蕴含的语义特征.尽管Word2Vec的能力局限于提取代码中单个单词的语义向量，但是根据文献［9］的论述，由Word2Vec生成的向量具有一些独特的属性，这些属性允许通过向量之间的数学运算来揭示语言结构的内在规律. 鉴于此，本文作者将一行代码中所有单词的向量进行累加，来表示该行代码的向量. 类似地，可以通过累加其多行代码的向量得到整个源程序代码的向量. 虽然源程序本质上是文本文件，理论上可以直接用于训练Word2Vec模型，但其中的特殊符号和专有词汇需要作适当处理. 因此，在使用数据集中的源程序进行训练之前，必须对其进行预处理，以优化模型的训练效果. 同时，Word2Vec能够将单词转化为固定维度的向量，这一维度是一个关键的超参数，需在模型训练阶段确定. 维度的大小直接关联到模型的表现和效率. 基于Word2Vec的程序语义向量提取模型的训练流程可概述为以下几个精细化步骤：Step1：删除特殊字符，将特殊符号（例如“+”“-”“*”“＼”“［］”）替换为一个空格字符.Step2：拆分Camel命名法的标识符，将该标识符拆分成独立的单词. 将拆分后的每个单词转换为小写.Step3：对于Joda-Time项目，将每一个测试用例的源代码通过训练好的Word2Vec模型转换成向量. Word2Vec利用上下文的分布信息来捕捉词语的语义含义，采用Word2Vec中预训练好的Continuous Bag of Words（CBOW）模型，根据上下文词预测中心词. 计算上下文窗口内周围词的词嵌入平均值，作为模型的输入：Step4：使用转换得到的代码向量作为特征，将测试用例的测试结果作为标签，训练一个线性支持向量机（SVM）分类器. SVM 的目标是找到一个决策边界，使得样本点到这个边界的间隔最大. 这可以通过最小化权重向量的范数来实现：1.3 数据集选择采用Defects4J作为本研究的数据集. Defects4J是一个公开可用、内容丰富、覆盖多版本、囊括真实缺陷的Java程序缺陷数据库，廣泛应用于软件工程的各个研究领域，包括自动程序修复、缺陷预测、故障定位和软件测试等［8］. Defects4J包含多个不同版本的软件项目以及相应的缺陷修复记录. 对于每个特定缺陷，Defects4J提供了存在缺陷的版本、修复后的版本，以及一组可以复现该缺陷的测试用例.在本研究中，将重点分析Defects4J中的以下5个项目：JFreeChart，Apache Commons Math，Apache Commons Lang，Mockito以及Joda-Time，如表1所示.通过Defects4J中的测试框架获取软件的代码覆盖率和测试信息，方便后续提取命中频谱所涉及的程序代码文件级和行级语义信息. 同时，结合分布式版本控制系统Git的历史提交信息，对故障文件和故障代码行进行标记，以便更好地理解和分析软件的缺陷.2 基于Word2Vec提取程序语义向量Word2Vec是一种先进的神经网络语言模型，它构建了一个词嵌入空间，能够将词汇表中的每个单词转换成向量形式. 在这个多维空间中，那些在语义上互有关联的词语被赋予了彼此接近的向量表示.本研究中，借助Word2Vec这一自然语言处理技术，有效地提炼出程序代码中蕴含的语义特征.尽管Word2Vec的能力局限于提取代码中单个单词的语义向量，但是根据文献［9］的论述，由Word2Vec生成的向量具有一些独特的属性，这些属性允许通过向量之间的数学运算来揭示语言结构的内在规律. 鉴于此，本文作者将一行代码中所有单词的向量进行累加，来表示该行代码的向量. 类似地，可以通过累加其多行代码的向量得到整个源程序代码的向量. 虽然源程序本质上是文本文件，理论上可以直接用于训练Word2Vec模型，但其中的特殊符号和专有词汇需要作适当处理. 因此，在使用数据集中的源程序进行训练之前，必须对其进行预处理，以优化模型的训练效果. 同时，Word2Vec能够将单词转化为固定维度的向量，这一维度是一个关键的超参数，需在模型训练阶段确定. 维度的大小直接关联到模型的表现和效率. 基于Word2Vec的程序语义向量提取模型的训练流程可概述为以下几个精细化步骤：Step1：删除特殊字符，将特殊符号（例如“+”“-”“*”“＼”“［］”）替换为一个空格字符.Step2：拆分Camel命名法的标识符，将该标识符拆分成独立的单词. 将拆分后的每个单词转换为小写.Step3：对于Joda-Time项目，将每一个测试用例的源代码通过训练好的Word2Vec模型转换成向量. Word2Vec利用上下文的分布信息来捕捉词语的语义含义，采用Word2Vec中预训练好的Continuous Bag of Words（CBOW）模型，根据上下文词预测中心词. 计算上下文窗口内周围词的词嵌入平均值，作为模型的输入：Step4：使用转换得到的代码向量作为特征，将测试用例的测试结果作为标签，训练一个线性支持向量机（SVM）分类器. SVM 的目标是找到一个决策边界，使得样本点到这个边界的间隔最大. 这可以通过最小化权重向量的范数来实现：1.3 数据集选择采用Defects4J作为本研究的数据集. Defects4J是一个公开可用、内容丰富、覆盖多版本、囊括真实缺陷的Java程序缺陷数据库，广泛应用于软件工程的各个研究领域，包括自动程序修复、缺陷预测、故障定位和软件测试等［8］. Defects4J包含多个不同版本的软件项目以及相应的缺陷修复记录. 对于每个特定缺陷，Defects4J提供了存在缺陷的版本、修复后的版本，以及一组可以复现该缺陷的测试用例.在本研究中，将重点分析Defects4J中的以下5个项目：JFreeChart，Apache Commons Math，Apache Commons Lang，Mockito以及Joda-Time，如表1所示.通过Defects4J中的测试框架获取软件的代码覆盖率和测试信息，方便后续提取命中频谱所涉及的程序代码文件级和行级语义信息. 同时，结合分布式版本控制系统Git的历史提交信息，对故障文件和故障代码行进行标记，以便更好地理解和分析软件的缺陷.2 基于Word2Vec提取程序语义向量Word2Vec是一种先进的神经网络语言模型，它构建了一个词嵌入空间，能够将词汇表中的每个单词转换成向量形式. 在这个多维空间中，那些在语义上互有关联的词语被赋予了彼此接近的向量表示.本研究中，借助Word2Vec这一自然语言处理技术，有效地提炼出程序代码中蕴含的语义特征.尽管Word2Vec的能力局限于提取代码中单个单词的语义向量，但是根据文献［9］的论述，由Word2Vec生成的向量具有一些独特的属性，这些属性允许通过向量之间的数学运算来揭示语言结构的内在规律. 鉴于此，本文作者将一行代码中所有单词的向量进行累加，来表示该行代码的向量. 类似地，可以通过累加其多行代码的向量得到整个源程序代码的向量. 虽然源程序本质上是文本文件，理论上可以直接用于训练Word2Vec模型，但其中的特殊符号和专有词汇需要作适当处理. 因此，在使用数据集中的源程序进行训练之前，必须对其进行预处理，以优化模型的训练效果. 同时，Word2Vec能够将单词转化为固定维度的向量，这一维度是一个关键的超参数，需在模型训练阶段确定. 维度的大小直接关联到模型的表现和效率. 基于Word2Vec的程序语义向量提取模型的训练流程可概述为以下几个精细化步骤：Step1：删除特殊字符，将特殊符号（例如“+”“-”“*”“＼”“［］”）替换为一个空格字符.Step2：拆分Camel命名法的标识符，将该标识符拆分成独立的单词. 将拆分后的每个单词转换为小写.Step3：对于Joda-Time项目，将每一个测试用例的源代码通过训练好的Word2Vec模型转换成向量. Word2Vec利用上下文的分布信息來捕捉词语的语义含义，采用Word2Vec中预训练好的Continuous Bag of Words（CBOW）模型，根据上下文词预测中心词. 计算上下文窗口内周围词的词嵌入平均值，作为模型的输入：Step4：使用转换得到的代码向量作为特征，将测试用例的测试结果作为标签，训练一个线性支持向量机（SVM）分类器. SVM 的目标是找到一个决策边界，使得样本点到这个边界的间隔最大. 这可以通过最小化权重向量的范数来实现：1.3 数据集选择采用Defects4J作为本研究的数据集. Defects4J是一个公开可用、内容丰富、覆盖多版本、囊括真实缺陷的Java程序缺陷数据库，广泛应用于软件工程的各个研究领域，包括自动程序修复、缺陷预测、故障定位和软件测试等［8］. Defects4J包含多个不同版本的软件项目以及相应的缺陷修复记录. 对于每个特定缺陷，Defects4J提供了存在缺陷的版本、修复后的版本，以及一组可以复现该缺陷的测试用例.在本研究中，将重点分析Defects4J中的以下5个项目：JFreeChart，Apache Commons Math，Apache Commons Lang，Mockito以及Joda-Time，如表1所示.通过Defects4J中的测试框架获取软件的代码覆盖率和测试信息，方便后续提取命中频谱所涉及的程序代码文件级和行级语义信息. 同时，结合分布式版本控制系统Git的历史提交信息，对故障文件和故障代码行进行标记，以便更好地理解和分析软件的缺陷.2 基于Word2Vec提取程序语义向量Word2Vec是一种先进的神经网络语言模型，它构建了一个词嵌入空间，能够将词汇表中的每个单词转换成向量形式. 在这个多维空间中，那些在语义上互有关联的词语被赋予了彼此接近的向量表示.本研究中，借助Word2Vec这一自然语言处理技术，有效地提炼出程序代码中蕴含的语义特征.尽管Word2Vec的能力局限于提取代码中单个单词的语义向量，但是根据文献［9］的论述，由Word2Vec生成的向量具有一些独特的属性，这些属性允许通过向量之间的数学运算来揭示语言结构的内在规律. 鉴于此，本文作者将一行代码中所有单词的向量进行累加，来表示该行代码的向量. 类似地，可以通过累加其多行代码的向量得到整个源程序代码的向量. 虽然源程序本质上是文本文件，理论上可以直接用于训练Word2Vec模型，但其中的特殊符号和专有词汇需要作适当处理. 因此，在使用数据集中的源程序进行训练之前，必须对其进行预处理，以优化模型的训练效果. 同时，Word2Vec能够将单词转化为固定维度的向量，这一维度是一个关键的超参数，需在模型训练阶段确定. 维度的大小直接关联到模型的表现和效率. 基于Word2Vec的程序语义向量提取模型的训练流程可概述为以下几个精细化步骤：Step1：删除特殊字符，将特殊符号（例如“+”“-”“*”“＼”“［］”）替换为一个空格字符.Step2：拆分Camel命名法的标识符，将该标识符拆分成独立的单词. 将拆分后的每个单词转换为小写.Step3：对于Joda-Time项目，将每一个测试用例的源代码通过训练好的Word2Vec模型转换成向量. Word2Vec利用上下文的分布信息来捕捉词语的语义含义，采用Word2Vec中预训练好的Continuous Bag of Words（CBOW）模型，根据上下文词预测中心词. 计算上下文窗口内周围词的词嵌入平均值，作为模型的输入：Step4：使用转换得到的代码向量作为特征，将测试用例的测试结果作为标签，训练一个线性支持向量机（SVM）分类器. SVM 的目标是找到一个决策边界，使得样本点到这个边界的间隔最大. 这可以通过最小化权重向量的范数来实现：。

基于UML图和动态切片的回归测试研究

０引言
随着ＯＭＧ组织接纳ＵＭＬ为基于面向对象技术的标准作建模语言，多软件系统在进行分析和设计时都是采用Ｕ许ＭＬ
响消息点中变量的值的部分０。对于程序Ｐ中某一位置ｑ的变量ｖｖ的动态切片由程序Ｐ中所有可能影响ｖ在ｑ态的，状
Ｃｃｅｓｅｅｃｅｃｆｅｒｓｉｎｔｓｉｇｎｎａｉｒａｅｔｆｉｎｙｏｒｇｅｓｏｔ．ｈｉｅｎ
Ｋｅｒｓｄｎｍｉｌｅｒｇｅｓｏｓｉｇｓｆｗａｅｔｓｉｇｓｑｅｃ —ｔｔｉｇａｙｗｏｄ：ｙａｃｓｉ；ｅｒｓｉｎｔｔ；ｏｔｒｔ；ｅｕｎｅｓａｅｄａｍ；ＵＭＬｓｔｉｇａｃｅｎｅｎｒｔｅｄａｍａｒ
Ａｂｓｒｃ：ＴｅｆｃｓｏｉａｅｐｌｅＵＭＬｄａｒｍｎｙａｓｓｉｅｔｅｒｓｉｎｔｓｉｇＦｒｔｎｖｅｏｅｆｃａｔａｔｈｏｕｆｔｓｐｒｉｔａｐｙｔｈｐｓｏｈｉｇａａｄｄｎｍｉｌｏｒｇｅｓｏｅｔ．ｉｓ，ｉｉｗｆｔａｔｈｔｃｎｈｔｔｅａｐｉａｉｎｏＬｄａｒｍｏ￣ａｅｄｖｌｐｅｔａｎｔｌｍｅｔｈｅｕｒｍｅｔｏｅｓｔｒｓｉｇｅｕｎｅｓａｅｄａｈｐｌｔｆｃｏＵＭｉｇａｉｓｔ，ｒｅｅｏｍｎｎｏｌｅｅｒｑｉｎｖｃｗｅｔｅｎｓｆｈｏ￣ｔｗａｅｔｔ，ｓｑｅｃ —ｔｔｉ — ｅｎｇａａｄｉｒｖｄｓａｅｄａａａｅｉｔｄｃｄｎｄｔｅ，ｔｉｇａｒｅｎｄａｄｔｅｃｎｅｔｓｓｏｒｕｈｅａｌｓｓ — ｒｍｎｍｐｏｅｔｔｉｇｍｒｒｕｅ，ａｎｗｏｄａｍｓｅｄｆｅ，ｎｏｔｎｗｎｔｏｇｘｍｐｅ，ｅｒｎｏｈｒａｉｈｉｈｈ

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第 5期
孙继荣等 : 程序切片技术在软件测试算法基本过程为 : 首先寻找语句 s 的变量 v 所直接数据依赖或控制依赖的节点 ; 然后寻找这些新节点所直接数据依赖或控制依赖的节点 ; 一直重复下去 , 直到没有新节点加进来为止 ; 最后将这些节点按源程序的语句顺序排列 , 即为程序 P 的关于语句 s 的切片 S。
1 ,2 1
*
莉, 殷
1
锋 ,金
1 , 3
虎
1
(1 . 四川大学计算机学院, 四川成都 610065 ; 2. 四川师范大学软件重点实验室 , 四川成都 610068; 3. 西南民
要: 基于程序切片的软件测试是一种以程序或程序和需求相结合为基础的测试, 它根据程序的不同切片来
缩小软件的测试范围、提高软件测试的效率、辅助测试数据的自动生成等。同时由于程序切片不仅考虑了数据依赖和控制依赖, 还考虑了程序存在的其他各种依赖关系, 使得测试的准确性得到提高。详细阐述了目前存在的各种切片技术及其应用领域 , 重点探讨了目前切片技术在测试领域中的具体应用。关键词: 程序切片; 软件测试; 数据依赖; 控制依赖; 测试数据自动生成中图分类号: TP311 文献标志码 : A 文章编号: 1001 3695( 2007) 05 0210 04
收稿日期 : 2006 04 12; 修返日期 : 2006 05 20 资助项目 ; 西南民族大学青年重点资助项目 ( 05NQ Z001)
基金项目 : 四川省重点科技资助项目 ( 05GG 021 003 2) ; 四川师范大学软件重点实验室
作者简介 : 孙继荣 ( 1973 ) , 女 , 讲师 , 博士 , 主要研究方向为实时软件工程、软件测试与软件可靠性、网络与信息系统 ( sun jr @ scrtvu . net) ; 李志蜀 ( 1946 ) , 男 , 教授 , 博导 , 主要研究方向为软件测试、网络与信息系统 ; 王莉 ( 1970 ) , 女 , 讲师 , 博士, 主要研究方向为软件可靠性、网络与信息系统 ; 殷锋 ( 1972 ) , 男 , 副教授 , 博士 , 主要研究方向为网格、中间件 ; 金虎 ( 1973 ) , 男 , 讲师 , 博士 , 主要研究方向为软件测试与软件可靠性、网络与信息系统 .
JI N H u1
2 . K ey La boratory of S of t w are , S ichuan N or m al U niversi ty,
3 . Colleg e of Com pu ter S cience & Technology, Sou thw est Un iversity f or N a tional ities , Chengdu Sichuan
O verview of Soft w are T esting B ased on Progra m S lice
SUN Ji rong1, 2 , L I Zh i shu1, W ANG L 1 i, Y I N F eng1, 3,
( 1. S chool of Com pu ter , S ichuan Un iversity, Chengdu S ichuan 610065, Ch ina; Chengdu S ichuan 610068, Ch ina; 610041 , China )
第 24卷第 5期 2007 年 5月
计算机应用研究 Application R esearch of C o m puters
Vo. l 24, N o .5 M ay 2007
程序切片技术在软件测试中的应用
孙继荣 , 李志蜀 , 王
族大学计算机科学与技术学院 , 四川成都 610041) 摘
工作是通过扩展系统依赖图实现的。目前对它的研究更多是侧重于静态切片这一部分 , 而且基本都是基于依赖图的。李必信等人提出了一种逐步求精的基于 OO 程序的分层切片方法。
2 程序切片分类
程序切片技术的发展经历了从静态到动态、从前向到后向、从单一过程到多个过程、从过程型程序到面向对象程序、从非分布式程序到分布式程序等几个方面。 2 1 静态切片与动态切片 W e iser最初提出的程序切片概念就属于静态切片 ( S tatic S lic ing) 范畴。静态切片是在编译时间 , 即程序尚未运行时进行切片 ; 该技术对程序的输入不作任何假设 , 所作的分析完全以程序的静态信息为依据。因此静态切片包含了所有与兴趣点处变量相关的语句 , 考虑了程序中所有可能的执行路径。其缺点是 : ∀ 容易包含不相关节点 , 具有很大的冗余性。主要是由于程序的执行路径无法静态判断 , 尤其是数组和指针变量无法静态确定。 # 使用该技术的工作量较大。因为要分析程序所有可能的执行轨迹 , 静态切片技术一般用于程序理解与软件维护方面。实际应用中 , 人们往往更关注某一具体输入下 , 程序实际执行时影响兴趣点处某一变量值的那些语句。 K o re l等人 [ 3] 提出了动态切片 ( D yna m ic Slic ing) 的概念。切片准则是一个三元组 ( s , v, x ), s 、 v 的定义不变 , x 是一个输入序列 , 在该输入下与源程序计算出的该变量的值是相同的。动态程序切片计算过程使用用户的实际输入 x 产生的精确数据流信息进行分析 , 通常情况下比静态切片要小得多 ; 动态切片的另一个优点是在程序运行时间进行切片 , 数组中的每个元素和指针变量的值得到确定 , 因此动态切片要比静态切片精确得多。动态切片的缺点是需要保留程序的执行历史记录。采用这一技术 , 每一次的计算工作量较小 , 但每一次的计算都不尽相同 , 因此动态切片技术多用于程序调试、测试方面。动态切片还可以用在理解大型程序方面。图 1 给出了静态切片与动态切片的例子。 2 2 前向切片与后向切片如果切片 S 由程序 P 中可能影响 s 处变量 v 的值的所有语句组成 , 这是一种前向切片 ( Fo r w ard S licing ) 。与此相反 , 后向切片 ( Backw ard Slic ing) S 是程序 P 中兴趣点 s处变量 v 的值影响到的语句和谓词组成的集合。图 2 给出了前向和后向切片的例子。 2 3 对象切片自 W eiser提出程序切片概念后 , 人们提出了许多用于过程型程序的切片方法 , 但这些方法并不适用于 OO 程序。因为 OO 编程语言提出了一些新的概念与特性 , 如类、对象、动态绑定、封装、继承、消息传递以及多态。所以面向对象程序切片不仅要考察语句和数据之间的依赖关系 , 还要考察各个类之间的关系。为了获得更准确、更有效的程序切片 , D L iang和 M. J . H arrod 提出了对象切片 ( O b ject S lic ing ) 技术这一概念 ; 他们的 2 4 其他切片技术 ( 1) 准静态切片 ( Q uas iS tatic Slic ing) 。准静态切片的产生是对于一些特殊程序 P, 某些输入值可以确定 , 而另外一些输入不停变化 ; 在此情况下对程序 P 进行分析时 , 需要混合使用静态切片和动态切片方法。在计算切片时 , 固定一部分输入值 , 使得程序 P 中的某些特定子路径得以执行 , 可以删除一些分支。这样得到的切片比纯粹的静态切片要精简得多。部分静态切片用于程序理解和转换。 ( 2) 同步动态切片 ( Si m ultaneous D ynam ic Slic ing) 。 H a ll[ 4] 扩展了动态切片 , 他将一个测试集而不是单个测试用例用于程序动态切片中。一个测试集可以看成是对某个需求的完全测试用例集。 H a ll提出的同步动态切片并不是简单地对每个测试用例的动态切片进行的并集 , 而是采用了迭代算法 , 从初始切片开始在迭代过程中逐步增长为大型的动态切片。同步动态切片适用于定位程序 P 的某个需求有关的代码部分。 ( 3) 分解切片技术 ( D eco m position Slicing) 。它是一种以把程序分解为不同模块为目的的切片技术。分解切片是由一组关注某一变量的程序切片构成的集合 , 可以捕获程序中对某一变量的所有计算。分解切片不依赖于语句在程序中的位置 , 构成分解切片的程序切片按照一定的规则排列成网格 ( La ttice), 通过使用这种网格来实现对程序的分解。分解切片技术适用于回归测试方面。 ( 4) 条件切片 ( Conditioned Slicing) 。 Confora 等人提出的条件切片技术通过增加一个条件扩展了传统的静态切片准则 [ 5] , 这个条件对应着程序的某个或某些初始状态。在进行切片算法时 , 只有满足该切片条件的那些输入才会被分析。条件切片技术主要用于程序理解和软件重用方面。 ( 5) 无定型切片技术 ( Am orphous Slicing) 。该技术施加更广泛的切片准则 , 在简化源程序的过程中充分利用传统切片技术保留源程序语义映射的简化功能。无定型切片的特点使其更适合程序理解领域 , 而传统的切片技术则更多地应用在调试领域。
程序切片是一种程序分析和理解技术。它通过把程序减少到只包含与某个特定计算相关的那些语句来分析程序。其概念最早是 1979 年由 M ark W eise r[ 1] 提出来的。他观察到程序员在调试过程中脑海中就有关于程序的某种抽象 , 人们在调试一个程序时总是从错误语句 s开始 , 并沿着依赖关系跟踪到它影响的程序部分。程序切片的发展基本成熟 , 在理论和应用方面的研究均取得了可喜的进展 , 特别是在程序的调试、测试、分解和集成、软件维护、代码理解以及逆向工程等领域具有广泛的应用。本文将侧重介绍程序切片技术在软件测试领域的应用。量 }; ( 2) 引用集 R ef( s ) = { x /x 是语句 s 中引用的变量 }。定义 2 数据依赖 : 如果节点 n、 m 满足以下两个条件 , 则称 n 数据依赖于 m: ( 1) 如果存在一个变量 v 满足 v de f(m ) ref( n); ( 2) G 上存在一条由节点 m 到 n 的路径 p , 对于路径上的其他节点 m ! p - { m , n} , v 控制依赖于 m: ( 1) G 上存在一条由节点 m 到节点 n 的路径 p , 对于路径上的其他节点 m ! p - { m , n} , n 是 m ! 的后必经点 ; ( 2) n 不是 m 的后必经点。程序切片不仅与兴趣点定义和使用的变量有关 , 还与影响该变量的值的语句和谓词以及受该变量的值影响的语句和谓词有关。程序切片过程中 , 采用合适的结构来表示语句间的依赖关系 , 寻找与兴趣点具有直接或间接数据依赖和控制依赖的 de f(m !) 。定义 3 控制依赖 : 如果节点 n、 m 满足如下条件 , 则称 n 程内的切片。定义 1 设 s 是程序流图 CFG 中的任一节点 , 定义 : ( 1) 定义集 D ef( s ) = { x /x 是语句 s 中值被改变了的变