基于模糊积分多分类器融合的JPEG图像隐写算法识别
- 格式:pdf
- 大小:352.17 KB
- 文档页数:6
第l3卷第2期
2012年4月
信息工程大学学报
Journal of Information Engineering University
V01.13 No.2
Apr.2012
基于模糊积分多分类器融合的
JPEG图像隐写算法识别
李开达,张 涛,李 星
(信息工程大学信息工程学院,河南郑州450002)
摘要:提取和恢复嵌入信息是隐写分析的最终目的,嵌入算法识别是秘密信息提取的前提。目
前研究者针对隐写算法识别提出了多种隐写分析系统,但这些系统各有优缺点,因此实际应用
中难以取舍。文章提出基于模糊积分的多分类器融合方法来识别JPEG图像隐写算法。实验
结果表明,相对于单个隐写分析系统,通过分类器融合后识别精度提高约5%。
关键词:隐写分析;模糊积分;多类分类;分类器融合
中图分类号:TP391.41 文献标识码:A 文章编号:1671—0673(2012)02—0200—05
Multi-Class Classification Fusion Using Fuzzy Integral for
Identifying JPEG Steganography Methods
LI Kai da。ZHANG Tao.LI Xing
(Institute of Information Engineering,Information Engineering University,Zhengzhou 450002,China)
Abstract:The extraction and recovery of hidden information is the aim of steganalysis,and the
premise step in extraction is to identi ̄the embedding method.Several steganalysis systems have
been developed for this purpose,but each system has its advantages and defects SO it’S difficult to
determine the detection system for identifying the embedding method correctly.This paper applies
fuzzy integral to fuse multiple steganalysis systems and identifies the embedding method used to cre-
ate a stego JPEG image.Experimental results indicate that through the novel addition of the classifier
fusion step to the multi-class steganalysis system,the classification accuracy is improved by about
5%compared with the individual steganalysis system.
Key words:steganalysis;fuzzy integral;multi—class classification;classifier fusion
0 引言
信息隐藏技术是目前信息安全领域研究的热点之一。数字隐写(Steganography)和隐写分析(Stega—
nalysis)是信息隐藏的重要分支。
数字隐写是将秘密信息隐藏在图像、视频、文本、音频等载体中并在公开信道中传输以实现信息传递
的技术。目前最常用的载体是数字图像。隐写分析是检测、攻击、提取、还原隐藏信息的技术。
图像隐写分析的最终目的是提取隐藏信息,而识别隐藏信息嵌入算法是提取嵌入信息的必要前提。
目前,研究者针对不同的嵌入算法提出了大量的检测算法并设计实现了多个隐写分析系统。由于各种嵌
收稿日期:2011—11-03;修回日期:2011.12-30
基金项目:国家自然科学基金资助项目(60903221)
作者简介:李开达(1986一),男,硕士生,主要研究方向为信息隐藏,E—mail:kevinli0207@gmail.COB
第2期 李开达等:基于模糊积分多分类器融合的JPEG图像隐写算法识别 201
人算法的原理不尽相同,因此与之对应的检测方法也千差万别,在性能上各有其优势和局限性。在实际应
用背景下,当嵌入算法未知时,分析者难以选择最优的隐写分析方法或系统。
签于此,本文应用基于模糊积分的多分类器融合方法来识别JPEG图像隐写算法。针对JPEG图像常
见的MB1[1]、Jsteg[2]、F5I3 3种隐写方法生成的载密图像,选用3种常见的特征提取算法 构造隐藏检测
系统,最后通过模糊积分对各分类器分类结果进行融合,最终实现隐藏算法识别。实验结果表明,通过模
糊积分融合,多类隐写分析系统的分类精度比单个分类器提高约5%。
1 隐写检测融合系统
1.1 隐写算法
JPEG是互联网上图像存储和传输的一个事实标准,JPEG图像压缩编码主要包括分块、量化、编码等
几个过程,如图1所示。
本文由Jsteg,MB1,F5这3种常见的JPEG图像隐藏信息嵌入算法生成载密图像,其中Jsteg算法是将
秘密信息嵌入在量化后的DCT系数除原始值为一1,0,+1的系数值的LSB上,实质是在量化后DCT系数
上进行LSB替换嵌入。
F5算法是对Jsteg算法的改进,利用矩阵编码提高了嵌入效率。在嵌入过程中不会改变载体图像的
量化表,但由于重传导致0系数增加,另外还会产生分块效应。
MB隐写算法是将载体对象看作是概率分布为P 的随机变量 ,表示为X=( ),其估计模型为P ,
其P 的参数模型为P%I ( IX = ),其中X 在秘密信息m嵌入后保持不变, 口利用参数模型嵌入后
变为 ,得到载密对象 =( ), 和参数模型P I ( IX = )分布一致,MB隐写算法分为MB1
和MB2两种。文中使用的MB1隐写算法,是对各DCT系数出现的概率在嵌入前通过Cauchy分布拟合,
并根据这些概率对嵌入信息进行算术编码,保持直方图的基本形状,该方法具有较高的嵌入容量 ,但嵌
入会增大图像块间的不连续性。
由于不同的隐写算法嵌入会在JPEG图像中留下不同的隐写痕迹,因此针对信息嵌入所导致的痕迹
可用隐写分析算法来分类识别隐写算法。
1.2特征提取
通用隐写分析算法通常采用基于机器学习的
方法,即提取对消息嵌入敏感的分类特征,结合分
类器实现隐写分析。因此现有方法的主要差别在
于其采取的分类特征不同。本文选用3种典型特
征用于构造单个分类系统。第1种方法是Farid
提出的小波域统计特征,利用正交镜像滤波器 图1 JPEG图像压缩编码流程
(Quadrature Mirror Fihers,QMF)对图像进行3级小波分解,得到图像的水平、垂直、对角和低通4个子带,
提取水平、垂直、对角子带系数及其预测误差系数的均值、方差、斜度和峰度统计量为特征,总共提取72维
特征。第2种是Shi 提出的小波域78维统计特征,该算法先对图像进行两级Haar小波分解,得到8个
子带,然后对图像本身和每个子带系数直方图进行傅立叶变换,最后计算统计矩,总共得到78维特征。第
3种为Wang 提出的从图像子带分解、特征选择、特征性能评估与降维等方面研究特征提取问题,文中提
取小波系数直方图特征函数矩(Characteristic Function,CF)以及子代系数统计矩,共156维特征。
1.3多类检测系统
多类检测系统包括以下4个步骤:
①构造图像库,用于分配载密图像类别标签。图像库包括载体图像和载密图像,其中载体图像库是以
质量因子80压缩的JPEG图像,载密图像由F5,Jsteg,MB1 3种算法生成。生成载密图像库之后需对其分
配类别标签。从图像库中随机选取一部分作为训练图像库,剩余部分作为测试图像库。
②提取特征。特征提取是分类器分类的关键步骤,本文选用3种分类效果较好的隐写分析方法来提
202 信息工程大学学报
取特征。为了消除不同量级的特征数据对分类的影响,即具有较大数值范围的特征影响具有较小数值范
围的特征以及计算时产生病态问题,需要对提取的特征做预处理,将训练特征缩放到一个较小的范围,常
见的有[一1+1]或者[0 1]。缩放公式如下:
=
筹 ㈩
其中,, 表示待缩放的第i个图像的第 维特征 表示训练图像集的第 维特征的最小值,, 表示训练
图像集的第 维特征的最大值。
③训练分类器。训练SVM分类器要选择合适的SVM核函数,并选择最优参数。
④类别标签分配,即嵌入算法识别。将嵌入算法分类到对应的算法标签,本文使用多数投票准则进行
标签分配。
分类流程可用一个框图表示,具体流程如图2所示。
1.4支持向量机
支持向量机(Support Vector Machines,SVM)是Vapnik
等人根据统计理论中结构风险最小化原则提出的分类
器 。SVM针对多类分类问题主要有两种解决途径:一种
是通过组合多个二值分类器来实现多类分类;另一种是在
优化公式中直接考虑所有数据做全局优化来实现。由于第
2种方法在最优化求解过程中的变量数远多于第1种方
法,而且训练速度也较慢,因此本文选用第1种方法实现多
SVM
分 标
图 特 类 签
像 征 器 分
提 训 配
库 取 练 Corer
和 MB1
测 JSteg
试 F5
图2 多类检测系统隐写算法识别流程图
类分类,即利用多个二值分类器的组合来实现多类分类,主要有以下两种模式:一对多组合(one against
al1)和一对一组合(one against one)的方法。假设总共有k个样本,一对多组合方法由k个SVM模型构
成,也就是说设其中某一类为正样本数据训练,其余数据样本为负指标,则样本有几类就需要训练相同类
别数目的SVM分类器。一对一组合方式构造k(k一1)/2个分类器,任意两个样本之间训练一个分类器,
当对一个未知样本进行分类时,采用多数投票准则,最后得票最多的类别即为该类样本的类别。本文在实
验中使用台湾大学林智仁等开发的Libsvm软件 作为分类器,选用高斯RBF核函数,交叉验证过程中使
用网格搜索法自动寻找最优的惩罚因子C以及核函数参数g。Libsvm采用一对一组合的方式实现多类分
类。
1.5模糊积分融合
用一种特征训练的多类隐写算法识别系统,只是从某些方面刻画消息嵌入前后载体载密图像的细微
变化,因此检测性能存在一定的局限性。构造基于模糊积分的多分类器融合系统,可综合各个分类器对待
识别样本的输出,得到待识别样本属于各个类的更高精确度。模糊积分分类器融合方法通过模糊测度表
达分类器之间的交互作用,因此模糊积分是一种有效的信息融合方法¨ 。设 是一有限集合,P( )是
的幂集,定义在P(X)上的集函数g:P(X)一[0,1]为模糊测度,必须满足以下条件:
①g( )=0,g(X)=1;
②g(A)≤g(B),VA,BCp(X)且ACB。
g(AUB)=g(A)+g(B)+Ag(A)g(B),VA,BCp( ),AnB= ,A>一1,
则称g 为模糊测度。
Choquet模糊积分是Lebesgue积分的严格推广¨ ,在模糊测度可加条件下,Choquet模糊积分可以还
原为Lebesgue积分。
当 是有限集合,X={ , :,…, },h( )≥h( :)≥…≥h( ),h( +。)=0。则基于模糊测度的
Choquet模糊积分计算公式如下:
^
n
I h( )・g(.)=∑g(4 )[h( )一h( )] (2)
,
IX‘i。一
=
1
其中A ={ 。, :,…, },h( )为分类器 认为输入 属于类W 的置信水平,模糊密度函数 —g =g
({ ))(i=1,2,…,n)表示分类器的识别率,g(.)为相应的模糊测度值。