一种AESS盒改进方案的设计
- 格式:pdf
- 大小:244.45 KB
- 文档页数:6
aes 中s 盒变换的量子线路优化
在量子线路优化中,可以使用数学技巧和优化策略来优化AES中的S盒变换。
以下是一些可能的优化方法:1. 矩阵乘法优化:AES的S盒变换可以表示为一个有限域上的线性变换,因此可以使用矩阵乘法来实现。
在量子线路中,可以使用类似Strassen 策略的技术来优化矩阵乘法。
这些技术基于将矩阵分解为小矩阵,并使用递归算法来减少计算量。
2. 替代结构优化:S盒变换可以具有迭代的结构,其中每个字节的替换是相互独立的。
因此,可以将S盒变换拆分为多个较小的子电路,并使用递归技术来减少量子门数量。
3. 特定门优化:在优化AES 线路时,可以使用特定门的优化技术来减少量子线路的深度和门的数量。
例如,可以使用Toffoli门和T offoli-W门代替一般的CNOT门和逆CNOT门。
4. 级联优化:通过将多个S盒变换级联在一起,可以减少量子门的数量。
例如,可以将多个S盒变换组合为一个S盒变换,从而减少线路的深度。
这些是一些可能的优化方法,但优化的具体方法可能会因具体的情况和需求而有所不同。
需要进行进一步的研究和调优,以实现最佳的量子线路优化。
基于增强型延时感知CSE算法的AES S盒电路优化设计戴强;戴紫彬;李伟【摘要】针对高级加密标准(AES)S-盒优化,提出了一种增强型延时感知公共项消除(CSE)算法.该算法能够在不同延时约束条件下优化多常数乘法运算电路,并给出从最小延时到最小面积全范围的面积-延时设计折中.采用该算法优化了基于冗余有限域算术的S盒实现电路,确定了延时最优、面积最优的两种S盒构造.实例优化结果表明所提出算法的优化效率高、优化结果整体延时小.所设计的S盒电路基于65nm CMOS工艺库综合,结果表明,对比于已有文献中S盒复合域实现电路,所提出面积最优S盒电路的面积-延时积最小,比目前最小面积与最短延时的S盒组合逻辑分别减少了17.58%和19.74%.【期刊名称】《电子学报》【年(卷),期】2019(047)001【总页数】8页(P129-136)【关键词】高级加密标准(AES);S盒;复合域;延时感知公共项消除【作者】戴强;戴紫彬;李伟【作者单位】解放军信息工程大学,河南郑州450001;解放军信息工程大学,河南郑州450001;解放军信息工程大学,河南郑州450001【正文语种】中文【中图分类】TP3021 引言S盒运算电路是AES硬件实现[1]中资源消耗最多的部分,是AES硬件电路优化的关键[2].针对小面积、高性能S盒研究,众多文献基于正规基[3,4]、多项式基[5]、混合基[6]、冗余基[7,8]的复合域运算提出了多种设计方案.相比于正规基、多项式基或混合基,基于冗余基的复合域S盒实现[7,8]的关键路径延时最短.然而,文献[7]仅给出了基于冗余有限域算术的S盒实现个例,并未讨论多项式系数与映射矩阵对该S盒实现面积、延时的影响,且未对S盒电路实现进行优化.为了保持该S 盒电路关键路径延时短的优势,并在此基础上获得面积最优的S盒复合域实现电路,一方面需要确定合适的多项式系数与映射矩阵,另一方面需要对S盒电路进行优化[9].S盒复合域实现电路中,可优化的主要部分是其中的多常数乘法(Multiple Constant Multiplication,MCM)运算电路,包括仿射矩阵、映射矩阵电路等.对MCM电路的优化,常用公共项消除(Common Subexpression Elimination,CSE)算法[2].已有的CSE算法中,Exhaust-CSE算法[3]、Greedy-CSE算法[5]、MTP-CSE算法[2,9]缺乏对电路关键路径延时的控制,NRCSE(Non-Recursive CSE)算法[10]、SPCSE(Shortest Path CSE)算法[11]的优化效率不高,DACSE(Delay Aware CSE)算法[12]的优化结果中各输出信号延时无法达到最优.针对这些问题,本文提出了一种增强型延时感知CSE算法(Enhanced Delay Aware CSE,EDACSE),可在给定延时约束条件下实现CSE优化过程中对电路延时的控制,并能够获得满足延时约束条件下面积最优、各输出信号延时最优的优化结果.实例优化结果表明EDACSE算法具有优化效率高、优化结果整体延时小的特点.针对基于冗余有限域算术的S盒实现,利用EDACSE算法确定了使S盒组合逻辑电路延时最小与面积最小的两种S盒构造.相比于已有的复合域S盒实现电路,设计的两种S盒电路在面积-延时积上具有明显优势.2 基于冗余有限域算术的S盒实现S盒的复合域运算包括GF(28)域乘法逆运算和仿射运算,如式(1)所示.FT=M(δ-1(δXT)-1)+VT(1)式中:上标T为向量的转置符,X为输入向量,M为仿射矩阵,V为仿射运算过程的常向量,F为S盒变换后输出向量,δ和δ-1为基于复合域乘法逆运算的映射矩阵和逆映射矩阵.通常,将仿射运算矩阵和逆映射矩阵合并为一个矩阵C以简化电路结构,则C=Mδ-1.基于冗余有限域算术的复合域S盒[7]实现框图如图1所示.图1(a)中复合域求逆运算使用Itoh-Tsujii算法高效实现,其过程主要包括输入a的16次幂与17次幂计算、GF(24)求逆运算、GF(24)乘法运算三大部分[7],分别对应图1(b)中Stage1、Stage2、Stage3.图1(a)首先通过δ×完成域GF(28)至复合域GF((24)2)的转换得到输入a,其中复合域GF((24)2)上元素以正规基(Normal Base,NB)(α16,α)表示(α为不可约多项式f(x)=x2+μx+ν的根).图1(b)中Stage1利用域GF(24)的正规基(β3,β4,β2,β1)表示(β为四阶全一多项式g(x)=x4+x3+x2+x+1的根)计算输入a的17次幂,再将计算结果转换成多项式环表示(Polynomial Ring Representation,PRR)结果.Stage2完成基于PRR的GF(24)上元素求逆运算.Stage3完成基于冗余表示基(Redundantly Represented Basis,RRB)的GF(24)上元素乘法运算.H、L与F模块用于实现Stage1与Stage3中的共享子表达式,从而减小硬件开销.图1(b)的输出a-1为RRB表示,对其进行RRB至NB的转换后,再经过逆映射矩阵与仿射变换可得到最终S盒输出.图1所示S盒实现中,(μ,ν)组合不同,a17计算的逻辑表达式与δ、C的值随之改变,而Stage2与Stage3的表达式并不会改变(其表达式可参见文献[7],不再详述),则整个S盒电路优化的关键在于随(μ,ν)组合取值不同而改变的a17计算与δ×、C×运算电路.本文将a17计算与δ×、C×运算部分电路称为该S盒的可调节电路,并设其面积为Aadjust,则Aadjust=Aδ+AC+Aa17(2)其中Aδ、AC、Aa17分别表示δ×、C×、a17计算各部分运算电路面积.为获得面积最小的S盒构造,需选择合适的(μ,ν)组合与δ、C以使Aadjust最小.为此,首先要通过CSE算法消除MCM电路中的冗余资源后,对比不同δ×、C×运算电路实现所需最少门数,从而获得实现门数最少的δ、C.3 EDACSE算法考虑计算速度与优化效率的折中,本文设计的EDACSE算法优先消除出现频率最高的CS,并在消除后进行逻辑网络的延时评估.为得到整体延时最好的优化结果,EDACSE算法将逻辑网络各个输出信号的关键路径延时之和作为一个优劣评判标准.EDACSE算法如下所示.算法1 EDACSE算法输入:逻辑网络表达式,给定延时约束TC;输出:优化后的逻辑网络表达式;消除的公共项集合;优化后实现所需门数,优化后关键路径延时S1:变量初始化.初始化三个变量:Nmin(最小门数),Tmin(最短关键路径延时)与Ctra(消除CS的集合).Nmin以用于矩阵直接实现的门数Ndir初始化.Tmin以一个大于CS消除后可能的关键路径延时上限的值初始化.变量Ctra以空集初始化.S2:识别所有逻辑表达式中的CSs.通过CSE技术消除CSs,并且消除的CSs作为变量Copt串行保存.在选定一个CS进行约减后,计算该CS延时,并根据CS延时计算逻辑网络中各逻辑表达式的最短CPD.最短关键路径延时以TCPD表示.若TCPD>TC,则撤销本次对该逻辑表达式的CS消除.若整个网络中消除CS后逻辑表达式CPD不超过约束的个数n<2,则撤销对整个逻辑网络的CS消除.继续选择下一个CS进行消除.S3:所有CS消除结束后,计算优化后逻辑表达式所需门数,记作Nopt;计算优化后逻辑网络的关键路径延时,记作Topt;计算优化后逻辑网络各表达式的路径延时之和Sum_Topt.S4:若Nmin>Nopt,优化电路的参数在该步骤保存,即在该周期中获得的Nopt,Topt与Copt,Sum_Topt,分别赋值给Nmin、Tmin、Ctra、Sum_Tmin,然后算法将转至步骤7.否则,算法将转至步骤6.S5:若Nmin=Nopt:若Tmin>Topt,则保存优化电路的参数,即在该周期中获得的Nopt、Topt、Copt分别赋值给Nmin、Tmin、Ctra,算法将转至步骤7;若Tmin=Topt且Sum_Tmin>Sum_Topt,则优化电路的参数在该步骤保存,即在该周期中获得的Nopt、Topt、Copt、Sum_Topt分别赋值给Nmin、Tmin、Ctra、Sum_Topt,否则算法跳转至步骤7.S6:若搜索结束,算法跳转至步骤7以输出由算法得到的最佳结果.否则,算法返回步骤2以检查另一个可能的消除解决方案.S7:最佳的结果Nmin、Tmin、Ctra作为算法输出,算法结束.由于实际处理时矩阵更易被计算机程序处理,因此算法输入的原始逻辑表达式将转换为矩阵形式进行CS消除.作为算法输入的延时约束TC,存在下限值TCmin.对于MCM电路,假设初始输入信号延时均为0Tx,则可根据最快二叉树(Fastest-Binary-Tree,FBT)结构计算延时约束下限,如式(3)所示.⎤)(3)这里i表示逻辑网络中表达式的序号,Ni表示各表达式所包含的信号数.给定的延时约束需满足TC≥TCmin.EDACSE算法的步骤S2中,设消除的CS为xp+xq,则设计中的xp+xq由一个新变量xnew代替.xnew的延时为tnew=max(tp,tq)+1.由于CS消除后逻辑表达式中各信号延时不一,采用延时驱动二叉树(Delay-Driven-Binary-Tree,DDBT)结构构造电路,以获得逻辑表达式的最短关键路径延时TCPD.TCPD计算公式如式(4)所示.(4)其中「⎤表示向上取整运算.逻辑表达式中各变量xi的延时为di,则TCPD为实现逻辑表达式y=x1+x2+x3+…+xn的最小延时.若整个网络中消除CS后逻辑表达式TCPD不超过TC的个数n<2,则此时消除该CS将无法节省实现门数,因此撤销该CS消除,而DACSE算法仅判断整个逻辑网络的关键路径延迟是否超过TC,并不能判断消除部分CS能否节省实现门数,因此DACSE的优化效率将略低于EDACSE.另外,若CSE优化过程中存在多个实现门数相同的优化结果,EDACSE 算法将依据优化结果中各输出信号延时进一步选择延时与整体延时最小的结果,而DACSE算法则无此功能,因此EDACSE的整体延时优化效果将优于DACSE,优化结果分析可见5.1小节.4 基于EDACSE算法的可调节电路优化设计(μ,ν)组合不同,a17计算结果中各逻辑表达式实现的硬件复杂性不同.采用事后统计的方法,在求出120种(μ,ν)组合下的a17计算表达式后,统计计算结果d中d0~d4的逻辑表达式中参与异或运算的项数(简称为异或项数)最大值NXmax的取值,共存在21、17、14、11这四种取值.由于a17计算(即Stage1)与乘法运算结果中存在公共项,本文将a17计算(Stage1)与乘法运算部分(Stage3)设置为一个分组,并提取公共项进行化简.化简过程中,进一步采用OR门替换优化策略(a∨b=a+b+ab)优化a17计算结果逻辑表达式后发现:当NXmax为11或14时,a17计算结果实现所需门数为15XOR+10AND+5OR或15XOR+5AND+10OR,关键路径延时为3TX+TA或3TX+TO;而当NXmax的取值为17、21时,化简后表达式实现所需门数远大于15XOR+10AND+5OR或15XOR+5AND+10OR,且关键路径延时大于3TX+TA或3TX+TO.根据式(2),欲使可调节电路的面积Aadjust最小,需要选择能够使Aa17、Aδ与AC之和最小的(μ,ν)组合与δ、C,因此在不同δ、C矩阵对实现所需门数相同或相差较小的情况下,应选择对应(μ,ν)组合下a17计算结果表达式中NXmax为11或14的δ、C矩阵对.给定GF((24)2)上不可约多项式f(x)=x2+μx+ν中μ,ν的值,映射矩阵使用文献[13]中算法构造.对于确定的某一(μ,ν)组合,可生成8个映射矩阵.存在120种(μ,ν)组合可使f(x)=x2+μx+ν为不可约多项式,因此共有960个可用映射矩阵及其对应的联合矩阵.本文将δ与其对应的C称为一个矩阵对.为得到使S盒电路面积或延时最小的δ、C,穷举搜索了960个矩阵对.首先计算960个矩阵对直接实现后的延时,存在关键路径延时之和最小为5Tx的16个矩阵对,其中δ实现关键路径为2Tx,C实现关键路径为3Tx.设置δ实现延时约束为2Tx,C实现延时约束为3Tx,表2列举了采用EDACSE算法优化这16个矩阵实现后所需面积、延时,其中总面积、总延时分别为矩阵对计算实现所需面积之和、延时之和,X表示异或门面积,Tx表示异或门延时.表1 矩阵对实现对应面积/时间复杂性编号总面积(δ计算/C计算)延时和(δ计算/C 计算)NXmax1-836X(14X/22X)5Tx(2Tx/3Tx)149-1636X(12X/24X)5Tx(2Tx/3Tx)17表1中16个矩阵对实现的总面积均为36X,延时和均为5Tx,因此无法根据总面积、总延时确定最优的矩阵对.为此进一步计算了各矩阵对对应(μ,ν)组合下a17计算表达式中异或项数最大值NXmax,存在8个矩阵对对应NXmax=14,其余8个矩阵对对应NXmax=17,根据前文所述,应选择对应NXmax=14的矩阵对.本文选择矩阵对δ7、C7,此时电路的整体延时最小,且在整体延时最小的多种S 盒构造中,其电路实现面积最小.本文将矩阵对为δ7、C7时的S盒结构称为构造一,即延时最优的S盒构造,其中δ7=[0x9A,0x10,0x64,0x45,0xC2,0x1F,0x4C,0x99],C7=[0x17,0x15,0x78,0xC7,0xBD,0xA5,0x8E,0xFA,0x6A,0xBB].基于EDACSE算法对δ7×与C7×运算逻辑表达式的优化结果分别如式(5)、(6)所示.(5)Y′=C7X′=(6)此时对应图1中a17计算结果的逻辑表达式如式(7)所示.d0=H1,2∨L1,2+H3,4∨L3,4+h2∨l2+h3l3d1=H1,2∨L1,2+H1,3L1,3+h3∨l3+h4∨l4d2=H1,3∨L1,3+H1,4L1,4+H2,3∨L2,3+h4∨l4d3=H1,4∨L1,4+H2,3∨L2,3+H2,4L2,4+h1∨l1d4=H2,4∨L2,4+H3,4L3,4+h1∨l1+h2l2(7)S盒构造一并非实现面积最小的结构.为得到面积最小的S盒构造,设置映射矩阵实现延时约束与联合矩阵实现延时约束为10Tx.采用EDACSE算法对960个矩阵对进行优化后,获得了各矩阵对实现所需最少门数.为使可调节电路实现面积最小,综合考虑矩阵对实现面积与a17计算电路面积,最终本文选取的矩阵对为δS=[0xE8,0x26,0x02,0x73,0x48,0xE2,0x69,0xBB],CS=[0x16,0xE8,0x61,0x3C,0xA3,0x10,0x45,0xE3,0xA7,0x11].基于EDACSE算法对δS×与CS×逻辑表达式的优化结果分别如式(8)、(9)所示.(8)(9)对应a17计算公式如式(10)所示,关键路径延时为3Tx+TA或3Tx+TO,采用EDACSE算法消除冗余项后实现所需门数为15XOR+10AND+5OR.d0=H1,3∨L1,3+H3,4L3,4+h1l1+h3l3d1=H1,4∨L1,4+H1,2L1,2+H2,3L2,3+h2l2d2=H2,4∨L2,4+H1,3L1,3+h0l0+h3l3d3=h1∨l1+H1,4L1,4+H2,3L2,3+H3,4L3,4d4=h2∨l2+H1,2L1,2+H2,4L2,4+h0l0(10)本文将矩阵对为δS、CS时的S盒构造称为S盒构造二,此时S盒的实现面积最小.自此,基于EDACSE算法确定了使S盒电路延时最小的S盒构造一与面积最小的S盒构造二.5 优化结果及分析5.1 EDACSE优化效果分析为有效对比EDACSE算法与已有延时感知CSE算法的优化效率,选择基于冗余有限域算术S盒实现中的960个联合矩阵(联合矩阵为10输入8输出的XOR逻辑网络),分别采用EDACSE算法、DACSE算法[11]、SPCSE算法[12]及NRCSE算法[10]进行优化,得出了不同延时约束条件下的优化效率平均值,如图2所示.图2中SPCSE和NRCSE算法的优化效率固定,EDACSE、DACSE的优化效率随延时约束增加而有所提高.采用EDACSE和DACSE算法优化时,绝大多数的XOR逻辑网络在Tc=4Tx时能够达到最小面积,而在Tc≥6Tx之后,EDACSE与DACSE 优化效率基本不变.图2中EDACSE算法的优化效率明显大于SPCSE、NRCSE,与DACSE优化效率几乎持平,但在特定延时约束条件(3Tx、4Tx)下EDACSE优化效率略高于DACSE.为进一步说明EDACSE算法相比于DACSE算法的优势,本文以优化结果中各信号延时的平均值作为参考标准,对比EDACSE与DACSE算法优化结果的整体延时.为此,计算了不同延时约束条件下960个联合矩阵优化结果各输出信号延时平均值,进而得到960个平均值的平均值,结果如图3所示.图3中,随着延时约束不断增加,EDACSE与DACSE算法优化结果的各信号延时的平均值也不断增加,但在相同约束条件下EDACSE算法优化结果的各信号延时平均值明显小于DACSE算法,这表明EDACSE算法优化结果的整体延时比DACSE算法的优化结果小.综上所述,对比于现有延时感知CSE算法,EDACSE 算法具有优化效率高、优化结果整体延时小的特点.5.2 S盒优化结果分析5.2.1 理论计算本文使用EDACSE算法对基于冗余有限域算术的S盒进行优化设计,得到了对应延时最小与面积最小的两种S盒电路结构.优化后电路各部分的资源消耗与延时如表2所示,其中(gX,gA,gO,gN)分别表示异或门(XOR)、与门(AND)、或门(OR)、非门(NOT)的数量,(TX,TA,TO)分别表示异或门延时、与门延时、或门延时数量.表2 S盒电路各部分资源消耗与延时方案GF(28)域乘法逆映射矩阵联合矩阵S盒资源消耗(gX,gA,gO,gN)延时(TX,TA,TO)资源延时资源延时资源消耗(gX,gA,gO,gN)延时(TX,TA,TO)文献[7](51,38,16,4)(6,3,1)18XOR2Tx38XOR3Tx(107,38,16,8)(11,3,1)构造一(51,38,16,4)(6,3,1)14XOR2Tx22XOR3Tx(87,38,16,8)(11,3,1)构造二(51,43,11,4)(6,3,1)13XOR3Tx17XOR3Tx(81,43,11,8)(12,3,1)设计的S盒与其它文献中S盒的理论计算面积与延时如表3所示.为了直观对比各文献S盒实现的面积复杂性,表3展示了各文献中S盒实现面积的理论计算值.假设设计均采用两输入逻辑门实现,在65nm CMOS工艺下,两输入异或门XOR的面积为3.6μm2,两输入与门AND、或门OR的面积均为1.8μm2,两输入与非门NAND、或非门NOR的面积均为1.44μm2,反相器NOT面积为1.08μm2,由此理论计算出S盒实现所需面积.需要指出的是,表中S盒资源消耗均未包括仿射运算中常向量加操作所需资源.由于逻辑门的延时随其驱动能力不同而不同,因此表3中未给出延时具体数值,但根据Tx>TA=TO可对比出各文献S盒理论延时大小.表3 各文献S盒面积与延时信息对比方案资源消耗(gA,gX,gO,gN)面积理论计算值(μm2)延时文献[5](36,126,0,0)518.404TA+25TX文献[13](35,120,0,0)495.004TA+19TX文献[14](36,96,0,0)410.404TA+20TX文献[2](35,93,0,0)397.803TA+20Tx文献[3](36,91,0,0)392.404TA+23Tx文献[4](35,89,0,0)383.403TA+18Tx文献[7](38,107,16,4)486.723TA+TO+11TX构造一(38,87,16,4)414.723TA+TO+11TX构造二(43,81,11,4)393.123TA+TO+12TX由表3可知,本文S盒构造一与文献[7]S盒的延时最小,构造二S盒的延时次之,但S盒构造二的面积小于构造一与文献[7].文献[4]的面积值最小,且延时仅大于文献[7]与构造一、二.文献[3]的面积值略大于文献[4],但其延时远大于文献[4].综合表3中数据,本文S盒构造一、二的延时具有明显优势,而S盒构造二的面积与文献[3,4]较为接近,若考虑面积-延时积,本文S盒构造一、二的面积延时积应大于表3中其它文献.5.2.2 实际综合本文采用Verilog语言对S盒电路进行描述,并利用综合工具基于65nm CMOS工艺标准单元库进行综合,综合时禁止flatten优化策略并设置面积优先.选择表3中理论面积值较小的文献[3]与文献[4]的S盒设计,在相同条件下进行综合.表4展示了文献[3,4]与本文S盒电路在最大与最小延时点时对应的延时与面积信息.表4 实际综合结果方案最小延时点最大延时点延时(ns)面积(μm2)延时(ns)面积(μm2)文献[3]2.22442.803.50333.72文献[4]1.68631.442.80333.00构造一1.45695.522.18354.60构造二1.49635.042.24343.08备注:最小延时点对应面积最大;最大延时点对应面积最小表4中各文献间S盒面积、延时的大小关系与表3的理论分析结果一致.表5对比了本文两种S盒电路、文献[3]及近两年文献[7,15]中复合域S盒设计的性能参数,其中文献[7]为表3中除本文S盒设计外的理论延时最小者,文献[15]为基于进化算法的最新复合域S盒设计.由于文献[15]中给出的综合结果是在180nm工艺下获得,为公平比较,采用工艺换算计算公式[16]得到其在65nm下的等效面积、延时(表5中记作文献[15]*).文献[7]与本文S盒均是基于冗余有限域算术实现,但文献[7]没有讨论(μ,ν)组合及δ、C对S盒电路面积、延时的影响,且其给出的S盒电路实现并未进行CSE优化,因此表5中文献[7]的综合面积明显大于本文S盒.表5 各文献S盒性能参数对比方案工艺(nm)延时(ns)面积(μm2)面积-延时积(μm2×ns)文献[3]653.50333.721168.02文献[4]652.80333.00932.40文献[7]652.18439.20957.46文献[15]1806.542960.49-文献[15]*652.36386.05911.08构造一652.18354.60773.03构造二652.24343.08768.50表5中文献[7]与文献[4]的S盒分别是目前已知延时最小与面积最小的S盒复合域实现.本文构造一S盒的延时与文献[7]相同,但面积比文献[7]减少了19.26%.构造二的S盒设计,延时比文献[7]增加了2.75%,但面积比文献[7]减少了21.89%,其面积-延时积比文献[7]减少了19.74%.构造一、二的S盒面积比文献[4]分别增加了6.49%、3.03%,但其延时比文献[4]分别减少了22.14%、20.00%,且面积-延时积比文献[4]分别减少了17.09%、17.58%.根据表5中综合结果,本文面积最优S盒构造(即构造二)电路的面积-延时积最小,而本文构造一S盒电路的延时最小,且面积-延时积仅大于构造二.6 结论本文提出了增强型延时感知CSE算法EDACSE,可在给定延时约束条件下实现CSE优化过程中对电路延时的控制,并且能够获得满足约束条件下面积最优、各输出信号延时最优的优化结果.采用EDACSE算法对基于冗余有限域算术的复合域S盒实现进行优化,优化结果表明相比于现有延时感知CSE算法,EDACSE算法能够更有效的消除电路冗余资源,具有优化效率高、优化结果整体延时小的特点.基于EDACSE算法分别确定了使S盒组合逻辑电路延时最优与面积最优的两种S盒构造.在65nm CMOS工艺下对两种S盒电路进行综合,结果表明延时最优S盒构造的面积-延时积,比最小面积[4]和最短延时[7]S盒组合逻辑电路分别减少了17.09%和19.26%;面积最优S盒构造的面积-延时积,比最小面积[4]和最短延时[7]S盒组合逻辑电路分别减少了17.58%和19.74%.参考文献【相关文献】[1] Banik S,Bogdanov A,Regazzoni F.Atomic-AES:A compact implementation of the AES encryption/decryption core[A].Proceedings of the 17th International Conference on Cryptology in India[C].Kolkata:Springer,2016.173-190.[2] 曾纯,吴宁,张肖强,等.基于多因子CSE算法的AES S盒电路优化设计[J].电子学报,2014,42(6):1238-1243.ZENG Chun,WU Ning,ZHANG Xiao-qiang,et al.The optimization circuit design of AES S-box based on a multiple-term common subexpression elimination algorithm[J].Acta Electronica Sinica,2014,42(6):1238-1243.(in Chinese)[3] Canright D.A Very Compact Rijndael S-box[R].California:Naval Postgraduate School,2005.[4] ZHANG Xiao-qiang,WU Ning,ZHOU Fang,et al.Optimization of area and delay for implementation of the composite field advanced encryption standard S-box[J].Journal of Circuits,Systems,and Computers,2016,25(5):1-29.[5] A Satoh,S Morioka,K Takano,et al.A compact Rijndael hardware architecture with S box optimization[A].Colin Boyd.Lecture Notes in Computer Science[C].Australia:Springer Berlin Heidelberg,2001.239-254.[6] Y Nogami,K Nekado,T Toyota,et al.Mixed bases for efficient inversion in F ((22)2)2 and conversion matrices of SubBytes of AES[A].Proceedings of 12th International Workshop on Cryptographic Hardware and Embedded Systems[C].Santa Barbara:Springer,2010.234-247.[7] R Ueno,N Homma,Y Sugawara,et al.Highly efficient GF(28) inversion circuit based on redundant GF arithmetic and its application to AES design[A].Proceedings of 17th International Workshop on Cryptographic Hardware and Embedded Systems[C].Saint-Malo:Springer,2015.63-80.[8] R Ueno,S Morioka,N Homma,et al.A high throughput/gate AES hardware architecture by compressing encryption and decryption datapaths[A].Proceedings of 18th International Workshop on Cryptographic Hardware and Embedded Systems[C].Santa Barbara:Springer,2016.538-558.[9] ZHANG Xiao-qiang,Ning WU,YAN Gai-zhen,et al.Hardware implementation of compact AES S-box[J].IAENG International Journal of Computer Science,2015,42(2):125-131. [10] M Martínez-Peiró,E I Boemo,L Wanhammar.Design of high-speed multiplierless filters using a nonrecursive signed common subexpression algorithm [J].IEEE Transactions on Circuits and Systems II:Express Briefs,2002,49(3):196-203.[11] ZHANG Xiao-qiang,WU Ning,ZHOU Fang,et al.An optimized delay-aware common subexpression elimination algorithm for hardware implementation of binary-field lineartransform[J].IEICE Electronics Express,2014,11(22):1-8.[12] 张肖强.基于复合域运算的AES密码电路优化设计方法研究[D].南京:南京航空航天大学,2016. Xiaoqiang Zhang.Research on Optimization Design Method of AES Implementation Based on Composite Field Arithmetic[D].Nanjing:Nanjing University of Aeronautics and Astronautics,2016.(in Chinese)[13] X Zhang,KK Parhi.On the optimum constructions of composite field for the AES algorithm[J].IEEE Transactions on Circuits & Systems II Express Briefs,2006,53(10):1153-1157.[14] M M Wong,M L D Wong,A K Nandi,et al.Construction of optimum composite field architecture for compact high-throughput AES S-boxes[J].IEEE Transactions on VLSI Systems,2012,20(6):1151-1155.[15] LIU Yao-ping,WU Ning,ZHANG Xiao-qiang,et al.A compact implementation of AES S-box using evolutionary algorithm[J].Chinese Journal of Electronics,2017,26(4):688-695. [16] L Bin.Parallel AES encryption engines for many-core processor arrays[J].IEEE Transactions on Computers,2013,62(3):536-547.。
技术创新《微计算机信息》2012年第28卷第10期120元/年邮局订阅号:82-946《现场总线技术应用200例》信息安全基于AES 加密算法的S 盒优化设计Optimized design of S box based on AES encryption algorithm(湖南大学)胡春燕易波HU Chun-yan YI Bo摘要:本文探讨提出一种新的S 盒优化设计构造方案,改进的S 盒算法首先寻找最佳仿射变换对,接着对字节元素进行1次仿射变换,然后求乘法逆元,最后再进行1次仿射变换。
相比传统的S 盒,改进的S 盒的代数表达式项数达到253项,仿射变换周期为16,迭代输出周期为256,严格雪崩准则距离逼近370。
而在平衡性、差分均匀度,非线性度等方面保留了传统S 盒的代数性质。
关键词:加密算法;AES;S 盒;放射变换中图分类号:TN911文献标识码:AAbstract:This paper tentatively put forward a new kind of S box optimized design scheme.The first step in the improved S box al -gorithm generating process is to search the best affine transform couple,and then do one affine transform to byte selements,then search for the multiplicative inverses,finally do one affine transform pared with the original S box,the improved S box ’s algebraic expression item number reaches 253items .affine transform period is 16,strict avalanche criterion distance is close to 370,iterative output cycle is 256.While in the balance,strict avalanche criterion,non-linear degree etc,the improved S box keeps the traditional S box ’s algebraic properties.Keywords:encryption algorithm;AES;S box ;affine transform文章编号:1008-0570(2012)10-0358-031引言近年来,随着密码分析水平,芯片处理能力和计算技术的不断进步,DES 的安全强度已经很难适应新的安全需要,其实现速度、代码大小和跨平台性都难以继续满足应用需求。
AES算法中S-box和列混合单元的优化1 S-box 的优化设计在AES 标准算法中定义了两个较大的列表。
S-box 和逆S-box。
将S-box 用于两个应用:字节替代和密钥扩展。
而逆S-box 则用于逆字节替代。
这两个列表是不相同的,因此必须建立两个不同的ROM(256 乘以8 b),用以存储这两个列表。
另外,在AES 设计中使用平行结构,这就需要用到多个列表,这样会使硬件过于复杂,需要对其进行优化。
以下主要对S-box 模块进行结构优化。
1.1 S-box 和逆S-box 的组合在一个高速128 b 的AES 设计中,一般需要总共20 个S-box 模块和16 个逆S-box 模块。
其中,16 个S-box 模块用于实现字节替代的功能,4 个S-box 用于实现密钥扩展的功能,而16 个逆S- box 模块用于实现逆字节替代功能。
在这种情形下,如果字节替代和逆字节替代时使用不同的列表,就会占用大量的硬件资源。
所以非常需要一种减少硬件复杂性的方法。
就如AES 标准所描述的那样,S-box 的操作过程可以表示为:因为multiplicative_inverse(乘法求逆)是一个相当复杂的方程,最常用的实现S- box 的方法是运用look-up 列表来由x 得到y。
等式(1)的逆等式如下:因为multiplicative_inverse-1 和multiplicative_inverse 是相同的,所以等式(3)可以表述为:最后,必须找到M-1,即矩阵M 的有限域逆矩阵。
由有限域逆矩阵的运算方法可知,可以计算出矩阵M 的逆矩阵,命名为M,如式(5)所示:在式(1)和式(6)中,只使用了一个普通的look-up 列表,从而将S-box 和逆S-box 集成,大大减少了字节替代和逆字节替代的硬件需求。
图1 展示了集成的S-box/逆S-box 模块,可应用于AES 的加密和解密。
1.2 S-box 单元中乘法求逆电路的优化由第1.1 节可知,S-box 盒的生成电路由加密仿射电路(实现out=(in+c)M-1 等式功能),解密仿射电路(实现out=in-M+c 等式功能)以及乘法求逆电路三个模块组成。
AES加密算法的S-box设计分析及其改进汪培芬【摘要】As a component to realize data nonlinear replacement,S-box plays an important role in the design of AES cipher,and its safety directly affects the safety of the whole cipher.This paper analyzed the design theory of S-box in the AES encryption algorithm and its iteration cycle.It was pointed out that the cycle iterative cycle of S-box,which was far less than 256,was short and defected.Such a defect made the AES subj ect to differential attacks.This paper presented an im-proved scheme and a new S-box whose iteration cycle was expanded to 256 of the entire space with better algorithm security.%在AES密码设计中,S-box作为实现数据非线性置换的组件有重要地位,其安全性直接影响整个密码的安全性。
分析了AES加密算法中S-box的设计原理及其循环迭代周期。
指出S-box循环迭代周期都远远小于256的短周期,使AES存在着差分攻击的可能。
提出了改进方案,并得到新的S-box。
改进的S-box循环迭代周期扩大到256整个空间,提高了算法的安全性。
【期刊名称】《淮海工学院学报(自然科学版)》【年(卷),期】2014(000)004【总页数】4页(P18-21)【关键词】AES;S-box;循环迭代周期【作者】汪培芬【作者单位】淮安市广播电视大学信息工程系,江苏淮安 223002【正文语种】中文【中图分类】TP301AES(advanced encryption standard,AES)加密算法即密码学中的高级加密标准,代表着最新的编码技术[1],又称Rijndael加密算法,已在现今社会各个领域中得到广泛应用。
基于多因子CSE算法的AES S-盒电路优化设计曾纯;吴宁;张肖强;周芳;叶云飞【摘要】Aiming at the optimization of advanced encryption standard (AES) S-box ,a novel multiple-term common subex-pression elimination (CSE ) algorithm was proposed .In order to simplify the combinational logic expressions ,the common subex-pressions containing the most factors took priority to be eliminated in the proposed approach ,thus effectively reduced the area and latency of the GF (2^4 ) multiplicative inverse circuit and the isomorphic mapping circuit in S-box .The results show that the multi-ple-term CSE algorithm achieves high computation and optimization efficiency .The optimized S-box is implemented in 0 .18μm CMOS technology .Compared with the smallest S-box and the shortest delay S-box in the existing work ,the optimized S-box saves about 10 .32% and19 .64% of the area-delay product separately .%针对高级加密标准(AES )S-盒优化,提出了一种新的多因子公共项消除(CSE )优化算法.多因子CSE算法通过对组合逻辑表达式中所含因子最多的公共项优先消除,以简化逻辑表达式,从而有效地减少S-盒电路结构中的GF (2^4)域乘法逆电路和映射矩阵电路的面积和时延.结果表明,多因子CSE算法具有计算速度快,优化效率高的特点.优化后的S-盒组合逻辑电路采用0.18μm CMOS工艺,设计出的S-盒面积-延时积比目前最小面积和最短延时的S-盒组合逻辑电路分别减少了10.32%和19.64%.【期刊名称】《电子学报》【年(卷),期】2014(000)006【总页数】6页(P1238-1243)【关键词】AES;S-盒;多因子CSE算法【作者】曾纯;吴宁;张肖强;周芳;叶云飞【作者单位】南京航空航天大学电子信息工程学院,江苏南京 210016;南京航空航天大学电子信息工程学院,江苏南京 210016;南京航空航天大学电子信息工程学院,江苏南京 210016;南京航空航天大学电子信息工程学院,江苏南京 210016;南京航空航天大学电子信息工程学院,江苏南京 210016【正文语种】中文【中图分类】TN918.41 引言AES 加密算法是目前常用的分组加密算法[1,2],而S-盒运算电路是AES硬件实现中资源消耗最多、功耗最大的部分,是AES硬件电路优化的关键[3].本文所研究的S-盒基于GF(((22)2)2)复合域运算,并采用纯组合逻辑电路实现.这种S-盒硬件面积小,方便流水线结构设计和加解密复用.针对小面积、低时延的高性能S-盒研究,目前,有许多文献基于正规基[3,5,6,11]和多项式基[4,7~10,12]的复合域运算提出了多种设计方案.文献[5]基于正规基运算实现S-盒,所实现的S-盒具有最小的面积,但是其时延较长;文献[9]基于多项式基的复合域GF((24)2)运算实现的S-盒,具有最短的时延,但其实现面积较大.影响S-盒电路优化的主要部分是其中的多常数乘法(Multiple ConstantMultiplication,MCM)运算电路,包括仿射矩阵电路、映射矩阵电路等.对MCM电路的优化,常用公共项消除(Common Subexpression Elimination,CSE)算法[13],文献[5]提出了基于穷举算法的CSE(Exhaust-CSE)算法,文献[7]提出基于贪婪算法的CSE(Greedy-CSE)算法,Greedy-CSE算法简单但容易陷入局部最优的结果中,Exhaust-CSE算法优化效果好但计算速度慢.本文综合考虑S-盒电路实现的面积和时延,基于正规基计算出S-盒电路组合逻辑表达式,并提出一种计算速度快、优化效率高的多因子CSE算法优化S-盒中GF(24)域乘法逆电路和映射矩阵乘法电路,使S-盒电路达到非常小的面积-延时积.2 AES S-盒复合域电路实现S-盒的复合域运算包括GF(28)域乘法逆运算和仿射运算,如表达式(1)所示.式中:上标T为向量的转置符,X为输入向量,M为仿射矩阵,V为仿射运算过程的常向量,F为S-盒变换后输出向量[4],δ和δ-1为基于复合域乘法逆运算的映射矩阵和反映射矩阵.δ与δ-1的关系为δ×δ-1=E,E 为单位矩阵.M=[0x8E,0xC7,0xE3,0xF1,0xF8,0x7C,0x3E,0x1F],V=[0x63],矩阵的行向量采用 16进制表示.通常,将仿射运算矩阵和反映射矩阵合并为一个矩阵L以简化电路结构,则L=Mδ-1.基于复合域运算的S-盒电路实现结构框图如图1(a)所示.其中,GF(28)域乘法逆运算电路包括复合域乘法逆电路和δ、δ-1映射电路两大部分.选取复合域GF((24)2)的正规基(Y16,Y)和不可约多项式f(y)=y2+y+υ,系数υ∈GF(24),得到GF((24)2)域的乘法逆运算表达式如表达式(2)所示[5],乘法逆电路结构如图1(b)所示.式中,a,b∈GF(28);ah,al,bh,bl∈GF(24).选取复合域GF((22)2)的正规基(Z4,Z)和不可约多项式f(z)=z2+z+N,系数N∈GF(22).选取系数υ=(0001)4,N=(10)2,可以求得δ =[0x98,0xF3,0xF2,0x48,0x09,0x81,0xA9,0xFF]和δ-1= [0x64,0x78,0x6E,0x8C,0x68,0x29,0xDE,0x60][5].AES S-盒通过基于正规基复合域电路实现[5],得到的各部分运算电路资源消耗和关键路径如表1所示.其中,XOR表示异或门,AND表示与门.表1 AES S-盒各部分电路资源消耗和关键路径复合域乘法逆δ L S-盒资源消耗关键路径资源路径资源路径资源消耗关键路径XOR|AND电路XOR|AND XOR XOR XOR XOR XOR|AND XOR|AND GF(24)域乘法逆14 9 5 1 GF(24)域乘法器24 3 17 3 111 36 22 3 3 -- 1 --GF(28)域乘法逆10 9 5 1 υ×a2 70 36 16 33 多因子CSE算法3.1 多因子CSE算法描述Exhaust-CSE和Greedy-CSE算法都是基于双因子CSE算法,即每个公共项仅含有两个和项.针对双因子CSE算法的缺陷,本文提出了一种多因子CSE优化算法.多因子CSE优化算法关注公共项中因子数目,在每次迭代中将所含因子数目最多的公共项作为消除对象.若消除对象不止一个,则采用穷举算法将每个消除对象都计算一遍.多因子CSE优化算法具体流程为:(1)识别逻辑表达式中所有的公共项;(2)选择所含因子数目最多的公共项;(3)从(2)中选择出现次数最多的公共项作为消除对象;(4)采用新因子代替选择的公共项;(5)重复(1)~(4),直到表达式中没有公共项为止.以乘矩阵[0x1,0xf,0xf,0x9]电路为例,用多因子CSE算法合并逻辑表达式中公共项的运算过程如表达式(3)所示.选择公共项x3+x2+x1合并为新因子b1,第二轮选择公共项x3+x2合并为新因子b2.采用多因子CSE算法对逻辑组合电路优化的过程与结果如图2所示.3.2 多因子CSE算法性能分析CSE算法中需要合并的公共项数量(即CSE迭代次数)是一个概率事件,可以采取建立概率模型的方法对CSE算法的复杂度进行分析.由于这个概率模型不属于本文的研究范围,因此本文采用事后统计的方法来分析CSE算法的性能.在标准基系数(λ,φ)=((1100)2,(10)2)下,选取8组矩阵L1~L8作为测试矩阵,分别采用Greedy-CSE算法、Exhaust-CSE算法和多因子CSE算法进行优化.通过Matlab仿真,记录三种算法对每组测试矩阵进行优化的计算时间如图3所示,其中Exhaust-CSE算法计算时间超过1s的,在图中均按1s显示.由图3可知,多因子CSE算法远比Exhaust-CSE算法快,比Greedy-CSE算法平均计算时间缩短了47.8%.对各CSE算法的计算时间测试结果表明,多因子CSE算法具有计算速度快的特点.4 基于多因子CSE算法的S-盒电路优化4.1 基于多因子CSE算法的GF(24)域乘法逆电路优化选择 GF(24)域的正规基(Z4,Z)[5],其乘法逆表达式如式(4)所示,式中c∈GF(24),ch,cl∈GF(22).选择GF(22)域的正规基(W2,W),其乘法运算如表达式(5)所示,乘法逆电路如表达式(6)所示,式中 m,n∈GF结合表达式(4)~(6),取N=(10)2,可计算出正规基下GF(24)域乘法逆组合逻辑表达式如表达式(7)所示,式中,c1,c2,c3,c4∈GF(2).如表达式(7)所示,表达式中既包含了与门又包含了异或门,所用门电路资源为18XOR+16AND,关键路径为4XOR+2AND.采用多因子CSE算法来优化组合逻辑表达式:首先对与门进行CSE优化;再对异或门CSE优化,优化结果如表达式(7)所示.从(7)的计算结果可直观的看出,采用多因子CSE算法对GF(24)域乘法逆电路优化计算后,电路仅需要资源12XOR+8AND,关键路径为3XOR+1AND.优化后电路资源节省了25.0%XOR和55.6%AND,关键路径缩短25.0%XOR和50.0%AND.4.2 基于多因子CSE算法的仿射运算和映射矩阵综合化简根据表达式(1),L=Mδ-1,则 M 和δ -1矩阵乘积结果为 L=[0x58,0x2D,0x9E,0x0B,0xDC,0x04,0x03,0x24].采用多因子CSE算法对δ和L电路的优化过程及结果如式(8)和式(9)所示.由表达式(8)和表达式(9)可知,δ和Mδ-1矩阵乘电路采用CSE算法优化后分别节省资源41.7%XOR和35.3%XOR.5 S-盒优化结果及分析表2 采用多因子CSE算法优化的S-盒各部分电路资源消耗和关键路径复合域乘法逆δ L S-盒电路资源消耗关键路径资源路径资源路径资源消耗关键路径XO R|AND XO R|A ND XOR XOR XOR XOR XO R|AN D XO R|A ND GF(24)域乘法逆128 3 1 GF(24)域乘法器14 3 11 3 93 35 20 3 3 -- 1 --GF(28)域乘法逆10 9 5 1 υ×a2 68 35 14 3在复合域中,采用多因子CSE算法对AES S-盒进行优化,各模块电路的资源消耗和关键路径如表2所示.表2与表1相比,S-盒中GF(24)域乘法逆电路资源优化了14.3%XOR和11.1%AND,关键路径减少了40.0%XOR;映射-仿射电路资源共优化了39.0%XOR,关键路径减少了40.0%XOR.优化后S-盒所需资源比优化前共节省16.2%XOR和2.8%AND,关键路径缩短了9.1%XOR.表3 各方案的资源消耗和关键路径比较映射-仿射电路 GF(24)域乘法逆电路 S-盒方案资源消耗关键路径资源消耗关键路径资源消耗关键路径XOR XOR XOR AND XOR AND XOR AND XOR AND[3]caseⅢ---- 13 8 3 1 117 35 20 3[5]---- 9 2NOR+2NAND+6AND 5 2 91 36 22 4[6]caseⅢ29 6 13 9 5 2 96 36 20 4[7]------------ 126 36 25 4[8]------------ 123 36 23 4[9]31 8 14 9 3 2 120 35 19 4本文25 6 12 8 3 1 93 35 20 3与论文[3,5 ~9]比较映射-仿射电路、GF(24)域乘法逆电路以及S-盒电路性能,其所需资源和关键路径如表3所示.由表3可知,在映射-仿射电路方面,与文献[6]和[9]相比,本文具有最小的资源消耗和最短的关键路径.在GF(24)域乘法逆电路方面,本文S-盒和文献[3]均有最短的关键路径,而资源节省了7.7%XOR和11.1%AND;与文献[5]相比,本文的GF(24)域乘法逆电路资源消耗稍微增加,但关键路径缩短了40.0%XOR和50.0%AND.结果表明,多因子CSE算法具有较高的电路优化效率,采用多因子CSE算法优化的映射-仿射电路和GF(24)域乘法逆电路均有较好的面积-延时性能.比较整个S-盒电路性能,论文[5]虽然具有最小的电路面积,但其牺牲了电路时延特性;论文[9]虽然具有最优的时延特性,但其电路面积较大.本文优化的S-盒电路对面积和时延特性进行了折衷,相比于文献[5],在有限增加资源消耗的基础上,时延缩短了9.1%XOR和25.0%AND,相比于文献[9],在时延相当的前提下,资源节省了22.5%XOR.采用0.18μm CMOS工艺,2输入1输出XOR门面积为26.6112μm2,标准时延1ns,2输入1输出AND门面积为13.3056μm2,标准时延1ns.由此计算本文和论文[5]、论文[9]的S-盒组合逻辑电路的面积和时延结果如表4所示.表4 0.18μm COMS技术综合S-盒组合逻辑电路方案时延(ns) 面积(μm2) 面积-延时积(μm2·ns)文[5] 26 2900.6208 75416.1408文[9] 23 3659.0400 84157.9200本文 23 2940.5376 67632.3648根据表4数据计算,多因子CSE算法优化后的S-盒面积-延时积比论文[5]减少了10.32%,比论文[9]减少了19.64%,具有更优的面积-延时性能.6 结论本文所讨论的AES S-盒组合逻辑电路采用基于正规基的复合域运算,并提出了新的多因子CSE算法优化S-盒中资源消耗较大的GF(24)域乘法逆电路和映射矩阵电路.与Greedy-CSE算法和Exhaust-CSE算法相比,多因子CSE算法具有更快的计算速度.在S-盒组合逻辑电路优化中,多因子CSE算法能够有效地消除电路冗余资源,具有较好的优化效果.采用0.18μm CMOS工艺实现 S-盒,电路面积为2940.5376μm2,面积-延时积为67632.3648μm2·ns,其面积-延时积比最小面积[5]和最短时延[9]S-盒组合逻辑电路分别减少了10.32%和19.64%.本文所提出的多因子CSE算法不仅适用于AES S-盒电路的优化,也适用于更复杂的有限域MCM运算,如基于有限域的椭圆加密电路和RS编解码电路等.参考文献【相关文献】[1]FIPS-197.Advanced Encryption Standard(AES)[S].[2]高娜娜,李占才,王沁.一种可重构体系结构用于高速实现 DES、3DES 和 AES[J].电子学报,2006,34(8):1386-1390.GAO Na-na,LI Zhan-cai,WANG Qin .A reconfigurable architecture for high-speed implementations of DES,3DES and AES [J].Acta Electronica Sinica,2006,34(8):1386-1390.(in Chinese)[3]M M Wong,M L D Wong,A K Nandi,et al.Composite field GF(((22)2)2) advanced encryption standard(AES)S-box with algebraic normal form representation inthe subfield inversion [J].Circuits,Devices & Systems,IET,2011,5(6):471 -476.[4]X Zhang.High-speed VLSI Architectures for Error-correcting Codes and Cryptosystems[D].Minnesota:University of Minnesota,2005.[5]Canright D.A Very Compact Rijndael S-box[R].California:Naval Postgraduate School,2005.[6]M M Wong,M L D Wong,A K Nandi,et al.Construction of optimum composite field architecture for compact high-throughput AES S-boxes[J].IEEE Transactions on Very Large Scale Integration(VLSI)Systems,2012,20(6):1151 -1155.[7]A Satoh,S Morioka,K Takano,et al.A compact Rijndael hardware architecture with S-box optimization[A].Colin Boyd.Lecture Notes in Computer Science [C].Australia:Springer Berlin Heidelberg,2001.239 -254.[8]N Mentens,L Batinan,B Preneeland,et al.A systematic evaluation of compact hardware implementations for the Rijndael S-box[A].Alfred Menezes.Lecture Notesin Computer Science[C].San Francisco:Springer Berlin Heidelberg,2005,323 -333.[9]X Zhang,Parhi,K K.High-speed VLSI architectures for the AES algorithm [J].IEEE Transactions on Very Large Scale Integration(VLSI)Systems,2004,12(9):957-967.[10]Atri Rudra,Pradeep K Dubey,Charanjit S Jutla,et al.Efficient Rijndael encryption implementation with composite field arithmetic[A].David Naccache.Lecture Notes in Computer Science[C].France:Springer Berlin Heidelberg,2001,171 -184.[11] Mehran Mozaffari-Kermani,Arash Reyhani-Masoleh.Alow-cost S-box for the advanced encryption standard using normal basis[A].IEEE International Conference on Electro/Information Technology,EIT'09[C].Windsor:IEEE,2009.52 -55.[12]王沁,梁静,齐悦.一种有效缩减AES算法S盒面积的组合逻辑优化设计[J].电子学报,2010,38(4):939-942.WANG Qin,LIANG Jing,QI Yue.The area optimized implementation of S-box in AES algorithm[J].Acta Electronica Sinica,2010,38(4):939 -942.(in Chinese)[13]R Pasko,P Schau mont,V Derudder,et al.A new algorithm for elimination ofcommon subexpressions[J].IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems,1999,18(1):58 -68.。