碎纸片的拼接复原数学模型的构建
- 格式:pdf
- 大小:998.27 KB
- 文档页数:2
121数学学习与研究2014.11碎纸片拼接复原的数学模型◎杨武李博(江苏南京农业大学工学院210000)【摘要】本文对碎片的拼接复原问题,建立了碎纸片拼接模型,编写matlab 程序,利用人机交互指令实现碎片的快速拼接.对2013年“高教社杯”全国大学生数学建模竞赛的B 题中所给11x 19个碎片文件进行拼接.【关键词】碎片拼接模型;matlab ;灰度值矩阵;Kmeans 聚类;人机交互一、研究背景及意义近年来,大量政府机关、企事业单位采用碎纸机对废弃文件或失效的机密文件进行破碎,这种破碎方法产生的碎片多为规则的.这使得在进行破碎文件的复原拼接时,只能根据文字内容进行匹配,为此,本文考虑应用当前的计算机识别技术开发碎纸片的自动拼接技术,对所有碎片搜索和筛选,寻找能够在某种指标上匹配的碎片进行拼接.提高拼接复原效率,从而大大降低人工工作量和难度.对碎片自动拼接问题的研究,不仅具有广阔的应用前景,而且具有很强的理论意义.二、图像碎片预处理首先,利用matlab 图像处理功能对碎纸片进行图像预处理.即将碎纸片数字化,转化为图片文件的数据.即一个二维数组构成的灰度值矩阵,这个矩阵存储着一张碎纸片各个像素点的颜色值,其中255表示白色,0表示黑色,图片中颜色均处在黑白、或黑白之间,图片数字化后的数字范围在0 255之间.三、碎纸片拼接模型的假设1.假设碎片原文件都存在上、下、左、右的页边距,且边距大于行间距和列间距;2.假设相邻碎片间纸张信息的损失可以忽略不计;3.假设碎纸机是沿平行或垂直于文字的方向对纸张进行切割的.四、碎纸拼接模型的建立1.挑出每行最左边的图片:根据图片的边缘留有空白部分的特性,挑选出图片最左边存在空白部分的图片作为左边界的候选图片.方法实现:计算图片左边距留白宽度:即可用灰度值矩阵中左端竖列上全为255(即左侧完全空白)的连续列数度量,由matlab 检测出每张图片的留白宽度.留白宽度排序:对上面得到的留白宽度进行排列,取排在前面的11张图片作为拼接过程的起始碎片.2.图片按行分类:根据Kmeans 聚类算法,对碎片进行按行分类.分类实现:①先根据底端一行是否为纯空白将209幅图分为下端有纯空白行和下端有被截文字两类.②对于空白行一类,下端空白行数相同或相近的纸条属于原文件同一行;③对于下端有被截文字的一类,下端被截文字高度相同或相近的纸条属于原文件同一行.④分析确定好的最左端图片的特征,依此为11个聚类中心,利用matlab 程序分类.3.对同行碎片进行拼接①拼配原则———突变数将所有的碎片进行处理后得到灰度值矩阵,分别记作M i (i =1,…,n )(n 为图片的数量)通过对每一张碎片的数据进行了分析,不难发现在每一张碎片上,同一行相邻两个点的像素值从0变为255或者从255变到0的比例仅有0.016%左右.将相邻两个像素值由0变到255或者由255变到0定义为一次突变.定义两张碎片的突变数如下:设Ri 为某张碎片M i 的最右侧一列像素值,L j 为另一张碎片M j 的最左侧一列像素值(Ri 和L j 均为180行的列向量),碎片M i 和M j 的突变数:T ij =∑180k =1flag (k )ij ,flag (k )ij =1R(k )i -L (k )j =2550R(k )i -L (k )j <{255,其中R(k )i 表示向量Ri 的第k 个分量,L (k )j 表示向量L j 的第k 个分量.②匹配过程以上面确定的最左边的碎片为起点,计算该碎片所在行的可能的碎片与其的突变数T.理论上T 值越小,两个图片的匹配的可能性最大,将T 进行由小到大的排序,在matlab 程序中让起始碎片优先与T 值最小的匹配,若匹配不成功再依次考虑T 值较大的,直至匹配成功.4.人工干预①人工干预时机:本文对209个已有碎片,分析发现若其余碎片与其的突变数仅有一个为0,则突变数为零的那个碎片一定与该碎片相匹配,一旦出现突变数均不为0,则需进行人工干预.②人工干预方法:为减少人工干预次数,做如下工作:1)计算碎片M i 灰度值矩阵最右一列Ri 与位于M i 行的其余碎片灰度值矩阵最左一列L j 的偏差平方和S 作为人工干预的指标:S =∑180i =1(Ri-L i )2.2)对偏差平方和S 由大到小进行排序,将碎片的序号放入集合US 中,S 大的最有可能与碎片M i 相匹配③在matlab 程序中让碎片M i 依次与集合US 中的图片进行匹配,每次对两个图进行匹配时,令命令窗口弹出这两个图匹配在一起的图片,进行人工观察.通过对拼接处文字字形和语义的分析,人工检查该匹配是否合理.5.纵向拼接①观察11条已拼好的横切纸条,根据所有纸条的上边缘特征确定位于原文件顶端的横切纸条,并以该纸条为起始纸条.②根据起始纸条的下边缘灰度值特征,利用上述步奏拼出整张文件.五、模型的评价与改进1.模型的优点:模型采用突变数和偏差平方和作为评价函数评定碎片间邻边的相关度,高效而且实用.能大大减少人工干预的次数.2.模型的局限性:由于研究的是碎纸机产生的碎片.该模型只考虑了对多个相同的形状规则的碎片进行拼接,且当碎片的数量增加且单个碎片的文字覆盖率越小时,更易产生灰度分布情况相似的碎片,需要进行人工干预的次数会相应增多.六、结论本文对碎纸片的匹配原则和人工干预进行了探讨和研究,建立了一个可靠高效的数学模型,利用图片数字化后数值之间的分布规律和相关度引入突变值和偏差平方和作为评价指标,利用matlab 软件实现快速拼接.并为了提高拼接准确性,巧妙地使用人机交互指令进行人工的检测干预.【参考文献】[1]何鹏飞,等.基于蚁群优化算法的碎纸拼接.计算机工程与科学,2011,33(7).[2]邓薇.MATLAB 函数速查手册.北京:人民邮电出版社,2010.[3]宋晓闯.基于灰度和几何特征的图像匹配算法研究.万方数据库,2013-09-13.。
碎纸片的拼接复原 2013全国数学建模竞赛——碎纸片拼接复原导读:就爱阅读网友为您分享以下“2013全国数学建模竞赛——碎纸片拼接复原”的资讯,希望对您有所帮助,感谢您对的支持!2013高教社杯全国大学生数学建模竞赛重庆工商大学姜木北小组作品编号专用页赛区评阅编号(由赛区组委会评阅前进行编号):赛区评阅记录(可供赛区评阅时使用):全国统一编号(由赛区组委会送交全国前编号):全国评阅编号(由全国组委会评阅前进行编号)碎纸片的拼接复原摘要目前,“碎片拼接复原”技术在司法物证复原、历史文物修复及社会生活各项领域扮演着重要角色,对于碎片数量特别巨大而人工又难以在短时间内完成碎片拼接时,要找到一种高效快捷的自动拼接方法已变得尤为重要。
本文针对只有中英文的碎片拼接问题,综合分析了从单一的纵切到纵横切以及纵横切双面碎片这三个不同的情况,提出了碎片拼接复原的解决方案.在问题一中,对于仅有“纵切”且数量相对较少的碎纸片,我们基于边缘去噪和采用构建碎纸图片的左右边缘二值矩阵提取相似度分析的方法,再通过两张图片左右相似度匹配排序,得到附件1和附件2中的碎纸排序(见表2和表3),并运用Matlab的图像处理工具箱,按排列顺序导入碎纸片得到相应拼接结果(见附录附件一).在问题二中,由于碎纸片数量相对较多,同时存在横切和纵切的情况,在问题一的基础上增加了碎纸片的上下边缘相似度匹配。
在进行人工干预,找到第一张起始碎纸片作为匹配起点后,我们基于索贝尔算子的原理,对碎纸片灰度值进行边缘相似度的旋转检测和比较匹配,最后进行二叉树搜索排序(见表4和表5)。
对附件3和4的碎纸图片拼接出的结果详见附录中的附件二.在问题三中,由于碎纸片是两面的并且碎纸片数量更多,若采用第二问的求解方案则加大了求解难度同时也存在较大误差。
因此,我们基于蚁群算法(ACA)的SIFT特征点匹配原理来求解。
先提取碎纸图片特征点,然后基于蚁群算法的最优化快速比对匹配,最后基于ACA的搜索排序对碎纸片拼接。
碎纸片拼接复原的数学方法拼图游戏,一种看似简单却富含深度的游戏,给人们带来了无穷的乐趣。
然而,大家是否想过,这样的游戏其实与数学有着密切的?让我们一起探索碎纸片拼接复原背后的数学方法。
碎纸片拼接复原,其实就是一个计算几何问题。
在数学领域,欧几里得几何和非欧几里得几何是两个基本而又重要的分支。
欧几里得几何主要研究的是在平面上两点之间的最短距离,这是我们日常生活中常见的几何学。
而非欧几里得几何则研究的是曲面上的几何学,这种几何学并不符合我们日常生活中的直觉。
碎纸片拼接复原的问题就是一种非欧几里得几何问题。
在计算机科学中,图论是研究图形和网络的基本理论。
其中,图形遍历算法可以用来解决碎纸片拼接复原问题。
这种算法的基本思想是:从一点出发,尽可能多地遍历整个图形,并在遍历的过程中对图形进行重建。
对于碎纸片拼接复原问题,我们可以将每一张碎纸片看作是图中的一个节点,当两张碎纸片拼接在一起时,它们就形成了一个边。
通过这种方式,我们可以将所有的碎纸片连接起来,形成一个完整的图形。
在计算机科学中,碎纸片拼接复原问题被广泛应用于图像处理、数据恢复等领域。
例如,在数字图像处理中,如果一张图片被切割成若干块,我们可以通过类似的方法来恢复原始的图片。
在数据恢复领域,当一个文件被删除或格式化时,我们也可以通过类似的方法来恢复文件。
碎纸片拼接复原的问题不仅是一个有趣的拼图游戏,更是一个涉及计算几何、图论等多个领域的数学问题。
通过运用这些数学方法,我们可以有效地解决这个问题,从而更好地理解和应用这些数学理论。
在我们的日常生活中,我们经常会遇到一些破碎的物品,例如碎镜子、破碎的瓷器,或是碎纸片等。
这些物品的复原过程都需要一种科学的方法来帮助他们重新拼接起来。
这种科学方法就是碎纸片拼接复原技术。
碎纸片拼接复原技术是一种基于数学模型的方法,它通过比较碎纸片边缘的形状、纹理、颜色等特征,来找到碎纸片之间的相似性和关联性,从而将它们拼接起来。
2013高教社杯全国大学生数学建模竞赛B题碎纸片的拼接复原首先分析问题:对于第一问分析如下对于给定的来自同一页印刷文字文件的碎纸机破碎纸片(仅纵切),建立碎纸片拼接复原模型和算法,并针对附件1、附件2给出的中、英文各一页文件的碎片数据进行拼接复原。
如果复原过程需要人工干预,请写出干预方式及干预的时间节点。
求matlab图像拼接程序clear;I=imread('xingshi32.bmp');if(isgray(I)==0)disp('请输入灰度图像,本程序用来处理128 *128的灰度图像!');elseif (size(I)~=[128,128])disp('图像的大小不合程序要求!');elseH.color=[1 1 1]; %设置白的画布figure(H);imshow(I);title('原图像');zeroImage=repmat(uint8(0),[128 128]);figure(H); %为分裂合并后显示的图设置画布meansImageHandle=imshow(zeroImage);title('块均值图像');%%%%%设置分裂后图像的大小由于本图采用了128像素的图blockSize=[128 64 32 16 8 4 2];%%设置一个S稀疏矩阵用于四叉树分解后存诸数据S=uint8(128);S(128,128)=0;threshold=input('请输入分裂的阈值(0--1):');%阈值threshold=round(255*threshold);M=128;dim=128;%%%%%%%%%%%%%%%%% 分裂主程序%%%%%%%%%%%while (dim>1)[M,N] = size(I);Sind = find(S == dim);numBlocks = length(Sind);if (numBlocks == 0)%已完成break;endrows = (0:dim-1)';cols = 0:M:(dim-1)*M;rows = rows(:,ones(1,dim));cols = cols(ones(dim,1),:);ind = rows + cols;ind = ind(:);tmp = repmat(Sind', length(ind), 1);ind = ind(:, ones(1,numBlocks));ind = ind + tmp;blockValues= I(ind);blockValues = reshape(blockValues, [dim dim numBlocks]);if(isempty(Sind))%已完成break;end[i,j]=find(S);set(meansImageHandle,'CData',ComputeMeans(I,S));maxValues=max(max(blockValues,[],1),[],2);minValues=min(min(blockValues,[],1),[],2);doSplit=(double(maxValues)-double(minValues))>threshold;dim=dim/2;Sind=Sind(doSplit);Sind=[Sind;Sind+dim;(Sind+M*dim);(Sind+(M+1)*dim)];S(Sind)=dim;end对于第二问于碎纸机既纵切又横切的情形,请设计碎纸片拼接复原模型和算法,并针对附件3、附件4给出的中、英文各一页文件的碎片数据进行拼接复原。
碎纸片的拼接复原摘要碎纸片的拼接复原是一门借助计算机,把大量碎纸片重新拼接成初始纸张的技术。
针对问题一,本文首先利用碎纸片图像灰度矩阵的边缘矩阵,建立了两个碎纸片之间的匹配度函数,求得了每一张图片之间左右边缘匹配度矩阵。
然后根据左边边缘位置的碎片的左边空白部分最多的特点,确定了左边位置的碎纸片。
接着根据拼接碎纸片的拼接复原时,所有碎纸片匹配度之和取极大值的原则,采用贪心算法,得到了所有碎纸片的初始位置,拼接复原了附件1和附件2中纸片。
针对问题二,由于附件3碎片数量太多,并且碎片的拼接复原,是一个以碎纸片总匹配度为目标函数的组合优化问题。
所以本文采用遗传算法将碎纸片的编号作为基因,并将基因均匀分成19段,按顺序每一段对应一个初始纸片列位置,进行了求解。
然后,根据边缘碎纸片某些边的空白部分多的特征,对初始基因进行了优化。
接着,根据碎纸片的黑色像素密度不同的特点,将碎纸片分成三类,根据同类纸片优先匹配的原则,对遗传算法的运行过程进行了优化,拼接复原了附件3和附件4中纸片。
针对问题三,随着碎纸片量的增多,计算量急剧增加。
在上述拼接复原碎纸片的基础上,又引进了同行位置碎纸片的上部(或下部)空白位置宽度相近的聚类思想。
先对每个类内部拼接,在合并所有类并做一次整体拼接。
由于时间有限,我们未能完成最后一次的整体的拼接,但我们会在比赛后继续探究。
关键词:边缘矩阵匹配度函数遗传算法聚类一、问题重述碎片拼接实际用途已经越来越广泛,传统上拼接复原工作由人工完成,碎片拼接的准确率较高,但效率很低。
并且当碎片数量很大时,人工短时间内拼接出来几乎是不可能的。
所以开发碎纸的拼接技术,以提高拼接复原效率已成为越来越多人的期望。
现在,在碎纸片是规则的情况下,题目要求我们在以下条件建立碎纸片拼接复原模型和算法。
1.来自同一页印刷文字文件(中文、英文各一页)的碎纸机破碎纸片(仅纵切)拼接复原,并将附件1和附件2复原。
2.对碎纸机既纵切又横切文件的情形,将碎纸片拼接完整。
关于碎纸片的自动拼接复原的数学模型问题摘要本文根据碎纸片内的文字特征、图片像素特征特点提出了基于文字特征的文档碎纸片自动拼接复原模型。
根据碎纸拼接模型提出了基于MATLAB[1]语言为核心的自动拼接算法,并用该算法的程序对碎纸机碎纸的实际例子进行了拼接实验。
对这类边缘相似的碎纸片的拼接,理想的计算机拼接过程应与人工拼接过程类似,即拼接时不但要考虑待拼接碎纸片边缘是否匹配,还要判断碎片内的字迹断线或碎片内的文字内容是否匹配。
然而由于理论和技术的限制,让计算机具备类似人类那种识别碎片边缘的字迹断线、以及理解碎片内文字图像含义的智能几乎不太可能。
但是利用现有的计算机技术,完全可以获取碎片文字所在行的几何特征信息,比如文字行的行高、文字行的间距等信息。
拼接碎片时如利用这些信息进行拼接,其拼接效率无疑比单纯手工拼接要高。
针对问题一,由于碎纸片数量比较少且只有纵向切割,采用比较简单的二值模型进行碎纸配对。
由于图像都具有三颜色RGB,扫描之后的碎纸片需要对其进行灰度处理得到一张灰度值图像,若定义原点之后,每一个像素点都具有X、Y坐标值,碎纸片的灰度值可构成一个二维矩阵。
二维矩阵的每一个元素都代表着碎纸片的特征值,根据图片每一个灰度值的大小即可判断出碎纸图片边界特性。
对于一个选定的纸片,将每一个待拼接碎纸片的二维矩阵的最左一列与其二维矩阵的最右一列进行差值比较,再求把所有的差值求和,生成一个相应的矩阵。
将该矩阵的最小值来作为相似度矩阵的判断条件,以此便可求出该图片是否能够成功拼接。
最后利用加权平均的融合方法进行图像无缝平滑,得到无缝拼接[2]图像。
针对问题二:根据附件3和附件4给出的碎片资料可以看出,碎片除了有纵向切割之外还有横向切割,这给单一的拼接算法带来了一定的困难。
本文根据图片的质量与清晰度可以将问题简化,将附录所给出的碎纸片用简单的算法进行分组归类,使得拼接问题变得单一化,先使用第一问的模型进行纵向拼接成11行之后,再以第一问的模型进行横向拼接。
碎纸片的拼接复原数学模型的构建摘要院本文讨论在碎纸机以不同方式破碎纸片的情况下建立碎纸片的拼接复原模型,以解决碎片数量巨大时人工拼接的难题,本文建立了三个具有针对性的模型。
模型一:方差分析法下的碎纸片拼接模型。
在以纵切方式破碎纸片的情况下,提取碎纸片左右边缘的灰度列向量,利用碎纸片边缘处为单边同宽空白区域的特殊性对碎纸片进行定位,再利用方差分析法和欧式距离解决了纵切碎纸片的拼接复原问题。
模型二:文字行间距一致性的碎纸片拼接模型。
以纵横方式破碎纸片,利用同行文字行间距一致性的主要特性可解决横向碎纸片的拼接复原问题,简化了模型,将离散的像素灰度矩阵平均化处理,进而利用欧氏距离对碎纸片进行匹配,得到了碎纸片复原后的完整图片。
模型三:二值化Otsu 算法的碎纸片拼接复原模型。
本文从双面纵横破碎纸片的问题出发,建立了纸片二值化Otsu 法拼接模型,先对碎纸片分组预处理,为将复杂模型简单化,再利用全局阈值方法中典型的Otsu 法求取碎纸片的最佳阈值,以该阈值对碎纸片中所含灰度值信息进行划分实现二值化处理,将边缘区域明显化,利用统计学方法求取拼接后的纸片间成功匹配的像素点占纸片边缘的概率,最终双面纵横破碎纸片的拼接复原问题得以解决。
Abstract: This paper discusses the construction of splicing scrap recovery model under the condition of shredder breaking paper intopieces in different ways, so as to solve the problem of artificial splicing when there is a great amount of pieces. This paper establishes threecorresponding model.Model One: Paper Scrap Splicing Model under Analysis of Variance.Shredding paper through longitudinal mode, the paper selects the gray scraps of paper around the edge extraction column vector,locates the paper scrap by using edge of paper scraps as blank area with same width, then solves the problem of reconstruction of thelongitudinal cutting paper splicing through analysis of variance method and Euclid Distance.Model Two: Paper Scrap Splicing Model with Consistency of Text Line Spacing.Shredding paper through vertical and horizontal mode, its main characteristics of peer text line spacing consistency can solve theproblem of reconstruction of splicing transverse paper scraps, simplifies the model, processes the pixel matrix of discrete in average andmatches the paper scraps through Euclid Distance and then gets the complete picture of paper scrap afterrecovery.Model Three: Paper Scrap Splicing Model Based on Binaryzation Otsu Algorithm.This paper firstly expounds the double side's vertical and horizontal mode, establishes the paper scrap splicing model based onbinaryzation Otsu algorithm. The paper firstly does preconditioning for paper scraps into groups, simplifies the complex model, and then getsthe optimal threshold of the paper scraps by using typical Otsu algorithm of global threshold method. The paper classifies the gray valueinformationof paper scraps through this threshold to realize binaryzation processing, specifies the edge area, evaluates the probability ofsuccessful matching pixels on edge of splicing paper, and finally solves the mosaic and restoration problems of double side's vertical andhorizontal mode.关键词院离散;方差分析;置信区间;阈值;Otsu 算法Key words: discrete;analysis of variance;confidence interval;threshold;Otsu algorithm中图分类号院TQ018 文献标识码院A 文章编号院1006-4311(2014)25-0238-031模型一考虑以为空间拼接情况,为了获取拼接图像所必须的数据,文章以像素为单位离散所得碎片:利用VC++使用了Windows.H 头文件并调用RGB 等结构定义获得不同像素点的g 值[1],生成了多个灰度矩阵。
数学建模中的碎纸片拼接复原要点研究嘿,你是不是也碰到过这样的一种场景?某天,不小心把文件弄坏了,纸张四分五裂,散落一地。
可能是你不小心掉了咖啡,可能是好奇心作祟,忍不住撕了某个文件,结果纸片就像乱七八糟的拼图一样,飞到天上,摔在地上,结果呢?你站在碎片堆里一脸懵逼,心里想着,“这怎么办?”你可以想象那种绝望的感觉,不是么?碎纸片拼接复原这事儿,虽然听起来有点疯狂,但它不仅仅是纸张的恢复,更是一种深层次的“重生”之道,充满了无限可能,简直就像是面对一堆零散的拼图,我们总能找到适合的解决方案。
看着那些纸片,你可能会想:“这就算了吧,反正都是碎片,哪里能拼得起来?”可是,事实是,解决这些碎片的方法其实有很多,数学建模的意义不就是什么?找到正确的方法和思路,让这些破碎的片段重新组合成一个完整的整体。
是不是有点像拼乐高?看似没有头绪,但只要找对了顺序,最后一切都能完美呈现。
你看,数学建模就有点这个意思。
对,那些碎片,它们可能是无序的,是乱糟糟的,可是只要你有了对的思路、方法,一切都能恢复如初,甚至超乎你想象的完美。
要说碎纸片的拼接复原,首先就得搞清楚什么是数学建模。
你得想象它不是一个万能的机器,它是一个思维工具,它能帮你捋清楚思路,找到其中的规律。
就像拼图游戏,你眼前散落的纸片就像是一个个信息块,散得毫无规律,似乎你根本无法看到整个画面。
但如果你能从碎片中抓住一些关键的联系,就能一步步找出这些碎片的拼接顺序。
所以,复原碎纸片的过程其实是一个“解谜”过程。
这其中不仅仅是纸张本身的重组,更是一个对空间、时间甚至是规则的深刻理解。
说白了,数学建模就像是给了我们一套“万能钥匙”,用它打开看似混乱的局面,找到通往完整答案的道路。
像拼图一样,首先得弄清楚每块拼图的形状,哪个角落是直的,哪个边缘是圆的,哪些部分应该放在一起。
这里面有很多学问,一旦你把规律摸清了,整个过程就像开挂一样,轻松自如。
可能会有人觉得:“哎呀,这个太复杂了吧,怎么能从一堆碎片中找到规律呢?”其实啊,碎纸片复原的关键就在于“分析”和“推理”。
碎纸片的拼接复原摘要本文主要采用了模糊模型识别、灰度相关、傅里叶变换等方法对碎纸自动拼接进行了深入探讨。
文中主要结合司法物证复原、历史文献修复、军事情报获取这一背景,针对横纵切碎自动拼接展开探究。
提出一种基于最大梯度和灰度相关的全景图拼接法。
同时采用边界提取法使图像预处理达到最好的效果,期间采用傅里叶变换对图像进行处理,最后再利用匹配准则等方法处理图像的拼接。
最终应用模糊模型识别法建立模型,通过隶属函数的建立实现最终的碎纸拼接。
期间有些碎纸片计算机无法识别,需要进行人工干预,从而才能得到一副完整的复原图。
图像拼接的主要工作流程可以概括为以下三个步骤:(1) 对图像碎片进行预处理,即对物体碎片数字化,得到碎片的数字图像。
(2) 图像碎片匹配,通过匹配算法找到相互匹配的图像碎片。
(3) 图像碎片的拼接合并,将相互匹配的图像碎片拼接在一起得到最终结果。
针对问题一:将图像导入MATLAB 进行相应的转化,由于数据量较大,所以对数据进行优化提取。
计算提取数据的均值与方差,找出其模糊集,建立符合题意的隶属函数。
由于模糊集的边界是模糊的,如果要把模糊概念转化为数学语言,需要选取不同的置信水平(01)λλ≤≤ 来确定其隶属关系,从而实现纵切图像的全景拼接。
(如表一、表二)针对于问题二:由于是横纵切碎纸片,所得图像较多,采用提取像素法对图片进行灰度分析,通过中介量阈值的确定来找出像素点的差别,梯度值在这一过程中也是作为衡量两张碎纸片是否匹配的标准。
从而对数据进行处理,最后导入MATLAB 软件实现拼接。
(如表三、表四)针对问题三:它是在问题一和问题二上加深了难度,采用提取像素点,傅里叶变换,灰度相关、模糊相似优先比等方法对问题进行分析,通过(0,1)矩阵的简化运算以及傅里叶变换得到最后的结果,但对于傅里叶变换需说明一点,变换之后的图像在原点平移之前四角是低频,最亮,平移之后中间是低频最亮,也就是说幅角比较大。
此过程中同时也需要人工干预,最终实现拼接。
碎纸片的拼接复原问题模型摘要本文研究的是碎纸片的拼接复原问题。
针对碎纸不同的裁剪特点,我们运用相关性系数法、聚类分析法等建立不同的模型来解决不同裁剪特点和不同纸张的复原问题。
针对问题一,我们利用图像数字化技术,借助MATLAB软件将题目中附件1,2所给的图片转化为灰度值矩阵,并作二值化处理,然后取出每个矩阵第一列和最后一列,采用相关系数分析的方法,计算每第一列和每最后一列相关系数,根据相关系数的大小确定相邻的图片,逐步确定各张图片的顺序,最后得到复原的图片。
中文文档拼接的顺序为:8,14,12,15,3,10,2,16,1,4,5,9,13,18,11,7,17,0,6,中文文档复原的结果见附录1;英文文档拼接的顺序为:3,6,2,7,15,18,11,0,5,1,9,13,10,8,12,14,17,16,4,英文文档复原结果见附录2。
针对问题二,同样,在将图片二值化处理后,我们运用聚类分析法将纵横裁剪后的图片进行行分类,经过人工干预后,获得需要的矩阵尺寸,然后根据图片的特点运用图片的上下边界和左右边界进行二次匹配,直到找到大致正确的图片排序;同时在必要时,进行二次人工干预,直到获得正确的图片排序。
关键词:碎纸片复原图像数字化相关性系数聚类法1 问题重述1.1 问题背景碎文件的拼接在司法物证复原、历史文献修复以及军事情报获取等领域都有着重要的应用。
然而,传统的拼接复原工作需由人工完成,准确率较高,但效率很低。
特别是当碎片数量巨大,人工拼接很难在短时间内完成任务。
随着计算机技术的发展,人们试图开发碎纸片的自动拼接技术,以提高拼接复原效率。
本题即是通过一些模型算法开展对碎纸自动拼接技术的研究,具有重要的现实意义。
1.2 要解决的问题问题一:对于给定的来自同一页印刷文字文件的碎纸机破碎纸片(仅纵切),建立碎纸片拼接复原模型和算法,并针对附件1、附件2给出的中、英文各一页文件的碎片数据进行拼接复原。
如果复原过程需要人工干预,要求写出干预方式及干预的时间节点。
碎纸片的拼接复原模型摘要本文针对破碎纸片形状规则和碎片间无有效重叠区域等特点,选取了信息熵、差方和、欧氏距离、相关系数、互信息和灰色斜率关联度作为碎纸片之间的相似性判别准则,给出了碎纸片拼接复原模型和算法,解决了破碎纸片的拼接复原问题.对于问题1,引入信息熵来衡量每个碎片含有的信息量,将熵值最小的碎片确定为印刷文字文件的第一列;利用差方和计算出第1列右端与其余碎片左端的相似程度,求得碎纸片之间的最佳匹配组合,借助Matlab软件成功实现了附件1和附件2的碎片拼接复原.对于问题2,通过计算每个碎片的信息熵,找到印刷文字文件第一列的11个碎片;再利用互信息和相关系数评价碎纸片之间的相似性程度,确定出碎片间的上下位置关系,得到了印刷文字文件的第一列;然后利用欧氏距离作为相似性测度,进一步进行碎片间的粗拼接.若某个碎纸片与多个碎片的欧氏距离相等,则利用灰色斜率关联度进行碎纸片间的细拼接,借助Matlab软件完成了对附件3和附件4给出的碎片拼接复原.对于问题3,基于模糊聚类方法,粗略地确定出每个碎片的正面和反面;然后利用问题2的算法对已分类的正面碎纸片进行拼接复原;针对无法复原的碎纸片,借助Matlab 软件和最优搜索算法进行人工干预,确定出附件5文件正面的拼接复原;根据碎片数据编号的命名规则,在正面碎片数据的拼接复原结果中填充对应编号的反面碎片数据,实现了附件5文件反面的拼接复原.最后,对碎纸片的拼接复原模型和算法进行了分析和展望.关键词:破碎纸片的拼接复原;信息熵;差方和;互信息;欧氏距离;灰色斜率关联度;模糊聚类1. 问题重述破碎文件的拼接在司法物证复原、历史文献修复以及军事情报获取等领域都有着重要的应用.传统上,拼接复原工作需由人工完成,准确率较高,但效率很低.特别是当碎片数量巨大,人工拼接很难在短时间内完成任务.随着计算机技术的发展,人们试图开发碎纸片的自动拼接技术,以提高拼接复原效率,需解决以下几个问题:问题1,考虑对于给定的来自同一页印刷文字文件仅纵切的破碎纸片的拼接复原模型和算法,并针对B 题附件1、附件2给出的中、英文各一页文件的碎片数据进行拼接复原.如果复原过程需要人工干预,还需要写出干预方式及干预的时间节点.并就附件1和附件2的碎片数据给出拼接复原结果.问题2,考虑对于碎纸机既纵切又横切的情形,设计出碎纸片拼接复原模型和算法,并针对B 题附件3、附件4给出的中、英文各一页文件的碎片数据进行拼接复原.如果复原过程需要人工干预,请写出干预方式及干预的时间节点.并就附件3和附件4的碎片数据给出拼接复原结果.问题3,则需要考虑更一般的情形,即考虑有双面打印文件的碎纸片拼接复原问题.对B 题附件5给出的是一页英文印刷文字双面打印文件的碎片,设计相应的碎纸片拼接复原模型与算法,并就附件5的碎片数据给出拼接复原结果.2. 模型假设(1) 碎纸片的切割是等间距的,忽略切割碎纸片时由机器工作所产生的摩擦误差; (2) 碎片切缝处的图像灰度平滑;(3) 碎片在缩放的情况下,像素点保持稳定; (4) 碎片上的文字只显示黑白两种颜色.3. 符号说明N :每张碎片像素点的数目;ij a 、ij b :图像A 、B 在()j i ,的像素值;),(B A SSD :A 与B 的差方和;)(a h A :图像A 中第a 个灰度级的像素个数与总的像素个数之比;)(ab h AB :图像A 中第a 个灰度级和图像B 中第b 个灰度级的像素对数与两幅图像总的像素对数之比;)(A H 、)(B H :图像A 和B 各自含有的信息量;)(AB H :两幅图像A 和B 的联合信息熵;ij d :两幅图像A 和B 的欧式距离;ij a 、ij b :图像A 和B 在 ()j i ,位置的像素值; a :图像A 像素值的平均值;),(B A C :两幅图像A 和B 的相关系数;)(a P A 、)(b P B :碎片边缘概率密度; )(ab P AB :两碎片A 和B 的联合概率密度;);(B A I :两碎片A 和B 的互信息;)(t X :系统特征函数;)(t Y i :相关因素函数;tt x ∆∆)(:系统特征函数)(t X 在t 到t t ∆+的斜率; tt y i ∆∆)(:相关因素函数)(t Y i 在t 到t t ∆+的斜率; )(t x ∆:系统特征函数在t 到t t ∆+的增量;)(t y i ∆:相关因素函数在t 到t t ∆+的增量; x :系统特征函数的均值;i y :相关因素函数的均值;)(t i ξ:)(t X 与)(t Y i 在t 时刻的灰色斜率关联系数;D :对称距离矩阵;i ε:)(t X 与)(t Y i 在t 时刻的灰色斜率关联度.4. 问题分析由于文章以行书写,只有段首段尾有空白,切缝处恰好以列之间的空白或笔画出断开的概率较小,在拼接碎纸片前需要对B 题附件1—5的碎片内图像进行二值化处理,进而获取由0和1组成的矩阵.扫描后的图像有亮的图像和暗的背景组成,由于光照、拍摄角度等因素,一幅图像往往包括文字、背景还有噪声等.如果从多值的数字图像中直接提取目标,最常用的方法就是设定阈值T ,用T 将图像的数据分为两部分:大于T 的像素群和小于T 的像素群.由于5个附件中的文字显示都是黑白颜色,因此先调用Matlab 软件中的im2bw()对每个碎纸片进行二值化图像预处理,然后综合利用图像的相似性测度寻找高精度的匹配碎片,从而实现整个印刷文字文件的复原.5. 模型的建立与求解5.1 问题1的求解5.1.1 模型的建立差方和利用两幅图像对应位置的差方和均值表示图像之间的相似程度,定义为[1],∑-=ij21),()(ij ij NB A SSD b a (1) 式中,N 为每幅图像像素点的数目,ij a 和ij b 分别是图像A 和B 在()j i ,位置的像素值.当两幅图像正好可拼接时,),(B A SSD 值最小.差方和计算的时间复杂度为()2N O .信息熵反映了图像含有的信息量大小.信息熵越小,图像包含的信息量越小,往往空白区域越多,其定义为[2-4]:∑=aA A a h a h A H )(log )()( (2)其中,)(a h A 表示图像A 中第a 个灰度级的像素个数与总的像素个数之比. 5.1.2 拼接复原算法附件1和附件2中碎纸片的切割方式只有纵切一种,假设碎片的总数为n 个.考虑到纵切的特殊性,给出如下的拼接复原算法:步骤1 计算每一个碎纸片)1(n i A i ≤≤的信息熵)(i A H ,并确定出熵值最小的一个碎片n i i A H 1)}(min{=为印刷文字文件的第1列;步骤2 计算第1列图像A 的右边与其余1-n 个碎片)1,1(≠≤≤j n j A j 的左边的差方和),(1j A A SSD ,确定出与第1列图像差方和最小的碎片为印刷文字文件的第2列;步骤3 重复步骤2,依次继续,直到找到印刷文字文件的n 列为止. 5.1.3 问题1的求解借助Matlab 软件对以上拼接复原算法进行仿真,得到如下结果: (1) 附件1中的中文文件复原结果表1 附件1中19个碎片的信息熵从表1可以看出,19个碎片所包含的信息量中,第008碎片的信息熵最小,因此第008碎片是附件1中的中文文件的第1列.表2 附件1中19个碎片之间差方和最小的配对碎片表从表2可以得到附件1中的中文文件复原结果,如下表所示:表3 附件1中文件的拼接复原结果表附件1中的中文文件复原图结果见附录1.(2)附件2中的英文文件复原结果表4 附件2中19个碎片的信息墒从表4可以看出,所有19个碎片所包含的信息量中,第003碎片的信息墒最小,因此第003碎片是附件2文件的第1列.表5 附件2中19个碎片之间差方和最小的配对碎片表从表5可以得到附件2的英文文件复原结果,如下表所示表6 附件2英文件的拼接复原结果表附件2中英文文件的复原结果图见附录2.5.2 问题2的求解5.2.1 模型的建立由于互信息测度是从图像的统计信息出发,既不需要两幅图像的灰度关系,也不需要图像进行预处理,因此成为目前广泛使用的图像配准相似性测.在图像配准过程中,如果两幅图像精确匹配,互信息达到最大.联合熵定义如下[5]:)(log )()(,ab h ab h AB H AB ba AB ∑= (3)其中)(ab h AB 表示图像A 中第a 个灰度级和图像B 中第b 个灰度级的像素对数与两幅图像总的像素对数之比.互信息定义为)()()();(AB H B H A H B A I -+= (4)欧氏距离被视为两个图像的相似程度,距离越近就越相似,其定义为∑-=2)(ij ijij b ad (5)相关系数是标准化的协方差函数,当两幅图像的灰度之间存在线性畸变时,仍能较好的评价两幅图像之间的匹配性程度.图像的相关系数1),(≤B A C ,它是两幅图像A 和B 特征点之间近似程度的一种线性描述.如果),(B AC 越接近于1,两幅图像的相似程度越大,越近似于线性关系.选择相关系数中最大的相关系数所对应的特征点为这个点的匹配特征点.当两幅图像可匹配时,相关系数达到最大值.相关系数定义如下[7-9]:2/122))(*)(()(*)(),(∑∑∑----=b b a a b b a bB AC ij ij ijij ij(6)两幅图像相关系数计算的时间复杂度为)(2N O ,其中N 为每幅图像像素点的数目. 灰色斜率关联度的基本思想是根据待拼碎片的特征曲线(称系统特征函数)与参照碎片的特征曲线(称相关因素函数)的相似程度来判断其联系是否紧密,曲线越接近,关联度就越大,反之就越小.灰色斜率关联度的定义为[10]:∑-=-=11)(11n t i i t n ξε (7) 其中,t t y yt t x x t t x x tt x x t i i ∆∆-∆∆+∆∆+∆∆+=)(*1)(*1)(*11)(*11)(ξ (8)为灰色斜率关联系数.(7)、(8)式中)(t X 为系统特征函数,)(t Y i ()m i ,,2,1 =为相关因素函数(对应于参照碎片的特征曲线),∑==nt t x n x 1)(1,)()()(t x t t x t x -∆+=∆,t t x ∆∆)(为系统特征函数)(t X 在t 到t t ∆+的斜率, ∑==nt i i t y n y 1)(1,)()()(t y t t y t y i i i -∆+=∆, t t y i ∆∆)(为相关因素函数)(t Y i 在t 到t t ∆+的斜率.对于灰色斜率关联系数)(t i ξ公式(8)有如下性质[11-13]:(1) 任意的系统特征函数)(t X 与相关因素函数)(t Y i 的灰色斜率关联系数满足:1)(0≤<t i ξ,m i ,,2,1 =;(2) 灰色斜率关联系数)(t i ξ满足对称性;(3) 灰色斜率关联系数)(t i ξ只与)(t X 与)(t Y i 的几何形状有关,与相对位置无关; (4) )(t X 与)(t Y i 的斜率越接近,灰色斜率关联系数)(t i ξ就越大;(5) )(t X 与)(t Y i 在t 到t t ∆+的变化速度相同时,它们的斜率相等,这时1)(=t i ξ; 由上述公式及性质可知,灰色斜率关联系数反映了两曲线在某一点的变化率的一致程度,而灰色斜率关联度则是整个区间上灰色斜率关联系数的平均值.灰色斜率关联度i ε具有下列性质: (1) 10≤<i ε;(2) i ε只与)(t X 与)(t Y i 的变化率有关,而与它们的空间相对位置无关; (3) 当)(t X 与)(t Y i 变化率相同时, 1=i ε; (4) )(t X 与)(t Y i 的变化率越接近, i ε就越大;5.2.2 拼接复原算法附件3和附件4中碎纸片的切割方式有纵切和横切两种,假设碎片的总数为n 个(m ⨯k 个碎片组成整个原图),具体的拼接复原算法如下:步骤1 计算每一个碎纸片)1(n i A i ≤≤的信息熵)(i A H ,并确定出熵值最小的m 个碎片n i i A H 1)}(min{=为印刷文字文件的第1列的m 个碎片;步骤2 计算步骤1找到的m 个碎片的上半部图像和下部分图像之间互信息和相关系数,确定出m 个碎片的上下位置关系,得到印刷文字文件的第1列;步骤3 计算第1列中m 个碎片右边与其它碎片左边的欧氏距离,得到碎片之间关于欧氏距离的矩阵n m M ⨯;在矩阵n m M ⨯中,第i 行的值ij d 表示第i 个碎片与第j 个碎片之间的欧氏距离.步骤4 在n m M ⨯中,计算第)1(m i i ≤≤行的最小值i min ;若n m M ⨯中i min 在第i 行出现的次数为1且对应的列标为j ,则第i 个碎片和第j 个碎片是最佳匹配组合;若i min 在第i 行出现的次数为大于1,则进行步骤5.步骤5 i m i n 在i 行中出现的次数为大于1,则计算第i 个碎片的右边图像与其余碎片左边图像的灰色斜率关联度)1(n f if ≤≤ε,记灰色斜率关联度最大的值ih ε对应的列为k ;若第k 个碎片在步骤4的最佳匹配组合中没有出现,那么第i 个碎片和第k 个碎片是最佳匹配组合;若第k 个碎片已在步骤4的最佳匹配组合中出现过,选择灰色斜率关联度仅次于ih ε)(ih iy εε<的值对应的列y ;若第y 个碎片在步骤4的最佳匹配组合中没有出现,则第i 个碎片和第y 个碎片是最佳匹配组合,否则继续寻找第i 个碎片的最佳匹配碎片,直止找到满足斜率关联度最大且在以前的最佳匹配组合中没出现条件的碎片.步骤6 重复以上步骤,直到所有的碎片找到最佳的匹配组合为止.按照最佳匹配组合的关系将所有碎片链接起来,并在第1列中出现的碎片位置出换行,便可对文件的所有碎片数据进行拼接复原. 5.2.3 问题2的求解运行matlab 软件对以上算法进行仿真,得到如下的结果.(1) 附件3中的中文文件复原结果表7 附件3中碎片的排列序号附件3中文件的最终复原图见附录4.(2) 附件4中的英文文件复原结果附件4的复原结果表格形式如下表所示:表8 附件4中碎片的排列序号附件4中文件的最终复原图见附录6.5.3 问题3的求解5.3.1 模型的建立模糊聚类分析是一种将样本或者变量分类的统计方法,基于物以类聚的思想,它根据样本数量计算样本之间的距离(相似程度),按距离的大小,将样本或变量逐一归类,关系密切的类聚到一个小的分类单位,使同一类的对象之间具有较高的相似度,然后逐步扩大,使得关系疏远的类聚合到一个大的分类单位,知道所有的样本或变量都累计完毕.模糊聚类分析法常用的距离为绝对值距离和欧式距离,其中,欧氏距离在聚类分析中用的最广.计算流程如下[14-15]:(1) 将n 张碎纸片分为n 类,取其中一个碎纸片右侧一列和另外任意碎纸片左侧一列作为样本,两个样本之间的距离构成一个对称距离矩阵⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=00021221112 n n n n d d d d d d D (2) 选择)0(D 中的非对角线上的最小元素,设这个最小元素是pq D ,此时{}p P x G =与{}q q x G =的距离最近,将q P G G 和合并成一个新类{}q P r G G G ,=.在)0(D 中消去q P G G 和所对应的行与列,并加入由新类r G 与剩下的其他未聚合的类间的距离所组成的新的距离矩阵)1(D ,它是n-1阶方阵;(3) 从)1(D 出发重复(2)的做法得)2(D ,再由)2(D 出发重复上述步骤,直到碎纸片聚成一个整体,聚类完成. 5.3.2 拼接复原算法附件5的碎片均为双面,假设碎片的总数为n 个(m ⨯k 个碎片组成整个原图的正面),具体的拼接复原算法如下:步骤1 基于模糊聚类分析法的思想,借助Matlab 软件编程将所有碎片区分粗分为正面和反面两大类;步骤2任选某一大类的碎片,利用问题2的拼接复原算法对该类的碎片进行拼接复原;步骤3 对无法拼接的碎片进行人工干预,直至所有的最碎片找到最佳的匹配组合为止.将所有的碎片进行链接,可复原文件的原图.根据碎片编号的命名规则,如果一面的原图复原成功,选择原图每个碎片对应序号的反面,可直接拼接复原出反面的原图.5.3.3 问题3的求解运行matlab软件对以上算法进行仿真,得到如下的结果.(1)附件5中的文件正面复原结果附件5中的文件正面复原结果见表9.附件5中文件正面的复原结果中间图见附录7.附件5中文件正面的复原结果中间图见附录8.对附录8中的碎片49a、161b、108b、045b、021a、042a、048b、180b、041b、202b和175b进行人工干预,得到附录9。
碎纸片的拼接复原作者:平安左帅平静来源:《青年生活》2020年第28期摘要:本文利用各碎纸片的灰度值矩阵相似程度进行匹配,解决了同页纵切、同页横纵切不同情况的碎纸片拼接复原问题。
关键词:灰度值相似度模型;聚类;分区块匹配;模拟退火一、背景分析碎纸片的拼接主要依据各纸片边缘的灰度值,边缘灰度值相似程度高的纸片其拼接成功的可能性就较大。
分别针对同页纵切和同页横纵切不同情况的碎纸片进行分析复原。
要解决同页单面纵切的碎纸片拼接复原问题。
建立碎纸片拼接复原模型和算法,对中、英文各一页文件的碎纸片数据进行处理,得到灰度值矩阵,利用文件边缘的特性确定其最左边的碎纸片,根据筛选出的最左边碎纸片将其他碎纸片进行聚类处理。
最终找到边界灰度值相似程度较高的碎纸片进行匹配处理,完成拼接复原。
要解决同页单面横纵切的碎纸片拼接复原问题,碎纸片数量的增多为该问题加大了难度。
可将属于同一横向条状纸片的碎纸片进行聚类,模拟退火算法使碎纸片拼接复原成横向条状纸片,解决纵切产生的横向无序性问题。
再对横向条状纸片进行纵向排序,从而解决碎片由于横切产生的纵向无序性问题。
必要时,引入人工干预以帮助拼接顺利进行,提高拼接的效率和正确率。
二、模型假设及说明1.假设碎纸片的完整性良好,即:每个附件中的碎纸片都来自同一文件,且同一文件的所有碎纸片都存在与附件中。
2.假设每个碎纸片的边缘光滑,切割时无毛边产生。
3.假设切割产生的碎纸片尺寸完全相等,即每个碎纸片的灰度值矩阵形式相同。
三、模型的建立与求解3.1单面纵切碎纸片模型的建立与求解3.1.1图像的数据处理对碎纸片进行数据处理,将碎纸片的图像分别导入到 matlab 中,依次得到每个图像的灰度值矩阵,例如第2张碎纸片的灰度值矩阵C1:其中ai,j(n)意为编号为n的碎纸片的图形灰度值矩阵中第i行第j列的灰度值,满足{a|a∈[0,255]且a∈Z}。
3.1.2建立图像边界的灰度值相似度模型对于单面纵切的碎纸片复原问题,利用可拼接的两碎纸片相邻边界灰度值相似的原理,从首先确定的文件左边缘的碎纸片开始,其他碎纸片左边界的灰度值逐个与其右边界灰度值对比,找到最相似的碎纸片进行匹配,以此类推,使得破碎文件从左到右依次拼接复原。
碎纸片拼接复原的数学模型与优化作者:朱旭焦熹李亦凡来源:《读写算·素质教育论坛》2015年第01期摘要碎纸机裁出的碎纸片的拼接与复原技术是计算机算法与人工干预的结合,兼顾准确度与效率。
碎纸片的拼接与复原算法以采用了全新的向量间欧氏距离的匹配模型,在图片数据化处理的基础上,加之针对横向纵向双向切割的文档而编写的检测碎片是否在同一行的辅助程序,和针对英文文件的碎片进行行位置标识从而实现“行分类”的应用扩展程序;核心算法和辅助及扩展程序共同构成了碎纸片拼接复原的数学模型。
最终对单面中英文单向和双向实现了裁切的纸张都97%以上的复原,可以说复原模型是成功且有效的。
关键词碎纸拼接复原欧氏距离匹配元胞数组嵌套结构中图分类号:G642.3文献标识码:A 文章编号:1002-7661(2015)01-0004-02破碎纸张文件的拼接修复在司法物证的复原、历史文件的修复以及军事情报的获取的等多个领域都有重要的作用。
人工手工拼接的优势在于准确性高但耗时长,相比之下,计算机算法进行的拼接速度快也有能力实现大量破碎文件的拼接,而计算机为主后期加入人工干预的方法就有更强的实用性。
但是已有的计算机拼接方式是基于边界几何特征的拼接方法,并不适用于规则裁切的边缘形状相同的碎纸片。
本文将针对规则裁切的印有文字的纸张进行全自动和半自动的拼接复原模型建立,利用此类纸张特有的规整性,运用图片信息数据化、矩阵化,使用向量的欧氏距离测定进行匹配还原。
一、建模思路1.图片数据化处理计算机拼接以图片的数据化和数据匹配为核心,实现量化处理。
碎纸片经过扫描后成为图片形式的数据,通过一定的降噪和对齐处理之后就可以用Matlab以像素为单位转换成为矩阵,对矩阵的边界向量进行匹配,最终得到完整有序的整体矩阵,重新生成为图片。
复原的关键点在于图片信息的读取与处理。
利用Matlab可将图片中的实体信息转化为矩阵中的数量信息,矩阵的每一个元素分别代表一个像素点上的颜色信息,预设所有的材料均为黑白印刷,暂不考虑由三维向量构成的彩色像素点。
基于旅行商规划模型的碎纸片拼接复原问题研究摘要本文分别针对RSSTD(Reconstruction of Strip Shredded Text Document)、RCCSTD(Reconstruction of cross-cut Shredded Text Document)和Two-Sides RCCSTD三种类型的碎纸片拼接复原问题进行了建模与求解算法设计。
首先我们对于RSSTD问题,建立了基于二值匹配度的TSP模型,并将其转化为线性规划模型,利用贪心策略复原了该问题的中文和英文碎片;然后对于RCCSTD问题,由于中英文字的差别,我们分别建立了基于改进误差评估的汉字拼接模型和基于文字基线的误差评估的英文字拼接模型,并利用误差评估匹配算法,复原了该问题的中文和英文碎片;随后我们针对正反两面的RCCSTD 问题,利用基线的概念将正反两面分行,转化为RCCSTD问题,并复原了该问题的英文碎片。
最后,我们对模型的算法和结果进行了检验和分析。
◎问题一:我们针对仅纵切的情况,首先将图像进行数字化处理,转换为了二值图像,然后得到各图像的边缘,并计算所有碎片与其他碎片边缘的匹配程度。
然后,根据两两碎片之间的匹配程度建立了TSP模型,并将其划归为线性规划模型。
最终,我们根据左边距的信息确定了左边第一碎片,随后设计了基于匹配度的贪心算法从左向右得到了所有碎片的拼接复原结果。
结果表明我们的方法对于中英文两种情况适用性均较好,且该过程不需要人工干预。
◎问题二:我们针对既纵切又横切的情况,由于中英文的差异性,我们在进行分行聚类时应采用不同的标准。
首先根据左右边距的信息确定了左边和右边的碎片,随后分别利用基于改进误差评估的汉字拼接模型和基于文字基线的误差评估模型,将剩余的碎片进行分行聚类,然后再利用基于误差评估的行内匹配算法对行内进行了拼接,最终利用行间匹配算法对行间的碎片进行了再拼接,最终得到了拼接复原结果。
对于拼接过程中可能出现误判的情况,我们利用GUI 编写了人机交互的人工干预界面,用人的直觉判断提高匹配的成功率和完整性。
碎纸片的拼接复原摘要计算机辅助碎片拼接是模式领域中的一个典型问题,它是司法鉴定,文物修复等领域有着广泛的应用。
目前的研究都是针对不规则图片的复原,对规则图片的研究还有待实现。
本文主要是研究规则形图片的复原问题,规则形图片的拼接不能像不规则图片拼接那样考虑其形状等,所以我们考虑从边缘相似度方面进行处理。
对于问题一:基于余弦相似度的算法,先对图片进行数字化处理,利用matlab程序求出每个图片的灰度值,然后提取出每个图片的最左边缘和最右边缘的灰度值并进行归类处理。
根据灰度值,利用人工干预,挑选出完整拼接图的第一张图片和最后一张图片。
我们把挑选出来的第一张图片的最右边缘灰度值和剩下的图片的最左边缘灰度值采用了余弦相似度算法进行匹配,找到最大相似度匹配图片。
之后依次循环遍历找到所有图片的最大相似匹配图。
最后利用matlab图片拼接技术实现图片的复原。
5.1问题一模型的建立和求解本文主要是研究碎纸片的拼接问题,由附件分析可知,这些图片均为规则的,所以我们没有考虑图片的形状问题。
为了得到完整的碎纸片的拼接图,我们着重研究了碎纸片颜色分布特征。
5.1.1图片的数字化灰度值,实现图片的数字化。
灰度是根据matlab程序我们计算出每张图片的]1[指黑白图像中点的颜色程度,范围一般从0到255,白色为255,黑色为0。
5.1.2图片的预处理图片预处理的目的是提取碎纸片的边缘颜色分布特征向量,预处理的过程为:图像边缘灰度值的提取——灰度值进行分类图像边缘灰度值的提取:根据图片的数字化结果,我们把每张图片的第一列和最后一列的灰度值提取出来,作为这张图片的颜色分布特征,。
灰度值进行分类:根据提取出的灰度值,我们把每张图片的第一列灰度值归为一类,放入excel表格中,我们称为left表格,把每张图片的最后一列灰度值归为一类,也放入excel表格中,我们称为right表格。
5.1.3图片的提取一张完整的纸张的左右两边都有空白的地方即左右边界灰度值都为255,所以我们先进行人工选择,把这张纸的左右两边先挑选出来,根据灰度值分类,我们从left表格中找出灰度值全为255的那列,即为第一张图片,从right表格中找出灰度值全为255的那列,即为最后一张图片。
碎纸片的拼接复原摘要破碎文件的拼接在司法物证复原、历史文献修复以及军事情报获取等领域都有着重要的应用。
但是人工完成效率很低,所以引入计算机复原,计算机虽然准确率不及人工高,但是可以大大减轻工作强度。
本论文主要是对纸张形状为矩形切割规范并且纸张上的文字标准的碎纸片的拼接复原的研究。
问题一:首先根据图片的灰度矩阵找出第一张(最左侧)图片,根据小差值优先匹配依次排出相邻图片。
碎纸片复原后的顺序如附件一、二所示。
问题二:首先根据图片的灰度矩阵最左侧n列灰度值求和最大,可找出第一列(最左侧)图片,共11张。
根据“行间”的位置特征作为凝聚点进行聚类分析,将所有图片分为11类,即11行。
应用小差值优先匹配将这每行的图片进行拼接,得到11个行图片,再次应用小差值优先匹配把这11个行图片拼接成完整的图片。
碎纸片复原后的顺序如附件三、四所示。
问题三:同问题二方法一致,找出第一列(最左侧)图片(正反两面共有22张图片),将这些“行间”的位置特征作为凝聚点进行聚类分析,所有的图片分为11“大行”,将这些图片配对的正反面进行上边缘“粘接”处理,按照小差值优先匹配将这每行的粘接形成的19图片(如图一所示)进行拼接,得到11个行图片之后,再次应用小差值优先匹配把这11个行图片拼接成完整的图片。
碎纸片复原后的顺序如附件五所示。
观察上述三个问题的处理方法可知,三个问题的解决办法主干思想完全相同,都是小差值优先匹配解决,并且清晰简练。
但是由于问题的逐渐深入和复杂程度的增加,仅靠这一个简单的方法并不能在实际中解决问题,于是增加约束条件减小搜索范围,如:找出“行间”位置,并作为凝聚点进行聚类分析,然后就可以很大程度上减小出错的概率。
关键词:聚类分析、MATLAB R2012a、小差值优先匹配、灰度矩阵1、问题重述破碎文件的拼接在司法物证复原、历史文献修复以及军事情报获取等领域都有着重要的应用。
传统上,拼接复原工作需由人工完成,准确率较高,但效率很低。
课程设计论文基于结构特征的碎纸片的拼接复原问题基于结构特征的碎纸片的拼接复原问题摘要碎纸自动拼接技术是图像处理与模式识别领域中的一个典型的应用,该技术通过扫描和图像提取技术获取一组碎纸片的形状、纹理及内容等信息,然后利用计算机进行相应理解从而实现对这些碎纸片的全自动或半自动拼接还原。
针对问题一,考虑到纵切的碎纸片所含有的信息量较大,利用图像处理中的信号匹配方法,结合左右两个碎纸片的灰度像素矩阵的边缘特征,建立基于结构特征的灰度匹配模型,对英文字母制定了灰度相似的配准规则,使待拼接的碎纸片边缘的对应行像素之差的平方和最小;而结合中文字符的横笔结构特征,对中文字制定了“横笔”匹配相似度的配准规则,并给出了最终的碎纸拼接图和拼接次序,拼接的正确率是100%。
针对问题二,对于既纵切又横切的情形,每一个纸片的边缘所含的信息量相对较少,故对中、英文碎片的拼接复原需各自建模分析。
首先利用“分而治之”的思想,将一个难以直接解决的大问题,分割成一些规模较小的相同问题。
对于中文碎片拼接复原,根据中文的方块特点,给出了中文的文字结构特征向量及其边缘像素的特征向量。
根据这些结构特征向量对所有的碎纸片进行粗分类,在此基础上设计了基于边缘特征的匹配规则集,对每一行从左到右在进行细匹配。
利用等距序列图像的快速拼接技术拼出左边第一列,基于灰度匹配,将图像转化为二值图像并对每行进行最优匹配。
先按照行配准,然后再进行列配准,最终匹配出误差最小的图像;对于英文碎片复原同样采取人工干预粗分类,粗匹配后,采用神经网络算法对碎片图像训练、学习构建BP网络对英文字母进行匹配识别,结合剪枝定界法实现英文碎片的拼接复原。
发现每行匹配率为78.85%,整篇匹配率大约为68.73%。
针对问题三,由于碎片数据均为双面打印文件,文字特征相同,仅用问题二中的方法产生的误差太大,仍沿用粗分类特点通过神经网络拼接、灰度匹配修正、人工干预,结合等距序列拼接技术实现单面拼接,然后验证反面的正确性并修正。
碎纸片的拼接复原数学模型的构建
发表时间:2014-11-27T14:26:53.797Z 来源:《价值工程》2014年第9月上旬供稿作者:毕楷明[导读] 以纵横方式破碎纸片,利用同行文字行间距一致性的主要特性可解决横向碎纸片的拼接复原问题。
Construction of Mathematical Model of Splicing Scrap Recovery毕楷明BI Kai-ming(东北大学理学院,沈阳110819)(NEU College of Sciences,Shenyang 110819,China)
摘要院本文讨论在碎纸机以不同方式破碎纸片的情况下建立碎纸片的拼接复原模型,以解决碎片数量巨大时人工拼接的难题,本文建立了三个具有针对性的模型。
模型一:方差分析法下的碎纸片拼接模型。
在以纵切方式破碎纸片的情况下,提取碎纸片左右边缘的灰度列向量,利用碎纸片边缘处为单边同宽空白区域的特殊性对碎纸片进行定位,再利用方差分析法和欧式距离解决了纵切碎纸片的拼接复原问题。
模型二:文字行间距一致性的碎纸片拼接模型。
以纵横方式破碎纸片,利用同行文字行间距一致性的主要特性可解决横向碎纸片的拼接复原问题,简化了模型,将离散的像素灰度矩阵平均化处理,进而利用欧氏距离对碎纸片进行匹配,得到了碎纸片复原后的完整图片。
模型三:二值化Otsu 算法的碎纸片拼接复原模型。
本文从双面纵横破碎纸片的问题出发,建立了纸片二值化Otsu 法拼接模型,先对碎纸片分组预处理,为将复杂模型简单化,再利用全局阈值方法中典型的Otsu 法求取碎纸片的最佳阈值,以该阈值对碎纸片中所含灰度值信息进行划分实现二值化处理,将边缘区域明显化,利用统计学方法求取拼接后的纸片间成功匹配的像素点占纸片边缘的概率,最终双面纵横破碎纸片的拼接复原问题得以解决。
Abstract: This paper discusses the construction of splicing scrap recovery model under the condition of shredder breaking paper
intopieces in different ways, so as to solve the problem of artificial splicing when there is a great amount of pieces. This paper establishes threecorresponding model.Model One: Paper Scrap Splicing Model under Analysis of Variance.Shredding paper through longitudinal mode, the paper selects the gray scraps of paper around the edge extraction column vector,locates the paper scrap by using edge of paper scraps as blank area with same width, then solves the problem of reconstruction of thelongitudinal cutting paper splicing through analysis of variance method and Euclid Distance.Model Two: Paper Scrap Splicing Model with Consistency of Text Line Spacing.Shredding paper through vertical and horizontal mode, its main characteristics of peer text line spacing consistency can solve theproblem of reconstruction of splicing transverse paper scraps, simplifies the model, processes the pixel matrix of discrete in average andmatches the paper scraps through Euclid Distance and then gets the complete picture of paper scrap after recovery.Model Three: Paper Scrap Splicing Model Based on Binaryzation Otsu Algorithm.This paper firstly expounds the double side's vertical and horizontal mode, establishes the paper scrap splicing model based onbinaryzation Otsu algorithm. The paper firstly does preconditioning for paper scraps into groups, simplifies the complex model, and then getsthe optimal threshold of the paper scraps by using typical Otsu algorithm of global threshold method. The paper classifies the gray valueinformation of paper scraps through this threshold to realize binaryzation processing, specifies the edge area, evaluates the probability ofsuccessful matching pixels on edge of splicing paper, and finally solves the mosaic and restoration problems of double side's vertical andhorizontal mode. 关键词院离散;方差分析;置信区间;阈值;Otsu 算法Key words: discrete;analysis of variance;confidence interval;threshold;Otsu algorithm中图分类号院TQ018 文献标识码院A 文章编号院1006-4311(2014)25-0238-031 模型一考虑以为空间拼接情况,为了获取拼接图像所必须的数据,文章以像素为单位离散所得碎片:利用VC++使用了Windows.H 头文件并调用RGB 等结构定义获得不同像素点的g 值[1],生成了多个灰度矩阵。
由于本题主要研究碎片的拼接,故只需考虑碎片的边缘部分,故分别提取全部碎片的最左侧和最右侧的g 值列向量:文章分别找出其中最左侧g 值列向量的值全为255(即像素全白)的和最右侧g 值列向量的值全为255 的两个碎片,于是左侧g 值全为255 的碎片对应左一位置,同理右侧g 值全为255 的碎片对应左一位置。
再考虑剩余的碎片(本文中考虑18 个碎片)的对号入座问题,使最左侧碎片分别与其他碎片的最左侧灰度g 值列向量进行相同y 值下作差,得到不同碎片的G 差。
先求出左一位置碎片最右侧g 值列向量:。