基于编码的甲骨文识别技术研究
- 格式:pdf
- 大小:2.84 MB
- 文档页数:12
基于SVM的甲骨文字识别刘永革;刘国英【摘要】甲骨文作为古文字还没有进入国家标准也没有进入国际标准,所以甲骨文字在出版物上是以图片出现,这给检索带来了困难;同时使用大数据进行甲骨文考释的过程中,需要大量的已标注的甲骨图像数据库,而人工标注耗时耗力,且只有甲骨文专家能够完成这项任务,基于以上两个原因,甲骨文字图片的识别变得越来越重要,本文采用支持向量机分类技术研究甲骨文字图片的识别技术,通过试验证明达到88%的准确率.【期刊名称】《安阳师范学院学报》【年(卷),期】2017(000)002【总页数】3页(P54-56)【关键词】甲骨文;支持向量机;识别【作者】刘永革;刘国英【作者单位】安阳师范学院计算机与信息工程学院,河南安阳455000;安阳师范学院计算机与信息工程学院,河南安阳455000【正文语种】中文【中图分类】TP317.1甲骨文作为古文字还没有进入国家标准也没有进入国际标准,所以甲骨文字在出版物上是以图片出现,这给检索带来了困难;同时使用大数据进行甲骨文考释的过程中,需要大量的已标注的甲骨图像数据库,而人工标注耗时耗力,且只有甲骨文专家能够完成这项任务,基于以上两个原因,甲骨文字图片的识别变得越来越重要,国内外研究文字识别的成果很多,但是研究甲骨文图像识别的不多,一是因为甲骨文是古文字,二是甲骨拓片上文字背景噪声比较大,三是甲骨文异体字比较多,所以甲骨文的图像识别有一定难度。
支撑向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。
甲骨文字存在大量的异形体,且有很多甲骨字在已出土的甲骨片中只出现几次,因此甲骨文字的识别需要一个满足小样本的识别方法。
因此,在项目执行过程中,我们采用支撑向量机进行甲骨文字识别。
在我们的前期研究中已经建立了甲骨文图文资料库,该库中包含6199个已经经过甲骨文专家标示过的甲骨文字。
甲骨文信息处理导论甲骨文是中国历史上最早的文字,它记录了商代的政治、经济、社会和文化方面的丰富信息。
随着时代的变迁,甲骨文成为了人们研究古代文化和历史的重要资料。
针对甲骨文的特点和研究需求,已经逐渐发展出了许多甲骨文信息处理技术,本文将围绕甲骨文信息处理导论进行分步骤阐述甲骨文信息处理相关知识。
1、甲骨文基础知识甲骨文是中国历史上最早的文字,用于商代的政治、经济、社会和文化的记录。
它包括6000多个句子,涵盖了丰富的信息。
随着时间的推移,甲骨文编码也经历了多种变化。
甲骨文的编码方式较为特殊,通常由由龟甲、兽骨刻写而成,刻文较小且含义繁多,需要进行识别、分类、翻译等处理方式。
2、甲骨文信息处理技术甲骨文信息处理技术包括图像处理、文字识别、语言翻译等方面。
其中,最关键的是文字识别技术,它可以将甲骨文刻文转换为数字或文字,从而便于后续的数据处理、存储和分析。
甲骨文的识别具有以下特点:比较难识别,因为每个刻文都有不同的形状和位置,且古代的书写方式较为固定;以及需要对分形结构的概念有一定的了解,因为甲骨文的每个字符都是由块状结构组成的,因此需要进行逐层分析。
3、甲骨文信息处理的应用随着信息技术的不断发展,甲骨文信息处理的应用范围也在不断扩展。
首先,它可以用于文化遗产及历史文本的数字化保护。
甲骨文是中国文化的重要组成部分,进行数字化保护可以避免遗失和文物破坏带来的影响;其次,它可以用于历史文献的数字化处理。
甲骨文是中国历史的重要文物,可以作为历史文献材料进行研究;再次,它可以用于汉字的演化研究。
甲骨文是汉字的前身,因此对于汉字的历史演化研究具有重要的价值。
综上所述,甲骨文信息处理导论是从事甲骨文研究和信息处理的重要参考书,它具有重要的指导意义。
甲骨文信息处理技术在文化遗产保护、历史史料数字化、汉字演化研究等方面起着重要作用,值得广泛应用和推广。
机器学习技术在甲骨文破译中的应用与探索甲骨文作为一种古老的文字形式,具有极高的历史和文化价值,对于了解古代的政治、宗教、社会等方面提供了重要的线索。
然而,由于甲骨文的文字形状独特、多样,加之文字本身的累赘复杂,传统的甲骨文破译工作一直以来都面临着巨大的挑战。
近年来,随着机器学习技术的发展与智能化工具的应用,探索利用机器学习技术在甲骨文破译中的应用已成为研究的热点之一。
本文将就机器学习技术在甲骨文破译方面的应用与探索进行讨论。
一、机器学习算法介绍机器学习算法是指通过计算机从大量数据中学习和提取规律,进而进行预测、分类、聚类等任务的一种算法。
在甲骨文破译中,机器学习算法可以被用于自动识别甲骨文中的字形、编码、文字之间的关系等,从而辅助破译工作的进行。
常见的机器学习算法有支持向量机(Support Vector Machine, SVM)、卷积神经网络(Convolutional Neural Network, CNN)、递归神经网络(Recurrent Neural Network, RNN)等。
这些算法通过训练模型,从而能够根据已有的数据进行自动识别和预测。
二、机器学习技术在甲骨文破译中的应用1. 字形识别甲骨文中的字形千姿百态,因此识别和分类字形一直是传统甲骨文破译的难点之一。
而利用机器学习技术,可以通过对大量的甲骨文数据进行训练,构建字形模型,从而实现自动识别和分类。
例如,研究人员可以收集大量甲骨文图像数据,对这些数据进行预处理,并使用卷积神经网络等算法进行训练。
通过训练后的模型,可以自动识别出甲骨文中的不同字形,从而为破译工作提供有力的支持。
2. 文字编码识别甲骨文的编码方式多种多样,每种编码方式都代表着不同的含义和语义。
传统的甲骨文破译工作需要依靠专家根据经验进行编码的解读,这既费时费力,也容易出错。
利用机器学习技术,可以通过训练模型,使其自动识别甲骨文中的编码方式,并提供相应的解读。
例如,通过对已有甲骨文数据进行编码和标注,利用递归神经网络等算法训练模型,可以自动识别并解读甲骨文中的编码方式,减少破译工作的主观性和随意性。
甲骨文数字化处理研究进展顾绍通【摘要】甲骨文数字化处理是当前古文字信息化处理的重要方面.文章首先阐述了甲骨文数字化处理研究的现实意义,接着介绍了甲骨文数字处理研究中字形拟合、字形编码以及甲骨文字体艺术变形等方面所取得的研究成果,分析了当前研究中的存在的问题,最后结合已有的研究成果,对未来的研究方向做了展望.【期刊名称】《广西民族大学学报(自然科学版)》【年(卷),期】2008(014)001【总页数】3页(P80-82)【关键词】甲骨文;数字处理;拟合;编码;变形【作者】顾绍通【作者单位】徐州师范大学,语言研究所,江苏,徐州,221116【正文语种】中文【中图分类】TP391自1899年金石学家王懿荣发现甲骨文至今已经有一百多年的历史了,甲骨文以其自身独特的魅力引起了众多学者的研究兴趣,现在已发展成为一门与历史学、考古学、文字学、文献学等学科有密切关系的一门学科——甲骨学.一百多年来,先后有十万余片甲骨文出土,经过几代学者的搜集、整理,绝大部分已经公布于世.经过几代学者的共同努力,认识或基本认识的甲骨文字约占总数的2/5,并在此基础上编纂出版了一批工具书.百年之中,人才辈出,专著数以百计,论文数以千计[1].这些著录书籍对于甲骨文的研究、传播起了很大作用.作为我国迄今发现的最早的一种成熟文字系统,甲骨文具有极其重要的学术价值和文化遗产保护价值.如何借助先进的计算机技术对其进行数字化,以有效保护、展示和方便使用,具有重要的现实意义.甲骨文的数字化处理包括3个方面:(1)将甲骨文点阵字形转化为计算机可以识别和处理的轮廓字形;(2)对甲骨文字形进行编码,使得甲骨文字形可以像现代汉字一样在计算机屏幕上显示出来;(3)甲骨文字体和其他字体风格融合的艺术变形.1 甲骨文字形的数字化拟合技术将甲骨文点阵字形转化为曲线轮廓字形,实现甲骨文字形的数字化,首先面临的问题是选择何种字形描述技术.在甲骨文字形拟合方面,1994年郑芳林等人[2]采取三次B样条曲线来拟合还原甲骨文字符,开发了一个造字系统.在MS-DOS环境下,该系统可以对包括ASCII字符、汉字和甲骨文字形进行处理.但是,这种曲线拟合方法与Windows环境下的TrueType字形描述方法有所不同,二者不能相互兼容.2003年肖明等人[3]利用HIGH-LOGIC公司的TrueType曲线轮廓造字软件,按照直线和二次B样条曲线拟合算法,自动将扫描的点阵图形抽成尽可能接近原稿的数字化信息(曲线轮廓),生成一个独立的可运行于Windows、Linux环境下的TTF格式字库.但是,HIGH-LOGIC公司的TrueType曲线轮廓造字软件主要是针对只有较少字符的西方文字设计的,对数目巨大的中文字库支持还存在许多局限,如存在生成字形速度不快,生成的字形容易变形等缺点.2003年,李胜明、谭支鹏[4]采用三次样条B-spline 曲线拟合还原字符轮廓技术对甲骨文字形进行处理.但这种方法无法对甲骨文字形进行前期预处理.2004年马小虎等人[5]开发出了一个针对甲骨文字形特点的字形处理系统.在算法上,该系统采取顺序对曲线上的每个点与它左右两边相邻点的夹角求平均值的方法,来增加特征点提取的精确度,以及使用对缓慢弯曲的较长曲线插入一个额外特征点的方法,提高了字形拟合的精度.该系统可以通过移动控制点、导引点来修改字形的形状,对字形拟合可以进行精确的控制.不仅可以对点阵字形进行拟合,还可以对点阵字形进行适当的预处理,提高了字形质量.2 甲骨文字形的编码将甲骨文点阵字形转化为曲线轮廓字形并制作甲骨文字库后,随之而来的问题是,如何将甲骨文字形从字库中调出来,这就要对甲骨文字形进行编码.甲骨文的编码包括甲骨文字形的内码和甲骨文字形的外码.甲骨文字形的内码,即甲骨文字形的机内码,在计算机系统内部存储、处理甲骨文字形时所用的代码.甲骨文字形的外码,即甲骨文字形的输入码,是为了通过键盘字符把甲骨文字形输入计算机而设计的一种编码,它按照某种规则将每一个甲骨文字形和一个符号串或一个数字串对应起来,从而把甲骨文字形输入计算机中.2.1 甲骨文字形的内码Unicode发布以后,使用Unicode字符集对甲骨文字形进行编码成了首选.Unicode是一种双字节编码机制的字符集,包含符号6811个,汉字20902个,韩文拼音11172个,造字区6400个,保留20249个,共计65534个. Unicode同现在流行的代码页最显著不同点在于:Unicode是两字节的全编码,对于ASCII字符它也使用两字节表示.代码页是通过高字节的取值范围来确定是ASCII字符,还是汉字的高字节.如果发生数据损坏,某处内容破坏,则会引起其后汉字的混乱.Unicode则一律使用两个字节表示一个字符,最明显的好处是它简化了汉字的处理过程.Unicode使用平面来描述编码空间,每个平面分为256行,256列,相对于两字节编码的高低两个字节.Unicode的第一个平面,称为Basic MultilingualPlane(基本多文种平面),简称BMP,由于BMP仅用两个字节表示,所以倍受青睐.其中 A-ZONE为拼音文字编码区,拉丁文、阿拉伯文、日文的平假名及片假名等都在此区编码.CJK Extension A 和CJK为汉字区域共计27487个汉字.Y1即彝文,位于O-ZONE保留待将来使用.Hangul即韩文.EUDC为用户私有区,用户可以根据需要自己定义此区的编码.R-ZONE为限制使用区,一些兼容字符、特殊字符均放在此区.UNICODE定义BMP中的D800-DFFF为代理区(Surrogate Zone),其中D800-D8FF为高半代理(high surrogate), DC00-DFFF为低半代理(low surrogate).从两个区域分别取一个编码,组成一个4字节的代理对来表示一个编码字符,此即为UTF-16.利用UTF-16机制,UNICODE扩充了1024*1024个字符,相应于OO-OF平面,并且将02平面分配给了CJK Extension B.Microsoft在Windows 2000已实现了 UTF-16.2.2 甲骨文字形的外码通常根据提取汉字特征的类别不同,将编码方案划分为3类:(1)按照字形特征进行编码,称为形码,如五笔字型编码.1996年李继明[6]提出了甲骨文象形编码方案,该编码方案利用甲骨文构字部件象形的特点,利用26个英文字母以及10个数字对甲骨文字形进行编码.1999年,肖明等人[7]运用模糊数学和面向对象Petri 网方法研究甲骨文的部件(字根)形成和码元的确定规则,使用25个英文字母和7个阿拉伯数字作为码元,与甲骨文中的五百多个字根相对应,实现一字一码的编码方案.2003、2004年肖明等人[3,8]对甲骨文象形码的编码方法进行了研究,认为甲骨文编码的最佳码长大致接近于3.形码从甲骨文构字部件象形的角度出发对甲骨文进行编码,并没有利用音方面的属性,存在重码较多的问题.(2)按照汉字的字音特征进行编码,称为音码,例如智能ABC编码方案.(3)将汉字的形、音特征结合起来进行编码,称为形音码.2002年尚君[9]通过对1056个甲骨文字头,2602个字形进行部件拆分,统计归纳出341个基本部件.采取以形码拆分为基础,以成字部件为依据的形音码结合的设计方案.2003年,周晓文[10]利用小篆造字软件拟合甲骨文字形,设计了甲骨文字库,并对其进行了编码,对2600余字形拆码分析而归纳出341个常用基本部件.但是,上述方案所归纳出的构字部件均是针对部分甲骨文字形分析得出,并不全面.2006年马小虎等人[11]通过对《殷墟甲骨刻辞类纂》[12]甲骨文字形进行分析和整理,从中整理出了569个甲骨文字根,将其分别编置在标准键盘的26个键位上.将这些字根与键盘上的字母联系起来,通过26个字母就可以输入《殷墟甲骨刻辞类纂》中3673个甲骨文(含异体字合文).但是,这种方法会带来很大的记忆负担.3 甲骨文字体的艺术变形甲骨文本身作为最古老的文字体系,在殷商时代它的艺术价值只是处于从属地位,受当时书写工作的制约,其风格和特征表现出一种波动性.作为汉字书法艺术的一种形式,其风格也应该是多样化的,因而后来出现了使用纸笔创作的现代甲骨文书法.到了数字时代,甲骨文也加入到数字书法的家族中,表现出了独特的艺术魅力.2007年马小虎等人[13]针对甲骨文字形特殊的几何特征和拓朴结构,提出了一种基于曲线轮廓描述的甲骨文笔段提取和字体变形方法.首先使用二次Bezier曲线拟合甲骨文字形轮廓,然后利用拟合曲线提取轮廓特征点,找出甲骨文笔段,根据笔段特征将其进行分类,再提取各种不同风格书体的笔段轮廓生成模板,最后按照轮廓模板变形甲骨文笔段从而生成新的字形.该方法使用轮廓提取笔段,避免了传统的细化方法容易造成畸变的问题.同时,该方法将甲骨文笔画拆解为笔段,这些最基本的笔段在现代汉字中同样存在.既保持了字体的书法特征,又解决了甲骨文和现代汉字结构差异大而无法合成的问题.该文是基于字形笔段的字体变形,对于图画性强的文字,变形的效果不再明显.另外,该变形方法只解决了笔画变形,并没有涉及到甲骨文字形间架结构的变形,使得该变形方法存在一定的局限性.4 发展方向目前问世的甲骨文字库只是通用甲骨文字库,所收录字形只是出土甲骨的一部分,还不能完全解决甲骨文信息化处理的所有问题.如果要实现对甲骨文学术研究的全面支持,全面、彻底地实现甲骨文的信息化处理,研究对象将扩大到所有出土甲骨的字形,全甲骨文字库的建设将是一个必须解决的问题.在全甲骨文字库建设过程中,字形的确定以及编码也是一个需要深入研究的问题.甲骨文字形风格独特,如何将甲骨文字形特点与其他更多的字体风格相融合,开发出具有全新的字体风格的甲骨文艺术字形,也是一个值得研究的领域.5 结语目前,古文字信息处理的研究方兴未艾,甲骨文作为我国最古老的成熟文字系统,它的信息化处理研究开始受到人们的重视.在甲骨文信息化处理的研究中,甲骨文的基础理论研究有待加强,特别是要加强对甲骨文字形考释、分期、整理的研究,为甲骨文的信息化奠定基础.当然,反过来甲骨文信息化处理研究对甲骨文基础理论研究也将起到很大的促进作用.总之,甲骨文字形的数字化及编码,是甲骨文信息化处理的基础研究工作,这一问题的解决必将为甲骨学的发展以及信息时代甲骨文知识的传播起到很好的促进作用.[参考文献]【相关文献】[1]陈炜湛.近二十年来的甲骨文研究[J].汕头大学学报,2001,(1).[2]郑芳林,鱼滨.一个通用造字系统及在甲骨文中的应用[C]∥中国青年计算机研究新进展.西安:西北工业大学出版社,1994.[3]肖明,赵慧,甘仲惟.甲骨文象形码编码方法研究[J]. 中文信息学报,2003,(5):60-65.[4]李胜明,谭支鹏.建立甲骨文字库中的字处理技术[J].微机发展,2003,(6):104-106.[5]马小虎,黄文帆,顾绍通,等.甲骨文点阵字形转换为甲骨文轮廓字形的方法[J].语言科学,2004,(3):3-11.[6]李继明.计算机文字信息处理技术新探——甲骨文象形码设计方案[J].中文信息学报,1996,(3):18-29.[7]肖明,胡金柱,赵慧.面向对象的Petri网方法及其在甲骨文编码中的应用[J].华中师范大学学报(自然科学版),1999,(4):495-499.[8]肖明,赵慧,甘仲惟.甲骨文象形码编码的模糊数学模型研究[J].计算机工程与设计,2004,(3):358-361.[9]尚君.甲骨文编码研究[D].硕士毕业论文,2002.[10]周晓文.古文字字库的设计与实现[J].民俗典籍文字研究,2003,第1辑,375-380.[11]Xiaohu MA, Shaotong GU, Yiming YANG. Digitization Processing And Input Method Coding Of JIAGUWEN[J].Journal of Computational Information Systems, Volume 2, Number 2, 2006.[12]Xiaohu MA, Xuexue Fan. Study on Automatic Generating New Style Jiaguwen Basedon Outline Description[J].Journal of Computational Information Systems, Volume 3, Number 3, 2007.[13]姚孝遂,肖丁.殷墟甲骨刻辞类纂[M].北京:中华书局,1989.。
基于语义构件的甲骨文模糊字形的识别方法
高峰;吴琴霞;刘永革;熊晶
【期刊名称】《科学技术与工程》
【年(卷),期】2014(014)030
【摘要】针对殷墟甲骨文字整理过程中大量模糊字形难以识别的问题,提出了一种基于语境的统计分析和Hopfield网络相结合的模糊匹配识别方法.该方法利用语境分析生成的候选字库得到对应的甲骨文语义构件向量,然后结合基于Hopfield网络的识别结果计算待识别的甲骨文模糊字的匹配度,根据匹配度确定目标甲骨字.实验表明,该方法对部分甲骨拓片的模糊甲骨字识别效果较好.
【总页数】5页(P67-70,86)
【作者】高峰;吴琴霞;刘永革;熊晶
【作者单位】安阳师范学院计算机与信息工程学院甲骨文信息处理重点实验室,安阳455002;安阳师范学院计算机与信息工程学院甲骨文信息处理重点实验室,安阳455002;安阳师范学院计算机与信息工程学院甲骨文信息处理重点实验室,安阳455002;安阳师范学院计算机与信息工程学院甲骨文信息处理重点实验室,安阳455002
【正文语种】中文
【中图分类】TP391.41
【相关文献】
1.基于拓扑配准的甲骨文字形识别方法 [J], 顾绍通
2.基于甲骨文字形动态描述库的甲骨文输入方法 [J], 栗青生;吴琴霞;王蕾
3.基于Capsule网络的甲骨文构件识别方法 [J], 鲁绪正;蔡恒进;林莉
4.基于分形几何的甲骨文字形识别方法 [J], 顾绍通
5.基于语义构件的甲骨文字库自动生成技术研究 [J], 吴琴霞;栗青生;高峰
因版权原因,仅展示原文概要,查看原文内容请购买。
摘要随着科技的发展,甲骨学乃至古文献研究方法面临着一场由手工操作到自动化处理的变革。
这场变革的瓶颈则在于古文字学,特别是甲骨文字学的信息化革命,而这一切又有赖于文字的编码。
作为汉字最早而成系统的殷商甲骨文字,其编码方法的生成取决于甲骨文字形体结构特征与编码方法的有机结合。
本文在演绎与归纳的基础上结合现代汉字的编码原理,综合出一套新的甲骨文字编码方法——象形码法。
这一方法由字形学出发,通过非线性到线性转换把甲骨文字的信息(结构要素)特征与电子信号的信息处理方式结合起来,最后使二者达成一致,从而达到甲骨文字可以电子化信息处理的目标。
关键字甲骨文、象形码、编制方法AbstractInputmethodisregardedasabottleneck,whichistheorganicpartwhenawords--processing--systemforms.asfarasInscriptionsonBonesorTortoiseareconcerned,thatisthemostcomprehensiveproblem.ThePictographicCode,beingakindofinputmethod,hasmappedoutandpreparedhere.Thespecificpropertyonconfigrationandstructureaboutinscriptionshasbeenstudiedcarefullythatisbasedonthefullyconsiderationwiththeregularityofpartssysteminwordsprocessing.Thentherulesofthees—tablishmentbetweencharacterrootswithencodingunitshavebeenacquiredbyreferringtOthecontempararyencod—ingregularpatterns,andthecoexisfenceofgrapheticallyvaluewhichisagainstwiththeportableoperationhasmani—festeditself,whilethecompleteencodingunits、characterroots、pertinentexamplesaswellasexhaustiveinstructionsonruleshavebeinggiven·KeywordsInscriptionsOnBonesorTortoiseShells、PictographicCode、HowtOcodeⅡ一、引言rFn骨文字乃至整个古文字的研究与传承,多少年来一直处于手工作业状态。
作者: 史版
出版物刊名: 河南大学学报:社会科学版
页码: 105-105页
主题词: 甲骨文;河南大学;计算机系统;操作系统;古文字;输入编码;南京大学;混合处理;国际性;电脑
摘要: <正> 甲骨文是中国目前已发现的古代文字中体系比较完整、时代最早的文字。
甲骨文研究日益为国内外学者重视,并逐步成为国际性学科。
长期以来,中国在甲骨文的检索、著述、编排等方面都靠手工。
南京大学、河南大学有关单位人员,根据甲骨文的字形、字义设计出可用于计算机系统的输入编码和输出字形。
在此基础上,河南大学和苏州大学两个计算机系经过共同努力,最终将计算机甲骨文操作系统在我校研制成功,把已发现的甲骨文全部输入了电脑。
它可同时对甲骨文、汉文、西文进行混合处理。
1987年12月26日,。