手写藏文字符识别研究(黄鹤鸣, 马龙龙, 赵维纳)思维导图
- 格式:xmin
- 大小:5.91 KB
- 文档页数:1
藏文(含梵文)字丁自动识别方法研究作者:完么才让来源:《卷宗》2015年第08期摘要:本文以《ISO/IEC 10646藏文编码字符集基本集》为参考,把其中除标点符号外的字符归类到字母集、主字集和元音集三个集合,再将测试文本中的藏文字符与三个集合逐一匹配的方法,准确识别(本文所讲识别,非OCR图形识别)出藏文字丁。
关键词:ISO/IEC 10646;音节;字丁;识别藏文字丁的准确识别是字丁频率、信息熵计算的前提,也是音节分类的基础,更是藏文识别必不可少的环节。
收录至中国知网的关于藏文字丁的几篇论文都未谈及藏文字丁的自动识别方法,本文从一下三个方面详细讲解藏文(含梵文)字丁的自动识别方法。
1 字母集、主字集和元音集把藏文unicode字符集中除标点符号等特殊字符外的其他字符分成字母集、主字集和元音集三个集合,分别用英文标记letter_set、main_char_set和vowels_set表示,则letter_set集合中的字符都无上加字,即字符上下均无main_char_set和vowels_set集合所示的空心圆圈,这类字符在实际文本中多作为字母出现,故将这类字符收录到字母集中。
相应地,main_char_set集合所含字符大都上有空心圈,结合时,附着在前一个字符的下面,把具有这个特征的字符收集到主字集中。
vowels_set集合中的字符都下附空心圆圈,表名这类字符在具体文本中充当元音,应收集到元音集中。
这三个集合是字丁识别的前提,以下内容中用L、M和V分别代表letter_set、main_char_set和vowels_set,Li、Mi和Vi表示对应集合中的任意元素。
2 藏文字丁的基本分类藏文字丁可分为六大类型,分别为:所有藏文字丁可归类到以上六种类型。
3 识别方法在有了集合的划分和字丁的基本分类后,即可依据如下所描述的方法识别出藏文字丁。
假设字符串变量Ttext存放待测试的藏文文本,字符串变量WR表示字丁。
藏文人名自动识别研究作者:娘本先安见才让来源:《电子技术与软件工程》2015年第19期摘要目前的藏文人名识别研究大多通过英语、汉语等语种的方法来研究藏文人名的识别,虽然有着较好的识别效果,但对人名的用词、构词特点及应用藏文文法规则对人名上下文信息特征的分析较浅。
本文提出了通过建立藏文人名构成词的成分属性词典,动态生成人名库,利用传统文法中人名上下文信息特征的文法规则建立藏文人名上下文指示词库对人名自动识别的方法。
【关键词】藏文人名自动识别动态人名库指示词在进行藏文自然语言处理时,分词与标注是藏语语言信息处理的基础内容,也是藏语词法分析的核心。
藏文人名识别作为藏文分词与标注系统的重要处理内容,目前的藏文分词与标注系统在处理含有藏文人名等未登录词时,其效果一般难以满足实际的需求。
而藏文人名在未登录词中占有较大的比重,也是未登录词识别的主要难点。
因此,藏文人名的自动识别对于藏文未登录词识别以及藏文自动分词与标注具有重要的意义。
1 藏文人名识别的研究现状及难点1.1 藏文人名识别的研究现状目前国内外针对人名的自动识别主要有三种:基于规则方法、统计方法以及规则与统计相结合的方法。
藏文人名自动识别研究也以上述三种方法为主要研究方法,加上藏文人名的上下文信息特征来识别藏文人名为主。
1.2 藏文人名识别的难点人名等命名实体识别发展至今在英文和中文领域已经取得了很大的成果,但是由于藏文人名自身的特殊性,使得藏文人名识别研究进展缓慢,藏文人名识别中的难点包括:(1)音节长度不固定。
按照藏族的传统命名方式藏文人名在起名时大多以3-4个音节结构较为普遍,但是由于在现实生活中对称呼的变化,藏文的音节长度最短的2个音节,最长可达26个音节。
(2)藏文人名本身并无明显的特征。
藏文人名不同于英文和汉文人名,如英文人名在文本中出现时首字母为大写,汉文人名一般采用“姓氏+名字”的命名方式。
藏文人名不存在大小写等形式上的特征,也没有严格意义上的姓氏。
藏文古籍文本检测研究现状作者:王梦锦拥措李善琛来源:《电脑知识与技术》2020年第10期摘要:该文主要介绍了在过去十几年内自然场景文本检测最常用的算法以及其研究趋势,仔细阐述了藏文在文本检测与识别上的发展历程,讲述了众多研究学者根据藏文文字的结构特征,音节符特征等方面进行研究,为后期的藏文古籍文献检测试验打下基础。
关键词:藏文古籍文该文献;文本检测;深度学习;OCR中图分类号:TP399 文献标识码:A文章编号:1009-3044(2020)10-0204-04随着电子科技和移动互联网的快速发展,移动电话,相机和其他的移动端的普及,基于传统的文本搜索已经不能满足人们的日常需求,人们意识到识别复杂场景下图片上的文字的必要性。
顺应时代与信息科技发展的需求,藏文古籍文献数字化也变得必不可少。
藏文古籍文献的数字化,有助于藏文古籍文献的保存与文化传承,有效促进西藏文化的发展。
但藏文古籍文献的文本环境特殊,可用数据集较少,再加上扫描或者用相机进行拍照录入时,会导致其分辨率降低。
而藏文古籍文献本身就存在众多问题,随着时代的变迁,介于藏文古籍文献的保存完好程度来看,不同的文献会出现不一样的清晰度,字体的大小,颜色,尺寸也大不相同,有些文献会出现字迹模糊,文字扭曲等现象,还有一些非文字区域出现类似于文字的纹理,其干扰检测的准确率。
针对以上困难,国内外专家对其进行多次的研究,最常见的算法来源于国外,如文献等;但我国国内对这些经典算法改进迅速,如文献等。
文本检测传统方法有:SWT、MSER等;深度学习的方法有:R-CNN、Fast R-CNN、Faster R-CNN、CTPN等。
本文将自然场景文本检测的算法进行总结,阐述了藏文在文字检测、识别上发展历程。
1文本检测研究现状1.1自然场景文本检测研究现状传统文档分析与现代文档分析区别在于数据集外观上的不同,传统的文档分析所用的是光学字符识别(Optical Charac-ter Recognition,OCR),OCR技术这一概念是早在20世纪20年代由德国的一位科学家提出,后来由美国的一位科学家将其运用到文字识别上。
【专题名称】语言文字学【专题号】H1【复印期号】2011年03期【原文出处】《西藏研究》(拉萨)2010年5期第75~85页【英文标题】A Classification and Description for Tibetan Characters【作者简介】江荻(1954- ),博士、研究员,中国社会科学院民族学与人类学研究所,博士生导师,主要从事藏语计算语言学、汉藏语言学研究(北京100081);燕海雄(1980- ),博士、助理研究员,中国社会科学院民族学与人类学研究所,主要从事藏语计算语言学、汉藏语言学研究(北京100081)。
【内容提要】藏文字符除了字母类符号,尚有大量其他文本符号,这些符号的名称、性质与功能历来未作勘定,积疑甚多。
藏文文本符号总体上可以分为三大类:藏文(本体)字符、梵源藏文字符、其他文本图形符号。
藏文字符专指藏文创制时期以及藏文历史应用中依据语言变化所创制的符号,通常所说的30个辅音字母和4个元音符号以及相应变体都在此列。
除此外,藏文数字符和标点符号也可归入此类。
梵源藏文字符是通过新创藏文字形表示藏语中没有的梵文读音形式和文字形式的字符,形成了所谓的藏(文)化梵文字符。
其他文本图形符号包括藏族自身创造的图形以及来源于梵文文本的图形,其基本特点是不表达语言声音,仅表示某种文本形式意义,或者以图形方式指示事物的意义。
这类符号有吟诵示意符、吟诵会意符、占星符、装饰符,等等。
以上藏文字符大多已收入ISO/IEC国际标准藏文字符基本集,对字符的分类有助于进一步展开藏文计算机处理研究。
There exist so many scripts and symbols in Tibetan characters, yet their names, graphic forms, origins,functions and applied domains are still not clear and always with some confusions so far. Tibetancharacters may be divided into three parts: Tibetan original characters, Tibetan transliteratedcharacters from Sanskrit and other picture symbols. Each of the scripts or symbols is given a name andother features according to its traditional ideas and functions, and with explanations to itsclassification. Classifing Tibetan characters is important to the research of computer processing ofTibetan characters.一、引言藏文文本中除了表达语言声音的字符之外,还存在大量其他类型的符号,这些符号有些具有表达语言功能的作用,有些则只是文本的装饰性图案。
藏文联想输入法设计藏文输入法是藏文信息处理技术的一项基础工作,藏文输入法包括藏文单字输入法和词语联想输入法。
文章在讨论藏文输入法实现方法的基础上,设计了藏文联想输入法中的生成树模块、检索模块和联想模块。
标签:藏文信息处理联想输入法生成树一、引言藏文是属于拼写文字,具有纵向和横向组合的特点,一个完整的藏文字由七个部件组成,按书写顺序依次是前加字、上加字、基字、下加字、元音、后加字、又后加字。
藏文输入法就是根据用户的输入查找出相应的藏文字供用户选择,它分为两部分,一是运用分析、综合的方法将藏文字排序,也就是字库和码表的生成;二是运用一定的方法将需要的藏文字从字库中取出来,也就是检索,其难点在于检索算法的构造。
目前已经开发出来的藏文输入法有方正、华光、桑布扎、班智达等,这些输入法不具有联想功能,从而影响了藏文字输入的速度。
本文在讨论藏文输入法实现方法的基础上,设计了藏文联想输入法中的生成树模块、检索模块和联想模块。
二、藏文输入法的实现方法构造藏文外码到内码的转换通常有两种方法,一是采用数组,二是采用有序树。
1.数组方法藏文有30个辅音,将第一个字母相同的藏文字定义为一个数组,共有30个数组,分别用unsigned char zw-a[]、unsigned char zw-b[]、……、unsigned char zw-z[]表示。
根据用户输入的藏文字在相关的数组中查询,得出相应的藏文字供用户选择。
采用数组的方法虽然实现简单,但该方法不易实现藏文的联想功能。
2.有序树方法静态数组不能动态释放内存,由数据结构算法可知,其检索效率不高,因此有必要将藏文单字构成一棵有序树,动态生成与释放,并且在树中的结点域中不包含藏文字,节省资源。
键树是一种特殊的查找树,其树中每个结点不是通常意义的关键字,而是组成关键字中的一个字符,从根到叶子结点的一条“路径”才对应一个关键字。
设字符集{AE,AF,AG,AH,AI,AL,AN,AO,AR,AU,BA,BD,BG,BK,BN,BR,BS},按首字母将其分解得{AE,AES,AEH,AF,AFA,AFD,AFG,AG,AH,AI,AK,AKA,AKD,AKF,AL,AN,AO,AR,AU}和{BA,BD,BG,BGS,BK,BKS,BN,BR,BS}对于关键字个数大于1的集合再按第二个字母进行分解为{{ AF,AFA,AFD,AFG},{ AK,AKA,AKD,AKF }},其它的集合也按类似的方法分解。