手写藏文字符识别研究(黄鹤鸣, 马龙龙, 赵维纳)思维导图
- 格式:xmin
- 大小:5.91 KB
- 文档页数:1
藏文(含梵文)字丁自动识别方法研究作者:完么才让来源:《卷宗》2015年第08期摘要:本文以《ISO/IEC 10646藏文编码字符集基本集》为参考,把其中除标点符号外的字符归类到字母集、主字集和元音集三个集合,再将测试文本中的藏文字符与三个集合逐一匹配的方法,准确识别(本文所讲识别,非OCR图形识别)出藏文字丁。
关键词:ISO/IEC 10646;音节;字丁;识别藏文字丁的准确识别是字丁频率、信息熵计算的前提,也是音节分类的基础,更是藏文识别必不可少的环节。
收录至中国知网的关于藏文字丁的几篇论文都未谈及藏文字丁的自动识别方法,本文从一下三个方面详细讲解藏文(含梵文)字丁的自动识别方法。
1 字母集、主字集和元音集把藏文unicode字符集中除标点符号等特殊字符外的其他字符分成字母集、主字集和元音集三个集合,分别用英文标记letter_set、main_char_set和vowels_set表示,则letter_set集合中的字符都无上加字,即字符上下均无main_char_set和vowels_set集合所示的空心圆圈,这类字符在实际文本中多作为字母出现,故将这类字符收录到字母集中。
相应地,main_char_set集合所含字符大都上有空心圈,结合时,附着在前一个字符的下面,把具有这个特征的字符收集到主字集中。
vowels_set集合中的字符都下附空心圆圈,表名这类字符在具体文本中充当元音,应收集到元音集中。
这三个集合是字丁识别的前提,以下内容中用L、M和V分别代表letter_set、main_char_set和vowels_set,Li、Mi和Vi表示对应集合中的任意元素。
2 藏文字丁的基本分类藏文字丁可分为六大类型,分别为:所有藏文字丁可归类到以上六种类型。
3 识别方法在有了集合的划分和字丁的基本分类后,即可依据如下所描述的方法识别出藏文字丁。
假设字符串变量Ttext存放待测试的藏文文本,字符串变量WR表示字丁。
藏文人名自动识别研究作者:娘本先安见才让来源:《电子技术与软件工程》2015年第19期摘要目前的藏文人名识别研究大多通过英语、汉语等语种的方法来研究藏文人名的识别,虽然有着较好的识别效果,但对人名的用词、构词特点及应用藏文文法规则对人名上下文信息特征的分析较浅。
本文提出了通过建立藏文人名构成词的成分属性词典,动态生成人名库,利用传统文法中人名上下文信息特征的文法规则建立藏文人名上下文指示词库对人名自动识别的方法。
【关键词】藏文人名自动识别动态人名库指示词在进行藏文自然语言处理时,分词与标注是藏语语言信息处理的基础内容,也是藏语词法分析的核心。
藏文人名识别作为藏文分词与标注系统的重要处理内容,目前的藏文分词与标注系统在处理含有藏文人名等未登录词时,其效果一般难以满足实际的需求。
而藏文人名在未登录词中占有较大的比重,也是未登录词识别的主要难点。
因此,藏文人名的自动识别对于藏文未登录词识别以及藏文自动分词与标注具有重要的意义。
1 藏文人名识别的研究现状及难点1.1 藏文人名识别的研究现状目前国内外针对人名的自动识别主要有三种:基于规则方法、统计方法以及规则与统计相结合的方法。
藏文人名自动识别研究也以上述三种方法为主要研究方法,加上藏文人名的上下文信息特征来识别藏文人名为主。
1.2 藏文人名识别的难点人名等命名实体识别发展至今在英文和中文领域已经取得了很大的成果,但是由于藏文人名自身的特殊性,使得藏文人名识别研究进展缓慢,藏文人名识别中的难点包括:(1)音节长度不固定。
按照藏族的传统命名方式藏文人名在起名时大多以3-4个音节结构较为普遍,但是由于在现实生活中对称呼的变化,藏文的音节长度最短的2个音节,最长可达26个音节。
(2)藏文人名本身并无明显的特征。
藏文人名不同于英文和汉文人名,如英文人名在文本中出现时首字母为大写,汉文人名一般采用“姓氏+名字”的命名方式。
藏文人名不存在大小写等形式上的特征,也没有严格意义上的姓氏。
藏文古籍文本检测研究现状作者:王梦锦拥措李善琛来源:《电脑知识与技术》2020年第10期摘要:该文主要介绍了在过去十几年内自然场景文本检测最常用的算法以及其研究趋势,仔细阐述了藏文在文本检测与识别上的发展历程,讲述了众多研究学者根据藏文文字的结构特征,音节符特征等方面进行研究,为后期的藏文古籍文献检测试验打下基础。
关键词:藏文古籍文该文献;文本检测;深度学习;OCR中图分类号:TP399 文献标识码:A文章编号:1009-3044(2020)10-0204-04随着电子科技和移动互联网的快速发展,移动电话,相机和其他的移动端的普及,基于传统的文本搜索已经不能满足人们的日常需求,人们意识到识别复杂场景下图片上的文字的必要性。
顺应时代与信息科技发展的需求,藏文古籍文献数字化也变得必不可少。
藏文古籍文献的数字化,有助于藏文古籍文献的保存与文化传承,有效促进西藏文化的发展。
但藏文古籍文献的文本环境特殊,可用数据集较少,再加上扫描或者用相机进行拍照录入时,会导致其分辨率降低。
而藏文古籍文献本身就存在众多问题,随着时代的变迁,介于藏文古籍文献的保存完好程度来看,不同的文献会出现不一样的清晰度,字体的大小,颜色,尺寸也大不相同,有些文献会出现字迹模糊,文字扭曲等现象,还有一些非文字区域出现类似于文字的纹理,其干扰检测的准确率。
针对以上困难,国内外专家对其进行多次的研究,最常见的算法来源于国外,如文献等;但我国国内对这些经典算法改进迅速,如文献等。
文本检测传统方法有:SWT、MSER等;深度学习的方法有:R-CNN、Fast R-CNN、Faster R-CNN、CTPN等。
本文将自然场景文本检测的算法进行总结,阐述了藏文在文字检测、识别上发展历程。
1文本检测研究现状1.1自然场景文本检测研究现状传统文档分析与现代文档分析区别在于数据集外观上的不同,传统的文档分析所用的是光学字符识别(Optical Charac-ter Recognition,OCR),OCR技术这一概念是早在20世纪20年代由德国的一位科学家提出,后来由美国的一位科学家将其运用到文字识别上。