基于笔画提取和颜色模型的视频文字分割算法
- 格式:pdf
- 大小:203.50 KB
- 文档页数:3
如何应用计算机视觉技术进行视频分割与标注视频分割与标注是计算机视觉技术的重要应用之一。
通过视频分割与标注,可以将视频中的物体或场景进行分割,并进行详细的标注,为后续的视频处理和分析提供基础。
本文将介绍如何应用计算机视觉技术进行视频分割与标注,并探讨其在各个领域的应用。
首先,我们来了解一下视频分割与标注的基本概念。
视频分割是指将视频序列按照时间和空间的特征进行划分,将其分割成不同的区域或物体。
而视频标注则是对视频中的每个区域或物体进行详细的描述和标记,例如位置、形状、颜色等信息。
计算机视觉技术在视频分割和标注中发挥关键作用。
首先,视频分割可以通过计算机视觉技术中的目标检测、图像分割和实例分割算法实现。
目标检测算法可以在视频中识别出感兴趣的物体,图像分割算法可以将图像中的像素划分成不同的区域,而实例分割算法则可以将图像中的每个物体都分割出来。
然后,通过对分割结果进行标注,可以为每个区域或物体赋予相应的标签和属性。
在实际应用中,视频分割与标注可以应用在许多领域。
首先是视频编辑和剪辑领域。
通过对视频进行分割和标注,可以方便地对视频进行剪辑和处理,去除不需要的部分或者合并不同视频段落。
其次是视频监控和安防领域。
通过对监控视频进行分割和标注,可以准确地检测和识别出监控区域中的物体或人员,实现智能化的监控和报警系统。
此外,视频分割与标注还可以应用在医学影像分析、交通监管、智能驾驶等领域。
针对视频分割与标注的具体实现,可以采用多种计算机视觉技术和算法。
首先是目标检测算法,如基于深度学习的目标检测算法YOLO、Faster R-CNN等。
这些算法可以在视频中实时检测出多个物体并跟踪它们的位置。
其次是图像分割算法,如GrabCut、MeanShift等。
这些算法可以将图像中的像素进行分割,形成感兴趣的区域。
最后是实例分割算法,如Mask R-CNN。
该算法不仅可以分割出物体,还可以准确地标记出物体的轮廓和边界。
此外,视频分割与标注还可以结合其他计算机视觉技术进行进一步的处理和分析。
用小波变换及颜色聚类提取的视频图像内中文字幕
黄晓东;周源华
【期刊名称】《计算机工程》
【年(卷),期】2003(029)001
【摘要】提取文字信息是基于内容的视频检索中重要内容.该文综合应用小波变换技术和颜色聚类技术提取含有中文字幕的视频图像的文字,并利用印刷中文字体特点进行噪音处理得到完整清晰的字幕文字.在进行颜色聚类时,该文提出一种8邻域颜色聚类方法,充分利用图像像素的空间相关性,使聚类具有较好的鲁棒性.实验结果表明这是一个有效的中文字幕文字的提取方法.
【总页数】3页(P43-44,135)
【作者】黄晓东;周源华
【作者单位】上海交通大学图像通信和信息处理研究所,上海,200030;上海交通大学图像通信和信息处理研究所,上海,200030
【正文语种】中文
【中图分类】TP391.4
【相关文献】
1.基于K-means颜色聚类分割与边缘检测的文字提取 [J], 吴春法;潘亚文;王敬
2.基于敏感点颜色聚类和行聚类筛选的文本提取 [J], 刘琼;周慧灿;王耀南
3.一种新的维吾尔文字幕关键帧提取方法 [J], 闫轲;哈力旦·阿布都热依木;李敏强
4.基于纹理滤波和颜色聚类的提花织物纹样自动提取方法 [J], 傅艺扬; 刘妹琴; 樊臻; 张森林
5.空间颜色聚类算法及其在图像特征提取中的应用 [J], 李健; 姜楠; 宝音巴特; 张帆; 张伟健; 王薇
因版权原因,仅展示原文概要,查看原文内容请购买。
如何使用计算机视觉技术进行文档分割与识别计算机视觉技术在文档分割与识别方面发挥着重要的作用,可以帮助用户自动识别和提取文档中的信息,并进行有效的分割与分类。
本文将介绍如何使用计算机视觉技术进行文档分割与识别,以帮助读者更好地理解和应用该技术。
首先,文档分割是指将整个文档划分为各个独立的区域,如页眉、页脚、章节标题、正文等。
通过分割文档,可以实现对文档结构的分析和理解,为后续的文档识别提供基础。
在计算机视觉中,有一些经典的算法可以进行文档分割,例如基于边缘检测的方法和基于颜色与纹理的方法。
其中,基于边缘检测的方法可以通过检测图像中的边缘来实现文档分割,边缘检测算法包括Sobel算子、Canny算子等。
而基于颜色与纹理的方法则通过分析文档的颜色和纹理特征来进行分割,可以利用聚类算法、图像分割算法等实现。
其次,文档识别是指对文档中的内容进行自动识别和提取,常见的文档识别任务包括文字识别、图像识别和表格识别等。
利用计算机视觉技术进行文档识别可以高效地获取文档中的关键信息,节省人力物力成本。
文字识别是文档识别的关键环节,可以通过光学字符识别(OCR)技术来实现。
OCR技术利用图像处理算法将文档图像转换为可编辑的文本数据,常见的OCR软件包括Tesseract、ABBYY FineReader等。
在进行文字识别前,需要对文档图像进行预处理,如去噪、调整图像亮度和对比度等,以提高文字识别的准确率。
图像识别是指对文档中的图片或图表进行自动识别和提取。
对于扫描文档中的图片,可以利用图像处理算法进行边缘检测、轮廓提取等操作,以获取图片的位置和尺寸信息。
然后,可以利用图像分类算法对图片进行识别,例如卷积神经网络(CNN)和支持向量机(SVM)等。
表格识别是一种常见的文档识别任务,可以通过将表格图像转化为电子表格或结构化的数据格式,以提高表格信息的利用价值。
在应用计算机视觉技术进行文档分割与识别时,还需考虑一些实际问题。
形状分割是提取图像中特征的重要手段,在手写汉字笔划提取中也有重要的应用。
基于形状分割的手写汉字笔划提取方法可以有效的提取手写汉字的笔划,从而实现手写汉字的识别。
基于形状分割的手写汉字笔划提取方法主要包括以下几个步骤:
图像预处理:首先需要对输入的图像进行预处理,以消除噪声、改善图像的质量和提高识别精度。
图像分割:使用图像分割算法,将图像分割成若干个子图像,每个子图像对应一个汉字的笔划。
笔划提取:使用形状分割算法对子图像进行分割,从而提取出汉字的笔划。
笔划特征提取:使用特征提取算法,提取每个笔划的特征,以便进行后续的识别。
基于形状分割的手写汉字笔划提取方法是一种有效的手写汉字笔划提取方法,它可以有效的提取出汉字的笔划,并且可以根据笔划的特征进行后续的识别。
然而,由于手写汉字的笔划各异,因此,在实际应用中,还需要对该方法进行不断的改进和完善,以提高它的准确率和稳定性。
—15—基于点模式匹配的视频文字跟踪和笔画提取马 瑞,王家廞(清华大学计算机系智能技术与系统国家重点实验室,北京 100084)摘 要:给出一种在复杂背景下的视频文字跟踪和文字笔画提取方法。
用基于Harris 角点特征的点模式匹配法跟踪视频序列中静止和运动的文字,以确定文字序列的时间属性,比较了采用图像整体像素匹配和点模式匹配的跟踪精度。
用基于多帧融合思想的前景/背景识别算法提取视频文字笔画并作OCR 识别。
实验结果显示,点模式匹配的跟踪算法比图像整体像素匹配的算法跟踪精度更高,在图像背景复杂、变化快的情况下,基于多帧融合的文字笔画提取方法优于传统的二值化方法。
关键词:视频文字跟踪;点模式匹配;文字笔画提取Video Text Tracking and Stroke ExtractionBased on Corner Feature MatchingMA Rui, WANG Jia-xin(State Key Laboratory of Intelligent Technology and Systems, Dept. of Computer Science, Tsinghua University, Beijing 100084)【Abstract 】This paper proposes a video text tracking and text stroke extraction method under complex background. A point matching method based on Harris corner features is introduced to track text objects. The performance is evaluated by the comparison with SSD-based tracking method. A multi-frame-based foreground/background recognition algorithm is proposed to extract text strokes for optical character recognition. The efficiency and robustness of the point matching method for video text tracking and the text stroke extraction algorithm are proved by objective and thorough experiments on TV serials and movies.【Key words 】video text tracking; corner feature matching; text stroke extraction计 算 机 工 程Computer Engineering 第34卷 第3期Vol.34 No.3 2008年2月February 2008·博士论文·文章编号:1000—3428(2008)03—0015—03文献标识码:A中图分类号:TP3911 概述在媒体信息处理领域,相比其他视觉信息,视频流中的文字信息能提供更加可靠、详实的语义信息,在基于内容的媒体挖掘和媒体检索中占有重要地位,是这一领域的研究热点。
基于分块和Lab颜色模型的字幕提取方法
梁松涛;吕学强;程涛;施水才
【期刊名称】《微计算机信息》
【年(卷),期】2010(026)017
【摘要】视频中的文本是建立视频检索的一个重要线索,因为视频中的文本总是和视频帧相关,并且客观地描述了视频帧的主要内容.根据背景区域内像素颜色变化缓慢而背景和前景交汇处像素颜色变化剧烈的原理采用对视频帧的每一行像素进行分块的方法计算每一块的变化率来检测和定位文本区域;使用Lab颜色模型来二值化图像从而提取文本图像.实验数据表明该方法效果不错,有很好的应用前景.
【总页数】3页(P198-200)
【作者】梁松涛;吕学强;程涛;施水才
【作者单位】100101,北京,北京信息科技大学中文信息处理研究中心;100101,北京,北京信息科技大学中文信息处理研究中心;100101,北京,北京拓尔思信息技术股份有限公司;100101,北京,北京信息科技大学中文信息处理研究中心;100101,北京,北京拓尔思信息技术股份有限公司;100101,北京,北京信息科技大学中文信息处理研究中心;100101,北京,北京拓尔思信息技术股份有限公司
【正文语种】中文
【中图分类】TP391.41
【相关文献】
1.基于颜色分析的新闻视频字幕区提取方法研究 [J], 李琼
2.基于分块统计模型的运动目标提取方法研究 [J], 韩红斌;郭红
3.基于颜色模型和区域特性的交通标志提取方法研究 [J], 王炳飞;宋海玉;李厚杰;王培昌;马彪
4.基于国际颜色模型(CIELAB)的棉花颜色级测试方法研究 [J], 陆永良;袁裕禄;李云飞
5.基于Lab颜色空间的棉花覆盖度提取方法研究 [J], 牛亚晓;张立元;韩文霆
因版权原因,仅展示原文概要,查看原文内容请购买。
基于K-means颜色聚类分割与边缘检测的文字提取吴春法;潘亚文;王敬【期刊名称】《电脑知识与技术》【年(卷),期】2017(013)028【摘要】针对自然场景中文字提取受复杂环境因素的影响,如光照不均匀、自然场景背景颜色多样等因素影响,采用任何单一的图像分割技术都无法进行有效地进行文字区域分割和文字提取,提出一种两种方法相结合的自然环境场景中的文字提取方法.首先,采用实现颜色聚类的K-means算法对文本区域与有颜色背景分割,然后在文本区域内对文字进行二值化处理后运用边缘检测的方法提取文字.通过VC++编程环境及OpenCV技术作为该方法的验证平台,结果显示基于K-means算法实现颜色聚类与边缘检测方法相结合能有效进行自然环境中文字的提取.【总页数】3页(P206-207,210)【作者】吴春法;潘亚文;王敬【作者单位】福建师范大学闽南科技学院,福建泉州362332;福建师范大学闽南科技学院,福建泉州362332;福建师范大学闽南科技学院,福建泉州362332【正文语种】中文【中图分类】TP391【相关文献】1.基于 K-means的图像文字识别与提取研究 [J], 岳建杰;赵旦峰2.用小波变换及颜色聚类提取的视频图像内中文字幕 [J], 黄晓东;周源华3.基于K-means的图像文字识别与提取研究 [J], 段银雷;4.基于改进K-means图像分割算法的细叶作物覆盖度提取 [J], WU Huanli;CUI Kewang;ZHANG Xin;XUE Xuzhang;ZHENG Wengang;WANG Yan5.结合canny边缘检测算法与k-means算法的图像文字识别 [J], 向涛;杨乾辉;邓云;吴苹;杨秀霞;许雷因版权原因,仅展示原文概要,查看原文内容请购买。
基于特征提取的视频预处理方法基于特征提取的视频预处理方法,是指利用计算机视觉和图像处理技术对视频进行预处理,通过提取视频的特征信息,来实现对视频数据的分析和处理。
这一方法可以帮助我们从视频中获取有用的信息,如目标检测、行为识别、人脸识别等,为后续的视频分析和应用提供基础。
1. 帧差法:帧差法是一种基于像素变化的特征提取方法。
通过比较相邻帧之间的差异,可以提取出视频中的运动信息。
当两帧之间的差异超过设定的阈值时,就认为发生了运动。
该方法适用于目标跟踪、行为识别等应用。
2. 光流法:光流法是一种基于像素移动的特征提取方法。
通过计算相邻帧之间像素点的运动矢量,可以得到视频中的光流场。
光流法可以用于视频中目标的运动分析、人脸识别等任务。
3. 前景提取法:前景提取法是一种基于像素颜色或纹理的特征提取方法。
通过将视频的每一帧与背景模型进行比较,可以将前景物体从背景中提取出来。
前景提取法可以用于目标检测、行人跟踪等应用。
二、视频预处理的流程1. 视频采集与解码:首先需要将视频从摄像机、手机等设备中采集出来,并进行解码,将视频转化为数字化的视频帧序列。
2. 视频滤波处理:对视频帧序列进行滤波处理,消除视频中的噪声和伪影。
4. 视频分割与关键帧提取:将视频分割成不同的场景或镜头,然后提取每个场景或镜头中的关键帧作为代表。
5. 视频特征提取:对每个关键帧进行特征提取,包括颜色特征、纹理特征、形状特征、运动特征等。
6. 特征选择与降维:对提取的特征进行选择和降维处理,提高计算效率和模型的泛化能力。
7. 特征标准化:对选择的特征进行标准化处理,使其具有相同的尺度和分布。
8. 特征表示与存储:将标准化的特征表示成向量形式,并将其存储到数据库中,以便后续的视频检索和分析。
1. 视频监控:通过对视频进行预处理,可以实现对摄像头中的目标物体进行跟踪、识别和行为分析。
2. 视频检索:通过对视频进行特征提取和索引建立,可以实现对视频库中的目标视频进行快速检索。
基于笔画识别的视频图片文字提取方法王萍;徐鹏;张艺凡【期刊名称】《天津大学学报》【年(卷),期】2014(000)003【摘要】According to geometric features of texts and the fact that character strokes have symmetrical edges, Laplacian of aGaussian(LoG)was employed for finding the ‘symmetrical edge-point pair’,then the ‘symmetrical edge-point pairs’ sample set was constructed,therefore the scale and orientation of the detect window were deter-mined by analyzing the sample distribution. The relational cluster of all character sub-regions was obtained by using the minimum spanning tree(MST)algorithm,then the text lines(including non-horizontal)were extracted in the form of lines or rows after pruning,false positive elimination,and threshold segmentation. Experiments show that the proposed method is capable of handling multilingual,different orientation and multi-scale images under complex background with a 76%precision rate and a 75%recall rate on ICDAR dataset.%通过对笔画的对称边缘特点与文字几何特征的认识,根据二阶边缘检测算子捕捉边缘点亮暗变化趋势的能力,使用高斯型拉普拉斯算子寻找“边缘点对”,并构建来自笔画等窄带区域的“对称边缘点对”样本集。
专利名称:一种基于内容的视频分段方法专利类型:发明专利
发明人:肖俊,陈刘策
申请号:CN201610066554.0
申请日:20160129
公开号:CN105744356A
公开日:
20160706
专利内容由知识产权出版社提供
摘要:本发明公开了一种基于内容的视频分段方法。
首先,利用字幕文件得到视频中的每一段话的内容和时间点,再利用每两段话之间的时间间隔,将贴近的话组合在一起作为一个较大的自然段,然后,对这个大的自然段进行分词处理,并对利用词和词之间的相似性,得到句子和句子之间的相似性,将相似性比较大的句子组合在一起作为一个自然段,然后根据对应的时间信息可以得到初步的视频分段位置。
接着基于图像对视频进行镜头提取,再结合之前得到的分段位置,找到最终的准确分段位置。
申请人:杭州观通科技有限公司
地址:310052 浙江省杭州市滨江区建业路511号华业大厦8层815室
国籍:CN
代理机构:杭州求是专利事务所有限公司
代理人:郑海峰
更多信息请下载全文后查看。
—193—基于笔画提取和颜色模型的视频文字分割算法程 豪1,黄 磊2,刘金刚1(1. 首都师范大学计算机科学联合研究院,北京 100037;2. 中国科学院自动化研究所,北京 100080)摘 要:提出综合利用视频文字时空、笔画、颜色和几何特征的文字分割算法,快速准确地从复杂背景的视频图像中分割出文字。
利用多帧融合进行图像增强,基于笔画宽度特征,使用笔画特征算子提取文字笔画,根据笔画图标注的文字区域建立颜色模型,提取文字颜色层,并用改进的连通域分析法去除文字颜色层中的同色背景和噪声。
实验结果表明,该算法比传统算法能更好解决复杂背景的视频文字分割 问题。
关键词:视频文字识别;视频文字分割;笔画提取;颜色建模Video Text Segmentation Algorithm Based onStroke Extraction and Color ModelCHENG Hao 1, HUANG Lei 2, LIU Jin-gang 1(1. Join Faculty of Computer Scientific Research, Capital Normal University, Beijing 100037;2. Institute of Automation, Chinese Academy of Sciences, Beijing 100080)【Abstract 】This paper presents a segmentation algorithm which comprehensively utilizes various attributes of video texts, such as temporal and spatial, strokes, color, geometric. The algorithm uses multi-frame integration to enhance the images, performs the stroke operator to extract the character strokes based on the feature of the stroke width, analyses the color of the character strokes according to the stroke image and extracts the color layer of the character, removes the background with the same color and noises in the color layer of the character by the improved connected components analysis. Experimental results indicate that the proposed algorithm preferably solves the text segmentation problem which involves in a complex background, and its performance precedes that of the traditional method. 【Key words 】video OCR; video text segmentation; stroke extraction; color modeling计 算 机 工 程Computer Engineering第35卷 第4期Vol.35 No.4 2009年2月February 2009·人工智能及识别技术· 文章编号:1000—3428(2009)04—0193—03文献标识码:A中图分类号:TP3911 概述视频中的文字作为一种高级语义特征,对视频内容的理解、索引具有重要作用,但视频图像分辨率不高、视频中的文本背景复杂,给视频文字的检测和分割带来了困难。
传统的OCR 系统只接受二值化的文本图像,从视频的复杂背景中准确地分割出字符,是视频文字识别研究的重要技术之一。
关于文字分割的方法可分为以下3类:(1)基于阈值的方法:文献[1]利用局部阈值来去除背景和噪声,得到二值化的图像。
基于颜色阈值的方法来源于灰度成双峰分布的文档图像分析,但在处理背景复杂的视频文字图像时,该类方法失效。
(2)基于颜色模型的方法:文献[2]为图像的文字灰度建立一个高斯混合模型,用基于马尔科夫随机场的方法确定每个像素所属的高斯项,从而达到分割的目的。
该类方法中颜色模型的建立依赖于样本点的选取,在复杂的背景中不易分析出文字的颜色分布。
(3)基于连通体分析的方法:文献[3]利用连通体的拆分合并来分割文字。
在拆分阶段,输入图像被拆分成一系列的连通分量并进行过滤;在合并阶段,连通分量通过动态聚类进行合并。
该类方法的不足是较低的图像分辨率和较高的图像噪声会影响连通体分析的结果。
目前各类方法大多只选择颜色、笔画、连通体等单一方面特征实现文本分割,本文提出的算法综合利用视频文字的时空特性、笔画、颜色、几何特征,实现了不同特征在分割过程中的有效互补,并且对其中某些步骤做一些有效的改进。
算法利用多帧信息增强图像,使用笔画算子提取笔画信息,根据笔画区域像素建立颜色模型,并用改进的连通体分析方法取除噪声。
2 算法描述图1 算法框架基金项目:国家“863”计划基金资助项目(2007AA01Z174) 作者简介:程 豪(1981-),女,硕士研究生,主研方向:图像处理,视频文字识别;黄 磊,副研究员;刘金刚,博士生导师 收稿日期:2008-03-25 E-mail :chenghao05@—194— 用文献[4]的方法对视频文字进行定位和跟踪,在跟踪过程中,对每一个文本对象建立文本区域链,文本区域链表示同一文本在连续视频帧内的不同出现。
过程中各步骤分别利用了文字不同特征属性:(1)利用文字的时空特性增强图像;(2)利用文字笔画特征提取文字笔画图;(3)利用文字颜色特征提取文字颜色层;(4)利用文字几何属性,分析连通体去除同色背景和多余噪声。
2.1 多帧图像的融合增强视频文字一般具有下述时空特性:(1)文字通常跨越若干帧,甚至若干镜头;(2)文字存在时,不同帧之间背景变化可能很大,但字幕所在区域的亮度和颜色变化不大。
文本区域链记录了一个文本对象的不同出现,视频文字的冗余信息和时空特性,为增强图像和去除复杂背景提供了可能。
对一个文本区域链各位图对应像素点在时域上分别计算多帧融合的均值图,最小值图和最大值图,如图2(a)~ 图2(c)所示。
综合利用上述各图,根据图中每个像素在时间域上的灰度变化范围来决定对该像素采用何种方式增强。
图像增强的主要步骤如下:(1)确定文本的极性文字的极性指文本图像是属于正向文本(亮底暗字)还是反向文本(暗底亮字)。
选择多帧平均图,通过比较文本框的中心四行和边缘上下各2行的平均像素亮度来判断。
(2)计算增强图最大值图和最小值图表示了每个像素在时域上变化的上下界。
将最大值图与最小值图对应像素相减,所得的差值图则反映了变化范围,如图2(d)所示,可见文字区域像素变化较小,部分非文字区域像素变化范围较大。
将差值图作为选择何种方式增强的依据:像素变化范围小于阈值T 的区域选取平均图对应点,变化范围大于阈值T 的区域正(负)向文本选取最大(小)值图对应点。
图2(e)是上例负向文本的增强图。
(a)均值图 (b)最大值图 (c)最小值图(d)差值图 (e)增强图图2 图像增强(3)尺度归一化文本分割是为下一步文字识别做准备。
为了在标准OCR 上取得好的效果,将要处理的文本行(列) 固定高宽比地放缩到高(宽)为80像素。
2.2 文字区域的笔画特征对于背景变化不大的文本区域链,多帧融合的方法并不能完全简化背景。
在复杂背景中提取文字,须将这个问题转化为在图片中抽取文字的笔画信息。
文字笔画具有下述特性:(1)为方便阅读,文字笔画颜色与背景颜色通常存在较大的色差;(2)文字笔画可视为小于某一宽度上限的双边结构;(3)文字的笔画以0, π/4, π/2, 3π/4这4个方向为主。
基于上述文字笔画的特性,本文利用文献[5]中提出的笔画算子来生成笔画图。
文字笔画提取过程选择多帧增强图像作为处理对象,若为负向文本则对其进行反色处理,统一变为正向文本。
在正向文本中,方向笔画强度的计算公式为11()max {min{(),()}}()W d i d d DE p f p i f p W i f p +−==−+−− (1)()if ()0()0otherwise ++dd d DE p DE p DE p =⎧>⎪⎨⎪⎩(2) 其中,d=0, 1, 2, 3分别代表笔画最常见的0, π/4, π/2, 3π/4 4个方向,W 为笔画宽度上限;()d f p i +表示d 方向上与点p 距离为i 的点的像素灰度值。
笔画特征图定义为4个方向笔画特征的最大值,如图3(b)所示,用公式表示为30()Max {()};W d d DE p DE p == (3)对笔画特征图的二值化,采用Otsu 方法求得最佳阈值T ,得到二值笔画图,如图3(c)所示。
if ()_()255otherwiseDE p T Bina DE p >⎧=⎨⎩(4)(a)原始图(b)笔画特征图(c)二值笔画图 图3 笔画提取 将原始图像转换成笔画特征图,可检测到图像中笔画宽度小于W 限制的连通体。
笔画特征图中笔画较稀疏的文字区域均可获得较好效果。
但其不足之处在于:对笔画密集的区域,看不出明显的双边结构,笔画提取方法在该区域失效。
因此,仅依赖笔画算子的方法不能得到理想的文字分割结果,但笔画图获得大量可靠的笔画信息将在下文发挥作用。
2.3 文字区域的颜色特征颜色信息在分辨文字和背景时起重要作用。
在同一文本行内,文字区域通常具有较为均一的颜色。
因此,准确分析出文字像素的颜色及分布在文字分割过程中非常关键。
图3(c)标注了图像中绝大部分文字区域。
根据二值笔画图已标注的文字笔画区域,将其映射回原始图像能获得大部分可靠的笔画像素,据此对笔画图的标注区域建立文字的颜色模型。
由于颜色建模基于大量真实可靠的笔画像素,简单的颜色模型即可达到理想的效果,步骤如下:(1)用Gauss 分布拟合文字像素颜色的分布,建立文字区域的颜色模型。
计算二值笔画图标注区域对应原图像素颜色的均值mean 和标准差std 。
若文字颜色均一,则std 值较小。
(2)利用文字像素的颜色模型,提取文字像素所在的颜色层,将颜色处于[,]D mean k std mean k std =−⋅+⋅(k 为系数,一般取值为1~2)区间的像素点置为文字,其他置为背景,计算公式为if ()_()255otherwiseEnhance p D Layer img p ∈⎧=⎨⎩ (5)提取文字所在的颜色层(见图4)后,原笔画算子失效的笔画区域全部提取出来,但与文字颜色相似的背景区域也同时被提取出来。