基于连通域的汉字切分技术研究

基于连通域的汉字切分技术研究

ID:33603370

大小:206.88 KB

页数:3页

时间:2019-02-27

基于连通域的汉字切分技术研究_第1页
基于连通域的汉字切分技术研究_第2页
基于连通域的汉字切分技术研究_第3页
资源描述:

《基于连通域的汉字切分技术研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、·246·计算机应用研究2005年基于连通域的汉字切分技术研究陈艳1,2,孙羽菲1,2,张玉志1(1.中国科学院计算技术研究所,北京100080;2.中国科学院研究生院,北京100039)摘要:字符切分技术已经成为汉字识别系统设计中的关键问题,对于质量较差的文本图像,用灰度图像取代传统的二值化黑白图像能够取得更好的切分效果,基于连通域的切分算法能够对灰度图像进行较好的切分,基于连通域的汉字切分算法能有效地对文本图像中汉字字符部件进行合并及对粘连字符进行分割。关键词:灰度图像;连通域;粘连字符切分;合并中图法分类号:TP391.41文献标识码:A文

2、章编号:1001-3695(2005)06-0246-03ChineseCharacterSegmentationTechniqueBasedonInterconnectedDomain1,21,21CHENYan,SUNYu-fei,ZHANGYu-zhi(1.InstituteofComputingTechnology,ChineseAcademyofSciences,Beijing100080,China;2.SchoolofGraduate,ChineseAcademyofSciences,Beijing100039,China)Abst

3、ract:Segmentationtechniquehasbecomethebottleneckforthedevelopmentofcharacterrecognitionsystem.Forlow-qualitydocumentimage,grayscaleimageisabettersegmentationsourcethanmonochromeimage.Thispaperpresentsanovelsegmentationmethod,whichisbasedontheconceptofinterconnecteddomain.Expe

4、rimentresultsshowedthatthismethodcanachievebetterresultsthantraditionalmethods.Keywords:GrayscaleImage;InterconnectedDomain;CharacterSegmentation;Merged础。为了既保证切分的效率,又保证不丢失有用的信息,需要1引言对图像中的灰度值进行分级。灰度值分级通常采用直方图均字符识别技术经过几十年的发展,已经取得了长足的进衡法,这种分级不改变像素的灰度值,只对每个像素设置一个步。目前某些识别系统对中等质量印刷

5、体样本的识别率已达级别。根据灰度分级的结果把图像处理为分级的连通域,根据到了99%甚至更高。在这种情况下,字符切分已经成为字符分级的连通域对图像进行粗切分,最后进行连通域之间的合并识别中的关键问题。实践表明,文字识别系统的识别率与切分和粘连字符连通域的切分。技术密切相关,错误切分直接导致错误识别。定义1一幅图(fx,y)(x,y表示图像的长、宽)由若干个[3](k)目前的字符切分方法主要可分为三种:①基于结构分(设为n个)连通域C(k=1,⋯,n)组成,记为析的切分,即从图像特征中寻找字符切分的规则;②以识别为(k)(fx,y)=2C∀k∈(1,

6、2,⋯,n)基础的分割,该方法效果好,但比较耗时,实际应用较少;③整(k)定义2连通域C指由若干个(设为m个)像素a(k=体切分策略,即系统将字符串作为一个整体进行词识别而不1,⋯,m)组成的集合,且满足:是字识别。这些切分方法大都以二值化之后的文本图像为处(i)(j)(i)(j)对∀aa(a∈C,a∈C,i≠j),它们之间存在一条通理对象。目前已投入使用的字符识别系统对印刷质量较好的路L,且∀(qq∈L)有q∈C。文本图像能取得比较好的切分效果,但对于年代久远的报刊杂定义3连通域C具有一定的级别,记为grad(eC),其级志的识别,图像本身质量

7、较差,且文本图像并非只包含一种字别由它所包含的像素的最高灰度级确定如下:体、一种字号,背景色时常变化,文字排版也非固定格式,使用(1)(2)grade(C)=max(grade(a),grade(a),⋯,grade二值化后的图像很难取得良好的切分效果。灰度图像比黑白(m)(k)(k)(a)),其中grad(ea)为像素a的灰度级。图像记录了更多的图像信息,因而也能更准确地判断出切分的位置,因此利用灰度图像进行字符切分是提高字符识别系统识按照以上定义生成的连通域,其内部可以包含若干不同级别率的有效途径,而这也对切分算法提出了新的要求。别灰度的像素

8、,这些像素彼此之间都相互连通。可以看到,某个连通域的子集仍然可能是一个连通域,引入相邻连通域的概2分级连通域念如下。定义4设A,B为连通

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。