| 基于单义域邻接图的工程图纸扫描图象的字符提取 |
| 作者:未知 来源:网络搜集 点击数:
更新时间:2007-1-15 21:44:57 |
|
|
摘要 工程图纸扫描图象的图文分割是一个重要问题。本文在构建单义域邻接图基础上来提取字符及其特征。图文分离先从单义域中筛选字符笔划域,进行初步分离。然后,以字符笔划域为起点,遍历邻接图来搜索邻接字符笔划域,提取字符域,分析特性作进一步筛选。以字符域邻近与共线为判据来组合字符串域,字符域邻近是用其外接膨胀矩形相交来判定。利用共串字符域外接矩形中心及所附图形对字符域进行定向。对非水平字符域旋转至水平,并构建其单义域邻接图,以表达几何与拓扑特征,为后续识别作准备。实例表明,本算法可以较好地处理字符与图形的粘连问题,提取效果很好,且能够描述字符整体特征。
1 引言
工程图纸扫描图象的识别与理解是目前学术界和工程界研究的热点,在机械、电子、建筑及地理信息系统等应用领域中具有重要的实际意义。图样中有两部分信息,一是图形,由几何图素组成,用来表达产品形体;二是文字, (易县门户网http://www.yxdoor.com)用来定义产品尺寸及描述其它信息,有的附于图形,如尺寸数字等,也有独立存在的,如技术要求等。文字是图样中非常重要的信息。因此,工程图纸扫描图象的字符提取与识别是一个重要问题,对进一步的尺寸理解、图像理解等高层次理解都有较大作用。工程图样中的文字包括多种字符,如汉字、数字、字母及符号等。字符情况较为复杂,有自己的一些特点:字符多为手写,具有一定的随意性,不同于印刷体;具有多种方向,不仅有水平书写,而且有的垂直放置,还有其它各种角度的斜向;有直体与斜体;有时字符与字符及图形粘连,增加了图文分割及字符提取的难度;位置分散,大小不一。上述情况在字符的分割及识别时都必须考虑。所以,工程图样字符提取及识别是一个十分困难的问题。
鉴于工程图样字符的特点,其处理方法与光栅文档具有很大差别,一般的处理过程是:先标识连通体,从中选出字符域,再根据字符域邻近和共线来生成字符串域,并判断方向,然后分割字符域,最后进行字符识别及校正。经过多年研究,工程图样字符的分割及识别算法已有多种:一是基于连通体 ;二是基于轮廓跟踪 ,利用同步边缘特性检测进行轮廓跟踪,分离字符轮廓,采用邻域搜索来生成字符串,最后通过分类树进行字符识别,并根据专业知识作校正;三是行程编码匹配法 ,采用图分割集方法来分割与字符及图形粘连的字符。
本文提出一种基于单义域邻接图的图文分割方法,在二值图象水平黑游程编码基础上,以相关游程线宽和拓扑的一致为约束生成条形域,对其中多义域作分裂获得单义域:线段域和圆弧域,并建立其邻接图。字符笔划可以表示为一个或多个单义域。字符笔划的长度较小,线宽一致。根据这些特点,从单义域中筛选字符笔划域,进行初步图文分离。字符笔划多是邻接的,以字符笔划域为起点,通过遍历邻接图搜索邻接的字符笔划域,来提取字符域。字符结构与图元差别较大,根据字符域特性实现字符进一步筛选。采用字符域外接矩形来标识字符的大小和位置。根据字符域外接矩形相交来判定字符邻近,再加上字符共线为判据来生成字符串域。图样中字符串多是附于图形的,单义域可以很容易获取方向,即可得图形方向。利用共串字符外接矩形中心及所附图形对字符进行定向。然后将非水平字符域旋转至水平,并重新进行水平黑游程编码,以单义域邻接图来表达字符的结构特征,为后续识别作准备。下面进行详细介绍。
2 图象的单义域邻接图描述
在工程图形中,既有图元又有字符。(易县门户网http://www.yxdoor.com)图元有多种,如线段、圆弧、圆、箭头等,而且图元多为相交。不同图元需要用一种结构来统一描述,然后通过分析其几何与拓扑特征确定类型来进行矢量化。交点信息对提取同一图元及不同图元之间拓扑关系具有重要指导意义。字符是由笔划组成的,在提取笔划的基础上进行识别是一种很好的方法。但笔划的提取难度较大。现有对图样字符的识别多是处理数字和字母,较少涉及汉字,而我国图纸均有大量汉字信息,还有数字及字母等。因此,需要建立一种模型,既能表达几何数据,还可以描述拓扑关系,便于各种特征提取。 [1] [2] [3] [4] [5] 下一页
|
|
| 文章录入:yxdoor 责任编辑:yxdoor |
上一篇文章: 基于单义域邻接图的圆弧与圆识别
下一篇文章: 微机械元件和仪器新进展* |
| 【发表评论】【加入收藏】【告诉好友】【打印此文】【关闭窗口】 |