（通信与信息系统专业论文）工程图纸矢量化的研究.pdf

上传人：扣*** IP属地：宁夏上传时间：2019-12-14 格式：PDF 页数：47 大小：1.28MB 积分：12 举报 版权申诉

已阅读5页，还剩42页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要摘要工程图纸矢量化是图纸理解的基础，一般做法是将纸质图纸扫描至计算机中，然后采用矢量化算法，使光栅图转化为矢量图。这样做的效率较高，但是出于算法的局限性，识别精度有待提高。在长期的研究及实践过程中，人们发现把自动 r j 人工结合起来能够得到较好的效果，兼顾了效率与质量，即先进行自动矢量化，再通过人工修改的方式可以既节省时间，又提高速度，这也是目前越来越通行的做法。多年来，人们已经提出了众多的矢量化算法，这些算法有的侧重局部，有的侧重整体，均取得了一定效果，但距离实用仍然有较大的距离，这主要是源于 4 爻际应用的多样性和复杂性。在本文中，作者以图形细化、跟踪、拟合为基础，较灯地实现了工程图纸的矢量化，并且在细化节点畸变校正这个关键问题上提出了新的算法，具有一定的创新性。关键词：图纸理解工程图纸矢量化 a b s t r a c t a b s t r a c t v e c t o r i z a t i o no fe n g i n e e 矗n gd r a w i n gi st h eb a s eo fd r a w i n gu n d e r s t a n d i n g ， g e t l e l a l 、a yo fw h i c hi s f i r s ts c a l ld r a w i n gi n t oc o m p u t e r , t h e na u t o m a t i c a l l yc o n v e r t r a s t e ri m a g et ov e c t o ri m a g et h r o u g ha l g o r i t h mo f v e c t o r i z a t i o n h i g hp r o d u c t i v i t yc a r t b co b t a i n e dh jt h i su a y b u tp r e c i s i o nr e m a i n st ob ei m p r o v e d d u r i n gl o n g t e r ms t u d y a n dr e s e a r c h i ti sf o u n dt h a tt h ea u t o m a t i ca p p r o a c hc o m b i n e dw i t hm a n u a ln o to n l y o b t a i nc o m p a r a t i v e l yh i g hp r o d u c t i v i t yb u ta l s op r e c i s i o n i np a s ty e a r s ，m a n y a l g o r i t h m sh a v eb e e np r o p o s e d ，s o m eo fw h i c hf o c u so ng l o b a l ，a n ds o m eo fw h i c h l i l c u s0 1 1l o c a l b o t ho ft h e mp r o d u c e ds o m ee f f e c t s ，b u tt h e y & r ef a rf r o mp r a c t i c a l u s a g e ih i s i sd u et od i v e r s i t ya n dc o m p l e x i t yo fa p p l i c a t i o n s t h i sp a p e rp r e s e n t sa n a p p r o a c hb a s e do ni m a g et h i n n i n g ，t r a c i n ga n dl i n ef i t t i n gt ov e c t o n z e de n g i n e e r i n g dx ：7 l i n ga n dp r o p o s e san e wm e t h o dt or e v i s en o d ew h i c ha r es u b j e c tt oe r r o r k e y w o r d ：d r a w i n gu n d e r s t a n d i n g e n g i n e e r i n gd r a w i n g v e c t o r i z a t i o n 第一章绪论第一章绪论 1 1 工程图纸识别理解工程图纸的识别理解，是一个综合了计算机视觉、计算机图形学、计算机图象处理和人工智能等各个学科的交叉课题。工程图纸是现代工业文明成果的摇篮，他承载并传播了一代代科技工作者的智慧，描述了现代社会的未来。工业的不断 z 之展带柬了愈加复杂的工程图纸，这些图纸的保存、修改、交流越来越成为制约产品歼发的瓶颈。自从p c 诞生以来，人们就希望能够用计算机处理工程图纸。在计算机发展的早期，他的处理能力相对于图纸的海量数据显得那么脆弱不堪。然而，人们从来没有放弃过这方面的努力。随着软硬件技术的不断进步，计算机辅助设计与制造技术也逐渐成熟起来。现在人们已经完全可以利用现有的计算机输入设备替代图板与铅笔实现“电子图板”绘制出各种我们想要得到的图形，并保存成一定格式的文件，形成所谓的数字图纸，极大的方便了图纸的交流。但是，在c a d 出现之前，难以计数的纸质图纸就已经存在，即使在计算机技术高度发达的今天，这些图纸仍然在发挥着巨大的作用，在一些企业当中，这些图纸甚至是不可替代的。为了满足新的设计要求，需要不时地对原有设计进行修改，有些修改是局部的，而有些修改是整体的，如果仍然采用传统的方式，抛丌工作量的问题不谈，仅就对原有图纸的损坏而言，其结果也是不可想象的。因此，人们迫切希望将这些纸质图纸转变为电子图纸，这样就可以任意的复制、修改，加快了设计修改的安全性，缩短了开发周期，降低了成本。于是矢量化问题自然而然就被列了研究范围，并一直是计算机工程图纸处理系统中的焦点问题之一。这是因为：一矢量化能够大大提高纸质图纸向数字图纸转化的效率。在纸质图纸向数字图纸的转化中，人们可以采取两种方法：一是利用汁算机绘图技术将纸质图纸币绘一遍，形成电子图纸，这样做的优点是方法简单精度较高，绘制出的工程图町以完全符合相关标准，直接可以代替纸质图纸，但是由于大量的人工参与，导致速度特别慢，这是其致命的缺点：二是采用自动矢量化技术，将纸质图纸扫描至计算机中，然后采用矢量化算法，识别出图形中的几何图元。这样做的效率较高，但是由于算法的局限性，识别精度有待提高。在毛期的研究及实践过程中，人们发现把二者结合起来能够得到较好的效果，兼顾丁效率与质量，即先进行自动矢量化，再通过人工修改的方式可以既节省时间，叉提高速度，这也是目前越米越通行的做法。二矢量图符合人们的认知习惯。与光栅图不同，矢量图是以图元为单位进行存储，而不是象素。这正如我们在读一幅图纸时首先注意的是他所表示的直线、工程图纸矢量化的研究凼、曲线等基本图元及其关系而不是一个个的象素。一个成功的矢量化系统应当能够充分识别这砦基本图元，并表示这些图元的关系，为全面理解工程图纸打下基础。伞而珲解工程图纸是计算机图纸处理系统的终极目标。围绕这点，无数科学家付出了艰辛的劳动，不断的完善、改进和创造着新的矢量化方法。特别是近几年来提出的整体方法，无须细化，首先检测原图象线宽，然后根据原图象线条的小旧宽度，把图象转化为一些由梯形块状组成的条块图，并对不同的条块图进彳亍繁体识别。f r 足图象形态的本质仍然存在许多不可理解的地方，这也是影响矢鞋化结粜的癌结所在。在长期的研究中，人们逐渐了解矢量化并不能解决所有的问题，图纸理解不能回避。图纸理解是相对高层的技术，随着研究的深入，人们发现矢量化技术实际上是进行进一步图纸理解的基础处理，它实际上为理解技术提供了比像素更抽象的信息表示。理解图纸对于一个有经验的工程师来说并不是一件难事，但要让计算机做到这一点却十分困难，这主要是由于人脑理解事物的过程与计算机的工作原理有着很大不同，人脑的运算速度不如计算机快，但是理解和学习能力的大小不是靠运算完成的，到目前为止，也没有为理解或学习建立完善的数学模型供计算机模拟，而计算机是按照冯诺伊曼原理，依靠逻辑运算工作的。他拥有极快的逻辑运算和算术运算能力，也具有大量而持久的存储能，世学爿新知识和组织知识的能力十分低下，任何知识都必须由人束输入，并且只能按照人的指令去组织这些知识，只能按照某种固定不变的思路根据这些知识进行分析判断，这和现实世界的快速变化也不相适应。人工智能算法的引入使得这种情况得到一定程度的改变，但由于人工智能也是建立在冯诺伊曼机器的基础之上4 ，这种机器的固有缺陷导致了算法进展缓慢，且实用性较差。工程图纸理解是一个典型的计算机模拟人工智能问题，需要由计算机识别图纸上各种线条、文字、符号，并且要搞清这些元素之间的关系和他们的意义，进而对设计的合理性作出判断，这是一个不小的挑战。主要集中在下面几个领域： 1 ) 粘连字符。这是一个很难解决的问题。人们在区分字符与图形过程中，依赖i 0 址知u ，因此，粘连与否无关紧要，人可根据已有的知、经验和推理进行文字与图形的区分。但是计算机所表示的知识仍然是很低级的，缺乏灵活性，且 “i ：丁扩展，通常的做法是基于简单的连通检测加上一定的阈值。这有时会将一些比较重要的符号信息当作图形信息，比如小数点和一些较简单的笔划，为后续的符号识别造成错误。因此，粘连带来了极大麻烦，已成为难题之一。 2 ) 符号识别。字符的识别属于o c r 技术范畴。英文的字符集较少，o c r 是成熟的。，p 文o c r ，特别是手写体o c r 难度很大。国内的图纸可以说是中英文混合的、只能识别英文和数字显然是不够的，因此，字符的识别仍然是一个大问题。不过，工程图纸上的字符，无论是符号还是汉字，是按照一定的规范书写，第一章绪论有一定规律可循，这也是我们做符号识别时可以利用的有利条件之。 3 ，各种幽厄的识别。包括直线、圆弧、各种特征线，如虚线、点划线、抛面线等。从目前技术来看，还不是一个很成熟的领域，主要表现算法的白适应较差，仟往是对一些图纸适用，而对另一些图纸效果就不是很好，这是由于在算法中经常要设置一些具有特定意义的闽值，不同的图纸阈值是不同的，即使是同一张图弧n 0 1 ；同部分也会有不同的阈值，而一个良好的阈值估计对识别效果的影响甚大。凼此自适应进行闽值估计也是图元识别中很关键的一点。研究者逐渐发现，图元识别的发展方向越来越向着图象检索靠近。二者的目标有着惊人的相似。 4 ) 矢量文件格式的统一。人们完成了初步的矢量化之后，自然需要将结果以一定格式的文件保存起来。目前各个公司开发的文件格式繁多，标准不统一。常川恪j 就有d w 0 、d x f 、v c f 、m i f 、p r o e 、s o l i d w o r k s u g 等十几种之多。文件格式的不统一使各个软件之间的交流变得不很方便，这个问题可以通过义件转化上具加以解决。然而，更为重要的是人们对二究竟什么是最好的矢量文件格式的认识仍然是模糊的。现有的格式似乎都不能满足纷繁复杂的应用需求，大量的图元之间的关联信息没有表达出来，这也为工程图理解增加了难度。 j ) 交互式图象修改。这个问题主要是由于自动矢量化后的图纸不能完全满足 j 格的图纸绘制规范造成的，矢量化算法对于直线这样规则图元的识别有着比较好的效粜，但对于任意曲线、圆、椭圆的识别效果小好，精度不够，尤其是确定图元之间关系方面不。j ! j 如j 、意，例如相切这个很重要的关系。图l 表小的一条直线和圆相切的光栅图，图2 是矢量化后 f 圈1 1 直线与圆相切幽1 2 父量化斤的结果的结果，可以看出，相切处表达的并不准确。有时，还要用手工将曲线相连。因此，需要进行交互式的图纸修改，这是工程图纸矢j ：化后很有价值的一个方面。修改工具是否有效，直接影响修改的效率与结果。j 具是该类软件的重要个性特址，近米也囱风格渐渐统一的趋势。经过画笔式的光栅编辑，光栅矢量混合编辑，锆能编辑逐渐引起人们的兴趣，在技术上也逐渐能够较好实现。所谓智能编辑，恐人们试图利用矢量编辑的特点来直接操作光栅。设法能够利用矢量编辑灵活的特- = i ，同时要求保持全部原图的轮廓形态等。 j = 程图纸矢量化的研究 1 2 光栅图形与矢量图形工程图纸经扫描后一般形成b m p 或j p g 格式的光栅图形文件。他们通常是：i 啄粜二- 女j i 艄的象紊块为尊位束表示图象，可以认为这种图形是山一个个的象紊 i 组成，彼此之间没有任f 关系，也不考虑圈象的内存。简单的l l 光栅图象就是一个点阵的概念，一 j ! 酗缘人小确定，那么文件的氏度是不变n 0 。目j 足个光图1 3 光栅图图1 4 矢量图，看起来与图3 没什么医栅图，图4 是一幅矢量图，他们看起来都一个圆和一些直线相交，没有什么区别。侗放大舌，光栅图的缺点显而易见，如图5 所示，出现了许多锯齿，这是由于光栅目的缩放算法造成的。为了适应不同场合的需要，工程图的缩放操作是极其频繁的，放大后的光栅图会出现锯齿现象，缩小后的光栅图在线条密集的地方会出幽15 放、j 的光栅圈，出现了锯齿图1 6 放人了的父量幽，仍然很光滑现信息损失，不能满足工程实践的要求。因此这也是需要矢量化的一个重要原因。尖量图之所以能保持图形无论在任何尺度下都完好无损，是因为矢量图的存储单位不是荤个象素或象素块，而是我们感兴趣的图象内容的特征，如圆的圆心和半径、直线的两端点坐标等。有了这些数据就可以任意对图形进行缩放操作了，而翌小金山现锯齿和信息损失，能够满足实际工程的需要。矢量图形是各种矢量数据的集合，在c a d 系统里矢量数据被广泛的使用，它们可以在屏幕上方便以个恻i 为l r 位进行移动，拷贝或删除等操作，而编辑操作是以矢量图元为单位第一章绪论进行的。矢量圈元可以分成线类图元( 曲线，椭圆，矩型等) 、文字类图元( 外文字 m 点阵汉字，矢量汉字) 和圈符类图元( 各种行业符号，如电阻符号等) 。另外，矢董图形还有一个非常好的特性，可以实现数据压缩，且在任何尺度下图象文件的大小是一榉的。圈3 是一蝠t 1 8 x 1 3 9 的2 4 位光栅圈，占用了4 8 4 k 的字节，其放大后的图5 是4 3 9 4 8 3 的2 4 位光栅图，占用了6 2 2 7 k 字节，而图4 和图6 的大小( v c f 格式) 完全一样，均是1 5 5 k 字节，实际上仇们都来源于同一个矢量劁，只避进行了不同尺菠的缩放操作，使我们看起来大小不一样，而占用韵存储空i 匈完全一榉。 1 3 1 概述 1 3 数学形态学基磊鑫数学形态学是研究数字图象形态结构特征与快速并行处理方法的理论，是通过纣目标影像的形态交换实王觅结构分析和特征提取的强的。其历史可追溯到十九雌纪的e u l e r ，s t e i n e r ，c r o f t o n 以及本世纪初m i n l o w s k i 的论述中，但数学形态学是一门新兴学科。1 9 6 4 年，法国的g m a t h e m 和j s e r r a 在积分几何的基础上首次创立了这门学科，此后，他们又在法国建立了“枫丹白露数学形态学研究中心”，在该中心的掌者帮其缝备藿簪究人员的共同努力下，数学形态学得到了不断丰富和完善。1 9 8 2 年，j 。s e m 的专著图像分析与数学形态学闯世后，它爿在图像处理、模式识别和计算机视觉等领域引起广泛的重见和应用，这些应用反过来又促进它的迸一步发展。舀前国内许多有效的图像处理系统有的是基于数学形态学方法原理设计的，有的是把数学形态学算法纳入其基本软件，并以其运算速度作为系统性能的重要标志之一。数学形态学以图像的形态特征为研究对象，它的主要内容慧设计一整套概念、变换和算法，用来描述网像的基本特征和基本结构，篷被是箍述图像中元素与元素、部分与部分闯豹关系。数学形态学做为种用于图17 数学形态学的基本思j ! 数字图像处理和识别的新理论和新方法，它的理论虽然很复杂，被称为“惊人数学”，但它的基本思想却是简单而完美的。数学形态学算子的性能主要以凡俺方一程图纸矢量化的研究式进行刻雨i ，传统的理论却以解析方式的形式描述算子的性能，而几何描述特点似乎更适合视觉信息的处理和分析。这一基本思想如图1 7 所示。数学形态学的理论包含内容十分广阔。特别地，传统图像处理中的线性算子和非线性算子均是形态学算子的特例。这个结论说明数学形态学是一个图像处理的统一理论，是对传统理论的推广，在这个统一理论的框架下，经典的方法得以在一个新的、统一的层次上进行分析，从而帮助我们从不同的侧面更深入地了解经典算法的性质并在更广泛的范围、以更灵活的方式对它们进行改进。最初，由 m a h e r o n 和s e r r a 提出的数学形态学研究以二值图像为对象，称为二值形态学：此后，s e r r a 和s t e m b e r g 等把二值形态算子推广到灰度图像，因而使灰度形态学的理论和应用研究也得到很大的发展，已经成为数字图像信号处理和计算机视觉领域中的一种有效方法。而今，数学形态学已经成为图像处理理论的一个重要方面，广泛地应到图像处理的很多领域中，这些领域涉及医学成像、显微镜学、生物学、机器人视觉、自动字符读取、金相学、地质学、冶会学、遥感技术等等。在这些领域叶- ，利用数学形态学可以对图像进行增强、分割、边缘检测、结构分析、肜念分w i 、甘架化、组分分析、曲线填充、图像压缩等等各种各样的处理。 1 3 2 基本集合定义”】数学形态学本质上是对集合的运算，因此，先给出一些基本的集合定义，以 f 巫j j 更r 的邢解数学形态学。 ( ij 集合：具有某种共性的事物的全体。常用大写的a 、b 、c 表示。我们这里提到的集合是所有二维矩阵构成的空间中的集合。空集用多表示。 ( 2 ) 元素：构成集合的每个事物。常用小写的a 、b 、c 表示。空集中不存在任何元素。若元素a 属于集合a ，则记为：a e a ，反之，记为：ae a 。 ( 3 ) 子集：若集合a 中的元素都是集合b 中的元素，则称a 为b 的子集，记为： a cb 。 ( 4 ) 并集：由a 和b 的所有元素组成的集合称为a 和b 的并集，记为：a u b 。 ( 5 ) 补集：集合a 补集是有所有不属于a 的元素构成的集合，记做：a 。定义为： a = x ix 芒a ( 6 ) 芷集：两个集合a 和b 的差，记为a b ，定义为： a b = xx a ，xe b = a n b ( 7 ) 变集：由集合a 和b 的公共元素构成的集合称为a 和b 的交集，记为 a 几b 定义为： a b = x ix a ，x b 第一章绪沦 ( 8 ) 位移：集合a 用x = ( x ，x 、) 位移，记为( a ) 、，定义为： ( a ) 、= y 【y = a + x ，a a ； ( 9 ) 映象：集合a 的映象( 影射) 记为a ，定义为： a = x l x = 一a ，a aj 定义( 1 ) 至( 7 ) 和普通集合一样，( 8 ) 和( 9 ) 是数学形态学中特有的概念，下面举例说明位移和映象的含义。图l _ 8 是一幅原始的数字图象，我们把他看作一个集合a ：图1 9 是a 位移后的图象，相当于将a 在平面上进行了平移移动矢量为 x ：( 2 ，1 ；图1 1 0 是a 的映象，即a 相对于原点的镜象。有了这些基本定义，我们就可咀构造出一些基本运算。幽18 原始吲象 i 3 3 二值形态学基本运算 _ 一一 x f v 图i 9 位移斤的图象幽11 0 原始幽象的映象位移矢量x = ( 2 ，1 ) 二值形态学的运算对象是集合，但对两个集合a 和b 进行运算刚他们并不完全对等，一股a 为图象集合，b 为结构元素，数! 羊形态学运算是用b 对a 进行操作。结构元素实际上也是一个图象集合，他具有一个原点( 参考点) 。注意原点 1 点斟小i 刊会导致运算结果产生差别。在上节中，我们是以二值图象为例晓明数学形态学的概念，实际上，这些概念不局限于二值图缘，同样适合狄度图象，因此瀚戮燃i 缫鳓淡 ( a ) 幽琢集合缫麟戮 ( b ) 结构元素，+ 为原点 ( c ) 膨胀肝的蚓象幽11 1 一个膨胀运算的示例由这些概念导出的基本运算对二值图象和扶度图象j _ | ；适用，不过在具体的实现方池f ? 还足有所差别。小节巾，仍打算洋细介绍矢量化th f 耵用到的二值形念学基本运算，他们足：膨胀、腐蚀、丌启、闭和。上稗幽纸欠埴化的研究 ( 1 ) 膨胀：a 用b 来膨胀记做a o b ，定义为： a o b = x i ( b ) 、n a 囝从上式可看出用b 膨胀a 的过程是：先将b 做映象，得到白取使色位移x 后与 a 交集不为空的x 的集合便得到a o b 。图11 1 给出了一个膨胀运算的示例。f a ) 为图象集合a ，( b ) 为结构元素b ，( c ) 为b 的映象6 ，( d ) 为膨胀的结果，黑色表示膨胀的部分，可见膨胀将图象扩大了。 ( 2 ) 腐蚀：a 用b 来腐蚀记做a eb ，定义为： a eb = ( b ) 、a ) 上式晚明a 用b 来腐蚀的结果是使b 位移x 后仍是a 的子集的x 的集合，图1 1 2 是一个腐蚀的例子。图象集合( a ) 和结构元素( b ) 与图1 ，1 1 中的一样，( c ) 中黑色部分为腐蚀后的结果。可以看出腐蚀将图象区域缩小了。澄铡黼 ( a ) 剧象集合a( b ) 结构元素b ，+ 为原点( c ) 腐蚀后的幽象图11 2 一个腐蚀运算的示例上面的讨论都假设原点包含在结构元素中。此时对膨胀运算来说，总有 a a o b 。对腐蚀来说，总有a eb ea ，当原点不包含在结构元素中时，结果会有所不同。对膨胀而言，只有一种可能，即a 旺a o b ；剥腐蚀则有两种可能，或者a eb a ，或者a eb 旺a 。膨胀和腐蚀运算是紧密联系在一起的，一个对黑象素的运算相当于另一个对自象索的运算，这称为膨胀和腐蚀的对偶性： ( a o b ) = a e b f a e b l = a 。0 b 对偶性不是互逆性，他们可以级连使用。由此导出下面两种运算。 ( 3 ) 开启：a 用b 来丌启记做ao b ，定义为： a 。b = ( a eb ) 0 b 即先做腐蚀运算，再做膨胀运算。把他们的次序交换，可得到， ( 4 ) 闭和：a 用b 来闭和记做a b ，定义为： a b = ( a o b ) b 即先做膨胀运算，再做腐蚀运算。丌房和闭和也具有对偶忙f ，可表示为：第一章绪论 f a 。b 1 = a b 。 ( a b ) ：a 。b 数学彤念学还有许多有用的性质，广泛的运用= f 数字图象处理的方方而面，i _ 【b j 尤4 、冉贤述，可参考l q - 关文献l “1 获得详细论述。 1 4 作者在论文期f 司的工作围绕沦文所述课题，作者在论文期间主要完成了下列工作： 1 针对w i n d o w s 图形环境的特点，研究了利用o p e n g l 进行快速图形显示的方法，收剑了很好的效果。 ! 参照t a w i n 组织标准完成了扫描仪驱动程序的编写。 3 阳迅j 斩的实州矢量化算法所需的数掘结构，并提出了新的田苛变节校正策略和直线拟合策略，实现了_ l = 程图纸的矢量化工作，为后续的图兀识别，图纸理解打f 基础。拌陶纸久嚣化的研究第二章工程图纸矢量化的现状 2 1 各种矢量化方法简介 l r 求，人们在工程图纸矢量化方面已积累了大量经验，提出了不少有用门盯江l e 辐规1 i 】j 的商下面几类”i ：一、霍夫变换法( h o u g h t r a n s f o r m ) 【4 】= 二、摹 j 川化旧 j ! ：二、罐j i 轮廓( c o n t o u r ) 的方法：四、整体识别方法吲t 6 。 2 1 1 霍夫变换法( h o u 曲t r a n s f o r m ) 1 ；i 人娈抉址蚓像处理。从斟像。一b 剧几何形状的基本方法之一，也是应用比较f 。i 的牛| j 矢鞋化，t 法。他的基本思路是把在图象空间的直线检测问题转化成在参数卞【岫峰位检测问题。我们知道，直线可以用斜率和截距表示，如式( 2 1 ) ： y = k x + b( 式2 1 ) 其中k 和h 是参数，分别代表斜率和截距。( x , y ) 空间中的每一条直线在( k b ) 参数审州巾总有一点与之对应。而过( x , y ) 空间的任一点都存在无数条直线，这些 f 1 线1 ! _ j f i g s t 半和截距存参数空问中可出式( 2 2 ) 表示： b = 一x k + y ( 式2 2 ) 此，所仃处卜条区线上的点，在参数空间中对应的直线会交于一点。下面以个例j 泌叫雀大变化检测直线的原理。图2 i 表示图象空问上处于同一条直线上的3 个点：( 0 ，0 ) ，( 1 ，1 ) ，( 2 ，2 ) 。图2 2 表示在参数空间中过与三个点对 h ，i 1 2 7 t ，返? 条线纯_ 处的坐标( 1 ，0 ) 就是我们要检测的直线的斜率与截距。玺一。 k h - 2 _ 1 待掩测的图象图2 2 住参数空间中的表示乱果川数1 j - ：“算机的情况f ，必须将连续的参数空唰变成离散的参数空i ，离散化的桂瞍以决与我们所要求的精度。为了做到这一点，我们需要用一个二维数组柬表示禽散化的参数空i 日j ，每个元素的初值为0 。然后对应每一个黑象素点，求矗参数，c 川r 过按照式( 2 2 ) 确定的直线上的的点，并把这些点对应的数组元素 w 川 j j | | 1 ，返处川j 克何个黑象鬃点后，再在参数空胆j 中找到最大的元素，即峰帆，c m t j 以：托m 待检测氙线的斜率与截距了。不过，这个方法显然需要大量的第一章i 狴幽纸父茸化的j l 状内存，运行速度也会是很大问题。霍夫变换有许多改进方法，一个比较重要的概念是广义霍夫变换，它是针对所有曲线的，用处也很大。就是针对直线的霍夫变 j 名也仃f 艮多改进算法，比如j u 面的方法我们没有考l 星图像上的这直线上的点是靠连续的问题，这些都要随着应用的不同而有优化的方法。 2 2 2 基于细化的方法基于细化的矢量化方法也得到了广泛的研究。“，这种方法因其实用稳定， 1 i 实际当r l 一得到了较贲了的应厂玎。细化也称为骨架化，j t 日的是使剥落图象的外层象素，仅剩下骨架。不同的细化算法在实现方法、效率及生成的骨架线的形状上有很大的差别，在实际大幅面图象特征描述应用中，一般要求能快速、准确地生成骨架线。细化后的图象应满足以下几个要求“。1 ：( i ) 不改变图象中各分量的拓扑邻接关系；( 2 ) 保证骨架连通性及单象素宽度：( 3 ) 逼近图象的中轴线。图2 3 是一幅原始t 形图，线条较粗，图2 4 是经细化之后的图象，可以看出基本满足上面三个要求。值得汴意的一点是，在细化后的t 形图中，“t 的交点出现了一些畸变， |一 r 幽2 3 原始幽象幽2 4 细化历的幽象这对接下来的矢量化是不利的，消除这种影响的方法：i 冬在后面的章节中详述。原始的罔象细化之后能够保持原有的拓扑关系及连通性，且黑象素点大大减少，这意味着我们处理的数据也大大减少，而霍夫变换法需要计算图象中的每一黑象素点。中轴变换( m e d i a la x i st r a n s f o r m a t i o n ) 是一种细化常用算法。一个区域的m a t 是这样的：对于区域中的一点p ，如果在某种距离测度下，区域边界上中存在2 个或2 个以上的点与p 同时最近，那么p 就是陔区域的骨架点。这里的最近距离取决于所用的距离量度，可以是欧氏距离或棋擞距离等。所以ma i 的结果会因距离罱度的不同而有所不同。利用中轴变换计算骨架需婴汁算所有边界点到r 域内部所有点的距离，因而计算量是很大的，通常采用逐次消去边界点的迭代算法。这个过程中要遵循三个条件：( 1 ) 不消去线段端点；l 2 ) 不中断原来连通点；( 3 ) 下过多侵蚀r 域。另外，细化对细长区域的效果较好，细化后的图象能够较准确的反映形状信息，如图2 3 和图2 4 所示，而对短荆区域的骨架提供的信息较少， h 受噪声的影响大。图2 5 和图2 6 将原始图和细化后的图重叠在一起做了对比，工程幽纸久量化的研究习l l | 也昂示了噪声对细化的影响。这两个区域的差别不大，而细化后的图象却相 tv # ， * ：蒸蠹瑟委瑟瓣! 冬25 一个短粗区域的细化图2 6 噪卢对细化的影响去甚远。但是，实际的工程图中细长线条占据了绝大多数，所以细化算法在工程图纸矢量化中仍然能够具有一定实用性。 2 2 3 基于轮廓的方法为了减低迭代算法的计算强度，人们又研究了另外一种获取区域中轴点的方法。这种方法的主要思想是先获得区域的形状，即找到边界，再计算线形对象相对两边的中点来得到图象骨架点。与基于细化的算法不同，这类算法将骨架点的获取与跽踪同步进行而基于细化的算法是将骨架点全部得到以后再跟踪。他的 i i 7 复尔i j 喽必- 在边缘检测和多边形化。边缘检测的复；：度与象素个数是线性关系，多边形化仪和轮廓上的象素个数呈线性关系，因此这类算法的复杂度要比基于细化的算法低许多。此外，线宽信息也很容易得到，这对高层工程图纸分析很重要。边缘检测算法在计算机视觉中十分常用且方法成熟，在许多教科书【1 2 】当中都有详绌的介绍。边缘检测和多边形化之后，两条平行或差不多平行的对边的中轴线卜的点是其中一边向另一边垂直投影线的中点，如图2 7 ( a ) ，2 7 ( b ) 所示。这类算法面临的共同问题是如何处理交点，主要有两种情况。第一种情形如图27 ( c ) 所表示的那样，两条边以很小的角度相交，此时交点非常不明显，跟踪时很有可能漏掉。另一种情形如图2 7 ( d ) 所示，这是一个较为规则的十字交叉，。-。1一一巾 - j j 、。、， 1 _ ；= =。上 ( a )( b ) ( c ) ( d ) 例2 7 基于轮廓的欠茸化 3 ( a ) 半化也缘的饲架( b ) 儿乎平行的边缘的目7 架( c ) 相交角度 h 小的两条直线，交电在跟踪时容易漏掉( d ) 十字交义的两条直线，交点处的们架产生批乱豢 1=慧囊i 第二章j 二程图纸父量化的现状两h 0 将p q 条中轴线相连显然是有问题的，这样产7 q 骨架明显0 i 对。轮廓法需要进一步提高鲁棒性和处理各种形状的能力，不致漏掉交点或生成不诈确的骨架。因此，这类算法不适合相交曲线和多交叉直线的矢量化。 2 2 4 整体识别方法近些年来，研究人员提出了另一种矢量化思路，即整体识别方法j 1 。他的核心思想是：关注整个图象的拓扑结构，用尺寸约束、校币图形，最长线紊优先识别，实行动态采样，智能剔除坏点。相比与传统方法，整体识别思路深化了对，天量化问题的认识。但在进一步的研究实践中发现，0 别过程中的局部与整体的关系是辨证统一的，仅仅停留在局部层次进行图象识别将增加判断的难度和识别的措溪率；而上升到整体，利用宏观特征进行判别必然要落到图象的局部信息。因此，整体与局部之间的合理划分并建立相应的图象数据模型将是矢量化中的一个关键问题。文献 j ，文献 1 4 对直线的整体识别方法和交叉区域处理的方法提供了较为详细的描述。这种方法以梯形象素域作为识别的最小单位，将整幅图象用梯形象素域表示，形成条块图，这个过程称为条块化。对于条块化过程中生成的各个域，他们没有直线的任何信息，但他们自身有长、宽、高等几何信息，整体识别方法就是把这些几何信息加以综合，形成整体信息后进行识别。图28 给 ) 原始幽象 ( h ) 条块化后的条块幽蚓2 8 利h 条块幽进行，、化出了一个利用条块图进行整体识别的例子。图28 ( a 为原始图象，( b ) 为把原始 7 ；琢r j j 梯形象紊域表示的条块图，图( c ) 为以别后的纸果。 2 2 工程图纸矢量化的一般步骤旧图纸一一【j 殳保存在纸质介质或薄膜介质上，比如1 靠图，涤纶薄膜，描图纸等。要将这些图纸数据输入计算机的时侯一般有两种方法：一是数字化板输入，二是扫描仪输入。一般说末数字化板适用于时间要求不紧，图纸信息不太复杂的场合。工程图纸矢量化的研究川数字化扳输入图纸相当于用一只数字笔将原有图纸在计算机里再掐一遍，它直接就将光栅模式的幽纸描成矢量格式。例如在a u t o c a d 里就提供了对数字化板的支持。而且用数字化板可以在输入时人工将不同信息分层，很直观。但耗时多是垓方法的最大缺点，采用该方法是半自动的。第二种方法是用扫描仪输入。这是目j i 比鞍先进的图纸处理方式，它速度快，精度基本满足要求。在本节中，我们将结合图29 叙述矢量化一般步骤。实际上，图2 9 也表示了一个矢量化系统的基本组成。扫描图象的预处理：图纸经扫描仪扫描后，光栅文件随之产生。光栅数据的内容被表示成黑点和白点( 二值模式) 或彩色点组成的一个矩阵。单个的点被排在图纸的x 、y 方向上，彼此之间没有任何逻辑上的联系。这些点以镶嵌的形式显示在计算机屏幕上，出于扫描时摆放图纸的随意性，扫描后得到的光栅图象出现一定程度的倾斜，因此需要进行倾斜校正，使得图象位置尽量与人们的习暌保持一最化闼2 9l 一稃图纸欠草化的一般步骤致。扫描的过程中还会引入噪声，所以需要进行噪声消除。这样，扫描后的光栅第1 二章工程幽纸父量化【内现：扶图象经过预处理后，就可以作为矢量化的输入数据。图文分割：经过预处理的工程图纸上存在的数据类型往往不止一种，不仅有图形，还有大量有用而必须的标注，如文字( 汉字或英文) 、数字、专用符号等。哒些幽兀小能和一般的幽肜等l 刊起来，他们的识别方法也各有不同。因此，图文分割是通向矢量化必须的步，占有重要的地位。本文采用的图文自动分离算法 ( a t g s ) 。一的思路不是设法把“文”从工程图中提取出来，而是尽量的把“图”删去留下文字信息。该算法的特点是对输入光栅图象的噪声水平、字图之间、字弘之川粘迕及书写方向等凶素儿乎不加限制，对同一图纸所具有的多种字号也有相当好的适应性。进行图文首先遇到的问题就是如何定义“图”与“文”。对一幅光栅图象来说，二者之制客观上界限的难于描述的，因为他们本质上都是一个个的象素组合而成，只是人们的感觉不同。从主观来讲，“图”与“文”的有f 面几个主要的差别，这些差别够成了a t g s 得以实现的基础。 1 尺寸通常远小于图，并且它的大小及整体形状在一个很小的范围之内变化。对机械图来说，国家标准还规定了汉字应为长仿宋体，宽高比约为2 ：3 ，即使字号小剐，字型也是遵循这个比例的： 2 文经常呈字符串出现，其字间距较小且有规律。字符串的书写方向也多为水平、垂直或4 5 。斜角方向； 3 文的局部笔划密度通常远高于图；局部笔划的变化也大大多于图，对汉字尤其如此： 4 ，由差别3 可知，文的笔划的线形分量远比图的短，即在文中不可能出现很长的直线条。图义分割之后的图象被分成了两个部分：图形部分和文字( 包括文字和符号) 部分。这两个部分将分别进行处理。图形矢量化：这个步骤处理的对象是图文分割之后的图形部分，其中涉及的算法也是作者所做的绝大部分工作。本文的矢量化算法是建立在图形细化的基圳之上。苗。先将图形的线条细化至单象索宽，然后找出节点，以此作为跟踪的基础，用这些节点形成边链表的主干，把他们作为跟踪的起始点和结束点。在基于细化的算法中，线条交点的畸变始终是困扰这类方法应用的一个主要问题。本文通过提出等价点、等价点集和虚节点的概念，用虚节点去代表由等价点形成的等价点集，无须修改骨架图，无须判断交叉线条个数，能够在逻辑上较好的消除交，j 、i 处的崎变对跟踪的影响。象素跟踪之后，整个骨架图被一个边链表形成的图结构所表示，此时可以进行线条的直线拟合工作，在拟合时，由于等价点集和虚节点的存在使得对直线的端点要做额外的判断，拟合后的边链表中的象素被短直线所替代，这样形成的矢量图是初级的矢量图，必须通过直线合并，将短的直线合并为尽可能长的直线。其基本思想是以一条短直线为罐础，沿着直线的两个方向 ! ! 一 ! ：壁笪堑丝量些箜堕塞迎ij - 耻“线的跟幽：，征一些约束条件的限制f ，合并跟踪得到的短直线，形成长直线a 达阵，就基本完成了矢量化的工作，为进一步的图元识别奠定了基础。文字识别：该项工作并不是本文研究的重点，仅仅是通过a t g s 将文字部分 2 取术，以扎j ：作n ，借助现有的o c r 系统来完成。作为个宄整矢量化系统，有必要在此处提及。合成：是指将文字识别的结果和图形矢量化的结果按照某种丈件格式合成为矢量文件r 这样就可以送至专用的c a d 编辑系统做进一步的编辑处理，从而达到符合严格的绘图规范的图纸。矢量化系统并不是如图2 9 那样一成不变的。比如，字符分离应在矢量化前还是在矢最化后做? 矢量化前做，特点是减少矢量化的负担，矢量化后做，能够较好的解决粘连字符问题：但也都有局限。矢量化后做，难以获得图象原始信息；又量化 | ( 做，粘连字符较难处理。技术标准的统一，应该也是一个技术研究深入的结果。 2 3 矢量文件介绍完成了初步的矢量化之后，需要将结果以一定格式的文件保存起来。目前各个公司j 1 ：发的文件格式繁多，标准不统一。常用格式就有d w g 、d x f 、v c f 、 m _ i f 、p r o e 、s o l i d w o r k s ，u g 等十几种之多。下面简要介绍一下p c 机上常见的矢量文件格式：、n i f ( v i n d o w sm e t a f i l ef o r m a t ) 文件 w m f 是w i n d o w s 中常见的一种图元文件格式。它具有文件短小、图案造型化的特点，整个图彤常由各个独立的组成部分拼接而成，但其图形往往较粗糙。 w m f 文件的扩展名为w m f 。 e m f ( e n h a n c e dm e t a f i l e ) 文件叫f 是微软公司开发的一种w i n d o w s3 2 位扩展图元文件格式。总体目标是耍弥补使用w m f 的不足，使得图元文件更加易于接受。e m f 文件的扩展名为t 2 m 1 、 e p si e n c a p s u l a t e dp o s t s c r i p t ) 文件 e p s 是用p o s t s c r i p t 语言描述的一种a s c i i 码文件格式，i l 可以存储矢量图，也可以存储位图，最高能表示3 2 位颜色深度，特别适合p o s t s c r i p t 打印机。该格 j 分为p h o t o s h o pe p s 格( a d o b ei l l u s t r a t o re p s ) 和标准e p s 格式，其中标准e p s 格式又可分为矢量格式和位图格式。e p s 文件的扩展名为e p s 。e p s 一般包含两部分：第部分是屏幕的低解析度影像，方便处理时的预览和定位：第二部分包含各个分色的荦独资料。第一章j 二程幽纸矢量化的现状 s w f ( s h o c k w a v ef o r m a t ) 文件 s f 足一维动l 助软川f l a s h 。p 的矢量功画格，j 三要用于w e b 页面上的动画发如。目j u ，已成为网上动画的事实标准。s w f 文件的扩展名为s w f 在卜面提到的众多矢量文件格式中，d x f 文件在c a d 领域得到了极为广泛的应用。d x f ( d r a w i n gi n t e r c h a n g ef o r m a t ) 文件是a u t o c a d 中的矢量文件格式，在表现图形的大小方面十分精确。d x f 文件可以被许多软件调用或输出，他的扩展名为d x f 。d x f 文件有二进制和a c s i i 文本两种表示方法，其中a s c i i 表示方法应用更为普遍。d x f 文件由一对对的代码和与之相应的数值组成。代码称为组码，表明跟在他后面的值的类型。通过使用组码和对应值，d x f 文件分成了若干段( s e c t i o n ) 。每一个组码或值在文件中占据一行。段以组码0 为起始，后面跟着字符串“s e c t i o n ”，接下来是组码2 加上一个表示段类型的字符串，如 “h e a d e r ”。每个段均由组码和值构成，段的结尾是组码0 加上字符串 “e n d s e c ”：d x f 文件的总体结构如下： h e a d e r 段：包含了文件的一般信息和系统变量，如a u t o c a d 版本号、度量单位、角度方向、坐标原点等等。h e a d e r 段的格式为： ( j h e a d e r 的起始部分 s e c t i o n h e a d e r $ 组码值 n e n d s e c 说明每个系统变量 h e a d e r 段结束 t a b l e s 段：包含了下列符号表的定义： a

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（通信与信息系统专业论文）工程图纸矢量化的研究.pdf

文档简介

温馨提示

最新文档

评论

（通信与信息系统专业论文）工程图纸矢量化的研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档