版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基于简易网格的汉字结构识别研究 答辩人:谌杨帆 导师: 皮佑国教授基于简易网格的汉字结构识别研究n研究背景n汉字认知机理研究n基于简易网格的汉字结构描述n汉字结构特征分析与识别n结论研究背景n汉字的性质 现代汉字是记录现代汉民族语言的书面符号体系,是汉字经甲骨文、金文、篆书、隶书、楷书演变发展到现阶段所使用的文字。现代汉字作为一种体制相当特殊的文字,其性质可以从数量级,字音和字形三个方面来讨论。汉字的性质n首先,从数量级上来说,汉字是个大字符集:古代汉字的字种繁多、形体结构复杂。说文解字收入9353个汉字,康熙字典收入47035个汉字。世界上没有其他的文字系统有这么多的符号。现代汉字经过整理和
2、简化,实际使用的字数已经基本稳定在6000左右。但是和世界上其他文字符号系统相比,仍然是大字符集。n其次,从字音方面来看,汉字属于单音节符号,每个汉字都有一个“字本音”,这个本音就是记录了汉语的一个完整的音节,都具有“声、韵、调”三要素。汉语的一个音节写成汉字往往会有几个不同的汉字,即“同音字”。这些同音字依靠不同的字形互相区别,并分别表示汉语中不同的意义。 汉字的性质 张恩普等认为汉字是一种拼形文字,即以象形字或其他独体字为基本图形,通过图形拼合的方式来达到记录汉语的目的。作为一种拼形文字,汉字具有如下几个特点:n 1. 表意的直接性 由于汉字是通过图形拼合来表意的,而图形本身又是同语言中的
3、意义直接联系的;所以汉字的表意具有明显的直接性。首先是形义合一性;这一点在象形字中体现得最为明显,如“日”、“月”、“水”、“火”等字,均依形而画,其字义一看便知。其二是视觉认知性;汉字最能体现文字作为书面语言系统的特性,汉字可以通过视觉接受,而不一定借助声音。n2. 图形的整一性 汉字的基本图形为部件或是由若干笔画组成的独体汉字,其组合图形具有完整统一的特点。完整,是指在图形组合中基本图形保持不变;统一,是指组合图形要统一到方形中。具体表现在为两方面:其一,无论多么复杂的汉字,都可以分解为若干完整图形,比如“瀛”可分解为“氵”、“亡”、“口”、“月”、“女”、“凡”六个完整图形。其二,无论由
4、多少图形组成的汉字都必须统一在一个方形里,不因组合图形多少或简单复杂。如“二”和“嫠”。n3. 结构的立体性 汉字的图形结构具有很强的立体性,其图形不像拼音文字那样的横向线性排列,而是方形立体结构,组成汉字的各个图形均不像拼音文字那样横向线性排列,而是方形立体结构,组成汉字的各个图形均依据方块字形做立体排列。例如“萍”字。汉字的性质n汉字的拼合性这个性质和特点为汉字的拼写奠定了坚实的理论基础,汉字拼写就是要应用汉字的这一理论原则,以较少的基本图形为拼写元素,以汉字的方块立体结构为拼写规范,用较少字素去拼写大量汉字,解决汉字难认、难写、难记、难用等问题,实现汉字学习和使用的现代化。 综上所述,汉
5、字字形上的拼合性特点为本文所要研究汉字智能造字和汉字结构识别提供了可靠的理论基础。中文信息处理的发展n到目前为止,我国和国际组织开发的中文处理系统都采用字库方式,以汉字作为信息处理的最小单位。汉字字库的弊端主要表现为以下五个方面 :n1. 不利于汉字信息化标准建设。n2. 不符合汉字的造字规律影响对文化的传承作用n3. 不符合汉字认知规律而与汉字教学脱节n4. 不能很好的满足整个社会的应用需求n5. 信息熵高,是效率最低的文字信息系统n6.不利于汉字结构标准的建立:在现代汉语常用字笔顺规范字典里,“亮”、“囊”、“辛”、“衣”、“寨”等是上下结构;“湖”、“微”、“做”、“缴”等是左右结构;“
6、衡”、“衍”、“衰”是特殊结构;“爽”、“巫”、“粥”是对称结构 无字库智能造字系统与汉字识别n智能造字方式取代字库方式,不以汉字作为中文信息处理的基元,而是汉字基元作为组字的基本单元,汉字基元以部件和偏旁部首作为参考,结合计算机的要求适当调整。汉字是由汉字基元按组字规则进行组合,其组合不再受字库限制,因此可以完全实现已有汉字的电子化,同时也能适应汉字发展的需要。作为组字的基本单位,汉字基元是稳定不变的,将有助于建立长期稳定的标准。 无字库智能造字系统与汉字识别n本课题研究内容及意义:n脱离了汉字字库,汉字的识别也将不再依赖于汉字字库,汉字的识别将从结构识别和基元识别两方面入手。由于汉字的结构
7、种类有限,(国际标准ISO/IEC 16046给出了十三种单字结构),而汉字基元库中的基元数也远远小于汉字字库中的字符数,解决了汉字识别属于大类别数的模式识别这个最大的难题。而且,在脱离了汉字字库的情况下,我们也需要与之相匹配的汉字识别方法,这也为汉字的识别提出新的挑战,开创了新的局面。汉字的认知机理n从认知心理学的角度看,汉字的认知过程是视觉信息与非视觉信息相互作用的结果,其通过“自顶向下,逐步求精”的信息加工方式来完成:当读入一个汉字时,其字形信息被登记到大脑的视觉信息存储区,接着大脑对该字形特征进行分析,分析汉字各组成部分在二维平面上的位置关系及比例大小;由于它反映的是一个汉字各组成部分
8、之间的关系,即可从整体上反映出一个汉字的字形特征。汉字组成部分及其在二维平面上的位置是汉字不可或缺的因素。汉字的结构n汉字结构,即汉字的组合形体和构造方式,它决定着组成一个汉字的字素的组织结构和排列顺序。汉字分独体字和合体字两类。独体字的结构成分是笔画,合体字的结构成分是部件。 汉字的结构n国家标准GB18030-2000以及国际标准ISO/IEC16046规定的十三种汉字结构: 序号结构框图名称例字序号结构框图名称例字1上下结构思 杏8左上包孕结构病 原2上中下结构襄 草9左三包孕结构匠 区3左右结构休 明A左下包孕结构毯 建4左中右结构弼 班B右上包孕结构司 句5全包围结构囚 困C整体结构
9、大由6上三包孕结构同 冈D镶嵌结构夹 巫7下三包孕结构凶 函汉字的结构n汉字具有一定的层次结构,由基元直接组成的的汉字具有一级结构,由基元组合成为基元组合体后再与基元组合体或基元组合成为汉字,这样的汉字具有多级结构。成字中只有基元按上述定义直接组成汉字的汉字只有一级结构,成字中含有基元组合体再按结构定义组成字的汉字为多级结构。例如,汉汉、层层都是一级结构;莎莎是具有二级结构的汉字,其中一级结构为上下结构,二级结构为左右结构;蓓蓓是具有三级结构的汉字,其中一级结构是上下结构,二级结构为左右结构,三级结构为上下结构;藻藻是具有四级结构的汉字,其中一级结构是上下结构,二级结构是左右结构,三级结构是上
10、下结构,四级结构是品字结构等等。基于简易网格的汉字结构描述n简易网格n根据传统的田字格、九宫格,我们使用22和33网格作为基本的网格描述子。n在22网格、33网格的基础上扩展为44网格、66网格、99网格。汉字结构的网格描述n借助简易网格,汉字的结构描述转化为网格单元并的关系运算,这与计算机体系结构是相适应的。基于简易网格的汉字结构描述方法主要有以下方法: (1)单一网格描述。(2)多种网络组合描述。(3)多个网格套迭描述。汉字结构的网格描述n单一网格 品字型结构的汉字适合用22网格描述。全包围结构、半包围结构适合用33以上的网格进行描述。整体结构的汉字,简单的用22网格描述,复杂的用33网格
11、进行描述。汉字结构的网格描述n多种网络组合描述n对比较复杂的汉字,需要将两种或两种已上的网格组合使用才能确定各个汉字原型的结构信息。例如“嘏”字,采用两种网格结合,如图所示。通过33网格可以知道“嘏”为左中右结构,而通过22网格就可以却确认“古”字下面“口”字对应的高为网格单元的高,“十”的宽为网格单元的宽。右边部件下面的“又”的高为网格单元的高,上面部分占据。中间部件上面的封闭部分占据网格,下面的两横中的上面一横高度位置在字的高度中线上,而其中的下面一横通过33网格表明在下1/3线上。通过两个网格的配合使用,完整描述了“嘏”字的平面结构。汉字结构的网格描述n多个网格套迭描述n例如“幢”字,两
12、种网格如图所示。通过33网格,知道该字为左右结构,左边的“巾”旁占据,右边又是上下结构,立字在上,占据,下面的“里”占,具体通过“里”字的22网络和33网格,“田” 字和“土”的结构得到完整的刻画,只是“里”字的宽和高均为高的2/3。可见通过两个网格的套迭使用,是“幢”得到完整的描述。汉字结构特征分析和识别n基本术语n合并:连通区域是结构识别中的基本处理单元,但部件=连通区域,而结构的划分是以部件为单位的,因此,需要对连通区域进行合并处理以构成以完整部件。n分割:对于一幅结构待识别的汉字图像中,经图像预处理后,会存在部件间粘连的情况,要识别该汉字的结构,必须对粘连部件做分割处理。可利用在汉字的
13、网格统计分析过程中所获得的先验知识来指导汉字内的部件分割。汉字结构特征分析和识别n左右结构识别n连通区域关系定:如果,则连通体A和连通体B为左右关系n依据左右结构的网格描述,合并规则如下:n1在同一纵向子格中所存在的多个连通区域需合并,如“”、“”、“刂”。n2相邻优先合并,连通区域优先向相邻的区域合并。n3合并后的部件须符合左右结构在网格中的部件分布原则。AB汉字结构特征分析和识别n左右结构识别n以下为分割规则:n1封闭区域不分割。在候选连通区域中,若有封闭区域,则不做分割。n2极小值处分割(必要条件)。候选分割处为垂直投影的波谷或局部极小值处。n3纵向分割。分割只考虑纵向分割情形,不考虑横
14、向分割。n4水平笔画不分割。n5突变地方,选择波峰左侧作为候选分割。n6笔画方向没有改变处,不做分割。n7.候选分割线与左右结构的网格描述中的部件分布描述的分界线一致。汉字结构特征分析和识别汉字结构特征分析和识别n上半包围结构识别n上半包围结构的汉字,偏旁和其他部件没有连通部分,偏旁“几”、“冂”是单连通体,但是“门”不是单连通体。下半包围和全包围结构的汉字,偏旁是单连通体,且偏旁和其他的部件没有连接部分。汉字结构特征分析和识别实验结果n实验样本:n选取GB231280中的6763个汉字作为结构识别研究的样本,制作成位图图片,字号为48号,字体为黑体。n软件的开发与测试:n本文应用VC+,对上
15、述汉字样本进行结构识别测试。实验结果序号汉字结构GB231280汉字一级结构频度识别率识别错误数1整体4710.069696.88%152左右39630.586095.05%1963左中右3100.045893.8%194上下11260.166592.3%875上中下3300.048893.33%196全包围230.0034100%07上三包围590.008798.4%18下三包围50.0007100%09左上包围2520.024692.9%1810左下包围1570.023298.7%211左三包围120.0018100%012右上包围430.0064100%013品字结构100.0015100%014架嵌结构20.0003100%0总计6763结论n汉字结构识别的实验结果表明了基于简易网格的汉字结构识别方法的有效性。对于不能正确识别的汉字,主要由以下原因造成的:(1)组成单字的各部件之间存在严重的粘连或交叠;(2)由于汉字复杂多样,笔画与部件之间的界限难以精确界定,对一些部件会出现错检或漏检,如“灬”、“川”等;(3)没有现行的汉字结构标准可供参考,对测试样本的汉字结构统计分类存在错分情况。结论n进一步的研究工作n脱离了字库的汉字识别是一个全新的课题,包括的汉字结构和汉
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 奇石购销合同范例
- 房屋水管购买合同模板
- 快餐配送销售合同范例
- 施工材料运输合同范例
- 技术委外设计合同范例
- 2024年社会救助及公益服务项目建议书
- 2024年BYDBYE并条自调匀整系统项目发展计划
- 小学一年级新生入学黑板报内容
- 2024年媒体经营项目发展计划
- 2024年豆类生产项目建议书
- 奶粉促销活动主持词
- 2024年中央金融工作会议精神心得体会1000字(8篇)
- 2024入团考试题库考试100题题库(含答案)
- 保安培训记录内容
- 公务快艇常规安全
- 案例l五项目三:电动天窗系统的检测与故障排除
- 项目技术方案评审
- JTS180-2-2011 运河通航标准
- 高中生活如何启航 课件 2023-2024学年高一主题班会
- 电力职业病防控
- 《互联网的应用》课件
评论
0/150
提交评论