版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
智能造字中的基元识别第1页,共21页,2023年,2月20日,星期六一.课题的目的和意义1.当前汉字的显示主要使用字库的方式
优点:数据量少,使用简单,字体美观基本满足了信息发展的需要缺点:不符合汉字识字的认知规律不能很好地传承汉字文明很难建立稳定的标准不能满足社会各个领域的特殊要求。第2页,共21页,2023年,2月20日,星期六一.课题的目的和意义2.课题的背景上世纪九十年代,周浩华提出用生成笔画进而生成汉字的研究,得出了可以不用字库进行造字的结论。皮佑国根据认知心理学原型认证机理提出了智能造字的概念,以汉字中的偏旁部首为基础选取汉字的基元,然后象拼音文字一样用基元拼合生成汉字,采用智能造字方式取代字库方式。第3页,共21页,2023年,2月20日,星期六一.课题的目的和意义3.课题的目的在智能造字过程中,对汉字进行编码是一项很基础、很重要但又是很枯燥乏味的工作。由于目前这项工作主要由手工来完成,所以很费时,又容易出错,而且很难查错,给后期的参数获取工作带来很大的麻烦。此外,由于每个人的认识水平不一,同一个字会有不同的结构划分,很难形成一个一致的认识。基元识别是实现自动编码的最重要环节。第4页,共21页,2023年,2月20日,星期六一.课题的目的和意义4.课题的意义目前的智能造字系统中,虽然已经可以构造出大部分的汉字,但是,这个造字平台的大部分工作都得手工来完成,并没有完全实现智能造字。其中,映射知识的获取已经基本上可以实现自动获取了,只要再能实现结构的自动识别,那么整个造字流程都可以由计算机来完成而不需我们的干预,从而真正实现智能造字。第5页,共21页,2023年,2月20日,星期六二.简易文献综述
字符识别方法目前主要有基于模板匹配算法和基于人工神经网络算法。基于模板匹配算法首先将分割后的字符二值化,并将其尺寸大小缩放为字符数据库中模板的大小,然后与所有的模板进行匹配,最后选最佳匹配作为结果。基于人工神经元网络的算法有两种:一种是先对待识别字符进行特征提取,然后用所获得特征来训练神经网络分配器;另一种方法是直接把待处理图像输入网络,由网络自动实现特征提取直至识别出结果。第6页,共21页,2023年,2月20日,星期六三.课题的研究内容,具体工作1.智能造字理论基础第7页,共21页,2023年,2月20日,星期六三.课题的研究内容,具体工作1.智能造字理论基础知识库用来存放汉字的结构编码知识、基元编码知识以及基元的映射知识,在知识库中,采用了层次语义网络的方式保存智能造字中的汉字结构和基元知识,根据汉字分层特点提取组成基本语义关系,然后把语义关系汇集,从而构建整个汉字集的语义网络作为知识库。推理机根据用户的输入,利用一定的规则限制和造字规律,结合知识库中的知识,准确检测编码输入的正确与否,并进一步推理出汉字编码,从而帮助用户方便快捷地完成汉字编码的输入工作。第8页,共21页,2023年,2月20日,星期六三.课题的研究内容,具体工作1.智能造字理论基础解释机制分析当前输入的编码,分离出该编码对应汉字的结构和基元。推理机根据用户的输入,利用一定的规则限制和造字规律,结合知识库中的知识,准确检测编码输入的正确与否,并进一步推理出汉字编码,从而帮助用户方便快捷地完成汉字编码的输入工作。第9页,共21页,2023年,2月20日,星期六三.课题的研究内容,具体工作1.智能造字理论基础拼合组字根据解释机制分离的汉字结构和基元,从基元库中调用相应的基元图片,从知识库中查找相应的映射知识,然后把基元图片经映射变换后顺序拼合从而生成汉字。用户界面完成与用户的交互,如输入,保存等整个智能造字系统最基础部分是知识库和基元库。第10页,共21页,2023年,2月20日,星期六三.课题的研究内容,具体工作2.智能造字工作汇总基元库的提取汉字的编码映射知识的获取造字平台的软件实现第11页,共21页,2023年,2月20日,星期六三.课题的研究内容,具体工作3.本课题的工作把汉字图像根据连通区域进行分割,把所有独立的部分分离出来把各个独立部分按照一定的方法进行组合,确保所有的组合都是一个基元对组合好的部分进行基元识别第12页,共21页,2023年,2月20日,星期六四.技术路线、方法第一步:连通区域获取算法算法步骤: 1.输入汉字图片。 2.从左到右,从上到下扫描图片,如果能找到黑点,跳到第3步,如果找不到黑点,跳到第6步。 3.保存当前黑点的坐标值,并且在该图像上把这一黑点改成白点。 4.依次检验该黑点左边,左上,上边,右上,右边,右下,下边左下的点,如果该点是黑点,返回到第3步,如果找不到黑点,程序继续执行到第4步。 5.创建一张全白的图片,大小和输入图像一样,然后根据第3步保存的坐标把相应的点设置为黑色,保存图像后返回第2步。 6.程序退出。第13页,共21页,2023年,2月20日,星期六四.技术路线、方法第二步:连通区域组合把第一步分离出的各连通区域进行组合,假设第一步的汉字图像输入为“吉”字的输入,那么第一步的算法将会输出基元“士”和“口”的图片,那么组合后会最终得到三张图片,除了这两张外,还有组合产生的“吉”第14页,共21页,2023年,2月20日,星期六四.技术路线、方法第三步:对组合进行分组 将所有生成的图片进行分组,假设第一部分有三个连通区域输出,记为a1,a2,a3,那么我们这样进行分组{a1,a2,a3},{a1a2,a3},{a1a3,a2},{a1,a2a3},{a1a2a3},其中a1a2表示两个区域组合成一张图像。如果输入的是“吉”,那么可以这样分组{“士”,“口”},{“吉”}
我们可以看到,每个组都包含了所有的连通区域第15页,共21页,2023年,2月20日,星期六四.技术路线、方法第四步:识别
1.图像匹配
第16页,共21页,2023年,2月20日,星期六四.技术路线、方法第四步:识别
2.神经网络(BP算法)
第17页,共21页,2023年,2月20日,星期六四.技术路线、方法第四步:识别 3.遗传算法
第18页,共21页,2023年,2月20日,星期六四.技术路线、方法第四步:识别人工神经网络利用基元库进行训练,然后输入每个分组图片,神经网络产生识别的结果遗传算法对识别结果进行寻优。我们用第三步产生的每一组数据去计算,取相似度最大的那组数据,该组数据的输出就是最佳,其输出的基于就是汉字分解的结果第19页,共21页,2023年,2月20日,星期六五.预期成果成功识别所有基元间不粘连的汉字的基元成功识别二基元汉字的基元第20页,共21页,2023年,2月20日,星期六六.进度计划2008-12-09~2009-01-10完成开题报告的撰写2009-01-
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年分包商环境绩效协议
- 2024年专用花卉展览馆经营权协议
- 2024年二手模具交易协议标准版
- 2024年化妆技术研发与保密协议
- 2024年专用:房地产工程合作开发协议
- 2024年卫生巾采购协议
- 2024年产品质保第三方担保协议
- 2024年便利店员工聘用合同范本
- 2024年农业技术服务与农药化肥购买合同
- 2024年北京存量房交易合同样本
- 苏教版五年级上册数学试题-第一、二单元 测试卷【含答案】
- 发挥产业工会作用的实施方案
- 科捷物流介绍(中文版)ppt课件
- 军事地形学地形图基本知识
- 2022版义务教育(生物学)课程标准(含2022年修订和新增部分)
- 六年级综合实践活动课件-珍爱生命远离毒品 全国通用(共24张PPT)
- 建设工程竣工消防验收记录表(DOC36页)
- 沉井专项施工方案DOC
- 切削力计算参考模板
- 一年级海洋教育教案
- 聚氨酯硬泡沫配方及计算
评论
0/150
提交评论