认知模式识别理论及其在无字库智能造字应用研究-博士学位论文开题报告_第1页
认知模式识别理论及其在无字库智能造字应用研究-博士学位论文开题报告_第2页
认知模式识别理论及其在无字库智能造字应用研究-博士学位论文开题报告_第3页
认知模式识别理论及其在无字库智能造字应用研究-博士学位论文开题报告_第4页
认知模式识别理论及其在无字库智能造字应用研究-博士学位论文开题报告_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

博士学位论文开题报告博士学位论文开题报告博士学位论文开题报告博士学位论文开题报告 认知模式识别理论及其在认知模式识别理论及其在认知模式识别理论及其在认知模式识别理论及其在 无字库智能造字应用研究无字库智能造字应用研究无字库智能造字应用研究无字库智能造字应用研究 研研研研 究究究究 生:刘明友生:刘明友生:刘明友生:刘明友 指导教师:皮佑国指导教师:皮佑国指导教师:皮佑国指导教师:皮佑国 教授教授教授教授 Outline 背景 研究内容和创新点 研究基础 进度计划 背景模式识别 模式识别尚存在两个主要问题需要解决: 小样本问题 迄今为止的模式识别主要是基于被识别事物的 区分机理,而不是基于认知机理,在“识”方 面,即对事物认识(学习)方面与人类的认知 过程差异较大而且学习能力不足 背景智能造字 字库方式存在的弊端: 难于形成规模适度和长期稳定的汉字信息化标准 不符合汉字的造字规律,无法传承汉字文化 不符合汉字认知规律,与汉字教学脱节 不能满足整个社会的应用需求 信息熵高,是效率最低语言文字信息系统之一 研究内容和创新点 提出了基于原型匹配的认知模式识别理论 提出了拟人的计算机无字库智能造字 完善了汉字原型及结构提取理论和方法 提出了汉字基元映射知识获取方法 提出了汉字知识组织与表示方法 原型匹配的认知模式识别理论研究 恒常性与拓扑不变性 模式的组成 原型与成分的关系 恒常性与拓扑不变性 视知觉恒常性表述为:在对象图像信息 足够确定其模式的条件下,图像的大小 变化和形状变化不影响人对对象的知觉。 用几何拓扑学的相关理论,建立物体对 象的数学模型,从大小和形状恒常性两 个角度加以证明。 模式的组成 从成分识别理论出发,研究现实世界中物体的 组成法则。比如,世界上的物质种类多得数不 清,但组成物质的化学元素却只有一百多种。 又如,可以通过红、绿、蓝三种颜色来构成五 彩缤纷的颜色。Biederman的成分识别理论揭 示了客观世界的构成模式:客观世界中的所有 物体都是由一些成分构成的,也就是说,客观 世界中物体都可以分解成一定的组成成分,各 个成分之间的组合关系我们称之为结构。我们 用集合理论来对物体的构建进行描述。 原型与成分的关系 原型是这一类客体所有的个体的概括表征。物 体是由一些成分按照其结构所组成的,这里的 成分是具体的、确定的。因此原型和组成物体 的成分之间就存在一个由概括到确定,由抽象 到具体的过程。我们用拓扑空间相关理论,研 究原型与具体的组成成分之间的拓扑映射。 从拓扑学的理论加以证明:原型匹配过程就是 用原型集合中的一个或数个元素的拓扑变换对 模式中的组成成分进行覆盖的过程。 拟人的计算机无字库智能造字研究 汉字是用象形和指事及其符号按照一定的规则 造出来的,传统的汉字造字理论包括:象形, 指事,会意,形声。从认知心理学的知觉理论 出发,研究人对汉字的认知机理,包括汉字的 认读和书写过程。无字库智能造字的结构框架: 推 理 机解 释 机 制智能造字单元 用 户 界 面 知 识 库、基 元 库 图1智能造字系统 储 存 单 元 拟人的计算机无字库智能造字研究 将计算机比作人脑,建立包括基元库, 汉字结构以及基元在结构中映射知识的 知识库来模拟人的长时记忆;用推理机、 解释机制、智能造字单元来模拟人在汉 字认读和书写过程中脑的控制功能。汉 字识别对应于认读过程,智能造字对应 于书写过程。这样就将人的汉字认读和 书写过程外延到计算机中了。 汉字原型及结构研究 原型论即原型匹配理论,原型论的突出特点是它认为 在记忆中储存的不是与外部模式有一对一关系的模 板,而是原型( prototype )。原型不是某一个特定模 式的内部复本,它被看作一类客体的内部表征,即一 个类别或范畴的所有个体的概括表征。构成汉字的原 型是汉字基元,汉字基元是智能造字中按照汉字结构 组成汉字的基本单元;汉字的组成成分是汉字基元的 拓扑变换,变换保持汉字基元的拓扑不变性;同一汉 字基元在不同汉字中拓扑变换是同胚映射。汉字成分 之间的拓扑关系构成了汉字的结构。 汉字原型及结构研究 通过初始原型集合汉字编码造字实验原 型使用频率等统计修改原型集合的流程,反 复实验,最终获得汉字的原型知识。研究汉字 的拆分规律,分析和总结汉字原型的形成规律。 从图形符号的角度分析汉字原型之间组合规 律,在传统汉字结构和实验室研究的基础上, 进一步完善汉字结构。 旨在用现代科学实验的方法来解决文字文化问 题探讨。 汉字基元映射研究 基于区域的仿射变换系数自动获取 基于特征提取的仿射变换系数自动获取 基于区域的仿射变换系数自动获取 该方法包括一个变换模型(参考图像坐 标到对应的目标图像空间坐标),图像 相似性度量(衡量两图像空间内对应特 征的相似性),和优化算法(通过改变 变换系数最优化图像相似性)。 基于区域的仿射变换系数自动获取 变换模型 设W表示基元图像,x表示该图像中的一个点。定义基 元图像的一个几何变换为 : 对于某一线性变换 A,其位置系数t表示为: 由上式知,线性变换系数可以看成是输入,而计算得 到的平移系数看成是输出。 + =+ y x y x AA AA t t W W dc ba tAW AWxAxWt=),( 基于区域的仿射变换系数自动获取 图像相似性度量 归一化相关系数(NCC) I表示子图像,T表示模板图像,R表示图 像相关系数 += , 22 , ),(),(/),(),(),( yxyxyx yyxxIyxTyyxxIyxTyxR 基于区域的仿射变换系数自动获取 优化算法 利用粒子群算法来优化仿射变换系数。粒子群 算法因其简单性和有效性得到了广泛的应用, 成为研究的热点。粒子群算法用于仿射变换系 数寻优的过程为:随机产生m组仿射变换系数 中的线性变换系数组成初始群体,分别对基元 图像进行变换(模板图像),然后在汉字图像 (搜索图)上寻找最佳匹配,由最佳匹配时的 图像相似性系数决定每个粒子的适应度值,通 过迭代寻优,获取最优的线性变换系数和平移 系数。 基于特征提取的仿射变换系数自动获取 仿射不变特征 图像在仿射变换下保持不变的性质称为 仿射不变特征。仿射不变特征可分为全 局不变特征和局部不变特征。SIFT(尺 度不变特征变换)算法是一种提取局部 特征的算法,在尺度空间寻找极值点, 提取位置,尺度,旋转不变量,对视角 变化、仿射变换、噪声也保持一定程度 的稳定性。 基于特征提取的仿射变换系数自动获取 基本思路 汉字基元到汉字组成成分的仿射变换, 通过提取局部仿射不变特征位置和尺 度不变量,找到相对应的匹配点对,由 三对不共线点计算得到仿射变换系数。 基于特征提取的仿射变换系数自动获取 获取流程 兴趣点或角点检测:SIFT空间极值点检测往往会丢失掉重要的关 键点,比如角点和拐点,而角点和拐点是计算仿射变换系数最重 要的参数。通过对各种兴趣点和角点算法的比较,如 Harris角点 检测,Susan角点检测,采用强角点检测汉字图像的角点,具有 稳定性好,检测到的角点准确而全面等优点。 角点描述子生成:检测到汉字角点以后,用改进的 SIFT描述子生 成角点特征向量,去除SIFT描述子的旋转不变性,提取位置和尺 度不变量。 确定匹配点对:角点特征向量生成后,采用角点特征向量的欧氏 距离作为两幅图像中角点的相似性判定度量。取图像一中的某个 角点,并找出其与图像二中欧氏距离最近的前两个角点,这样就 找到了基元图像中某个角点在汉字图像中相匹配的两个角点,从 而不漏掉重要的相匹配的角点。 随机选取不共线的相匹配三对点可以计算确定一组仿射变换系数 ,通过使用前面介绍的归一化相关系数作为相似性度量,由此可 以确定一组最佳的仿射变换系数。 汉字知识组织与表示 语义网络是通过概念及其语义关系来表达知识的一种 有向网络图。 汉字集先按汉字一级结构聚类,构成语义网络的第一 层次。 图2 汉字一级结构语义网络 汉字集 上 下 左 右 上 中 下 左 中 右 全 包 围 上 三 包 围 下 三 包 围 左 三 包 围 右 上 包 围 左 上 包 围 左 下 包 围 横 四 纵 四 纵 五 品 字 架 嵌 整 体 汉字知识组织与表示 在一级结构的基础上,汉字的结构或基元再按照自上 而下的语义关系汇集,构成一个多层次的语义网络。 图3 左三包围结构汉字语义网络 甲斤非 匸 乂矢 左 上 包 围 王左 右巾上 下口 叵匝匡医匪匣匠区 户 匾 车 九 匦 艹 贝 匮 左 上 包 围 口 匿 左 三 包 围 结 构 研究基础 分别对GB2312-80和GB18030-2000汉 字字符集进行了编码和造字,提取和归 纳了汉字基元和汉字结构。 搭建了无字库智能造字实验平台。 发表相关论文和专著六篇。 进度计划 起止时间起止时间工作内容工作内容备注备注 2008/12-2009/01研究原型匹配的认知模式识别理论撰写论文一篇 2009/02-2009/03研究整理仿射变换系数自动获取方法撰写论文三篇 2009/03-2009/06GB18030-2005 剩余的四万多汉字

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论