版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
印刷体汉字的分类和识别第一页,共四十七页,2022年,8月28日要点:印刷体汉字的分类印刷体汉字的识别课堂练习课后练习第二页,共四十七页,2022年,8月28日印刷体汉字的分类印刷体汉字分类的必要性印刷体汉字分类的基本要求印刷体汉字分类举例印刷体汉字分类的方法返回第三页,共四十七页,2022年,8月28日印刷体汉字分类的必要性由于汉字数量大,如果不对汉字分类而直接识别,一方面识别效果不会好,另一方面计算量往往会很大。汉字识别通常都要对汉字做一级或多级分类,然后再细分判别,从而大大提高识别效率。返回第四页,共四十七页,2022年,8月28日印刷体汉字分类的基本要求粗分类的正确分类率和分类稳定性要高。文字识别是先粗分类,然后再细分。粗分类的正确与否会影响到后面的识别。粗分类的速度要快。这要求分类的算法简单,同时要求分在各个类别中的汉字的数目比较平均,从而提高分类的效率。返回第五页,共四十七页,2022年,8月28日印刷体汉字分类举例在下图中,“3”所代表的文字不仅在类别A中,也可能同时在类别C中。在细分判别A和C类中的文字时应同时考虑“3”所代表的文字。返回第六页,共四十七页,2022年,8月28日印刷体汉字分类的方法采用复合特征的分类多级分类返回第七页,共四十七页,2022年,8月28日采用复合特征的分类选用N种具有互补特征作为类特征在学习阶段,对训练样本进行N次互不相关的分类,然后组合N次分类结果,完成特征空间的划分。分类时,根据待分字的特征进行N次分类,组合分类结果求得子类。返回第八页,共四十七页,2022年,8月28日多级分类学习阶段,对训练样本进行多级分类,每一级分类是在上级分类基础上进行的;分类时重复上述多级分类过程。树分类是一种典型的多级分类,具有效率高的特点,但是汉字字数多会造成分类树结构庞大,使得分类不够稳定。返回第九页,共四十七页,2022年,8月28日印刷体汉字的识别在选取特征之后,需要选择或寻找适当的判别准则来判断待识字的特征与哪一个类别的特征最近。常用准则有两类:(1)基于距离的识别准则(2)基于相似度的识别准则返回第十页,共四十七页,2022年,8月28日基于距离的识别准则距离的数学定义常用距离距离计算举例:例1,例2
返回第十一页,共四十七页,2022年,8月28日距离的数学定义距离是满足如下三条公理的二元函数:(1)非负性:d(x,y)0,当且仅当y=x时,等号成立;(2)对称性:d(x,y)=d(y,x);(3)三角不等式:
d(x,y)d(x,z)+d(z,y)
返回第十二页,共四十七页,2022年,8月28日常用距离曼哈顿街区距离,欧氏距离切比雪夫(Chebychev)距离s阶闵可夫斯基(Minkowski)距离马氏(Mahalanobis)距离,Camberra距离编辑距离和演化距离返回第十三页,共四十七页,2022年,8月28日曼哈顿街区距离又称为分量绝对值求和距离。返回第十四页,共四十七页,2022年,8月28日欧氏距离返回第十五页,共四十七页,2022年,8月28日切比雪夫(Chebychev)距离又称为分量绝对值最大距离。返回第十六页,共四十七页,2022年,8月28日s阶闵可夫斯基距离(Minkowski)距离。返回第十七页,共四十七页,2022年,8月28日马氏(Mahalanobis)距离是一个正定矩阵。返回第十八页,共四十七页,2022年,8月28日Camberra距离返回第十九页,共四十七页,2022年,8月28日编辑距离和演化距离通过“替换”、“删除”和“插入”三种操作,把字符串a=a1a2…am变成b=b1b2…bn所需的最小操作次数,称为a和b的编辑距离。由于“替换”、“删除”和“插入”可以解释为基因序列的三种演化操作,因此编辑距离又称为演化距离。返回第二十页,共四十七页,2022年,8月28日编辑距离Ed的计算方法a=a1a2…am,b=b1b2…bn
返回xi=a1a2…ai,yj
=b1b2…bj“-”表示删除或插入,Ed(a,b)=Ed(xm,yn)第二十一页,共四十七页,2022年,8月28日距离计算举例计算下面“汉”和“字”点阵之间的几种距离第二十二页,共四十七页,2022年,8月28日距离计算结果曼哈顿街区距离=70欧氏距离=8.3666切比雪夫距离=1s阶闵可夫斯基距离=Camberra距离=70返回第二十三页,共四十七页,2022年,8月28日距离计算举例计算下面序列之间的编辑距离:ab和acacb和abac和abcabcc和cbaa第二十四页,共四十七页,2022年,8月28日距离计算结果ab和ac的编辑距离=1acb和ab的编辑距离=1ac和abc的编辑距离=1abcc和cbaa的编辑距离=3返回第二十五页,共四十七页,2022年,8月28日基于相似度的识别准则相似度的数学定义常用相似度相似度计算举例返回第二十六页,共四十七页,2022年,8月28日相似度的数学定义相似度是满足如下三个条件的二元函数:1.非负性:2.自大性:3.对称性:返回
第二十七页,共四十七页,2022年,8月28日常用相似度距离相似度,角度相似系数相关系数,指数相似系数非负特征相似度,二值特征相似度返回第二十八页,共四十七页,2022年,8月28日距离相似度f是单调减函数。返回第二十九页,共四十七页,2022年,8月28日角度相似系数返回第三十页,共四十七页,2022年,8月28日相关系数返回第三十一页,共四十七页,2022年,8月28日指数相似系数返回第三十二页,共四十七页,2022年,8月28日非负特征相似度返回第三十三页,共四十七页,2022年,8月28日二值特征相似度二值特征向量的分量只能取值0或1。二值特征分量有四种基本匹配二值特征向量有四种匹配特征数二值特征向量有五种常用相似度返回第三十四页,共四十七页,2022年,8月28日四种基本匹配设二值特征向量x和y的第i个分量为xi和yi,如果xi=1且yi=1,则称xi和yi(1-1)匹配;如果xi=1且yi=0,则称xi和yi(1-0)匹配;如果xi=0且yi=1,则称xi和yi(0-1)匹配;如果xi=0且yi=0,则称xi和yi(0-0)匹配;返回第三十五页,共四十七页,2022年,8月28日四种匹配特征数(1-1)匹配特征数:(0-1)匹配特征数:(1-0)匹配特征数:(0-0)匹配特征数:所选特征总数n=a+b+c+e返回第三十六页,共四十七页,2022年,8月28日五种常用相似度Tanimoto系数Rao系数简单匹配系数Dice系数Kulzinsky系数返回第三十七页,共四十七页,2022年,8月28日Tanimoto系数表示二值特征向量x和y共同具有的特征总数和分别具有的特征种类总数之比。返回第三十八页,共四十七页,2022年,8月28日Rao系数表示二值特征向量x和y共同具有的特征总数和所选特征总数之比。返回第三十九页,共四十七页,2022年,8月28日简单匹配系数表示二值特征向量x和y同时具有或不具有的特征总数和所选特征总数之比。返回第四十页,共四十七页,2022年,8月28日Dice系数返回第四十一页,共四十七页,2022年,8月28日Kulzinsky系数表示二值特征向量x和y共同具有的特征总数和单独具有的特征总数之比。返回第四十二页,共四十七页,2022年,8月28日相似度计算举例计算“汉”和“字”点阵向量的角度相似性以及5种二值特征相似度。第四十三页,共四十七页,2022年,8月28日相似度计算结果角度相似系数=
0.327165Tanimoto系数=0.195402Rao系数=0.066406简单匹配系数=0.726563Dice系数=0.326923Kulzinsky系数=0.242857返回第四十四页,共四十七页,2022年,8月28日课堂练习1.计算abc和cacbc之间的编辑距离;2.计算(1,0,0,1,1,0,1)和(1,1,1,1,1,0,0)之间的曼哈顿街区距离、切比雪夫距离和3阶闵可夫斯基距离;3.计算(1,0,0,1,1,0,1)和(1,1,1,1,1,0,0)的角度相似系数。返回第四十五页,共四十七页,2022年,8月28日编辑距离的计算返回Ed(0,0)=0Ed(1,0)=1Ed(2,0)=2Ed(3,0)=3Ed(4,0)=4Ed(5,0)=5Ed(0,1)=1Ed(1,1)=1Ed(2,1)=1Ed(3,1)=2Ed(4,1)=3Ed(5,1)=4Ed(0,2)=2Ed(1,2)=2Ed(2,2)=2Ed(3,2)=2Ed(4,2)=2Ed(5,2)=3Ed(0,3)=3Ed(1,3)=2Ed(2,3)=3Ed(3,3)=2Ed(4,3)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 专业技术培训驾驭科技浪潮考核试卷
- 企业教育培训的人力资源管理考核试卷
- 信息系统人力资源与智能招聘考核试卷
- 建筑物拆除前的环境影响评价考核试卷
- 搪瓷制品在化妆品包装中的创新应用考核试卷
- 建筑物拆除施工现场的材料质量检验与工艺控制方法考核试卷
- 内陆养殖的农村富民与农产品流通考核试卷
- 脱贫攻坚财政支出项目绩效评价报告
- 新员工安全隐患知识培训目标
- 新员工入行培训财务合规
- 2024年上海市标准房屋租赁合同经典版(三篇)
- 新目标艺术培训中心商业策划书(3篇)
- 2022年信息科技课程新课标义务教育信息科技课程标准2022版解读课件
- 小学生防火安全教育课件
- 辽宁省沈阳市2024-2025学年七年级上学期期中模拟英语试题
- 2024人教版初中八年级数学上册第十四章整式的乘法与因式分解大单元整体教学设计
- 2023年中国铁路国际有限公司招聘考试试题及答案
- 小学高年级课后服务 scratch3.0编程教学设计 二阶课程 项目3数字华容道 第2节 数字块移动教学设计
- 国资国企企业学习二十届三中全会精神专题培训
- 履职工作计划
- 火星营地登陆计划-趣味地产周年庆典市集活动策划方案
评论
0/150
提交评论