基于Fisher的手写体数字识别研究与实现_第1页
基于Fisher的手写体数字识别研究与实现_第2页
基于Fisher的手写体数字识别研究与实现_第3页
基于Fisher的手写体数字识别研究与实现_第4页
基于Fisher的手写体数字识别研究与实现_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 收稿日期 :2010-02-20基金项目 :河南省教育厅自然科学基金 (2009C520006 ; 平顶山学院高层次人才科研启动经费 (2008016作者简介 :马 飞 (1980- , 男 , 山东省鱼台人 , 平顶山学院软件学院讲师 , 硕士 , 主要研究方向 :模式识别、 计算机图形图像 .基于 Fisher 的手写体数字识别研究与实现马 飞 1, 武 楠 2, 程荣花1(1. 平顶山学院 , 河南 平顶山 467000;2. 曲阜师范大学 计算机科学学院 , 山东 272300摘 要 :在手写体字符识别研究中 , , , 采用 面积滤波对数字图像预处理消除离散点 , 使用 进行了手写

2、体数字识别研究 与实现 , 分类器识别正确率为 关 键 词 :; . :A 文章编号 :1673-1670(2010 02-0100-031引言手写体数字识别在过去的几十年里一直是模 式识别领域的研究热点 , 在手写较多的领域如邮政 编码 、 统计报表 、 财务报表 、 支票的数字识别等方面 有广泛应用 . 专家 、 学者提出了很多识别算法 , 但是 很多只是停留在实验室中 , 由于书写风格的不同造 成了各种字符变形 , 研究高性能的手写数字识别算 法是一个有相当挑战性的课题 . 提取字符特征大体 分两类 :一是统计特征 , 通常包括点矩 、 特征区域 等 ; 二是结构特征 , 通常包括圈 、

3、 端点 、 拐角点 、 笔 画 、 轮廓等123. 现有的识别方法很多 , 例如基于模板匹配或结构特征的方法 、 使用模糊推理的方法 、 基于矩和变换的方法 、 基于神经网络的方法等 . 2预处理及特征提取为防止手写时 (粘带等操作 出现离散的孤立点 , 笔者采用面积滤波法去除离散点 . 滤波算法描 述如下 :step1循环 :扫描整个书写区 ;step2计算 :根据 8邻域像素点计算各连通区域的像素点数目 , 作为面积值 s ;step3判断 :若面积值 s Threshold (指定阈值 , 则使用背景色重绘当前离散点区 ;step4继续 :跳转到 step2;step5输出 :滤波处理完

4、成后 , 得到相对连通的数字图像 .对输入的手写图像进行上述处理后 , 得到了相 对较为规整的数字图像 , 减少了干扰点源 , 为后续 的特征提取工作做了较好的预处理 . 如图 1为书写 时获得的输入图像含噪声点的情况 , 通过面积滤波 后得到噪声点较少的图像如图 2 .图 1 含噪声点的图像 图 2 滤波后 图 3 区域定位 图 4 特征分割 滤波处理完成后 , 进入边界判断处理 . 为得到 数字的边界进行归一化 , 由于书写数字大部分情况都不能充满数字区 , 所以笔者采用从数字区的 4个 边界向中心紧缩的方法寻找数字边界 . 区域定位结第 25卷第 2期 2010年 4月 平顶山学院学报

5、Journal of Pingdingshan University Vol . 25No . 2Ap r . 2010果如图 3. 此种定位方法好处就是能够动态地获得 各小区域的比值 , 实现了一种弹性的归一化 , 不必 用专门放大或缩小的方法作归一化 , 为后续识别工 作带来方便 .定位完成后 , 对数字进行特征提取 . 特征提取 有很多方法 , 笔者采用 5×5的模板 4:水平方向上的间距为 dh=(h 2-h 1 /5(1垂直方向上的间距为 dv=(v 2-v 1 /5(2 由于整个数字区域的水平距离 、 垂直距离很多 时候不是 5的倍数 , 会造成最后一列和最后一行的 数据

6、不能完全包括在内 , , 将前 4×4d , ,d h w <2的范围 , d v h <2 dv. 所以有时会看到分割后最后一列和最后一行的大小与前 4×4小区 域不一致 . 如上操作将得到 5×5=25维特征值 , 特 征值的选取为每一个小区域中数字像素数与整个 小区域面积之比 , 若大于给定的阈值 Th =0. 05, 便 将此维特征记为 1, 否则为 0.3Fisher 算法在解决模式识别问题时 , Fisher 判别是一种有 效的模式分类算法 5-6. 它求出一个最佳分类向 量 , 将原来高维的模式样本特征投影到最佳分类向 量空间以达到减少特

7、征维数的目的 , 这是 Fisher 算 法要解决的基本问题 .Fisher 算法的主要思想 :为得到最佳分类向 量 , 需要计算各类别样品均值 、 样品类内离散度矩 阵 、 总类间离散度矩阵 、 样品类间离散度矩阵 . 根据 Fisher 准则找到最佳分类向量 , 将训练样品集进行 投影到待求的直线方向上 , 然后求出边界点 , 最后 将待测样品特征向已求出的直线方向投影 , 计算与 训练样品投影点的边界距离关系 , 便可对应地识别 结果 .最初 Fisher 算法主要是进行两类问题的分类 , 而问题中要解决 09中的 10个数字的分类识别 问题 , 所以需要构建 10×(10-1

8、 /2=45次分类 . Fisher 算法描述如下 :step1均值 :计算各类的样品均值 :m i N i X iX i =0, 1(3其中 Ni是对应 i类中的样品个数 , X 为样品 特征向量 .step2离散度矩阵 :对样品计算类内离散度矩阵 SiS i =X i(X -mi(X -miT i =0, 1(4 各样品的总类内离散度矩阵 S :S =S i i =0, 1(5 dd 0-m 1 01 (6 :Fisher 判别的目的是找一个 W , 使得映射后的类间离散度矩阵 和类内离散度矩阵的比值最大 .Fisher 准则函数 :J F (W =arg maxW T S d W W T

9、 S w W (7根据上述准则 , 一般使 JF(W 取最大值时 , 可 计算得到最佳分类向量 W :W =S -1(m 0-m 1 (8 可计算对应类的所有样品在这个最佳分类向 量上的投影 y:y =(W 3 T X (9 step4均值 :在上一步得到的最佳分类向量 上的投影 y 空间中计算两类样品的均值 ,m i =N iy iy i =0, 1(10这里阈值 y选用较常见的一种计算方法 : y 0m N +m NN 0+N 1(11 step5分类 :对于待测样品特征值 X, 计算它在最佳分类向量上的投影点 yx:y x =W T X (12分类结果 :xy x y 01其他(13 上

10、述算法描述中 , 采用了两类 Fisher 分类法 , 对于 10个数字的识别 , 在实际编程时需要两两分 类处理 , 最后在计算结果对应最大值者位置为对应 的类别序号 , 即为识别结果 .4试验实验期间组织 10个学生 (5名女生 , 每人书 写 09, 每个数字写 6次 , 共得到 600个样本 . 使 1 0 1第 2期 马 飞 , 武 楠 , 程荣花 :基于 Fisher 的手写体数字识别研究与实现 用其中的 500个手写体数字图像作为训练样本 , 余 下的 100个样本做测试训练 . 笔者采用 V isual C #. net2005为开发平台 , PC 机配置 :I ntel CP

11、 U2. 1GHz, 512M 内存 . 在试验中笔者将各类别样本的样品均值 m i 、 类内离散度矩阵 S i 分别存放在对应的训练集数据库中 , 为以后使用带来了方便 . 笔者对每个 样品共选取 5×5=25维特征值 , 采用 Fisher 分类 器识别正确率为 96%.部分结果如图 6所示 . 由试 验结果可得知 , 采用 5×5分割方法 , 能够弹性地提 取各维特征 , 而不必专门使用归一化处理 .图 6 识别结果5结论笔者采用 Fisher 分类器的方法实现了手写体 数字识别 , Fisher 分类器本身具有强大的分类能 力 , 已经成功运用于人脸识别 、 汉字识

12、别等模式识 别领域 , 均取得了较好的效果 . 在试验中样品的特 征选取了 5×5=25维特征 , 不会出现“ 维数灾难 ” 问题 , 但对识别精度也产生了不利的影响 , 下一步 的工作重点放在选取更多的特征 , 如端点 、 拐角点 、 笔画 、 轮廓等 , 结合 PCA 等降维方法来实践 .参考文献 :1张 充 , 史青宣 , 苗秀芬 , 等 . 基于 BP 神经网络的手写体数字识别 J .计算机技术与发展 , 2008, 18(6 :128-130, 163.2芮 挺 , 沈春林 , 丁 健 , 等 . 基于主分量分析的手写数字字符识别 J .小型微型计算机系统 , 2005,

13、26(2 :289-292.3张重阳 , 娄 震 , 杨静宇 . 基于轮廓和统计特征的手写体数字识别 J .计算机工程与应用 , 2004, 40(9 :83-84, 89.4杨淑莹 . 模式识别与智能计算 :Matlab 技术实现 M.北京 :电子工业出版社 , 2008:40-41.5夏文彬 . 基于特征脸及 Fisher 脸的人脸识别方法 D.南京 :南京邮电大学 , 2008:16, 19-20.6杜世强 . 基于核 Fisher 判别的人脸识别方法研究 D.西安 :陕西师范大学 , 2007:15-19.The Research of Handwr itten D i g it a

14、l Recogn iti on Ba sed -on F isherMA Fei 1,WU Nan 2, CHENG Rong -hua1(1. Pingdingshan University, Pingdingshan, Henan 467000, China; 2. Qufu Nor mal University, Qufu, Shandong 272300, China Abstract:I n the field of Handwritten D igital Recogniti on, the recogniti on is difficult due t o the digital varied style . This paper uses the area filter t o filter the is olated p ixels, and uses the Fisher classifi

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论