版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
一种基于内容的广告垃圾图像过滤方法目录论题意义及其必要性过滤原理与实现方法实验和结果分析论题意义及其必要性垃圾邮件问题日益严重:
2005年7月,中国互联网络信息中心(CNNIC)发布的《第十六次中国互联网发展状况统计报告》显示,中国网民平均每周收到14.5封电子邮件,其中垃圾邮件占了9.3封,垃圾邮件数量已经大大超过了正常邮件数量。
基于文本过滤方法的局限性:第一
、基于文本的过滤受到文本语言种类的限制;第二、垃圾邮件发送者(spamer)经常使用各种各样的骗术来迷惑基于文本的垃圾邮件过滤器,比如将文字页面转换为图像;有数据显示,包含图像的垃圾邮件占所有垃圾邮件的25%。可见,这种欺骗手段已经被垃圾邮件制作者们频繁利用,如果没有找到可行的解决办法,这个数字还会上升。第三、随着因特网的范围和容量不断增长,邮件包含越来越多的多媒体信息。一些广告垃圾图片的示例目录论题意义及其必要性过滤原理与实现方法实验和结果分析过滤的原理任何广告都需要用文字来传播某种信息。也就是说,广告垃圾图像的文字区域特征具有普遍性。本文正是利用广告垃圾图像的文字区域特征来进行广告垃圾图像过滤。
基本步骤:
1.提取图像的边缘信息,并把边缘信息做二值化处理;
2.将二值化边缘图像进行膨胀处理,使相邻的字符连通起来,并把膨胀处理后的所有连通区域作为候选文字区域记录下来;
3.利用文字区域的特征从候选文字区域中筛选出正确的文字区域;
4.根据得到的文字区域的数量和面积等特征对图像进行分类,把广告垃圾图像和合法图像区分开来。
彩色边缘提取由于广告图像中的文本与背景有较强的对比度,表现为在文本与背景的交界处,存在十分明显的高频区域,因此可以用提取边缘的方法来大致估计出文本可能存在的区域。由于广告垃圾图像大多为彩色图像,所以本文采用张引等提出的彩色图像边缘提取算子来提取边缘,利用彩色三分量的彩色边缘提取算法,充分利用了全面的色彩信息,效果优于传统的灰度边缘提取算法。
边缘提取的具体做法如下:已知输入图像f的RGB值,其中象素(i,j)的RGB分量分别为R(i,j),G(i,j),B(i,j)。要计算图像f的边缘图像Edge。
Eud(i1,j1;i2,j2)定义为像素点(i1,j1)与(i2,j2)之间的彩色值欧氏距离。
原图与边缘图像(a)原图(b)边缘图像边缘图像二值化阈值选取方法:首先计算边缘图像Edge的归一化灰度直方图h(i):
其中,ni是图像Edge中灰度值为i的象素的个数,N是图像象素总数。因为文字区域边缘十分明显,所以本文认为文字区域边缘的灰度级一般比较高。于是需要找到一个灰度级k作为阈值,把灰度大于k的边缘象素点保留,灰度小于k的边缘象素点忽略。令;eh(k)表示保留的边缘象素数占图像总象素数的比例;找到一个尽可能大的灰度级k使得eh(k)大于阈值TH1;如果此时k小于下限TH2,则把TH2作为二值化的阈值,否则把k作为二值化的阈值。在实验中,我们取TH1=0.2,TH2=120(认为文字区域边缘的灰度级不应低于120)。二值化边缘图像
(c)二值化边缘图像候选文文本区区域提提取从二值值边缘缘图像像中可可以看看出,,由于于文字字的分分布比比较集集中,,所以以文字字附近近的边边缘比比较丰丰富,,而且且属于于同一一文字字区域域的文文字边边缘具具有较较小的的距离离。对对于水水平方方向的的文本本行来来说,,可以以用水水平膨膨胀的的方法法将相相邻的的边缘缘连起起来,,形成成连通通的区区域,,从而而在空空间位位置上上将可可能含含有文文本的的区域域检测测出来来。膨胀方方法::设f为二值值图像像,B为结构构元素素,二二值形形态和和(膨膨胀))定义义如下下:其中表表示以以(x,y)为原点点,形形状与与结构构元素素B相同的的区域域。膨膨胀运运算具具有扩扩大图图像的的作用用,膨膨胀可可以看看作是是将图图像f中的每每一个个点(x,y)扩大为为。。本文使使用的的结构构元素素B是一条条N个象素素的水水平线线段。。其中中N由图像像的宽宽度决决定,,因为为较宽宽的图图像里里的文文字的的横向向间隔隔也会会较宽宽。本文中中取N=imageWidth/250+1;其中中imageWidth为图像像宽度度。把膨胀胀操作作后所所得的的连通通区域域所在在的最最小的的矩形形区域域记录录为候候选的的文字字区域域。膨胀边边缘图图像(d))膨胀胀边缘缘图像像文本区区域筛筛选本文根根据文文字区区域的的视觉觉特征征定义义了若若干约约束条条件,,满足足所有有约束束条件件的候候选文文字区区域被被认为为是文文字区区域。。本文中中使用用的约束条条件有:(1)文字字区域域包含含的边边缘信信息丰丰富,,因此此连通通区域域的象象素总总数占占连通通区域域所在在矩形形的象象素总总数的的比例例应该该大于于某个个阈值值。(2)文字字高度度不能能太小小,否否则人人眼将将无法法看清清;也也不会会太大大,应应在某某一范范围内内。(3)因为为每个个文字字区域域都是是同行行的几几个字字符粘粘连而而形成成的区区域,,所以以文字字区域域的宽宽高比比应当当大于于某一一阈值值。(4)文字字区域域中存存在一一组连连续的的,边边缘信信息相相当丰丰富的的行。。要求求这段段区域域的高高度占占文字字区域域高度度的一一定比比例,,并且且这段段区域域中的的每一一行的的白点点数目目大于于某一一阈值值。(5)如果果两个个候选选文字字区域域具有有包含含关系系或具具有大大部分分重叠叠的关关系,,则保保留面面积较较大的的区域域。按照上上述准准则,,可以以除掉掉候选选文字字区域域中的的虚假假文字字区域域,得得到了了相对对准确确的文文字区区域。。下页页的图图(e)为为文字字区域域的提提取结结果,,识别别出的的文字字区域域用红红色边边框标标出。。文字区域的的提取结果果(e)文字区域的的提取结果果目录论题意义及及其必要性性过滤原理与与实现方法法实验和结果果分析实验和结果果分析实验流程如如下图所示示:广告垃圾图图像判定条条件:主要根据文文字区域的的数量和面面积两个特特征判断图图像是否为为广告垃圾圾图像。本本实验设定定阈值th1,th2。如果图像像f的文字区域域数量大于于th1,或者文字字区域面积积占图像总总面积的比比例大于th2,则认为图图像f为广告垃圾圾图像。经经实验证明明,th1取值6,th2取值15%可以达到较较实用的效效果。文字区域提提取实验结结果广告垃圾图图像过滤实实验结果本文为做广广告垃圾图图像过滤实实验,建立立了一个图图像库,分分别由广告告垃圾图像像(39帧),普通通图像(1215帧)和纹理理图像(598帧)等三种种图像组成成,下图为为图像库取取样。广告垃圾图图像过滤实实验结果实验数据表表明,广告告垃圾图像像集合的检检出率接近近80%,大部分特特征明显的的广告垃圾圾图像都能能被检索出出来;对普普通图像的的误检率为为3.045%,控制在可可以接受的的范围内;;而由于纹纹理图像比比较特殊,,边缘信息息丰富,产产生很多疑疑似文本的的区域,对对检索造成成了较大干干扰,所以以误检率偏偏高。谢谢大家家!9、静静夜夜四四无无邻邻,,荒荒居居旧旧业业贫贫。。。。1月月-231月月-23Thursday,January5,202310、雨雨中中黄黄叶叶树树,,灯灯下下白白头头人人。。。。03:09:1403:09:1403:091/5/20233:09:14AM11、以我独沈沈久,愧君君相见频。。。1月-2303:09:1403:09Jan-2305-Jan-2312、故人江江海别,,几度隔隔山川。。。03:09:1403:09:1403:09Thursday,January5,202313、乍乍见见翻翻疑疑梦梦,,相相悲悲各各问问年年。。。。1月月-231月月-2303:09:1403:09:14January5,202314、他他乡乡生生白白发发,,旧旧国国见见青青山山。。。。05一一月月20233:09:14上上午午03:09:141月月-2315、比不不了得得就不不比,,得不不到的的就不不要。。。。一月233:09上上午午1月-2303:09January5,202316、行动动出成成果,,工作作出财财富。。。2023/1/53:09:1403:09:1405January202317、做前前,能能够环环视四四周;;做时时,你你只能能或者者最好好沿着着以脚脚为起起点的的射线线向前前。。。3:09:14上上午3:09上上午午03:09:141月-239、没有失失败,只只有暂时时停止成成功!。。1月-231月-23Thursday,January5,202310、很多事情努努力了未必有有结果,但是是不努力却什什么改变也没没有。。03:09:1403:09:1403:091/5/20233:09:14AM11、成成功功就就是是日日复复一一日日那那一一点点点点小小小小努努力力的的积积累累。。。。1月月-2303:09:1403:09Jan-2305-Jan-2312、世间成成事,不不求其绝绝对圆满满,留一一份不足足,可得得无限完完美。。。03:09:1403:09:1403:09Thursday,January5,202313、不知香积积寺,数里里入云峰。。。1月-231月-2303:09:1403:09:14January5,202314、意志坚强的的人能把世界界放在手中像像泥块一样任任意揉捏。05一月20233:09:14上午03:09:141月-2315、楚塞塞三湘湘接,,荆门门九派派通。。。。一月233:09上上午午1月-2303:09January5,202316、少年十五五二十时,,步行夺得得胡马骑。。。2023/1/53:09:1403:09:1405January202317、空山新雨雨后,天气气晚来秋。。。3:09:14上上午3:09上上午03:09:141月-239、杨柳散和风风,青山澹吾吾虑。。1月-231月-23Thursday,January5,202310、阅读一切好好书如同和过过去最杰出的的人谈话。03:09:1403:09:1403:091/5/20233:09:14AM11、越越是是没没有有本本领领的的就就越越加加自自命命不不凡凡。。1月月-2303:09:1403:09Jan-2305-Jan-2312、越是无无能的人人,越喜喜欢挑剔剔别人的的错儿。。03:09:1403:0
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 家装培训知识
- 围手术期的护理
- 桌花婚礼中的
- 小学一年级数学两位数加减一位数水平自测练习题大全附答案
- 现代殡葬技术与管理专业群课程主题互联网技术与素养
- 南瓜小房子阅读活动
- 医院新上岗人员岗前培训
- 《纺织工艺与设备上》课件
- 实验室设计规划
- 病案归档制度
- 台湾问题的由来课件
- DZ/T 0462.3-2023 矿产资源“三率”指标要求 第3部分:铁、锰、铬、钒、钛(正式版)
- 信息技术与高中英语教学融合的途径
- 组织行为学(山东联盟-青岛理工大学)智慧树知到期末考试答案2024年
- 复习一元一次方程省公开课金奖全国赛课一等奖微课获奖课件
- 《电力建设施工技术规范 第2部分:锅炉机组》DLT 5190.2
- MOOC 管理咨询-暨南大学 中国大学慕课答案
- 供水管网抢修管理课件
- 25道医院重症医学科医生岗位高频面试问题附考察点及参考回答
- 施工日志及楼工程施工日志
- 改变世界的化学智慧树知到期末考试答案2024年
评论
0/150
提交评论