




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
一种基于内容的广告垃圾图像过滤方法目录论题意义及其必要性过滤原理与实现方法实验和结果分析论题意义及其必要性垃圾邮件问题日益严重:
2005年7月,中国互联网络信息中心(CNNIC)发布的《第十六次中国互联网发展状况统计报告》显示,中国网民平均每周收到14.5封电子邮件,其中垃圾邮件占了9.3封,垃圾邮件数量已经大大超过了正常邮件数量。
基于文本过滤方法的局限性:第一
、基于文本的过滤受到文本语言种类的限制;第二、垃圾邮件发送者(spamer)经常使用各种各样的骗术来迷惑基于文本的垃圾邮件过滤器,比如将文字页面转换为图像;有数据显示,包含图像的垃圾邮件占所有垃圾邮件的25%。可见,这种欺骗手段已经被垃圾邮件制作者们频繁利用,如果没有找到可行的解决办法,这个数字还会上升。第三、随着因特网的范围和容量不断增长,邮件包含越来越多的多媒体信息。一些广告垃圾图片的示例目录论题意义及其必要性过滤原理与实现方法实验和结果分析过滤的原理任何广告都需要用文字来传播某种信息。也就是说,广告垃圾图像的文字区域特征具有普遍性。本文正是利用广告垃圾图像的文字区域特征来进行广告垃圾图像过滤。
基本步骤:
1.提取图像的边缘信息,并把边缘信息做二值化处理;
2.将二值化边缘图像进行膨胀处理,使相邻的字符连通起来,并把膨胀处理后的所有连通区域作为候选文字区域记录下来;
3.利用文字区域的特征从候选文字区域中筛选出正确的文字区域;
4.根据得到的文字区域的数量和面积等特征对图像进行分类,把广告垃圾图像和合法图像区分开来。
彩色边缘提取由于广告图像中的文本与背景有较强的对比度,表现为在文本与背景的交界处,存在十分明显的高频区域,因此可以用提取边缘的方法来大致估计出文本可能存在的区域。由于广告垃圾图像大多为彩色图像,所以本文采用张引等提出的彩色图像边缘提取算子来提取边缘,利用彩色三分量的彩色边缘提取算法,充分利用了全面的色彩信息,效果优于传统的灰度边缘提取算法。
边缘提取的具体做法如下:已知输入图像f的RGB值,其中象素(i,j)的RGB分量分别为R(i,j),G(i,j),B(i,j)。要计算图像f的边缘图像Edge。
Eud(i1,j1;i2,j2)定义为像素点(i1,j1)与(i2,j2)之间的彩色值欧氏距离。
原图与边缘图像(a)原图(b)边缘图像边缘图像二值化阈值选取方法:首先计算边缘图像Edge的归一化灰度直方图h(i):
其中,ni是图像Edge中灰度值为i的象素的个数,N是图像象素总数。因为文字区域边缘十分明显,所以本文认为文字区域边缘的灰度级一般比较高。于是需要找到一个灰度级k作为阈值,把灰度大于k的边缘象素点保留,灰度小于k的边缘象素点忽略。令;eh(k)表示保留的边缘象素数占图像总象素数的比例;找到一个尽可能大的灰度级k使得eh(k)大于阈值TH1;如果此时k小于下限TH2,则把TH2作为二值化的阈值,否则把k作为二值化的阈值。在实验中,我们取TH1=0.2,TH2=120(认为文字区域边缘的灰度级不应低于120)。二值化边缘图像
(c)二值化边缘图像候选文本区域提取从二值边缘图像中可以看出,由于文字的分布比较集中,所以文字附近的边缘比较丰富,而且属于同一文字区域的文字边缘具有较小的距离。对于水平方向的文本行来说,可以用水平膨胀的方法将相邻的边缘连起来,形成连通的区域,从而在空间位置上将可能含有文本的区域检测出来。
膨胀方法:设f为二值图像,B为结构元素,二值形态和(膨胀)定义如下:
其中表示以(x,y)为原点,形状与结构元素B相同的区域。膨胀运算具有扩大图像的作用,膨胀可以看作是将图像f中的每一个点(x,y)扩大为。
本文使用的结构元素B是一条N个象素的水平线段。其中N由图像的宽度决定,因为较宽的图像里的文字的横向间隔也会较宽。本文中取N=imageWidth/250+1;其中imageWidth为图像宽度。把膨胀操作后所得的连通区域所在的最小的矩形区域记录为候选的文字区域。
膨胀边缘图像(d)膨胀边缘图像文本区域筛选本文根据文字区域的视觉特征定义了若干约束条件,满足所有约束条件的候选文字区域被认为是文字区域。本文中使用的约束条件有:
(1)文字区域包含的边缘信息丰富,因此连通区域的象素总数占连通区域所在矩形的象素总数的比例应该大于某个阈值。(2)文字高度不能太小,否则人眼将无法看清;也不会太大,应在某一范围内。(3)因为每个文字区域都是同行的几个字符粘连而形成的区域,所以文字区域的宽高比应当大于某一阈值。(4)文字区域中存在一组连续的,边缘信息相当丰富的行。要求这段区域的高度占文字区域高度的一定比例,并且这段区域中的每一行的白点数目大于某一阈值。(5)如果两个候选文字区域具有包含关系或具有大部分重叠的关系,则保留面积较大的区域。按照上述准则,可以除掉候选文字区域中的虚假文字区域,得到了相对准确的文字区域。下页的图(e)为文字区域的提取结果,识别出的文字区域用红色边框标出。
文字区域的提取结果(e)文字区域的提取结果目录论题意义及其必要性过滤原理与实现方法实验和结果分析实验和结果分析实验流程如下图所示:广告垃圾图像判定条件:主要根据文字区域的数量和面积两个特征判断图像是否为广告垃圾图像。本实验设定阈值th1,th2。如果图像f的文字区域数量大于th1,或者文字区域面积占图像总面积的比例大于th2,则认为图像f为广告垃圾图像。经实验证明,th1取值6,th2取值15%可以达到较实用的效果。
文字区域提取实验结果广告垃圾图像过滤实验结果本文为做广告垃圾图像过滤实验,建立了一个图像库,分别由广告垃圾图像(39帧),普通图像(1215帧)和纹理图像(598帧)等三种图像组成,下图为图像库取样。
广告垃圾图像过滤实验结果实验数据表明,广告垃圾图像集合的检出率接近80%,大部分特征明显的广告垃圾图像都能被检索出来;对普通图像的误检率为3.045%,控制在可以接受的范围内;而由于纹理图像比较特殊,边缘信息丰富,产生很多疑似文本的区域,对检索造成了较大干扰,所以误检率偏高。
谢谢大家!9、春去春又回,新桃换旧符。在那桃花盛开的地方,在这醉人芬芳的季节,愿你生活像春天一样阳光,心情像桃花一样美丽,日子像桃子一样甜蜜。3月-253月-25Wednesday,March19,202510、人的志向通常和他们的能力成正比例。17:23:0417:23:0417:233/19/20255:23:04PM11、夫学须志也,才须学也,非学无以广才,非志无以成学。3月-2517:23:0417:23Mar-2519-Mar-2512、越是无能的人,越喜欢挑剔别人的错儿。17:23:0417:23:0417:23Wednesday,March19,202513、志不立,天下无可成之事。3月-253月-2517:23:0417:23:04March19,202514、ThankyouverymuchfortakingmewithyouonthatsplendidoutingtoLondon.ItwasthefirsttimethatIhadseentheToweroranyoftheotherfamoussights.IfI'dgonealone,Icouldn'thaveseennearlyasmuch,becauseIwouldn'thaveknownmywayabout.。19三月20255:23:04下午17:23:043月-2515、会当凌绝顶,一览众山小
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2017建设工程合同范本
- 新员工GMP基础知识培训课件
- 加工车间合同范例
- 医药试剂购销合同范例
- 2014施工合同范例
- 单位汽车购车合同范例
- 卫浴供货安装合同范本
- 包装授权合同范例
- 券商发债业务合同范例
- 上料合同范例
- 儿童节约用水你我同行3月22日世界水日主题班会PPT
- YC/T 478-2013烟草商业企业卷烟物流配送中心安全管理规范
- GB/T 24456-2009高密度聚乙烯硅芯管
- GB 6222-2005工业企业煤气安全规程
- 幼儿园惊蛰来了课件
- 转包违法分包等违法行为认定查处管理办法讲座课件
- PLM解决方案与NX培训教材课件
- 部编版六年级下册道德与法治全册优秀课件
- 【精选】方剂学解表剂练习题
- 法制宣传教育小报
- 上海西郊国际农产品展示直销中心贵州馆入驻方案
评论
0/150
提交评论