第9章信息过滤与邮件过滤_第1页
第9章信息过滤与邮件过滤_第2页
第9章信息过滤与邮件过滤_第3页
第9章信息过滤与邮件过滤_第4页
第9章信息过滤与邮件过滤_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、山东师范大学信息科学与工程学院 2007-012纲要 研究背景和现状 关键技术研究 实现和结构 主要工作总结3研究背景和现状 研究背景网络跟人们的生活越来越紧密。然而网络是双面的,人们在享受网络所带来的便利的同时,不可避免地接触到大量的不良信息。 过滤网络信息,使网络用户尤其是青少年学生远离非友善信息的侵扰,使得网络环境更加纯净、美好。过滤掉用户不感兴趣的网页信息和垃圾邮件,可以节省用户的上网时间。 4研究背景和现状 研究现状 当前信息过滤的研究以trec会议为核心,主要是文本过滤 。国内有关信息过滤的研究以核心算法为主,主要集中在特征抽取、学习算法和过滤算法上。 出现了一些过滤软件,但存在较

2、多问题,过滤效果不佳。5关键技术研究 现有网络过滤技术及其存在问题 网络过滤新技术研究 6关键技术研究 现有网络过滤技术及其存在问题断开物理连接 资源有限,更新速度慢,多半是过期的网页 地址库(url)过滤 需要不断更新地址库基于关键字的页面内容过滤。 易被伪装技术突破 过滤往往矫枉过正 7关键技术研究 网络过滤新技术研究 针对内容进行过滤反馈 更新 用户 信息 及过滤 需求 用户需求文档 被描述信息 信息 用户相关信息 图2-2:信息过滤模型 (d) 学习过程 用户 (c) 用户需求信息 (b) 过滤处理 (a) 信息分析器 信息提供者 8关键技术研究 关键技术文本表示 特征选择 分类算法

3、模糊模式识别9关键技术研究 信息表示(文本表示 ) 信息过滤的主要工作是比较用户请求信息和要过滤的非法信息的匹配程度,为此,需要能够有效地表示信息空间,一般采用模型化的方法表示信息空间。 目前常用的文本表示模型有:布尔逻辑模型向量空间模型 概率推理模型潜在语义索引模型10关键技术研究 布尔逻辑模型一种相对简单的信息过滤模型。在过滤时,它以文档中是否包含特征项来作为取舍的标准。 特点是实现容易、操作方便结果非真即假,限制性过强 11关键技术研究 向量空间模型以特征项作为文本表示的基本单位,特征项构成特征项集,将文档表示为向量。 (1) 特征项jt在文档id中的权重ijw为:ijw=jijdftf

4、 (2) 文档之间的相近度通过在 m 维欧氏空间中两个向量 id=),(21imiiwww和jd=),(21jmjjwww的夹角余弦表示。 12关键技术研究 概率推理模型向量空间模型中,假设文档向量空间的基是相互正交的,没有考虑检索词间的相互关系。概率推理模型包括了检索词间的依赖关系以及主要参数,如检索词权重计算,查询与文档相似性计算,由模型自身决定。 13关键技术研究 潜在语义索引模型利用字项与文档对象之间的内在关系形成信息的语义结构。这种语义结构反映了数据间最主要的联系模式,忽略了个体文档对词的不同的使用风格。lsi向量中的值是通过svd分解得到的缩减了的值,内容相近文档的向量也是相近的。

5、 14关键技术研究 特征选择前面讨论的文本表示模型,一直假定特征向量每一维的特征都是确定的。事实上,这些特征是从文本中选择出来的,这些特征的选择是非常重要的,它强烈的影响到文本表示的准确程度,影响到后面的过滤器的设计及其性能。 主要包括分词与选择两部分。15关键技术研究 分词文本内容与文本中出现的词关系十分密切,汉语词间没有明显的标志,分词的目的就是准确的识别文本中的单词。基于字典的字符串匹配方法 基于统计的分词 基于句法与自然语言理解的方法 16关键技术研究 选择训练集中包含了大量的词汇,如果把这些词都作为特征,将带来一系列问题:首先是向量的维数太大,给计算带来了非常大的压力,存储空间大、处

6、理速度慢。其次是这些词中实际上有很大一部分是与类别无关的,对分类作用不大,甚至存在较大副作用。常用的特征选择方法有: 文档频率 信息增益 互信息 17关键技术研究 分类算法其目的为找到特征空间与类别之间的映射关系。常见方法:racchio方法k-元最近邻居(knn)方法nave bayesian方法支持向量机(svm)方法 18关键技术研究 racchio方法根据算术平均为每类文本集生成一个代表该类的中心向量,然后在新文本来到时,确定新文本向量,计算该向量与每类中心向量间的距离(相似度),最后判定文本属于与文本距离最近的类, 19关键技术研究 k-元最近邻居(knn)方法给出一个测试文档,从训

7、练文档中找出与该文档最近(用相似度度量)的k个文档,用这k个邻域文档所属的类别作为测试文档的候选类别。 20关键技术研究 nave bayesian方法是一种概率方法,它利用先验概率的联合概率计算出后验概率,并且根据样本集构造分类标准,根据测试样本的后验概率对测试样本进行分类。 21关键技术研究 支持向量机(svm)方法建立在一套较为完善的机器学习理论统计学习理论基础之上,并具有较好的泛化能力。 22关键技术研究 模糊模式识别人类为了对事物进行识别,要对事物按不同要求进行分类,因此根据这种思想可以把不同事物归于不同的种类,用于这种分类的数学工具就是经典集合论。经典集合并不能描述所有的事物,特别

8、是涉及到与人的认识有关的概念和现象。 由于模糊性更能有效的表示“有关的”、“类似”等概念,将模糊集合的概念应用到信息过滤中 。23网页过滤实现和结构 系统结构internet信息数据包捕获数据缓冲数据重组过滤识别模块应用层处理日志记录规则库学习模块用户24网页过滤实现和结构 内容过滤模块25网页过滤实现和结构 树状分类器 文档 主分类器 话题 1 话题 2 话题 n 子分类器1 支持 反对 子分类器1 支持 反对 子分类器1 支持 反对 26网页过滤实现和结构 系统流程图 27垃圾邮件过滤实现和结构28垃圾邮件过滤实现和结构提升方法(提升方法(boostingboosting)总的思想是学习一

9、系列决策行动,在这个总的思想是学习一系列决策行动,在这个序列中每个决策对它前一个决策导致的错误判断例子给予更大的序列中每个决策对它前一个决策导致的错误判断例子给予更大的重视。尤其是在学习完决策行动之后,增加了由导致判断错误的重视。尤其是在学习完决策行动之后,增加了由导致判断错误的训练例子的权重值,并且通过重新对训练例子计算权值,在学习训练例子的权重值,并且通过重新对训练例子计算权值,在学习下一个决策。这个过程重复下一个决策。这个过程重复t t次。最终的分类器从这一系列的决次。最终的分类器从这一系列的决策中综合得出。策中综合得出。朴素贝叶斯最小风险贝叶斯最小风险贝叶斯算法的提升29总结 系统主要

10、在以下几个方面进行了研究和实现: 由于传统的url过滤技术会导致网络访问速度特别慢,因而本系统高速缓存技术引入到url过滤技术中提出了一种改进的url过滤技术。传统的url过滤一般是基于静态url数据库,灵活性差,速度慢;本系统具有自主学习功能,将用户经常访问的url、关键词和语义规则保持在一个较小的范围之内,从而提高了过滤速度。将分层架构技术和模糊集理论引入到信息过滤模型中,并结合向量空间过滤模型提出了一种基于模糊集的信息过滤模型。 30总结 由于传统的基于关键字的页面内容过滤技术会导致漏判和误判,因而本系统引入语义识别模块从而在语义识别的基础上对网页信息进行过滤,并依靠多种语义的组合进行过滤,提高了信息过滤的准确性,降低了漏判、误判率。结合过滤要求与决策树理论设计的两层支持向量机技术,能够有效的识别话题,并进一步判断对该话题是支持还是反对,从而使过滤效果更精确,同时,由于支持向量机的推广性非常强,有效地解决了训练样本不足的问题。实现了一个分层过滤的高效的网络信息过滤器,首先系统将过滤级别分为低中高三级,低级仅进行url过滤,中级进行url和文本过滤,高级则进行url、文本、语义过滤。同时分层技术在流程图说明中有一个直观地介绍。 31总结 实

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论