垃圾邮件的识别和过滤方法_第1页
垃圾邮件的识别和过滤方法_第2页
垃圾邮件的识别和过滤方法_第3页
垃圾邮件的识别和过滤方法_第4页
垃圾邮件的识别和过滤方法_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、垃圾邮件识别和过滤的方法T大炮北京理工大学计算机学院,北京 100081(1111111111)Methods for Identifying and Filtering Junk Mail or Spam T Biggun (Class 07111301,School of Computer Science, Beijing Institute of Technology, Beijing 100081) Abstract Identifying and Filtering Spam is an important research subject in computer network.

2、In this thesis, I have studied the history of spam filtering technology, which mainly includes the first generation of rule-based filtering technology, the second generation of content-based filtering technology and the third generation of behavior-based filtering technology. 1. Rule-based filtering

3、 includes IP address based filtering, mail header based filtering. 2. Content-based filtering includes Bayesian filtering, Memory-based method, decision tree, Boosting method, Support Vector Machine (SVM), etc. 3. Behavior-based filtering includes Email data stream based filtering, mail header based

4、 filtering, sender reputation based filtering, mail fingerprint based filtering, behavioral characteristics weighted based filtering, etc. The spammers common spurious methods are summarized. Through the reference to large amount of anti-spam documents and data from home and broad, an analysis is ma

5、de on existing anti-spam techniques and in particular the content-based spam filtering methods. Key words spam filtering; rule; content; text categorization; Nave Bayes; behavior 摘要 垃圾邮件识别和过滤是计算机网络领域的一个重要研究课题。垃圾邮件识别和过滤目前已经发展出了三代技术,第一代过滤技术是基于规则的,例如:基于IP地址、基于邮件头的过滤技术。第二代过滤技术是基于内容的,例如:贝叶斯分类算法、Memory-Ba

6、sed方法、决策树、Boosting方法、支持向量机等方法。第三代过滤技术是基于行为的,例如:基于邮件数据流、基于邮件头信息、基于发送方信誉、基于邮件指纹、基于行为特征加权的决策树等过滤方法。本文归纳总结了当前垃圾邮件发送者经常采用的欺骗手段和方法,并参阅国内外大量反垃圾邮件文献和数据,对已有的垃圾邮件技术作出分析和总结,尤其是对基于内容的垃圾邮件过滤方法进行了研究。关键词 垃圾邮件过滤;规则;内容;文本分类;简单贝叶斯;行为随着互联网的发展,垃圾邮件常常让人头痛不已,最新报告称美国为垃圾邮件第一大国,中国排名第三(图1)1。垃圾邮件问题如今已经成为一个社会热点,近些年来,研究人员们提出了很多

7、垃圾邮件识别和过滤的方法。这些方法的发展经历了三代,第一代过滤技术是基于规则的,例如:基于IP地址、基于邮件头的过滤技术。第二代过滤技术是基于内容的,例如:贝叶斯分类算法、Memory-Based方法、决策树、Boosting方法、支持向量机等方法。第三代过滤技术是基于行为的,例如:基于邮件数据流、基于邮件头信息、基于发送方信誉、基于邮件指纹、基于行为特征加权的决策树等过滤方法。本文归纳总结了当前垃圾邮件发送者经常采用的欺骗手段和方法,并参阅国内外大量反垃圾邮件文献和数据,对已有的垃圾邮件技术作出分析和总结,尤其是对基于内容的垃圾邮件过滤方法进行了研究。图 1 世界垃圾邮件最多国家排名Fig.

8、1 Country Ranking on Spam1 基于规则的垃圾邮件过滤1.1 基于IP地址的垃圾邮件过滤方法基于IP地址的过滤技术是目前使用最为广泛的一种过滤技术,包括基于网络的IP地址过滤技术,如BGP和路由器访问控制列表;基于主机的IP地址过滤技术,如TCP Wrappers和主机路由表的过滤;以及目前最常用的IP地址黑、白名单的过滤2。黑白名单技术基于这样的界定:白名单中的任何邮件都是合法邮件,而黑名单中的任何邮件都是垃圾邮件。故通常会收集一个黑白名单的列表,这个列表里的内容可以是电子邮件地址或邮件服务器的域名、IP地址等,收到邮件时进行实时检查,将符合黑名单的邮件放入垃圾文件夹中

9、。黑白名单一般由权威的组织提供,如中国互联网协会等。个人也可以根据需要调整自己的黑白名单。基于IP地址的过滤技术实现起来简单方便,可以应用与多个层次。但是缺点是可能会伤及无辜,因为有一些垃圾邮件是通过别人的服务器来转发的,这样就会将别人无辜的服务器给屏蔽掉。所以,黑白名单具有一定的局限性。1.2 基于邮件头的垃圾邮件过滤方法基于邮件头的过滤技术主要是使用正则表达式对邮件头进行关键字的匹配,检查发件人的信息是否符合过滤要求,根据匹配结果决定阻塞或者接收具有特定单词或短语的邮件。注意理解以下几点有助于识别含有伪造内容的信头。(1)收件人地址和发件人地址一般的MUA是从用户在SMTP的DATA命令后

10、输入的数据中提取From、To等字段的内容的,但是如果发件人的MUA不是按照这个逻辑工作,或者发件人故意让这两个字段的内容与SMTP会话时使用的MAIL FROM和RCPT TO的内容不一致时,就会发生发件人是自己的名字或者收件人不是自己的名字等情况。(2)关于Open Relay如果发件人使用的不是自己的服务器,而是使用别人的服务器的Open Relay的漏洞,这样就会给追踪邮件的真实来源带来困难。如果一个邮件服务器和发件人、收件人都不属于同一个域,就应该怀疑是否使用了Open Relay。(3)Received信息邮件头中的Received信息是由SMTP服务器自动加入的,发送者无法干预,

11、因此,通过比较Received域,特别是第一次经过的邮件服务器的Received域,可以识别出伪造的发件人地址。但是,规则匹配的方法也有不妥之处,其缺点是规则是人工指定的,需要花费时间和精力去收集信息,更新信息,这无疑是一项持久繁琐的工作。2 基于内容的垃圾邮件过滤由于上述基于规则的过滤方法的缺陷,故发展出一套新的方法:基于内容的垃圾邮件过滤方法。对电子邮件的内容(如正文)进行分析,识别出垃圾邮件。这就将垃圾邮件过滤和文本分类和信息过滤联系起来了,将文本分类和信息过滤中常用的方法引入垃圾邮件过滤任务中。这种内容过滤技术提供了更为准确的邮件过滤方法,可以自动获取垃圾邮件的特征,并即时捕捉到垃圾邮

12、件特征的变化3。2.1 垃圾邮件过滤与文本分类文本分类的首要任务是根据预先确定好的类别体系,将待分类文本分到对应的类别中去,具体来说,就是将邮件分为合法邮件和垃圾邮件。我们可以将电子邮件经过处理获取其正文的文本内容,利用文本分类的算法识别垃圾邮件。但是垃圾邮件分类与一般的文本分类也有很多不同之处。主要有:(1)对文本分类,每个类别的内容一般不会经常改变。比如说,一个文本属于科技类,将来也还会属于科技类。而垃圾邮件的类别是跟用户的个性化需求相关的,用户对于垃圾邮件的判别可能会随着时间的推移而改变的。同时,垃圾邮件的形式和内容也在不断地变化,因此垃圾邮件过滤中要向用户提供自学习、反馈的机制,以便适

13、应新情况。(2)无论对于邮件服务器还是对用户客户端,垃圾邮件过滤对时效性的要求比较高,因此要求必须采用高效的分类算法。(3)在垃圾邮件过滤中我们最不愿看到的就是将合法邮件误判为垃圾邮件,这就要求过滤算法具有较高的准确率。2.2 垃圾邮件过滤与信息过滤信息过滤(Information Filtering)是从动态的信息流中找出与用户兴趣需求相关的信息的过程4。以文本过滤为例,将新到达的文档与用户的兴趣相匹配,把系统认为与用户相关的文档推送给用户,用户给予反馈,说明被推送的文档中有哪些是他感兴趣的,哪些是不感兴趣的。系统从反馈中自动更新用户的兴趣。文本分类可以看做是一个反馈学习的二值分类问题。信息

14、过滤系统的一般组成为图2所示。图 2 信息过滤系统Fig.2 Information filtering System可以认为垃圾邮件内容过滤是这样的一个信息过滤问题:初始时,提供一定的垃圾邮件和非垃圾邮件给过滤系统学习,得到过滤模型;过滤的信息源是动态的邮件流;用户可以指定自己的垃圾邮件集和非垃圾邮件,供系统反馈学习,建立新的过滤模型。2.3 文本分类简介文本分类的任务是:在给定的类别体系下,根据文本的内容,将其自动映射到指定的类别中去。类别体系一般由人工按照应用需求构造。基于内容的文本分类需要指导,即一定数量的已分类好的训练文本或者实例,分类系统从训练文本中获取必要的信息,构造分类器。因此

15、文本分类一般都由训练过程和分类过程两阶段构成(图 3)。文本分类技术的应用很广泛,如新闻网页的分类、电子图书的分类等等。图 3 文本分类器的一般模型Fig.3 Model of Text Categorization在文本处理领域,通常采用向量空间模型(VSM,Vector Space Model)表示文本,一篇文本可以表示为一个维文本向量(w1,w2,wn),其中,wi(i=1,2,n)表示第i个特征项的权重,n是特征项的个数,特征项可以是字、词、短语或某种概念,本文中采用词作为特征项。权重有多种计算方法,最简单的是布尔权重,即权重为 1(该特征项在文本中出现)或者 0(该特征项没有在文本中

16、出现)。更通常的情况下,VSM中的权重计算采用词频(TF,Term Frequency,表示该特征词在文本中出现的次数)和文档频次(DF,Document Frequency,表示出现该特征词的文档数量)的某种组合。解决了文本表示问题之后,我们可以将文本分类抽象为一般的描述:设类别总数为|C|,cj表示第jj=1,2,|C|类,提供给分类器的训练集(训练集中的文本都已经过人工分类)包含|D|篇文本,特征空间(t1,t2,tn),n为特征数量,每篇文本表示成di=(wi1,wi2,win),i=1,2,|D|。一篇待分类文本泛化表示为dx=(wx1,wx2,wxn),任务是将dx分到相应的类别中

17、去。2.4 特征选择方法训练集中包含了大量的词汇,如果把这些词都作为特征,将带来一系列问题。首先是向量的维数太大,给计算带来了非常大的压力,存储空间大、处理速度慢。其次是这些词中实际上有很大一部分是与类别无关的,对分类作用不大。因此,我们要降低向量的维数,选择那些有代表意义的词作为特征。先对文本进行预处理,去掉那些常用的对分类用处不大的词(称为停用词,stop word),然后采用某种特征选择方法对所有的词排序,选出排在前面的一定数量的词作为特征。常用的特征选择方法有5:2.4.1 文档频次文档频次(DF)是出现特征项的文档数量。通常认为DF太小的词没有代表性,而DF太大的词又没有区分度,所以

18、基于DF的特征选择方法只留下那些DF介于中间的词作为特征。2.4.2 互信息互信息即Mutual Information,简称 MI,定义如下:MIt=i=1|C|P(ci)logP(t|ci)P(t) Pci表示第i类文本在训练文本集合中出现的概率,P(t) 表示t在训练集合中出现的概率,P(t|ci)表示在第i类文本中t的出现概率。MI越大,词和类的共现程度越大。2.4.3 信息增益信息增益即 Information Gain,简称 IG,定义如下:IGt=-i=1CPcilogPci+Pti=1CPcitlogPcit+Pti=1|C|P(ci|t)logP(ci|t)IGt反映了该词为

19、整个分类所提供的信息量。上式中,Pt表示词t不出现的概率,Pcit表示词t出现的情况下文本属于ci类的概率,P(ci|t)表示词t不出现的情况下文本属于ci类的概率,下面的公式中相应变量的含义与此相同。2.4.4 2统计量2t,ci=N(AD-BC)2(A+C)(B+D)(A+B)(C+D)2avgt=i=1CP(ci)2t,ciA、B、C、D均表示文本数量,如表1所示,N=A+B+C+D。表1 文本种类划分Table 1 Division on Text Categorizationci类文本集合非ci类文本集合t出现ABt不出现CD 2统计量度量词和类别独立性的缺乏程度,2越大,独立性越小

20、,相关性越大。avg2表示对所有类别求平均的2统计量。2.4.5 相对熵CEt=i=1|C|P(ci|t)logP(ci|t)P(ci)也称为 KL 距离(Kullback-Leibler divergence),反映了文本类别的概率分布和在出现了某个词的条件下文本类别的概率分布之间的距离,该值越大,词对文本类别分布的影响也大。2.4.6 优势率即 Odds Ratio,用于二类分类问题:ORt=logP(t|c1)(1-P(t|c0)(1-P(t|c1)P(t|c0)2.5 垃圾邮件内容过滤中应用的文本分类方法以下介绍已经应用于垃圾邮件内容过滤的一些算法。多种分类方法和机器学习理论都可以应用

21、于垃圾邮件过滤6,包括贝叶斯分类器(Bayesian Classifiers)、Memory-Based方法、决策树(Decision Trees)、Boosting方法、支持向量机(Support Vector Machine,SVM)等等。2.5.1 贝叶斯分类算法贝叶斯分类器是一类常用的分类器,最基本的形式是简单贝叶斯(Nave Bayes,也称为朴素贝叶斯)分类器。其原理是计算文本dx属于某个类别的概率P(cj|dx),将文本分配到概率最大的类别中去。计算P(cj|dx)的时候,利用了贝叶斯公式:P(cj|dx)=P(cj)P(dx|cj)P(dx)P(cj)是类的先验概率,P(dx|

22、cj)是类条件概率。对同一篇文本,P(dx)不变,设dx表示为特征集合(t1,t2,tn),n为特征个数,假设特征之间相互独立,则有:Pdxcj=Pt1cj*Pt2cj*Ptncj=i=1nPticjP(cj)和Pticj都可以利用训练集估计。简单贝叶斯分类器是垃圾邮件内容过滤中广泛应用的文本分类方法78。利用这种方法,可以根据训练集自动训练,训练的结果反映了训练集的性质。因此邮件用户可以提供一定数量的垃圾邮件和非垃圾邮件,训练自己的垃圾邮件过滤器,从而反映用户自己的个性需求。Sahami 等人提出了一种多特征融合的贝叶斯过滤方法。特征选择时,一般是从训练集中提取一定数量的词汇作为特征,而他们

23、除了选择词汇特征之外,还将一些“非文本”的特征加入到特征空间中,如邮件标题中包含特定的短语“free、only $、be over 18、”以及邮件发送者的域名信息等等。加入这些特征后,与词汇特征一起处理,应用贝叶斯分类算法。2.5.2 Memory-Based方法Memory Based 也叫 Instanced Based,是基于实例的方法。我们以 k 近邻(kNN,k-Nearest Neighbor)方法为例说明这种方法的基本原理。k 近邻是 Memory-Based 的一种,它直接利用训练集分类:计算待分类文本与每一篇训练文本的距离,找出最相近(最相似)的 k 篇文本,然后根据文本所

24、属类别划分这 k 篇文本,将待分类文本分到包含文本数最多的那一类中去。计算文本之间的相似度有多种方法,最常用的就是计算两个文本向量之间的夹角余弦值。 Androutsopoulos 等人将 Memory Based 方法应用在垃圾邮件过滤上8,取得了较好的结果。2.5.3 决策树决策树(Decision Tree)方法的实质是从训练集中学习得到以决策树的形式表示的分类规则。分类时,将待分类的文本按照属性值自树根向下逐步比较判断,到叶子结点时,就可以确定文本所属类别。 一棵最简单的决策树结构如图4所示。树的内部结点表示属性或者属性的集合,分支上的权值表示属性的取值,叶子结点是类别。图中,实例空间

25、分为三类:1、2 和 3,如,当属性 A 的取值为 a2,属性 B 的取值为 b2,属性 C 的取值为 c1 时,属于类别 1。决策树实际上就是一系列规则的形式化表示,如“如果属性 A 取值为 a2,属性 B 取值为 b2,属性 C 取值为 c1,则属于类别 1”。训练的过程就是从样本中学习决策树或者说是学习规则,分类的时候就是沿着决策树往下走到叶子,找到类别归属。图 4 决策树Fig.4 Decision Tree2.5.4 Boosting方法先介绍两个概念:定义“强规则(或强假设)”为准确率很高的分类规则(或假设),“弱规则(或弱假设)”为准确率不高,仅比随机猜测略好的分类规则(或假设)

26、。最简单的弱假设 h(x)可以这样定义:hx=+1,如果x满足某个断言p-1,x不满足p 弱规则比较好寻找,而强规则较难。一个很自然的想法就是通过一定的训练方法逐步将一系列弱规则集合提升为强规则,这就是 Boosting 方法的由来。Boosting 方法的基本思想是:给每个训练样本都赋予一个权重,进行 T 次迭代,每次迭代后,对分类错误的样本加大权重,使得下一次的迭代更加关注这些样本。Boosting 方法有多种形式,如AdaBoost、AdaBoost.M1、AdaBoost.MH 等。下面以 AdaBoost 为例介绍 Boosting 方法。 考虑某个类别(对于多个类别,可以训练出多个

27、分类器),将训练集表示为S=X1,Y1,X2,Y2,XN,YN,其中,Xi(i=1,2,N)是文本表示,N是训练集中的样本数量Yi=1表示Xi属于某个类别,等于0表示不属于这个类别。AdaBoost学习算法描述如图5所示:Boosting开始时,每个样本的权重都初始化为1/N。每一步t中,使用弱规则对样本的类别作出预测,计算错误率t和弱规则的权重系数t,然后分别更新预测正确和错误的样本权重。Zt是标准化变量,使样本的权重和为 1。T为Boosting的次数。最后,输出分类规则H。图中,规则H是各个弱规则的线性组合的符号函数。图 5 AdaBoost学习算法Fig.5 AdaBoost Algo

28、rithm2.5.5 支持向量机支持向量机(Support Vector Machine,简称 SVM,也叫做支撑向量机)是在二十世纪 90 年代以来发展起来的一种统计学习方法,在解决小样本学习、非线性及高维模式识别问题中表现较好。如图6所示,图中的实心点和空心点分别表示两类的训练样本,考虑线性可分的情况,即通过一条直线H可以把两个类别无错误的分开,H1和H2分别为过各类样本中离分类线最近的点且平行于分类线H的直线,H1和H2之间的距离叫做两类的分类空隙或分类间隔(margin)。最优分类线定义为:该分类线不但能将两类样本分开,而且要使两类的分类间隔最大。直线H1、H2上的训练样本叫做支持向量

29、(Support Vectors),因为它们支撑了最优分类面。图5中的分类线H是最优分类线。推广到高维空间,最优分类线就成为最优分类面。图 6 最优分类面Fig.6 Optimal Separating Plane对于线性不可分的情形,可以构造一个变换,将问题转换到一个新的空间,在这个新空间中线性可分。支持向量机的基本思想可以概括为:首先将输入空间变换到一个新空间,然后在这个新空间中求取最优线性分类面。Drucker、Androutsopoulos 等人在垃圾邮件过滤中使用支持向量机方法9。3 基于行为的垃圾邮件过滤行为模式是指程序执行或者用户操作过程中体现出的某种规律,行为模式通常反映出用户

30、的身份和习惯10。行为识别技术根据邮件发送过程中表现出来的行为特征来判断邮件是合法邮件还是垃圾邮件。行为模式识别能在邮件传输代理阶段,针对垃圾邮件在通信过程中表现出来的特征在其投放到邮件发送队列之前进行判断和处理,如“频繁发送、动态IP、Received域与发件人域不相同”等,这些特征都是垃圾邮件表现出来的行为特征。行为模式识别不需要对整个邮件内容进行判断,只需要在邮件传输阶段进行检测,这大大提高了服务器过滤垃圾邮件的速度,减小网络负荷和流量,同时也不会解析用户的邮件,对用户的隐私起到了很好的保护作用11。目前基于行为识别模式的垃圾邮件过滤已经成为垃圾邮件过滤技术领域的主要研究方向,国内外针对

31、垃圾邮件的行为识别技术已有较多的研究与应用。下面简要介绍几种方案:3.1 基于邮件数据流的过滤方法恶意邮件跟踪系统是一款由哥伦比亚大学研发的基于行为识别的电子邮件系统12。该系统通过对用户的邮件数据流和发送接收行为建立模型,使用模型来检测异常电子邮件行为,包括垃圾邮件和传播病毒的电子邮件行为。每封邮件的附件均会由系统生产一个唯一标识符,如果某个标识符所代表的的附件被判定为垃圾邮件属性,其相对应的行为信息将被系统记录。整套系统由一个运行在邮件服务器的客户端和一个运行在中央服务器的服务器端组成,客户端记录邮件附件的行为信息及其数据流,服务器端分析由客户端上传的数据。3.2 基于邮件头信息的过滤方法

32、目前采用提取电子邮件头信息,然后分析其每个字段特征来识别垃圾邮件,根据各个字段之间关系来判断邮件分类的方法很多。例如张耀龙13采用决策树算法生成垃圾邮件决策树判定模型来识别垃圾邮件,主要是提取发件人域名、IP、各个字段之间的对应关系来生成一定的规则并建立决策树模型进行判断,但其对于连续值的处理效果并不好,而且其未考虑各个属性的权重问题。张尼14等人提出了一种基于地理路径分析的识别方法,该方法通过分析邮件头中的Received字段来跟踪邮件的传输路径,并根据实际的物理邮件服务器的拓扑结构来分析识别垃圾邮件,这种方法只能适用在大型的主干网络上才可行。还有人提出基于SMTP路径分析方法,通过提取邮件

33、头Received字段中邮件服务器的IP地址,根据从该地址收到的垃圾邮件和合法邮件来建立邮件服务器的信誉,并根据邮件服务器的信誉来判断被测邮件为垃圾邮件的概率,如果大于某个阈值,则可以认定该封邮件为垃圾邮件。3.3 基于发送方信誉的过滤方法可以根据分析对象分为15:基于发送方IP信誉的识别方法、基于发送方域名信誉的识别方法以及基于邮件指纹信誉的识别方法。其中,基于发送方IP或者域名信誉的方法存在一定的缺陷,因为垃圾邮件的发送者通过伪造发送IP和域名,或者其采用动态IP,使得正常的邮件服务器信誉降低,造成正常邮件服务器的邮件甚至无法发出。3.4 基于邮件指纹的过滤方法基于邮件指纹的过滤方法相比之

34、下则没有以上问题,而且对于群发垃圾邮件具有很好的过滤效果。其原理是通过采用哈希函数,对每封邮件产生其自身唯一的指纹,相同的或者相似的邮件将会产生相同的指纹,一旦判断某封邮件为垃圾邮件,与其相同或者相似的邮件将会被判断为垃圾邮件。文献16中提出了基于浅层和深层行为解析两种行为解析方法,浅层行为解析把邮件通信行为理解为现实世界中的人际关系网络,从所建立的网络模型中提取用户关系群组,然后把这些用户关系群组用于群发邮件过滤。深层行为解析即将基于行为的过滤技术和基于内容的过滤技术结合,使用SMTP会话过程中的命令,MUA的指纹信誉同时结合头信息进行邮件分类。3.5 基于行为特征加权的决策树过滤方法基于行

35、为特征加权的决策树过滤算法的思想为:针对大量的垃圾邮件所表现出来的行为特征,选取出一系列的行为特征,采用主成分分析法选取其中具有代表性的特征,然后选取等量的正常邮件和垃圾邮件,根据统计的方法分别计算某一特征对正常邮件和垃圾邮件的贡献率,作为其权值,采用决策树算法生成判别决策树,使用大量的已知属性的邮件样例测试决策树,分别得到正常邮件和垃圾邮件的加权平均权值,作为垃圾邮件和正常邮件的判断阈值。如果邮件的路径权值小于垃圾邮件阈值,则判定为垃圾邮件;如果大于正常邮件阈值,则该邮件被判断为正常邮件;介于二者之间则使用决策树算法判断。4 结束语随着Internet的普及,电子邮件由于其具有方便、快捷、低

36、成本的优点逐渐成为现代社会主要的网络通信方式之一。但近年来,垃圾邮件的日趋泛滥给电子邮件系统和用户带来了严重的危害甚至损失。垃圾邮件的传播不仅浪费网络资源,造成邮件服务器负荷增大,而且也成为有害信息和病毒传播的重要途径。为了保护邮件系统的正常运行和邮箱用户的利益,必须使邮件系统具有反垃圾邮件的能力。面对目前反垃圾邮件的严峻形势,研究高性能的反垃圾邮件模型已经成为迫切的形势要求和计算机工作者义不容辞的责任。本文通过简要介绍三代垃圾邮件识别和过滤方法,展示了目前国内外一些研究人员的研究成果,我通过查阅资料对垃圾邮件识别和过滤技术有了一些粗浅的认识,这对我今后的学习生活意义重大。参 考 文 献1 黄

37、蓉. 最新报告称美国是垃圾邮件第一大国中国排第三EB/OL. 2014-07-25.2 曹麒麟, 张千里. 垃圾邮件与反垃圾邮件技术M. 北京: 人民邮电出版社, 2003.3 潘文锋. 基于内容的垃圾邮件过滤研究D. 中国科学院研究生院(计算技术研究所), 2004.4 Douglas W Oard, Gary Marchionini. A Conceptual Framework for Text Filtering. CAR-TR-830 CLIS-TR-96-02 CS-TR-3643 EE-TR-96-25, May, 1996.5 Yang Yiming, Pederson J O

38、. A Comparative Study on Feature Selection in Text CategorizationA. Proceedings of the 14th International Conference on Machine learningC. Nashville: Morgan Kaufmann, 412-420, 1997.6 I. Androutsopoulos, G. Paliouras, E. Michelakis. Learning to Filter Unsolicited Commercial E-Mail. Technical report 2004/2, NCSR Demokritos, 200

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论