垃圾邮件过滤之初步研究课件_第1页
垃圾邮件过滤之初步研究课件_第2页
垃圾邮件过滤之初步研究课件_第3页
垃圾邮件过滤之初步研究课件_第4页
垃圾邮件过滤之初步研究课件_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、垃圾郵件過濾之初步研究邱炫盛8/9/2022大綱垃圾郵件過濾簡介規則導向過濾機械學習導向過濾過濾模型介紹貝氏分類器潛藏語意分析隱藏式馬可夫模型實驗結論與未來展望8/9/2022Speech Lab. NTNU垃圾郵件過濾簡介:規則導向過濾規則導向過濾:事先定義好關鍵字,如果新郵件有部分符合,則認定為垃圾郵件可能遇到的問題:人工定義費時費力中文斷詞問題關鍵字定義是否明確亦可以自動學習規則:RIPPER演算法8/9/2022Speech Lab. NTNU垃圾郵件過濾簡介:機械學習導向過濾郵件過濾模型:貝氏分類器(Bayesian Classifier)潛藏語意分析(Latent Semantic

2、 Analysis, LSA)隱藏式馬可夫模型(Hidden Markov Model, HMM)本論文著重於此類型過濾提出隱藏式馬可夫模型,並與其他模型作比較效果8/9/2022Speech Lab. NTNU貝氏分類器貝氏分類器從貝氏網路簡化而來rooF: a new binary variable concerning cat making noise on the roof.CPT: Conditional Probability Table8/9/2022Speech Lab. NTNU貝氏分類器8/9/2022Speech Lab. NTNU貝氏分類器8/9/2022Speech

3、Lab. NTNU貝氏分類器w2Cw1w3wnw2Cw1w3wn簡單貝式分類器複雜貝式分類器8/9/2022Speech Lab. NTNU貝氏分類器求取新郵件d屬於某類別Ck的機率:求與求 可分成多變量伯努利事件與多項式事件模型 8/9/2022Speech Lab. NTNU貝氏分類器:多變量伯努利模型多變量伯努利模型:假設郵件d是由連續|V|次的伯努利試驗所產生郵件d是|V|維的向量,每個維度t,其值Id,t為0或1給定類別Ck產生郵件d的機率:給定類別產生詞wt的機率:I(wt,di)表示某一個詞wt是否出現在郵件郵件di8/9/2022Speech Lab. NTNU貝氏分類器:多項

4、式模型多項式模型:假設郵件d由一連串詞w組成,為多項式分布,詞w來自詞典V郵件d是|V|維的向量,每個維度t,其值nd,t為詞出現次數給定類別Ck產生郵件d的機率:給定類別產生詞wt的機率:8/9/2022Speech Lab. NTNU貝氏分類器求給定郵件d屬於哪一類Ck的機率較大的類別8/9/2022Speech Lab. NTNU潛藏語意分析潛藏語意分析:根據潛藏在文字中的語意來作郵件過濾三步驟:建立特徵矩陣、奇異值分解運算(SVD)與產生語意指標(Semantic Anchor)及文件分類 8/9/2022Speech Lab. NTNU潛藏語意分析:第一步建立特徵矩陣M矩陣M,第一行

5、向量為合法郵件向量,第二行是垃圾郵件向量,每一列表示某一個詞wt第t列第k行,其值正規化熵值:使出現相同次數的詞wt有不同的權重8/9/2022Speech Lab. NTNU潛藏語意分析:第二步奇異值分解(SVD)產生三個矩陣:U、S、V產生了兩個語意上的映射:合法郵件映射與垃圾郵件映射, 表示合法郵件, 表示垃圾郵件。 8/9/2022Speech Lab. NTNU潛藏語意分析:第三步郵件過濾:新郵件d也轉換成向量 ,與建矩陣方式相同。郵件d投影到潛藏語意空間S測量方式餘弦測量8/9/2022Speech Lab. NTNU隱藏式馬可夫模型隱藏式馬可夫模型假設類別中有屬於該類的生成模型以

6、詞為特徵:語言模型訓練三個語言模型合法郵件模型、垃圾郵件模型、通用郵件模型使用SRILM toolkit三種型態:單連、二連模型8/9/2022Speech Lab. NTNU隱藏式馬可夫模型型I:型II:型III:8/9/2022Speech Lab. NTNU實驗實驗語料:表 1 Ling-Spam郵件語料資料表類別合法郵件垃圾郵件數量2412481總詞數1,531,209439,040平均長度634.83912.77收錄時期July 17, 2000表 2 中文訓練郵件語料資料表類別合法郵件垃圾郵件數量1188430總詞數157,86174,197平均長度132.88172.55收錄時期

7、March 2005June 2005表 3 中文測試郵件語料資料表類別合法郵件垃圾郵件數量17183總詞數11,8445,174平均長度69.2662.34收錄時期April 2005July 20058/9/2022Speech Lab. NTNU實驗特徵選取:透過交互資訊(Mutual Information)選出部份詞當新的特徵 交互資訊:多變量伯努利模型:訓練語料中某類別中包含詞的郵件數除以所有類別郵件總數:某一類別的郵件數除以所有類別的郵件總數:所有類別中包含詞的郵件數除以所有類別的郵件總數。多項式模型:訓練語料中某類別中詞的詞頻數數除以兩類別總詞數:某一類別的總詞數除以所有類別總

8、詞數:所有類別中詞頻數除以有類別總詞數 8/9/2022Speech Lab. NTNU實驗實驗一:特徵數量與正確率的關係正相關8/9/2022Speech Lab. NTNU實驗實驗二:潛藏語意分析維度與正確率的關係表 4LSA維度與正確率實驗結果(使用Ling-Spam語料)合法郵件正確率(%)垃圾郵件正確率(%)整體正確率(%)d=2604, r=2585.4966.3482.31d=2604, r=10085.6668.4282.79d=2604, r=25085.7468.4282.86d=2604, r=50085.7868.4282.89d=2, r=294.3691.0793.

9、81d表示訓練郵件總數,r表示SVD的維度8/9/2022Speech Lab. NTNU實驗實驗三:隱藏式馬可夫模型三種型式與正確率的關係表 5隱藏式馬可夫模型各類型比較(使用Ling-Spam語料)合法郵件正確率(%)垃圾郵件正確率(%)整體正確率(%)型I99.4296.6898.96型II99.9697.3099.52型III99.9698.3499.698/9/2022Speech Lab. NTNU實驗實驗結果:表 6 各種模型正確率(使用Ling-Spam語料)合法郵件正確率(%)垃圾郵件正確率(%)整體正確率(%)MVB99.5064.6793.71MN99.4297.7399.14LSA94.3691.0793.81HMM99.9698.3499.698/9/2022Speech Lab. NTNU實驗實驗結果:表7 各種模型正確率(使用中文語料)合法郵件正確率(%)垃圾郵件正確率(%)整體正確率(%)MVB99.4249.4086.1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论