一个中文文本自动分类数学模型_第1页
一个中文文本自动分类数学模型_第2页
一个中文文本自动分类数学模型_第3页
一个中文文本自动分类数学模型_第4页
一个中文文本自动分类数学模型_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、一個中文文本自動分類數學模型w文本自動分類w數學模型n向量空間的數學表達n數學模型n目標空間的相關質量w實驗結果文本自動分類Automatic Text Categorization 何謂文本自動分類:n用電腦對文本集(或其他實體或物件)按照一定的分類體系或標準進行自動分類標記n基於分類體系的自動分類n基於資訊過濾和用戶興趣(Profiles)的自動分類文本自動分類基於分類體系的自動分類n所謂分類體系就是針對詞的統計來分類針對詞的統計來分類n關鍵字分類,現在的全文檢索n詞的正確切分不易分辨(白癡造句法)基於資訊過濾和用戶興趣的自動分類n學習人類對文本分類的知識和策略 n從人對文本和類別之間相關

2、性判斷來學習文件用字和標記類別之間的關聯 數學模型-向量空間的數學表達用兩個向量空間來定義和解決以來源辭彙到目標辭彙的轉換 來源向量空間:空間維數(向量維數)爲訓練集合中所有出現的字的個數或經過篩選後的漢字個數,向量的特徵用字權值表示(加權方式稍後定義)。目標向量空間:以類別個數作爲目標向量空間的維數,用類別標識作爲向量的特徵。數學模型-向量空間的數學表達方式1:二進位加權(Binary Weight) 方式2:文本頻率權值(The Within Document Word Frequency,TF) aij=Tfij=在第i個文本中第j個字的出現頻數數學模型-向量空間的數學表達方式3:逆文件

3、頻率權值(Inverse Document Frequency,IDF) aij=IDFj=log(文本集中的文本數/出現第j個字的文本數)+1方式4:組合加權方式:方式2和方式3的組合(TFIDF)即: aij=TFijIDFj 數學模型-向量空間的數學表達範例訓練集中有4篇文本共有6個字出現(市,和,計,算,法,教)共分教育、經貿、法律、電腦4個類別。數學模型-向量空間的數學表達文本1: 市和計算 類別集合1=c3,c4文本2: 市和計算法 類別集合2=c2,c3,c4文本3: 教和計算法 類別集合3=c1,c4文本4: 教和市 類別集合4=c1,c3數學模型-向量空間的數學表達漢字權值(

4、)類別教5.0C1:教育和1.0C2:法律計8.1C3:經貿算4.9C4:電腦市4.2法3.1數學模型-向量空間的數學表達矩陣A採用TFIDF加權方式,矩陣B採用二進位加權方式矩陣矩陣數學模型-LLSF數學模型定義1:線性回歸:EY=0+1x1+pxp+e稱爲線性回歸。其中Y爲回應變數,Xi,i=1,2,p爲回歸因數,0,p爲待估計的未知參數,e爲隨機誤差。數學模型-LLSF數學模型定義2LLSF問題:對於線性模型B=FA+e,求得LS估計F,使得殘差平方和最小:用圖1給出的矩陣A和B計算出LLSF解Flxn如下它是字-類別關聯矩陣,它的列是來源空間的漢字,行是目標空間的類別數學模型-目標空間的相關性質量定義3類別向量c和文本向量x的相關值是c和y的余弦值。對任意一篇文本,相關函數值給出了此文本同每一類別之間的相關性度量,相關值在-1到1之間取值,相關值最高的類相關值最高的類別被認爲是文本可能歸屬的類別別被認爲是文本可能歸屬的類別。實驗結果通過從1990年人民日報和1994年電腦世界報選出的電腦、經貿、政治、教育、法

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论