贝氏机率分类演算法_第1页
贝氏机率分类演算法_第2页
贝氏机率分类演算法_第3页
贝氏机率分类演算法_第4页
贝氏机率分类演算法_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、貝氏機率分類演算法Microsoft 貝氏機率分類演算法是 Microsoft SQL Server Analysis Services 所提供用於預測模型的分類演算法。貝氏 (Naive Bayes) 這個名稱源自此演算法使用貝氏定理但卻沒有考量可能存在的相依性,因此其假設被視為Naive(亦即天真之意)。此演算法比其他 Microsoft 演算法更少計算,因此對於快速產生採礦模型來探索輸入資料行和可預測資料行之間的關聯性很有用。您可以使用此演算法來執行資料的初始瀏覽,然後您可以套用其結果,以其他更多計算和更精確的演算法來建立其他採礦模型。演算法的運作方式 在提供了可預測資料行的每一個可能狀

2、態之後,Microsoft 貝氏機率分類演算法可計算出每一個輸入資料行的每一個狀態的機率。您可以使用 Business Intelligence Development Studio 中的 Microsoft 貝氏機率分類檢視器,來查看演算法如何散發狀態的視覺表示法。在提供了可預測資料行的每一個狀態之後,Microsoft 貝氏機率分類檢視器可列出資料集內的每一個輸入資料行,並顯示如何散發每一個資料行的狀態。您可以使用此檢視來識別在區分可預測資料行的狀態時很重要的輸入資料行。例如,在此處所顯示的 Commute Distance 資料行中,如果客戶與工作地點的通勤距離是 1 到 2 英里,則其

3、購買腳踏車的機率是 0.387,而不購買腳踏車的機率是 0.287。在此範例中,演算法會使用從客戶特性中衍生的數值資訊 (例如通勤距離),來預測客戶是否會購買腳踏車。如需有關使用 Microsoft 貝氏機率分類檢視器的詳細資訊,請參閱以 Microsoft 貝氏機率分類檢視器檢視採礦模型。貝氏機率分類模型所需的資料 當您準備資料以供貝氏機率分類模型定型使用時,應該要瞭解特定演算法的需求,包括所需的資料量及資料的使用方式等。貝氏機率分類模型的需求如下:· 單一索引鍵資料行:每個模型都必須包含一個能唯一識別每一筆記錄的數值或文字資料行。不允許複合的索引鍵。· 輸入資料行:在貝

4、氏機率分類模型中,所有的資料行都必須是離散或離散化的資料行。如需有關分隔資料行的資訊,請參閱分隔方法 (資料採礦)。對貝氏機率分類模型而言,確保輸入屬性彼此無關很重要。· 至少有一個可預期的資料行:可預期的屬性必須包含離散或離散化的值。可預期資料行的值可以也經常當做輸入,可用來找出資料行之間的關聯性。貝氏網在教育上的應用傳統用在教育心測驗的方法是試題反應(item response theory, IRT),其是將學生的資訊用單一變模式化。應用在學生的等第分,這模型是適合的;但是如需要測驗出有關學生多的資訊就有問題貝氏網在教育域中,最早是Millan et al 使用貝氏網建構電腦化

5、適性測驗,Millan et al 用貝氏網針對多個變進推、預測。另外Almondet al.也應用貝氏網條件機的特性於教育測驗統計中。Almod 和Mislevy 提出使用圖形模式的電腦化適性測驗(CAT),他們的模式是由一個學生模式和個證據模式所組成。一個測驗的設計者,要具體指定測驗技能Y= Y1,.,YK和問題庫X = X1,.,Xm,並藉由y= y1,., yk表示Yi 的態。其中學生模式用描述學生的技能、能迷失概之間的關係。換言之,學生的知藉由貝氏網的應用,能將其合機分布加以表示出以供用。Vomlel 於2004 所發表貝氏網模型的學習過程使用在測驗分基本運算的應用,首先分析學生基本

6、技能(如:加,減,乘,除),四個運算技能(如:消去,規則分和帶分之間的約化,以及同分母比較)和一些應用型式的運算技能、複雜工作的能。並藉由位域專家確定這些技能及其迷失概為其主要原因。接著用Hugin 所改的PC 演算法第一次透視技能和迷失概之間的關係。然後,域專家用隱藏變和引入某些限制解釋一些關係。並再用PC演算法於同限制下對模型做學習而獲取最後的模型,且最後模型再用EM演算法校準,以確定最後貝氏網的結構。使用證據中心的評設計,以貝氏網模式為推方法,對於高中計算機概課程中進位換算的單元分別題出敘式教學貝氏網模式架構和分組解題式貝氏網模式架構,並進實際施測與樣本回收,再用所提出的架構進分析,實驗

7、結果指出分組式教的貝氏網模式架構對於學生的基本能和錯誤型較敘式教學的貝氏網模式架構有較佳辨,可供教師在教學時是否採用敘式教學或分組解題式教學的考。羅吉斯迴歸演算法技術參考 (Analysis Services - 資料採礦)Microsoft 羅吉斯迴歸演算法是 Microsoft 類神經網路演算法的演變,其中 HIDDEN_NODE_RATIO 參數設定為 0。此設定會建立不包含隱藏層的類神經網路模型,而這相等於羅吉斯迴歸。特徵選取所有 Analysis Services 資料採礦演算法都會自動使用特徵選取來改善分析並減少處理的負載。在羅吉斯迴歸模型中,特徵選取所使用的方法取決於屬性的資料類

8、型。羅吉斯迴歸是以 Microsoft 類神經網路演算法為基礎,因此,它會使用適用於類神經網路的特徵選取方法子集。如需詳細資訊,請參閱資料採礦的特徵選取。計分輸入在類神經網路模型或羅吉斯迴歸模型的內容中,計分(Scoring) 表示一種程序,會將資料中出現的值轉換為使用相同小數位數的一組值,因此可以互相比較。例如,假設 Income 輸入的範圍是 0 到 100,000,而 Number of Children 輸入的範圍是 0 到 5。這個轉換程序可讓您計分(Score) 或比較每個輸入的重要性,而不管這些值的差異為何。對於出現在定型集中的每個狀態,模型都會產生一個輸入。對於離散或離散化的輸

9、入,如果在定型集中至少出現一次遺漏狀態,則會建立其他輸入來代表遺漏狀態。至於連續輸入,最多會建立兩個輸入節點:一個用於遺漏值 (如果出現在定型資料中),而另一個輸入則用於所有現有的值或非 Null 值。每個輸入都會使用 z-score 正規化方法 (x )/StdDev 來調整為數值格式。在 z-score 正規化期間,平均值 () 和標準差會透過完整的定型集取得。連續值 值存在:(X )/ / X 是要編碼的實際值)離散值 = p (狀態的優先機率) 瞭解羅吉斯迴歸係數在統計文獻中,有各種方法可以執行羅吉斯迴歸,但是所有方法的重要部分都是評估模型的符合度。在勝算比和共變模式之間,提出各種符合

10、程度統計資料。如何測量模型符合度的討論超出本主題的範圍,不過,您可以在模型中擷取係數的值,然後用於設計符合您自己的量值。資分群 分群(Clustering)與分(Classification)者常被混淆,分是從已知資及屬性別建模型,而分群則須知道各資的別,自動將屬性性質相似之資聚集成群。假設一資集包含n個資點 且每個資點有d個屬性 ( 維 ) ,則此資集可以用一個矩陣 12nX=x,x,.xndX× 12,.,kzzz表示之,此資集分為K群,用 表示且用 12,.,kCccc=Z= 表示K群的群中心,分群的方法有許多種,主要可分為階層法 ( Hierarchical method )

11、、分割法 ( Partitioning method )、密基準法 ( Density-base method )、模式基準法 ( Model-based method ) 與網格基準法 ( Grid-based method ) 等 17,將分述如下: 階層法 階層法通常以樹結構的方式,可再細分為聚合法 ( Agglomerative approach )分法 ( Divisive approach ) 。聚合方式為是由下而上凝聚而成。聚合法先將各資點視為獨的一群,計算各群組間的距,將距最短的個群組進合併,反覆斷的合併直到滿足指定的群組或是指定的停止條件為止。依群組間的距計算方法同,其方法有

12、:單一結法 ( Single Linkage ) 、完全結法 ( Complete Linkage )、平均結法 ( Average Linkage ) 及華德法 ( Wards method ) 等等。分方式為由上而下分而成,分法先將所有資點視為同一群組,反覆逐漸分成較小的群組,直到分出指定的群組或是指定的停止條件滿足為止。階層法的運算速很快,但當群組被合併或分後無法再修正分群結果 分割法 分割法須事先指定分割的群K,在n個資中,用群中心進指派分割。分群結果須滿足個條件:(1)每群最少要含有一個物件(2)每物件恰被分屬於某一群。分割法是用反覆再配置技術 ( Iterative relocat

13、ion technique ),使資在群組間移動,改善分群結果。好的分群結果會使同一群組內的資彼此相似或接近,而同群組間的資彼此相或疏。 密基準法 分割法是運用群組間的距衡分群,較適用於球 ( Spherical-shaped ) 分佈的資集合,較於特殊形、任意形、任意大小分布的資集合,密基 準法可解決上述的問題。密基準法是運用資間的密進分群,群組內的資點彼此緊密很高,與其他群組緊密很低,讓群組內的資密大於群組外的密。當固定範圍內資點已達到事先設定之閥值 ( Threshold ) 時,表示緊密夠,就加到鄰近的群組中,依此種方式讓群組持續的增大。反之則緊密夠,適合群聚。其代表性的方法有DBSCAN ( Density-based Spatial Clustering of Applications with Noise )、OPTICS ( Ordering Points To Identify the Cl

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论