数据挖掘软件clementine中文教程_第1页
数据挖掘软件clementine中文教程_第2页
数据挖掘软件clementine中文教程_第3页
数据挖掘软件clementine中文教程_第4页
数据挖掘软件clementine中文教程_第5页
已阅读5页,还剩98页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 資料採礦在crm的應用spss clementine 中文版研討會內容 一一 資料採礦的秘辛資料採礦的秘辛 資料採礦觀念 資料採礦到底是什麼?為什麼要做資料採礦? data mining 和統計及olap有什麼不同? data mining 和 data warehousing 的關係 data mining 的方法與特徵 怎麼做好data mining? 何謂crisp-dm及其重要性研討會內容二二 clementine中文版功能說明中文版功能說明 clementine的工作環境及其方便容易的操作能力 完全中文化的介面 和crisp-dm的結合 協助整理串流跟輸出的管理員 用串流方式做資料

2、採礦 超級節點研討會內容二二 clementine中文版功能說明中文版功能說明 對應crisp-dm,clementine有哪些功能(一) clementine 在商業理解階段提供的功能(二) clementine 在資料理解階段提供的功能(三) clementine 在資料預備階段提供的功能(四) clementine 在塑模階段提供的功能(五) clementine 在評估階段提供的功能(六) clementine 在部署階段提供的功能資料採礦的秘辛data mining 是什麼? data mining是從資料中找出有用珍貴知識的一個過程何謂珍貴?何謂過程?why whowhat whe

3、nwhere how何謂過程?n 增加銷售n 交叉銷售n 減少流失n 降低成本n 忠誠的客戶n 警察找出罪犯n 醫學找出疾病n 國稅局找逃稅 何謂珍貴?許多技術知識的融合(統計、人工智慧、未來的基因演算法等),並非一個演算法就可以解決全部問題資料資訊知識將沈睡的資料中的資訊轉變為活的知識 ,進而成為決策的智慧為什麼要做 data mining? 競爭日益劇烈,了解客戶需求才能佔有優勢 過去及現在和客戶互動方式的改變過去n互動單純n直接了解客戶個人化需求現在n互動複雜n難直接了解客戶個人化需求n電子化data mining 和統計不同?data mining 沒有事先假設 多數狀況下母體參數已知

4、 資料量越大越好,小資料也可以挖只是較不可靠 融合各種知識,包括統計、machine learning、人工智慧、基因等統計先假設再檢定母體參數未知資料量不可太大data mining 和 olap 不同?data mining包括對手邊資料的呈現,以及olap無法呈現的隱藏行為模式除了分析過去資料,也可以預測未來olapon-line analytical process對手邊資料的多維度呈現,無法呈現隱藏行為模式對現有資料的分析data mining 和資料倉儲的關係 何謂資料倉儲 (data warehousing)? 將現有資料、歷史資料、外部資料等經過有系統的整合,把資料選取、分類、

5、轉換達到最佳化後,融入一個設計好的關連式資料庫中,以利資料分析者存取,大量改進效率。 data mining 及 olap 都是由資料倉儲中取出資料分析data mining 為何要從資料倉儲開始?也可以從檔案、資料庫中存取資料資料倉儲提供的資料量更足夠從多種資料檔或資料庫中取出檔案可能遭遇格式不符不一致的問題,要多花時間在整合上,若有資料倉儲,可以省去不少麻煩。資料採礦的定位business valuetimequery &reportingolapdata miningreal-timepersonalizationmeasurement (historical)predictio

6、n (future)我們流失了多少客戶?這些流失客戶是位於哪個地區?哪些是高風險客戶以及原因是?我們應該即時提供這位客戶什麼服務?from spss white paperdata mining 的方法 classification clustering estimation prediction market basket analysis description預測和分類推估類似,不同在於是預測未來,將新資料帶入既有資料建立的模型預測結果銀行新申請信用卡的客戶要給多少額度推估和分類的不同在於目標變數為連續值,常和分類配合用分類判斷為會貸款客戶後,再推估會貸款的金額群集非監督式,未知有幾類,

7、將性質類似的資料加以區隔把顧客資料分群對不同群體採用不同推銷手法分類目標變數(依變數、反應變數)為類別的狀況信用卡公司將既有資料分為偽卡非偽卡找出偽卡的模式購物籃分析找出哪些事件會一起發生超級市場發現男性客戶會一起購買啤酒跟尿布描述增進對於資料的認識,圖形視覺化呈現,或規則、決策樹等相關技術類神經決策樹 (c5.0 c&rt)logistic 迴歸等等相關技術k-means兩步驟kohonen等等相關技術迴歸c&rt等等相關技術分類跟估計的所有方法相關技術apriorigri等等相關技術決策樹規則各類圖表等等data mining 的其他特徵 interactive 互動性 a

8、utomation 電腦自動化 continuing 連續性,是動態的 團隊分工合作 具有決策功能,使企業組織創新、再造 目標:一對一個人化(personalize)怎樣才能做好 data mining process 符合 data mining 的程序,如 crisp-dmenvironment企業組織內部要有共識從管理階層、資訊部門、行銷企劃單位、基層執行單位等都要能分工合作tools好的 data mining 工具才能讓data mining發揮功效配合資料倉儲crisp-dm 標準流程 cross-industry standard process for data mining

9、spss 和 ncr 在 1996 年為克萊斯勒做資料採礦時訂出的一套標準程序,並參加了專家意見修訂,目前版本為1.01.商業理解 (business understanding)2.資料理解 (data understanding)3.資料預備 (data preparation)4.塑模 (modeling)5.評估 (evaluation)6.部署(或佈署) (deployment)1. business understanding 了解企業方針及要解決的問題何在 訂定 data mining 計畫2. data understanding 收集初步資料 簡單了解資料 確認資料品質3.

10、data preparation 資料清理、整合 格式設定,為下一步建立模型做準備4. modeling 選定要建立的模型 用上一步驟的資料建立模型並測試5. evaluation 評估模型及回顧整個過程 決定是否進入下一階段6. deployment 計畫要怎麼部署 監控部署過程 產出報告並檢討crisp-dm 流程圖 以資料為中心 不斷循環 不是從頭做到尾,有需要時可以往回clementine 中文版現代淘金者的最佳資料採礦工具功能介紹工作環境完全中文化工作環境介面介紹操作管理區:管理操作時期產生的stream, 輸出, 模型串流工作區:實際上用來建構dm流程的所有的動作、設定的區域節點調

11、色版:不同的node代表不同功能的工具,不同的活頁代表不同的dm 流程的工具集合專案管理區:以dm專案的角度來管理stream, 輸出, 模型工作環境專案管理 一個專案可以包括多個串流、圖表、各種外部檔案,全部可以利用右下角的專案管理員整理起來。 優點:不用每次都去找要用的檔案跟相關串流,直接開啟專案,所有相關物件都會出現在專案管理員中。工作環境配合crisp-dm流程 可將各種檔案及流程圖分門別類整理在六個crisp-dm步驟的資料夾中,方便任何使用人員隨時存取。 很清楚所做過的流程,有架構不紊亂。即使非原始的建立者也可以迅速進入狀況。 也可依自己需求增減資料夾工作環境管理員 clement

12、ine會自動將所有流程放在串列區,跑出的圖表放在輸出區,建立的模型則放在模型區,隨時可以點選不用重跑一遍。且這些結果都可儲存保留。工作環境用串流方式呈現 上使用者在工作區自由發揮,利用豐富的工具,設計出最符合實際需要的流程。彈性大、自由度高。工作環境 windows 作業環境 配合基本的windows功能如剪貼、滑鼠拖曳、右鍵功能表、鍵盤快速鍵直接操作等,讓熟悉windows的使用者可以馬上上手。基本功能自動配置基本功能加入節點註解 加入註解,滑鼠游標移過去就可以看到註解。基本功能超級節點基本功能超級節點crisp-dm 中的clementine功能clementine中文版在中文版在商業理解

13、商業理解(i)提供的提供的功能功能 把計畫、專業術語相關檔案直接存放在專案中,任何使用 clementine 7.2 中文版的人員都可以隨時輕鬆查閱。商業理解(i)外部檔案 把術語對照表、計畫專案文件等放入專案中,任何計畫參與者都可以隨時隨地開啟這些檔案查詢閱覽。crisp-dm 中的clementine功能clementine中文版在中文版在資料理解資料理解(ii)提供提供的功能的功能 各式各樣的前端資料輸入 統計敘述、表格、標記、檢查遺漏狀況 豐富的圖形種類 圖形多變化,依照所需呈現資料資料理解(ii)讀取資料資料理解(ii)檢視資料 利用表格節點,可以隨時看見資料在串流中任何步驟的狀況。

14、資料理解(ii)檢視資料資料理解(ii)檢視資料資料理解(ii)檢視資料資料理解(ii)檢視資料資料理解(ii)直方圖 連續變數的分佈。資料理解(ii)散佈圖 兩個連續變數的分佈。資料理解(ii)散佈圖 也可以用散佈圖畫類別變數資料理解(ii)分佈圖 類別變數的分佈狀況資料理解(ii)關聯網 類別變數間的關聯crisp-dm 中的clementine功能clementine中文版在中文版在資料預備資料預備(iii)提供提供的功能的功能 列處理功能 行處理功能 設定全域變數供其他節點使用 透過圖形產生衍生變數,省去自己撰寫的時間資料預備(iii)列處理(選取)資料預備(iii)列處理(抽樣)資料

15、預備(iii)列處理(平衡)資料預備(iii)列處理(整合)資料預備(iii)列處理(合併)資料預備(iii)行處理(類型)資料預備(iii)行處理(過濾器)資料預備(iii)行處理(導出)資料預備(iii)行處理(填入器)資料預備(iii)行處理(設成旗標)資料預備(iii)自動產生複雜節點資料預備(iii)其他功能 此外,資料預備階段還有提供以下功能: 合併- 將這個月與下個月記錄合併 排序- 將資料根據某些欄位排序 整體- 將某個變數的值(最大值、平均數等)設定為global變數。 歷史- 用於時間序列資料 等等crisp-dm 中的clementine功能clementine中文版在中

16、文版在塑模塑模(iv)提供的功能提供的功能 多種群集、分類、預測、關聯規則模型 分類樹一覽無遺的瀏覽器 詳盡的統計報表 將預測結果隨心所欲呈現 混合式模型一點也不難塑模(iv)關聯規則塑模(iv)kohonen塑模(iv)k-means塑模(iv)類神經網路塑模(iv)c5.0塑模(iv)logistic 迴歸塑模(iv)主成分/因子塑模(iv)混合式模型crisp-dm 中的clementine功能clementine中文版在中文版在評估評估(v)提供的功提供的功能能 多樣化的評估圖形 同時將多個模型的結果做比較評估(v)比較預測準確度評估(v)評估圖形crisp-dm 中的clementi

17、ne功能clementine中文版在中文版在部署部署(vi)提供的功能提供的功能 各種格式的檔案輸出 自動化產生設計好的報告格式 和 solution publisher 結合部署(vi)自動產生報告部署(vi)各種檔案輸出內建應用範例說明 cat clementine application templatetelco(針對電信業所做的範本)建立churn與cross-selling 模型crm(針對百貨零售業所做的範本)建立顧客價值區隔與特性、郵寄行銷的模型、顧客在不同區隔間變化的模型web-mining(針對電子商務網站所做的範本)以瀏覽者與顧客不同層級的資料並結合多個web log的資

18、料處理方法建立多個模組take a breakclementine中文版在在data mining的應用案例的應用案例研討會內容三三 clementine 中文版在中文版在data mining的應用案例的應用案例 data mining的應用範疇 clementine中文版如何應用於crm? crm 的成長趨勢 為什麼要進行crm? 何謂crm? clementine 對於crm的機會點在哪裡? clementine 在crm中的應用有哪些? 各產業的應用層面 配合crisp-dm之應用案例展示 clementine豐富的部署應用 data mining 應用於crm中產生的無形效益data

19、 mining的應用範疇客戶關係管理(crm)犯罪(criminal)教育(education)醫療(health care)科學研究(research)製程管理(process management)clementine中文版如何應用於crm?crm 的成長趨勢asia/pacific crm market ($m)02040608010012014016018020020012007source: idc. 2003為什麼要進行crm?過去購物以必要性為基準現在心理因素逐漸影響顧客的消費行為顧客的接觸管道多元化何謂crm?發現需求 oltp = 企業/組織的眼與耳記憶偏好 database

20、 = 企業/組織的腦 學習 data mining = 企業/組織的智慧行動 marketing = 企業/組織的手與腳clementine 對crm的機會在哪裡? crm 了解客戶(client)操作型crm (operational crm)分析型crm (analytical crm)(分析測量, 預測並最佳化客戶關係)具有智慧型判斷能力 了解客户data mining 是crm的核心clementine 在crm中的應用有哪些 ? 潛在客戶分析 (customer acquisition) 顧客區隔 (customer segmentation) 交叉銷售再銷售 (cross-sell

21、ing/up-selling) 詐欺分析 (fraud detection) 風險評估 (risk analysis) 顧客挽留 (customer retention) .各產業的應用層面電信業電信業客戶流失管理 顧客終身價值及利潤價值 行銷回應預測交叉銷售/再銷售 電子商務電子商務顧客終身價值 交叉銷售/再銷售 瀏覽行為分析政府機構政府機構員工流失管理犯罪偵測零售業 忠誠度及通路忠誠度行銷回應預測客戶產品偏好分析與鑑別 交叉銷售/再銷售 製造業良率分析製程改善需求預測醫療業 病人流失管理 潛在新病人分析 病人屬性區隔各產業的應用層面生命科學 基因抗藥反應分析 基因序列分析 藥物區隔分析 藥

22、物市場風險評估娛樂業 客戶流失管理 目標客戶分析 客戶區隔 需求預測分析銀行風險管理 行銷回應預測維持顧客模型 顧客終身價值及利潤價值 多通路行為管理 信用卡冒用偵測 保險業交叉通路銷售 顧客終身價值及利潤價值 維持顧客模型 詐欺理賠分析配合crisp-dm之應用案例展示clementine中文版與crisp-dm結合crisp-dm(cross-industry standard process for dm)專案目標檔資料理解exploring streams資料預備preparing streams塑模、評估modeling streams部署應用deploying streams案例展

23、示:crisp-dm中的資料採礦工作 clementine中文版在中文版在商業理解商業理解(i)階段:階段:將專案的目標、資料 的定義等外部檔案存 放於此專案夾中原始購買資料分佈狀 況,協助了解專案目標案例展示crisp-dm中的資料採礦工作 clementine中文版在中文版在資料理解資料理解(ii)階段階段:欄位敘述、資料量、 類型定義、檢查遺漏 狀況各角度資料的圖 形分佈檢視各變數資料圖表分 佈,了解購買行為案例展示crisp-dm中的資料採礦工作 clementine中文版在中文版在資料預備資料預備(iii)階階段:段:產生衍生性變數並檢 視其分佈狀況整合總結、排序資料 並修改欄名稱篩選、切割並平衡資 料以提供

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论