




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、資料倉儲與資料探勘資料倉儲之介紹3 資料倉儲的目的是希望藉由整合公司內部的資料並綜資料倉儲的目的是希望藉由整合公司內部的資料並綜合各種外部資料,進而對公司重要決策者提供一個整合各種外部資料,進而對公司重要決策者提供一個整體的、廣泛的訊息認知、以供完成一策略性的決策體的、廣泛的訊息認知、以供完成一策略性的決策3 根據根據Meta GroupMeta Group在在19931993年的調查,僅有年的調查,僅有5%5%的公司對資料的公司對資料倉儲有興趣。到了倉儲有興趣。到了19941994年已上升至年已上升至90%90%,可見未來幾年,可見未來幾年資料倉儲是一極為重要的成長領域資料倉儲是一極為重要的
2、成長領域資料倉儲之介紹(續)3 根據根據Meta GroupMeta Group的調查,資料倉儲的軟體硬體服務與市的調查,資料倉儲的軟體硬體服務與市場規模將由場規模將由19961996年的年的2020億美金成長到億美金成長到20002000年的年的120120億美億美金,使得如金,使得如IBMIBM、OracleOracle等知名大廠紛紛投入此一領域等知名大廠紛紛投入此一領域3 根據根據IDCIDC在在19961996年對年對6262家公司所作的研究顯示,資料倉家公司所作的研究顯示,資料倉儲的儲的投資報酬率最高可達到投資報酬率最高可達到600%600%,且有一半財務利益,且有一半財務利益來自於
3、來自於決策的制定決策的制定,顯示資料倉儲確實可以支援組織,顯示資料倉儲確實可以支援組織的決策之制定的決策之制定資料倉儲之定義3資料倉儲之父資料倉儲之父Bill InmonBill Inmon認為資料倉儲為認為資料倉儲為決策支援系統的核心決策支援系統的核心3Bill InmonBill Inmon和和Chuck KelleyChuck Kelley認為資料倉儲不僅為資料庫、且具有下列特認為資料倉儲不僅為資料庫、且具有下列特性:性:整合性:包含應用程式、資料庫、電腦系統整合性:包含應用程式、資料庫、電腦系統主題導向:回答組織特定問題主題導向:回答組織特定問題時間變數:隨時間變化的動態資料時間變數:
4、隨時間變化的動態資料非變動性:非變動性:資料倉儲之定義(續)3 John van den HovenJohn van den Hoven認為資料倉儲是經改良過的決策支援認為資料倉儲是經改良過的決策支援系統,可產生高階的系統,可產生高階的(high-level)(high-level)、整合的、整合的(Integrated)(Integrated)、系統化的系統化的(organized)(organized)、結構化的、結構化的(structured)(structured)資料以應用於資料以應用於協助商業決策協助商業決策3 綜上所述,資料倉儲是經由建立集合式的資料倉庫,綜上所述,資料倉儲是經由
5、建立集合式的資料倉庫,從多個分散的資料來源中蒐集資料,配合分析工具,從多個分散的資料來源中蒐集資料,配合分析工具,支援決策者的決策制定支援決策者的決策制定資料倉儲之特性3 傳統資料庫著重於單一時間之單一資料處理傳統資料庫著重於單一時間之單一資料處理(one record (one record at a time)at a time)、偏重於擷取詳細之資料以供參考、注意資料、偏重於擷取詳細之資料以供參考、注意資料檔的構成及資料正規化檔的構成及資料正規化(normalization)(normalization),且使用者多為中,且使用者多為中階經理人員階經理人員3 資料倉儲注重某一段時間內之資
6、料倉儲注重某一段時間內之綜合資料綜合資料(summary data on (summary data on a given time period)a given time period)、注重、注重大批資料提供之走向趨勢大批資料提供之走向趨勢、注、注重重資料本身所內涵之意義及訊息資料本身所內涵之意義及訊息,且使用者為決策支,且使用者為決策支援系統和高階主管資訊系統的使用者援系統和高階主管資訊系統的使用者資料倉儲之技術3資料儲存資料儲存(Data Store)(Data Store)現在資料倉儲中之資料儲存可稱為作業型資料儲存現在資料倉儲中之資料儲存可稱為作業型資料儲存(Operational
7、 (Operational Data Store) Data Store) ,一種一種儲存儲存機制機制依資料時效性區分,可將資料區分為即時的依資料時效性區分,可將資料區分為即時的(Real-time)(Real-time)、接近、接近即時的即時的(Near Real-time)(Near Real-time)、與某時點、與某時點(Point-in-time)(Point-in-time)的資料的資料一般一般資料倉儲儲存都是歷史資料資料倉儲儲存都是歷史資料,可稱為時點性的資料,可稱為時點性的資料(Point-(Point-in-time data)in-time data),其應用範圍包括簡單的
8、查詢到複雜的資料提煉,其應用範圍包括簡單的查詢到複雜的資料提煉等等資料倉儲之技術(續)3 資料提煉資料提煉(Data Mining)(Data Mining)資料提煉是屬於發現導向資料提煉是屬於發現導向(discovery-based approach)(discovery-based approach)方式,方式,從不從不同資料來源同資料來源蒐集大量資料,經過詳確的分析後,提供有價值蒐集大量資料,經過詳確的分析後,提供有價值的資訊的資訊給使用者給使用者,一般用於行銷決策上。,一般用於行銷決策上。資料提煉常可發掘出超越歸納範圍的關係,與傳統資料提煉常可發掘出超越歸納範圍的關係,與傳統OLAP(
9、On-OLAP(On-Line Analytical Processing)Line Analytical Processing)大不相同,可用於個人化行銷大不相同,可用於個人化行銷。資料倉儲之優缺點3優點優點有形的優點有形的優點可整合企業各部門的資料及減少作業成本可整合企業各部門的資料及減少作業成本企業內部文件趨向單一規格化,便於儲存與查閱。此一企企業內部文件趨向單一規格化,便於儲存與查閱。此一企業內文件規格之整合乃是一極大優勢業內文件規格之整合乃是一極大優勢資料倉儲之優缺點(續) 無形的優點無形的優點 資料來源可由各部門取得,充分運用組織資源資料來源可由各部門取得,充分運用組織資源 確保日
10、常作業不受干擾確保日常作業不受干擾 提升企業的效率與生產力提升企業的效率與生產力 可充分運用組織所掌控的資訊來獲競爭優勢可充分運用組織所掌控的資訊來獲競爭優勢資料倉儲之優缺點(續) 提供更快的資訊以增強加速決策的品質提供更快的資訊以增強加速決策的品質 提供即時有效的資訊提供即時有效的資訊 資料可信賴度高資料可信賴度高 使用者可經由單一查詢介面獲得所需資訊使用者可經由單一查詢介面獲得所需資訊 可從倉儲的歷史資料中預測未來趨勢與結果可從倉儲的歷史資料中預測未來趨勢與結果資料倉儲之優缺點(續)3 缺點缺點資料倉儲的開發往往為一資料倉儲的開發往往為一極大的投資,風險性高極大的投資,風險性高資料倉儲的開
11、發資料倉儲的開發相當費時相當費時若是軟硬體規格不一,將會有無法若是軟硬體規格不一,將會有無法跨平台存取資料的問題跨平台存取資料的問題倉儲中龐大的歷史資料的管理問題倉儲中龐大的歷史資料的管理問題- - 需用彙總資料需用彙總資料(metadata)(metadata)技技術加以管理術加以管理資料更新的問題資料更新的問題- - 可採非同步方式更新可採非同步方式更新資料倉儲之發展架構3由於資料倉儲為一高投資、高風險、需求不定且開發費時的一項工程,由於資料倉儲為一高投資、高風險、需求不定且開發費時的一項工程,所以需要做長期的規劃,應採雛型法所以需要做長期的規劃,應採雛型法(Prototyping) (P
12、rototyping) 開發。開發。3開發過程主要分為四個階段,分別是:開發過程主要分為四個階段,分別是:資料收集資料收集系統分析系統分析系統設計系統設計系統維護系統維護資料倉儲之發展架構-資料收集3 資料收集資料收集資料收集的主要目的在於資料收集的主要目的在於定義企業需求定義企業需求。必須先成立工作小。必須先成立工作小組或指導委員會組或指導委員會(steering committee)(steering committee),系統開發的工作交由工,系統開發的工作交由工作小組負責,而指導委員會扮演監督、控制與管理的角色。作小組負責,而指導委員會扮演監督、控制與管理的角色。企業目標訂定,並研擬達
13、成這些目標所需的決策過程及所需企業目標訂定,並研擬達成這些目標所需的決策過程及所需資料。資料。此階段另一重要的工作為了解此階段另一重要的工作為了解使用者的需求使用者的需求,需產出需求定,需產出需求定義規格書,內容詳細記錄使用者的需求。義規格書,內容詳細記錄使用者的需求。資料倉儲之發展架構-系統分析3 系統分析系統分析此階段的參與者以負責開發系統的工作小組為主,此階段的參與者以負責開發系統的工作小組為主,根據前一階段所產生的根據前一階段所產生的需求定義規格書需求定義規格書,並進一步,並進一步分析規格書內所紀錄的使用者需求。分析規格書內所紀錄的使用者需求。資料倉儲之發展架構-系統分析 在此階段中,
14、可評估系統的五個可行性:在此階段中,可評估系統的五個可行性: 技術可行性技術可行性(technical feasibility)(technical feasibility) 經濟可行性經濟可行性(economic feasibility)(economic feasibility) 法律可行性法律可行性(legal feasibility)(legal feasibility) 操作可行性操作可行性(operational feasibility)(operational feasibility) 時程可行性時程可行性(scheduling feasibility)(scheduling f
15、easibility)資料倉儲之發展架構-系統分析技術可行性分析技術可行性分析系統軟硬體可行性評估系統軟硬體可行性評估資料庫架構的可行性,包括使用關聯式或非關資料庫架構的可行性,包括使用關聯式或非關聯式資料庫聯式資料庫系統存取時間及回應時間的評估系統存取時間及回應時間的評估資料來源整合的可行性資料來源整合的可行性資料倉儲之發展架構-系統分析經濟可行性分析經濟可行性分析分析資料倉儲明確的分析資料倉儲明確的效益效益分析開發資料倉儲的分析開發資料倉儲的投資報酬率投資報酬率分析開發資料倉儲的分析開發資料倉儲的風險風險評估有形、無形成本與利益評估有形、無形成本與利益系統效益的評估系統效益的評估 ( (作
16、業成本作業成本、服務品質服務品質) )資料倉儲之發展架構-系統分析法律可行性分析法律可行性分析資料所有權與資料所有權與資料隱私資料隱私的問題的問題企業外部資料來源的合法性企業外部資料來源的合法性系統軟硬體的合法性系統軟硬體的合法性操作可行性分析操作可行性分析分析使用者是否熟悉資料倉儲的作業分析使用者是否熟悉資料倉儲的作業是否對使用者或資料庫管理者進行是否對使用者或資料庫管理者進行教育訓練教育訓練資料倉儲之發展架構-系統分析時間可行性分析時間可行性分析系統開發的系統開發的時間時間需要多久需要多久分析系統開發的分析系統開發的進度進度分析不同時間點的分析不同時間點的資源需求資源需求未來資料成長率的預
17、期與評估未來資料成長率的預期與評估進行可行性分析之後,可產生可行性分析規格書。進行可行性分析之後,可產生可行性分析規格書。資料倉儲之發展架構-系統設計3 系統設計系統設計企業層面企業層面企業政策企業政策企業需求與目標的確定企業需求與目標的確定評估資料倉儲對企業的衝擊評估資料倉儲對企業的衝擊分析是否引進資料倉儲分析是否引進資料倉儲資料倉儲之發展架構-系統設計 企業政策企業政策 選擇系統開發方式選擇系統開發方式 是否與倉儲供應商策略性合作是否與倉儲供應商策略性合作 妥善評估需要建制資料倉儲或是資料超市妥善評估需要建制資料倉儲或是資料超市資料倉儲之發展架構-系統設計人員人員清楚明確的權責劃分清楚明確
18、的權責劃分開發小組組成開發小組組成 ( (包含熟悉各部門事務專業人包含熟悉各部門事務專業人士士) )考慮是否聘請專業顧問考慮是否聘請專業顧問資料倉儲之發展架構-系統設計 召開經常性會議以掌握進度召開經常性會議以掌握進度 倉儲開發成功的關鍵在於倉儲開發成功的關鍵在於參與計畫的人員皆能持參與計畫的人員皆能持 續專注的涉入續專注的涉入 對於開發人員進行教育訓練對於開發人員進行教育訓練 企業應有緊急應邊措施計畫企業應有緊急應邊措施計畫資料倉儲之發展架構-系統設計 使用者使用者 使用者須與系統開發者保持良好的互動及合作關使用者須與系統開發者保持良好的互動及合作關係係 使用者的訓練不容忽視,特別是查詢工具
19、使用的使用者的訓練不容忽視,特別是查詢工具使用的訓練訓練 評估設計出的系統是否會引起使用者的抗拒,而評估設計出的系統是否會引起使用者的抗拒,而拒絕使用拒絕使用資料倉儲之發展架構-系統設計 技術層面技術層面 硬體硬體 考慮使用平行處理技術考慮使用平行處理技術 因為資料因為資料成長速度極快成長速度極快,因此對資料的,因此對資料的儲存空間儲存空間 不可輕忽不可輕忽 設計硬體規格時,需注意未來的設計硬體規格時,需注意未來的擴充性及整合擴充性及整合 性性。資料倉儲之發展架構-系統設計 軟體軟體 在資料庫管理系統方面,資料倉儲的資料庫系統通在資料庫管理系統方面,資料倉儲的資料庫系統通常是關連式資料庫,包括
20、常是關連式資料庫,包括DB2DB2、OracleOracle、SybaseSybase等。等。而用戶端的查詢工具軟體通常為微軟的而用戶端的查詢工具軟體通常為微軟的AccessAccess、或、或是多維度資料庫的是多維度資料庫的RedBrickRedBrick。 在作業系統方面,大型主機使用在作業系統方面,大型主機使用MVSMVS,伺服器使用,伺服器使用UNIXUNIX、OS/2OS/2或或NTNT,而客戶端工作站使用,而客戶端工作站使用NTNT、Win95Win95、或或OS/2OS/2資料倉儲之發展架構-系統設計 軟體軟體 評估資料庫管理系統應採關聯式資料庫評估資料庫管理系統應採關聯式資料庫
21、(Relational (Relational DBMS) DBMS)、物件導向資料庫、或是多維度資料庫系、物件導向資料庫、或是多維度資料庫系 統統(Multidimensional DBMS)(Multidimensional DBMS) 注意軟硬體的整合注意軟硬體的整合資料倉儲之發展架構-系統設計 標準標準 需建構統一的標準及規格需建構統一的標準及規格 應選擇應選擇SNASNA或或TCP/IPTCP/IP的網路通訊協定,以利整合速度的網路通訊協定,以利整合速度 資料通訊資料通訊 以何種方式達成資料通訊的目的以何種方式達成資料通訊的目的 (Internet, WAN, LAN)(Intern
22、et, WAN, LAN) 網路的架構應使用主從式、分散式、或集中式網路的架構應使用主從式、分散式、或集中式 是否須將企業內部資料公開是否須將企業內部資料公開資料倉儲之發展架構-系統設計 相容性相容性 需注意各工具的整合性及不同平台上異質資料庫需注意各工具的整合性及不同平台上異質資料庫之存檔功能之存檔功能 應做到應做到跨平台存取跨平台存取與多個資料庫系統之整合與多個資料庫系統之整合資料倉儲之發展架構-系統設計 安全性安全性 評估並做好重要資料的存取控制評估並做好重要資料的存取控制 做好存取資料做好存取資料權限權限的控制管理的控制管理資料倉儲之發展架構-系統設計 資料層面資料層面 資料品質資料品
23、質 掌握資料的一致性及普遍性掌握資料的一致性及普遍性 ( (資料來源整合資料來源整合) ) 資料萃取資料萃取(extraction)(extraction)、傳播、傳播(propagation)(propagation)、和轉換、和轉換 (transformation)(transformation)的品質的品質 評估資料的正確性評估資料的正確性 更新時保持資料的更新時保持資料的同步性及一致性同步性及一致性、更新頻率更新頻率 歷史資料的時間性歷史資料的時間性資料倉儲之發展架構-系統設計 彙總資料管理彙總資料管理 彙總資料之分析處理該如何建構彙總資料之分析處理該如何建構 彙總資料的元素彙總資料的
24、元素(data element)(data element)應該包括哪些內容應該包括哪些內容 資料庫管理資料庫管理 目前系統能否因應未來成長需求目前系統能否因應未來成長需求 資料權限控制資料權限控制資料倉儲之發展架構-系統設計 資料查詢資料查詢 需提供一友善的前端查詢介面需提供一友善的前端查詢介面 應完善評估查詢工具應完善評估查詢工具 ( (工具與軟硬體相容性工具與軟硬體相容性、直直接接 存取或存取或ODBC)ODBC) 查詢工具挖掘查詢工具挖掘(drill-down)(drill-down)能力的評估能力的評估 評估資料查詢的評估資料查詢的反應時間、即時性與穩定性反應時間、即時性與穩定性資料
25、倉儲之發展架構-系統維護 系統維護系統維護此階段須工作小組與使用者相互配合。以下從系統、資料、使用此階段須工作小組與使用者相互配合。以下從系統、資料、使用者三方面討論此階段的工作項目者三方面討論此階段的工作項目系統方面系統方面系統的資料存系統的資料存儲量必須容納未來的成長儲量必須容納未來的成長安全性是維護的重點安全性是維護的重點再新增設備時須考慮系統整合性再新增設備時須考慮系統整合性系統效能的管理系統效能的管理 ( (反應時間反應時間、搜尋速度搜尋速度) )資料倉儲之發展架構-系統維護資料方面資料方面需按時程更新,並將更新情形告知使用者需按時程更新,並將更新情形告知使用者彙總資料的管理是一項重點彙總資料的管理是一項重點管理資料量的成長是重要工作之一管理資料量的成長是重要工作之一使用者方面使用者方面使用者的教育訓練是此階段重要的工作使用者的教育訓練是此階段重要的工作系統正式上線後,需讓使用者有緩衝時間適應
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025合同解除与违约责任
- 2025全新版的房屋买卖合同示例
- 2025aa国际劳务合同
- 2025贷款抵押合同模板
- 《应对突发事件案例分析》课件
- 《鲁迅作品解析》课件
- 《分裂过程的区》课件
- 《女娲造人神话》课件
- 《肺癌诊治进展》课件
- 2025年恩施b2货运资格证全题
- 了不起的我课件完整版
- 油藏工程重点知识点
- 金属波纹管的焊接技术
- GB/T 22235-2008液体黏度的测定
- CAD输入文字时提示“找不到主词典无法启动拼写检查程序”怎么办
- -活出心花怒放的生命 课件 心理健康
- 给水泵检修方案
- 设备出入库管理办法
- KEGG代谢通路中文翻译
- GB∕T 17832-2021 银合金首饰 银含量的测定 溴化钾容量法(电位滴定法)
- 低成本自动化的开展与案例77页PPT课件
评论
0/150
提交评论