版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据探勘概念资料探勘(Datamining)是从大型数据集中探索有趣(interesting)及有价值(valuable)的问题,并可付诸行动之方案的一个过程。换而言之,数据探勘可以衍生/呈现存在于数据(data)中的某一种模式(model)和趋势(trend)。这些模式和趋势可收集在一起,并定义为数据探勘的模型。1-1数据探勘概念当我们看到一个现象,例如:新上市的饮料销售的情形很好,为什么会很好?我们能不能从数据当中,找出是哪些原因导致这个现象的发生?如果要找出导致这个现象发生的原因,当数据量非常的大而且相关的变量很多时,如何从这些变量与数据当中,找到跟销售有关的讯息,来说明为何饮料销售的很好?1-1数据探勘概念所以,我们也可以说,资料探勘并不纯粹只是一种技术或是一套软件,而是一种结合数个不同问题领域(problemdomain)的专业技术(technologies),并且将之运用来找出数据中信息的一个流程(procedure)。1-1数据探勘概念随着信息科技的快速进展,让实时处理大量数据已不再成为天方夜谭的困难任务。计算机信息系统对数据高速处理的能力,让数据的储存更具有价值,而不再仅是一堆字段与位的组合而已。表1.1说明了计算机信息系统的演进过程。1-2何谓资料探勘?1-2何谓资料探勘?演进步骤目前企业问题应用技术系统供货商系统特性文件系统(1960年代)“2002年12月笔记本电脑的销售明细为何?”计算机、磁带、磁盘IBM,CDC传递历史性的静态数据数据库系统(1970年代)“IBMX31笔记本电脑目前的售价是多少?”阶层式数据库(hierarchicaldatabase)、网络式数据库(networkdatabase)、关系数据库(relationaldatabase)、结构化查询语言(SQL)、开放性数据库链接设定(ODBC)Oracle,Sybase,Informix,IBM,Microsoft传递实时性的单层次动态数据数据仓储系统(1990年代)“去年北部地区笔记本电脑的总销售量是多少?其中台北市的销售量是多少?”在线分析处理(OLAP)、多维度数据模型(multidimensionaldatamodel)、资料仓储(datawarehouse)Pilot,Comshare,Arbor,Cognos,Microstrategy,Microsoft传递历史性的多层次动态数据数据探勘系统(现代)“明年笔记本电脑的预估销售量为何?为什么?”进阶算法、多处理器计算机系统、大量数据储存技术、人工智能Pilot,Lockheed,IBM,SGI传递预知的、鉴往知来的信息表1.1计算机信息系统的演进过程资料探勘的热烈蓬勃发展虽是近期的事,背后藉由成熟进展的统计学支持,才能够更具有说服力,即使如此,但资料探勘和统计学仍有诸多差异。表1.2为资料探勘与统计的差异1-2何谓资料探勘?1-2何谓资料探勘?比较项目资料采矿统计分析数据处理量处理大量数据1,000,000,000rows,
3,000columns处理大量数据10,000rows,
20columns使用数据型态未经整理过的资料有系统、整理过的数据合理的软件价格约$2,000,000约$79.99使用者企业末端者使用统计学家检测用统计背景无须太专业的统计背景需要专业的统计背景对分析数据属性定义清楚必须必须对解决问题目标明确必须必须提供分析算法统计分析方法、人工智能、判定树、类神经网络统计分析方法模式建立提供多种模型,可以在短时间内决定合适者。需要分析者逐一分析变量重要性,模式才能建立。相关变数可以找出多个变量间之相关性。一次只能检查一个变量对结果的影响可以预期分析结果不可以可以执行方式不断循环、不断修正的过程可以问题为导向,相关问题通常只需分析一次。表1.2资料探勘与统计的差异由于信息科技的演进与人类各种活动(如商业行为)倍加频繁的状态,现今数据的格式与内容已非完全使用统计方法可以处理,尤其是许多的数据报含多达数十或数百种属性的高维度数据,因此统计方法仅能使用抽样的方法,选择只用一小部分搜集到的资料来分析。资料探勘能够处理的数据量非常庞大,目前处理器指令周期非常快,藉由数据储存媒体的巨大储存量,让数据探勘的能力已远远超乎人类的计算能力,并在浩瀚且紊乱的数据流中找出有趣的类型,进而挖出有价值的金矿(知识)。1-2何谓资料探勘?统计技术的能力,目前仅能处理以经过处理或整理过的数据格式,且在其中找出相关的因素与相关性,但是若资料量过多或过大时,将会造成各项的因素都呈现显著,影响数据呈现。1-2何谓资料探勘?统计技术的使用,必须配合使用者具有专业的统计背景或经过专业的统计训练,同时预先完成研究目的与假设,同时设定统计分析方法,并在完成资料搜集后开始依选定的统计软件分析数据,并解释结果。否则对于统计应用的能力将会造成困扰与障碍。资料探勘的使用较为平易近人,用户仅需了解软件的使用方式与算法的特点,并将计算出来的结果加以适当的解释,或以图形接口与窗体格式让数据更加活泼与生动。1-2何谓资料探勘?麻省理工学院2001年元月号科技评论(TechnologyReview)预测,未来会改变世界的10大新兴技术中,数据探勘技术名列第四,可见资料探勘技术日渐受重视的程度。1-2何谓资料探勘?数据探勘是萃取知识的最佳方式之一。Fayyad在1987年就读密歇根大学参加GM的暑期工作时,为了能自成千上万的维修记录中发掘特定规则(rule)与类型(pattern),并能够协助相关的维修记录人员迅速的发现、解决问题。Fayyad所发展的Pattern辨识算法,不但成了他1991年博士论文的主题,亦衍生出后来资料探勘的发展。1-2何谓资料探勘?数据探勘最早是被应用在天文学上,藉由机械学习(machinelearning)、人工智能(artificialintelligence)、统计(statistics)、数据库查询(SQL)、类型分析(patternanalysis)、统计(statistics)及专业知识(domainknowhow)等技术,在短短4小时内所发现的行星胜过20多位天文学家4年的研究成果;最后连美国军方也开始应用这样的技术来增强雷达解读与辨识数据的能力。1-2何谓资料探勘?数据的型态可概分为:1.非结构化数据(unstructureddata):如大卖场柜台收款机的产品事务历史记录、人员心理辅导及晤谈的记录等等。非结构化数据的特点在于数据是属于破碎、不连续性的性质,多是用来记载、记录一些活动的过程。2.结构化数据(structureddata):如大卖场进货的产品数据、第三方数据、聘雇人员基本数据,或是学校内值日生的排序表、每日上课的课表等等,都是属于结构化数据的范围。1-2何谓资料探勘?1-2何谓资料探勘?资料RowData信息Information知识Knowledge数据库资料仓储资料探勘管理决策者资料分析师数据操作员专家系统知识库系统决策支持系统数据库系统中存放的是未经整理的原始数据,数据仓储系统内则是经过整理大量现况与历史数据所得的信息,而数据探勘系统所储存的则是经过整理大量信息所得到的知识。「资料」(data)就是原始数据;「信息」(information)是把所得的资料视为题材,有目的地予以整理,藉以传达某种讯息;「知识」(knowledge)则是一种藉由分析信息来掌握先机的能力,也是开创价值所需的直接材料;「智慧」(intelligence)是以知识为根基,运用个人的应用能力、实践能力来创造价值的泉源。1-2何谓资料探勘?数据探勘的特性数据探勘不只能协助我们看数据表面的现象,也能进一步帮我们找出是什么原因造成所看到的结果。和一般传统社会科学研究过程不同的是,资料探勘不用统计假设检定,来推论某个现象发生的机会是否存在,也因此不会局限在自身先入为主的想法中。1-2何谓资料探勘?数据探勘的特性数据探勘没有数据量的限制,不会因为数据量太大而造成一定显著的盲点。同时,只要分析的工具与功能足够,数据量与变量的限制,在数据采矿的过程中将会减少。资料探勘不单只是数据库与分析工具及方法的概念,在描述现象与建构问题的过程中,必须特过某些专业的(professional)及专家的(expertise)人员,来将问题领域(problemdomain)之现象表征建构出来,使得决策变量的形成能够充分的描述现象及问题的核心,以及完成分析后数据的判读工作。1-2何谓资料探勘?Fayyad&Stolorz(1997)定义数据探勘为知识发现的一个步骤,目的在于找出数据中有效的、崭新的、潜在有用的、易于了解样式之一个不繁琐的过程。Berry&Linoff(1997)提到数据探勘,就是在大量的数据中,利用自动或半自动的方式予以分析,并能够从中找出具有意义的关系或法则。1-3数据探勘的定义Hui&Jha(2000)指出新科技或技术可协助分析、了解以及使大量的储存数据予以聚类。由数据库(database),资料仓储(datawarehouse)或其他信息的储存库中利用己储存之大量数据找到如类型(pattern)、关联(association)、改变(change)、异常(anomaly)和重要结构(significantstructures)的知识过程,称为数据探勘。Berson,Smith&Thearling(1999)等学者对于数据探勘提出最简单的定义:就是自动侦测数据库中的相关类型。1-3数据探勘的定义数据探勘是一种数据转换的过程,先将没有组织的数字与文字集合的数据转换为信息,再转换为知识,最后产生决策。数据探勘为知识发现的一个步骤,目的在于找出数据中有效的、崭新的、潜在有用的易于了解之样式的一个不繁琐的过程。由数据库、数据仓储或其他信息的储存库中,利用已储存之大量数据找到知识的过程,称为资料探勘。1-3数据探勘的定义数据探勘是指寻找隐藏在数据中的讯息,如趋势(trend)、特征(pattern)及相关性(relationship)的过程,也就是从数据中发掘信息或知识(KDD)。数据探勘,即为从数据库中发现知识,因为近来大量商业化的数据涌入,故而需要此种技术以使得数据自储存单元中分析、淬取,甚而能提供可视化的决策支持。1-3数据探勘的定义当数据量过于庞大时,将有可能会产生数据倾销(datadump)(Keimetal.,2004)。数据探勘的流程,就是各家发展出的各种标准作业程序,目的都是希望藉由依循各自的概念与逻辑,以完成数据采矿的任务。最常被数据探勘师所使用的作业程序是CRISP-DM的挖掘流程约占42%,而由SAS公司所发展的SEMMA,则约占了10%,其余的方式,包括各企业的自定义流程、数据采矿师的自我喜好方式等等,约占了47%。1-4数据探勘的流程1-4数据探勘的流程CRISP-DM的英文全名为Cross-IndustryStandardProcessforDataMining(数据探勘交叉产业标准程序)。由SPSS、DaimlerChrysler、NCR、OHRA等世界著名公司依其实务经验与理论基础所共同订定出来的数据采矿的一套标准作业程序处理的流程共计分为商业理解(businessunderstanding)、资料理解(dataunderstanding)、数据预备(datapreparation)、塑模(modeling)、评估(evaluation)、部署(deployment)等六个阶段。六个阶段形成一个循环(circle)的过程,在处理的过程中随时都可以修正,并适时回馈以修正探勘的内容。1-4数据探勘的流程1-4数据探勘的流程CRISP-DM过程模型商业理解(businessunderstanding):数据探勘最重要的部分。商业理解包括决定商业目标、形势评估、决定数据探勘目标,及制订一个项目计划。资料理解(dataunderstanding):数据提供了数据探勘的原始材料。这个部分强调需要了解数据源是什么,这些数据源的特征是什么。这个部分包括收集原始数据、描述数据、探索数据,及证实数据的质量。1-4数据探勘的流程数据预备(datapreparation):将数据源分类后,需要准备用于探勘的数据。准备过程包括选择、清理、重构、整合及格式化数据。塑模(modeling):这是数据探勘中最引人注意的地方,成熟的分析方法将用于从数据中提取信息。这个部分包括选择模型技巧、产生测试计划,及塑模和模型评估。1-4数据探勘的流程评估(evaluation):一旦选择了模型,就应准备好对数据探勘的结果是否达到商业目标作评估。这部分也包括评估结果、回顾数据探勘过程,及确定接下来的步骤。部署(deployment):这个部分着重于将新知识融会到每天的商业运作过程中,从而解答最初的商业问题。这个部分包括计划发布、监控与维护、产生最终报告,及回顾整个项目。1-4数据探勘的流程SAS公司提出SEMMA模型。这个过程包含数据抽样、数据探索、数据转换、模型建立与模型评价等五个阶段:1.资料抽样(sample):针对企业的问题,从大型数据库中,抽出一部份数据进行分析并建立模型,再透过数据库中抽取一部份数据作为测试组以修正模型。2.资料探索(explore):主要是对数据有所理解,认识变量间是否存在着某种关联性。1-4数据探勘的流程3.数据转换(modify):针对数据中的变量予以转换,因为有些数据的变量并不存于数据中,需藉转换而获得,以确保模型的质量。4.模型建立(model):利用各种数据采矿技术以解决问题,建立模型、发现信息。5.模型评价(assess):根据分析得到的结果与专业知识结合,找出有用的信息,建立有效的模型,并加以运用。更藉由新进的数据,作适当调整,延伸模型应用广度深度。1-4数据探勘的流程Hui&Jha(2000)认为数据探勘程序由七个阶段所组成:1.设定目标。2.选择数据。3.数据前处理。4.数据转换。5.资料仓储化。6.资料探勘。7.评估结果。1-4数据探勘的流程设定采撷目标数据的选择数据前处理数据转换资料仓储化资料探勘评估挖掘结果原始资料选择数据处理目前的数据转换数据资料仓储结果&知识Fayyad&Stolorz(1997)认为数据探勘程序包含六个步骤分别为:1.数据选择与抽样。2.数据预处理。3.数据转换。4.资料探勘。5.评估效益。6.结果解释与应用。1-4数据探勘的流程Han&Kamber(2001)指出数据库知识发现包含七个步骤:1.资料清理(datacleaning):移除噪声和不一致的数据。2.数据整合(dataintegration):整合不同的数据源。3.数据选择(dataselection):从数据库或数据仓储中选取与研究主题相关的数据。4.数据转换(datatransformation):将目标数据透过摘要或集合的动作使其有利于挖掘进行。1-4数据探勘的流程Han&Kamber(2001)指出数据库知识发现包含七个步骤:5.资料探勘(datamining):应用资探勘掘技术萃取数据的型样。6.型样评估(patternevaluation):利用衡
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《微生物免疫学基础》课件
- 《颠覆秒培训》课件
- 二年级下册美术书课件教学课件教学
- 《组织行为沟通》课件
- 贵州省遵义市2024-2025学年九年级上学期11月期中考试化学试题
- 《水龙头专业知识》课件
- 2022年公务员多省联考《申论》真题(河北县级卷)及答案解析
- 山东省青岛市黄岛区2024-2025学年高二上学期期中考试语文试卷(含答案)
- 桑叶切碎机产业规划专项研究报告
- 石墨炭精块市场需求与消费特点分析
- 福建省师范大学附属中学2023-2024学年化学高一下期末考试试题含解析
- 初二家校共育策略
- 八路军西安办事处纪念馆
- 蜜雪冰城的分析
- 设备-往复式压缩机结构原理
- 文化翻译理论视域下的电影字幕汉译研究以电影《怦然心动》字幕翻译为例
- 缺血性卒中基层诊疗指南(实践版-2021)
- 2023年营口市站前区人民法院聘用制书记员招聘考试试题及答案
- 空乘人员生涯发展展示
- 项目风险评估与缓解措施
- 《美丽的颜色》核心素养课件
评论
0/150
提交评论