数据挖掘报告(模板)_第1页
数据挖掘报告(模板)_第2页
数据挖掘报告(模板)_第3页
数据挖掘报告(模板)_第4页
数据挖掘报告(模板)_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本文格式为Word版,下载可任意编辑——数据挖掘报告(模板)第一章:数据挖掘基本理论

数据挖掘的产生:

随着计算机硬件和软件的飞速发展,特别是数据库技术与应用的日益普及,人们面临着快速扩张的数据海洋,如何有效利用这一丰富数据海洋的宝藏为人类服务业已成为广大信息技术工的所重点关注的焦点之一。与日趋成熟的数据管理技术与软件工具相比,人们所依靠的数据分析工具功能,却无法有效地为决策者提供其决策支持所需要的相关知识,从而形成了一种独特的现象“丰富的数据,贫乏的知识〞。

为有效解决这一问题,自二十世纪90年代开始,数据挖掘技术逐步发展起来,数据挖掘技术的迅速发展,得益于目前全世界所拥有的巨大数据资源以及对将这些数据资源转换为信息和知识资源的巨大需求,对信息和知识的需求来自各行各业,从商业管理、生产控制、市场分析到工程设计、科学摸索等。数据挖掘可以视为是数据管理与分析技术的自然进化产物。自六十年代开始,数据库及信息技术就逐步从基本的文件处理系统发展为更繁杂功能更强大的数据库系统;七十年代的数据库系统的研究与发展,最终导致了关系数据库系统、数据建模工具、索引与数据组织技术的迅速发展,这时用户获得了更便利灵活的数据存取语言和界面;此外在线事务处理手段的出现也极大地推动了关系数据库技术的应用普及,特别是在大数据量存储、检索和管理的实际应用领域。

自八十年代中期开始,关系数据库技术被普遍采用,新一轮研究与开发新型与强大的数据库系统悄然兴起,并提出了大量先进的数据模型:扩展关系模型、面向对象模型、演绎模型等;以及应用数据库系统:空间数据库、时序数据库、多媒体数据库等;日前异构数据库系统和基于互联网的全球信息系统也已开始出现并在信息工业中开始扮演重要角色。

被收集并存储在众多数据库中且正在快速增长的巨大数据,已远远超过人类的处理和分析理解能力(在不借助功能强大的工具状况下),这样存储在数据库中的数据就成为“数据坟墓〞,即这些数据极少被访问,结果大量重要的决策不是基于这些基础数据而是依靠决策者的直觉而制定的,其中的原因很简单,这些决策的制定者没有适合的工具帮助其从数据中抽取出所需的信息知识。而数据挖掘工具可以帮助从大量数据中发现所存在的特定模式规律,从而可以为商业活动、科学摸索和医学研究等诸多领域提供所必需的信息知识。数据与信息知识之间的巨大差距迫切需要系统地开发数据挖掘工具,来帮助实现将“数据坟墓〞中的数据转化为知识资产。

数据挖掘的概念:

数据挖掘,在人工智能领域,习惯上又称为数据库中知识发现(KnowledgeDiscoveryinDatabase,KDD),也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。知识发现过程以下三个阶段组成:(1)数据准备,(2)数据挖掘,(3)结果表达和解释。数据挖掘可以与用户或知识库交互。

并非所有的信息发现任务都被视为数据挖掘。例如,使用数据库管理系统查找个别的记录,或通过因特网的探寻引擎查找特定的Web页面,则是信息检索(informationretrieval)领域的任务。虽然这些任务是重要的,可能涉及使用繁杂的算法和数据结构,但是它们主要依靠传统的计算机科学技术和数据的明显特征来创立索引结构,从而有效地组织和检索信息。尽管如此,数据挖掘技术也已用来加强信息检索系统的能力。

数据挖掘的步骤:

1.确定挖掘对象:定义明了的挖掘对象,认清数据挖掘的目标是数据挖掘的第一步。数据挖掘的最终结果往往是不可预计的,但是要解决的问题应当是有预见性的、有目标的。在数据挖掘的第一步中,有时还需要用户提供一些先验知识。这些先验知识可能是用户的业务领域知识或是以前数据挖掘所得到的初步成果。这就意味着数据挖掘是一个过程,在挖掘过程中可能会提出新的问题;可能会尝试用其他的方法来检验数据,在数据的子集上展开研究。

2.数据收集:数据是挖掘知识最原始的资料。“垃圾进,垃圾出〞,只有从正确的数据中才能挖掘到有用的知识。为特定问题选择数据需要领域专家参与。因此,领域问题的数据收集好之后,和目标信息相关的属性也选择好了。

3.数据预处理:数据选择好以后,就需要对数据进行预处理。数据预处理包括:去除错误数据和数据转换。错误数据,在统计学中称为异常值,应当在此阶段发现并且删除。否则,它们将导致产生错误的挖掘结果。同时,需要将数据转换成适合的形式。例如,在某些状况下,将数据转换成向量形式。另外,为了寻觅更多重要的特征和减少数据挖掘步骤的负担,我们可以将数据从一个高维空间转换到一个低维空间。

4.数据挖掘:数据挖掘步骤主要是根据数据建立模型。我们可以在这个步骤使用各种数据挖掘算法和技术。然而,对于特定的任务,需要选择正确适合的算法,来解决相应的问题。

5.信息解释:首先,通过数据挖掘技术发现的知识需要专家对其进行解释,帮助解决实际问题。然后,根据可用性、正确性、可理解性等评价指标对解释的结果进行评估。只有经过这一步骤的过滤,数据挖掘的结果才能够被应用于实践。

6.可视化:可视化技术主要用来通过图形化的方式显示数据和数据挖掘的结果,从而帮助用户更好的发现隐蔽在数据之后的知识。它可以被应用在数据挖掘的整个过程,包括数据预处理、数据挖掘和信息解释。数据和信息的可视化显示对用户来说十分重要,由于它能够加强可理解性和可用性。

其次章:系统分析

系统用户分析:

系统功能分析:

系统算法分析:

第三章:数据管理

数据管理的方法:

数据管理的具体实现:

第四章:数据采集

数据采集的方法

数据收集:数据是挖掘知识最原始的资料。“垃圾进,垃圾出〞,只有从正确的数据中才能挖掘到有用的知识。为特定问题选择数据需要领域专家参与。因此,领域问题的数据收集好之后,和目标信息相关的属性也选择好了。

数据采集的具体实现过程

第五章:数据预处理

数据预处理的方法:

数据预处理:数据选择好以后,就需要对数据进行预处理。数据预处理包括:去除错误数据和数据转换。错误数据,在统计学中称为异常值,应当在此阶段发现并且删除。否则,它们将导致产生错误的挖掘结果。同时,需要将数据转

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论