逐步判别分析算法_第1页
逐步判别分析算法_第2页
逐步判别分析算法_第3页
逐步判别分析算法_第4页
逐步判别分析算法_第5页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第一章数据挖掘与其它数据处理方法1.1 数据挖掘与传统分析方法的区别数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数 据挖掘是在没有明确假设的前提下去挖掘信息、 发现知识。数据挖掘所得到的信 息应具有先未知,有效和可实用三个特征。先前未知的信息是指该信息是预先未曾预料到的, 既数据挖掘是要发现那些 不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越 是出乎意料,就可能越有价值,在商业应用中最典型的例子就是一家连锁店通过 数据挖掘发现了小孩尿布和啤酒之间有着惊人的联系。1.2 数据挖掘和数据仓库大部分情况下,数据挖掘都要先把数据从数据仓库中拿到数据挖掘库或

2、数据 集市中(见图8.1)。从数据仓库中直接得到进行数据挖掘的数据有许多好处。数据仓库的数据清理和数据挖掘的数据清理差不多,如果数据在导入数据仓 库时已经清理过,那很可能在做数据挖掘时就没必要在清理一次了,而且所有的数据不一致的问题都已经被解决了。数据挖掘库可能是数据仓库的一个逻辑上的 子集,而不一定非得是物理上单独的数据库。 但如果数据仓库的计算资源已经很 紧张,那最好还是建立一个单独的数据挖掘库根据挖掘的任务可以分为:分类和预测模型发现、数据总结和聚类、关联规 则发现、序列模式发现、相似模式发现和混沌模式发现等。根据挖掘对象来分, 数据挖掘方法有面向关系数据库、空间数据库、时态数据库、文本

3、数据源、多媒 体数据库、面向对象数据库、异质数据库以及 WEB!息等。根据挖掘方法来分, 数据挖掘方法可分为机器学习方法、 统计方法、神经网络方法和数据库方法。其 中机器学习可细分为归纳学习方法、 基于范例学习、遗传算法等;统计方法可细 分为回归分析、判别分析、聚类分析、探索性分析等;神经网络方法可细分为前 向神经网络、自组织神经网络等;数据库方法主要是多维数据分析或联机分析方 法,另外还有面向属性的归纳方法。数据挖掘之所以被称为未来信息处理的骨干技术之一,主要在于它以一种全新的 概念改变着人类利用数据的方式。数据挖掘和知识发现使数据处理技术进入了一 个更高级的阶段。它不仅能对过去的数据进行简

4、单的查询, 并且能够找出过去数 据之间的潜在联系,进行更高层次的分析,以便更好地做出理想的决策、预测未 来的发展趋势等。数据挖掘技术将人们认识和利用数据的三个阶段数据、信息、和知识有机的 结合在一起。从数据、信息和知识三个层面上看,数据是最原始的未经组织和处 理的信息源。信息或称有效信息是指对人们在某些方面有价值的东西。知识是一 种现实世界信息的抽象和浓缩,是一种概念、规则、模式和规律等。数据挖掘技 术通过对原始数据进行微观、中观乃至宏观的统计、分析、综合和推理,发现数 据问的关联性、未来趋势以及一般性的概括知识等, 转变成可以用来指导人们某 些高级商务活动的有用信息。1.3 数据挖掘技术将来

5、的发展趋势:1)数据挖掘技术已经存在相当大市场, 将成为对工业产生重要影响的关键技术 之一。同时,并行计算机体系结构研究和 KD疝被列入今后5年内公司应该 投资的10个新技术领域之一。这些资料都表明,数据挖掘技术在将来有很大 的发展潜力及空间。2)数据挖掘技术作为一门新技术,仍有许多问题需要研究、解决和探索。分析 目前的研究和应用现状,对于数据挖掘技术将来的工作重点有:a.数据挖掘技术与特定商业逻辑的平滑集成问题;b.数据挖掘技术与特定数据存储类型的适应问题;c.大型数据的选择和规格化问题;d.数据挖掘系统的构架与交互式挖掘技术;e.数据挖掘语言与系统的可视化问题;f. 数据挖掘理论与算法研究

6、。分类是数据挖掘中一项非常重要的任务, 目前在商业上的应用最多。分类的目 的是提出一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中 的数据项映射到给定类别中的某一个。 分类和回归都可用于预测,预测的目的是 从历史数据记录中自动推导出对给定数据的推广描述,从而能对未来数据进行预测。分类的效果一般和数据的特点有关,有的数据噪声大,有的有缺省值,有的 分布稀疏,有的字段或属性间相关性强,有的属性是离散的而有的是连续值或混 合式的。目前普遍认为不存在某种方法能适合各种特点的数据。下面介绍几种常用的分类算法。构造一个决策树分类器通常分为两步:树的生成和剪枝。树的生成采用自上 而下的递归分治

7、法。如果当前训练例子集合中的所有实例是同类的,构造一个叶 节点,节点内容即是该类别。否则,根据某种策略选择一个属性,按照该属性的 不同取值,把当前实例集合划分为若干子集合。对每个子集合重复此过程,直到 当前集中的实例是同类的为止。剪枝就是剪去那些不会增大树的错误预测率的分 枝。经过剪枝,不仅能有效的克服噪声,还使树变得简单,容易理解。生成最 优的决策树同样是NP问题。目前的决策树算法通过启发式属性选择策略来解决 问题。第二章逐步判别算法2.1 逐步分析法概述逐步判别分析法是多元统计学中的一类重要方法。它在生物学、农学、医学 等领域中有着广泛的应用。以前的多元统计分析计算程序大多是在 pc-15

8、00机上 用低版本的BASIC语言开发的,存在着用户界面差,程序通用性、可移植性差等 缺点。随着多元统计方法应用领域的不断扩大及计算机软、硬件技术的发展,开发一个用户界面好、程序通用性强的多元统计分析软件包具有较高的实用价值。 本章针对逐步判别的思想,进行了算法分析和编程,同时注意到程序的通用性、 可移植性、可靠性和用户界面友好等软件特性。在实际生活中,我们常会碰到这样的问题:如果已经存在某个准则,由它我 们肯定知道原始样本来自某总体,但由于一些客观存在的原因,如:信息丢失, 不能获得充足的信息、对某件事进行预测、破坏性试验等等,使我们不能使用这 个准则,但我们可以用数学的方法,从已知的材料和

9、准则出发,设置一个准则, 使来源未知的个体分配到正确的总体中去。 逐步判别是先从所有因子中挑选一个 具有最显著判别能力的因子,然后再挑选第二个因子,这因子是在第一因子的基 础上具有最显著判别能力的因子,即第一个和第二个因子联合起来有显著判别能 力的因子;接着挑选第三个因子,这因子是在第一、第二因子的基础上具有最显 著判别能力的因子。由于因子之间的相互关系,当引进了新的因子之后,会使原 来已引入的因子失去显著判别能力。 因此,在引入第三个因子之后就要先检验一 下各已经引入的因子是否还具有显著判别能力,如果有就要剔除这个不显著的因 子;接着再继续引入,直到再没有显著能力的因子可剔除为止。用这样挑选

10、出来的因子建立的判别函数进行判别,就能得到较高的判别准确率。2.2 逐步判别的主要算法分析第一步:列出原始数据,包括总体个数 G;判别变量个数同各已知总体中样 本个数Ni (i=1,2 , - G,样品总数N=N1+N2 +-+NG;引入和剔除变量的临界值F1 和 F2 (一月取 F1=F2).第二步:计算各总体的均值和总均值分类均值Xj 1 =工Ji X . 1 1=1,2G j=1,2MN awXajG Ni总均值 XJ =' ' Xaj1 j=1,2mN i aT第三步:计算组内离差阵 Wft总离着阵TW=(Wj) m XmT =(j)m Xm,不 JNil lll其中

11、Wij=(Xi Xi )(Xaj-Xj)i £ i TG Ni tij = " (Xai Xi)(X; Xj)gZ.Gi =1 a £第四步:逐步计算:a剔除变量:l计算每个已选入变量的U i|(L-1)= 4,挑选最大的U|(L-1),假设r变量的Ur|(L-1)Wi为最大,作F检验:匚 1 -Ur |(L -1) N -G -(L -1)F =.Ur |(L -1)G -1,若F<F1 ,则把X1从判别函数中剔除。b选入变量:l计算未选入变量的UiiKL):,挑选最小的UJ(L-1),假设r变量的Ur| (L) tii为最小,作F检验F =1 -Ur |(L) N G - L :若F>F1 ,则把xr引入判别函数Url(L) G-1C消去过程:当剔除变量/Wrj /WrrXr或引入变量lxr,都同样运用下列公式进行消去。(i 1)WjWij -Wir.Wrj/Wrrl1/Wrrll-Wir /Wrrj 二r j 二 r j =r j 二 r(l) l(i 1) ti

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论