(计算机软件与理论专业论文)基于自组织映射网络的数据挖掘算法研究及应用.pdf_第1页
(计算机软件与理论专业论文)基于自组织映射网络的数据挖掘算法研究及应用.pdf_第2页
(计算机软件与理论专业论文)基于自组织映射网络的数据挖掘算法研究及应用.pdf_第3页
(计算机软件与理论专业论文)基于自组织映射网络的数据挖掘算法研究及应用.pdf_第4页
(计算机软件与理论专业论文)基于自组织映射网络的数据挖掘算法研究及应用.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(计算机软件与理论专业论文)基于自组织映射网络的数据挖掘算法研究及应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

上海大学硕士学位论文 原创性声明 本人声明:所呈交的论文是本人在导师指导下进行的研究工作。 除了文中特j 郅j j n 以标注和致谢的地方外,论文中不包含其他人己发 表或撰写过的研究成果。参与同一工作的其他同志对本研究所做的 任何贡献均已在论文中作了明确的说明并表示了谢意。 本论文使用授权说明 期:丝兰l 二 本人完全了解上海大学有关保留、使用学位论文的规定,即:学 校有权保留论文及送交论文复印件,允许论文被查阅和借阅;学校可 以公布论文的全部或部分内容。 ( 保密的论文在解密后应遵守此规定) 日期:掣 上海大学硕士学位论文 摘要 在最近的二十年里电子格式存贮的数据以惊人的速度激增,形成了海罱的 数据和信息。数据挖掘是从大型数据库或数据仓库中发现并提取隐藏在其中的信 息的一种新技术,包括统计学习和人工神经网络等方法。 自组织映射网络是一种无监督学习的神经网络,在拓扑保持的同时,可以将 高维的输入数据以低维的形式表达出来,故s o m 可以作为一种可视化的方法, 适用于对数据进行分析以提取有用的信息,由于s o m 的这利,特性,在数据挖掘 中广为应用。在本文中我们提出了一种用来进行数据分析聚类的新型白组织映射 网络g r o w i n gh i e r a r c h i c a ls e l f - o r g a n i z i n gm a p ( g h s o m ) ,它的特点是不需要 预先获知关于数据集的任何信息,在聚类的同时也将数据集的层次结构呈现出 来。 为了检验g h s o m 对数据集类别和层次结构的揭示能力,我们使用g h s o m 对高维数据小鼠中枢神经系统数据集和酵母细胞周期数据集进行聚类利分 类处理。最后通过与其他聚类算法的比较,说明了g h s o m 本身具有比较理想 的数据处理能力。 本论文的主要贡献为: 1 ) 提出了一种新的白组织映射算法g h s o m ; 2 ) 将g h s o m 应用于微阵列数据的分析,来检验算法的有效性。 关键词:数据挖掘,数据预处理,人工神经网络,自组织映射网络,微阵列 上海大学硕士学位论文 a b s t r a c t t h ep a s tt w od e c a d e sh a ss e e nad r a m a t i ci n c r e a s ei nt h ea m o u n to fi n f o r m a t i o n o rd a t ab e i n gs t o r e di ne l e c t r o n i cf o r r n a t t h i sa c c u m u l a t i o no fd a t ah a st a k e np l a c ea t a ne x p l o s i v er a t e d a t am i n i n gj st h en o n t r i v i a le x t r a c t i o no fi m p l i c i t p r e v i o u s l y u n k n o w n a n dp o t e n t i a l l yu s e f u li n f o m a a t i o nf r o md a t at h i se n c o m p a s s e san u m b e r o f d i f f e r e n tt e c h n i c a la p p r o a c h e s s u c ha ss t a t i s t i cl e a r n i n g a r t i f i c i a ln e u r a ln e t w o r k s s e l f - o r g a n i z i n gm a p s ( s o m ) a r eu n s u p e r v i s e dl e a r n i n gn e u r a ln e t w o r k s t h e y p r o v i d eam a p p i n gf r o mh i g h d i m e n s i o n a ld a t ao n t oal o w e rd i m e n s i o n a lo u t p u tm a p , w h i l ep r e s e r v i n gt h et o p o l o g yo ft h ei n p u td a t as o mv i s u a l i z a t i o nm e t h o d sa r eu s e d t oe x t r a c tk n o w l e d g ea n du s e f u li n f o r m a t i o nf r o mt h ed a t aa c c o r d i n gt ot h i sp r o c e s s t h es o mi se x t e n s i v e l yu s e di nd a t am i n i n ga p p l i c a t i o n sw ed e v e l o pn o v e ls o m t e c h n i q u e sf o rd a t ae x p l o r a t i o na n dc l u s t e r i n g :an o v e ls o mm o d e ln a m e dg r o w i n g h i e r a r c h i c a ls e l f - o r g a n i z i n gm a p ( g h s o m ) ,w h i c hi se n t i r e l yd a t ad r i v e n ,r e q u i r i n g n os p e c i f i c a t i o n ,t h u sh e l p st of i n dn o to n l yt h ea p p r o p r i a t en u m b e ro fc l u s t e r sb u t a l s ot h eh i e r a r c h i c a lr e l a t i o n si nt h ed a t as e t , w ea p p l i e dt h eg h s o ma sc l u s t e r i n ga n dc l a s s i f i c a t i o nt o o l sf o rs e v e r a l h i g h d i m e n s i o n a la p p l i c a t i o n s i tw a sa p p l i e dt or a tc e n t r a ln e r v o u ss y s t e md a t as e t a n dy e a s tc e l lc y c l ed a t as e t i nb o t ho ft h et w od a t as e t sa p p l i c a t i o no ft h eg h s o m ,t h eo b j e c t i v ei st oa p p l y t h eg h s o mt of i n dt h ea p p r o p r i a t en u m b e ro fc l u s t e r sa n dt h eh i e r a r c h i c a lr e l a t i o n s o ft h ed a t as e t s t od e m o n s t r a t et h ea c c u r a c y , w ea l s oc o m p a r e dg h s o mw i t ho t h e r c l u s t e r i n ga l g o r i t h m s ;i tt u r n e do u tt ob et h a tg h s o m h a v eah i g h e rp e r f o r m a n c e t h ec a r d i n a lc o n t r i b u t i o n so f t h i st h e s i sa r el i s t e da st h ef o l l o w i n g : 1 ) i n t r o d u c e dan o v e ls e l f - o r g a n i z i n gm a pa l g o r i t h mt oi m p r o v ec l u s t e r i n g p e r f o r m a n c e ; 2 ) a p p l y i n gg h s o m i nm i c r o a r r a ya n a l y s i st oi n v e s t i g a t et h ee f f e c t i v e n e s so f t h ea l g o r i t h m k e yw o r d s :d a t am i n i n g ,d a t ap r e p r o c e s s i n g ,a r t i f i c i a l n e u r a l n e t w o r k s , s e l f - o r g a n i z i n gm a p ,m i c r o a r r a y 2 上海大学硕士学位论文 第一章绪论 l _ 1 研究背景及意义 随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数 据越来越多。科学技术的发展更是为科学家带来了海量的数据和信息。激增的数 据背后隐藏着许多重要的信息人们希望能够对其进行更高层次的分析,以便更 好地利用这些数据。目前的数据库系统可以高效地实现数据的录入、查询、统计 等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的 发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏” 的现象。 在数据库飞速发展的同时,计算机技术的另一个重要研究领域人工智能 自1 9 5 6 年诞牛之后取得了长足发展。经历了博弈时期、自然语言理解、知识工 程等阶段,目前的研究热点是机器学习。机器学习是用计算机模拟人类学习的一 门科学,比较成熟的算法有神经网络、遗传算法等。 用数据库管理系统来存储数据,用机器学习的方法来分析数据,挖掘人量数 据背后的知识,这两者的结合促成了数据库中的知识发现( k n o w l e d g ed i s c o v e r y d a t a b a s e s ,简记k d d ) 的产生。实际上,数据库中的知识发现是一门交叉性学科, 涉及到机器学习、模式识别、统计学、智能数据库、知识状取、数据可视化、高 性能计算、专家系统等多个领域。从数据库中发现出来的知识可以用在信息管理、 过程控制、科学研究、决策支持等许多方面。 数据挖掘是知识发现过程的一个重要的步骤,它是从大型数据库或数据仓库 中发现并提取隐藏在其中的信息的一种新技术目的是帮助决策者寻找数据间潜 在的关联,发现被忽略的要素,这些信息对预测趋势和决策行为是十分有用的。 数据挖掘技术能从数据仓库中自动分析数据,进行归纳性推理,从中发掘出潜在 的模式或产生联想,建立新的业务模型,帮助决策者做出正确的决策。 神经网络作为一种先进的人工智能技术,它不仅可以避开建立复杂的数学模 型和进行繁琐的数学推理,而且十分适合处理非线性和含噪声的数据,尤其是刘 那些以模糊、不完整、不严密的知识或数据为特征的处理问题。数据挖掘工具要 上海大学硕士学位论文 面对的正是一些有噪声、杂乱、非线性的数据,处理这些问题正是神经网络的优 势。而在神经网络的实现过程中,又往往需要大量的数据来产生充足的训练和测 试样本集以便有效的训练和评估神经网络的性能。正是由于神经网络具有这些优 点,研究基丁二神经网络的数据挖掘方法就具有一定的理论意义和实用价值。 1 2 研究动机及作者所做工作 随着人类基因组计划( h g p ) 的开展和深入,j 。生了海量的基因组序列数据 和信息。如何利用这些研究成功进行基因功能的解析和开发,已经成为功能基因 组学研究的重要任务 1 ,2 。基因芯片技术给基因功能研究一个全新的契机。它 自1 9 8 9 年由s o u t h e r n 3 提出后,即受到多方重视和广泛应用,被评为2 l 世纪 最有发展前途的2 0 项高新技术之。利用这技术,可以同时观察成千上万个 基因在不同状态下的表达水平( 即基因表达谱) ,由此不仅将基因的功能信息比 较完整地展现出来,也可以在摹因水平上探讨样本的特征,如肿瘤发生、细胞分 化等生命现象,并在此基础上进行样本分型等研究。然而,基因芯片所提供的只 是庞大的数据集即基因表达矩阵,所蕴藏的用于分型研究的基因信息并非一目r 然,相反,需要复杂的统计学方法从中挖掘相关的生物信息。这里的统计学方法 是指使用数据挖掘处理数据的方法。数据挖掘已经历了5 0 多年的发展,目前为 止研究者已经积累了大量的知识。把数据挖掘方法运用到基因数据处理巾,必将 发挥巨大的作用,指导和检验生物科学的研究进展。 由于神经网络本身具有良好的鲁棒性、自组织自适应性、并行处理、分布存 储和高度容错性等特点,故神经网络非常适合用来解决数据挖掘的问题,因此近 年来越来越受到人们的关注。典型的神经网络模型主要分3 大类:以中层感知器、 多层感知器、径向基函数网络为代表的,用于分类、预测和模式识别的前馈式神 经网络模耍! :以h o p l j e l d 的离散模型和连续模型为代表的,分别用于联想记忆和 优化计算的反馈式神经网络模型:以自组织映射网络、自适应谐振网络为代表的, 用于聚类的自组织映射方法( s o m ) 。s o m 是芬兰科技大学t k o h o n e n 4 教授 提出的一种无监督学) 的神经网络,这是一种基于竞争学习进行迭代的神经网 络,将高维的输入数据映射到低维的输出,通常是一维或两维。所以,s o m 经 常用来降维和聚类分析。本文提出了一种新的自组织映射网络一利,无监督学 上海大学硕士学位论文 习的神经网络,并应用其进行数据的聚类、分类和预测。这种新型的s o m 技术在 聚类和分类的同时还可以揭示高维数据的隐含的层次结构。 本论文主要是研究基于神经网络的数据挖掘方法,着重研究数据挖掘中的聚 类方法及其在生物信息数据处理上的应用。这一题目涉及到了当前科学界的研究 热点,具有显然的科学意义和很高的应用价值。可概括为以下几个方面: ( 1 ) 作者通过查阅国内外大量相关技术文献,在了解各种数据挖掘算法的基 础上,针对大规模科学数据集研究数据挖掘算法。 f 2 ) 在分析比较数据挖掘的各种方法技术上,采用神经网络的自组织映射网 络模型实现了具体的数据挖掘模型。 ( 3 ) 在理解和掌握自组织映射网络算法的基础上,针对s o m 算法的缺点, 结合层次聚类的特点,提出了一种改进的s o m 算法。而且,对其中改进的s o m 算法进行了大量的实验与分析研究。 本论文各章节的安排如f : 第二章介绍了数据挖掘技术; 第三章介绍了神经网络数据挖掘方法中的数据准备; 第四章介绍了竞争神经网络重点是自组织特征映射网络; 第五章研究了对自组织映射网络的改进; 第六章讨论了改进的自组织映射网络在生物信息中的应用。 上海大学硕士学位论文 第二章数据挖掘 2 1 数据挖掘的研究现状和发展趋势 目前,国外数据挖掘的研究方面主要有:对知识发现方法的研究进一步发展, 如近年来注重对b a y e s 方法以及b o o s t i n g 方法的研究和提高;传统的统计学回归 法在k d d 中的应用;k d d 与数据库的紧密结合。在应用方面包括:k d d 商业 软件工具不断产生和完善,注重建立解决问题的整体系统,而不是孤立的过程。 用户主要集中在大型银行、保险公司、电信公司和销售业。国外很多计算机公司 非常重视数据挖掘的开发应用,i b m 和微软都成立了相应的研究中心进行这方面 的工作。许多著名的计算机公司开始尝试开发k d d 软件 5 ,譬如s a s 公司的 c l e m e n t i m e ,还有k n o w l e d g ed i s c o v e r yw o r k b e n c h ,d bm i n e lq u e s t 等。w e b 数 据挖掘产品有n e tp e r c e r p t i o r s ,a c c r u ei n s i g h t 和a c c r u eh i tl i s t ,c o m m e r c e t r e n d s 等。 与国外相比,国内对k d d 的研究稍晚,目前进行的大多数研究项目是由政 府资助进行的,如国家自然科学基金、8 6 3 计划、“九五”计划等。国内从事数 据挖掘研究的人员主要在大学,也有部分在研究所或公司。所涉及的研究领域很 多,一般集中于学习算法的研究、数据挖掘的实际应用以及有关数据挖掘理论方 而的研究。但是到目前为止,国内还没有比较成熟的数据挖掘产品。 当前,数据挖掘研究正方兴未艾,预计今后还会形成更大的高潮,研究焦点 可能会集中到以下几个方面: ( 1 ) 研究专门用于知识发现的数据挖掘语言,也许会像s q l 语言一样走向形 式化和标准化: ( 2 ) 寻求数据挖掘过程中的可视化方泫,使得知识发现的过程能够被用户理 解,也便于在知识发现过程中的人机交互: ( 3 ) 研究在网络环境下的数据挖掘技术,特别是在i n t e r n e t 上建立数据挖捌 服务器,与数据库服务器配合,实现数据挖掘; ( 4 ) 加强对各种非结构化数据的挖掘,如文本数据、图形图像数据、多媒体 数据。但是,数据挖掘将首先满足信息时代用户的急需,因此,研制开发大量基 上海大学硕士学位论文 于数据挖掘的决策支持软件工具产品将是首要的任务。目前有很多通用的数据挖 掘系统趋向于提供适用于各种商业应用的横向解决方案,而不是针对某个特定的 应用的解决方案。对某个特定领域的一些数据或应用可能需要特定的算法来查找 模式,而通用的数据挖掘系统对这些特定领域的数据有其固有的局限性,有可能 不能满足要求。因此,研制基于某个特定领域的数据挖掘工具将显得尤为重要。 专用的数据挖掘系统能够提供纵向解决方案,把特殊领域的业务逻辑和数据挖掘 系统集成起来,将数据分析技术与特定领域知识结合以完成特定的任务。目前的 应用领域多集中于生物医学、d n a 分析、金融、零售业和电信部门等。 2 2 数据挖掘系统的组成 所谓数据挖掘( d a t am i n i n g ,简记d m ) ,就是从大量的、不完整的、有噪声 的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、 但又是潜在有用的信息和知识的过程。这个定义包括好几层含义:数据源必须是 真实的、大量的、含噪声的:发现的是用户感兴趣的知识:发现的知识耍可接受、 可理解、可运用:并不要求发现放之四海皆准的知识,仅支持特定的发现问题 6 。 一个典型的数据挖掘系统结构如图2 1 所示。它主要包含以下主要部件: 数掘清洗 数掘集成 图2 1 典型的数据挖掘系统结构 上海大学硕士学位论文 数据库、数据仓库或其他信息库。它表示数据挖掘的对象是由一个( 或一组) 数据库、数据仓库、电子表格或其他类型的信息库组成。通常需要使用数据清洗 和数据集成操作,对这些数据对象进行初步的处理。 数据库或数据仓库服务器。根据用,o 的数据挖掘请求,数据库或数据仓库服 务器负责提取相关数据。 知识库。知识库用来存放数据挖掘所需的领域知识,这些知识将用丁= 指导数 据挖掘的搜索过程,或者用于帮助对挖掘结果的评估。 数据挖掘引擎。这是数据挖掘系统最基本部件,由- n 功能模块组成,用于 特征化、关联、分类、聚类分析、以及演变和偏差分析。 模式评估模块。该模块可根据趣味标准( i n t e r e s t i n g n e s sm e a s u r e s ) ,协助数据 挖掘模块聚焦挖掘更有意义的模式知识,模式评估模块也可以与挖掘模块集成在 一起,这依赖于所用的数据挖掘方法的实现。 可视化用广r 界面。该模块在用户和数据挖掘系统之间通信,允许用户与系统 交互。一方面用户通过该模块将自己的挖掘要求或任务提交给挖掘系统,以及提 供挖掘搜索所需的相关知识:另一方而系统通过该模块向用户展示或解释数据挖 掘的结果或中间结果。此外该模块也可以帮助用户浏览数据对象内容与数据定 义模式、评估所挖掘的模式知识,以及以多种形式展示挖掘出的模式知识。 2 3 数据挖掘过程 2 3 1 确定业务对象 清晰的定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。挖掘 的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据 挖掘则带有盲目性,是不会成功的。 2 3 2 数据准备 ( 1 ) 数据的选择 搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据 挖掘应用的数据。 ( 2 ) 数据的预处理 上海大学硕士学位论文 研究数据的质量,为进一步的分析做准备并确定将要进行的挖掘操作的类 型。 ( 3 ) 数据的转换 将数据转换成一个分析模型,这个分析模型是针对挖掘算法建立的。建立一 个真正适合挖掘算法的分析模型足数据挖掘成功的关键。 2 3 3 数据挖掘 对所得到的经过转换的数据进行挖掘。除了完善从选择合适的挖掘算法外, 其余一切工作都能自动完成。 2 3 4 结果分析 解释并评估结果。其使用的分析方法一般应作数据挖掘操作而定,通常会用 到可视化技术。 2 3 5 知识的同化 将分析得到的知识集成到业务信息系统的组织结构中去。 2 4 数据挖掘的功能 数据挖掘通过预测未来趋势及行为,做出前摄的、基于知识的决策。数据挖 掘的目标是从数据库中发现隐含的、有意义的知识,主要有以下六类功能: 2 4 1 概念类描述:特征化和区分 数据可以与类或概念相关联。例如,电子市场里销售的商品类包括计算机和 打印机。用汇总的、简洁的、精确的方式描述每个类和概念是很重要的,这种概 念或类的描述成为概念类描述( c o n c e p t c l a s sd e s c r i p t i o n ) 。这种描述可以通过下 述方法得到: ( 1 ) 数据特征化:一般地汇总所研究类( 通常称为目标类) 的数据。 ( 2 ) 数据区分:将目标类对象的一般特性与一个或多个对比类对象的般特 性进行比较。 2 4 2 关联分析 关联分析发现关联规则,这些规则展示属性一值频繁地住给定数据集r 卜一 上海大学硕士学位论文 起出现的条件 7 。关联分析广泛应用于购物篮或事务数据分析。设 ,= i l , i ,i 。) 是二进制文字的集合t 其中的元素称为项。记d 为交易t 的集合, 这里交易t 是项的集合,并且t ,。对应每一个交易有唯一的标识,如交易号, 记做t i d 。设x 是一个i 中项的集合,如果x e t ,那么称交易t 包含x 。 一个关联规则是形如s u p p o r t ( x j l ,) = l 7 1 :x w y 7 ,t d i i d l 的蕴 涵式,这里c ,y c ,并且x n y = 。规则x jy 在交易数据库d 中的支持 度( s u p p o r t ) 是交易集中包含x 和y 的交易数与所有交易数之比,记为 s u p p r o t ( x jy ) ,即s u p p o r t ( x jy ) = l 7 :x u y r ,t d ) l i d 【 规则x jy 在交易集中的可信度( c o n f i d e n c e ) 是指包含x 和y 的交易数 与包含x 的交易数之比,记为c o n f i d e n c e ( x y ) ,即 c o n f i d e n c g ( x j y ) = l 丁:j u y r ,t d ) i 矿:x r ,t d i 如果不考虑关联规则的支持度和可信度,那么在事务数据库中存在无穷多 的关联规则。事实上,人们一般只对满足一定的支持度和可信度的关联规则感兴 趣。 一般称满足一定要求的( 如较大的支持度和可信度) 的规则为强规则。因此, 为了发现出有意义的关联规则,需要给定两个闯值:最小支持度和最小可信度。 前者即用户规定的关联规则必须满足的最小支持度,它表示了一组物品集在统计 意义上的需满足的最低程度:后者即用户规定的关联规则必须满足的最小可信 度,它反映了关联规则的最低可靠度。 2 4 3 分类和预测 分类在数据挖掘中是一项非常蕈要的任务,目前在商业上应用最多。分类的 目的是学会一个分类函数或分类模型( 又称分类器) ,该模型能把数据库中的数据 项映射到给定类别中的某一个。分类和回归都可用于预测。预测的目的是从历史 数据记录中自动推导出对给定数据的推广描述,从而能对未来数据进行预测。和 回归方法不同的是,分类的输出是离散的类别值,而回归的输m 是连续数值。 2 4 4 聚类 1 , 上海大学硕士学位论丈 聚类与分类不同。在分类中,对于目标数据库中存在哪些类这一信息我们是 事先知道的。但是,聚类是住预先不知道日标数据库到底有多少类的情况下,希 望将所有的记录组成不同的聚类,并目使得存这种分类情况下,以某种度量为标 准的相似性,在同一聚类之间最大化,而在不同聚类之间最小化。 2 4 5 孤立点分析 数据库可能包含一些数据对象,他们与数据的一般行为或模型不一致这些 数据对象是孤立点( o u t l i e r ) 。大部分数据挖掘的方法将孤立点视为噪声或异常而 丢弃。然而,在一些应用中( 如欺骗检测) ,罕见的事件可能比正常出现的那些更 有价值。 2 4 6 演变分析 数据演变分析( e v o l u t i o na n a l y s i s ) 描述行为随时间变化的对象的规律或趋 势,并对其建模。这类分析除包括时间相关数据的特征化、区分、关联、分类或 聚类,还包括时间序列数据分析、序列或周期模式匹配和基于类似性的数据分析。 上海大学硕士学位论文 第三章神经网络数据挖掘方法中的数据准备 数据挖掘是从大型数据源中抽取人们感兴趣的知识。这些知识是隐含的、事 先未知的和潜在有用的重要信息。数据挖掘过程一般由数据准备、数据挖掘和结 果的解释与评价三个阶段组成。数据挖掘的结果及其质量与被挖掘数据的数量和 质量息息相关。数据准备就是对被挖掘数据进行定义、处理和表示,使它适应于 特定的数据挖掘方法。数据准备是数据挖掘过程中的第一个重要步骤,在整个数 据挖掘过程中起着举足轻重的作用。神经网络己被证明是一种行之有效的数据挖 掘方法。南于神经网络方法的特殊性,数据准备显得尤为重要,大约5 0 到7 5 的开发时问花费在数据处理上。 3 1 数据清洗与选择 一般来说,数据仓库中的数据来源于异质操作数据库。这些异质操作数据库 中的数据并不都是正确的,常常不可避免地存在着小完整、不一致、不精确和重 复的数据,这些数据统称为脏数据。在将数据装入到数据仓库时,都要对脏数据 进行清洗。 数据清洗可以在数据装入数据仓库之前进行,也可以在装入之后进行。数据 清洗技术一般可分为基于规则的方法、可视化方法和统计学法方法。基于规则的 方法根据字段定义域的元知识、约束和与其它字段的关系对该字段的每一数据项 进行评估:可视化方法以图形方式显示数据集的有效轮廓,从而很容易辨别脏数 据:统计学法方法通过统计技术填补丢失的数据和更止错误的数据。 将训练神经网络用的数据清洗并装入数据仓库之后,就需要选择用于本次挖 掘的数据。也许数据仓库中有1 0 0 0 个字段,但只有1 0 个字段能用于某一决策。 在许多情况下,虽然并不能确切地知道哪些参数对于某决策来说是重要 的,但神经网络可以辅助解决这个问题,并建立一个与此参数相关的模型。数据 选择实际上是在两个维上进行的。首先是列或参数维的选择,它是数据挖掘过程 的一部分:其次是行或记录维的选择,这个选择基于各个字段的值。在关系数据 库( r d b ) 中无论是列还是行的选择,都可以通过s q l 语言进行,也可通过 数据库前端工具进行。 上海大学硕士学位论文 数据选择要求对问题域和基础数据有详细而深入了解。将数据选择好之后, 在进行挖掘之前还需对数据进行预处理。 3 2 数据预处理 数据预处理就足对选择的干净数据进行增强处理的过程。这种增强处理有时 包含了根据一个或多个字段产生新的数据项,有时意味者用一个信息量更大的字 段替代若干个字段 8 ,9 。应该晚明的是,输入字段的数目不应该是提供给数据 挖掘算法信息量的量度。有些数据可能是冗余数据,也就是说有些属性只不过是 相同事实的不同度量方式而已。对神经网络数据挖掘来说,还需要将数据转化成 一种能够彼神经网络数据挖掘算法接受的形式。 l 、汁算属性 数据挖掘的一个共同需求就是根据两个或多个字段产生一个新的字段或属 性。常常采用两个数据的比值的形式,也町以是其和、积和差的形式。其它的变 换可以足将一个日期转化为一个星期中的某一天或一年中的某一天。计算属性往 往是必须的因为事务处理应用主要用于处理记录事务的尽可能少的数据,它只 要求尽可能降低存储要求和减少处理时间,而不是收集更多的事务信息。 2 、比例变换 比例变换就是对数据进行适当的处理以适应神经网络对数据的特殊要求。根 据神经元激励函数的刁i 同,大多数神经网络模型只接受 0 0 ,1 0 和 一1 0 , + 1 0 范围的数值数据。因此,数据必须按比例缩小到这个区间内。标量数值 数据基本上均匀地分布在某一范围内,可以直接映射到区间 0 0 ,1 0 。若数 值数据分布不均匀,可用分段线性方程或对数方程对数据进行转换,然后再按比 例缩小到指定区间。离散数据通过用0 和l 对其进行编码来表示,或存指定的连 续区间为它们赋一个值。 3 、标准化 用向量或数组表示的数值数据有时可分组处i 哩,即将向量作为一个整体进行 标准化处理。标准化方法有若干种,最常用的是计算元素平方和的平方根,然后 用它去除每一个元素。这叫做e u c l i d e a n 范数。第二种方法是首先求得所有元素 的和,然后用它去除每一个数。在这一种情况下,标准化后元素的和为l ,且每 上每大学硕士学位论文 一元素的值代表了它们对这个分组贡献的大小。第三种方法是用向量中的最大值 去除每一个元素。 4 、符号映射和类层次 在许多情况下,需要先将一种符号数据转化为另外一种符号数据,然后才能 将其转化为数值数据。一利t 常用的方法是将若干个类或组成员聚集为一个单一的 符号,以方便数据表示。例如,某一超市有2 0 种各种各样的快餐面待售,每一 种快餐面都有一个唯一的u p c 码。如果想要考察快餐面的销售情况,那么就要 将所有品种的快餐面视为一个来处理。也就是说需要将2 0 个符号映射为一个符 号。同时,在实际应用中,可以根据需要以不列的粒度对符号数据进行抽象,这 种不同粒度的抽象可形成一个类层次。前面介绍的映射技术也可用于考察类层次 中不同粒度的类。 5 、符号数据向数值数据的转换 神经网络数据挖掘方法只能处理数值数据,因此,需要将离散的符号数据转 化为数值数据。最简单的方法是建立一个符号和数字值一一对应的对照表。另一 种比较复杂的方法是采用合适的h a s h 函数,根据给定的字符串产生一个唯一的 数字值。 3 3 数据集管理 采用神经网络方法进行数据挖掘和应用开发的一个重要方面就是原始数据 的管理。最常用的方法是将原始数据随机地划分成两个数据集。其中一个数据集 用来训练神经网络,另一个用于测试网络的精度。必须保证神经网络处y - i j i l 练模 式时看不到测试数据。也就是说,它不能通过测试数据学习或调整它的权值。有 人甚至提出需要第三个数据集,而这个数据集必须与神经网络模型隔离开来。在 这种i 个数据集方案中,开发人员利用训练和测试数据集构造神经网络模型,第 三方用确认数据集独立地测试网络。一般情况下,训练数据集、测试数据集和确 认数据集的比例为8 0 ,1 0 和1 0 。 在有些情况下,这些常用的方法并不适用。例如,时态或时间序列数据在使 用时必须严格遵循连续的时态序列,只有这样才能保持它所包含的信息。从这些 数据集一十l 随机地选择数据将产牛灾难性的结果。在这种情况下,一种典型的做法 上海大学硕士学位论丈 是将某一时间段的数据用于训练,将最新数据用于测试或确认。另一种情况是数 据量不够,不能随机抽取具有代表性的样本数据。在这种情况下,需要采用统计 技术以确保训i 练和测试数据集中包含具有代表性的样本数据。 上海大学硕士学位论文 第四章竞争神经网络 竞争神经网络的显著特点是它的输出神经元相互竞争以确定胜者,胜者指出 哪一种原型模式最能代表输入模式。它一般是以无监督学习( u n s u p e r v i s e d l e a r n i n g ) 1 0 或称自组织学习( s e l f - o r g a n i z e d l e a r n i n g ) 方式来进行学习的。自组 织学习算法的目的是在无导师指导下寻找输入数据空间中的重要的模式或特征。 自组织学习的网络模型,比有监督学习的网络结构模型更接近生物神经系统,因 为网络的自组织过程正是大脑组织的一个基本现象。 自组织学习过程都是按照预定的规则和输入模式,重复修改系统中各连接权 值,直至形成一种全局有序的结构形态,这种结构形态是通过网络中许多相邻神 经元最初的局部相互作用而形成的,相邻神经元的这种局部相互作用也最终导致 网络在空f 司模式或时间节奏上的一致,这就是白组织现象的本质。因此竞争神经 网络在网络结构和学习算法上有自身的特点 1 1 ,1 2 : l 、在网络结构上,可由一个输入层和输出层组成,没有隐含层,输入和输 出层之间有前向连接,输出层各单元在许多情况下有侧向连接,从而起到抑制作 用。 2 、在学习算法上,遵循以下基本规则:每个神经元的能量都被限制:允许神 经元通过竞争对一个给定的输入子集做出响应,赢得竞争的神经元被称为获胜神 经元:在权值向量的更改规则作用f ,权值向量将不断逼近输入向量。竞争神经 网络工作的基本思想是让竞争层各神经元束竞争对输入模式响应的机会,最后仅 有一个神经元成为竞争的胜者。这一个获胜神经元的输出代表着对输入模式的分 类。因此,竞争网络自组织自适应的学习能力进一步拓宽了神经网络任模式识别、 分类方面的应用。 4 1 基于h a m m i n g 网络的聚类方法 4 1 1h a n m i n g 网络基本结构 h a m m i n g 网络由输入层和竞争层组成 1 3 ,输入层有n 个神经元,输出层 有m 个神经元,其网络基木结构如图4 1 所示。在图4 1 1 j 网络连接权为 ) , 上海大学硕士学位论文 n 2 ,z ,户,z ,麒且约束条件为= 1 网络的t 个二值输入学习模 f = 1 式为:吒= ( z ? ,x ;,x :) ,与其对应的竞争层输出模式为 k = ( y 扎建,蝴k ) ,k = l 2 ,t 。 竞争层 输入层 图4 1h a m m i n g 网络基本结构 4 1 2h a m m i n g 网络的学习算法 网络的学习过程采用竞争学习算法。而竞争学习包含以下主要过程:网络对 刺激做出响应,具有最大响应的神经元被激活,该神经元成为获胜神经元并获得 学习机会,更改神经元的权值。其中,只有最大响应的神经元被激活的这一特征 被称为“胜者为王”( t h e w i n n e r t a k e s a l l ) 机制。 具体地说,网络在接受训l 练向量之前先将输入层的权值赋予随机的初始值。 在h a m m i n g 网络竞争层的迭代过程结束后,将获胜神经元的输出y :指定为l , 其他所有未获胜的神经元的输出置为0 。在调整权值时,只对获胜神经元对应的 输入层中的神经元的权值向量进行相应调整,对输八层中的其余神经元的权值向 量不做任何变动。对获丹牛神经元的权值向量的更改采用h e b b 学习规则: 峨( h + 1 ) = ( 月) 十口( 掣( n ) ) ( 41 ) 式中,k 表示第k 个神经元在竞争中获胜:= w k 。,w k :,。 7 为获胜神经 元的权值向量;? = l k 。,k :,kl 。为第1 个输入向量:7 1 为学习速率,0 _ 1 学习算法如下: 1 、初始化。 上海大学硕士学位论文 根据= l 的约束条件,赋予 ) 为 o ,1 区问内的随机值 2 、任选t 个学习模式中的一个模式提供给网络的输入层。 3 、根据下式计算竞争层中各神经元的输入值s s ,= # = 1 2 ,n ( 1 2 ) 4 、根据“胜者为王”的原则,以s ( j = l ,e 。,m ) 中最大值对应的神经元c 作为胜者,降其输出状态置为1 ,其余所有神经元的输出状态置为0 ,即 j y c 叫,f ,s c = m a x ( 4 3 ) 【 y l2 0 ,e l s e 式中,f c ,= 1 ,2 ,m 。如果出现s j ( ,= l ,2 ,m ) 中最大值对应两个以 上神经元,则选择下标最小的神经元为获胜神经元。 5 、与捩胜神经元相连的各连接权根据下式进行调整,而其他连接权保持不变。 坤:( n + 1 ) = 弦:( n ) + q ( 二l 一纾:( h ) )( 4 4 ) v 式中,i = l ,2 ,n ,_ 为学习速率,0 吁 1 ;m 为第k 个学习模式 也= z ? ,呓,x : 7 中元素为1 的个数。公式( 4 4 ) 与公式( 4 1 ) 有些区别, 主要是增加了变量m ,其目的是使得网络在更新中始终满足兰:1 的条 件。 6 、选取另一个学习模式,返回步骤3 ,直至t 个学习模式全部提供给网络。 7 、返回步骤2 ,直至各连接权的调整量变得很小为止。 4 1 3h a m m i n g 网络的特点 h a m m i n g 网络在竞争层中采用侧抑制实现竞争获胜,而其学习算法是竞争 学习算法,它属于无监督学习网络。和前面的有监督学习网络相比,h a m m i n g 上海大学硕士学位论文 网络具有以下特点: l 、层与层之问是兴奋性连接,同层之间是抑制性连接: 2 、每个输出神经元的权值总值设为定值: 3 、权值调整是局部的,只有获胜神经元的权值才得到调整。 作为无蠊督网络,h a m m i n g 网络不需要导师信号,凶而适用于解决聚类问 题。但是网络本身也有以下问题: l 、和其他的神经网络一样,网络需要在学习速度和最终权值向量的稳定性之 间进行折衷。 2 、在h a m m i n g 网络中,竞争层中神经元的数目决定着类别个数,即有多少 个神经元对应有多少个类。这对于某些应用将无法适用尤其在事先并1 i 知 道类别个数的时候。 3 、权值的初始化会影响到网络训练后的效果,当某个神经元的初始权值向量 离输入向量太远时,就可能导致它从未在竞争中获胜,因此该神经元从来也 得不到训练,这将产生一个“死”神经元解决方法足给每个神经元的净输入 加入一个负的偏置值,这样当某个神经元每次竞争获胜时都将其偏置值减少, 从而使一个经常获胜的神经元获胜的机会减少。 4 2 基于自组织映射网络的聚类方法 h a m m i n g 网络作为竞争网络的最简单彤式,其最大特点是嘲络采用了胜者 为王的竞争机制。但是h a m m i n g 网络的这种竞争机制与生物神经元的竞争机制 有所不同。生物神经元在接受刺激并进行竞争产生获胜神经元后,获胜神经元不 但加强自身,而且带动周围的邻近神经元得以相应的加强,同时抑制周围距离较 远的神经元,这是所谓的“加强中心而抑制周围”现象。这种生物现象是基于神 经元之侧的突触权值实现的。在生物神经元中,神经元的突触权值与神经元涮距 离的关系如同4 - 2 所示,图4 - 2 中横坐标代表神经元之f n q 的距离d u ,纵坐标代 表神经元之间的连接权值,图中曲线代表的函数被称为墨西哥草帽函数, 上海大学硕士学位论文 、 厂。 7 图4 2 墨西哥草帽函数 可见生物神经元与其周围邻近神经元具有正的连接权值,而随着距离的增加,权 值逐渐减小直到成为负值即产生了抑制作用。 自组织映射i n 络( s e l f - o r g a n i z i n gm a p ,简记s o m ) 是k o h o n e n 于1 9 8 2 年提 出的 4 。相对于h a m m i n g 网络,s o m 网络引入了网络的拓扑结构,并在这种拓 扑结构上进一步引入变化领域概念来模拟生物神经网络中的侧抑制现象,从而实 现网络的自组织特性。 4 2 1s o m 网络的基本结构 s o m 网络结构由输入层和竞争层组成,没有隐层。输入层神经元数为n , 竞争层由m = m2 个神经元组成的二维平面阵列,输入层与竞争层各神经元之f 白j 实现全互连接。 4 2 2s o m 网络的工作原理 s o m 网络的工作原理是将任意维输入模式在输出层映射成一维或二维离散 图形,并保持其拓扑结构不变。s o m 网络通过对输入模式的反复学习,功能相 近的输入模式靠得比较近,不同的输入模式分得比较开,以此将一些无规则的输 入自动排开。在权重的调整过程中可以使权重向量空间与输入模式的概率分布 趋于一致,即权重向量空间能反映输入模式的统计特征。这种白组织聚类过程是 系统自主、无导师指导的条件下完成的。 s o m 网络的竞争层各神经元竞争对输入模式的响应机会,最后仅一个神经 元成为竞争的胜者,并对那些与获胜神经元有关的权重朝着更有利于它竞争的方 向调整,即以获胜神经元为圆心,对近邻的神经元表现出兴奋性侧反馈,而对远 邻的神经元表现出抑制性侧反馈。 上海大学硕士学位论文 应用侧反馈原理,在每个获胜神经元附近形成一个“聚类区”。学习的结果 总是使聚类区内各神经元的权重向量保持与输入向量逼进的趋势,从而使具有相 近特性的输入向量聚集在一起。 4 2 3s o m 网络

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论