（计算机系统结构专业论文）支持并行数据挖掘的分布式存储模型研究.pdf

上传人：扣*** IP属地：宁夏上传时间：2019-12-14 格式：PDF 页数：60 大小：2.43MB 积分：0 举报 版权申诉

已阅读5页，还剩55页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要零文警在戮究“爨强2 0 0 0 ”高毪麓并嚣遨簿塔壤下，舞移数鼷忿懿试验平台中，数据及其运算懿分毒性秘并行蕊攘露，蘧立逶焉兹舅商蔑数恭蠢德模受，奏效蟪瀛持数据颓处理鞠数摄擦撰著器簿法。黼先，本文总结了数据挖掘的发展现状放麓备种挖掘方法的特点- 特别是并行纯靛磷兜逡震。之器，舔键离瞧雏诗筹凝中豹熊辩式著行诗薄辍熬王终模式，特裂怒凝集嚣式势行诗算枫中广泛搜用翁环境警台m p 鹣工传方式，以及m p t 豹并行i o 工露特意等。接饕，续舍蘩嚣纛菸王穆鼗链，重点爨寒莠褥爨了静努毒式并行数摇挖攘系统豹存储模型，对存德筷黧巾静主要模块，毽疆数据文俘定义帮分敷网络缓冲区工住机理郏分，进行了详细的分析。其中使用到的m p i 并行化i o 也谢嫩为详细的介绍。邀也是我们工作的横心。最后，通邋实验采测试前面提出魏襻德搂型獒王接效率，势霁| 下一步麴工接爨蠡提爨了震望。褥继模鍪秘蕊哭楚一耱撬絮整夔竣诗，嚣靛双稷是完藏瓣势嚣数撵控掇戆支持，辚韵形成井嚣数据控撼试验乎套懿穗黎。铮瓣翼镩数嚣携攘箕法戆薅定痞吝零文没窍考虑在凑。器静特定簿法对存褚方式豹要求不尽鞠闻，钳瓣算法调整穗应的栉储策略是非常有髓的。另外，麓今没谢个完熬成熟的m p l 2 版本出现，因此耥撩农m p i 上的稃储穰黧靛稳定赣迸就公爱潮一定静影璃。关键谰：数据挖掘，分绺式共享存储系统( d s m ) ，集群，文件缓冲。m p i ，并行i 舱，d b m s i | 圭鼗蠡鎏! 薹釜鎏童 a b s t r a c t t i f f sp a p e ra i m sa t f i n d i n gt h ed i s t i p l i n a f i a nl v n gi nd i s t r i b u t e sa n dp a r a l l e l i s mo f d a t aa n dd a t a p r o c e s s , b u i l d i n g d i s t r i b u t e ds t o z em o d d , t o s u p p o r t t h ep a r a l l e lm e t h o d s u s e di nd a t a p r e - p r o c e s s a n dd a t a m i n i n g t oe x p l o r e t h e p a r a l l e lc o m p u t i n gs y s t e m ， z i q i a n 9 2 0 0 0 - s u h p c s ( s h a 8 9 h a iu n i v e r s i t yh i g h - p e r f o r m a n c ec o m p u t e rs y s t e m ) ，t o i m p l e m e n t a t i o nap a r a l l e ld a t am i n i n gp h t f o r m ，w es t r a ya n dd e v e l o p e dan e wp a r a l l e l s t o r em o d e l s y s t e m 。 f i r s t ，w er e v i e wt h es t a t u so fd a t am i n i n gd e v e l o p m e n ta n dc h a r a c t e r i s t i co f m o s to f d a t am i n i n g m e t h o d s 。s p e c i a l l yt h ep a r a l l e l so f m i n i n g m e t h o d s a f t e rt h a t , 黼m a k ea f u l ls m d y 强 c l u s t e rh p c s p a r a l l e lw o r ks t y l e s ，m p t ，w h i c hi sw i d e l yu s e di np a r a l l e lc o m p u t a t i o n ，a n dm 羊l1 1 0 t h e n ，w ec o m b i n et h et w ob e f o r e f o c u so nt h ed e v e l o p m e n to f a n e w p a r a l l e ls t o r es y s t e m w ea l s o a n a l y s i se a c hp a r to f t h e w h o l es t o r em o d e li nd e t a i l s u 曲a st h ep mo f d a t af i l ed e f i n i t i o na n dt h e m a t h e m a t i c so fc a c h eo nn e t w o r k s a sac 0 1 eo fo u rw o r k ，w cm a k eam o s td e t a i ls t u d yo fm p i p a r a l l e lb o 。f i n a l l y , t o m e a s t l r et h ea f f e c t i v i t yo f t h es r 2 1 em o d e l ，w ed e s i g ns e v e r a le x p e r i m e n t s e x p e r i m e n t sc o n f i r m o u rd e s i g n b u t ，t h e r ei sm u c h i m p r o v e m e n t n e e dt ob ed o n e b e s i d e s , t h es t o em o d e l i so n l yaf r a & e w o r k t h i sf r a m ei st os u p p o r tp a t a l l e td a t a m i n i n g ，t oh e l pb u i l dp a r a l l e ld a t am i n i n gf r a m e s o m e d e t a i ld e s i g nf o rs p e c i dd a t am i n i n g m e t h o dh a v en o tb e e nc o n c e r n e d d i f f e r e n tm e t h o d sn e e dd a t as t o es t y l e s p e c h ls t o r e m o d e li sb e n e f i tf o rs p e c i a lm e t h o d a st h eo t h e rh a n d ，t h e r ei sn o taf i n a le d i t i o no f m p i 一2 ，w h i c hm e , i n st h em p t i sn o ts e 盆d 孓s o , o u ts t o l em o d e l ，b u i l to nm p i ，s h o u l d s t l f f r o mt h a t k e y w o r d s = d a t a m i n i n g ，d i s t r i b u t e ds h a r e dm e m o r ys y s t e mo d s m ) ，d u s t e rs y s t e m ，f i l e c a c h e s y s t e m ，m p i ，p a r a l l e lt 铸d b m s l l i 占墼点鲎堡垒避致谢本论文工作是在导师必耿峰教授和吴绍春副教授的悉心措导下完成的。两位导辩涌稳懿学谖、严灌的溶学态度使裁受热疆浚，在毙谨巍簿敬戆导簿表示衷心的惑溪。感谢嬉半位者度避硕士输段擎习盎活的孵莉老师和同学，是他们使作者度过了一段荚好时光。感谢一切在我硕士阶段学习和工作中提供过帮助的人们。最詹，向一贯爱护和支持我的父母和冗长致以衷心感谢。第一章绪论 i i 、课题的研究背景和意义近年来，数据挖掘引起了信息产业界的极大关注，熊主要原因是存在大量数撰，霹以广泛搜羯，并爨追切鬟要将这魑数握转换成有髑的售慰和知识。获取的信息和知识可以广泛用于各种威用，包括商务管理、生产控制、市场分析、工穰设计和辩学探索等【l 】。数攒挖掘是信息技术自然演化的结莱。演化过程的觅证使数据库业养开发阻下功能：数据收集和数据库创建，数据管理( 包括数据存储和梭索，数据库事务处理) ，以及数据分析与理解( 涉及数据仓库和数据挖穗) 。饿如，数据收集和数据库创建机制的早期开发已成为稍后数据存储和检索、旋询和事务处理有效机制开发的必备基硝。随着提供查诲和事务楚瑾静大量数据痒系统广泛付诸实践，数据分析和理解自然成为下一个网标。餐麓，在鹜静静大多数请淡下，入稻只瘸瘸了这些数据新毽含信惫瓣缀，l 、一部分，而其中隐含的萤疆的规律性的知识并没有被发掘。目前，国际上醴有一热数据控掇王吴纛毽，毽楚奏垂残礁应羯豹实镄镄然缀少，特蘩蹩在我国滏无奏歪自主开发的实用的数据挖掘工艇。分析原因，除了社会等其他的因素之外，主袋豹技拳薅褥是在诗算撰鹣运算秘存姥g 力方瑟。数据挖攘嚣罄熬是海量数据密极其复杂的运算，以往的数据挖掘技术主要是基于传统的( 串行) 计算机系统。因魏，为了解决运雾豹聪闼帮空阗熬复杂性超题，尽管人们莼费了大量的壤力，仍然不能得到满意的结果。有些数据挖掘方法，即使有并行挖掘的概念，也因缺麓黉行的运雩亍环城恧只能在串行诗算机上运行，潮丽大大降低了挖掘效率。与此同时，对高俄能计算机( h i g hp e r f o r m a n c ec o m p u t i n g ) 的研究，一赢建国内终十分关注的重点项目。美国静总统布什的酋席科学技术顾问a l l a n b r o m l e y 博士说：“高傲能计算直是荧国科学技术管瑗部门王作的中心环节”。美国近几届总缆都直接参与了制定美国的h p c c 和a s c l 惠性能计算规划。高性能计算技术与国家实力和国家安全、国氐经济与潮防建设密留相关。它燕稚动大瓣模科学与工程计算的不可缺少的平台。它可应用于新材料分子结构计算、燃烧传燕模型计算、分子魂力学诗算等等。阖舔上瞽遍谈秀2 l 毽纪入类瑟稔靛“巨大挑战”的重大科技问题，如人类基因、海洋循环、黏流动力学等等，没有万亿次移菇上的蠢镶能诗冀撬是不鬻能镄赢解决豹。据此，上海市科委十分重视集群式高性能计算机的研制，先后投入相当的人力萃嚣缀费。2 0 0 0 年9 弼l 弱，在上海象耱委囊持下，宙我国计算援镢壤霆位馨名院士和七位专家组成的鉴定委员会对研制成功的集群式高性能计算机系统自强2 0 0 0 一s u h p c s ( 其峰值速度达到每秒3 0 0 0 亿次浮点操作) 进行技术鉴定。“鉴定委员会一致认为，自强2 0 0 0 高性能计算系统的峰值速度在我国当前民口研制的高性能计算系统中是最高的；其技术方案有优越性，其性能价格比在国内外处于领先地位。自强2 0 0 0 的i n t e r n e t 网络环境查询管理系统，在我国属于首创，达国际先进。综上，自强2 0 0 0 在总体水平上，在集群式高性能计算机系统领域内处于国际先进水平。”2 0 0 0 年1 2 月又完成了自强2 0 0 0 的扩展提速，其峰值速度达到每秒4 5 0 0 亿次浮点操作。并于2 0 0 1 年4 月1 1 日由上海市科委主持通过技术鉴定。随着高性能计算机的发展，特别是集群式高性能计算机的迅速发展，人们开始考虑采用并行数据挖掘的方案。对于大规模数据的分布式和并行处理，有远见的专家已经认识到了它的重要性。峰值速度达到每秒4 5 0 0 亿次浮点操作的自强 2 0 0 0 为我们开展并行数据挖掘和知识发现提供了良好的条件。可以说，开展并行数据挖掘技术的研究已经是相当紧迫和异常重要的任务。此外，网络技术，特别是i n t e r a c t 的迅速发展，为数据的分布式存储和并行处理创造了良好的环境。目前，国外已经开始了对并行数据挖掘技术的研究，主要集中在关联规则发现的并行算法研究方面，但研究的深度有限。特别是对于概念格、决策树这些数据挖掘的有效模型的并行性质和分布式存储特性缺乏研究，而这些模型自身所具有的良好分布式和并行数学性质，将成为指导分布式存储模型和并行算法研究的理论基础。本文旨在研究数据及其运算的分布性和并行性存在的规律，建立数据的分布式存储模型，以支持数据预处理和知识发现的有效的并行算法，并利用“自强 2 0 0 0 ”高性能并行运算环境，实现一个并行数据挖掘试验平台。 1 2 、数据挖掘并行化研究现状 1 2 1 、数据挖掘发展自2 0 世纪6 0 年代以来，数据库和信息技术已经从原始的文件处理演化到复杂的、功能强大的数据库系统。自7 0 年代以来，数据库系统的研究和开发已经从层次和网状数据库系统发展到开发关系数据库系统( 数据存放在关系表结构中) 、数据建模工具、索引和数据组织技术。此外，用户通过查询语言、用户界面、优化的查询处理和事务管理，可以方便灵活地访问数据。联机事务处理将查询看作只读事务，对于关系技术的发展和将关系技术作为大量数据的有效存储、检索和管理的主要工具做出了重要贡献。 l 遵厶堂盟! f 生逄蔓自8 0 年代中期以来，数据库技术的特点是广泛接受关系技术，研究和开发新的、功能强大的数据库系统，它们使用了先进的数据模型，如扩充关系模型、面向对象模型、对象一关系模型和演绎模型。包括空间的、时间的、多媒体的数据库、知识库、办公信息库在内的面向应用的数据库系统百花齐放。异种数据库和基于i n t e m e t 的全球信息系统，如w w w 也已出现，并成为信息产业的生力军。在过去的3 0 年中，计算机硬件稳定的、令人吃惊的进步导致了功能强大的计算机、数据收集设备和存储介质的大量供应。这些技术大大推动了数据库和信息产业的发展，使得大量数据库和信息存储用于事务管理、信息检索和数据分析。现在，数据可以存放在不同类型的数据库中。最近出现的一种数据库结构是数据仓库。这是一种多个异种数据源在单个站点以统一的模式组织的存储，以支持管理决策。数据仓库技术包括数据清理、数据集成和联机分析处理。联机分析处理是一种分析技术，具有汇总、合并和聚集功能，以及从不同的角度观察信息的能力。尽管联机分析处理工具支持多维分析和决策，对于深层次的分析，如数据分类、聚类和数据随时间变化的特征，仍然需要其他分析工具。数据的丰富带来了对强有力的数据分析工具的需求，大量的数据被描述为 “数据丰富，但信息贫乏”。快速增长的海量数据收集、存放在大型和大量数据库中，没有强有力的工具，理解它们已经远远超出了人的能力。结果，收集在大型数据库中的数据变成了“数据坟墓”一难得再访问的数据档案。这样，重要的决定常常不是基于数据库中信息丰富的数据，而是基于决策者的直觉，因为决策者缺乏从海量数据中提取有价值知识的工具。此外，考虑当前的专家系统技术，通常，这种系统依赖用户和领域专家人工地将知识输入知识库。不幸的是。这一过程常常有偏差和错误，并且耗时、费用高。数据挖掘工具进行数据分析，可以发现重要的数据模式，对商务决策、知识库、科学和医学研究做出了巨大贡献。数据和信息之间的鸿沟要求系统开发数据挖掘工具，将数据坟墓转换成知识“金块”。典型的数据挖掘系统具有以下主要成分：数据库、数据仓库或其他信息库：这是一个或一组数据库、数据仓库、电子表格或其他类型的信息库。可以在数据层面上进行数据清理和数据集成。数据库或数据仓库服务器：根据用户的数据挖掘请求，数据库或数据仓库服务器负责提取相关数据。知识库：这是领域知识，用于指导搜索，或评估结果模式的兴趣度。这种知识可能包括概念分层，用于将属性或属性值组织成不同的抽象层。用户确信的知识也可以包含在内。数据挖掘引擎：这是数据挖掘系统基本的部分，由一组功能模块组成，用于特征化、关联、分类、聚类分析以及演变和偏差分析。 f 签是望啦葚璺三迨童模式评估模块：通常，此成分使用兴趣度度量，并与数据挖掘模式交互，以便将搜索聚焦在有趣的模式上。它可能使用兴趣度阀值过滤发现的模式。模式评估模块也可以与挖掘模块集成在一起，这依赖于所用的数据挖掘方法的实现。对于有效的数据挖掘，则尽可能深地将模式评估推进到挖掘过程中，以便将搜索限制在有兴趣的模式上。图形用户界面：本模块在用户和数据挖掘系统之间通信，允许用户与系统交互，指定数据挖掘查询任务，提供信息、帮助搜索聚焦，根据数据挖掘的中间结果进行探索式数据挖掘。此外，该成分还允许用户浏览数据库和数据仓库模式或数据结构，评估挖掘的模式，以不同的形式对模式可视化。从数据仓库观点出发，数据挖掘可以看作联机分析处理的高级阶段。然而，通过结合更高级的数据理解技术，数据挖掘比数据仓库的汇总型分析处理走得更远。尽管市场上已有许多“数据挖掘系统”，但是并非所有的都能进行真正的数据挖掘。不能处理大量数据的分析系统，最多只能称作机器学习系统、统计数据分析工具或试验系统原型。一个系统只能够进行数据或信息检索，包括在大型数据库中找出聚集值或回答演绎查询，应当归类为数据库系统，或信息检索系统，或演绎数据库系统。数据挖掘涉及多学科技术的集成，包括数据库技术、统计学、机器学习、高性能计算、模式识别、神经网络、数据可视化、信息检索、图像与信号处理和空间数据分析。数据挖掘被信息产业界认为是数据库系统最重要的前沿之一。是信息产业最有前途的交叉学科。 1 2 2 、数据挖掘方法评述由于数据挖掘时遇到的数据库种类繁多( 从关系型到面向对象型、空间型、时间型乃至多媒体等复杂数据库) ，且各种数据挖掘方法作用范围有限；因此采用单一方法难以得到决策所需的各种知识。从总体上讲，目前数据挖掘的能力非常有限。当前数据挖掘的主要方法有：【2 3 】基于神经元网络的方法。神经网络是大量的简单神经元按一定规则连接构成的网络系统。网络能够模拟人类大脑的结构和功能，采用某种学习算法从训练样本中学习，并将获取的知识存储在网络各单元之间的连接权中，神经网络和基于符号的传统趟技术相比，具有直观性、并行性和抗噪性。目前已出现了多种网络模型和学习算法，主要用于分类、优化、模式识别、预测和控制等领域。在数据挖掘领域，主要采用前向神经网络提取分类规则。【4 7 】基于决策树的方法。决策树是发现概念描述空间的一种有效方法，也是许多归纳系统常采用的知识表示形式。它的主要优点是描述简单，分类速度快，特别适合大规模的数据处理。 8 - 1 1 】土盘厶望! ! 窭尘造甚粗糙集方法。在数据挖掘中，从实际系统采集到的数据可能包含各种噪声，存在许多不确定因素和不完全信息有待处理。传统的不确定信息处理方法，如模糊集理论、证据理论和概率统计理论等因需要数据的附加信息或先验知识f 难以得到) ，有时在处理大数据量的数据库方面无能为力。粗糙集作为一种软计算方法，可以克服传统不确定处理方法的不足，并且和它们能有机结合，可望进一步增强对不确定、不完全信息的处理能力。 1 2 1 7 遗传算法。遗传算法是一种仿生全局优化方法。它模拟生命进化机制，将较劣的初始解通过一组遗传算子，在求解空间按一定的随机规则迭代搜索，直到求得问题的最优解。遗传算法具有许多不同于传统方法的优点，以至它在复杂的问题优化、模式识别、工程设计、控制系统优化及社会科学等许多领域得到广泛的应用，并取得了较好的效果。遗传算法具有的隐含并行性、易于和其它模型结合等性质，使得它涉足于数据挖掘领域。近年来，它在数据挖掘中的应用也引起了人们的关注。遗传算法用于数据挖掘存在问题是：算法较复杂，此外收敛于局部极小的过早收敛等难题未得到彻底解决。【1 8 - 1 9 除了上述数据挖掘方法外，还有许多其它方法，如统计方法( 特征规则和关联规则) 、k 最临近技术和可视化技术等，它们在数据挖掘中的作用也不可低估，但其使用范围都有不同程度的局限。综上所述，数据挖掘方法面临的技术挑战表现在下述几个突出方面：【2 0 】 ( 1 ) 数据挖掘方法的效率亟待提高。数据挖掘面临的数据量是机器学习无法比拟的。对实时性要求较高的决策场合，数据挖掘方法的主动性和快速性显得日益重要。应用实时性技术、主动数据库技术和分布并行算法设计技术等现代计算机先进技术，是数据挖掘方法实用化的有效途径。 ( 2 ) 适应多数据类型和容噪的挖掘方法。随着计算机网络和信息的社会化，数据挖掘的对象已不单是关系数据库模型，而是分布、异构的多类型数据库，数据的非结构化程度、噪声等现象越来越突出。这也是数据挖掘面临的困难问题。 ( 3 ) 重视专家参与和领域知识的指导。在数据挖掘过程中，知识的校验、挖掘数据范围的限定、冗余的排除、领域知识的指导都是不可缺少的。当前的数据挖掘工具的人机交互能力还十分有限，相关的背景知识也未得到充分利用。 ( 4 ) 数据挖掘方法的递增性。数据挖掘获得的知识，只是相对于某一时间和某些数据的，新的数据可能使发现的新知识与原来的知识冲突。这是因为数据挖掘的基础是归纳逻辑。而归纳是一个非单调过程。因此结合非单调逻辑的理论，设计具有递增性的数据挖掘方法也是实用化的基本要求之一。鉴于数据挖掘方法面临的技术挑战，我们的目标定位于通过将数据挖掘与高性能并行计算机相结合，从而提高数据挖掘的效能。 f ：盘盔堂型韭垡重量 1 3 、支持并行数据挖掘的分布式存储模型随着高速网络技术和高性能处理机的不断发展，以工作站网络为代表的机群系统正逐渐成为一种重要的高性能计算平台。软件分布式共享存储系统s m l 在机群系统上提供了共享内存的编程模型，具有易于编程的特点，同时也可以获得相当的性能，因此变得越来越重要。个典型的软件d s m 应用程序大致可以划分成3 个阶段：初始阶段、计算阶段和完成阶段。在大部分软件d s m 应用程序中，文件存取操作是由根结点在初始化阶段进行。在初始化阶段，程序先分配虚拟共享内存，然后根结点从磁盘文件中读数据到共享内存中。在初始化阶段结束前，对基于h o m e 的d s m 系统，数据被分布到它的h o m e 结点上。在计算阶段，各个结点对这些数据进行计算。最后在完成阶段，根结点从其它结点收集结果数据写入磁盘文件。 2 1 但是，初始化和完成阶段都需要大量的数据移动，产生大量的网络通信，这就大大降低了应用程序的整体性能。解决这个问题的一种方法是：尽可能进行并行化文件操作，或者使用c a c h e 。在机群系统中，每个结点都有自己的磁盘，因此可以将一个文件划分成许多块，分布到多个结点磁盘上来进行存取。现在，对于分布存储的多处理机系统，已经开发了一些并行文件系统 2 2 2 4 在这些系统中，由于不存在共享内存，每个计算结点向i o 结点发送请求来获得文件数据，而在软件d s m 中【2 5 2 7 ，由于构造了一个虚拟共享内存层次，因此像这样的并行文件系统不太适合于软件d s m 系统。根据这种程序的运作模式，考虑到尽量避免以上影响效率的因素，我们研究并提出了一种适合于并行数据挖掘的分布式存储模型。这种模型基本遵循了以上的程序运行模式，为数据挖掘算法提供方便的数据存储服务。使数据挖掘算法可以更少的操心数据在并行环境中的各个节点中传输、分布、转移等常见数据操作问题。此种存储模型考虑到了功能层化以及模块化的思想，因而分成了数据文件， m p i ( 消息传递接口m e s s a g ep a s s i n gi n t e r f a c e ) 存储模块，网络缓冲区部分这三个层次模块。三个模块的功能相互衔接，互为补充。我们使用数据文件替代数据库存放数据，目的在于提高操作的精确性和准确性。另外，目前还没有一个成熟可靠的专为数据挖掘设计的并行数据库系统，因此我们无法直接利用这些并行数据库，特别是无法在我们的c l u s t e r 环境中使用。而串行数据库提供了操作的透明性，使得我们无法精确地控制数据存储等操作，从而无法确保我们的并行算法的高效运行。因此，我们选择了自定义数据文件。不仅为精确的控制数据的存取，还为今后提高性能提供了良好的可操作空间。 m p i 存储功能模块将并行i o 的所有操作有机地结合在了一起，为上层的应 1 2 二盘叁堂盟煎生迨篓用服务提供了良好的支持。不仅如此，该部分还对并行v o 进行了适当的优化，从而使系统获得更高的效率。另外，并行i o 操作集中在此模块中，如果需要放弃m p i 环境移植到别的环境中，只需将此模块更新即可，为今后的系统升级提供了便利。至此，系统已经完全支持了并行数据挖掘用户并行存取数据的要求。但是，为了优化用户对数据的存取请求，我们增加了网络缓冲区功能部分。目的在于使用户可以更高效地取得数据，并减少并行i o 的次数。还有一种考虑是，用户不必过多的考虑数据在并行环境中的分布问题，这对于一些算法尤其显得突出。在数据挖掘中，不同的挖掘算法有不同的并行策略，对数据的并行化也有不同的要求，有时两种不同的算法对数据的并行化会有截然不同的数据分布方式。据此，我们总结了几种常规的数据并行化分布的方式，给用户提供了这几种数据并行化分布的完全封装。用户可以直接使用这几种分布策略，配合自己的数据挖掘算法。 1 4 、本文的主要研究内容本文的主要内容是研究并提出了一种适合于并行数据挖掘的分布式存储模型。首先，本文总结了数据挖掘的发展现状及其各种挖掘方法的特点，特别是并行化的研究进展。之后，探讨高性能计算机中的集群式并行计算机的工作模式，特别是在集群式并行计算机中广泛使用的环境平台m p i 的工作方式，以及m p i 的并行l j o 工作特点等。接着，结合前两者的工作特性，重点研究并提出了一种分布式并行数据挖掘系统的存储模型，对存储模型中的主要模块，包括数据文件定义部分及网络缓冲区工作机理部分，进行了详细的分析。其中使用到的m p i 并行化i o 也有更为详细的介绍。这也是我们工作的核心。文章的最后，通过实验来测试前面提出的存储模型的工作效率，并对下一步的工作重点提出了展望。 l 盈叁宝g 童生逵美第二辈分布式并行数据挖掘系统及其实瑰环境 2 1 、分布式并行数据挖掘系统的体系结构分东式多屡体系结构，一方嚣可以避用于分糍式应用的霈要，另一方面可以减少系统的升级、维护赞用，摄高系统的鲁棒性。并行计算可以提高系统的运行效率。鼹此，磷究分布式数据挖掘和并行数据挖掘问题根有必爨。 2 1 1 、分布式数据挖掘在不使用d b m s 工其豹并行数据挖撼中，镣挖掘数撮被存继在数据建服务器中，当进行数据挖掘时，数据需从服务器端被导出到目标并行机上，即数据挖掘的所有过程在客户机上执行，服务器没有参与数据管理。在客户端，数据管理既可以在串行、单处理器客户机上执行，也可以在并行客户枫上执行。使用d b m st 具进行并行数据挖掘时，假设数据库系统为客户机棚务器结构，数据库放在并行数攒库服务器上，糟户通过客户梳访闻效攥霹。有两类框檠，一类是数据挖掘算法全部嵌在并行数据库服务器，即基于服务器的k d d 框架；勇一类，一些数据挖掘进程在客户橇瓠行，萁玄一些遥灌( 数豢密集、糕霹的情况下) 则在并行服务器执行，称为基于混合客户机服务器的k d d 框架。 2 8 在麓予服务器豹k d d 捶黎中，客户发送攀令会令弱服务聚，要求疑行绘懋的数据挖掘算法。所有的d m 过程在并行服努器运行，所发现的知识返回到客户极。冀经髓褰，毽数攥挖撼黪法熬势行位蔹羧手算法髑规器懿结援，减少了系统的通用性。税基于混合c s 的k d d 框架中，返回给客户的煮询结果是汇总倍惑，；嚣簿擐戆愆组。该搓桨灵瀵性好、荔予使蠲、通用性好，独立于算法和机器结构，但性能低于基于服务器的k d d 框架，而且c s 通信载荷是个问题。基予压瑶的研究，我们的势行数据挖掘框架没有采用d b m s 的支持。但是数据挖掘过程中的数据处理方式，与采用d b m s 支持的数据挖撅方式基本类似。在这弛弗行数据挖掘撼架中，挖掘过稷包含下列三步： ( 1 ) 副分待挖掘数据成p 个子集，p 为可精的箍邂器个数，各数裙子集霹以有莺叠，并撼每个数据子集发送到备个处理器； ( 2 ) 每个处理器稔其局部数据子集基疆土冒运行不褥豹数据挖掘簿法： ( 3 ) 把各种数据挖掘算法发现的局部知识组合成黛局、致的知识。在激枥豹一步孛，霹酸穰攥是否傻箱d b m s 来麓分数据子集，将数箨挖据分成两种。 4 上查盔望丛塾堡垒望 2 1 2 、基于多线程的并行数据挖掘线程是进程内部的一个执行单元( 如可以是个函数、一个活跃的类对象) 。系统创建好进程后，实际上就启动执行了该进程的主执行线程，主执行线程以函数地址形式，将程序的启动点提供给系统。主执行线程终止了，进程也就随之终止。每个进程至少有个线程( 即主执行线程，它无需由用户去主动创建，是由系统将应用程序启动后创建的) ，用户根据需要在应用程序中创建其他线程，多个线程并发地运行于同一个进程中。一个进程中的所有线程都在该进程的虚拟地址空间中，使用这些虚拟地址空间、全局变量和系统资源，所以线程之间的通信要比进程通信容易得多，多线程程序设计在实际中的使用也较为广泛。使用多线程具有以下优点： ( 1 ) 通过线程可方便而有效地实现并行性，进程可创建多个线程来执行同一程序的不同部分，从而有效地组织程序行为。一个程序的行为可以组织成功能独立的几个并行处理。使用线程，赋给各种程序不同任务属性，使得能够分配更多的c p u 时间给关键的任务。这在一定程度上可以避免c p u 处理的瓶颈。 ( 2 ) 创建线程比创建进程要快，而且只需很少的开销。因为所有线程除栈和寄存器内容外共享同一主存，不需特殊的数据传送机制( 如发消息) ，一个线程只需简单地把输出写入主存，另一线程可以读出作为输入。而且进程的资源线程都可用。 ( 3 ) 创建多线程进程，对多个客户同时提出服务请求时的回答也十分有利。因为服务器程序只被装入主存一次，就可使每个客户的服务请求分别有一个独立的服务器线程。通过执行适当的服务器功能，并行地为客户进行处理。在多道程序系统中，有许多进程在系统中并行运行，这些进程间存在着不同的相互制约关系，这些关系可以归结为两种关系：同步关系与互斥关系。所谓两个事件之间的“同步”是指两个事件的发生有着某种时序上的关系。而进程( 线程) 间的同步关系指系统中往往有几个进程( 线程) 共同完成一个任务，因此它们之间必须协同动作，相互配合，甚至需要交换信息一进行进程( 线程) 间的通信。分布式多层结构是大势所趋的系统发展方向，分布式数据挖掘成为数据挖掘领域研究的新课题之一。并行数据挖掘是提高挖掘速度的有效方法。多线程并行具有安全、快速的优点，基于多线程的并行数据挖挖掘是一种非常有效、可行的加快数据挖掘方法。上盘玉堂： ! ! 煎生造望 2 2 、c l u s t e r 体系结构及其通信模式m p i 2 2 1 、集群式( c l u s t e r ) 并行计算机的概况集群式( c l u s t e r ) 并行计算机系统是利用高速通用网络将一组高性能工作站或高档p c 机，按某种结构连接起来，在并行程序设计以及可视化人机交互集成开发环境支持下，统一调度，协调处理，实现高效并行处理的系统。从结构和结点间的通信方式来看，它属于分布存储系统，主要利用消息传递方式实现各主机之间的通信，由建立在一般操作系统之上的并行编程环境完成系统的资源管理及相互协作，同时也屏蔽工作站及网络的异构性。对程序员和用户来说，集群式并行计算机系统是一个整体的并行系统。集群式并行计算机系统中的主机和网络可以是同构的，也可以是异构的。目前已实现和正在研究中的集群式并行计算机系统大多采用现有商用工作站和通用l a n 网络，这样既可以缩短开发周期，又可以利用最新的微处理器技术。大多数集群式并行计算机系统的并行编程环境也是建立在一般的u n i x 操作系统之上，尽量利用商用系统的研究成果，减少系统的开发与维护费用。从应用的角度看，在集群式并行计算机系统出现以前，并行处理系统主要有三大类：第一类是多向量处理系统，以c r a y y m p - 9 0 、n e c s x 一3 和 f u j i t s u v p 2 0 0 0 等为代表；第二类是基于共享存储的多处理机系统，如 s g i c h a l l e n g e 和s u n s p a r c c e n t e r 2 0 0 0 ；第三类是基于分布存储的大规模并行处理系统( m p p ) ，比如i n t e l p a r a g o n 、c m 一5 、c r a y t 3 d 等。上述第一和第三类系统由于研制费用高、售价高等因素，其市场受到一定的限制。第二类系统由于共享结构的限制，系统的规模不可能很大。r i s c 技术、网络技术和并行编程环境的发展使得集群式并行计算机系统这一新的并行处理系统形式正成为当前研究的热点。由于r i s c 技术的发展，使得微处理器的性能不断提高。高档芯片的运算能力平均每年增长3 0 ，价格不断降低，直接使用商用工作站或p c 机作为运算结点的集群式并行计算机系统在结点性能上能够同处理器的发展保持同步增长。网络技术的进步使得松散耦合系统的通信瓶颈逐步得到缓解。网络传输速度的提高，有效地提高了应用程序之间的通信带宽。而开关技术的发展则大幅度地降低了传输延迟，使得许多高速局域网能和m p p 中的专用互连网络的性能相当。并行编程环境的开发使得新编并行程序或改写串行程序更为容易。并行应用程序的开发和不同系统之间的可移植性一直是传统并行系统能否广泛应用的一个关键。由于集群式并行计算机系统的发展，近年来出现了多个并行程序开发及运行系统，比如p v m 、m p i 、e x p r e s s 、l i n d a 、p 4 等。这些系统的适应平台非常广，应用程序在这些系统上的可移植性较好，特别是p v m 和m p i ，由于其开放点塾墼鳃堕燮毪，受翻诲多大学彝璎懿援秘帮骞广泛豹重程，在这些臻境下开发了诲多瘟援程序。这黧技术豹进步嫂褥集群式并行诗簿极系统这一势霉亍处理静毅的缝搀形式受到广泛的的关注，并得到广泛的应用。 2 。2 。2 、集嚣式势行计棼枫豹应照传统上，科学与工程计算领域对并行计算能力的要求总是永无止境的。1 9 9 2 年，美国裹犍能计簿弱邋信诗划( 琢痨p e r f o r m a n c ec o m p u t i n g a n d c o m m u n i c a t i o n ，h p c c ) 提出了科学与工程计算领域里具有深避影响的些重大挑战性课题，其中包括中长期天气预报、湍流分糖、海洋环流建模、空气动力学、三维等离子体研究、药物分子结构设计、全球气候变化、结构童物学、图像理解等诸多方面。联肖这些课题全都具有极大的计算量，因瓶无一不对计算机的性能提出了非常高的要求。间时，这些硒题又都非常适合予避行并行计算，鞠此，这季中需求也正是推动并行计算机不断发展演进的原动力。随着计算机技术、黼络技术的迅邃发展及萁澍经济与生活影响静霞慈深入，新的应用、新的需求也不断地涌现了出来。h p c c 所列举的科学计算需袋的是具有超缓计算髓力我大鹫计算枫系统，葚篷莓鍪! 计算极系统，毽这个镶域肇竟整予金字塔的顶端，市场空间有限。而在商业领域，随着信息化进程的不断深入，大鳖数掭滗系统褥爨了广泛茨应爝，瓣终信惠羰务韭敬豫入豹速凌扩震，逛子意务也在日靛普及。这些新的领域对计算能力的需求虽然不及科学计算，但是它们也嚣要大瓣模豹数据存镶系绞以及丈燕摸懿计算裁力，劳鼹天生裁其畜缀好豹著行性。因此，它们也从市场的角廉对并行计算提出了新的疆求。由于集群式并行计冀租骚其有豹俊揍优势，它终予浮出了零蘑。目前集群式并行计算机已缎在许多方面得到广泛的成用，比方说石油地震数据处理、数谴天气预掇、c a d 图像处理等等。丽其性能也得到广泛盼认可，像清华大学计算机系研制的s c a p e 集群式并行计算机系统对石油地球物理勘探研究院的三维深艘偏移、模拟地震作业和g r i ，国家气像中心的yh 数值天气预报、 m m 5 中尺度数值预报簿大量寨际应用程序迸彳亍了灏试，结果加速篦曼楚达到了 5 8 3 7 9 8 ( 8 台) ，效率最高的为9 9 5 。 2 2 3 、集群式并行话簿梳静特点集群式荠杼计算机系统之所以能够从技术可能发展到实际j | 燕用，圭鬻原因悬它与传统的并行处理系统相比有以下几个明显的特点：系统开发周期短。由于集群式并行计算机系统大多采用商用工作站和通用 l a n 阙络，便结熹主机及系统管理籀鼯容翕，置可靠程离。歼发懿囊点在逶傣和并行编程环境上，既不用重新研制计算结点，又不用重新设计操作系统和编译系统，节省了大量煞磷僚l 对闻。 7 二塞是登嫩塞垒缝，藏爱产投资甄验套。蠲户在购莲转统疆型规或m p p 系统嚣会握，基壤瘸效率不高，系统性能发挥不好，从而浪费大量资金。而集群式并行计算机系统不仅是个劳行处理系统，它的繇令缝煮疑时迄憝一台独立豹工终站，辩使整个露统对菜些应用问题并行效率不高，但它的结点仍然可以作为单个工作站使用。系统价格低。由于生产批爨小，传统巨型规或m p p 的捡格都比较蹋贵，往往要几酉万到上千万美元。而构成机群的工作站或高榻p c 机怒批量生产的，豳丽售绘较底。由近十台娥几十台工作站缀成的集群式弗行计算机系统可以满足相当多数应用的骤求，鼠价格较低。节约系统资源。由予集群式并行计算机系统的结构比较灵滔，可以将不同体系结构，不同慷能的工作站连程一超，这样就w 戳充分稻甭现静设备。觚使瑁效率上看，集群式并行计算机系统的资源利用率也比单机系统要商得多。有人曾疑对u c b e r k e l e y 计算梳鬃1 0 0 多台工捧辩懿使羽情况送行谲查。结采发臻一般攀机系统的使用率不到1 0 ，而集群式并行计算机系统中的资源利用率可达到8 0 左右。冀一方甏，繇楚掰户设袈曼薪，簇有豹一些牲 l 较餐蕺黧号较| 爨鳃撬器在集群式并行计算机系统中仍可发挥作用。系统扩震拣好。及嫂模上谈，集嚣妓蒡行谤冀极系统大多搜蠲逶瘸麴终，系统扩展容易；从性能上说，对大多数中、粗粒度的并行应用都谢较高的效率。清牮大学诗募投聚磅剑熬蔻扩展祭群式势行毒十算机系统测试匏结果表明，8 台工作站的加速比可以达到5 8 3 7 9 ，并行处理的效率为7 2 8 8 9 9 。用户编程方便。集群式并行计算枫系统中，程序的并行化只是在原寅的c 、 c 十+ 或f o r t r a n 串行程序中，捅入相应的通信朦语。用户使用的仍然是熬悉的编程环境，不用遮应新的环境，这样就可以继承原有软牛财富。 2 2 4 、围绕m p l 进行的j 5 ；学研究 m p i ( m e s s a g ep a s s i n gi n t e r f a c e ) 消息传邀接1 2 1 。它是一葶中标准，不是一个协议，但它的蛾位实际上已经照一个协议了。消怠传递方式是广泛应用于并行机的一手巾模式，特别是那些分布存储并行机。尽管有许多不同，假通过消息完成邀程通信的基本概念是好理解的。十多年来，这种模式在蓬要的计算应用中已取褥了实质进步。镑种商品都实现了各自的不同特点。最：i 琏的几个系统已表明：能商效和可移植地蜜现一个消息传递系统。因诧，驳在是定义核心撵程序语法、语义的恰当时机，邋将在大范围计算机上可有效实现，将有益于广大用户。 m p i 标准偬涉及羁犬魏6 0 令雷家鹣久 l ，缝察主要来蠢予美国霸敬湃豹4 0 个组织，这包括并行计算机的多数主嚣生产商，还有来自大学、政府实验室和工厂的萋嚣究者稍。标准纯开始于分蠢存德强凌中溃悫砖遴标准豹讨论会，这令会谈是由并行计算研究中心支助的，于一九九二年四月二十九日黧三十曰在威吉属亚，藏骧薅蘩爨召开。会议土专孪论了撼准涔惑转递豹毖要豹、蒸本熬特点，著邈望型垒黧垄墅婆立了工擘组继续迸符标毽往王僚。由d o n g a r r a 、h e m p e l 、h e y 和w a l k e r 建议的初始草案m p i1 于一九九二年十月擦窭，劳在一九丸三年二月宠戒了修订舨。奁藏骧姆赣堡淫论会上谈定戆消息传递标准必须的主娶特点都包括在m p i1 中。因为m p i1 的基本目的就是促进讨论劳继续戴项工擘，灏戳它主要集中在点对点豹逶信。虽然m p i1 引出了些重要标准化讨论的前_ 妤，但它并没有包括任何集合通信程序，也没线索安全。予一九九二年十一月m p i 工乍组在明显阿波剩颊召开会议，决定以熙形式化的角度继续标凇化过程，一般地采用高性能f o r t r a n 专题讨论的过程和组织。对这个标准豹各主鬻组成部分建立分组委员会，并为各分缌建立一个电子信件讨论设施。而且设立目标：到一九九三年歉产生m p i 草案。为达到这个霞标，m p i 工作组在一九九三年前九个月每隔六个星期讨论两天，聪来于一九九三年十一月在九三年的超计算会议上提蠢tm p i 标准草案。这些会议稻电子信辞疆论缓成了m p i 专题会，该会员资格对高性能计算学会众体成员开放。建立漓惠传递标磴翡主要虢点是哥糁檀经_ 帮荔予餐藩。臻懿缓游恚传递程澎为基础的较高级和( 或) 抽象稔序所构成的分布存储通信环境中，标准化的效虢将嗣瞬髭。覆嚣，正豫涎j 0 溪建浚懿，溃患健遴标准魏定义l 提供绘生产褰溥璇定义的程序库，以便他们能有效地实现这些库或在某些情况下为库程序提供硬件支持，滚热热强了可扩疑瞧。

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机系统结构专业论文）支持并行数据挖掘的分布式存储模型研究.pdf

文档简介

温馨提示

最新文档

评论

（计算机系统结构专业论文）支持并行数据挖掘的分布式存储模型研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档