决策树分类算法的可扩展性与并行性研究及在网络入侵检测中的应用_第1页
决策树分类算法的可扩展性与并行性研究及在网络入侵检测中的应用_第2页
决策树分类算法的可扩展性与并行性研究及在网络入侵检测中的应用_第3页
决策树分类算法的可扩展性与并行性研究及在网络入侵检测中的应用_第4页
决策树分类算法的可扩展性与并行性研究及在网络入侵检测中的应用_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、上海大学硕士学位论文决策树分类算法的可扩展性与并行性研究及在网络入侵检测中的应用姓名:严胜祥申请学位级别:硕士专业:计算机应用指导教师:吴耿锋thenearesttheneedf0rp t0dataana1ys1s0chbut1nf0rmat1asaresu1taneweatdea10fattenc1ass1f1c:an*cass1fhaveenpr0p0s1veatpresentthemaresequents10n0bfdatat0 妫evta11shah1eh dmaa tpap b1a1seeds静h1aasr bge校可以翳的凳我本人声明:所呈交 除了文中特别加以标注 或撰写过豹研究成

2、果。 贡献均琶在论文中锋了学校萍枫保韵缺及邂裘2 1训练数据集样例. 袭3 1用户购买媳睦的部了 袭3 2 s p r i nt辣法£ 袭5 - 1 一个小型的训练数扌 袭5 - 2 f s p c算法采用静 袭 5 3 0 t r r l o o kj 袭5 . 4 temp嚣髓对应耳 寝5 - 5 f s p c算法采用笊 圈2 - 1用户购买电脑的决今 躍2 2建构决策树的一般强 豳3- 1决策树建构过程中白豳32并行计算燧性爛的j 豳3 - 3 s l i q算法的属性 痛如1利用f s p c算法建存 舗5. 1mpi程序的基奉结图52mpi通信的一般过1. 1本课题的硏随

3、着现代信息技术的7 展和互联网的广泛应用, 信息化时代,各种以数据形 在海量数据中的知识正等待仅仅依靠数据库管理系统邯豹大小交缘瑟残线渡变u 容之一。此岁,由于数据挖扌 掘披术主要是摹于传统的 空两的复杂性闻题,尽管丿随着高性能计算机的7 开始考虑髦用并行数据挖豹 见的专家和政治家们已经i 皮书就将大规模信息处理禾在我国,其有并行处壬 达燃家对我园长期的技术圭 虫静努力丄-潦况et . h本文通过对决策树分2 分类算法一 f s p c算法了基于f s p c算法的分乡 的一般过稽戳及该分类器第t章绪论。简要综戈 发畿趋势。蒋剩是秘前知总 树分类算法的优点和重要吃 第2牵决策辑分类舅y 然麟概

4、述了决策树分类的- 弱嚣轴障予对綾蒙攥輪!塑! !决繁秘方法楚遴于 类的一般原理,然后介绍. t嚣翦怒决策撼分粪篓法;§2 . 1分类方法簿:垒舰模商性能计算机系统, 决方案r并在此基础上实戈 行决策树分樊器。§ 2 . 2决策树方法决繁衡是一释有商无稔蠹逮。强暴一令第点z外,都为内部节点。对于芳 曼廷套嚣条游,弱秣先二事逶霉,将节点默上的 给定数据集首先,; 情况下最多可分割为路个- 点)。进入划内部节点i 为不同的子集,继续进乂 根据分割标准,任一所至齐 到煞一节点的路径上的所e 割条件是囱根节点到某一 i 分割条件为该决策树分类酌捂述:择策略,郦根据数据爰由上算法攒述

5、可知, 通常采用的方法有三种: 据縄磷i°ri i (五(s 1 , s 是岸任k 数据集s的总爛在划分之.数据集s裁努嚣懿溥 假设属性a具有矿个v个子集f国,岛,, 为 c 1,c 2 ,勵, 子集s的爛为:md l剪枝属予后剪彳如果建构棵二叉树,的蒸尼指数就是:o og i n i ( s )土)o(s i ) +詈 g在被测试的属傲中,( (2,决策擞剪技:在实际应用中,由于1 枝被层数也较多,觸外,力 枝晌产生,这就需嚣对生月 剪枝和后剪枝。预翦枝是早竺! !生坐翼!堡八丄§ 2 . 4快朿樹分三决策辩分类方法哥澈?(1) 预测准确度该溅礁确凄是麓褥最: 前公认的方

6、法是1 0番分丿(2) 嚣籀复杂发计算复杂度依赖于具, 对黎是巨豢熊数据麾,因1(3) 强壮性这涉及对于数据集中i可嚴变得效率低下。对大型数据构造决策; 进行抽样,这样就鼠晏对全i 内存数据。但是这趣仍然, 替代的方法是:蓄笼,褥, 由姆个子集构造一个决策; 缝合在一麓。尽管这个方j 如一次使用所有数据的方j基于激上兼嚣,我稻 在非常大的训练集上进行 效攀,开疑对决繁瓣冀法!第3章决随着网络技术的发展 对其进行机器学习的效率j 据仓库越来越大的规模。- 来越引起人们的关注。另一方面,随着高性难题指明了一条新的道路:(2 )时间可扩展性: 在确定的应用背景下,算v 力,如今它已经成为并行协 述并

7、行算法(并行程序)丿在特定注行系统结7 如算法本身n亍特征,5 法本身的并歸正是算法f 算法会具有很好的并行特彳 根本就不可能或者很难达至i行的粒度越殳卡有可能; 导致通信次矗qi信量需1 通常,h价一个并:n所以,原有骑大量魄e速增长白 确£|竣卡葵次,蘑予传统熬乍罄数据墩的不断增大,伞 低,这棒蹲凌繁支籀援7 性,研究算法的时间可扌 麓蘑嵩瞧辍 冀扌 嚣学习和知识发现指明 求,露基缝遴步提升爭 能使褥在时间效率上,t保i、丨 t瀝旦米1)并彳亍拣1豊行度,男一方面,必须 璨器之圍弱逶蔷。所戳, 来减少通信次数甚至以计 舞销要遥远大予一次诗黔 多次通信合并为一次通佰 个程亭懿魏亍效

8、率。3 . 2决策树分三任俺一神独立的知谚0 (iv),其中iv是数扼萋臺:令蒋鬣昨点翳 性问是相互独立的,它彳 强在不溺籍照理器主逡m 备属性的数据之间在这, 臻楚環器:上送簿独立扌 总的来说,属性间的并彳f 2)莠行蛙至: 每次逸構好决策丿 地形成游于个予拷节点; 同样也不存在任何依被:数撰著蟹窪,壶予个计算机结点上。其并彳 蒙攥分裁:数扌畧努】 并行度往往随满闽题规屯 黯稔程麓壤琵。根据决策树方法的p 彳丁建魏,蜀菰米零疆下么(1 )任务并行:霹予建撬黎泱繁术 子树节点的形成作为一彳 疑生残挺夔掇节点。经交 其中的iv. 1个子树的娄rmation)7 k 须协谖会擘,摆蔓之润 髀爛的怒

9、£程如图32 各个计冀嘏结点上,所以§ 3 o 2 o 3各并行懐对于任务并行来说, 理,这个方案可以充分利 要传送大量的节点信息, 号,造成了较大的对海滚§ 3。窖还隸遍瑕斟环憊t :v -的样本数据,s l i q产占 属性表,由删(记录标7 表的一个表目(存放给定7 判定树中对应的叶子节点。 中,需要经常访问。类表白不能放在主存时,s l i qr i d c r e d i t1 e x c e 1 lent§ 3 . 3 . 2 scp r i n法r i &df ua cl璃煙彘詡4于夕甜b u i 1 d t r e e ( t本纂° ( 1)创建锻带点rt ft都震子§:(3) foreacf 挠簿a 士秘稱耆(4) 调用 b t i i 無爾b u i t 三强ncred itratine r

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论