(信号与信息处理专业论文)改进的apriori算法在贫困生助学系统中的应用.pdf_第1页
(信号与信息处理专业论文)改进的apriori算法在贫困生助学系统中的应用.pdf_第2页
(信号与信息处理专业论文)改进的apriori算法在贫困生助学系统中的应用.pdf_第3页
(信号与信息处理专业论文)改进的apriori算法在贫困生助学系统中的应用.pdf_第4页
(信号与信息处理专业论文)改进的apriori算法在贫困生助学系统中的应用.pdf_第5页
已阅读5页,还剩48页未读 继续免费阅读

(信号与信息处理专业论文)改进的apriori算法在贫困生助学系统中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

改进的a p f i o f i 算法在贫困生助学系统中的应用摘要数据挖掘是从存放数据库、数据仓库或其它信息库中的大量数据中挖掘出有趣知识的过程。它可以对数据进行从微观到宏观的统计、分析、综合和推理,指导解决实际问题,发现事物之间的相互关联并做出预测。目前数据挖掘已经成为计算机科学与工程研究的一个热点,数据挖掘技术的研究的得到了进一步加深,其应用领域也在不断地扩大。近年来随着我国高校不断扩招,越来越多的学子都有机会迈入大学的殿堂。但由于高校收费制度的改革,高校贫困生的数量不断增加。面多这种令人担忧的情况,我国政府与高校已采取了一系列措施并取得了不少成绩。但由于资助金有限,真假贫困生难分辨等问题存在,使得贫困生资助工作在真正实施时遇到了困难。目前,由于各大高校里校园一卡通系统的建立,数据挖掘技术逐渐被应用在教学评估体系及学生行为分析系统中。在此背景下,我们考虑将先进的数据挖掘技术应用在学生管理信息系统中,可以建立比较完善的学生管理系统和提高学生管理水平,同时为学校管理决策起到指导和辅助作用。数据挖掘可以发现数据背后隐藏着许多重要的信息,快速而又准确地从浩瀚的信息资源中提取出所需信息。将数据挖掘技术引入其中,发掘出贫困学生群体中各种特征之间的相关性和规律。本文以校园一卡通交易数据和基本信息为研究对象,通过数据库和数据挖掘技术的综合运用来建立数据分析系统。首先介绍了数据挖掘的基本任务和技术,接着对关联规贝u a p f i o f i 算法进行了详细阐述,针对算法需要多次读取数据库等缺点提出一种改进的算法,先将事务数据库映射到布尔矩阵,利用向量求“与 运算,寻找频繁项集,且用一种逐层递增的思想动态分配内存,以避免重复匹配的问题。然后利用数据库有关技术,针对校园一卡通的卡内基本信息进行初步分析,对所涉及的多个数据库进行集成与转换,形成了利于挖掘的综合数据库,并以此建立了贫困生信息数据库。最后把改进的a p f i o f i 算法放入库中进行运算,发现所需的关联规则。将数据挖掘技术应用于校园一卡通的数据分析,可以为未来学校综合信息知识获取的进一步研究、构造完整的分析平台以及更高层次的领导决策实现打下了坚实基础。关键词:数据挖掘;关联规则;a p f i o f i 算法;校园一卡通改进的a p f i o f i 算法在贫困生助学系统中的应用a bs t r a c td a t am i n i n gi st h ep r o c e s so fd i s c o v e r i n gi n t e r e s t i n gk n o w l e d g ef r o ml a r g ev o l u m e so fd a t aw h i c ha r es t o r e de i t h e ri nd a t a b a s e s ,d a t aw a r e h o u s e s ,o ro t h e ri n f o r m a t i o nr e p o s i t o r i e s t h ed a t am i n i n gm a ys t a r t ,a n a l y z e ,s y n t h e s i z ea n dr e a s o nd a t af r o mm i c r o s c o p i ct ot h em a c r o s c o p i c ,a n da l s oi n s t r u c ta c t u a lp r o b l e m s s o l u t i o n ,d i s c o v e ra n dm a d et h ef o r e c a s to ft h ei n t e r d e p e n d e n c eb e t w e e nt h i n g s t h ed a t am i n i n gh a sa l r e a d yb e c a m et h eh o tp o to fc o m p u t e rs c i e n c ea n de n g i n e e r i n gr e s e a r c h , t h er e s e a r c ho fd a t am i n i n gt e c h n o l o g ya n di t sa p p l i c a t i o nd o m a i n si sb e c o m i n gm o r ea n dm o r ef l o u r i s h e sd a yb yd a y w i t ht h ei m p l e m e n t a t i o no fc o l l e g ee x p a n s i o np l a n , m o r ea n dm o r es t u d e n th a v et h ec h a n c et oe n t e ru n i v e r s i t y w i t ht h ed e v e l o p m e n to fr e f o r mo ft h eu n i v e r s i t i e sc h a r g es y s t e m ,t h ea m o u n to fp o o rs t u d e n ti sc o n t i n u e dr i s i n g i no r d e rt oc h a n g et h i ss i t u a t i o n , o r rg o v e r n m e n th a sa l r e a d ya d o p t e das e t so ff i n a n c i a la i ds y s t e m 、析t 1 1c o l l e g e sa n dg o ts o m ea c h i e v e m e n t ,b u tt h e r ea r ee x i s t i n gs o m ep r o b l e m sd u r i n gt h ec o n d u c ll i k et h ef u n d sw h i c hi su s e dt oa i dp o o rs t u d e n ti sl i m i t e dt h a tc a nn o tm e e tt h en e e do ft h e ma n ds o m e t i m e sc o l l e g e si sh a r dt od i s t i n g u i s hb e t w e e np o o ra n dn o tp o o r a l lt h er e a s o np r e v e n tt h ec o n d u c to ff i n a n c i a lw o r k f o rm a n yc o l l e g e sc a m p u sc a r di se s t a b l i s h e d ,d a t am i n i n gt e c h n o l o g yi sa p p l i e di nt h et e a c h i n ge v a l u a t i o ns y s t e ma n ds t u d e n tb e h a v i o ra n a l y s i ss y s t e m a g a i n s tt h a tb a c k g r o u n d , w ec o u l da d o p td a t am i n i n gt e c h n o l o g yi ns t u d e n ti n f o r m a t i o nm a n a g e m e n ts y s t e m t h i sm e t h o dc o u l di m p r o v es t u d e n ti n f o r m a t i o nm a n a g e m e n ts y s t e m ,e n h a n c el e v e lo fm a n a g e m e n ta n dh e l pm a n a g e rt om a k ed e c i s i o n d a t am i n i n gc o u l df i n dm a n yi m p o r t a n th i d d e ni n f o r m a t i o nf a s ta n da c c u r a t ef r o mt h ev a s ti n f o r m a t i o nr e s o u r c e s i nt h i sp a p e r , d a t am i n i n gt e c h n o l o g yi sp r o p o s e dt or e s o l v et h i sp r o b l e m s ,t h r o u g ht h ea s s o c i a t i o nr u l e sf i n dt h ef a c t o ra n dr e g u l a ro ft h ep o o rs t u d e n tg r o u p s b a s e do nt h et r a n s a c t i o n sd a t aa n db a s i ci n f o r m a t i o n so fc a m p u sc a r d ,t h et h e s i si st oe s t a b l i s had a t aa n a l y s i ss y s t e mt h r o u g ha ni n t e g r a t e da p p l i c a t i o no fd a t a b a s et e c h n o l o g ya n dd a t am i n i n gt e c h n o l o g y f i r s t ,t h eb a s i cp r i n c i p a lo fd a t am i n i n gi si n t r o d u c e di nt h et h e s i s n e x tt h ea p r i o r ia l g o r i t h mi sd e s c r i b e dd e t a i li nt h ep a p e r ,a i m i n ga ti t ss h o r t a g e ,a ni m p r o v e da p r i o da l g o r i t h mi sp r o p o s e d a tf i r s t ,t h et r a n s a c t i o nd a t a b a s ew a sb e c o m e dam a p p e dm a t r i x ,t h e nt h em a t r i xw a ss t o r e db yt h ew a yo fl a y e r e da l l o c a t em e m o r yt oa v o i dr e p e a tm a t c h i n g a tl a s tf r e q u e n c ei t e m s e t sw a sf i n d e db ya n do p e r a t i o n t h en e x tw o r k哈尔滨t 程大学硕十学位论文i sa n a l y s i s i n gt h eb a s i ci n f o r m a t i o no fc a m p u sc a r d w em u s tb u i l dan e wd a t a b a s ew h i c hi ss t o r i n gp o o rs t u d e n t si n f o r m a t i o n t h i sn e wd a t a b a s eu s e st h ec o n c e p to fd a t a b a s et e c h n o l o g yw h i c hi n v o l v e sm u l t i p l ed a t a b a s e sf o rt h ei n t e g r a t i o na n dc o n v e r s i o nt of o r mac o m p r e h e n s i v ed a t a b a s et om i n i n g f i n a l l yt h en e wa l g o r i t h mi sa p p l i e di nt h en e wd a t a b a s ea n da s s o c i a t i o nr u l e sa r ef u n d t h i sp a p e ri sm e a n i n g f u lw h i c hp u t sd a t am i n i n gt e c h n o l o g yi nc a m p u sc a r da n a l y s i s w o r k sn o wf o r t h en e x tc o l l e g e sc o m p r e h e n s i v ei n f o r m a t i o na c c e s st ok n o w l e d g eo ff u r t h e rs t u d y , t h es t r u c t u r a li n t e g r i t yo ft h ea n a l y s i sp l a t f o r ma n da d v a n c e dd e c i s i o n - m a k i n gt ol a yas o l i df o u n d a t i o n k e y w o r d s :d a t am i n i n g ;a s s o c i a t i o nr u l e ;a p r i o r ia l g o r i t h m :c a m p u sc a r d4第1 章绪论第1 章绪论1 1 论文研究背景由于我国常年存在的城乡之间、地区之间发展不平衡,使得很多家庭难以承担起孩子上大学的费用【。目前随着我国高等学校招生制度改革,各高等学校的新生质量和人数上有了明显的提高,这也使得高等学校中贫困生的问题也日益突出。但在对贫困生进行资助的过程时,又由于对贫困生的界定没有统一的标准和认识,往往只是凭着由村委会,乡( 镇) 政府,居委会,街道办事处或区民政局开办的特困证明来判定该名学生是否属于贫困生【2 】。这样的界定标准有可能导致有一些根本就不需要或不属于资助范围内的学生,通过某些关系开具证明获得了资助,这样一来,就有可能使那些真正需要帮助的学生失去资助的机会或只获得较少的资助。这不仅没有改善真正贫困生的生活状况,反而拉大了学生间原有的差距,严重破坏了高等教育机会平等的机制。因此,哪些学生应该被界定为贫困生,如何才能真真实实的资助贫困生,为贫困生解决问题,实现贫困生与非贫困生在高等教育起点、过程和结果上的平等这一系列问题,成为社会关注的一个焦点1 3 】。解决好高校贫困生问题也是落实教育公平性这一举措的重要手段之一,作为社会主义高等学府,学校担负着培养社会主义事业建设者和接班人的任务,有责任有义务关心贫困生的生活,帮助他们提高生活质量,保证他们圆满完成学业【4 1 。这就需要我们在新的形势下,探索出解决高校贫困生的有效途径,建立一套有效地资助体系。通常我们在对贫困生信息进行的处理都是在贫困生信息数据库系统中进行的,数据库系统可以高效地实现数据的录入、查询、删除和统计等功能,但却无法发现数据中存在的关系和规则,也无法根据现有的数据预测数据未来的发展趋势【5 1 。这种缺乏挖掘数据背后隐藏的信息的工具和方法,导致了“数据爆炸但知识贫乏 的现象。面对激增的数据,拥有这些数据库的决策者们,在做决策时不是基于数据库中蕴含的大量信息,而是基于决策者的直觉,忽视了背后隐藏着许多重要的信息。数据与信息之间的鸿沟要求有更强用力的数据分析工具,将数据坟墓转换成知识“金块 。现今高效决策者正面临着高校贫困生人数和资助项目的不断增多,以及社会对高校管理工作水平要求的不断提高的难题。这使得学校的资助工作难度不断加大,对海量数据进行简单的备份、查询、添加、删除和修改显然已经满足不了人们对数据处理标准的需要。寻找出一种具备辅助决策的功能的方法,可以帮助高效管理者分析海量数据,从而制定合理的政策是高校管理决策者所亟待觉得问题。哈尔滨下程大学硕十学位论文为了解决所面临的问题,我们可以采用近几年来兴新的数据挖掘技术。数据挖掘可以发现数据背后隐藏着许多重要的信息,快速而又准确地从浩瀚的信息资源中提取出所需信息。因此,在本课题中,提出将数据挖掘技术引入到贫困生信息资源中【6 8 】,利用关联规则算法发掘出相应的规则,为学校管理者的决策起到指导和辅助的作用。这样可以节省大量的人力资源,且能够得出比较好的结果,更好的为贫困生在获得相应资助这一问题上提供解决方案。1 2 数据挖掘的发展及国内外现状1 2 1 数据挖掘的发展历程1 、数据挖掘的由来在传统的信息系统中,通常我们所进行的操作大部分是记录和查询信息。数据库作为存储历史知识库的一个工具,对于一般的查询过程是有效且方便的,但当数据量和数据库的规模急剧增长时,传统的数据库管理查询检索机制和统计分析法就开始显露出自身的缺陷,即不能满足现实的需要,仅仅只是表面上的大量数据累积已经难以满足人们对信息需求的渴望。此时就迫切要求一种工具,他能够自动的,职能的和快速的从数据库等海量数据中挖掘出有用的信息和知识。数据挖掘技术就是为迎合这种需求而产生并迅速发展起来的- i 1 新技术,他为现代信息处理研究提供了一种新的方法和研究领域【9 】。采用数据库管理系统来存储数据,用人工智能的机器学习方法来分析数据,挖掘大量数据背后的知识,这两者的结合就促成了基于数据库的知识发现( k d d ,k n o w l e d g ed i s c o v e r yi nd a t a b a s e ) 的产生。知识发现,指的是从大型数据库或数据仓库中提取人们感兴的知识【l o 】。知识发现的提出,让人们相信我们是有能力最终认识数据的真正价值的,发现出蕴含在数据中的信息和知识。数据挖掘一词最早被称为“数据库中发现知识 出现在1 9 8 9 年在美国底特律召开的第十一届国际联合人工智能学术会议上【1 1 1 。自从1 9 9 5 年在加拿大蒙特利尔召开的首届k d d & d a t am i n i n g 国际学术会议后,以后每年都要召开一次k d d & d a t am i n i n g 国际学术会议。多数学者认为数据挖掘( d a t am i n i n g ) u 2 j 是k d d 过程中的一个基本步骤,也是k d d 的最重要环节,他是应用具体算法从大量数据中提取模式和知识。数据挖掘是信息技术自然演化结果,信息技术的发展初期的是简单的数据收集和数据库的构造,后来发展到对数据的管理,再后来发展到对数据的分析和理解,这时候出现了数据仓库技术和数据挖掘技术。数据挖掘是涉及数据库和人工智能等学科的- - i - j 当前相当活跃的第1 章绪论研究领域,同时又由于有广泛可用的存在于各种数据库中的海量数据,因此,从大量的数据中智能地,自动地提取出有价值的知识和信息的研究,即数据挖掘,具有十分重要的理论及现实意义和广泛的应用前景。2 、数据仓库与数据挖掘数据仓库( d a t aw a r e h o u s e ) 1 1 3 】是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理部门的决策过程。目前广泛应用的数据库系统通常是为某一部门的具体业务服务,它的设计和实现都是以尽可能满足该业务的具体任务为目标。而数据挖掘作为一种知识发现过程,它一般不局限于单一的业务部门数据库,通常需要把几个数据库的数据合起来进行分析。然而不同数据库的数据在表示和格式上常常存在不一致性,这就大大增加了数据挖掘困难,因此需要一种将可以对数据进行集中转换并加以统一的机制。数据仓库就提供了一种这样的机制。他作为传统数据库技术的一种新的发展其实质仍是计算机存储数据的系统,但它存储的数据在量和质上面都与传统的数据库有所不同。数据仓库技术和数据挖掘有着密切的联系,可以说数据仓库技术的发展使数据挖掘技术有了更深远的发展前景,但这并不是说数据仓库技术就是数据挖掘技术的先决条件,因为有很多数据挖掘可以直接从操作数据源中挖掘出信息。一般情况下,数据挖掘就是应用一系列技术把数据从大型数据库或者数据仓库中拿到数据挖掘库或数据集中,生成数据挖掘库,如图1 1 所示。在对数据进行清理时,既可以在数据仓库中进行,也可以在数据挖掘中进行,如果数据在导入数据仓库时己经清理过,通常情况下就没必要在做数据挖掘时再清理一次了。3 、数据挖掘与o l a p图1 1 由数据仓库生成的数据挖掘库哈尔滨工程大学硕十学1 1 f 7 = 论文数据仓库系统在数据分析和决策方面为用户或“知识工人提供服务,这种系统就称为o l a p 1 4 】。数据挖掘和o l a p 他们都属于分析工具,但他们是完全不同的,基于的技术也大相径庭【1 5 】。o l a p 也是一种有别于传统的查询和报表的工具,是一种自上而下、不断深入的分析工具,属于决策支持领域的一部分。0 l a p 用户提出问题或假设,o l a p负责从上至下深入地提取出关于该问题的详细信息,并以可视化的方式呈现,也就是说,o l a p 是建立一系列的假设,然后通过o l a p 证实或推翻这些假设来最终得到自己的结论。比如,一个分析师想找出是什么原因导致了贷款,传统工具只告诉你数据库中都有什么,而o l a p 还会告诉你下一步会怎么样、和如果我采取这样的措施又会怎么样的结果。例如,一个分析师想找出什么原因导致了货物堆积,他可能先做一个初始的假定,认为经济危机导致的,然后用o l a p 来验证他这个假设。如果这个假设没有被证实,他可能去察看那些影响家庭收入的其他方面,比如房贷等,就这样直到能找他所想要的结果或放弃。也就是说,本质上o l a p 是一个演绎推理的过程,用户先建立一个的假设,然后通过o l a p 检索数据库来证实或推翻这些假设来最终得到自己的结论。但当分析的变量达到几十或上百个,o l a p 手动分析验证这些假设将是一件非常棘手的工作。而数据挖掘不是用于验证某个假定的模式的正确性,而是在数据库中自己寻找相应的模型,本质上他是一个归纳的过程。仍以上例说明,用数据挖掘工具的分析师想找到引起货物堆积的因素。数据挖掘工具可能帮他找到高支出和低收入是引起这个问题的因素,但同时还可能发现一些分析师从来没有想过或试过的其他因素,比如日期。这样从对数据分析的深度可以看出,o l a p 位于较浅的层次,而数据挖掘所处的位置则较深。所处分析模型层次的不同决定了这两者的分析能力和所能回答的问题种类也不相同。同时,数据挖掘和o l a p 也具有一定的互补性,两者是相辅相成的。在利用数据挖掘得出来的结论采取行动之前,还可以采用o l a p 验证一下如果采取这样的行动会给公司带来什么样的影响。并且随着o l a p 的发展,o l a p 与数据挖掘间的界限正在逐渐模糊,因为越来越多的o l a p 厂商将数据挖掘的方法融入他们的产品中,这可能是o l a p产品的一个发展方向。1 2 2 国内外应用现状目前,数据挖掘己成为一个具有迫切现实需要的很有前途的热点研究课题,国内外的许多研究工作者都对此领域展开了大量的研究分析,将他应用在政府、科学、商业和工业的各个部门。1 、科学应用4第1 章绪论从科学研究方法学的研究角度看,科学研究大致可以分为三类,即理论科学、实验科学和计算科学,其中计算科学是现代科学的一个重要标志。随着先进的科学数据收集工具的开发和使用,各领域涉及到的数据量急剧增加,如观测卫星、遥感器和d n a 分析技术等,急需数据挖掘这种非传统的数学分析工具,如加州理工学院喷气推进实验室与天文科学家合作开发的s k i c a 系统,该系统使用了决策树方法构造分类器,能够帮助天文学家发现遥远的类星体,与以前的方法相比能在亮度上降低一个数量级,效率提高4 0 倍以上,该系统是人工智能技术在天文学和空间科学上的第一批成功应用之一。在学术研究上,人工智能、数据库、信息处理知识工程等领域的国际学术刊物纷纷开辟了数据挖掘专题或专刊,例如i e e e 的k n o w l e d g ea n dd a t ae n g i n e e r i n g 会刊,他率先在1 9 9 3 年出版了数据挖掘技术的专刊,此外在i n t e m e t 上也不少关于数据挖掘方面的电子出版物,其中以半月刊k n o w l e d g ed i s c o v e r yn u g g e t s 最为权威。与国外相比,国内对数据挖掘的研究要稍晚些,1 9 9 3 年国家自然科学基金首次支持数据挖掘领域的研究项目。国内比较重要的会议有全国数据库学术会议( n a t i o n a ld a t a b a s e a c a d e m i cc o n f e r e n c e 简称n d b c ) ,比较权威的杂志有计算机学报趴软件学报和计算机研究与发展等,他们都对数据挖掘的最新研究有所报道。2 、商业应用商业和企业上对数据挖掘的应用需求很大,主要应用在行销、金融、银行、制造和通信等,且在商业上大部分针对的是分类预测任务。( 1 ) 市场行销。数据挖掘在行销业中的应用可以分为两类,数据库行销和货篮分析。前者的主要任务是分析潜在的客户以便有针对性的向他们推销产品,这是通过交互式查询、数据分割和模型预测等方法来实现的;后者的主要任务通过分析数据以识别顾客的购买行为模式,从而帮助市场管理者确定货架的布局排放以促销某些商品。( 2 ) 金融投资。一个典型的金融分析领域有投资评估和股票交易市场分析,通常的分析方法是采用模型预测方法( 如神经网络和统计回归技术等) 。这方面的系统主要有f i d e l i t ys t o c ks e l e c t o r ,l b sc a p i t a lm a n a g e m e n t 。投资评估的主要任务是使用神经网络模型选择投资,股票交易市场分析则使用了专家系统、神经网络和遗传算法技术辅助管理多达6 亿美元的有价证券。( 3 ) 欺诈甄别。银行和商业上经常会发生一些诈骗行为,例如信用卡诈骗等。在这方面比较出名的系统有f a l c o n 系统和f a i s 系统。f a l c o n 是h c n 公司开发的信用卡欺诈评估系统,目前他已被相当数量的零售银行用于探测可疑的信用卡交易,成功的发现多起信用卡诈骗案;f a i s 是一个用于识别和洗钱有关的金融交易系统,他所使哈尔滨t 程大学硕十学位论文用的是一般的政府数据表单。( 4 ) 零售业分析。在零售行业中利用数据挖掘技术分析售货记录,从中发现商品与商品之间的关联知识,采取相应的对策合理安放货物提高销售数量。如一家超市利用了数据挖掘技术后,发现买纸尿布的人可能还会购买啤酒这一知识,超市负责人立即对商品排放位置进行了调整,把原来相隔较远的两种商品放到了一起,很快吸引了不少下班回家路上帮太太买纸尿布的丈夫成为他们的客户,大大提高了超市的营业额。( 5 ) 大众传媒。广播公司也可以应用数据挖掘技术来预测点收视率,以合理安排电视节目的时刻表;电话公司凭借数据挖掘技术侦查国际电话的欺诈行为,可以较快的发现国际电话中存在的不正常现象;信用卡公司在采用数据挖掘技术后,信用卡使用率得到了明显提升;i b m 公司开发的a ( a d v a n c e ds c o u t ) 系统针对n b a 的比赛数据,帮助教练优化战术组合等。3 、工业应用在大中型工业企业中,一般都存有大量的与设备运行相关的数据,现场控制、故障诊断、企业管理更是一个基于知识的决策过程,因此数据挖掘技术在工业中领域中有着极其广泛的应用空间。与商业领域的信息相比,工业领域数据具有以下几个方面的特点:( 1 ) 数据信息多样性。工业现场采集的数据,是来源于不同的各类设备采用不同的手段,数据类型也是多种多样的,使得数据格式各不相同。( 2 ) 数据的复杂性。工业现场数据的复杂性一方面是由于他的多样性,另一方面是由于数据信息的成分十分复杂。( 3 )数据质量。在工业现场数据中,处理最多的是传感器数据。传感器测点的位置,传感器工作是否正常运行,传感器的数据是否代表过程参数的真正状态,都会严重影响现场数据的质量。( 4 ) 数据与时间的相关性。工业数据还有一个重要的特点是与时间有着密切的相关性,这是因为在工业过程中,尤其是过程监控和质量控制中,时间序列是主要的分析对象。( 5 ) 工业噪声。与商业领域不同,工业噪声的影响会使工业数据的处理编的十分艰难。数据挖掘是一个应市场需求而生的学科,又是一个多学科相互融合相互渗透而产生的交叉学科。数据库技术、机器学习、统计技术、信息科学的发展为数据挖掘的诞生奠定了理论基础,不可限量的市场需求为数据挖掘的发展提供了广阔的空间【1 6 】。1 3 论文的研究目的与意义目前有很多学者们从不同角度分析了我国高校贫困生的成因,归纳起来主要有以下几个主要因素7 1 :6第1 章绪论( 1 ) 自从实施“并轨招生,交费上学 制度以来,除了少数几个特殊专业外,公费上大学的现象已成为昨日黄花,要上大学就必然要自己交学费,必然会遇到“交费上学 的困扰。( 2 ) 自然环境因素:地理位置偏远,长期受到自然环境恶劣的老少边穷地区和受自然灾害地区家庭子女容易成为高校贫困生。( 3 ) 家庭环境因素:日益加剧的竞争使企业优胜劣汰,城市下岗职工的子女入学,必定要碰到经济上的压力,特别是父母双方都下岗的职工子女,经济负担就特别重。无固定收入家庭、读书子女多的家庭、主要劳动力下岗的家庭和发生变故的家庭的也会出现子女无法支付上大学费用的现象。( 4 ) 社会变迁因素:随着我国社会主义市场经济体制建立和不断完善改进,各地区之间经济发展不平衡逐步扩大,城乡居民收入差距进一步拉大,在这个时候高等教育实行招生并轨,大学生缴费上学,高昂的学费使很多家庭都负担不起,他们的子女即使勉强上了大学,也成为了高校里的贫困生。( 5 ) 生活水平地区差异也是贫困生问题产生的一个重要原因。与沿海城市相比,很多来自老、少、边等经济发展相对较落后地区的学生,他们既承担不起较高的学费,也难以承受沿海地区相对的其他生活“高消费 。贫困生作为一个比较特殊的群体,导致他们家庭贫困的成因既有普片性原因,又有特殊性原因。当前,我国许多高校对贫困生认定还局限在传统的、凭经验、主观式的定性判断上。没有具体的量化标准,没有详细的与贫困生认定相关的社会资本、自然资本、物质资本及文化资本等方面的指标,这就导致了高校贫困生资助工作含混不清,指导性、实践性不强,可比性、可行性不高。这种状况的产生既与本身难以克服的制度性因素有关,但有一部分与人为因素有关。目前各高校对于贫困生的认定大多数都是依据学生生源所在街道办开具的贫困证明、学生入学时填写的各种表格中所透露出的基本信息等【1 8 】。制定一个标准来界定贫困生并不困难,难的是在对贫困生进行认证时,这些标准是否具有实际可操作性,并且成本低廉1 2 0 。贫困生认定是需要成本的,如果学校采取对贫困生家庭情况逐一进行核实的措施,会提高评判的准确性,但在目前人数多、生源分布广的情况下显然难以办到。由生源地政府来核实“贫困生”的成本比高校要低得多,但同时学校对生源地政府缺乏约束,他们在认定中没有承担相应的义务和责任,常常出于乡土人情或其他一些原因,开出的贫困证明可能存在虚假成分,没有公信力。基于种种原因,高校往往就采取由学生申请并提供政府出具的各种困难证明,再通过调查、评议等途径来认定贫困生。这种操哈尔滨一【程大学硕+ 学位论文作办法看起来很民主,但通常情况下辅导员或班主任因工作忙而不能做深入调查,只凭工作经验和同学所提供的一些信息材料来认定贫困生,这种较多的人为因素就常常会出现“爱哭的娃娃吃奶多”的现象,与同学相处好且经常与同学沟通的人有可能得到大家更多的关注,获得更多的经济补助;有时院系为了追求形式上的公平,解决“僧多粥少的矛盾,采用广泛撒网的做法,扩大贫困生认定范围,使资助资源利用率下降。另外在高校助困的实际工作中,一些学校把对贫困生的认证标准与资助条件不加区分混为一谈,把对贫困生进行资助的评定过程当成判定贫困生的“标准”。实际上,“标准 与“条件 有着必然的联系,但并不等同。贫困生认证的“标准 是对是否是贫困生进行判定的问题,而资助条件是对已经认定的贫困生进行是否得到资助的认定过程,“标准 是得到资助的必要条件,但必要条件并不等于充分必要条件。在一些学校,助困部门为节约时间、财力与精力,通过把资助名额下划,把两个程序合二为一,把得到资助的同学认定为贫困生,却使一部分达不到资助条件的贫困生的权益受到忽视,当另一个资助项目启动后,认定工作又从头开始,一次工作的简化却带来工作的多次重复进行。同时奖学金导向存在一定的问题。我国目前加大了奖学金力度,提高了奖学金标准,这本身是一件非常好的事,体现了党和国家对知识和人才的重视。奖学金本身是一种荣誉称号,重在奖“学”而不在于奖“贫”,目的在于引导学生努力学习科学文化知识,增强为国家服务的能力和本领,应该用于奖励品学兼优的学生。但是,在世纪评定时,往往会出现“在品学兼优的贫困学生中评选 这样的情况,似乎只有贫困生才有资格获得奖学金,而非品学兼优的学生。在这种评定条件的导向下,一些非贫困的优秀学生为了得此项荣誉称号,也会想尽办法,通过各种途径开具贫困生证明,给贫困生认定工作带来了不少困难。目前,由于各大高校里校园一卡通系统的建立,数据挖掘技术逐渐被应用在教学评估体系及学生行为分析系统中。在此背景下,我们考虑将先进的数据挖掘技术应用在学生管理信息系统中,可以建立比较完善的学生管理系统和提高学生管理水平,同时为学校管理决策起到指导和辅助作用。贫困生的资助工作作为高校学生管理信息系统中的一个重要组成部分,在当前的研究中,把数据挖掘技术应用到贫困助学体系中的研究却并不多。本文提出一种把数据挖掘技术应用在高校学生的贫困生方面的方法,对学生的相关信息进行数据挖掘,挖掘其中蕴含的规律,进而用这些规律指导贫困生的助学工作,对于提高办学水平及管理水平的意义很大。本文以哈尔滨哈尔滨工程大学在校学生为研究对象,根据校园通中提供的学生的基8第1 章绪论本信息和日常消费,构建贫困生的评价数据平台口,实现数据的具体分析,通过建立评定指标,利用数据挖掘算法对数据进行规则挖掘和评测,为高校资助机构制定科学的决策提供重要的依据。分析图如图1 1 所示。图1 1 分析流程图1 4 论文组织结构本文共分为6 章,本文结构及各章节的内容组织如下:第1 章介绍了关联规则在贫困生系统中的应用这一课题的研究背景,目的和研究意义。简单阐述了数据挖据技术的发展历程和国内外发展现状,最后给出了本文的基本结构。第2 章数据挖掘技术。介绍了数据挖掘技术的基本原理和概念,并详细阐述了数据挖掘的功能与分类。第3 章关联规则及其算法改进。在数据挖据技术应用中关联规则是很重要的一项应用,本章详细介绍了关联规则中a p r i o r i 算法【1 9 1 和f p 树算法的基本原理及运算过程,通过其基本性质及运算规律发现a p r i o r i 算法存在的不足,提出一种新的改进的a p r i o r i 算法。新算法通过减少数据库的扫描次数和算法连接生成频繁项集的次数大大减少了运行时间,提高了运行效率。第4 章改进的a p r i o r i 在贫困生认定体系中的应用。在本章中首先对所要处理的数据进行整理和分析,清理出所需信息。在此基础上,将改进的a p r i o r i 算法应用于其中,挖掘出我们所需要的知识,为高效管理者提供辅助信息。9哈尔滨t 程大学硕十学位论文第2 章数据挖掘技术2 1数据挖掘随着计算机技术及计算机硬件的不断发展,计算机的应用已渗透到社会的各行各业,改变着传统的工作、学习和生活方式,成为社会发展不可缺少的一个工具。同时功能强大的计算机、数据收集设备和存储介质的大量供应,推动了数据库和信息产业的发展,使得人类拥有的数据量急剧增加,据统计,8 0 以上的计算机主要应用于数据信息处理,并且这些数据信息正以几何级数或指数级数增长,如何分析这些数据成了现今各领域面临的巨大难题【2 。数据库系统只是对数据库中已有的数据进行存取、删除等简单操作,人们通过这些操作获得的信息量只是整个数据库中包含的信息量中一个很小的部分,没有强有力的工具,理解它们已经远远超出了人们的能力,发现隐藏在这些数据之后的关于这些数据的整体特征的描述或某些模式的发现,对决策制定过程具有重要的参考价值。这一现象激发了数据挖掘的产生,可以说,数据挖掘是信息技术自然演化的结果。数据挖掘又叫做数据库中发现知识( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ,简称k d d ) ,是2 0 世纪9 0 年代以来发展起来的数据库系统和数据库应用领域一个欣欣向荣的前沿学科,是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐含在其中的潜在有用的信息和知识的过程。它涉及到对数据库中的大量数据进行抽取、转换、分析以及模型化处理,从中提取辅助决策的关键性数据。其过程如图2 1 所示。图2 1k d d 过程数据挖掘可以帮助决策者寻找规律、发现被忽略的要素、预测趋势、进行决策,也1 0第2 章数据挖掘技术是对数据内在和本质的高度抽象与概括,是对数据从理性认识到感性认识的一个升华。数据挖掘是- i , - j 交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。是建立在数据库、人工智能、机器学习、神经网络、统计学、模式识别、高性能计算等技术基础上的_ l - j 新兴技术。因此,在这种需求牵引下,汇聚了不同领域的研究者,吸引了数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员投身到数据挖掘这一新兴的研究领域,形成新的技术热点。2 2 数据挖掘系统的分类数据挖掘是一个交叉学科领域,受多个学科影响,因此数据挖掘研究就产生了大量的、各种不同类型数据挖掘系统【2 2 】。用户在挖掘前,要明确挖掘目的,选取恰当的挖掘系统,这样才能体现出数据挖掘的优越性。1 、根据挖据的数据库类型分类数据库系统本身可以根据不同的标准分为多种类型,每一个类型可能都需要自己相应的数据挖据技术,因此,数据挖掘系统可以相应进行分类。例如,根据数据模型分类,可以分为关系的、事务的、面向对象的、对象一关系的或数据仓库的数据挖掘系统;而根据所处理数据的特定类型分类,可以分为空间的、时间序列的、文本的、多媒体的或w w w 的数据挖掘系统。2 、根据挖掘的知识类型分类数据挖掘包含多种功能,如特征化、区分、关联、分类、聚类、孤立点分析、演变分析、偏差分析或类似性分析等。一个完整的数据挖掘系统应当提供多种和( 或) 集成的数据挖掘功能。此外,根据所挖掘的知识的粒度或抽象层数据挖掘系统可以分为:包括概化知识( 在高抽象层) 、原始层知识( 在原始数据层) 或多层知识( 考虑若干抽象层) 。3 、根据所用的技术分类这些技术可以根据用户交互程度( 例如自动系统、交互查询系统、查询驱动系统) ,或所用的数据分析方法( 例如面向数据库或数据仓库的技术、机器学习、统计学、可视化、模式识别、神经网络、模糊集、粗糙集、遗传算法、决策树、最近邻技术等) 描述。复杂的数据挖掘系统通常采用多种数据挖掘技术。4 、根据应用分类数据挖掘系统可以根据其应用分类,在一些特定的行业领域,针对不同的需求采用哈尔滨t 程大学硕十学位论文对于该应用特别有效的方法。比如,金融、电信、d n a 、股票市场等等,通用的数据挖掘系统可能并不适合这些特定领域的挖掘任务。2 3 数据挖掘的功能数据挖掘功能用于指定数据挖掘任务中要找的模式类型。数据挖掘任务一般可以分为两类:描述数据挖掘和预测数据挖掘。描述性挖掘任务这种突出数据库中数据的一般属性,以简洁概要的方式描述数据,并提供数据的有趣的一般性质;预测性挖掘任务是利用当前数据进行分析推断,并试图预测新数据集的行为。有些时候,用户不知道什么类型的数据模式是有趣的,因此可能想并行地搜索多种不同的模式,这就要求数据挖掘系统要能够挖掘多种类型的模式,以适应不同的用户需求或不同的应用。数据挖掘系统应当允许用户给出提示,指导或聚集有趣模式的搜索。针对给定的数据集和给定的挖掘目标,到目前为止尚没有公认的标准选择恰当的挖掘方法【2 3 】。数据挖掘功能以及它们可以发现的模式类型介绍如下【2 4 1 :1 、概念类描述:特征化和区分数据库中通常存放着大量的细节数据,然而,用户通常希望以简洁的描述形式观察汇总的数据集,这种数据描述可以提供一类数据的概况,或将它与对比类相区别。此外,用户还希望能方便、灵活地以不同的粒度和从不同的角度描述数据集。这种用汇总的、简洁的、精确的描述数据方式的数据挖掘就称为概念描述【2 5 1 。当被描述的概念涉及对象类时,有时也称概念描述为类描述。概念描述由特征化和区分组成。前者汇总并描述称作目标类的数据集,后者汇总并将二个称作目标类的数据集与称作对比类的其他数据集相区别。概念特征化的实现方法有两种:基于数据立方体o l a p 的方法和面向属性归纳的方法。这两方法都是基于属性或维的概化方法。概化数据可以采用多种形式的可视化方式,其中包括概化关系、条形图、饼图、数据立方体试图、交叉表、曲线和规则等。概念区分也可以采用面向属性的归纳或数据立方体等类似于概念特征化的方法,量化地比较和对比从目标类和对比类概化的元组。概念区分描述的可视化形式也与概念特征化的类似。2 、关联分析关联分析发现关联规则,这些规则展示属性值频繁的在给定数据集中一起出现的条件【2 6 1 。例如,在同一次去超市购物,如果顾客购买牛奶,他也购买面包的可能性有多大,通过帮助零售商有选择的经销和安排货架,这种信息可以引导消费。常规的数据检索系1 2第2 章数据挖掘技术统不能做到上述的信息分析,然而通过识别频繁地一起销售的商品,事务数据的数据挖掘系统可以做到【2 他8 1 。上面所述的购物篮分析只是关联规则挖掘的一种形式。在实际的应用有许多关联规则,根据不同的情况可以分为以下的类别:( 1 ) 基于规则中所处理的变量的类型,关联规则可以分为布尔型和数值型。布尔关联规则处理的值都是离散的、种类化的,该规则考虑的是项的存在或不存在:数值型关联规则又可以称为量化关联规则,他描述的是量化的项或属性之间的关联,通过对数值型字段进行处理,将其进行动态的分割,他也可以直接对原始的数据进行处理。例如:性别= “男 = 职业= “经理 ,这是一个布尔型

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论