




已阅读5页,还剩52页未读, 继续免费阅读
(计算机应用技术专业论文)多关系数据挖掘技术研究及在纳税评估中的实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
山东轻t 业学院硕十学位论文 摘要 数据挖掘( d a t am i n i n g ,d m ) 就是从大量数据中发现潜在规律、提取有用知识的 方法和技术。近年来,数据挖掘受到了国内外的普遍关注,己经成为信息系统和 计算机科学领域研究中最活跃的f i i 沿领域。由于传统的数据挖掘技术是基于单一 关系基础之上的,不能完全满足现实中数据复杂情况下的应用,本文提出了多关 系数据挖掘技术。 当前,纳税评估已经成为我国税收管理工作的一个重要组成部分。随着计算 机技术及网络的应用,我国税务系统在信息化建设中,相继实现了省级以上的数 据集中模式,初步形成了多个应用系统共享一个网络的格局。这些系统的运行又 产生了大量业务数据,如何将这些数据进行整合、分析和挖掘,以支持目前和今 后税收的科学管理与决策,成为目f i 税务信息化的重要工作。采用传统的技术手 段建立的纳税评估信息系统存在诸多问题,而使用多关系数据挖掘的方法能有效 的解决这些问题。 本文通过研究多关系数据挖掘的过程模型和方法模型,分析目前纳税评估系 统的应用及现状,以纳税评估系统中评估指标能由计算机系统自动建立和维护从 而使得评估对象的产生具有一定的科学性和公证性为目标,选择了适用的多关系 数据挖掘方法一一分类方法。在研究了分类方法的多种算法后,结合税务数据和 纳税指标的实际,确定了运用多关系决策树算法中的快速可伸缩( s u p e r v i s e d l e a r n i n gi nq u e s t ) 算法,但由于该算法无法直接利用数据库管理系统( d a t a b a s e - m a n a g e m e n ts y s t e m ,d b m s ) 中的数据,并且构建决策树过程中计算量过大,进 而选择并使用了其改进算法q l i q 算法来进行实现。最后,根据数据挖掘的过程模 型,借助于当前广泛使用的大型关系数据库系统s q ls e r v e r 所提供的a n a l y s i s m a n a g e r ,设计了基于q l i q 算法的纳税评估对象筛选系统,实现了纳税评估指标 的自动建立和维护以及评估对象产生的科学性和公正性。实验表明,该算法能有 效地解决以往纳税评估系统中存在的诸如指标选择难并且需要手工设置以及评估 对象的产生缺乏科学依据等问题,满足业务需要,而且高效、易于实现。随后在 论文的末尾又简要介绍了纳税评估完成后对结果进行反馈的子系统。 关键词:多关系数据挖掘;纳税评估;多关系决策树;数据库管理系统;q l i q 算 法 摘要 a b s t r a c t a sak i n do fm e t h o da n dt e c h n o l o g y , d a t am i n i n g ( d m ) a i m sa td i s c o v e r i n gt h e l a t e n tr u l ef r o mm a s s i v ea m o u n t so fd a t aa n de x t r a c t i n gt h eu s e f u lk n o w l e d g e i nr e c e n t y e a r s ,d m h a sg o r e nd o m e s t i ca n df o r e i g nw i d e s p r e a dc o n c e r n sa n dh a sb e e n b e c o m i n gm o s th o tf o r e f r o n ti nt h ef i e l do fi n f o r m a t i o ns y s t e m sa n dc o m p u t e rs c i e n c e a st r a d i t i o n a ld mt e c h n o l o g yi sb a s e do ns i n g l er e l a t i o n a lf o u n d a t i o n ,c a nn o tf u l l y m e e tt h ea p p l i c a t i o ni nc i r c u m s t a n c eo fc o m p l e xd a t ar e a l i t y , t h i sp a p e rp r o p o s e sa m u l t i - r e l a t i o n a ld a t am i n i n gt e c h n o l o g y a tp r e s e n t ,t h et a xa s s e s s m e n th a sb e c o m ea ni m p o r t a n tp a r to fo u rc o u n t r yt a x r e v e n u em a n a g e m e n t w i t l lc o m p u t e rt e c h n o l o g ya n dn e t w o r k i n ga p p l i c a t i o n s ,o u r c o u n t r yt a xs y s t e mh a sr e a l i z e dd a t ac e n t r a l i s mm o d e la b o v et h ep r o v i n c i a ll e v e l ,a n d f o r m e dm a n ya p p l i c a t i o ns y s t e m ss h a r i n gan e t w o r kp a t t e r n t h ef u n c t i o n i n go ft h e s e s y s t e m sh a sh a dt h em a s s i v es e r v i c ed a t a ,a n dh o w t oi n t e g r a t e ,a n a l y z ea n dm i n et h e d a t at os u p p o r tc u r r e n ta n df u t u r er e v e n u es c i e n t i f i cm a n a g e m e n ta n dd e c i s i o n m a k i n g w i l lb e c o m et h ei m p o r t a n tw o r ko ft h ec u r r e n ti n f o r m a t i o n b a s e dt a x t h et a x a s s e s s m e n ti n f o r m a t i o ns y s t e me s t a b f i s h e db yt r a d i t i o n a lt e c h n i c a lm e a n sh a sm a n y p r o b l e m s ,a n dt h eu s eo fm r d m c a ns o l v et h e s eq u e s t i o n se f f e c t i v e l y f i r s t l y ,t h r o u g hr e s e a r c ho nt h ep r o c e s sm o l da n dt h et e c h n i q u em o l do fd a t a m i n i n g ,t h i sp a p e ra n a l y z e dt h ea p p l i c a t i o na n da c t u a l i t yo ft a xa s s e s s m e n ts y s t e m a s t h ea s s e s s m e n ti n d e xi nt a xa s s e s s m e n t c a nb ee s t a b l i s h e da n dm a i n t a i n e d a u t o m a t i c a l l yb yt h ec o m p u t e rs y s t e m t h u se n a b l e st h ep r o d u c t i o no fa s s e s s m e n t o b j e c t t oh a v ec e r t a i ns c i e n t i f i cn a t u r ea n dn o t a r i z a t i o n ,t a k i n gt h i sa st h ea i mt h i s p a p e rc h o o s e st h er i g h td a t am i n i n gm e t h o d - s o r t i n g s e c o n d l y , a f t e rs t u d y i n gv a r i o u s a r i t h m e t i co fs o r t i n g ,h a sa s c e r t a i n e dt ou s et h es u p e r v i s e dl e a r n i n gi nq u e s t ( s l i q ) o f m u l t i r e l a t i o n a ld e c i s i o nt r e e ,b u to w i n gt ot h ea l g o r i t h mc a nn o td i r e c t l yu s e t h ed a t ao f d a t a b a s e m a n a g e m e n ts y s t e m ( d b m s ) a n dt h ec m c u l a t i o nv o l u m ei nt h ec o n s t r u c t i o n d e c i s i o nt r e ep r o c e s si so v e r s i z e d ,s oc h o o s e st ou s et h e i ri m p r o v e da l g o r i t h mq l i qt o i m p l e m e n t f i n a l l y , a c c o r d i n gt o d a t am i n i n g sp r o c e s sm o d e la n di nv i r t u eo ft h e a n a l y s i sm a n a g e rw h i c hi sf t m a i s h e db yt h ee x t e n s i v e l yu s e dl a r g e - 。s c a l em u l t i - 。r e l a t i o n d a t as y s t e m ,t h i sp a p e rd e s i g n st h ef i l t e r i n gs y s t e mw i t ht a xa s s e s s m e n to b j e c tb a s i n go n q l i q ,a n dr e a l i z e st h ea u t o m a t i ce s t a b l i s h m e n ta n dm a i n t e n a n c eo ft h e t a xa s s e s s m e n t i n d e xa n dp r o m o t e st h er a t i o n a l i t ya n dj u s t i c eo ft h ea s s e s s m e n to b j e c t t h ee x p e r i m e n t i n d i c a t e st h a tq l i qa l g o r i t h mc a ne f f e c t i v e l ys o l v et h ep r o b l e m se x i s t i n gi nt c m i st o i i 山东轻工业学院硕上学位论文 m e e to p e r a t i o n a ln e e d s ,s u c ha st h ei n d e xc h o i c ed i f f i c u l t l ya l s o n e e d i n gm a n u a l c o n f i g u r a t i o na sw e l la sa s s e s s m e n to b je c tp r o d u c t i o nl a c k i n gs c i e n t i f i cb a s i sa n ds oo n , a n di ti sa l s oh i g h l ye f f i c i e n ta n dc a nb ee a s i l yi m p l e m e n t e d s u b s e q u e n t l y , a tt h ee n do f t h ep a p e r , as u b s y s t e mi sa l s ob r i e f l yi n t r o d u c e dt h a tt h eo u t c o m ei st ob ef e db a c kb y t h ef i n i s h e dt a xa s s e s s m e n t k e yw o r d s :m u l t i - r e l a t i o n a ld a t am i n i n g ;t a xa s s e s s m e n t ;m u l t i r e l a t i o n a ld e c i s i o n t r e e ;d b m s ;q l i qa l g o r i t h m 学位论文独创性声明 本人声明,所呈交的学位论文系在导师指导下本人独立完成的研究成果。文中 引用他人的成果,均已做出明确标注或得到许可。论文内容未包含法律意义上已 属于他人的任何形式的研究成果,也不包含本人已用于其他学位申请的论文或成 果,与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明 并表示谢意。 学位论文知识产权权属声明 本人在导师指导下所完成的论文及相关的职务作品,知识产权归属山东轻工业 学院。山东轻工业学院享有以任何方式发表、复制、公开阅览、借阅以及申请专 利等权利,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版, 本人离校后发表或使用学位论文或与该论文直接相关的学术论文或成果时,署名 单位仍然为山东轻工业学院。 论文作者签名: 铷签名:兽豆血 醐:巡程月手日 日期:之丝芝年么月二生日 山东轻工业学院硕士学位论文 第1 章绪论 1 1 多关系数据挖掘的研究背景及定义 1 1 1 传统数据挖掘的研究背景 随着国际互联网的高速发展和电子商务的广泛应用,人们利用信息技术生产 数据的能力大幅度提高,成千上万的数据库被用于商业管理、政府办公、科学研 究和工程开发等等。企业、政府部门和科学团体因此也面对着信息积累的问题, 每天都有大量的数据产生,信息量几乎以每二十个月翻一番的速度剧增。大量的 数据储存在联机数据库中。信息技术的发展面临着如何从巨大的信息海洋中找到 合适的数据分析方法,获取有用的知识模式来帮助企业、政府做出正确的决策。 另外,由于数据库技术的发展和数据存储成本的降低以及数据库管理系统的 广泛应用,大型数据库系统己经在各行各业普及。数据库和联机事务处l 里( o l t p ) 已经被广泛应用于金融、证券【l 】、保险、销售以及天气预报、工业生产、分子生物 学、基因工程研究、税务、海关等各行名业。对于这些积累的大量数据,人们己 经不满足于传统的统计分析手段,而需要发现更深层次的规律,提供更高层次的 数据分析功能,更加方便和有效的获取能带来效益的信息。在大量的数据背后隐 藏着许多重要的不被人所知的信息,这些信息可以很好地辅助人们进行决策。可 是目前用于对这些数据进行分析处理的工具却很少。目前人们用到的主要是数据 库的存储功能和简单的查询分析功能,而隐藏在这些数据之后的更重要的信息则 没有被充分发现和利用。这些信息是关于数据的整体特征的描述以及对发展趋势 的预测,在决策生成过程中具有重要的参考价值。例如,银行信用卡的发放和电 信局的客户信用都可以通过查询客户数据库束发现恶意欺骗的信誉度不好的客户 模式。 大量的数据使得数据挖掘成为选案的必要技术手段,数据挖掘( d a t am i n i n g d m ) 技术也就应运而生。现在,数据挖掘已经作为一种从数据中发现隐含有用信 息或知识的技术,伴随着数据仓库应用的增加也得到了进一步发展。 数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数 据中,提取隐含在其中的、人们事先不知道的、但又是潜在的有用信息和知识的 过程1 2 引。数据挖掘不但能够学习己有的知识,而且能够发现未知的知识,得到的 知识是“显式的,既能为人所理解,又便于存储和应用,因此一出现就得到广 泛的重视。 数据挖掘是在没有明确假设的前提下去挖掘信息,发现知识,得到的是预先 未曾预料到的、有效的和实用的信息,因此它可以有效的解决当前“数据太多, 信息不足这一困扰分析决策人员的难题。另外,通过数据挖掘,可以处理高维 第1 章绪论 的数据,为用户提供可视化工具,帮助用户发现隐藏在高维空间的模式。对数据 进行可视化的一种有效方法是借助于数据挖掘方法实现。例如,聚类算法就能从 高维空间中找出有别于其他类别的特征数据子集,通过它所提供的可视化图形可 以很容易发现数据模式。 目前,数据挖掘不仅被许多研究人员看作是数据库系统和机器学习方面重要 的研究课题,而且被许多工商界人士看作是一个能带来巨大回报的重要领域。从 数据库中发现出来的知识可以用在信息管理、查询响应、决策支持、过程控制等 许多方面。目前,己经有多家知识发现商业产品投入市场,并取得成功的应用。 特别需要指出的是,数据挖掘技术从一开始就是面向应用的【4 - 6 1 。它不仅是面 向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观 的统计、分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关 联,甚至利用已有的数据对未来的活动进行预测。例如加拿大b c 省电话公司要求 加拿大s i m o nf r a s e r 大学k d d 研究组,根据其拥有十多年的客户数据,总结、分析 并提出新的电话收费和管理办法,制定既有利于公司又有利于客户的优惠政策。 美国著名国家篮球队n b a 的教练,利用i b m 公司提供的数据挖掘技术,临场决定 替换队员,一度在数据挖掘界被传为佳话。本文在后面将要介绍的纳税评估系统 就是利用数据挖掘技术来进行辅助决策分析的一个实际应用。 1 1 2 多关系数据挖掘技术的产生 传统的数据挖掘方法,其知识表示方式主要是命题逻辑形式系统并且只能从 单一的关系中发现模式。但是,现在大多数现实关系数据库中的信息存储于多个 关系中,并且许多复杂模式难以用命题逻辑语言表示。对于许多应用来说,大多 数的数据库为了有效地组织和访问数据,其数据大都以多关系的形式组织成一个 关系数据库,当在这种由多个关系表组成的数据库中发现模式时,若再使用传统 的数据挖掘方法,通常的做法是把数据先从多个关系中纳入一个单关系中,然后 再进行挖掘。虽然原则上来讲,多个关系表可以通过大量的预处理工作和谨慎的 设计在确保信息不丢失的f j 提下集成到一个单关系表中,但在实践中这一方法存 在着若干问题,文献 7 8 从不同角度详细分析了相关问题,概括起来讲,主要就 是: ( 1 ) 计算泛关系时的时空代价非常大,并且最后得到的结果中存大大量的冗余 数据,这样就加剧了对海量数据问题进行处理的难度。 ( 2 ) 在多对一的关系形成的泛关系中,一个样例由多行组成,结果往往会出现 语义上的偏差。 ( 3 ) 通过挖掘工具对由多对一关系形成的泛关系进行挖掘时,往往由于泛关系 中的数据重复而易于导致统计结果出现偏差。 2 山东轻t 业学院硕十学位论文 因此,机器学习与数据挖掘技术明确地需要考虑学习任务的关系表示方式及 其相关的搜索机制,即需要直接在多关系数据集上学习涉及复杂结构的模式。在 机器学习领域,这类学习问题及其解决方法被称为关系学习( r e l a t i o n a ll e a r n i n g ) 。 在k d d 领域,这类挖掘方法的研究形成了多关系数据挖掘。如同k d d 的早期发 展受机器学习的研究影响一样,多关系数据挖掘就是在关系学习发展的背景下产 生并发展起来的。 多关系数据挖掘( m u l t i r e l a t i o n a ld a t am i n i n g ,m r d m ) 方法,研究发现关系 数据库中涉及多个关系的复杂模式,而且能直接在多个关系的基础上分析数据而 无须向单一的数据关系表进行转换【9 。1 2 】。多关系数据挖掘技术由此而逐渐被广泛使 用并得到发展。 1 2 纳税评估的研究背景及意义 1 2 1 纳税评估的研究背景 税收是一个国家的经济命脉和财力基础。税务机关是国家税收的征收机关, 依法治税、为国聚财是税务机关的神圣职责。 税收是政府财政取得收入的最主要来源,是政府为满足公共需要而向社会提 供公共产品的成本和费用,也为政府实施宏观经济调控聚敛了必要的财力。纳税 评估从理论上讲是对纳税人不遵从行为或者说纳税人诚信水平的评判、测量,是 对征管工作的总结,也是涉税信息的深度处理,为进一步的税务稽查和纳税人辅 导提供科学的途径。 纳税评估工作是现代征管模式下的一种新的税收征管方式,它是利用信息化 平台,对基础税收信息进行加工处理,从而对纳税人纳税情况进行评价的一种新 的管理模式。就是要根据税收征管中获得的纳税人的生产经营、财务核算情况等 主要指标信息,对纳税情况的真实性、准确性、合法性进行审核、分析和综合评 定。通过检查或稽查,及时发现、纠正和处理纳税行为中的错误,并对异常申报 等专项问题进行调查研究和分析评价,为征收、管理、稽查提供工作重点和措施 建议,从而对征纳情况进行全面、实时监控。纳税评估的核心工作就是根据相关 的涉税信息,运用一定技术手段来识别、评判纳税人的诚信水平。随着信息化水 平的不断提高,原有的税收征管模式己不适应税收征管的需要,特别表现在对纳 税人申报信息资源的利用和整合上,利用纳税评估信息系统可以尽快的对纳税人 的纳税状况进行有效的分析,达到税源监控的目的。税收的管理需要对大量的纳 税信息进行加工,一方面通过纳税评估可以对纳税人的纳税状况进行有效的监控, 加强税源管理,减少征管环节,为税收征管提供第一手资料;另一方面,通过纳 税评估发现纳税人在执行税收政策上存在的问题,为税收管理和决策提供详细信 第1 章绪论 息,更好地服务纳税人。随着纳税评估工作的不断深入开展,以往的税收管理模 式搞人海战术的局面,将被信息化的税收评估工作所取代,这是现代化税收管理 的必然要求。 税务部门的数据库中存储着大量的企业申报数据、报表等资料,而且还在不 断的增加;如何有效的利用计算技术,深层次地挖掘这些宝贵的数据资料,为稽 查部门提供高准确率的案源,是当前急需解决的问题。随着互联网的高速发展和 电子商务的广泛应用,人们利用信息技术生产数据的能力大幅度提高,数以成千 上万的数据库被用于商业管理、政府办公、科学研究和工程开发等等。企业,政 府部门和科学团体因此也面对着信息积累的问题。由于每天都有大量的数据产生, 并且这些信息量正以每二十个月甚至越来越短的周期翻一番的速度剧增。大量的 数据储存在联机数据库中。而在大量的数据背后隐藏着许多重要的不被人所知的 信息,这些信息可以很好地辅助人们进行决策。可是目前用于对这些数据进行分 析处理的工具却很少。 1 2 2 研究纳税评估的意义 纳税评估是连接税款征收与税务稽查的有效载体,它可以把两者有机结合起 来;它还是税务稽查实施体系的基础,有助于税务稽查整体效能的发挥。 纳税评估是税务机关鉴定和判别纳税人纳税申报的真实性和合法性的现代税 收信息化管理手段,可以有效地加强税收日常管理和对税源的有效监控。通过对 纳税人的纳税申报信息数据、生产经营信息数据、经营核算信息数据及其他信息 数据的采集,利用信息调查、指标测算、数据对比、综合分析等信息分析手段, 评析和查证申报中存在的疑点和问题,可大大减少税收管理中的盲目性。纳税评 估工作是加强税收日常管理的一项专业化、信息化和高效的税收管理手段,是在 “多元申报、集中征收、分类管理、一级稽查”这一新的税收征管运行机制下,强化 税收信息监控、提高征管质量和效率的“催化剂”。 数据仓库和数据挖掘技术的出现,为分析人员提供了强有力的信息支持,帮 助分析人员进行正确的判断,做出科学的决策。将日趋成熟的数据挖掘技术引入 国家税务系统的预测分析领域,可以提高国家对税收需求分析的效率。所以本课 题的研究对于实现国税税收需求分析的科学化,提高整个国税局的工作效率和经 济效益有重要的现实意义。 纳税评估是税收征收管理过程中的一个中转环节,其职责就是对纳税人提供 的纳税资料进行核对和初级加工,形成足以证明纳税是否有异常的指标体系,从 而在理论上推算出纳税是否合法合理。通过推行纳税评估工作,税收部门有效地 提高了税收征管质量,营造了良好的税收环境,成效明显。因而纳税评估工作是 既能经济可行地达到税收管理目标,又能竭诚服务于纳税人和社会的一项举措, 4 山东轻工业学院硕十学位论文 有利于转变政府工作方式,服务于社会经济的和谐进步。 另外,税收是一个国家的财力基础,在我国当前建立和谐社会的新形势下, 广大科研工件者不断创新,不断进取,将新的技术应用到我们的税收领域,建立 一个和谐税收的良好氛围,应当是我们的一种荣耀和职责。 1 3 本论文研究的目的、意义及主要内容 1 3 1 本论文研究的目的及意义 纳税评估工作是现代征管模式下的一种新的税收征管方式,它是利用信息化 平台,对基础税收信息进行加工处理,从而对纳税人纳税情况进行评价的一种新 的管理模式【5 7 】。 近些年以来,随着我国社会主义市场经济的不断完善和税收征管体制改革的 不断推进,纳税评估逐渐出现在我国的税收管理工作中。 纳税评估指标体系作为纳税评估体系的核心内容之一;在纳税评估过程中起 着十分重要的作用,然而目前纳税评估指标体系的建立和维护还处于手工操作的 阶段,指标复杂,类型繁多,阈值计算有很大局限,这也给维护工作带来一定的 不便。另外,评估人员受人力、时间等所限,只能选取一些常用的指标,根据经 验或者部分历史数据测算,缺乏科学依据,而且费时费力,不能进行全面有效的 评估,有时得出来的结果甚至与实际情况有较大偏差。再加上一些外界因素如市 场变化等的影响,指标和阂值也会有波动变化,这样再依靠人工进行维护就非常 困难,常常导致评估结果会严重偏离实际【5 7 。5 8 】。 综上所述,目前纳税评估对象的选择过程过多地依赖人工操作,科学性和公 正性都不能得到很好地保证。税务评估人员工作量很大,却不能达到预期目的, 这也降低了纳税评估工作的效率和质量。 基于当前国家税务总局在各地推广使用的“金税工程”这一信息化平台,多关系 数据挖掘技术能够较好的解决以上问题。通过相关的挖掘技术找出隐藏在大量历 史数据中的有的数据模式,来辅助评估人员进行指标和阈值的科学化定义,进而 使得评估工作更加客观公正,从而大幅度地提高税收管理效能,并减少评估人员 的工作量。 本论文的主要研究目的是研究在纳税评估系统的建立和维护中,如何利用数 据挖掘技术建立分类预测模型,将数据挖掘技术和纳税评估系统有机的结合起来, 能提高纳税评估系统的智能化,从而大幅提高税收管理效能。即通过历史评估结 果数据集,建立智能化的分类模型,并通过新的评估数据来验证和修改分类预测 模型。 5 第1 章绪论 1 3 2 本论文研究的主要内容 数据挖掘( d a t am i n i n g ,d m ) 就是从大量数据中发现潜在规律、提取有用知识 的方法和技术。近年来,数据挖掘受到了国内外的普遍关注,己经成为信息系统 和计算机科学领域研究中最活跃的前沿领域。由于传统的数据挖掘技术是基于单 一关系基础之上的,不能完全满足现实中数据复杂情况下的应用,本文提出了多 关系数据挖掘技术。 当前,纳税评估已经成为我国税收管理工作的一个重要组成部分。随着计算 机技术及网络的应用,我国税务系统在信息化建设中,相继实现了省级以上的数 据集中模式,初步形成了多个应用系统共享一个网络的格局。这些系统的运行又 产生了大量业务数据,如何将这些数据进行整合、分析和挖掘,以支持目前和今 后税收的科学管理与决策,成为目前税务信息化的重要工作。采用传统的技术手 段建立的纳税评估信息系统存在诸多问题,而使用多关系数据挖掘的方法能有效 的解决这些问题。 本文通过研究多关系数据挖掘的过程模型和方法模型,分析了目前纳税评估 系统的应用及现状,根据要达成的目标,选择了适用的数据挖掘方法一一分类方 法。在研究了分类方法的多种算法后,结合税务数据和纳税指标的特点,确定了 运用多关系决策树算法中的s l i q 算法的改进算法q l i q 算法来进行实现。最后, 根据数据挖掘的过程模型,设计了基于q l i q 算法的纳税评估对象筛选系统,实现 了纳税评估指标的自动建立和维护以及评估对象产生的科学性和公正性。实验表 明,该算法能有效地解决以往纳税评估系统中存在的诸如指标选择难并且需要手 工设置以及评估对象的产生缺乏科学依据等问题,满足业务需要,而且高效、易 于实现。 本论文全文共分六章: 第1 章是绪论,简要介绍了传统数据挖掘技术及研究现状以及发展趋势和纳税 评估的研究及意义。 第2 章介绍了多关系数据挖掘的定义、算法分类以及多关系数据挖掘的过程模 型和方法模型。 第3 章首先以新加坡和澳大利亚为例介绍了纳税评估在当今世界的研究现状, 然后分析了国内的发展现状,最后对纳税评估在山东的应用情况进行了分析。 第4 章先对多关系数据挖掘算法作了概述,特别对多关系决策树算法作了分 析,然后提出了针对海量数据的快速可伸缩算法,并针对其缺陷,提出了其改进 算法q l i q 算法。 第5 章是本论文的重点,针对税务数据的特点及纳税评估工作的基本流程,设 计出了适用的纳税评估系统,并用实验验证了结果的可靠性和科学性。 6 山东轻t 业学院硕士学位论文 第6 章是结论与展望,对本文的研究工作做了总结同时对以后进一步的工作做 了展望。 7 第2 章多关系数据挖掘技术研究 第2 章多关系数据挖掘技术研究 2 1 多关系数据挖掘概述 2 , 1 1 多关系数据挖掘的定义 多关系数据挖掘( m u l t i - r e l a t i o n a ld a t am i n i n g ,m r d m ) 方法,发现关系数据库 中涉及多个关系的复杂模式,并且直接在多个关系上分析数据而无需向单一数据 表的转换 9 - 1 2 】。历史上多关系数据挖掘也被称为关系数据挖掘( r e l a t i o n a ld a t a m i n i n g ,r d m ) 。 当前典型的挖掘多关系模型的m r d m 算法,是由单表情况下的数据挖掘算法 改进而产生的。多关系数据挖掘方法现有多关系关联规则发现、多关系决策树归 纳、基于距离的多关系方法以及基于核的方法等。这些方法己不同程度地应用于 多个应用领域,包括商务数据分析、生物信息学、药物学中的药物设计、环境工 程、机械工程、w e d 挖掘以及自然语言处理等,特别在生物信息领域更是得到了 较为广泛的应用。 作为一个学科分枝,多关系数据挖掘是一个跨学科领域,吸纳了归纳逻辑程 序设计( i n d u c t i v el o g i cp r o g r a m m i n g ,i l p ) 、k d d 、机器学习和关系数据库的研究 成果,致力于处理由多关系表组成的关系数据库知识发现问题,研究挖掘多关系 型数据的新型技术及其有效的应用实践。 目前,多关系数据挖掘主要是借鉴i l p 的思想和技术发展起来的。i l p 是机器 学习和逻辑编程结合的产物,它利用背景知识从给定的实例发现未知实例的规律 【1 3 】。其基本任务是学习未知关系的逻辑定义,在s e m i n a lm i s ( i l p 最有影响力的 先驱之一) 系统和f o i l 系统( 最出名的i l p 系统之一) 中详细阐述了如何归纳定 义未知的关系【1 4 】。 2 1 2 多关系数据挖掘算法分类 当前,大多数的多关系数据挖掘系统都是基于i l p 技术来扩展( u p g r a d i n g ) 原 有的命题数据挖掘系统而形成的。 近年来,已经有很多命题数据挖掘方法被扩展到多关系情况下,例如,著名 的f o i l 系统是命题规则归纳程序c n 2 的扩展;另一个出名的i l p 系统p r o g o l 是 a q 的规则归纳方法的扩展【l 5 】;r i b l 扩展了经典的k 近邻算法;s - c a r t 和t i l d e 扩展了c a r t 和c 4 5 中的决策树范例;w a r m r 扩展了a p r i o r i ;m a c c e n t 扩展了最大熵方法;f l i p p e r 扩展了c o h e n 早期的r i p p e r :k o l l e r 的概率关系模型 扩展了命题的b a y e s i a n 网络;k i r s t e 和w r o b e l 的聚类系统则更新由低向上的层 次聚类方法到多关系情况下等【l 6 1 。 8 山东轻工业学院硕:t 学位论文 ( 1 ) 多关系关联规则算法 多关系关联规则( 又称w a r m r ) 是a p r i o r i ( 基于单关系的传统关联规则 发现算法) 的多关系变体,它们两者发现频繁项集的方法和概化候选查询的方法不 同。多关系关联规则默认数据库是关系数据库,模式的类型是s q l 查询,一个模 式或查询匹配数据库是指查询返回元组不为空。在实际的查询中,多关系关联规 则用p r o l o g 来表示数据和模式,如果在程序中查询成功则证明模式匹配数据库。 p r o l o g 形式体系允许在模式中使用变量和多关系,这极大地扩展了模式的表达能 力。w a r m o d e 【l7 】是一种定义声明偏置的形式化体系,多关系关联规则由它来限定 搜索空间大小并指定下一步要使用的p r o l o g 查询。总之,给定关系数据库后多关 系关联规则就能找出频繁成功的p r o l o g 查询( 以用户定义的语言表示) ,这些查询 接下来或者被表示成多关系关联规则,或者形成可信度和置信度均大于用户定义 阈值的查询扩展。 多关系关联规则较之于以前的频繁模式发现算法有极好的灵活性,它通过语 言偏置来确定发现任务的类型,根据不同的语言偏置,不改变多关系关联规则的 实现。另外,多关系关联规则可以应用到不同的发现任务中,这些任务包括在事 件序列中发现片段、从交易序列中搜索序列模式以及更复杂的其他新任务。此外, 一旦实验聚焦于某一特定环境,效率问题可通过重新组织数据到某特定形式来提 高。另一方面,基于特定任务开发的挖掘算法可以通过与多关系关联规则比较来 验证其有效性,一般而言,这些算法在与多关系关联规则产生同样的输出时效率 应该更高。 当然,多关系关联规则也存在着缺陷,那就是效率低、可靠性较差。这主要 是因为多关系关联规则极大地依赖0 包含,而o 包含计算实质上是一个n p 完全问 题。 ( 2 ) 多关系分类回归方法 决策树和回归树( 模型树) 是两种最流行的数据挖掘模型,但是决策树模型也 有其局限性。在命题表示中训练样例必须被表示成固定长度的属性值向量,一个 训练数据库就是一个简单的二维值表,训练样例内部结构方面的信息却并不能被 表示。这使得命题决策树算法很难在对象的内部结构极大影响挖掘结果的领域中 得到应用,如化学、生物学、自然语言或其他的复杂系统。同样命题回归方法和 回归树方法也都有其相应的局限。 为克服决策树因为语言表示带来的局限,s - c a r t 将分类树和回归树这两种 统计学的方法引入到多关系学习领域,它是命题学习方法c a r t 的拓展,s - c a r t 能够直接从多关系数据表中发现知识且能方便地使用背景知识。s - c a r t 系统构建 了一棵树,这棵树的每一个节点包含一个文字( 原子文字) 或者文字的合取,并为每 个叶子节点赋予一个离散值或数据值。受c a r t 剪枝方法的启发,s - c a r t 还在叶 9 第2 章多关系数据挖掘技$ w f 究 。一节 山东轻t 业学院硕士学位论文 f a y y a de t ,a 1 于1 9 9 6 年给出了上图所示的数据挖掘处理过程【2 ,这是目前公 认的也是通用的数据挖掘过程的定义。 在数据挖掘过程中,数据被存储在数据库中,根据数据挖掘算法的要求从数 据库中选取数据挖掘所需要的数据,在数据预处理阶段对数据噪音和错误数据进 行处理,然后对数据进行变换满足数据挖掘算法的要求,选择合适的数据挖掘算 法进行数据挖掘,以发现知识模式,这是数据挖掘的核心阶段,最后对发现的模 式进行解释和评估,剔除冗余无关的模式,并要对发现的模式进行可视化,把结 果转换成用户易懂的表示方式。 我们可以看出,数据挖掘过程主要由数据处理、数据挖掘和结果分析三个主 要部分组成。 数据处理 数据处理又可分为三个子步骤:数据选取( d a t as e l e c t i o n ) 、数据预处理( d a t a p r e p r o c e s s i n g ) 和数据变换( d a t at r a n s f o r m a t i o n ) 。 数据选取的目的是确定发现任务的操作对象,即目标数据( t a r g e td a t a ) ,是根 据用户的需要从原始数据库中抽取的一组数据。数据预处理一般可能包括消除噪 声、推导计算缺值数据、消除重复记录、完成数据类型转换( 如把连续值数据转换 为离散型的数据,以便于符号归纳,或是把离散型的转换为连续值型的,以便于 神经网络等) 。当数据挖掘的对象是数据仓库时,一般来说,数据预处理已经在生 成数据仓库时完成了。数据变换的主要目的是消减数据维数或降维( d i m e n s i o n r e d u c t i o n ) ,即从初始特征中找出真正有用的特征以减少数据挖掘时要考虑的特征 或变量个数。 数据挖掘 数据挖掘阶段首先根据对问题的定义明确挖掘的任务或目的,如分类f 2 2 】、聚 类【2 3 】、关联规则发现【2 4 1 或序列模式发现等。确定了挖掘任务之后,就要决定使用 什么样的算法。选择实现算法有两个考虑因素:一是不同的数据有不同的特点, 因此需要用与之相关的算法来挖掘;二是用户或实际运行系统的要求,有的用户 可能希望获取描述型i 拘( d e s c r i p t i v e ) 、容易理解的知识( 采用规则表示的挖掘方法 显然要好于神经网络之类的方法) ,而有的用户只是希望获取预测准确度尽可能高 的预测型( p r e d i c t i v e ) 失n 识,并不在意获取的知识是否易于理解。数据挖掘方法是本 文研究的主要内容,本文将在下面章节中重点介绍决策树方法,并详细介绍了该 分类算法的快速可伸缩算法及其改进算法,以及本文对此算法的实现提出的改进 策略。 结果解释和评估 数据挖掘阶段发现出来的模式,经过评估,可能存在冗余或无关的模式,这 时需要将其剔除。也有可能模式不满足用户要求,这时则需要整个挖掘过程回退 第2 章多关系数据挖掘技术研究 到前续阶段,如重新选取数据、采用新的数据变换方法、设定新的参数值,甚至 换一种算法等等。另外,由于数据挖掘最终是面向人类用户的,因此可能要对发 现的模式进行可视化,或者把结果转换为用户容易理解的其它表示形式,如把分 类决策树转换为“i f t h e n 规则。 数据挖掘仅仅是整个过程中的一个步骤。数据挖掘质量的好坏有两个影响要 素:一是所采用的数据挖掘方法的有效性,二是用于挖掘的数据的质量和数量( 数 据量的大小) 。如果选择了错误的数据或不适当的属性,或对数据进行了不适当的 转换,则挖掘的效果不会好。 2 2 2 其他的数据挖掘过程模型 数据挖掘过程的整个挖掘过程是一个不断反馈的过程。比如,用户在挖掘途 中发现选择的数据不太好,或使用的挖掘技术产生不了期望的结果,这时,用户 需要重复先前的过程,甚至从头重新开始。 可视化技术,在数据挖掘的各个阶段都扮演着重要的作用。特别是,在数据 准备阶段,用户可能要使用散点图、直方图等统计可视化技术来显示有关数据, 以期对数据有一个初步的了解,从而为更好地选取数据打下基础。在挖掘阶段, 用户则要使用与领域问题有关的可视化工具。在表示结果阶段,则可能要用到可 视化技术以使得发现的知识更易于理解。 1 9 9 6 年,b r a c h m a n 和a n a n d 通过对很多数据挖掘用户在实际工作中遇到的问 题的了解,发现用户的很大一部分工作量是与数据库的交互上。他们从用户的角 度对数据挖掘处理过程进行了分析,认为数据挖掘应该更着重于对用户进行数据 挖掘的整个过程的支持,而不是仅仅限于在数据挖掘的一个阶段上,进而提出了 以用户为中心的处理过程模型【25 。该模型特别注重对用户与数据库交互的支持, 用户根据数据库中的数据,提出一种假设模型,然后选择有关数据进行知识的挖 掘,并不断对模型的数据进行调整优化。b r a c h m a n 和a n a n d 在他们开发的数据挖 掘系统i m a c s ( i n t e r a c t i v em a r k e t i n ga n a l y s i sa n dc l a s s i f i c a t i o ns y s t e m ) 中采用了这 种以用户为中心的处理过程模型。 1 9 9 7 年斯坦福大学的g e o r g eh j o h n 在其博士论文中给出另外一种数据挖掘 处理过程模型【2 酬。该模型强调由数据挖掘人员和领域专家共同参与数据挖掘的全 过程。领域专家对该领域内需要解决的问题非常清楚,在问题的定义阶段由领域 专
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 消防工程保养合同
- 建筑行业购销合同
- 充电桩劳务分包施工合同
- 房屋按揭买卖合同
- 实验室装修合同新
- 招投标服务合同
- 中药材采购合同中药采购合同
- 代理销售承包合同
- 公司合同变更协议
- 外包工人协议合同范本
- 湖北省十一校2025届高三第二次联考数学试卷(含答案)
- 2025年安阳职业技术学院单招职业技能测试题库附答案
- 中小学生心理健康教育的研究与实践进展
- 大一劳动教育课
- 2025年安阳职业技术学院单招职业技能测试题库有答案
- 湖南省2024年对口升学考试计算机综合真题试卷
- 2025年兴安职业技术学院单招职业技能测试题库新版
- 小学生保险课件
- 大学生美容院创业计划书
- 隧道工程施工安全管理规定
- 《脑脊液幻灯》课件
评论
0/150
提交评论