




已阅读5页,还剩35页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 医药研发是一件充满风险、耗资巨大的事情。国外的化学药物研发周期约1 0 年, 费用在3 亿一5 亿美元左右,多的高达1 0 亿美元,研发经费占到销售额的1 5 2 0 。从上 面可以看出,药品的研发存在很大的困难。但另一方面,经过长期的积累与创新,人们 已经拥有了成千上万种药品来医治各种疾病。从古典医书神农本草经、明代的本 草纲目等等到现在的中国药典、日本药典、美国药典、欧洲药典,都包含 了大量的药品资源。从中我们可以发现对于同种药可以治疗多种疾病( 异病同治) ,针 对同一种病也可以有不同种药品( 同病异治) ,这一现象在中医学中特别名显。这就是 说药品的成份与疾病,成份与成份之间存在某种复杂的关联。如果我们能发现其中的关 联信息、药效的强弱,将现有药品的主成成份适当地重新组合,就有可能增强药品疗效, 开发新型药品。 数据挖掘技术一般从存放在数据库,数据仓库或其他信息库中的大量数据中挖掘有 趣知识,运用统计学、人工智能、机器学习、数据库技术等方法发现数据的模型和结构, 发现有价值的关系或知识。 主成分分析试图在力保数据信息丢失最少的原则下,对多变量的平面数据表进行 最佳综合简化,也就是说,对高维变量空间进行降维处理,提高对数据的处理效率。我 们可以看出,得到的主成分为原变量中某几个变量的线性组合。但是它并没有明确标示 出哪些变量最具有代表性,最是我们应当关心的、感兴趣的,阱及不同变量之间的比较 问题。对于在同一个主成份结果中,变量所对应的特征向量的系数就可以作为衡量的依 据,系数越大,越具有代表性。但对于不同主成份的各变量之间如何比较呢。 本文就此提出了贡献率向量的概念。贡献率向量等于主成份所对应的特征向量与主 成份对应的贡献率的乘积。数学公式为: u 。,l c 工能五: 其中入为数据矩阵的特征值,u t 为九所对应的特征向量。 本文依托“长春市妇产科医院h i s ( h o s p i t a li n f o 肌a t i o ns y s t e m ) ”中“药品管理系统”, 从中获取课题所需要的数据。本文以常见疾病“感冒”作为实例,对系统进行了测试。 从产院药品管理系统中获取数据,共查得2 2 条相关数据,设定权值,达到了预期的效果。 由于长春市妇产医院为一所专科性医院,其药品数量有限,如能获取中华药典数据库进 行测试,相信效果会更好,更加全面。 关键词:数据挖掘;主成份分析方法;药品成份;贡献率向量 a b s t r a c t t h ed e v e l o p m e n to fm e d i c a t i o ni sat h i n gt h a t e e ds p e n dl o t so fm o n e ya n dc o n t a i n s 斟e a tv e n t u r e t h et e m lo fd e v e l 叩m e n to fm e d i c a t i o na um o s tn e e dt e ny e a r si nf o r e i g n c o u n t r ya i l dt h ee x p e n s eo ft l l a ti s3t o5h u n d r e dm i l i i o n ,s o m ec a na t t a i nt ob i l l i o n s t h e e x p e n s eo fd e v e l o p m e tm a k e su p 1 5 t o2 0 o fm et o t a is a l e f r o ma b o v e ,w ec a ns e e t h a tt t l ed e v e l o p m e n to fm e d i c a t i o ni sad i f f i c u l tj o b o nt h ec o n t r a r y ,p e o p i eh a v el o t so f d r u g st oc u r ek i n d so fd i s e a s e st h r o u g ha c c u m u l a t i o na i l di n n o v a t i o n t h e r e 盯el o t so fd m g r e s o u r c e si n “c h i n e s ep h 锄a c o p o e i a ,j a p a n e s ep h a n n a c o p o e i a ,“u s p h a n n a c o p o e i a ” a n ds oo n f r o m 山o s er e s o l l r c e sw ec a nc o m et oac o n c l u s i o nt h a tad r u gm a yc u r em a n y k i n d so fd i s e a s e s ( s 砌ed 八j gd i f f e r e n td i s e a s e ) a n dad i s e a s ec a nb ec u r eb ym a n yk i n d so f d r u g ( s 锄ed i s e a s ed i f f e r e n td m 曲t h a ti sc o m m o i n1 1 r a d i t i o n a lc h i n e s em e d i c i n e t h a t p r o v e st h er e l a t i o n s h i po fc o m p o s i t i o no fd r u ga n dd i s e a s ei sc o m p l e x i fw ep r o v eu pt h e r e l a t i o n s h i pa n dk i l o we f f e c to fe a c hc o m p o s i t i o nu p o nt h cd i s e a s e ,w em a yg e ta n e w e f f e c t i v ed m g b yr e c o m b i n i n gc o m p o s i t i o n s d a i am i n i i l gt e c h n o l o g i e sf i n di n t e r e s t i n gk n o w l e d g ef r o ml a 玛ed a t u ms t o r e di nd a t a b a s e o rd a t aw a r e h o u s e d a t am i n i n gt e c h n o l o g i e sm a k eu s eo fs t a t i s t i c s ,a n i f i c i a l 如t e l l i g e n c e , m a c h i n el e a m i l l ga 1 1 dd a t a b a s et o 士i n dh i d d e np a n e m s ,r e l a t i o l l s h i p ,c o m p l e t ep 豫d i c t i v em o d e l i n ga i l d v a l u a b l ek n o w l e d g e p r i n c i p a lc o m p o n e ma n a l y s i s ( p c a ) t r i e st or c d u c ed i m e n s i o n st oi m p m v ee f f i c i e n c y b yp r i n c i p l eo fl o s i n g1 e a s ti n f o m l a t i o n w es h o u l da t t r a c ta t t c n t i o nt ot h er e s u l to fp c a t h a t d o e s n ts h o ww h i c hv a r i a b l ei sm o s ti m p o n a n t ,j m e r e s t i n ga n dd o e s n ts h o wh o wt oc o m p a r e o n ev a r i a b l e sw e i 出i n e s sw i t ha n o t h e ln l i sp 印e rw i l ld i s c u s st h ec o n c e p t i o nt h a te q u a l st 1 1 e p m d u c to fm u l t i p l y i n ge i g e n v e c t o r b ye i g e n v a l u e n ef o n n u l ai sf o l l o u ;车a j ;弘 t h i sp a p e rb a s e so nt h em e d i c j l l em a n a g cs y s t e mt h a tb e l o n g st ot h e0 1 锄g c h u n gm a t e m i t yh o s p i t a l i n f 0 珊a t i o ns y s t e m 1 1 1 ep m j e c tg e t sd a t af r o ms y s t e m t h i sp a p e r 诅k e se x a m p l ef o rc o l da n d t e s t ss y s t c m s y s t e i ng e c s2 2i t e m ,s e 协w e i 出ta d dc o m eo u tt h ea n 啦i p a t e dr e s u 】l b e c a u s et h e c h a n g c h u n gm a t c m i c yh o s p i t a l i sj u s tas m a l lh o s p i t a l ,t h en u m b e ro fd n l g sa r cl i m i t e d i fw e g e t1 a r g e 出n ar e s o u r c e s ,m er e s u l tm a y b eb e t t e r , k e yw o r d s :d a t am i n i n g ;p r i n c i p a i ( b m p o n e n ta n a l y s i s ;c o m p o s i t i o no fd m g ;c o n t r i b u t i v e r a t ee i g e n v e c t o r 儿 独创性声明 本人声明所呈交的学位论文是本人在导师指 导下进行的研究工作及取得的研究成果。据我所 知,除了文中特别加以标注和致谢的地方外,论 文中不包含其他人已经发表或撰写过的研究成 果,也不包含为获得东北师范大学或其他教育机 构的学位或证书而使用过的材料。与我一同工作 的同志对本研究所做的任何贡献均已在论文中作 了明确的说明并表示谢意。 学位论文作者签名:偬丞盘 日期 ? 缔厶,。? 矿 学位论文版权使用授权书 本学位论文作者完全了解东北师范大学有关保留、使用学位 论文的规定,即:东北师范大学有权保留并向国家有关部门或机 构送交学位论文的复印件和磁盘,允许论文被查阅和借阅。本人 授权东北师范大学可以将学位论文的全部或部分内容编入有关数 据库进行检索,可以采用影印、缩印或其它复制手段保存、汇编 学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:罐丞笙 指导教师签名: 日 期:龟竺点:! 日 期: 学位论文作者毕业后去向 工作单位:选匿盔些太堂 电话: 通讯地址:迭田直塞瞳跬1 2 q 呈 邮编: 0 2 4 8 8 4 8 7 1 2 l 1 1 0 1 6 1 k 诞 氅 第一章绪论 第一节选题的背景及意义 1 1 1 药品研发现状 中国经济的快速发展,大众生活水平的提高,巨大人口和其复杂的结构,以及人口 老龄化,都要求有更好的医疗服务,更多的新药,及多层次的保健选择。我国是药品消 费大国,专家预计,2 0 0 3 年我国医药销售额达3 6 0 亿美元,已进入世界前十位。预测到 2 0 1 0 年将达到6 0 0 亿美元,成为世界第五大医药市场。因病致穷的家庭、因病拖垮的企 业越来越多,任其下去,不仅浪费了社会财富。影响国民经济的发展,而且还会影响改 革开放的大好形势,影响社会主义的建设。 目前已经证明,创新药品是解决医疗卫生问题的关键手段之一,更新、更好的药 品能有效降低其他非药物治疗费用,达到总体、长期的节约卫生支出的目的。 在药品研发领域,中国已经落后于发达国家2 0 3 0 年,这一距离超过了我国主要 工业产品与国际间的差距。我国的化学药品以仿制为多,自主知识产权的新药不足化学 药品申报总数的2 。由于缺乏保护且创新品种少,常常是一个新药项目为众多药物研究 所、生产企业开发、申报,不但严重降低了生产企业研究化学药品的投资回报,而且导 致化学新药生命周期大大的缩短,同类产品的恶性竞争,使很多品种“上市即死”。这样 的格局使我国的医药企业无法参与高水平的国际竞争。 形成药品研发落后的原因具体有以下几个原因: 1 、体制的原因。在国外,新药研发主要是各大制药企业,大学、科研院所主要承 担基础研究,而我国药品研发主要院所和大专院校承担,中国稍具实力的大制药公司基 本上都是国企,研发水平低、自身没有研发能力。由于不同的研发主体造成研发和市场 的脱节,科研单位不愿考虑市场和企业的情况,用国家的投入按照自己的思路进行研发, 研究目的多是为发表论文、申报成果。 2 、资金的问题。医药研发是一件充满风险、耗资巨大的事情,国外的化学药物研 发周期约1 0 年,费用在3 亿一5 亿美元左右,多的高达1 0 亿美元,研发经费占到销售额的 1 5 2 0 。我国制药企业总的年销售额约2 7 0 0 亿左右,仅有2 5 的销售额用于新药开 发。 3 、成果转让机制不合理,企业不敢买、研究所不敢卖。造成这种互不信任状况的 根本原因在于研究机构和企业之间的信息不对称以及缺少诚信。 4 、政策的影响。现行药品销售政策对于制药企业不利,利润大多被其它环节占有。 国家多次强行降价和差比价的政策使很多以仿制为主的制药企业面临生死的考验,而大 型的医药国企利润一再摊薄,没有足够的资金用于新产品开发。 1 1 2 如何利用现有药品资源 1 从上面可以看出,药品的研发存在很大的困难,但另一方面,经过长期的积累与创 新,人们已经拥有了成千上万种药品来医治各种疾病。从古典医书神农本草经、明 代的本草纲目等等到现在的中国药典、日本药典、美国药典、欧洲药典, 都包含了大量的药品资源。从中我们可以发现对于同种药可以治疗多种疾病( 异病同 治) ,针对同一种病也可以有不同种药品( 同病异治) 。这一现象在中医学中特别名显。 这就是说药品的成份与疾病,成份与成份之间存在某种复杂的关联。如果我们能发现其 中的关联信息、药效的强弱,将现有药品的主成成份适当地重新组合,就有可能增强药 品疗效,开发新型药品。 第二节课题研究历史与现状 随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们已经保存了大量 的日常数据。数据的日益积累,导致每年都要激增大量的数据,并且呈增量的发展趋势。 数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地 利用这些数据。 目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数 据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后 隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。数据的丰富带来了对强有力 的数据分析工具的需求。大量的数据被描述为“数据丰富,但信息贫乏”。快速增长的数 据收集、存放在大型和大量数据库中,没有强有力的工具,理解它们已经远远超过了人 的能力。结果,收集在大型数据库中的数据变成了“数据坟墓,_ 一难得再访问的数据 档案“1 。这样,重要的决策常常不是基于数据库中的信息丰富的数据,而是基于决策者 的直觉,因为他们缺乏从海量数据中提取有价值知识的工具。随着一些相关学科和研究 领域的日渐成熟,以及现实世界中商业竞争的压力日渐残酷,企业急切地希望通过快速 处理这些数据获得有利于企业进一步发展的决策依据,能够最大限度的使用信息资源来 管理和影响企业决策流程,以提高自己的竞争优势。在这需求情况下,数据挖掘技术出 现了,并彳导到快速的应用与发展。数据挖掘技术在诸多领域有着广泛的应用,例如:金 融数据分析数据挖掘,零售业的中数据挖掘,电信业中的数据挖掘,还有在医药领域中 的应用。 现今研发新药,注重新物质的制取,往往研发周期长,资金投入巨大,不确定因素 多,风险大。忽略了对现有医药资源的利用。再者,药品的种类繁多,成份更加复杂, 如何发掘成份与疾病,成份与成份之间存在的关联,发挥现有药品资源,提高利用价值 成为难点。研发人员只能通过人工的方式,或数据中简单的搜索查询对信息统计,分类, 存在着很大的局限性。 2 第三节课题研究目标及主要工作 本课题基于“长春市妇产科医院h i s ( h o s p i t a li n f o 衄a t i o ns y s t e m ) ”中“药品管理系 统”,利用数据挖掘方法,对现有药品信息进行科学建模,以符合数据处理需要,最终 发现针对某种疾病,现在药品成份中最值得研发人员注重,最有潜力开发的成份。主要 的工作内容为: 1 首先针对产院的工作实际,做好药品管理系统的需求分析与设计。 系统需求分析是整个工程的重中之重,它决定了整个系统的架构与特点。同时也决 定了我们后期数据处理时格式,方便数据收集工作。我们采用面向对象程序分析、设计 方法,并结合产院的实际工作特点,力求使我们的系统方便,实用,功能强大,同时具 有旺盛的生命力。 2 实现药品管理系统的基本功能,取锝数据,为后期的数据处理做准备。 分析设计之后,先集中力量完成系统的基本功能,如药品基本信息的维护管理,采 购、库存管理。使整个系统运作起来,以获取数据。为数据处理做准备。 3 采用主成份分析法,对数据进行处理、确定成份与疾病,成份与成份之间存在 的关联。 系统实施之后,从产院的数据库中获取药品的信息,利用数据库的查询方法,获取 某一症状所对应的所有药品成份,建立模型,运用主成份分析法处理数据。在主成份方 法中提出贡献率向量的概念,以达到对相关此种疾病的所有成份的突异程度进行度量, 排序。采用聚类方法对结果进行分组,展示结果。 3 第二章数据挖掘理论概述 第一节数据挖掘中的基本概念 2 1 1 数据挖掘的定义 数据挖掘( d a t am i n i n g ) 就是从大量的、不完全的、有噪声的、模糊的、随机的 实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知 识的过程。“1 数据挖掘一般从存放在数据库,数据仓库或其他信息库中的大量数据中挖 掘有趣知识,运用统计学、人工智能、机器学习、数据库技术等方法发现数据的模型和 结构,发现有价值的关系或知识。数据挖掘不是用于验证某个假定的模式( 模型) 的正确 性,而是在数据库中自己寻找模型。通过空间数据库,数据挖掘可以回答某一区域的居民 分布特征,不同海拔高度山区的气候模式,分析气候、交通等因素对城市居民迁移的作 用,根据城市离主要公路的距离描述贫困率的变化趋势。 数据挖掘相似的术语:数据库中知识挖掘、知识提取、数据模式分析、数据考古 和数据捕捞。 数据挖掘与传统分析方法的区别: 数据挖掘与传统的数据分析( 如查询、报表、联机应用分析) 的本质区别是数据挖掘 是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先未 知,有效和实用三个特征。 数据仓库和数据挖掘是两项不同的技术,但是它们又有共同之处,两者都是在数据 库的基础上发展起来的,它们都是决策支持新技术。数据仓库利用综合数据得到宏观信 息,利用历史数据进行预测;而数据挖掘是从数据库中挖掘知识,也用于决策分析。虽 然数据仓库和数据挖掘支持决策分析的方式不同,但是它们完全可以结合起来,提高决 策分析的能力。大量的数据仓库已经把数据挖掘技术作为前端分析工具,以提高数据仓 库的决策分析能力。 k d d ( k d d :k n o w l e d g ed i s c o v e r yj nd a 协b a s e s ) 与数据挖掘的关系表述: a ) k d d 和数据挖掘是同义词 b ) k d d 是数据挖掘的特例k d d 的数据集局限于数据库 c ) 数据挖掘是k d d 过程的一个步骤任何数据都是由数据库提供的 k d d 的广义范畴包括:数据清洗、数据集成、数据选择、数据转换、数据挖掘、模式生 成及知识表示知识的发现过程。“。 2 1 2 数据挖掘的系统结构 一个数据挖掘系统是从被挖掘的数据集中形成特定知识表示过程的实现机制,因 此它与被挖掘的数据组织形式和所采用的知识表示及推理方式有关。数据挖掘系统体系 4 结构的研究可以依据数据挖掘的过程来探讨系统的主要功能部件及其相互联系,为具体 应用提供指导。这种从普遍到一般的方法取得了一批成果,对数据挖掘系统的发展和应 用起到了推动作用。同时也推动了数据挖掘辅助工具的开发和使用。另一方面,针对特 定的领域、采用特定的方法而研制的数据挖掘系统可以快速而准确地解决特定的问题, 这些系统在银行业、天空测量及生产和销售业等领域得到应用。从中可以更清楚地了解 数据挖掘系统应具有的基本功能和扩展功能以及数据挖掘的较完整实现过程。 左图“1 ( 图2 1 2 1 ) 是个典型的数据挖掘系统 具有以下主要成分: 1 、数据库、数据仓库或其他信息库: 2 、数据库或数据仓库服务器: 3 、知识库: 4 、数据挖掘引擎: 5 、模式评估模块: 6 、图形用户界面: 图2 1 2 1 数据挖掘系统结构图 2 1 3 数据挖掘的流程 1 数据准备 数据挖掘所处理的数据集通常不仅具有海量数据,而且可能存在大量的噪声数据、 冗余数据、稀疏数据或不安全数据等。解决数据的应用质量问题是数据挖掘的基础;充 分利用有用的数据,清除虚假无用的数据是数据挖掘技术的基础。数据准备包括数据抽 取、清理、转换和加载,具体包括数据的清理、集成、选择、变换、规约,以及数据的 质量分析等步骤。 ( 1 ) 数据清理:数据清理是在数据中消除错误和不一致,并解决对象识别问题的过程。 数据清理包括空值处理、噪声数据处理及不一致数据处理等。数据的不一致性导致数据 挖掘结果的可信度降低。数据清理去除噪声或无关数据,并处理数据中缺失的数据域。 ( 2 ) 数据集成:就是将多个数据源中的数据合并存放在一个统一的数据存储中。数据集 成将多数据源中的数据进行合并处理,解决语义模糊性并整合成一致的数据存储。 ( 3 ) 数据选择:数据选择是在对发现任务各数据本身内容理解的基础上,寻找依赖于发 现目标的表达数据的有用特征,以缩减数据规模,从而在尽可能保持数据原貌的前提下 最大限度地精简数据量。通过数据选择可以使得数据的规律性和潜在特性更加明显,提 5 高挖掘效率。 ( 4 ) 数据变换:数据变换将数据转换成适合于挖掘的形式。可包括以下内容: 平滑:去掉数据中的噪声。这种技术包括分箱、聚类和回归。 聚集:对数据进行汇总和聚集。例如,可以聚集日销售数据,计算月和年销售额。 数据概化:使用概念分层,用高层次概念替换低层次“原始”数据。 规范化:将属性数据按比例缩放,使之落入一个小的特定区间,如0 0 到1 0 属性构造:可以构造新的属性并添加到属性集中,以帮助挖掘过程。 ( 5 ) 数据归约:数据归约将辨别出需要挖掘的数据集合,缩小处理范围,是在数据选择 基础上对挖掘数据的进一步约简。主要方法如数据立方本聚集、维归约、数据压缩、 数值压缩。 2 建立模型 数据挖掘中的建模实际上就是利用已知的数据和知识建立一种模型,这种模型可以 有效地描述已知的数据知识,希望该模型能有效地应用到未知的数据或相似的情况中。 也就是说,建模把一些专业经验、一般规律或普遍情况抽象成一种分析模型。一旦模型 建好之后,就可以把它应用到那些情形相似而结果未知的判断中。 3 模式评估 数据挖掘得到的模式有可能是没有实际意义或没有实用价值的,也有可能不能准确 反映的真实意义,甚至在某些情况下是与事实相反的,因此对于数据挖掘的结果耍进行 评估,确定数据挖掘是否存在偏差,挖掘结果是否正确,确定哪些是有效的、有用的模 式,是否满足用户需求。 4 数据可视化和知识管理 数据可视化将各种分析结果转化为有组织结构表示的视觉信号集合,如空间几何形 状、颜色、亮度等,并以丰富的图形、表格甚至动画等直观、形象地表现出来,便于使 用者观察和分析数据。目前常用的可视化绘制方法有:几何法、彩色法、多媒体法各光 学法。 第二节数据挖掘的功能及主要方法 2 2 1 数据挖掘的主要功能 1 分类: 按照分析对象的属性、特征,建立不同的组类来描述事物。例如:银行部门根据以 前的数据将客户分成了不同的类别,现在就可以根据这些来区分新申请贷款的客户,以 采取相应的贷款方案。 2 聚类: 识别出分析对内在的规则,按照这些规则把对象分成若干类。例如:将申请人分为 高度风险申请者,中度风险申请者,低度风险申请者。 3 关联规则和序列模式的发现: 关联是某种事物发生时其他事物会发生的这样一种联系。例如:每天购买啤酒的人 也有可能购买香烟,比重有多大,可以通过关联的支持度和可信度来描述。与关联不同, 序列是一种纵向的联系。例如:今天银行调整利率,明天股市的变化。 4 预测: 把握分析对象发展的规律,对未来的趋势做出预见。例如:对未来经济发展的判断。 5 偏差的检测: 对分析对象的少数的、极端的特例的描述,褐示内在的原因。例如:在银行的1 0 0 万笔交易中有5 0 0 例的欺诈行为,银行为了稳健经营,就要发现这5 0 0 例的内在因素,减 小以后经营的风险。 需要注意的是:数据挖掘的各项功能不是独立存在的,在数据挖掘中互相联系,发 挥作用。 2 2 。2 数据挖掘的主要方法 1 神经网络方法 神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容 错等特性非常适合解决数据挖掘的问题,因此近年来越来越受到人们的关注。典型的神 经网络模型主要分3 大类:以感知机、b p 反向传播模型、函数型网络为代表的,用于分 类、预测和模式识别的前馈式神经网络模型;以h o p f i e l d 的离散模型和连续模型为代表 的,分别用于联想记忆和优化计算的反馈式神经网络模型:以a n 模型、k o h o l o n 模型为 代表的,用于聚类的自组织映射方法。神经网络方法的缺点是”黑箱”隍,人们难以理解 网络的学习和决策过程。 2 遗传算法 遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局优 化方法。遗传算法具有的隐含并行性、易于和其它模型结合等性质使得它在数据挖掘中 被加以应用。 s l l i l i l 已成功地开发了一个基于遗传算法的数据挖掘工具,利用该工具对两个飞机失 事的真实数据库进行了数据挖掘实验,结果表明遗传算法是进行数据挖掘的有效方法之 一。遗传算法的应用还体现在与神经网络、粗糙集等技术的结合上。如利用遗传算法优 化神经网络结构,在不增加错误率的前提下,删除多余的连接和隐层单元;用遗传算法 和b p 算法结合训练神经网络,然后从网络提取规则等。但遗传算法的算法较复杂,收 敛于局部极小的较早收敛问题尚未解决。 3 决策树方法 决策树是一种常用于预测模型的算法,它通过将大量数据有目的分类,从中找到一 些有价值的,潜在的信息。它的主要优点是描述简单,分类速度快,特别适合大规模的 数据处理。最有影响和最早的决策树方法是由q u i n l 蛆提出的著名的基于信息熵的i d 3 算 法。它的主要问题是:i d 3 是非递增学习算法;i d 3 决策树是单变量决策树,复杂概念的 表达困难;同性间的相互关系强调不够;抗噪性差。针对上述问题,出现了许多较好的 改进算法,如s c h l i m m e r 和f i s h e r 设计了i d 4 递增式学习算法;钟鸣,陈文伟等提出了i b l e 算法等。 7 4 粗糙集方法 粗糙集理论是一种研究不精确、不确定知识的数学工具。粗糙集方法有几个优点: 不需要给出额外信息;简化输入信息的表达空间;算法简单,易于操作。粗糙集处理的 对象是类似二维关系表的信息表。目前成熟的关系数据库管理系统和新发展起来的数据 仓库管理系统,为粗糙集的数据挖掘奠定了坚实的基础。但粗糙集的数学基础是集合论, 难以直接处理连续的属性。而现实信息表中连续属性是普遍存在的。因此连续属性的离 散化是制约粗糙集理论实用化的难点。现在国际上已经研制出来了一些基于粗糙集的工 具应用软件,如加拿大r e 咖a 大学开发的k d d r ;美国k a i l s a s 大学开发的l e r s 等。 5 覆盖正例排斥反例方法 它是利用覆盖所有正例、排斥所有反例的思想来寻找规则。首先在正例集合中任选 一个种子,到反例集合中逐个比较。与字段取值构成的选择子相容则舍去,相反则保留。 按此思想循环所有正例种子,将得到正例的规则( 选择子的合取式) 。比较典型的算法有 m i c h a l s k i 的a o l l 方法、洪家荣改进的a q l 5 方法以及他的a e 5 方法。 6 统计分析方法 在数据库字段项之间存在两种关系:函数关系( 能用函数公式表示的确定性关系) 和 相关关系( 不能用函数公式表示,但仍是相关确定性关系) ,对它们的分析可采用统计学 方法,即利用统计学原理对数据库中的信息进行分析。可进行常用统计( 求大量数据中 的最大值、最小值、总和、平均值等) 、回归分析( 用回归方程来表示变量间的数量关系) 、 相关分析( 用相关系数来度量变量间的相关程度) 、差异分析( 从样本统计量的值得出差异 来确定总体参数之间是否存在差异) 等。 7 模糊集方法 即利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚 类分析。系统的复杂性越高,模糊性越强,一般模糊集合理论是用隶属度来刻画模糊事 物的亦此亦彼性的。李德毅等人在传统模糊理论和概率统计的基础上,提出了定性定量 不确定性转换模型云模型,并形成了云理论。“。 第三节国内外研究现状及发展方向 2 3 1 数据挖掘的研究现状与重点 k d d 一词首次出现在1 9 8 9 年8 月举行的第1 1 届国际联合人工智能学术会议上。迄今 为止,由美国人工智能协会主办的k d d 国际研讨会已经召开了7 次,规模由原来的专题 讨论会发展到国际学术大会,人数由二三十人到七八百人,论文收录比例从2 x 1 到6 x 1 , 研究重点也逐渐从发现方法转向系统应用,并且注重多种发现策略和技术的集成,以及 多种学科之间的相互渗透。其他内容的专题会议也把数据挖掘和知识发现列为议题之 一,成为当前计算机科学界的一大热点。 1 9 9 7 年亚太地区在新加坡组织了第一次规模较大的p a k d d 学术研讨会,很有特色。 今年将在澳大利亚墨尔本召开的p a k d d 9 8 已经收到1 5 0 多篇论文,空前热烈。此外,数 据库、人工智能、信息处理、知识工程等领域的国际学术刊物也纷纷开辟了k d d 专题 或专刊。m e e 的i ( 1 1 0 w l e d g ea n dd a t ae n g i n e 耐n g 会刊领先在1 9 9 3 年出版了k d d 技术专 刊,所发表的5 篇论文代表了当时k d d 研究的最新成果和动态,较全面地论述了i ( i ) d 系 统方法论、发现结果的评价、k d d 系统设计的逻辑方法,集中讨论了鉴于数据库的动 态性冗余、高噪声和不确定性、空值等问题,k d d 系统与其它传统的机器学习、专家系 统、人工神经网络、数理统计分析系统的联系和区别,以及相应的基本对策。6 篇论文摘 要展示了k d d 在从建立分子模型到设计制造业的具体应用。不仅如此,在i n t e m e t 上还有 不少k d d 电子出版物,其中以半月刊k n o w l e d g ed i s c o v e r yn 、l g g e t s 最为权威,如要免费订 阅,只需向h t t p :, _ n ,、k d n u g g e t s c o l l l s u b s c r i b e h t m l 发送一份电子邮件即可,还可以下载 各种各样的数据挖掘工具软件和典型的样本数据仓库,供人们测试和评价。另一份在线 周刊为d s + ( d s 代表决策支持) ,1 9 9 7 年1 0 月7 日开始出版,可向d s t r i a l t g c _ c o m 提出免费 订阅申请。在网上,还有一个自由论坛d me m a i lc l u b , 人们通过电子邮件相互讨论 d m k d 的热点问题。至于d m k d 书籍,可以在任何计算机书店找到十多本,但大多带有 商业色彩。笔者建议感兴趣者可读一读由美国a a a ,m i t 在1 9 9 6 年出版的a d v a i l c e si n k n o w l e d g ed i s c o v e f ya n dd a t am i n i n g 一书。当前,世界上比较有影响的典型数据挖掘 系统有c o v e rs t o r y 、e x p l o r a 、k n o w l e d g ed i s c o v e r yw b r k b e n c h 、d bm i i l e r 、q u e s t 等。 2 3 2 数据挖掘的发展方向 当前,d m k d 研究方兴未艾,其研究与开发的总体水平相当于数据库技术在7 0 年代 所处的地位,迫切需要类似于关系模式、d b m s 系统和s q l 查询语言等理论和方法的指 导,才能使d m k d 的应用得以普遍推广。预计在本世纪,d m k d 的研究还会形成更大的 高潮,研究焦点可能会集中到以下几个方面: 1 发现语言的形式化描述,即研究专门用于知识发现的数据挖掘语言,也许会像 s 0 l 语言一样走向形式化和标准化; 2 寻求数据挖掘过程中的可视化方法,使知识发现的过程能够被用户理解,也便 于在知识发现的过程中进行人机交互; 3 研究在网络环境下的数据挖掘技术( w 曲m i n i n g ) ,特别是在因特网上建立d m k d 服务器,并且与数据库服务器配合,实现w 曲m i n i n g ; 4 加强对各种非结构化数据的开采( d a t am i i l i n g f o ra u d i o v i d e o ) ,如对文 本数据、图形数据、视频图像数据、声音数据乃至综合多媒体数据的开采: 处理的数据将会涉及到更多的数据类型,这些数据类型或者比较复杂,或者是结构 比较独特。为了处理这些复杂的数据,就需要一些新的和更好的分析和建立模型的方法, 同时还会涉及到为处理这些复杂或独特数据所做的费时和复杂数据准备的一些工具和 软件。 5 交互式发现; 6 知识的维护更新。 但是,不管怎样,需求牵引与市场推动是永恒的,d m k d 将首先满足信息时代用户 的急需,大量的基于d m k d 的决策支持软件产品将会问世。 9 只有从数据中有效地提取信息,从信息中及时地发现知识,才能为人类的思维决策 和战略发展服务。也只有到那时,数据才能够真正成为与物质、能源相媲美的资源,信 息时代才会真正到来。 1 0 第三章主成份分析法 第一节主成份分析的基本思想 3 1 1 主成份的研究目的 在对某一事物进行实证研究中,为了更全面、准确地反映事物的特征及其发展规律, 人们往往要考虑与其有关系的多个指标,这些指标在多元统计中也称为变量。 这样就产生了如下问题:一方面人们为了避免遗漏重要的信息而考虑尽可能多的指 标,而另一方面随着考虑指标的增多增加了问题的复杂性,同时由于各指标均是对同一 事物的反映,不可避免地造成信息的大量重叠,这种信息的重叠有时甚至会抹杀事物的 真正特征与内在规律。 基于上述问题,人们就希望在定量研究中涉及的变量较少,而得到的信息量又较多。 主成分分析正是研究如何通过原来变量的少数几个线性组合来解释原来变量绝大多数 信息的一种多元统计方法。咧 通过主成分分析,可以从事物之间错综复杂的关系中找出一些主要成分,从而能有 效利用大量统计数据进行定量分析,揭示变量之间的内在关系,得到对事物特征及其发 展规律的一些深层次的启发,把研究工作引向深入。 在力求数据信息丢失最少的原则下,对高维的变量空间降维,即研究指标体系的少 数几个线性组合,并且这几个线性组合所构成的综合指标将尽可能多地保留原来指标变 异方面的信息。这些综合指标就称为主成分。“1 3 1 2 主成份要注意的问题 1 基于相关系数矩阵还是基于协方差矩阵做主成分分析。一般而言,对于度量单 位不同的指标或是取值范围彼此差异非常大的指标,应该选择基于相关系数矩阵的主成 分分析。对同度量或是取值范围在同量级的数据,还是直接从协方差矩阵求解主成分为 宜。 2 选择几个主成分。主成分分析的目的是简化变量,一般情况下,主成分的个数 应该小于原始变量的个数。关于保留几个主成分,应该权衡主成分个数和保留的信息。 第二节主成份分析的数学模型 3 2 1 数学模型 假设我们所讨论的实际问题中,有p 个指标,我们把这p 个指标看作p 个随机变量, 记为x 。,x 2 ,) ( p ,主成分分析就是要把这p 个指标的问题,转变为讨论p 个指标的 线性组合的问题,而这些新的指标f 1 ,f 2 ,f k p ) ,按照保留主要信息量的原则 充分反映原指标的信息,并且相互独立。 这种由讨论多个指标降为少数几个综合指标的过程在数学上就叫做降维。主成分分 析通常的做法是,寻求原指标的线性组合尉。瞳町 fl =“n x 1+“2lx2 + +“plx 口 f 2=“12z1 + “2 2 盖2 + +“p2xp fp =u lpx1l+u2px2 + 七up ,x p 满足如下的条件: 每个主成分的系数平方和为1 。即 “0 + “;i + + “:= 1 主成分之问相互独立,即无重叠的信息。即 c d v ( f ,f ) = 0 ,i j ,i ,j ;1 ,2 ,p 主成分的方差依次递减,重要性依次递减,即 肠, ( f 。) 苫玩,( f :) 芑芑砌r( f ,) 两个线性代数的结论: 1 若a 是p 阶实对称阵,则一定可以找到正交阵u , 使 u ”1 a u = 0 0 九 : 0 0 0 0 : 九 其中a ,i = 1 2 p p p 是a 的特征根。 2 若上述矩阵的特征根所对应的单位特征向量为 ul ,up u = ( u l ,u p ) = “1 1 “2 1 : h p l “1 2 “2 2 : m p 2 “l p “2 p : “ 则实对称阵u 属于不同特征根所对应的特征向量是正交的,即有 u u = u u = i 主成份法的推导过程省略。 结论:设x 是随机向量x = x 1 + x 2 + x 3 + x p 的协方差矩阵。它有特征值九1 , 九2 , ,特征向量u 1 ,u 2 ,u 3 u p ,其中 九1 九2 砷a 则主成分为: 1 2 = h i l 石1 + “2 1x 2 + + ,1 x , f 2 = “1 2x 1 + “2 2x2 + + “p2 x p f p = “1 p x l + “2p 肖2 + + “坤xp 此时,v a f ( f i ) = u x u = i = 1 ,2 ,p c d v ( f ,f ) = 0 ,i j ,l ,= 1 ,2 ,p 写为矩阵形式:f = u x u = 电,1 l ,q ) = 嵋1 岣2 屹1 : z x = ( x ,xz ,x 。) 3 2 2 精度分析 两个基本概念: 1 贡献率:第i 个主成分的方差在全部方差中所占比重 ;。;。a ; 称为贡献率,反映了原来p 个指标多大的信息,有多大的综合能力 2 累积贡献率:前k 个主成分共有多大的综合能力,用这k 个主成分的方差和在全 t,o 部方差中所占比重 善a z 喜a 来描述,称为累积贡献率。 我们进行主成分分析的目的之一是希望用尽可能少的主成分f l ,f 2 ,f k ( k p ) 代替原来的p 个指标。到底应该选择多少个主成分,在实际工作中,主成分个数的多少 取决于能够反映原来变量8 0 以上的信息量为依据,即当累积贡献率8 0 时的主成分 的个数就足够了。最常见的情况是主成分为2 到3 个。 3 2 3 主成分分析的步骤“1 首先确定采用协方差矩阵还是相关系数矩阵,依距就是上面提到的,若度量单位是 不同的指标或是取值范围彼此差异非常大的指标,应该选择基于相关系数矩阵的主成分 分析,否则采用协方差矩阵。 以协方差矩阵为例; ,、, x i = b o ,z 2 f ,x 脚) ( f = 1 ,2 ,1 ) x 的协方差矩阵为: 茗1 嵋 一 疋 月“击 2 第一步:由x 的协方差阵x ,求出其特征根,即解方程i s 一 i i = o 可得特征根。 苫a 2 皂己九乏。 第二步:求出分别所对应的特征向量u 1 ,u 2 ,u p , u 。;0 u ,“。y 计算累积贡献率,给出恰当的主成分个数。 第四步:计算所选出的k 个主成分。 e = u :x ,f = 1 2 ,七( 七s p ) 第三节贡献率向量的提出 3 3 1 原主成份结论的不足 主成分分析试图在力保数据信息丢失最少的原则下,对这种多变量的平面数据表进 行最佳综合简化,也就是说,对高维变量空间进行降维处理,提高对数据的处理
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 楼宇赎回贷款合同模板
- 销售合同范本正规范本
- 社区科学理论知识
- 组建与管理创业团队
- 房屋转让合同范本大全
- 运动解剖学练习题库含参考答案
- 租赁合同的可变性与调整策略
- 等待戈多课件
- 简约商务述职报告
- 航空货物运输代理合同
- 青春期性教育完整版课件
- 2024年广东省广州市番禺区九年级中考一模数学试卷
- 摩托艇经营合作协议书模板
- MOOC 计量经济学-西南财经大学 中国大学慕课答案
- 2024年浙江首考高考英语卷试题真题及答案解析(含听力原文+作文范文)
- 2023年北京八十中初二(下)期中数学试卷(教师版)
- 麻醉护理的现状与展望
- 毕业设计论文《10t单梁桥式起重机的设计》
- 化工及相关行业废盐资源化用于氯碱行业技术规范
- 《标准工时培训》课件
- 区域轨道交通协同运输与服务应用体系及实践
评论
0/150
提交评论