(计算机软件与理论专业论文)专利信息检索系统的推送与数据挖掘应用研究.pdf_第1页
(计算机软件与理论专业论文)专利信息检索系统的推送与数据挖掘应用研究.pdf_第2页
(计算机软件与理论专业论文)专利信息检索系统的推送与数据挖掘应用研究.pdf_第3页
(计算机软件与理论专业论文)专利信息检索系统的推送与数据挖掘应用研究.pdf_第4页
(计算机软件与理论专业论文)专利信息检索系统的推送与数据挖掘应用研究.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

(计算机软件与理论专业论文)专利信息检索系统的推送与数据挖掘应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

专利信息检索系统的推进与数据挖掘应用研究 专利信息检索系统的推送与数据挖掘应用研究 摘要 本文研究专利信息检索系统的推送与数据挖掘的应用问题,目的是 在当今网络信息资源迅速膨胀的情况下,改变用户传统的通过主动搜索 来获取信息的方式,主动向其推送需要的信息,从而提高用户获取信息 的效率与准确性;通过数据挖掘算法的应用,结合企业需求提供智能分 析服务。 本文首先介绍了专利信息、推送技术和数据挖掘的概念、研究现状; 接着描述了信息推送的特征、工作流程、发展方向等等,以及数据挖掘 的功能分类;然后通过介绍与推送有关的高级检索功能,给出了系统推 送功能的设计与实现;最后通过数据挖掘算法在系统中作一些应用,主 要包括:购物篮分析、用户流失分析、用户价值度分析,以及一些核心 算法的实现,包括:a p r i o r i 关联规则算法和i d 3 分类算法。结合用户流 失分析,深入分析探讨了i d 3 算法,构造出决策树,给出了实验结果, 最后对本文的工作做了总结,并提出今后需要进一步研究和改进的方 向。 关键字:专利信息,信息推送,数据挖掘 作者:彭中祥 指导老师:孙涌 p a t e n ti n f o r m a t i o nr e t r i e v a ls y s t e m sp u s ha n d a p p l i c a t i o nr e s e a r c ho f d a t am i n i n g a b s t r a c t t h i sp a p e rr e s e a r c h e s0 1 1i n f o r m a t i o np u s hi nap a t e n ti n f o r m a t i o n s e r v i c es y s t e m i t sp u r p o s ei st oc h a n g et h et r a d i t i o n a l m a l l v l e ro fc a p t u r i n g i n f o r m a t i o nb yu s e r sa c t i v es e a r c h i n gi nn o w a d a y ss i t u a t i o no fn e t w o r k r e s o u r c es p e e d ye x p a n d i n g i tp r o v i d e si n f o r m a t i o nt ot h eu s e r sb yd a t a m i n i n ga l g o r i t h m a sar e s u l t , t h ee 伍c i e n c ya n da c c u r a c yo fc a t c h i n g i n f o r m a t i o nw i l lb ei n c r e a s e d 。 t h ep a p e rb e g i n sw i t h rt h ec o n c e p to fp a t e n t ,p u s ha n dd a t am i n i n g ,i t d e s c r i b e sp u s h sf e a t u r e s ,w o r k f l o we t c t h e ni td e s c r i b e dt h ed e s i g na n d r e a l i z a t i o no fi n f o r m a t i o np u s hi nt h ep a t e n ti n f o r m a t i o ns e r v i c es y s t e ma n d h i g h e rs e a r c h a tl a s t , u s i n gd a t am i n i n ga l g o r i t h mt od os o m ea p p l i c a t i o n , i n c l u d i n g :s h o p p i n gc a r t sa n a l y s i s ,u s e rl o s sa n a l y s i s ,u s e r s v a l u ed e g r e e s a n a l y s i s ,a n d t h er e a l i z a t i o no fs o m ec o r ea l g o r i t h m s a tt h el a s tp a r to f p a p e ri st h ec o n c l u s i o no f t h i sd e s i g na n df u t u r ew o r k s k e y w o r d s :p a t e n ti n f o r m a t i o n , i n f o r m a t i o np u s h ,d a t am i n i n g w r i t t e nb y :p a n gz h o n g x i a n g s u p e r v i s e db y :s u ny o n g 苏州大学学位论文独创性声明及使用授权的声明 学位论文独创性声明 本人郑重声明:所提交的学位论文是本人在导师的指导下,、独立进 行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含 其他个人或集体已经发表或撰写过的研究成果,也不含为获得苏州大学 或其它教育机构的学位证书而使用过的材料。对本文的研究作出重要贡 献的个人和集体,均已在文中以明确方式标明。本人承担本声明的法律 责任。 研究生签名:耋堕塑:日期:竺望! :! ! 学位论文使用授权声明 苏州大学、中国科学技术信息研究所、国家图书馆、清华大学论文 合作部、中国社科院文献信息情报中心有权保留本人所送交学位论文的 复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本 人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文 外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分 内容。论文的公布( 包括刊登) 授权苏州大学学位办办理。 研究生签名: 导师签名: 塑! 堡 e t 趑e t 期: 期: 工一瓦、妒 扣似憎 专利信息检索系统的推送与数据挖掘应用研究 第一章绪论 1 1 课题背景 _ :s 1 1 1 专利信息 第一章绪论 专利信息是指以专利文献作为主要内容或以专利文献为依据,经分 解、加工、标引、统计、分析、。整合和转化等信息化手段处理,并通过 各种信息化方式传播而形成的与专利有关的各种信息的总称i l 】。 专利信息可分为以下五种信息 2 1 ,即: 1 、技术信息:在专利说明书、权利要求书、附图和摘要等专利文 献中披露的与该发明创造技术内容有关的信息,以及通过专利文献所附 的检索报告或相关文献间接提供的与发明创造相关的技术信息。 2 、法律信息:在权利要求书、专利公报及专利登记簿等专利文献 中记载的与权利保护范围和权利有效性有关的信息。其中,权利要求书 用于说明发明创造的技术特征,清楚、简要地表述请求保护的范围,是 专利的核心法律信息,也是对专利实施法律保护的依据。其它法律信息 包括:与专利的审查、复审、异议和无效等审批确权程序有关的信息; 与专利权的授予、转让、许可、继承、变更、放弃、终止和恢复等法律 状态有关的信息等。 3 、经济信息:在专利文献中存在着一些与国家、行业或企业经济 活动密切相关的信息,这些信息反映出专利申请人或专利权人的经济利 益趋向和市场占有欲。例如,有关专利的申请国别范围和国际专利组织 专利申请的指定国范围的信息;专利许可、专利权转让或受让等与技术 贸易有关的信息等;与专利权质押、评估等经营活动有关的信息,这些 信息都可以看作经济信息。竞争对手可以通过对专利经济信息的监视, 获悉对方经济实力及研发能力,掌握对手的经营发展策略,以及可能的 潜在市场等。 第一章绪论 专利信息检索系统的推送与数据挖掘应用研究 4 、著录信息:与专利文献中的著录项目有关的信息。例如,专利 文献著录项目中的申请人、专利权人和发明人或设计人信息;专利的申 请号、文献号和国别信息;专利的申请日、公开日和或授权日信息; 专利的优先权项和专利分类号信息;以及专利的发明名称和摘要等信 息。著录项目源自图书情报学,用于概要性地表现文献的基本特征。专 利文献著录项目既反映专利的技术信息,又传达专利的法律信息和经济 信息。 5 、战略信息:经过对上述四种信息进行检索、统计、分析、整合 而产生的具有战略性特征的技术信息和或经济信息。例如,通过对专 利文献的基础信息进行统计、分析积研究所给出的技术评估与预测报告 和“专利图”等。 1 i 2 信息推送技术 网络信息拉取( p l l l l ) 技术【:】指用户有目的地在网络上主动查询信息, 用户从浏览器给w e b 发出请求,由w e b 获取所需信息【3 】。1 9 9 6 年底, 在美国兴起了一项新的网上信息获取技术,即:推送( p u s h ) 技术【4 】。与 使用浏览器查找的拉取( p u l l ) 信息技术不同,推送技术是根据用户的需 求,有目的性地按时将用户感兴趣的信息主动发送到用户的计算机中。 在推送技术使用以前,人们往往利用浏览器在i n t e r n e t 上搜寻,一 方面,面对浩如烟海的信息,很多用户花费相当多时间和费用也难以拉 取到自己所需要的信息;另一方面,信息发布者希望将信息及时、主动 地发送到感兴趣的用户计算机中,而不是等着用户来拉取p 】。推送技术 采用一种广播的模式,其特点是以频道“广播”方式使网上用户得到相同 的信息。使用推送技术,可以提高用户获取信息的及时性和效率。 1 1 3 数据挖掘 数据挖掘的定义表达方式很多,其实质大同小异。本文主要从技术 角度和事物处理角度给出数据挖掘的定义。 专利信息检索系统的推送与数据挖掘应用研究第一章绪论 从技术角度看,数据挖掘就是从真实的、大量的、不完全的、有噪 声的、模糊的和随机应用的数据中,提取隐含在其中的、人们事先不知 道的、但却是潜在有用的信息和知识的一个过程 g j 。这个定义包括好几 层含义:数据源必须是真实的、大量的、含噪声的:发现的是用户感兴 趣的知识;发现的知识要易于理解,在特定的领域中具有实际应用价值。 氧从广义上理解,数据、信息都是知识的表现形式。但是依照习惯, 把概念、规则、模式、规律和约束等看作知识,把数据看作是形成知识 的源泉。原始数据可以是结构化的,如关系数据库中的数据;也可以是 半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构数 据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的, 也可以是归纳的。发现的知识可以被用于信息管理,查询优化,决策支 持和过程控制等。因此,数据挖掘是一门交叉学科,它把数据的应用从 低层次的简单查询,提升到从数据中挖掘知识,提供决策支持【7 1 。 从事务处理中来看,数据挖掘是一种新的信息处理技术,其主要特 点是对用户数据中的大量业务数据进行抽取、转换、分析和其他模型化 处理,从中提取辅助用户决策的关键性数据【6 】。 奇数据挖掘的意义在于从数目庞大的资料中,找出有意义的规则。它 使数据库技术进入了一个更高级的阶段,不仅能对过去的数据进行查询 和遍历,而且能够找出数据之间的潜在联系,从而促进了信息的进一步 传递。 , , 简而言之,数据挖掘是一类深层次的数据分析方法。分析数据不是 单纯为了研究的需要,更主要是为用户决策提供真正有价值的信息,进 而满足用户的需求。但所有用户面临的一个共同问题是:拥有的数据量 非常大,而其中真正有价值的信息却很少,因此从大量的数据中经过深 层分析,获得有实际指导意义的信息,就像从矿石中淘金一样,数据挖 掘也因此而得名。 因此,数据挖掘可以描述为:按用户既定业务目标,对大量的业务 数据进行探索和分析,揭示隐藏的、未知的或验证己知的规律性,并进 一步将其模型化的先进有效的方法川。 第一章绪论 专利信息检索系统的推送与数据挖掘应用研究 1 。1 。4 相关研究现状 1 、推送技术的国外研究现状 推送技术( p u s ht e c h n o l o g y ) 又称n e t c a s t 、w e b c a s tt e c h n o l o g y ,它由 p o i n t c a s tn e t w o r k 公司于1 9 9 6 年提出嘲。其目的是为了提高基于计算机 网络的信息获取效率。它最初通过与一些媒体公司合作,利用自己的推 送软件,向因特网用户自动发布各种预先定制的新闻、经济、体育等信 息。,使用户不必在网上盲目的点击和游荡,而是象收看广播电视一样, 有目的地进行阅读和预取。因而它就从根本上改变因特网上信息的获取 方式,是第三代浏览器的核心技术。所以各大网络公司如微软、网景等 纷纷对它进行研究,希望自己在技术上处于领先地位。在2 0 世纪9 0 年 代中后期,p u s h 技术是最热门的研究技术。其后的六年中,由于网络技 术的限制和网络信息资源的缺乏等原因,p u s h 技术的研究有些降温。从 有关文献来看,他们主要集中于以下几个研究领域f l l 】: , 1 ) 推送技术和拉取技术的综合研究。如综合利用两者的优势,在因 特网上进行信息发布。 。 2 ) 智能代理技术在p u s h 技术中的应用研究。如基于动态代理的推 送方法的研究、有效支持推送技术的智能代理的研究等等。 3 ) 频道优化技术的研究。如动态频道技术与静态频道技术的结合 等。 4 ) r s s 【l l 】技术的研究和应用s 如r s s 技术标准的研究和r s s 阅读器 的开发等。 r s s 的解释有多种,它可以是硒c hs i t es u m m a r y ( 丰富站点摘 要) , r d fs i t es u m m a r y ( r d f 站点摘要) ,或是 r e a l l ys i m p l e s y n d i c a t i o n ( 真正简易聚合) ,这主要是由于该技术有不同的源头,不 同的技术团体对其做出了不同的解释。简而言之,r s s 是基于x m l 技 术的互联网内容发布和集成技术【1 2 】,是种描述新闻或其他w e b 内容的 方式,通过”f e e c r ( 提要) “将信息从在线出版者传递到w e b 用户面前, 通常用户通过r s s 来订阅多个站点的新闻和b l o g ,这样就不用一次次 4 专利信息检索系统的推送与数据挖掘应用研究 第一章绪论 登录每个网站察看自己要的内容了。 2 、推送技术的国内研究现状 从1 9 9 7 年至2 0 0 2 年,我国有关推送技术的相关文献有4 0 多篇【1 1 1 。 从收集的文献看,多数是对这一技术的介绍,存在问题的分析以及应用 前景的展望。然而原创性理论研究的论文很少。从2 0 0 3 年至2 0 0 4 年, 我国有关推送技术的相关文献有3 0 余篇,其中大部分是对推送技术在 某一领域的应用研究介绍。可以看出,我国推送技术的研究的重点发生 了变化,即注重实际的应用研究。 我国对p u s h 技术的研究稍晚于国外,p i l s h 技术才在我国获得了一 定的发展和应用。继北京世纪集团于1 9 9 7 年推出了我国首套p u s h 产品 一“天唐2 0 0 0 之资讯天使”标志我国对推送技术研究的开始。之后, 1 9 9 9 年1 2 月1 0 日正式开通的中国金属网站是中国首次采用推送技术建 立的专业信息服务网站。那时我国利用p u s h 技术开发的软件产品还很 少。除大唐2 0 0 0 外,北京国信贝斯软件有限公司开发的 b a s e o n e s h o t t l 4 】和东北大学东软集团开发的软件n e u s o r i m 也具有推送功 能,这些软件主要应用在网站建设上。国信贝斯公司的 b a s eo n e s h o t 个性化主动信息服务系统,由于采用了智能代理技术和推送技术,某种 程度上解决了用户需求的获得、自动检索信息、检索结果信息的推送这 三个用户查找信息的关键性问题。 b a s eo n e s h o t 通过对信息的收集、 整理、加工、处理、存储、利用等环节的控制,使信息系统的整体上处 于最优状态。政府、企业可以利用i b a s eo n e s h o t 快速方便地建立主 动、个性化服务的w e b 站点。帮助企业对商业信息、产品信息和新闻 信息等各种信息资源进行有效的分类、快速检索和定向发布,让用户快 速有效地得到所需要的信息,从而改善和优化服务效果。这有助于企业 在为客户提供更好、更及时的信息服务的同时,赢得更多的忠诚客户。 5 、数据挖掘的国外研究现状 基于数据库的知识发现【1 5 ( k d d ,k n o w l e d g ed i s c o v e r yi nd a t a b a s e ) 一词首次出现在1 9 8 9 年举行的第十一届国际联合人上智能学术会议上。 到目前为止,美国人工智能协会主办的k d d 国际研讨会己经召开了& 第一章绪论专利信息检索系统的推送与数据挖掘应用研究 次,规模由原来的专题讨论会发展到国际学术大会,研究重点也逐渐从 发现方法转向系统应用1 1 6 j ,注重多种发现策略和技术的集成,以及多种 学科之间的相互渗透。1 9 9 8 年在第四届知识发现和数据挖掘国际学术会 议上,有3 0 多家软件公司展示了数据挖掘软件产品,其中不少软件己 经在北美和欧洲的国家得到应用。m m 公司发布了基于标准的数据挖掘 技术m md b 2 智能挖掘器积分服务,可用于个性化的解决方案。两 大统计软件公司s a s 和s p s s 也推出了各自的数据挖掘上具e n t e r p r i s e m i n e r 和c l e m e n t i n e 。1 9 9 9 年,亚太地区在北京召开的第三届p a k d d 会议收到1 5 8 篇论文,空前热烈。i e e e 的k n o w l e d g ea n dd a t ae n g i n e e r i n g 会刊率先在1 9 9 3 年出版了k d d 技术专刊。并行计算、计算机网络和信 息上程等其他领域的国际学会、学刊也把数据挖掘和知识发现列为专题 和专刊讨论。 最近,g a r m e rg r o u p 的一次高级技术调查将数据挖掘和人工智能列 为“未来三到五年内将对上业产生深远影响的五大关键技术”之首,并 且还将并行处理体系和数据挖掘列为未来五年内投资焦点的十大新兴 技术前两位1 7 】【1 8 j 。根据最近g a r t n e r 的h p c 研究表明,“随着数据捕获、 传输和存储技术的快速发展,大型系统用户将更多地需要采用新技术来 挖掘市场以外的价值,采用更为广阔的并行处理系统来创建新的商业增 长点。” 6 、数据挖掘的国内研究现状 与国外相比,国内对数据挖掘的研究稍晚。1 9 9 3 年国家自然科学基 金首次支持对该领域的研究项目【1 9 1 。目前,国内的许多科研单位和高等 院校竞相开展知识发现的基础理论及其应用研究,这些单位包括清华大 学、中科院计算技术研究所、空军第三研究所、海军装备论证中心等。 其中,北京系统工程研究所对模糊方法在知识发现中的应用进行了较深 入的研究,北京大学也在开展对数据立方体代数的研究,华中理工大学、 复旦大学、浙江大学、中国科技大学、中科院数学研究所和吉林大学等 单位开展了对关联规则开采算法的优化和改造;南京大学、四川联合大 学和上海交通大学等单位探讨、研究了非结构化数据的知识发现以及 专利信息检索系统的推送与数据挖掘应用研究第一章绪论 w e b 数据挖掘。 1 2 课题研究的来源和内容 1 2 1 课题来源 本课题来源于某企业的专利信息检索系统,属于其中的用户信息推 送功能部分。该系统为用户提供的主要的功能包括:集文摘库、说明书 库、数据管理、统计分析和会员信息管理五大子系统为一体的信息服务 系统。 , 本课题的设计以高级检索为应用背景,对高级用户进行信息推送功 能的设计与实现,并利用数据挖掘算法用于客户关系管理【2 0 】,为专利信 息检索系统提供智能分析服务的比较切实可行的实施方案。 1 2 2 目标和内容 =本文主要对专利检索、信息推送和数据推送等领域的相关技术进行 亍研究与实现,目的是在当今网络信息资源迅速膨胀的情况下,改变用 户传统的通过主动搜索来获取信息的方式,主动向其推送需要的信息, 从而提高用户获取信息的效率与准确性,为用户提供一个获取信息资源 的便捷、有效的途径;通过数据挖掘算法的应用,结合企业需求提供智 能分析服务。 本文研究的主要内容归纳如下: 一、在分析专利信息检索、信息推送、数据挖掘有关理论的基础上, 分析了专利信息检索系统中信息推送功能设计与实现的必要性与可行 性。 一 二、首先给出了与推送有关的高级检索的实现;接着详细分析了推 送功能的设计,包括:专利信息表的结构和存储、信息存储模型的构建、 信息推送方法的设计,然后给出了推送的平台搭建和系统的实现。 三、利用数据挖掘算法在系统中作一些应用,包括:购物篮分析、 第一章绪论 专利信息检索系统的推送与数据挖掘应用研究 用户流失分析、用户价值度分析等应用。购物篮分析是指通过对用户的 搜索历史数据的挖掘,发现哪些专利信息会频繁的共同出现,即发现专 利信息中存在的关联f 2 l 】。用户流失分析是找出哪些原因导致用户离开, 利用数据挖掘技术建立用户流失预测模型瞄l 。 四、数据挖掘核心算法研究与实现,本课题的工作包括a p r i o r i 关 联规则、i d 3 分类算法等算法的分析与实现。结合用户流失分析,深入 分析探讨了i d 3 算法,并把它与用户流失分析数据准备后的专利信息数 据联系起来,构造出决策树,并生成相应的规则,给出了实验结果,未 来的工作中我们还将进一步对算法库进行扩充改进。 1 3 本文的组织结构。 本文后续章节的组织结构如下: 第二章:首先介绍了信息推送技术的概念,包括:信息推送的含义、 特征、工作流程以应用发展方向;然后介绍了数据挖掘的有关概念和功 能分类,包括:概念描述、关联规则、分类、回归、聚类。 第三章:分析了与推送有关的高级检索功能,然后给出了专利信息 检索系统的推送功能的设计与实现,包括:专利信息表的结构和存储、 信息存储模型的构建、信息推送方法的设计、推送的平台搭建和系统的 实现。 第四章:面向专利信息服务系统作一些数据挖掘算法的应用,包括: 购物篮分析、用户流失分析、用户价值度分析以及部分核心算法的研究 与实现,包括:a p r i o r i 关联规则算法和i d 3 分类算法,最后结合用户流 失分析给出了i d 3 决策树的实验结果。, 第五章:对本文的工作进行总结,并展望了下一步改进的方向,并 且指出了需要进一步完善的部分以及今后的发展方向。 专利信息检索系统的推送与数据挖掘应用研究 第二章相关知识背景 第二章相关知识背景 本章就论文所涉及到的相关概念和技术做了简要的介绍,内容包 菇:一、信息推送技术的概念和工作流程,推送技术的应用现状和发展 考向:二、数据挖掘及其应用的简单介绍,以及数据挖掘的功能分类: 概念描述、关联规则,分类,回归和聚类。 2 1 信息推送技术 2 1 1 信息推送的含义 信息推送技术是一种信息发布技术,是网络环境下一种新的信息服 务模式。它最早是由美国p o i n t c a s t 公司在1 9 9 6 年提出的,该公司也成 为了第一个在i n t e m e t 上使用推送技术发布信息的公司。随后,许多著 名公司都推出了自己的推送技术新产品,如w a y f a r e r 公司的i n e i s a 、加 利福尼亚州i n c o m m o n 公司的d o w n t o w n 等。还有包括i b m 、n o v e l l 及m i c r o s o f t 在内的许多公司都跃跃欲试,试图在此技术市场上占有一 席之地。 信息推送是依据一定的技术标准和约定,自动从信息资源中选择特 定的信息,并通过一定的方式( 如电子邮件) ,有规律地将信息传递给 用户的一种技术。它的主要思想是将用户的主动搜索信息变为被动地、 有目的地接受信息,大大提高了用户获取信息的效率。p i l s h 技术采用一 种广播的模式,特点是以频道“广播”的方式使网上用户得到相同的信 息。它主要的优点是:对用户的要求低,不要求专门的技术;及时性好, 信息发布者及时地向用户推送不断更新的动态信息。 推送技术的实现方式1 2 3 崤:w e b 服务器扩展c g i 方式、客户代理 方式、p l l s h 服务器方式、频道推送方式和邮件推送方式。 第二章相关知识背景专利信息检索系统的推送与数据挖掘应用研究 2 1 2 信息推送的特征 信息推送技术自从问世后就受到了人们普遍的关注。因为通过它, 人们可以从网络上高效地获取所需的信息。相对于传统的信息拉取服务 而言,信息推送技术具有以下特征1 2 4 j : 1 、主动性。主动性是“推送”模式网络信息服务的最基本特征之 一,即当有新的信息需要提交或到达时,信息推送软件会依据传送信息 的类型和重要性的不同,在用户不发出信息查询请求的情况下,通过电 子邮件或其他方式及时、主动地通知用户进行读取,提高了用户获取信 息的及时性。 2 、个性化。信息推送服务的前提之一就是根据用户的特定信息需 求为其量身定制,把为特定用户搜集整理的信息通过一定的机制推送给 用户,充分体现了用户的个性化信息需求。 3 、智能化。信息推送技术服务系统中的信息是高速流动的,为了 提高其准确性,还可以控制搜索的深度,过滤掉不必要的信息。因此, 网络环境下的信息推送服务具有较高的智能性。 4 、高效性。由于信息推送技术采用了信息代理机制,可以降低重 复的、无关的信息在网上传递,避免了垃圾信息对网络资源的大量占用。 2 1 3 信息推送技术的工作流程 通过对p u s h 技术的概念和特点的分析,可以看出信息p u s h 技术的 一般工作流程为: 1 、建立用户需求管理数据库。用户需要在这里完成注册,表述自 己的信息需求,经过统计分析,便于做成一个有效的电子身份证,向用 户提供主动及时的信息服务。 2 、建立信息库。信息库负责从w e b 上搜集信息,并对信息进行分 类整理,确定标准,把个性化的信息标准设立出来,使大量信息遵循这 个标准进入信息库。 专利信息检索系统的推送与数据挖掘应用研究 第二章相关知识背景 3 、信息推送服务器盼信息推送。信息推送服务器根据已建立的用 户和信息的对应关系、用户接收各种信息的最佳时间和方式等,在适当 的时间将适当的信息主动推送到用户的计算机上( 如图2 1 所示) 。 p u s h 一 用户数据库 用 服 il 4 - - - - - - - - 务 户,l 器 叫信息库 图2 1 信息p u s h 工作流程 2 1 4 信息推送技术的应用及发展方向 目前,推送技术最成功的应用是在一些特定的领域,针对特定的用 户群体。例如,在大型企业中,对库存管理的一般方式是:当某一种原 材料的库存量减少到一定量时,仓库管理部门就通知采购部门采购这一 原料。如果将p i l s h 技术应用到这一过程中并与工作流相结合,那么就 可以最终自动完成这一任务。与特定用途的推送技术应用相比,在通用 n t e m e t 信息平台上应用推送技术要复杂得多。推送技术中最关键,也 是首先要解决的问题是对信息的分类及处理。而目前面对的信息特点 是:信息量巨大,信息类型难以估计和难以人工处理。针对上述问题, 要使推送技术最终得以成功应用,引入“人工智能”将是值得探索的一 个方向。 将目前的信息推送技术与信息拉取技术相结合,在此基础上融入人 工智能、知识发现技术、i n t e m e t 及数据库技术,从而形成“智能信息 推拉( i i p p ) ”技术1 2 4 2 5 ( 如图2 2 所示) ,这是推送技术的一个发展方 向。上述技术的引入,可以从根本上解决推送技术应用推广过程中所遇 到的难题。比如,如何从海量信息中提取有用的信息、如何提供个性化 信息服务等。 第二章相关知识背景专利信息检索系统的推送与数据挖掘应用研究 图2 2 智能信息推拉技术 2 2 数据挖掘及其应用简介 数据挖掘( d a t am i n i n g ) 的研究来自于对海量数据进行分析理解的迫 切需求。由于人类社会在迈向信息化的过程中积累了巨量数据,迫切需 要一种技术能够对海量信息进行主动探求,帮助人们从中获取有价值的 知识。因此,伴随着数据仓库等相关领域技术的成熟,数据挖掘技术也 得到了迅速发展。近年来,数据挖掘已成为国际上研究和应用的热点之 一。它是一门涉及面很广的交叉学科,来源于机器学习、数理统计、神 经网络、数据库、模式识别、粗糙集、模糊数学等多个学科 2 6 1 。 本节将介绍数据挖掘的历史、概念,并讨论数据挖掘的一般过程, 以及过程中常用的方法,如数据概化、分类、聚类、关联规则发现等。 其中每种方法一般都有多种实现算法。而每种方法和其实现算法又都有 其适合应用的特定问题域。 2 2 1 数据挖掘概念 数据挖掘的产生起因于业界的迫切需求。随着社会信息化建设水平 的不断提高,业界己经累积了大量数据,依靠人力进行分析己经力不从 心。人们迫切希望能够寻找一种方法,对海量数据进行分析并从中提取 有价值的信息、规律和知识。 那么什么是数据挖掘呢? 一般认为,数据挖掘( d a t am i n i n g ) 就是从 大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取 专利信息检索系统的推送与数据挖掘应用研究第二章相关知识背景 隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过 程。 数据挖掘和数据仓库及联机分析处理( o i ,a p ) 技术密切相关 2 7 1 。数 据仓库技术是为了满足海量数据的存储需求而诞生的。它是集成的、以 主题为导向的、相对稳定的、随时间变化的数据集合。一般来说,数据 挖掘都需要从数据仓库里来获取源数据。o l a p 技术和数据挖掘技术是 具有互补性的两种技术。o l a p 本质上是一种提出假设然后加以验证的 演绎过程。数据挖掘技术则是自己来发现模式的一种归纳过程。 数据挖掘是一个由多个步骤组成的过程。我们可以把它分成三个阶 段: 数据准备:即对数据进行清理、集成和变换。其目的是为了消除噪 音或不致数据,提取相关数据并变换为挖掘算法所需要的形式。 挖掘操作:根据挖掘目的和数据特点选择使用各种挖掘算法从数据 中发现模式和规律。根据用户挖掘目的的不同存在相对应的多种挖掘方 法,每种挖掘方法又存在着多种实现算法。选择算法时必须根据用户的 需求、数据的特点以及系统的实际情况进行选择。 知识表示和模式评估:使用可视化的表现手段将挖掘出来的知识展 现给用户;并根据某种兴趣度度量,评估所发现模式的价值。挖掘算法 所得的结果,必须转化成人类易于阅读和理解的形式显示给用户。同时 挖掘出来的模式并不都是有用的,系统需要确定一种兴趣度度量来过滤 挖掘结果。 2 2 2 功能分类 数据挖掘技术按其功能可分为概念描述、关联规则、分类、聚类、 时序分析等等【刁。 1 、概念描述 概念描述是指用汇总的、简洁的、精确的方式描述类和概念;描述 通常指数据的汇集。概念描述可以通过数据特征化和数据区分比较来实 第二章相关知识背景专利信息检索系统的推送与数据挖掘应用研究 现。_ - 数据特征化是目标类数据的一般特征或特性的汇总。有许多有效的 方法,将数据特征化和汇总,如o l a p 上卷操作和面向属性的归纳等等。 数据特征化的输出应该用可视化或泛化规则形式提供。数据区分是将目 标类对象的一般特性与一个或多个对比类对象的一般特性比较。其方法 和数据特征化是类似的。 2 、关联规则 关联规则挖掘是数据挖掘比较重要和活跃的一个方向,应用十分广 泛。其基本思想由a g r a w a l ,i m i e l i n s k i 和s w a m i 等人于1 9 9 3 年提出, 是一种简单有效的、无监督的挖掘算法。 关联规则挖掘主要是面向事务数据库,发现事务数据中项集之间的 关联关系。关联规则挖掘的一个典型例子是购物篮分析。该过程通过发 现顾客在一次购买行为中所购买的不同商品之间联系,从而分析顾客的 购买习惯,帮助零售企业制定营销策略。例如,如果去超级市场买面包 的人有多大可能会买果酱? 如果可能性较高,则可以将面包和果酱放在 同一个货架上或者对其进行捆绑销售,则将会有效刺激顾客同时购买这 些产品的消费欲望。有些应用虽然不是许多物品的集合,但是需要分析 某些属性间存在的关联,也可应用关联规则算法。关联规则是一种简单 有效但又应用广泛的技术。 一 关联规则的挖掘对象主要是面对事务数据库,寻找事务项目间的相 关性,比如在一次购买活动中所买不同商品的相关性。 形式的,我们可以如下定义关联规则。设j - - - ,之,) 是项的集合。 设任务相关的数据d 是数据库事务的集合,其中每个事务t 是项的集 合,使得t ,。每一个事务有一个标识符,称作t i d 。设a 是一个项 集,事务t 包含a 当且仅当a c _ t 。关联规则是形如毒b 的蕴涵式, 其中彳c ,b t - ,并且n b = a 。 关联规则有两个重要度量:支持度和置信度。 规则一j b 在事务集d 中成立,具有支持度s ,其中s 是d 中事务 包含a u s ( 耳p ,a 和b 二者) 的百分比。它是概率p ( a u b ) 。规则一j b 在 专利信息检索系统的推送与数据挖掘应用研究第二章相关知识背景 事务集d 中具有置信度c ,如果d 中包含a 的事务同时也包含b 的百 分比是c 。这是条件概率p ( b a ) 。即: s u p p o r t ( 彳b ) = p ( a u b ) ( 2 1 ) c o n f i d e n c e ( 爿jb ) = p ( w a )( 2 2 ) 支持度衡量关联规则的重要性。非常低的支持度意味着此关联规则 没有价值,或者说没有意义。置信度衡量关联规则的准确度:即当前提 a 成立时,结论b 发生的概率是多少。若关联规则满足最小支持度阙值 和最小置信度阙值,则它是有趣的。 3 、分类 分类也是数据挖掘的一个重要方向。分类的目的是根据已标定类别 的样本数据,找到一个分类函数或分类模型,根据该模型可以对一般数 据进行分类。 分类是需要训练数据的算法,必须提供一个训练样本数据集。该训 练集通常是已经掌握的历史数据。训练集由一组数据库记录或元组构 成,每个元组是一个由有关字段值组成的特征向量。此外,训练集还必 须包含类别标记。一个具体样本的形式可为:( v ,v :,v 。;c ) :其中 访表示训练集,c 表示类别。 分类算法包括统计方法、机器学习方法、神经网络方法等等。统计 方法包括贝叶斯和非参数法,机器学习方法包括决策树和规则归纳,神 经网络算法主要是b p 算法。不同的分类器有不同的特点。不同的分类 器的评价或比较标准包括:预测准确度、计算复杂度、算法的强壮性和 模型描述的简洁度及可理解度。分类器的实际效果同具体的数据特点密 切相关。数据的噪声大小、空缺值的多少、数据类型和数据之间关联程 度都对分类算法的执行效果具有很大影响。应该针对不同的数据采取不 同的算法。 4 、回归 分类和回归都用于预侧数据的未来趋势。不同的是,分类是对数据 的离散值进行预测,回归是对连续值进行预测。 回归分为线性回归和非线性回归。很多问题都可用线性回归解决, 第二章相关知识背景 专利信息检索系统的推送与数据挖掘应用研究 并且存在不少非线性问题经变换后可用线性回归解决。 线性回归是最简单的回归形式。双变量的线性回归将一个随机变量 y ( 称作响应变量) 视为另一个随机变量x ( 称为预测变量) 的线性函数。 即: y = a + 9 x ( 2 3 ) 其中,y 韵方差为常数;口和卢是回归系数,分别表示直线在y 轴 的截断和直线的斜率。这些系数可以用最小平方法求解。给定s 个样本 或形如( 五,咒) ,如,儿) ,瓴,只) 的数据点,回归系数口和可以用下 式计算: 夕= 遂舞铲 , 口=一y一声;(25) 其中,;是五,而,的平均值,而歹是咒,y 2 ,一只的平均值。 与其他复杂的回归方法相比,线性回归常常给出很好的近似。 多元回归是线性回归的扩展,涉及多个预测变量。响应变量y 可以 是一个多维特征向量的线性函数。 】,= 口+ 届五+ 屈五 ( 2 6 ) 此外通过对变量进行变换,还可以将非线性模型转换成线性的模型 来求解。 线性回归用于对连续值函数进行建模。它由于其简洁性而得到了广 泛的使用。 5 、聚类 聚类分析原本是统计学的分支,是一种新兴的多元统计方法,是当 代分类学与多元分析的结合。聚类分析是将分类对象置于一个多维空间 中,按照它们空间关系的亲疏程度进行分类。通俗的讲,聚类分析就是 根据事物彼此不同的属性进行辨认,将具有相似属性的事物聚为一类, 使得同一类的事物具有高度的相似性。 作为数据挖掘的主要功能之一,聚类分析主要集中在聚类方法的可 1 6 童型堕皇垫窒至竺笪苎耋量鍪塑丝塑鏖旦堡塑 墨三堡塑叁垫望笪墨 伸缩性,对聚类复杂形状和类型的数据有效性,高维聚类分析技术以及 针对大型数据库中混合数值和分类数据的聚类方法上。 将对象的集合分组成为由类似的对象组成的多个类的过程被称为 屎类。由聚类所生成的簇是一组数据对象的集合;这些对象与同一个簇 中的对象彼此相似度要尽可能的大,与其他簇中的对象相似度要尽可能 的小。在许多应用中,一个簇中的数据对象可以被作为一个整体来对待。 对于一个很大的多维数据集,在其数据空间中数据点通常不会均匀 分布;聚类技术可以识别密集的和稀疏的区域,因而发现数据集的全局 分布模式:在有些应用中,数据集缺乏描述信息,或者存在各种各样的 困难,难以组织成分类数据时,聚类技术可以自动的找到分类。 聚类能帮助市场分析人员从客户基本信息库中发现不同的客户群, 并且分析各个群体的特征。聚类分析还可以作在其他算法的数据预处理 中。 。聚类技术近年来发展十分迅速,现有的算法其思想大量来源于统计 学、机器学习、神经网络等技术。聚类是数据挖掘研究领域中一个非常 活跃的研究课题。 ,、 来自统计学的聚类分析方法主要思想是基于几何距离度量来进行 聚类分析。k - m e a n s 、k - m e d o i d s 等方法就是这类技术的经典的具代表性 的算法。这类算法是一种基于全局比较的聚类,要求所有的数据必须预 先给定,而不能动态增加新数据。每一次聚类决策过程中,这类算法对 所有的数据或者已经存在的聚类都同等对待而忽略其距离远近,并且需 要考察所有的对象才能决定类的划分。 在机器学习领域,聚类是无指导学习的一个例子,它是通过观察自 动学习的算法。此领域的聚类算法多数是概念聚类。即不再依靠几何距 离作为度量,一组对象只有当它们可以被一个概念描述时才形成一个 簇。概念聚类算法由两部分组成:发现合适的簇和形成对每个簇的描述。 第= 章相关知识背景 专利信息检索系统的推送与数据挖掘应用研究 2 3 本章小结 本章从信息推送技术入手,介绍了信息推送的含义、特征、工作流 程、应用和发展方向;重点叙述了数据挖掘的概念及其相关内容,包括: 概念描述、关联规则、聚类、分类和回归,最后对本设计中使用的相关 知识进行了概述。 专利信息检索系统的推送与数据挖掘应用研究第三章信息推送功能的设计与实现 第三章信息推送功能的设计与实现 要设计专利信息服务系统的数据推送功能,首先要了解专利信息 的存储结构及各表字段,接着介绍了与数据推送有关的高级检索,然后 给出了信息存储模型的构建、推送方法的设计,最后给出信息推送的平 台搭建与实现 3 1 与信息推送有关的高级检索 高级检索是提供给高级用户的一种检索方式,它检索条件为一个逻 辑表达式,支持复杂的布尔逻辑组配检索,支持 a n d 、“o r 、 n o t 、 “s u b ”四种逻辑运算符,支持“? ”、 、- 三种通配符,还支持“( ”、 “) 9 9 、“,”。同一检索字段中不同检索词之间进行逻辑组配可以直接用 逻辑运算符连接多个检索词;不同检索字段之间进行逻辑组配,则需要 在“逻辑运算行”一栏中输入检索字段代码及运算符以组成一个逻辑运 算表达式。例如,用户可以输入“2 0 0 5 - a da n d ( 电梯o r 电机) t l h 8a n d n o t 2 0 0 6 p d ,这个检索表达式的意思是检索申请日在2 0 0 5 年以后的, 发明名称和摘要中包含电梯或者电机的,并且公开公告日不是2 0 0 6 年 的专利信息。 下面是高级检索的检索界面,用户可以使用”a n d ”、”o r ”等 来键入逻辑运算符,“申请号”、“申请日”等是键入它们对对应的字段 名,用户可以使用下面的历史检索来找到最近搜索的l o 条检索表达式。 第三章信息推进功能的设计与实现专利信息检索系统的推送与数据挖掘应用研究 3 2 推送流程设计 图3 1 高级检索 为确保系统具有易维护、可扩展、松耦合、稳定性好、易部署等特 性,系统设计力求层次清晰,并实现模块化。系统设计的主导思想是力 求标准化、层次化、模块化。 系统的设计原则如下: 1 、具有良好的图形用户界面; 2 、系统容维护,便于功能扩充; 3 、性能稳定、易部署。 有关推送的专利信息的产生、创造、组织和存储的过程,同检索的 实施过程中对信息的获取应用结合起来,在利用检索解决问题的过程 中,实现了检索的发现和创造。专利信息推送是获取恰当的专利信息在 恰当的时候交给恰当的人,使他们能做出最好的决策。 图3 2 描述了信息推送功能推送的处理过程。各种类型和来源的专 利信息按照信息库中建立模型存储,并从信息库内容中提取出能够描述 专利信息的特征词,在用户登录后,信息库中内的专利信息开始同确定 专利信息检索系统的推送与数据挖掘应用研究第三章信息推送功能的设计与实现 的信息逐个匹配,匹配成功的专利信息存放在推送表中,在用户需要的 时候即可以推送给用户。 信息存储模型 图3 2 推送过程 3 2 1 专利信息表的结构和存储 q

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论