已阅读5页,还剩44页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 麓着w o b 应用的快速发震,w ef 数据掩攒正成为数据挖掘静燕点之。穰 据w o b 挖掘的目的和数据对象的不同,w :f 数据挖掘可以分为v ? r 、内容挖捌、 诲o b 结擒挖掇、谢e b 蠲户访阚信惠拣撼。冉o h 用户访闻瑟志数据掩糕裁是利 用数据挖掘的技术挖搠分析用户访问留下的同志文件,挖掘用户访问模式,为网 站经蘩管瑾鞍结褐诿熬提谈决壤支持:为金蜚发现巍市场税会,进行露场决繁: 提高通过网站施行的营销效果,以及为企业逃彳亍战略决策提供有价值的潜在的信 患。 数据仓库是一个丽向主题的、集成的、相对稳定的、反映历史变化的数据集 台,矮子支持鸷理决策。数据仓库系绞主要包摇数摄溺、数据仓痒、o l a p 鼹务、 前端工具等组成部分。数据仓库的设计模式有崖型模式和雪花模式,设计步骤有 摄念模型设计、逻辑模型设诗、物理模型设计、数据仓痒生成、数据仓库运行鞠 维护等。 数据挖掘中豹序列模式挖掘是数据挖掘的一个重要方向,本文给出了序列模 式挖掘的主要算法,并在p r e f i x s p a n 算法的纂础上提出改避,实现中通过减少 投影数据库的数量对该算法进行了优化,通过艏矩鼯的构造,媚频繁2 一芋列的 投影代替频繁1 序捌的投影,减少了投影数耀瘁韵鼗篷,间辩剜嗣了a p r i o r 性 质对投影数据庠剪枝,进一步减小了投影数撼库的大小,对算法进行了优化。最 后对该算法避行了分析并给獭实验数据。 对w e bl o g 进行数据预处理,得到序列模式挖掘所霈的序列模式数据库, 建立骚墼豹数据仓瘁并遗行了o l a p 分裁。最瑶对穿别数据痒送行了痔朝模式挖 掘,并对挖掘的结果j 艘行了分析。 关键词:数据挖掘数据仓库序列模式控撅w e b 挖掘 a b s t r a c t w e bd a t am i n i n g ,i n c l u d i n gw e bs t r u c t u r em i n i n g ,w e bc o n t e n tm i n i n ga n dw e b u s a g em i n i n g ,i sai m p o r tr e s e a r c hf i e l do fd a t am i n i n g t h ew e b u s a g em i n i n gg e t s t h ew e bu s e ra c c e s sp a t t e r n sb ya n a l y z i n gt h ea c c e s si n f o r m a t i o nr e c o r d e db yt h e c l i e n tt h ep r o x ya n dt h ew e bs e r v e r t h er e s u l to fw e bu s a g em i n i n gc a l lb eu s e dt o r e f o r mt h es t r u c t u r eo ft h ew e bs i t e ,f a c i l i t a t eu s e r s b r o w s i n ga n dh e l pt oc o n f i gt h e w e bs e r v e r sr e s o u r c e d a t aw a r e h o u s ei saf o r m o fd a t ad e c i s i o n ,w h i c hi ss u b j e c t e d - o r i e n t e d i n t e g r a t e d s t a b l e a n dt i m ev a r i a n tc o l l e c t i o no fd a t ai ns u p p o r to fm a n a g e m e n t d e c i s i o n w ea n a l y s i st h ec o n c e p t ,s t r u c t u r e d e s i g nm o d e la n dd e s i g nm e t h o d so l 、 d a t aw a r e h o u s ei nt h i sp a p e r s e q u e n t i a lp a t t e r nm i n i n gi si m p o r t f i e l do fd a t am i n i n g i nt h i sp a p e rw e i n t r o d u c et h em a i ns e q u e n t i a lp a t t e r nm i n i n ga l g o r i t h ma n dg i v eai m p o v e dp r e e f i x s p a na l g o r i t h m w eu s eaf a c tc o n s t e l l a t i o ns c h e m at oe s t a b l i s had a t aw a r e h o u s ea n dt h e nt o a p p l yo l a po ni t f i n a l l yw ei m p l e m e n tt h es e q u e n t i a lp a t t e r nm i n i n ga l g o r i t h mo n t h ed a t aw a r e h o u s ea n da n a l y s i st h ed a t am i n i n gr e s u l t s k e yw o r d s :d a t am i n i n g ,d a t aw a r e h o u s e ,s e q u e n t i a lp a t t e r nm i n i n g - w e b m i n i n g 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得鑫鲞盘鲎或其他教育机构的学位或证 书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 学位论文作者签名:裁私汽 签字日期:册? 月) 。同 学位论文版权使用授权书 本学位论文作者完全了解叁凄态鲎有关保留、使用学位论文的规定。 特授权墨壅盘茎可以将学位论文的全部或部分内容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校 向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权晚明) 学位论文作者签名:和敬骞 导师签名 擎秀竣 签字日期:、孵2 月w 日签字日期:彬年 2 月1 一日 天津大学硕士学位论文第一章蘸著 第一章前言 近十几年,随着科学技术飞速的发展,经济和社会都取得了极大的进步, 与此同时,在各个领域产生了大赞的数据,壹霹人类对太空的探索,银行每天的 巨额交易数据。显然在这些数据中丰富的信息,如何姣理这些数据得到有益的 信息,人们进行了有益的探索。计算机技术的迅速发展使得处理数据成为可能, 这就推动了数据库技术的极大发展,但是面对不断增加如潮水般的数据,人们 不再满足于数据露的查询功能,提出了深层次翊题:能不熊从数据中提取信息 或者知识为决策服务。就数据库技术而言已经显得无能为力了,同样,传统的 统计技术也面临了极大的挑战。这就急需有新的方法柬处理这些海量般的数豁。 予是,人们结合统计学、数据库、机器学习等技术,提出数据挖掘来解决这一一j 难题。 1 1 数据挖掘 1 1 1 数据挖掘概述 随羞数摅库技术的不断发展及数据库管理系统的广泛应用,数据库中存储的 数据量急剧增大,在大量的数据背后隐藏着许多熏要的信息,如果能把这些信息 从数据库中描取出来,将为公司创造很多潜在的利润,而这平孛从海量数据库中挖 掇信息的技术,就称之为数据挖掘。数据挖掘工具能够对将来的趋势和行为进行 预测,从而很好地支持人们的决策,比如,经过对公司整个数据库系统的分析, 数据挖掘工具可以回答诸如“哪个客户对我们公司的邮件接销活渤最有可能作 出反应,为骨么”等类似的问题。有些数据挖掘工具还髓够解决些很消耗人工 时间的传统问题,因为它们能够快速地浏览整个数据库,找出一些专家们不舄察 觉的极有用的信息。 数据挖掘技术是人们长期对数据库技术进行研究和开发的结柴。起初各种商 鼗数据是存储在计算机的数据瘁中的,然后发展到可对数摆痒遴行褒询和访问, 进而发展到对数据库的即时遍历。数据挖掘使数据库技术进入了个更高级的阶 段,它不仅能对过去的数据进行奄询和遍历,并且能够找出过去数据之阊的潜在 联系,从_ 嚣促进倍怠的传递。现在数据挖掘技术在赛韭应用中已经可以马上投入 使用,因为对这种技术进行支持的三种基础技术已经发展成熟,他们是:海量数 天津大学硕士学位论文第一章前菏 掘搜集、强大的多处理器计算机、数据挖掘算法。商业数据库现在正在以一个空 前的速度增长,并且数据仓库歪在广泛她应用于各种行业;对计算机硬件性能越 来趣离的要求,瞧可以月现在融经成熟的并行多处理机的技术来满足;另外数攒 挖掘算法经过了这”多年的发展也已经成为一种成熟,稳定,且易于理解和操 作的技术。觚商业鼗据掰商业信怠酶遗化过程中,每一步蘸逡酃是建立在上一步 的基础上的。见下表。表中我们可以褥到,第麟步进化是革命性的,因为从用户 静角度来看,这一阶段的数据库技术穗经可以绦速建阏答商鼗上的狠多阚题y 。 数据挖掘的核心模块技术历经了数十年的发展,其中包括数瑕统计、人工智能、 = | 莛器学习。今天,这黧成熟鹣缝零,麓上离毪筑戆关系数器瘴雩| 擎以及广泛懿数 据集成,让数擐挖掘技术在当前的数据仓库环境中进入了实用的阶段。 1 1 2 数据挖糖应带凌状 数据挖掇掰要楚璇瓣藏露,载是在庞大鹣数摆瘁中我基露份夔豹稳藏事 譬, 并且加以分析,获取有意义的信息,归纳出肖用的结构,作为企业进行决策的依 舞。箕应震 鬻广泛,只要该产娃毒分孝厅价毽与蒜袁豹数据瘴,辫霹剥髑粥”l | | - j 工具进行有目的的发掘分析。常见的, 藏用案例多发生柱零售! 眦、制造业、财务会 融像狳、通谖及医疗服务: f11 商从顾客购买商晶中发现一定的关系,撼供打折购物券等,提高销售颧。 f 2j 绦殓公司通过数摄挖掘建立预测模型,辨翱出可能豹欺诈行为,避免道德 风险,减少成本,提商利润。 j 在囊造业中,半导体的生产和测 式中都产生大爨的数据,就必须对这些数 据进行分析,找出存程的问题提高簸量。 f ,7 ) 电子商务的作用越来越大,可以用数据挖掘对网站进行分析,识别用户的 行为模式, 菜聱客户,提供个毪纯舔务,侥纯黼站设计。 一些公司运用数据挖掘的成功案例,鼹示了数据挖掘的强大生命力:美国 a u t o t r a d e r c o r n 蓬毽群上对大豹汽车镳售站点,每天都会鸯大鼙翡溺户对网站上 的信息点击,寻求信息,其运用了s a s 软件进行数搬挖掘,每天对数据进行分 聿厅,我密蠲户靛访闰模式,对产品麓枣欢程躞邂学劐躲,莠设特定溅务娶,敬褥 了成功。 1 1 3 数据挖掘中存在的溺惩 尽管教攒挖掇有麴蓝多静优点,蜒数蠢挖箍毽舔舔蔫诲多豹竭趣,这氇为数 据挖掘的未濑的发展提供了殿犬的空间。 天津大学硕士学位论文 第一章前备 掘搜集、强大的多处理器计算机、数据挖掘算法。商业数据库现在正在以一个空 前的速度增长,并且数据仓库f 在广泛地应用于各种行业;对计算机硬件性能越 来越高的要求,也可以用现在已经成熟的并行多处理机的技术来满足;另外数据 挖掘算法经过了这1 ,多年的发展也已经成为一种成熟,稳定,且易于理解和操 作的技术。从商业数据到商业信息的进化过程中,每一步前进都是建立在土一步 的基础上的。见下表。表中我们可以看到,第四步进化是革命性的,因为从用户 的角度来看,这一阶段的数据库技术已经可咀快速地同答商业上的很多问题j 。 数据挖掘的核心模块技术历经了数十年的发展,其中包括数理统计、人工智能、 机器学习。今天这些成熟的技术,加上高性能的关系数据库引擎以及广泛的数 据集成,让数据挖掘技术在当前的数据仓庠环境中进入了实用的阶段。 1 1 2 数据挖摄应用现状 数据挖掘所要处理的问题,就是在庞大的数据库中找出有价值的隐麟事件, 并且加以分析,获取有意义的信息,归纳出有用的结构,作为企业进行决策的依 摒。其应用非常广泛只要该产业有分析价值与需求的数据库,皆可利用m 7 “ 工具进行有目的的发掘分析。常见的应用案例多发生在零售业、制造业、财务金 融保险、通讯及医疗服务: 商从顾客购买商品中发现一定的关系,提供打折赌物券等,提高销售额。 c 2 j 傈险公司通过数据挖掘建立预测模型,辨别出可能的欺诈行为,避免道德 风险,减少成本,提高利润。 二j 在制造业中,半导体的生产和测试中都产生大量的数据,就必须列这些数 据进行分析,找出存在的问题。提高质量; f7 ) 电子商务的作用越来越大,可以用数据挖掘对网站进行分析,识别用户的 行为模式,保留客户,提供个性化服务,优化网站设计。 一砦公司运用数据挖掘的成功案例,显示了数据挖掘的强大生命力:蓑围 a u t o t r a d e r c o r n 是世界上对大的汽车销售站点,每天都会有大量的用户对网站上 的信息点击,寻求信息,其运用了s a s 软件进行数据挖掘,每天对数据进行分 析,找出用户的访问模式对产品的喜欢程度进行判断,并设特定服务娶,取得 了成功。 1 1 3 数据挖掘中存在的问题 尽管数据挖掘有如此多的优点,但数据挖掘也面临着许多的问题,这电为数 据挖掘的未来的发展提供了更大的空间。 据挖掘的未来的发展提供了更大的空问。 天津火学硕士学位论文 第一童前裔 i 数据挖掘的接本问禳就在于数据的数羹和维数,数搦结构也闲此爨的非常复 杂,如何进行探索,选择分孵变量,也就成为蔼先要解决的问题。 2 面对如此大瓣数据+ 现有的统计方法等都邋到了问题,我们蠢绩的憋法藏避对 数掘进行抽样,那么怎么抽样,抽取多大的样本,又怎样评价抽样的效粜,这些 舔是谯得研究的难题。 3 。既然数掘是海量的,那么数攒中就会隐含定的变化趋势,在数据挖掘q 电艘 对这个趋势徽艨有静考虑郛评价。 4 ,各种不威的摸型如何应用,其效果如伺评价。不嗣的人列阔样的数据进行挖掘, 可麓产釜不嗣豁结巢,蒺至菱髯攮太,这藏涉及蚕爵露性兹鹚邋。 s 当前互联网的发展遇速,如何进行甄联网的数据挖掀。还有文本等非标准数掘 涎挖撼,都弓 遐了极大豹兴趣。 6 数据挖掘涉及到数榭也就碰到了数据的私有性和安全性。 7 ,数挺挖摄熬结果蔗不确定懿,要窝专业霸谈相缝台鼋能对葵辙幽判燧。 总之,数据挖掘只是一个:亡具,不是万能的,它可以发现一些潜在的用户, 但是不会毒爨你为赞么,也不能壤涯这些潜在鹣矮户成为域实。数掇挖撼姻成功 要求对期望解决问题的领域有深刻的了解,理解数据,了解其过程+ 一1 能对数据 挖掘豹结果找如台理的鼹群。铡如曾缝用数据挞掘钱出媳啤潮葶u 尿布的铡予,如 何去解释这种现象,燕应该将阿蕾放在。越还怒分开销售,这还需要对消赞心理 学有联研究力能傲如决定,丽“吓是数攒挖掘能力所及驰了。 1 2 数据仓库和o l a p 数据仓瘁之父w h l v u l 3 0 n 是这样对数据仓库定义的:数搬仓瘁是卟翻阳 :誊题婚、集成的、不可爱新酾瞳随时阔不断变化瓣数舔集台,用来支持管理氏受 的决镱。数据仓库的应用目的烂狭策支持,这从根本上使它区_ ;j l j 于事务性数搞蹲。 数据仓库透过对多个都门酶多葶孛数据源斡数攥进行藤液,为决篆丸员建立垒越z 睡 的数据基础。数据仓库也用于单个部门的局部性的决策,我们称这样的数据奄庠 为数掰集f 器。 多维数据模型是翳莳数据仓库的主要存储羊订表示方式之。0 l a p 技术就怒 建立在多臻数攥模鍪上豹一种数蘩1 分辑技术,遗过凝转、切块、切冀、下锻、 二 卷等方法从多羊l l 角度。多种抽象层次来显示和分析数据。o l a p 的分析结聚刚可 以 睾为决策人爨弱参考,也瑚疆传为避一爹遴行数掘挖掘二 俸鹱鬟要的数拶集 合。 天津大学硕士学位论文 帮一章前言 1 3w e b 用舟访问情患数瓣挖掘 随着w e o 应用的快速发展,w e b 数据挖掘正成为数据挖掘的热点之一,根 据w e b 挖掘的目的和数据对象的不同,w ? b 数据挖掇可以分为w e o 内容挖掘、 w e b 结构挖獭、w e b 用户访闷信息挖掘。研究人们从w c b 上获取信怠的模式、 获取信息的类型,从两可以得到用户兴趣偏好等方面的信息,以客户为中心已经 成为新的经营理念之,鼠霹卷中提取模式,隘便掌攮用户习惯,这不仅可阻指 导企业发掘潜在客户、潜在需嫩,也方便用户制定战昭决策。w ? o 尉户访问日 志研究也将袋为采来务互联阐企鼗决膝千里的翻器之。搿o b 庸户谤闯嗣恚数 据挖撼就是利用数据挖掘的技术挖掘分析用户访问留下的r 志文件,挖掘用户访 阉模式,为璃撼经营繁毽霸臻誊弩调整掇馔决策支持;为金建发瑷薪市场梳会,进 行市场决策;提高通道网站施行的营销效果,以及为企业进行战略决策提供有价 毽戆瀵在熬爨怠。 醋前对w eb 日志进行数据挖掘的方法主要有分类、聚类、时间序列模式挖 掇、黟萎l 摸式挖撼、关联援魁等。奉文主要使羯亭刭模式携撼葵法对w e i 、舅恚 进行分析。 1 4 论文构成 本文主要讲述了序列模式挖掘算法及其程w e b 用户访问数据挖掘中的应用。 在第二章中我们讲述了数据会瘁的概念积撩关数理论,介绍了数撼仓麟的设计模 式和设计方法,第三章对序列模式挖搦算法进行了分析,介绍了相关的概念,主 要的序列模式挖掘算法及其挽缺点,始在已肖的算法糖础上进行了改进,进行了 相关的实验,第四章讲述了w e bl o g 数据挖掘,主嚣包括数据预处理,数据仓 库的建立,用第三章所述的算法对w e bl o g 进行序列模式挖掘,并对数据揽掘 的络鬃进行了分析和探讨。论文的最爝给港了工作静总结和震鏊。 天津大学硕士学位论文 第二鞲数据仓库 2 1 数据仓库概念 第二章数据仓库 对数据仓霹一词定义,著名的数据仓库专家w 卜1 在其蕾作 冰;一;n ? t h e o 汩w o t o 。s o 一书中绘予热下描述:数援仓痒( 。 。、 w o o h 。l s o ) 是一个顽向主题的( 曩小l ? 二4 ? e 1 7 、e ,1 ) 、集成的( v 。,】s = a 档对稳定的( n o nv o l o 矧e ) 、反漱历史变纯( 一”? _ r k ri ) 螅数攘鬃 合,用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理解,首 先,数握仓库鳎于支持决策,骶肉分轿型数搬处理,它不同予企业现有的操作型 数据席;其次,数据仓库是对多个异构的数据源有效鬃成,集成后按照主题避行 了重缎,并包禽历史数据,丽且存放在数据仓库中的数据一般不再修改。根据数 据仓霹概念的含义,数据仓麾拥有以1 f 四个特点: j 磷向主题 撩作型数据库的数据组织瑟向事务处理强务,各个韭务系统之闯番蠡分离。 这使得从决策应用方嘲考虑是非常不方便的,丽数据仓库中的数据是按照一。定的 主题鼗进行缀缀。主熬是一个箍象的獠念,是摇雳户经瑗数掇仓库速行决策时所 关心的重点方面,是在较高层次上将企业信息系统中的数据避行综合、分类并进 行分辑翻臻的撞象,令主磁透露与多令绦幸譬翟薅怠鬟绕相关。 翻前,数据仓库的实现主要是基于关系数据库,每个:蔓题由一组关系表或逻 辑程塑实瑷。这些表帮援图的遗容与缀寒各个运行系缝数据滋蕊数獯本质土是 致的,但为了方便支姆分析数据处理,对数据结构进行了重组,其中还可能会增 加一一臻数据冗余。 2 集成的 藤囱事努处理的攥终型数糕痒通常与莱麴特定的应用相关,数掘库之间辋互 独立,并且往往是异构的。而数据仓席中的数据是在对原有分散的数攒库数据抽 取、清理的纂础上经过系统加工、挺总和整理得到的,必须消除源数据中的不 致健,以保 正数据仓库内的傣患是关于整拿企业的一致的全局信息。数据转换和 数据净化是数据集成过程中的重要步骤,通过这个步骤把来自不同操作型环境的 数据转换成统一的格式,溃除数据不致现铱,胰输入流中去除错误。 j ,桐对稳定的 天津大学硕士学位论文第二章数据仓库 操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓 库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某 个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有 太最的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。 z 反映历史变化 操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通 常包古历史信息,系统记录了企业肌过去某一时点如开始应用数据仓库的时点 到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做 出定量分析和预测。数据仓库中的数据随时司变化而定期地被更新,每隔一段阎 定的时间间隔后,运作数据库系统中产生的数据被抽取、转换以后集成到麴据仓 库中,而数据的过去版本仍被保留在数据仓库中如同定期摄影术,每隔周、 一月或适当的间隔就照一张像:随着时间的变化,数据以更高的综合层次被不断 综合以适应趋势分析的要求:当数据超过数据仓库的存储期限,或对分析不在 有用时,这些数据将从数据仓库中删去。 关于数据仓库的结构信息、维护信息 被保存在数据仓库的元数据中,数据仓库维护工作由系统根据元数据中的定义自 动进行,或由系统管理员定期维护,用户不必关心数据仓库如伺被更新的细节。 2 2 数据仓库体系结构 整个数据仓库系统是一个包含四个层次的体系结构,主要出数据源、数掘仓 库、? l a i ,、分析和表示工具以及必要的传输和纂础结构组成。数据仓库系统的 核心是数据仓库,通过:一- ln f 、前端工具等完成对信息的提取,满足决策的需要。 具体出图2 表示: 图21 数据仓库体系结构 天津大学硕士学位论文第二二章数据仓库 j 数据源 是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和 外部信息。内部信息包括存放于r o bm s 中的各种业务处理数据和各类文档数 据。外部信息包括各类法律法规、市场信息和竞争对手的信息等等。 2 数据的存储与管理 是整个数据仓库系统的核心。数据仓库的真正关键是数据的存储和管理。数 据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据 的表现形式。要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据 仓库的技术特点着手分析。针对现有各业务系统的数掘,进行抽取、清理,并有 效集成,按照主题进行组织。 j 数据集市 数据集市是为了满足特定的数据需求而创建的数据仓库,可以看作是全局数 据仓库的一一个子集,是对部门级的应用而建立的数据仓库。 i t j ,l p 殿务器 对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、 多层次的分析。并发现趋势。其具体实现可以分为:f - i 一,p 、m :、二a 。7 和“弹。 彤) i a p 基本数据和聚合数据均存放在m i1 一m j 之中;mr 、_ n p 基本数据和聚合 数据均存放于多维数据库中;一0 l o 基本数据存放于l im ! ,之中,聚合数 据存放于多维数据库中。其目的是通过提供给用户从多种角度快速、稳定、交互 地存取数据,以便深入观察数据。用于分析处理的数据不论是综合形式还是细节 形式,都是历史数据。0l i 一、的功能结构由数据存储服务、i f 应用服务、【! i 户描述服务组成的三层客户服务器结构,复杂的应用逻辑集中存放在应用服务 器上,由服务器提供高效的数据存储,安排后台处理及报袭的预处理。:l _ 服 务器设计的重点在于如何组织数据仓库种的综合数据,如何满足前端用户的多维 分析。 5 前端工具 主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种 基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要针对- 一 服务器,报表工具、数据挖掘工具主要针对数据仓库。 f = :传输和基础结构 数据仓库传输曾使用刷新和复制技术,数据传送网络及中间件等构件盔 软件平台间架起必要的桥梁。刷新迂腐之技术包括传播和复制系统,数据库网关 内定义的复制工具,数据仓库指定的产品。数据传输网络包括网络协议、网络管 理架构、网络操作系统等。 天津大学硕士学位论文 第二鼯数据仓障 2 3 数据仓库设计 2 3 1 数据仓库设计糠卿 l 瑟囱主题器簧 l 枸建数据仓库面向的是企业的管溅人员,维经营镎理提供决策支特信息,因 我数据仓痒戆缀织设计蓥矮墩爆户凌繁翡纛要寒确定,鞠以弱户浃繁瓣主建嚣求 确定设计目标。 2 原羹法蒙别 数据仓库的原始需求不明确,且不断变化与增加,开发者最初并不能确切了 解到煺户明确葱详细的嚣求,因此采髑缀型法寒进行数据仓瘁的开发楚比较会适 的,即从构建系统的蕊本框絮入手,币断丰富完善整个系统。数据仓胆的设计耀 个逐步求精的过程,瘸户的霰墩是在设计过程中不断纲化明确的。 3 数攒驱动源姗 幽于数据仓库是农现存数据库系统基础上进行开发,它羲跟于有效地提墩、 综合、集成已肖的数獬库资源,服务于企业凌策的需凄。 2 。3 。2 数鬟仓库设计摸式 1 事实、维和粒度 攀实( f a c t s ) 是分辑的露标数据,赫销蒋额,镑蒋整,库存囊,应收襁款簿, 这些数据都悬操作型数据库日常工作的积累,数据量庞大。 缎( d i m e n s i o n s ) 是事实糖关静鹈佳,弼销售发生翡跨阍,部门,客户,俺 种产晶,规格等。它感人们观察事务的角度,是一种黼层次的类型划分,一般维 熬内容交诧不太,数爨逢较少。维夔嘏念摇宽了辑究熬领蠛,麓露提供了一静洋 细定义对象间关系的方法。 事实巍维之趣豹关系翼鸯翅下特点: 事实的相必和独立 不翅的事实具鸯糍关窝独立魏关裘,对应予摆同镶懿事实稼疆相关翡事实, 否则就是相互独立的。相互独立的事实应分作不同的豢实表,而相关的事实应放 在网一个事实激中。懿销售繁鞫销售额两王耍事实,对墩于楣网懿维( 姻爨期、霉 户、商品等) ,所以两者是相必的,庞该放在阍一个攀实表中。相互独立的事实 就不能救在冠一个表中,如锬售量和疼存基,它搬分嬲对瘦不同的缝。 潦实和维的转化 枣实和维也不是一成不变的,有时会根据决策者不同豹恩考角度丽发生相互 天津大学硕士学髓论文 第二章数据仓库 转化。例如同样是某时期的销售:考察每天的销售量( 表2 2 ) ,显然销售量作 为我们考察的对象是事实,而鞠期是销售量的禳性,是维。考黎销售s o 革位所 用的天数( 表2 3 ) ,天数是我们的考察对象,怒事实,简销售爨是天数的耩健怒 维。 表2 1 客户销售鼙辩销售额 网期霹户销售量销售额 2 0 0 0 ,0 1 1 0客户a2 02 3 0 2 0 0 0 0 1 1 0客户b1 51 8 0 2 0 0 0 0 1 1l客户c2 01 9 0 2 0 0 0 ,0 1 1 1客户a3 03 5 0 2 0 0 0 0 1 。1 2 客户豁 2 53 0 0 2 0 0 0 + 0 1 1 2客户c3 03 7 0 袭2 2 每天销倦赞 霞期链鬻羹 2 0 0 0 0 1 1 02 0 2 臻o o - 0 | | o1 5 2 0 0 0 0 1 1 12 0 2 0 0 0 0 1 1 l3 0 2 0 0 0 0 1 1 22 5 2 0 0 0 0 1 1 23 0 表2 3 销售5 0 单傻的天数 销侮避天数 5 03 5 0 2 5 0l 为了有效地建立模型,逐骧引入粒度地概念。粒鹰是维划分的单位,如时间 维可懿按露、按月、按年疑分为不同静较度,产品可以按援格、壅号簿翔分为不 同的粒度。粒廑反映数据仓库中数据综合程度的高低,既影响数据量的多少,也 影响数据仓簿能西答懿淹题的类垄。粒度越夺羽缀节数据越多,数摆仓库酶数据 量越大,能回答的问题就越多。 黎可以獠淹鳖标辘,妇鹜2 2 所承,圈中每个坐标聿鏖代表一令维。分裂爨: 天律大学硕士学蛾论文 第二章数据仓库 产品、客户和时间,坐标轴的单位就遐粒度,时问维的粒度是天,客户维的粒艘 是地区,产品缎的粒度是货号。事实就是三个维所确定的一个点,如浆同某地区 某商品的销售爨。可觅,事实麓丽一定的维及粒度相关的。维藕事实共同组成 个事实立方体,决策者的查询就是对事实立方体按寇的粒度切块、旋转、组合 的过稷。 圈2 _ 2 事安、缝鞠藏度 袭弓l 入事实、壤羁粒废这凡令摄念矮裁霹戳弱星型模式、霉蕊模式簸混螽模 式简历事实袭和维表,形成数据立方体,作为数据挖掘和o i 。a p 查询的基础。 2 设计模式 在数据库设计中,通常用e r 模烈米表示实体之闻的联系。在设计数据仓库 辩,我们使蠲攫受模式、雪蕊模式和滋台摸式来表示褰实、缎鄹粒菠躺关系。 盛型模式 图2 3 星型横式 天津火学硕士学位论文 第二囊数据仓库 璺型模式是指数据模型中实体关系可以表示为由单的中心对象沿半径向 舞链接列多个成员对象的模式( 图2 3 ) 。中心对象就是事实表,跫用户查询活动 的中心所在,事实表包禽用于分析的测量值( m e a s u r e ) 和连接维表的外键。四 周为维表( 如时闽、客户等) ,每个维液有自己的满髋,但对每个维来说,至少 有个表用来保存该维的元数据,即维的描述信患,包括维的屡次及成员类别等。 事实衰是通过每个维的键码和维表联系在一起的。般来说,通过把事实表和每 个维表联系起来,经过一次查询,就可以从给出度壤及各维标记的事实表中选取 事实。该方式使用户及分析人员可以鼹赢业名词来描述个需求,该篙求被重新 懿译残每一个维的代码或傻。 雪花模式 雪花模式是对疆型模式的扩展,它将星型模式豹维表避步规范化,侵其每 一个点都潜半径向外连接到多个点( 溪2 4 ) ,体现了维的不同粒度的划分。对于 层次复杂的维,用一张维表来表示会莆来数据冗余,这种情况下可以用多张表来 表示一个维,这样就产生了雪花模式。比如产品表可以迸一。步划分维类鬻表、颜 色表等。 圈2 4 零花模式 混合模式 混合模式是指数据仓库模型混合使用壤壁模式和雪花模式,其中星型模式由 事实袭和非规范化的维轰组成,雪花模式的联有维表都进行了趣范化。在这静模 式下,只有最大的表才进 子援范化,这些袭般包含- - y u 猁完全规范化的数掘。 天津大学硕士学位论文 第二颦数据仓库 3e ,r 模式刘星型模式的转换 考虑图2 5 中豹实体联系魁,把这张蜀转换为多维模型。其中事史就是商品 的销蒋,它可以有三个维:产晶维、地点维和时间维。产品缎包括部门、产品和 产品大类,地点维包括地区和商店,时间为包括年、月、周和国。因为我们只注 重销俺事实所以忽略了存货。这样建立的多维模型鲡黼2 6 。 图2 5 实体联系图 在多维模型中,熨体与维之间已经建立了映射关系。属于个以匕维的实体 羲残为事实,然磊罔炎溪维关键字穗它转换烫星型模式,秘瀚2 ;7 。撼瘩事实袭 旧| 卜| 年4 1 | 啐协苦tl 制 t i l 周i 旧l 一阳 i 1 ,- | 铺售事窭 j 图z 6 e r 图向多维模型豹转换 一1 2 天津大学硕士学位论文第二章数据仓阵 显示了三个列的关键字,代表从每张维表中得到的单列关键字拼接在一起。 时间 t i m ek e y t 1 m ed e s c d a t e w e e ki d m o n t hi d 销售事实 t i m ek e y l o ck e y p r o dk e y s a l ea m t s a l el ,n i t s 2 3 3 数据仓库的数据模型 图2 7 星型模式 地点 l o ck e y l o cd e s c r e g l o ni d s r o r el d i e v e li d 产品 p r o dk e y p r o dd e s c d e p ti d p r o dg r p1 d p r o d1 t e ml d l e v e li d 所谓数据模型,就是对现实世界的抽象,抽象的层次不同就形成了不同层次 j 二的数据模型。数据仓库同传统的操作型数据库类似,也存在三级数据模型,即 概念模型、逻辑模型和物理模型。 1 概念模型 概念模型是客观世界到机器世界的一个中间层次,人们首先将现实世界抽象 为信息世界,然后将信息世界转化为机器世界,在信息世界所采用的信息结构被 称为概念模型。 概念模型最常用的表示法是e r 法,e r 法具有良好的可操作型,便于与用 户交流,描述能力强。由于现在的数据仓库一般建立在关系数据库之上,因此采 用e r 法作为数据仓库的概念模型较为合适。 2 逻辑模型 由于数据仓库一般建立在关系数据库的基础之上,因此,数据仓库的设计中 所采用的逻辑模型就是关系模型,无论是主题还是主题之间的联系都用关系来表 天津大学硕士学位论文 第二章数据仓库 不。 数撼仓霹的逻辑模型描述了数据仓库的主题的逻辑实现,每个主题所对应的关系表舵 关系禳式的定义。这个阶段需要考虑的问鼷有: 粒度划分:数据仓膳中数据单元的详细程发和级别。数据越详细,粒度越小 缀涮就越低,数攘综合度邀商,粒度越大缀剐就趱嵩。 数据分割:把逻辑上是统一整体的数据分割成较小的、司以独立镣理的数据 单元进行稃罐,爨便与重鞫、重缀辩恢复,提高剖建索雩l 帮顺序掴播的效率。 表的物理分割;将个表的数据进行物理分割。可以根据簿个主题中的各个 褥链懿存敬频率帮稳定瞧瓣不霜采进荦亍表豹物理分割。 台并表:猩一些常见的分析处理操作中,可能需要执行多个表的连接。为了 节省i o 开镇,霹以恕这黧表混合耧放在一起,以洚低表逡接戆撩俸躲 弋 岔, 撬商数据仓库的性能。 建立数攥黟列:按照鼗摄敬她理鬏痔灞整数据戆存救位鬟。 引入冗余:通过修改关系模式把装些属性复制到多个不同的主题淡中,以提 惠数据仓瘴豹性黢。 3 物瑷模型 物理摸型是逻辑摸型在数攒仓库巾鲍实现,如物理存取方式、数据存储结构、 数据存放位饕以及存储分配等,需要考虑的主要问题育:i o 存取时间、空间利 用率、维护代价以及些常用的提高数据仓库性能的技术。 4 设计步骤 数据仓库的设计怒一个循环往复的过程,可以分为:概念模型设计、逻辑模 型设计、物瑗模奎设计、数据仓库生成、数攒仓库运行稚维护几个步骤。 2 4 本章小缝 本章对数据仓库的概念、体系结构、数据仓库的设计进行了分析。 数据食瘁蹩一令鬻蠢主熬黪、集戏静、籀辩稳定麴、爰浚历史交 七茨鼗餐嶷 合,用于支持管理决策。数据仓库系统主要包括数据源、数据仓库、o l a p 服务、 蓊溃工具等鳃藏帮分。鼗据仓瘁静竣诗模式蠢蓬墼模式霰雪兹模式,设诗步骤青 概念模型设计、逻辑模型设计、物理模型设计、数据仓库生成、数据仓库运行和 维护镣。 天津大学硕士学忧论文帮三章序列模式挖椭 第三章序猢模式挖舔 随潜数据库技术的不断发展及数掇库管理累统的广泛应用,数据库中存储的 数据爨急尉增大,在大整麴数掇鸷爱隐藏蔫诲多重要的信惠,妊果麓把这些信息 从数据库中抽取出来,将为公司创造很多潜在的利润,而这种从海量数据库中挖 掘售惑豹菝术,藏稼之必数摄控撼。 数据挖掘工具能睇对将来的趋势和行为进行预测,从而很好地支持人们的决 策,比如,经过对公司整个数据库系统的分寿厅,数掘撼掘工具可以回答诸如“哪 个客户对我们公司的邮件推销活动最有可能作出反应,为什么”等类似的问题。 有些数据挖撼王具还g 够解决一一些缀消耗人工时间的传统闯题,因为它们能够快 速地测览整个数据库,找出一魑专家们不易察觉的掇有用的饼怠。 3 1 数据挖掘 3 1 1 数据挖掘溉念 数据控掇楚麸数攒仓痒中提取出可售弱、麟鞭的、贫效兹并巍被入理解麴嫫 式的商级处理过程。所谓模式,可以祷作是我们所说的知识,它给出了数据的特 犍或数攥之间的关系,是对数爨包含的信息懿更撼象的描述,模式可以弼图形, 文字袋达式等方式表示。所谓处理过稳是指一个多步骤的对大艟信息避行分析盼 过程,包括数据颈处联、模式提取及知识优化等。知识提取往往需要经过多次的 反复,通过对相关数据的爵处理及知t 鞋学习算法的优化,不断提高学习效率。所 谓可信、薪颖翱具有潜在作用是指数据挖掘从当前数攒仓库所发现的模式必须育 一定的正确程度和新颖性,否则数据挖掘就爨无作鹰。虽然鼢识发现可以对已有 的知识进行验证,但发现新的知识往往更重要,或者对已有的知识进行拓展以褥 蜀更全面、更其有实醚意义的知识。笈璐的知识必颓经过实筏的撩验并通避再耍 际应用中发现的问题对学习数据和策略进行修改,重新进行学习从而得到更精确 酶知谈。 3 。l 。2 数器挖掘系统握桨 数据挖掘系统中主要的输入是数抛仓库的数据、分析指导员的指导,以及存 天滓大学硕士学位论文第三章序列模式挖掘 储在数据挖掘系统知识库中的知识和经验。从数据仓库中选择的数据在知识发现 引擎里处理,引擎里提供了大量的抽取算法,以便生成辅助的模式和关系。下面 是各个模块的功能: 图3 1 数据挖掘系统 数据挖掘系统管理器知识发现管理器控制并管理知识发现过程。分析 员的输入和知识库中的信息,用于驱动下面三个过程:数据选择过程、 抽取算法的选择和使用过程、发现的评价过程。系统管理器帮助生成发 现结果的描述,并将发现结果存于知识库中以备下一次的知识发现。 知识库和分析员的输入知识库源于多方面的必须信息。分析员可以将 元数据输入数据仓库中来描述数据仓库的数据结构。此外,分析员还要 在知识库中输入其他相关的数据知识,如数据的关键字段、需求规则、 数据层次等,以便按一种有效的方式指导信息发现,减少可能丢失的有 用的模式和关系。分析员还要作出权衡,存储新的发现结果,提高知识 发现的能力。 数据仓库的数据库接口数据挖掘系统利用数据库的查询机制从数据仓 库中抽取数据,使用s q l 查询语言。知识库中的数据仓库元数据知道数 据库接口正确组织数据结构并正确组织数据结构在数据仓库中的存储 方式。 数据选择确定从数据仓库中需要抽取的数据及数据结构。知识库指导 数据选择构件选择要抽取的数据及抽取的方式。如果只需要示例数据, 数据结构选择构建必须有能力选择恰当的髓即示例。 天津大学硕士学位论文 第三章序列模式挖捌 知识麓瑗引辇知识发现引擎将知识鼯中的抽取算法摊供给数据选择构 件抽取的数掇,其目的是要抽取数据元素间的模式和关系。数据挖掘雌。 主要选择的髯法有:数据挖掘的信息论方法、数据挖掘的集合论方法、 数据挖掘的仿生物方法、公式发现、统计分析等。 发瑰评价分柝员要露我关穗往的数攒模式,以雳户能了解的方式呈谶 给用户。用于分析关键性模式的技术包括统计的熏点、覆盖级别的爨信 度及可褫纯分耩。 发现描述此构件提供了两种必须的功能。一种示以发现评价辅助分析 受,在知识瘁中傈存关键性鹣发现结染以各将来零| 鬻稿谴髑,静示澡 持发现与用户的通信。 3 1 3 数据挖掘的任务及其模式 数攒挖掘靛任务怒从数据中发瑗摸式。禳式是一个蠲语言l 来表示貉岭表 达式e ,它司用来描述数据集f 中数撼的特性,e 所描述的数据是集合f 的个 子集f e 。e 萋为一令攒式要求它篦裂攀数据子集f e 中瓣有元素携箍述方法麓革。 例如,“如果成绩在8 1 9 0 之间,则成绩优良”可称为一个模式,而“如果成绩 为8 l 、8 2 、8 3 、8 4 、8 s 、弱、8 7 、豁、8 9 或9 0 ,则戏续姥良”魏不稼之为一一 个模式。 摸式膏很多晕申,按功能可分有强大类:颧测型( p r e d i c t i v e ) 模式却播述裂 ( d e s c r i p t i v e ) 横式。 预测型模妓是可以根据数据项的德精确确定某种缨皋麴模式。挖搦预测型模 式所傲用的数据也都楚可以明确知道结果的。例如,根据各种动物的资料,可以 建立这样的模式:凡是胎生的动物都鼹哺乳粪动物。当有新的动物资料时,就嘲 以根搦这个模式判剐诧动物怒否是哺乳动物。 撼述型模妓是对数据中存在的规则做一种描述,或者根攒数据的相似性把数 据分缀。掇述燮模式不麓直接罐子颥灏。翻螽,在缝琢上,7 0 静表露被永覆黼, 3 0 是土地。 在实际痰瑁中,茬往禳据模式懿实辑作瘸缁分为以下6 静: 1 分娄模式 分类模式跫一个分类函数分类器) ,l 够怒数撂集中豹数撰王曩蘸辩笺菜个绘 定的炎上。分类模式往往表现为一棵分类树,根据数据的值从树根开始搜索,沿 萋数攘渍足豹分支经上走,袁爨楗时璇嶷确定类裂。 2 回归模式 黯翅摸式浆函数定义与分炎模式撼镪,它们懿差别在于分类模式款预测蕊蹩 天津大举硕士学协论文 第三章序列模式挖掘 离散的,回归模式的预测值是连续的。如给出某种动4 匆的特征,可以嗣分类模式 判定这种动物是哺乳动物还是鸟类;绘出某个人的教肖情况、工作经骢,可以用 回归横式判定这个人的年工资在哪个范围内,魑在6 0 0 0 元以下,还是在6 0 0 0 元 到1 万元之间,还是谯l 万元以上。 3 时问序歹i 模式 时间序列模式根据数据随时间变化的趋势预测将来的值。这里要考虑到时间 的特豫经质,像一些溺期往的时闻定义鳃星期、胃、攀节、年簿,不礤静拜予鲡 节假翻可能造成的影响,日期本身的计算方法,还有些需要特殊考虑的地方如 时阉蒋蔫的稻关褴f 遥安懿摹情靖将来霄多大静影响力) 簿。其蠢充势考虑翻润邋 素,利用现有数据随时间变化的系列的僮,才能更好地预测将来的值。 4 聚裳模式 聚类模式把数据划分到不同的组中,组之间的差剐尽可能大,组内的差别尽 霹巍小。与分类模式不阉,进露蘩类翦势不知邀将要划分戚几个缳和季童么媾的鳃, 也不知道根掇哪一( 几) 个数据项来定义组。一般来说,业务知识丰富的人应该可 班理麟这些组豹含义,如果产生豹模式无法理鳃或不霹雳,则该模式可能是无意 义的,需要回到上阶段重新组织数据。 5 关联模式 关联模式建数据硕之间的关联规赋。关联娥刚是如下形式的一种规剐:“在 无力偿还贷款的人当中,6 0 的人的周收入程3 0 0 0 元以下。” 6 序列模式 序列模式与关联模式相仿,而把数据之间的关联性与时间联系起来。为了发 现序列模式,不仅需要知道事件是否发生,两髓需要确定事释发生静时润。鳓翔, 在购买彩电的人们当中,6 0
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 广播稿400字左右(35篇)
- 高中技术《技术与设计2》模块测试题 一
- 课外书的心得体会范文
- 幼儿园主题方案简单
- 风险合规部工作总结
- 销售培训心得(35篇)
- 居间代理房屋合同(3篇)
- 《技术的未来》教学设计(两篇)
- 苏教版 高中技术《技术与设计1》教案合集
- 26.1 锐角三角函数 同步练习
- QGDW11957.2-2020国家电网有限公司电力建设安全工作规程 第2部分:线路
- 南京玄武区某校2023-2024三年级上册语文期中试卷及答案
- 中国抗日战争史智慧树知到课后章节答案2023年下浙江大学
- 渤海小吏讲中国史:秦并天下
- 轨道工程(第三版) 课件 高亮第6章 道岔
- 机动车检测站事故隐患排查治理体系作业指导书
- 《大自然的色彩》教学课件
- 湖南省衡阳市雁峰区成章实验学校2022-2023学年九年级上学期期中物理试卷
- 治安管理处罚法共ppt
- 小学生少先队中队长竞选PPT
- 学校文化与教师的专业发展
评论
0/150
提交评论