已阅读5页,还剩58页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据仓库在电子商城系统中的应用研究中文摘要数据仓库在电子商城系统中的应用研究中文摘要在当今信息飞速发展的时代,各个企业之俪的竞争愈演愈烈,只有能够快速响应和预测用户需求并不断进行技术创新的企业才有可能立于不败之地。一方面为了更好的预测用户需求,了解企业情况,数据仓库DATAWAREHOUSING技术与在线分析处理ON一1INEANALYTICALPROCESSING技术的应用得到了企业的认同和重视另一方面通过WEB方式可以充分地共享应用和信息,利用WEB技术进行原有业务增值己成为信息技术的新的趋势。结合了WEB技术轻数据仓库技术两大热FJ技术的基于WEB的数据仓库系统,具有其独特的优点和潜在的应用需求,将会得到越来越广泛的应用。针对这一新的领域,论文研究互联网环境下电子商务数据仓库系统构架,目的是在于利用上海汇丽集团电子商城己有的大量数据,建立一个可以为领域专家提供数据分析服务的互联阿环境下的数据仓库系统。论文通过对现实项目的研究,深入讨论了以下方面L、通过对现有系统地现状分析,设计出上海汇丽集团电子商城数据仓库系统的结构。对上海汇丽集团电子商城数据仓库的设计进行了详细的分析,包括数据仓库的概念模型、逻辑模型、物理模型设计和元数据管理等。2、针对数据仓库的设计。完成了数据仓库的数据提取、转换和加载EXTRACTIOIL,TRANSFORMATIONANDLOADING,简写为ETL的设计,提出上海汇丽集团电子商城数据维护和载入模块的软件构架及业务功能。3、针对上海汇丽集团电子商城的另一个重要组成部分一一联机分析处理模块,淘宝网商城首页HTTP/WWWKOOPPCOM中文摘要数据仓库在电子商城系统中的应用研究进行详细的论述。通过对以上各个方面的理论研究,并结合对微软的SQLSERVER数据库的使用。论文较好的实现了研究的目的,实现了上海汇丽集团电子商城的数据仓库系统。关键字数据仓库,提取、转换和加载。在线分析处理,多维立方体作者张懿导师崔志明APPLICATIONANDRESEARCHOFDATAWAHOUSINGINEMARKETABSTRACTAPPLICATIONANDRESEARCHOFDATAWAREHOUSINGINEMARKETABSTRACTNOWADAYS,WITHTHERAPIDGROWTHOFINFORMATION,THECOMPETITIONBETWEENENTERPRISESISBECOMINGMOLEANDMOREVEHEMENT,ANDONLYTHOSEWHOSPARENOEFFORTSINTECHNOLOGYINNOVATIONANDFORECASTANDRESPONDTOTHEDEMANDTENDENCYOFTHECUSTOMERSQUICKLYANDPROPERLYMAYWINTHEBATTLEASISSOOFTENPOINTEDOUT,DATAWAREHOUSINGANDONLINEANALYTICALPROCESSIUGOLAPTECHNOLOGYALEOFGREATIMPORTANCEINTHEANALYSISOFHUGEAMOUNTOFDATATECHNOLOGYAND,INFORMATIONARCNOWSHAREDFULLYTHROUGHWEB,ANDADDINGINCREMENTTOTRADITIONALBUSINESSHASNOWBECOMETHETRENDOFTHEDEVELOPMENTOFINFORMATIONTECHNOLOGYTHEAPPLICATIONOFDATAWAREHOUSINGBASEDONTHEWEBISBROUGHTFORWARDBECAUSEASMUCHINFORMATIONANDTECHNOLOGYAPPFICATIONASPOSSIBLEARENEEDEDINTHEDATAWAREHOUSESYSTEMDWSDESIGNDATAWAREHOUSESYSTEMBASEDONTHEWEBCOMBINESTWOKINDSOFHOTTECHNOLOGIESTODAY,IE。WEBTECHNOLOGYANDDATAWAREHOUSINGTECHNOLOGY,ANDTHEREFORE,ITHASITSOWNPARTICULARMERITSANDPOTENTIALAPPLICATIONDEMANDS,THEREFORE,MOREANDMOLEENTERPRISESAREMAKINGGREATEFFORTSINTHEAPPLICATIONOFTHESETECHNOLOGIESFOCUSINGONTHISNEWFIELD,THISPAPERISTOSTUDYTHECONSTRUCTIONOFDWSINTHEINTEMETENVIRONMENTTHEPAPERMAINLYDISCUSSEDTHEMAINCONCEPTS,IMPORTANTCHARACTERISTICSANDKEYTECHNIQUESDURINGTHEPROCESSOFTHEDEVELOPMENTOFDWSAND0LAPANDPROVIDESCONCRETESTEPSINIMPLEMENTINGTHEDESIGNANDCONSTRUCTIONOFDWSANDTHEAPPLICATIONOFOLAPBASEDONDWSINTHEWEBENVIRONMENTHCLUDINGTHE淘宝网商城首页HTTP/WWWKOOPPCOM垒型螋塑壁垫鲤塞塑坚望坠曼堂M堕垦坚塑DESIGNOFCONCEPTUALMODULE,LOGICALMODULEANDPHYSICALMODULE;METADATAMANAGEMENTANDINDEXINGTECHNOLOGYOFDWS,THEDESIGNANDIMPLEMENTATIONETLMODULEOFDWS,ANDMULTIDIMENSIONALANALYSISANDMANAGEMENTBASEDONTHEWEBKEYWORDSDATAWAREHOUSING,ETL,OLAP,MULTICUBESUPERVISEDBYCULZHIMING苏州大学学位论文独创性声明及使用授权声明学位论文独创性声明本人郑重声明所提交的学位论文是本人在导师的指导下,独立进行研究T作所取得的成果。除文中已经注明引用的内容外,本论文不含其他个人或集体已经发表或撰写过的研究成果,也不含为获得苏州大学或其它教育机构的学位证书而使用过的材料。对本文的研究作出重要贡献的个人和集体,均已在文中以明确方式标明。本人承担本声明的法律责任。研究生签名邀篮日期趔翌学位论文使用授权声明苏州大学、中国科学技术信息研究所、国家图书馆、清华大学论文合作部、中国社科院文献信息情报中心有权保留本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布包括刊登论文的全部或部分内容。论文的公布包括刊登授权苏州大学学位办办理。研究生签名丝型日期堑堑竺导师签名鸺业淘宝网商城首页HTTP/WWWKOOPPCOM数据仓库在电予商城系统中的应用研究第一章引言第一章引言11课题目的和意义企业信息的深化处理技术近几年来发展迅速,因为越来越多的企业需要真实、可靠的预测与决策支持分析。基于这样的需求,数据仓库技术与0LAP技术的应用受到了广泛的认同和重视。本文研究互联网环境下电子商务数据仓库系统构架,目的是在于利用上海汇丽集团电子商城已有的大量数据,建立一个可以为领域专家提供数据分析服务的互联网环境下的数据仓库系统。具体的研究内容分为以下三个方面1从系统构架的角度提出互联网环境下电子商务数据仓库系统的模式2研究数据仓库的实现方法3建立应用于互联网环境下的多维分析处理。上海汇丽集团电子商城是一家电子商务网站,在日常的经营活动中收集了大量的交易数据、客户信息等。由于INTERNET环境下的各级用户越来越多、越来越复杂的统计、分析、预测需求,上海汇丽集团电子商城一直在寻求一种能汇总这些信息,进而支持数据挖掘、多维数据分析等当今尖端技术和传统的查询及报表功能的数据服务系统。数据仓库和联机分析处理正好满足了上海汇丽集团电子商城的这种需求。因此上海汇丽集团电子商城将建立一个互联网环境下的数据仓库系统,对原来的数据进行面向决策的数据重组,将其转移到新建设的数据仓库中,并在该数据仓库的基础上建立基于WEB的面向领域专家的基于决策支持的统计分析应用系统和查询系统。通过该数据仓库系统,用户可以从各种不同的角度对交易情况进行深层次的统计和分析,以指导其决策。12从数据库到数据仓库市场需求是技术发展的源动力。在数据库应用的早期。计算机系统所处理的是从无到有的问题,是传统手工业务自动化的问题。例如银行的储蓄系统、电信的计第一章引言数据仓库在电子商城系统中的应用研究费系统,它们都属于典型的联机事务处理系统。在当时,一个企业可以简单地通过拥有联机事务处理的计算机系统而获得强大的市场竞争力。其次,当时单位容量的联机存储介质比现在昂贵得多,相对于市场竞争的压力,将大量的历史业务数据长时间联机保存来用于分析显然是过于奢侈了。因此,联机事务处理系统只涉及当前数据,系统积累下的历史业务数据往往被转储到脱机的环境中。此外,在计算机系统应用的早期,还没有积累大量的历史数据可供统计与分析。从而,联机事务处理成为整个80年代壹到90年代初数据库应用的主流。然而,应用在不断地进步,当联机事务处理系统应用到一定阶段的时候,企业家们便发现单靠拥有联机事务处理系统已经不足以获得市场竞争的优势他们需要对其自身业务的运作以及整个市场相关行业的态势进行分析,从而做出有利的决策。同样就拿北京各银行的储蓄业务来说,如今各家都拥有了联网的储蓄系统,再要获得市场竞争的优势,就需要在决策上下功夫,例如在业务密集地区增设自助网点、推出有针对性如某类职业圈、某年龄段的储蓄服务计划。这些决策需要对大量的业务数据包括历史业务数据进行分析才能得到,而这种基于业务数据的决策分析,我们把它称之为联机分析处理“1。如果说传统联机事务处理强调的是更新数据库一一向数据库中添加信息,那么联机分析处理就是要从数据库中获取信息、利用信息。因此,著名的数据仓库专家RAIPHKIMBALL写道“我们花了20多年的时间将数据放入数据库,如今是该将它们拿出来的时候了。”事实上。将大量的业务数据应用予分析和统计原本是一个非常简单和自然的想法。但在实际的操作中,人们却发现要获得有用的信息并非想象的那么容易第一,所有联机事务处理强调的是数据更新处理性能和系统的可靠性,并不关心数据查询的方便与快捷联机分析和事务处理对系统的要求不同,同一个数据库在理论上难以做到两全第二,业务数据往往被存放于分散的异构环境中,不易统一查询访问,而且还有大量的历史数据处于脱机状态,形同虚设第三,业务数据的模式是针对事务处理系统而设计的,数据的格式和描述方式并不适合非计算机专业人员进行业务上的分析和统计。于是,有人感叹20年前查询不到数据是因为数据太少了,而今天查询不到数据是因为数据太多了。针对这一问题,人们专门为业务的统计分析建立一个数据中心,它的数据可以从联机的事务处理系统、异构的外部数据源、脱机的历史业务数据中得到它是一个联机的系统,专门为分析统计和决策支持应用2淘宝网商城首页HTTP/WWWKOOPPCOM数据仓库在电子商城系统中的应用研究第一章引言服务,通过它可满足决策支持和联机分析应用所要求的一切。这个数据中心就叫做数据仓库。如果需要给数据仓库一个定义的话,那么可以把它看作一个作为决策支持系统和联机分析应用数据源的结构化数据环境。数据仓库所要研究和解决的问题就是从数据库中获取信息。那么数据仓库与数据库主要指关系数据库又是什么关系呢回想当初,人们固守封闭式系统是出于对事务处理的偏爱,人们选择关系数据库是为了方便地获得信怠。我们只要翻开CJDATE博士的经典之作ANINTRODUCTIONTODATABASESYSTEMS便会发现今天数据仓库所要提供的正是当年关系数据库要所倡导的。然而,由于关系数据库系统在联机事务处理应用中获得的巨大成功,使得人们已不知不觉将它划归为事务处理的范畴过多地关注于事务处理能力的提高,使得关系数据库在面对联机分析应用时又显得能力不足。今天的数据仓库对关系数据库的联机分析能力提出了更高的要求,采用普通关系型数据库作为数据仓库在功能和性能上都是不够的,它们必须有专门的改迸。因此,数据仓库与数据库的区别不仅仅是应用的方法和目的上的,同时也涉及产品和配置。以辩证的眼光来看,数据仓库的兴起实际上是数据管理的一种回归,是螺旋式的上升。今天的数据库就好比当年的层次数据库和网型数据库,它们面向事务处理今天的数据仓库就好比是当年的关系数据库,它针对联机分析。所不同的是,今天的数据仓库不必再为联机事务处理的特性而奔忙,由于技术的专业化,它可更专心于联机分析领域的发展和探索。总之,数据仓库并非是一个仅仅存储数据的简单信息库。数据仓库实际上是一个“以大型数据管理信息系统为基础的、附加在这个数据库系统之上的、存储了从企业所有业务数据库中获取的综合数据的、并能利用这些综合数据为用户提供经过处理后的有用信息的应用系统”。如果说传统数据库系统的重点与要求是快速、准确、安全、可靠地将数据存进数据库中的话,那么数据仓库的重点与要求就是能够准确、安全、可靠地从数据库中取出数据,经过加工转换成有规律信息之后,再供管理人员进行分析使用。1。13国内外研究状况和进展在目前竞争激烈的知识经济环境和电子商务经济模式下,重要的信息往往可以3第一章引官数据仓库在电子商城系统中的应用研究决定企业的成败,甚至决定企业的生死存亡。因此,很多行业都采用了数据仓库解决方案充当企业决策机构的智囊和参谋。如我们平时所说的民航订票系统、银行ATM系统、证券交易系统、期货交易系统、铁路售票系统、移动通信用户信息管理与服务系统等就是建立在大型数据库基础之上的数据仓库81。作为数据管理市场的热点,近年来有很多公司投入数据仓库市场的角逐,并有了自己的解决方案和已经成型的数据仓库产品,如国外知名的CA的DECISIONBASE,IBM的DB2UDB,ORACLE的ORACLE8I数据仓库核心、SYBASE的WAREHOUSESTUDIO,INFORMIX的INFORMIXDATASTAGE,SAGENT的,SAGENT业务智能应用平台、微软的SQLSERVER2000,COGNOS的COGNOSPLATFORM和NCR的可扩展数据仓库和国内的一些公司。不论是那一家的产品,数据仓库的解决方案都存在着一定的困难啕。虽然国内有很多大学和研究机构从事数据仓库技术的研究,但到目前为止。国内基本上没有成熟的数据仓库解决方案原因如下L、数据仓库的前台和后台都需要很好的部署和编程。2、数据只有通过充分积累,数据仓库才能发挥作用。3、需要对企业数据和业务流程有非常深刻的理解,才能够进行有效的数据挖掘旧。14论文各部分的主要内容建立一个互联网的环境下的数据仓库系统是本课题的任务和目标。在本文中主要论述一个互联网环境下数据仓库的建立过程。在“数据仓库基础”详细介绍了数据仓库和OLAP的概念及特征,讨论了数据仓库和OLAP的数据组织及体系结构。“数据仓库系统设计”分绍了原有的上海汇丽集团电子商城系统,在基于前一章的理论基础上提出了系统的总体设计结构。并了系统开发的方法。“数据仓库的实现”讨论了数据仓库概念模型、逻辑模型和物理模型设计,以及它的元数据管理,最后给出了数据仓库所选用的索引技术。“上海汇丽集团电子商城数据仓库维护和载入”详细介绍了在服务器端对数据仓库的维护和数据转换模块,包括一些数据仓库数据转换的策略和方法。“基于WEB的联机分析处理”介绍了基于WEB的OLAP的结构,提出上海汇丽集团电子商城数据仓库基于WEB的OLAP的软件构架,并详细介绍了实现后OLAP的业务功能。淘宝网商城首页HTTP/WWWKOOPPCOM数据仓库在电子商城系统中的应用研究第二章数据仓库概述第二章数据仓库概述21数据仓库人们在日常生活中经常会遇到这样的情况超市的经营者希望将经常被同时购买的商品放在一起,以增加销售保险公司想知道购买保险的客户一般具有哪些特征医学研究人员希望从已有的成千上万份病历中找出患某种疾病的病人的共同特征,从而为治愈这种疾病提供一些帮助,对于以上问题,现有信息管理系统中的数据分析工具无法给出答案。因为无论是查询、统计还是报表,其处理方式都是对指定的数据进行简单的数字处理,而不能对这些数据所包含的内在信息进行提取。随着信息管理系统的广泛应用和数据量激增,人们希望能够提供更高层次的数据分析功能“1。为此,数据仓库应运而生。211数据仓库的概念和特征数据仓库概念始于本世纪80年代中期,首次出现是在世界公认的数据仓库概念创始人、美国著名信息工程学家WHINMON在他的BUILDINGTHEDATAWAREHOUSE一书中。随着人们对大型数据系统研究、管理、维护等方面识认的深刻和不断完善。在总结、丰富、集中多行企业信息的经验之后。为数据仓库给出了更为精确的定义,即“数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合”。对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。根据数据仓库概念的含义,可以看出数据仓库包含有有以下几个特点1面向主题主题是一个抽象的概念,是在较高层次上将企业信息系统中的数据综合、归类S第二章数据仓库概述效据仓库在电子商娃系统中的应用研究并进行分析利用的抽象。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象,是针对某一决策问题而设置的。面向主题的数据组织方式,就是在较高层次上对分析对象的数据的一个完整的、统一的、一致的描述,能完整、统一地刻画各个分析对象所涉及的企业的各项数据,以及数据之间的联系。目前数据仓库的实现主要是基于关系数据库,每个主题由一组关系表或逻辑视图实现。这些表和视图的内容与原来各个运行系统数据源的数据本质上是一致的,但为了方便支持分析数据处理,对数据结构进行了重组,其中还可能会增加一些数据冗余。2集成的数据数据仓库中存贮的数据是从原来分散的各个子系统中提取出来的。但并不是原有数据的简单拷贝,而是经过统一、综合。其一,数据仓库的数据不能直接从原有数据库系统中得到。原有数据库系统记录的是每一项业务处理的流水帐,这些数据不适合于分析处理,在进入数据仓库之前必须经过综合、计算,抛弃分析处理不需要的数据项,增加一些可能涉及的外部数据。其二,数据仓库每一个主题所对应的源数据在原分散数据库中有许多重复或不一致的地方,必须将这些数据转换成全局统一的定义,消除不一致和错误的地方,以保证数据的质量。否则,对不准确,甚至不正确的数据分析得出的结果将不能用于指导企业作出科学的决策。对源数据的集成是数据仓库建设中最关键,也是最复杂的一步。3数据不可更新从数据的使用方式上看,数据仓库的数据不可更新,这是指当数据被存放到数据仓库中以后,最终用户只能通过分析工具进行查询、分析。而不能修改其中存贮的数据,也就是说,数据仓库的数据对最终用户而一言是只读的。由于数据仓库的查询数据量往往很大,所以对数据查询、查询界面的友好和数据的表示提出了很高提出了更高的要求,因为对数据仓库进行查询分析的用户多是企业的高层领导,他6淘宝网商城首页HTTP/WWWKOOPPCOM敷据仓库在电子商城系统中的应用研究蒴二章数据仓库概述们是所在领域的专家。但对计算机却不一定熟悉。从数据的内容上看,数据仓库存贮的是企业当前的和历史的数据,在一定的时间间隔以后,当前的数据需要按一定的方法转换成历史数据,年代久远的、查询率低的数据的需要从数据仓库脱离到廉价慢速设备如磁带上,对分析处理不再有用的数据需要从数据仓库中删除。但这些工作是由系统管理员来做,或由系统自动完成。因此,也可以说数据仓库在一定时间间隔内是稳定的。4数据随时间不断变化数据仓库数据的不可更新是针对应用面言,即用户进行分析处理时不对数据进行更新操作,但不是说,数据从进入数据仓库以后就永远不变。数据仓库中的数据随时间变化而定期地被更新。每隔一段固定的时间间隔后,运作数据库系统中产生的数据被抽取、转换以后集成到数据仓库中,而数据的过去版本仍被保留在数据仓库中,如同“定期摄影术”,每隔一周、一月或适当的间隔就照一张像随着时间的变化,数据以更高的综合层次被不断综合,以适应趋势分析的要求当数据超过数据仓库的存储期限,或对分析不在有用时,这些数据将从数据仓库中删去。关于数据仓库的结构信息、维护信息被保存在数据仓库的元数据中,数据仓库维护工作由系统根据元数据中的定义自动进行,或由系统管理员定期维护,用户不必关心数据仓库如何被更新的细节。5使用数据仓库建立数据仓库并不是要取代原有的运作数据库系统,建立数据仓库的目的是为了将企业多年来已经收集到的数据按一个统一、一致的企业级视图组织、存贮,对这些数据进行分析,从中得出有关企业经营好坏、客户需求、对手情况、以后发展趋势等有用信息,帮助企业及时、准确地把握机会,以求在激烈的竞争中获得更大的利益。2,12数据仓库的体系结构7第二章数据仓库概述数据仓库在电子商城系统中的应用研究整个数据仓库系统是一个包含四个层次的体系结构,具体由图21表示。外部数据数据仓库运行于维护工具厂L,数据查询工具自由报表工具数据分析工具数据挖掘工具I各类应用系统数据源数据储存及管理OLAP引擎前端工具和应用图21数据仓库系统体系结构数据源是数据仓库系统的基础,是燕个系统的数据源泉。通常包括企业内部信息和外部信息。内部信息包括存放于RDBINS中的各种业务处理数据和各类文档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息等等。数据的存储与管理是整个数据仓库系统的核心。数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式嘲。要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库通常称为数据集市。OLAP服务器对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。其具体实现可以分为ROLAP,MOLAP和HOLAP,ROLAP基本数据和聚合数据均存放在RDBMS之中;MOLAP基本数据和聚合数据均存放淘宝网商城首页HTTP/WWWKOOPPCOM数据仓库在电子商城系统中的应用研究第二章数据仓库概述于多维数据库中HOLAP基本数据存放于RDBMS之中,聚合数据存放于多维数据库中。前端工具主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要针对OLAP服务器,报表工具、数据挖掘工具主要针对数据仓库。213数据仓库的数据组织2131数据仓库的数据组织结构一个典型的数据仓库的数据组织结构如图22所示数据仓库中的数据分为四个级别早期细节级、当前细节级、轻度综合级、高度综合级。源数据经过综合后。首先进入当前细节级,并根据具体需要进行迸一步的综合,从而进入轻度综合级乃至高度综合级,老化的数据将进入早期细节级由此可见,数据仓库中存在着不同的综合级别,一般称之为“粒度”。粒度越大,表示细节程度越低,综合程度越高。数据仓库中还有一种重要的数据一元数据METADATA。元数据是“关于数据的数据”,如在传统数据库中的数据字典就是一种元数据“”。在数据仓库环境下,主要有两种元数据第一种是为了从操作性环境向数据仓库转化而建立的元数据,包含了所有源数据项名、属性及其在数据仓库中的转化第二种元数据在数据仓库中是用来和终端用户的多维商业模型L前端工具之间建立映射,此种元数据称之为DSS元数据,常用来开发更先进的决策支持工具。9第章数据仓库概速数据仓库在电子商城系统中的应用研究高度综合级轻度综合级当前综合级早期综合级图22DW数据组织结构2132粒度与分割1粒度粒度是数据仓库的重要概念。粒度可以分为两种形式,第一种粒度是对数据仓库中的数据的综合程度高低的一个度量,它既影响数据仓库中的数据量的多少,也影响数据仓库所能回答询问的种类。在数据仓库中,多维粒度是必不可少的。由于数据仓库的主要作用是DSS分析,因而绝大多数查询都基于一定程度的综合数据之上的,只有极少数查询涉及到细节。所以应该将大粒度数据存储于快速设备如磁盘上,小粒度数据存于低速设备如磁带上。还有一种粒度形式,即样本数据库。它根据给定的采样率从细节数据库中抽取出一个子集。这样样本数据库中的粒度就不是根据综合程度的不同来划分的,而是有采样率的高低来划分,采样粒度不同的样本数据库可以具有相同的数据综合程度。2分割分割是数据仓库中的另一个重要概念,它的目的同样在于提高效率。它是将数据分散到各自的物理单元中去,以便能分别独立处理。有许多数据分割的标准可供参考如日期、地域、业务领域等等,也可以是其组合。一般丽言,分割标准总应包括日期项,它十分自然而且分割均匀。0淘宝网商城首页HTTP/WWWKOOPPCOM数据仓库在电子商城系统中的应用研究第二章数据仓库概述2133数据仓库的数据组织形式这里简单介绍数据仓库中常见的数据组织形式1简单堆积文件它将每日由数据库中提取并加工的数据逐天积累并存储起来。2轮转综合文件数据存储单位被分为目、周、月、年等几个级别。在一个星期的七天中,数据被逐一记录在每日数据集中;然后,七天的数据被综合并记录在周数据集中;接下去的一个星期,日数据集被重新使用,以记录新数据。同理,周数据集达到五个后,数据再一次被综合并记入月数据集。以此类推。轮转综合结构十分简捷,数据量较简单堆积结构大大减少。当然,它是以损失数据细节为代价的,越久远的数据,细节损失越多。3简化直接文件它类似于简单堆积文件,但它是间隔一定时间的数据库快照,比如每隔一星期或一个月作一次。4连续文件通过两个连续的简化直接文件,可以生成另一种连续文件,它是通过比较两个简单直接文件的不同而生成的。当然,连续文件同新的简单直接文件也可生成新的连续文件。对于各种文件结构的最终实现,在关系数据库中仍然要依靠”表”这种最基本韵结构。2134数据仓库的数据追加如何定期向数据仓库追加数据也是一个十分重要的技术。我们知道,数据仓库的数据是来自OLTP的数据库中,问题是我们如何知道究竟哪些数据是在上一次追加过程之后新生成的。常用的技术和方法有时标方法如果数据含有时标,对新插入或更新的数据一记录,在记录中加更新时的时标,那么只需根据时标判断即可。但并非所有的数据库中的数据都含有时标。DELTA文件它是由应用生成的,记录了应用所改变的所有内容。利用DELIA文件效率很高,它避免了扫描整个数据库,但同样的问题是生成DELTA文件的应用并不普遍。此外,还有更改应用代码的方法,使得应用在生成新数据时可以自动将其记录下来。但应用成千上万,且修改代码十分繁琐,这种方法很难实现。LL第二章数据仓库概述数据仓库在电子商城系统中的应用研究前后映像文件的方法在抽取数据前后对数据库各作一次快照,然后比较两幅快照的不同从而确定新数据。它占用大量资源,对性能影响极大,因此并无多大实际意义。日志文件二最可取的技术大概是利用日志文件了,因为它是DB的固有机制,不会影响OLTP的性能。同时,它还具有DELTA文件的优越性质,提取数据只要局限日志文件即可,不用扫描整个数据库。当然,原来日志文件的格式是依据DB系统的要求而确定的。它包含的数据对于数据仓库而言可能有许多冗余。比如,对一个记录的多次更新,日志文件将全部变化过程都一记录下来而对于数据仓库,只需要最终结果。但比较而言,日志文件仍然是最可行的一种选择。22联机分析处理OLAP联机分析处理OLAP的概念最早是由关系数据库之父EECODD于1993年提出的,他同时提出了关于OLAP的12条准则。OLAP的提出引起了很大的反响,OLAP作为一类产品同联机事务处理0L丁P明显区分开来。当今的数据处理大致可以分成两大类联机事务处理OLTPON1INE仃ANSACTIONPROCESSING、联机分析处理OLAPONLINEANALYTICALPROCESSINGOLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。表21列出了OLTP与OLAP之间的比较。OLTPOLAP用户DBA,数据库专业人员,操作员主管、经理、分析员等功能事务操作处理分析决策数据库设计基于实体一关系职面向应用多维数据模式星型霉花,面向主题数据当前的确保最新汇总程度原始的,高度详细汇总的,统一的处理单位短的,简单事务复杂查询存取读写大多为读关注重点数据输入信息输出操作主关键字上索71散列大量扫描访问记录数量数十个数百万用户数数千数百数据库规模100L船到GB100GB到TB表21OLTP与OLAP之间的比较22,L联机分析处理OLAP的概念12淘宝网商城首页HTTP/WWWKOOPPCOM数据仓库在电子商城系统中的应用研究第二章散据仓库概述联机分析处理OLAP的概念最早是由关系数据库之父EECODD于1993年提出的。当时,CODD认为联机事务处理0L1、P已不能满足终端用户对数据库查询分析的需要,SQL对大数据库进行的简单查询也不能满足用户分析的需求。用户的决策分静亍需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。因此CODD提出了多维数据库和多维分析的概念,即OLAP“J。根据OLAP产品的实际应用情况和用户对OLAP产品的需求,人们提出了一种对OLAP更简单明确的定义,即共享多维信息的快速分析。1快速性用户对OLAP的快速反应能力有很高的要求。系统应能在5秒内对用户的大部分分析要求做出反应。如果终塌用户在30秒内没有得到系统响应就会变得不耐烦,因而可能失去分析主线索,影响分析质量。对于大量的数据分柝要达到这个速度并不容,因此就更需要一些技术上的支持,如专门的数据存储格式、大量的事先运算、特别的硬件设计等。2可分析性OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。尽管系统需要事先编程。但并不意味着系统己定义好了所有的应用。用户无需编程就可以定义新的专门计算,将其作为分析的一部分,并以用户理想的方式给出报告。用户可以在OLAP平台上进行数据分析,也可以连接到其他外部分析工具上,如时间序列分析工具、成本分配工具、意外报警、数据开采等。3多维性多维性是OLAP的关键属性。系统必须提供对数据分析的多维视图和分析。包括对层次维和多重层次维的完全支持。事实上,多维分析是分析企业数据最有效的方法,是OLAP的灵魂。4信息性不论数据量有多大,也不管数据存储在何处,OLAP系统应能及时获得信息,并且管理大容量信息。这里有许多因素需要考虑,如数据的可复制性、可利用的磁盘空间、OLAP产品的性能及与数据仓库的结合度等。222OLAP的多维数据概念多维结构是决策支持的支柱,也是OLAP的核心。OLAP展现在用户面前的足11第二章数据仓库概述数据仓库在电子商城系统中的应用研究一幅幅多维视图。1维假定某某是个百货零售商,有一些因素会影响他的销售业务,如商品、时间、商店或流通渠道,更具体一点,如品牌、月份、地区等。对某一给定的商品,也许他想知道该商品在哪个商店和哪段时间的销售情况。对某一商店,也许他想知道哪个商品在哪段时间的销售情况。在某一时间,也许他想知道哪个商店哪种产品的销售情况。因此,他需要决策支持来帮助制定销售政策。这里,商店、时间和产品都是维。各个商店的集合是一维,时间的集合是一维,商品的集合是一维。维就是相同类数据的集合,也可以理解为变量。而每个商店、每段时间、每种商品都是某一维的一个成员。每个销售事实由一个特定的商店、特定的时间和特定的商品组成。维有自己同有的属性,如层次结构对数据进行聚合分析时要用到、排序定义变量时要用到、计算逻辑是基于矩阵的算法,可有效地指定规则。这些属性对进行决策支持是非常有用的。2多维性人们很容易理解一个二维表如通常的电子表格,对于三维立方体同样也容易理解。OLAP通常将三维立方体的数据进行切片,显示三维的某一平面。如一个立方体有时间维、商品维、收入维,其图形很容易在屏幕上显示出来并进行切片。但是要加一维如加入商店维,则图形很难想象,也不容易在屏幕上萄出来。要突破三维的障碍,就必须理解逻辑维和物理维的差异。OLAP的多维分析视图就是冲破了物理的三维概念。采用了旋转、嵌套、切片、钻取和高维可视化技术,在屏幕上展示多维视图的结构,使用户直观地理解、分析数据,进行决策支持。223OLAP的多维数据结构数据在多维空间中的分布总是稀疏的、不均匀的。在事件发生的位置,数据聚合在一起,其密度很大。因此,OLAP系统的开发者要设法解决多维数据空间的数据稀疏和数据聚合问题。事实上,有许多方法可以构造多维数据。1超立方结构超立方结构HYPERCUBE指用三维或更多的维数来描述一个对象,每个维彼此垂淘宝网商城首页HTTP/WWWKOOPPCOM数据仓库在电子商城系统中的应用研究第二章数据仓库概述直。数据的测量值发生在维的交叉点上,数据空阃的各个部分都有相同的维属性。这种结构可应用在多维数据库和面向关系数据库的OLAP系统中。其主要特点是简化终端用户的操作。超立方结构有一种变形,即收缩超立方结构。这种结构的数据密度更大,数据的维数更少,并可加入额外的分析维。2多立方结构在多立方结构MULTICUBC中,将大的数据结构分成多个多维结构。这些多维结构是大数据维数的子集,面向某一特定应用对维迸行分割,即将超立方结构变为子立方结构。它具有很强的灵活性,提高了数据特别是稀疏数据的分析效率。一般来说,多立方结构灵活性较大。但超立方结构更易于理解。终端用户更容易接近超立方结构,它可以提供高水平的报告和多维视图。但具有多维分析经验的MIS专家更喜欢多立方结构,因为它具有良好的视图翻转性和灵活性。多立方结构是存储稀疏矩阵的一个更有效方法,并能减少计算量。因此,复杂的系统及预先建立的通用应用倾向于使用多立方结构,以使数据结构能更好地得到调整,满足常用的应用需求。许多产品结合了上述两种结构,它们的数据物理结构是多立方结构,但却利用超立方结构来进行计算,结合了超立方结构的简化性和多立方结构的旋转存储特性。224OLAP数据的处理方式OLAP有三种数据处理方法事实上,多维数据计算不需要在数据存储位鬻上进行。1关系数据库即使活动的OLAP数据存储在关系数据库中,采用在关系数据库上完成复杂的多维计算也不是较好的选择。因为SOL的单语句并不具备完成多维计算的能力T要获得哪怕是最普通的多维计算功能也需要多重SQL。在许多情况下,一些OLAP工具用SQL做一些计算,然后将计算结果作为多维引擎输入。多维引擎在客户机或中层服务器上做大部分的计算工作,这样就可以利用RAM来存储数据,提高响应速度。2多维服务引擎I5第二章数据仓库概述数据仓库在电子商城系统中的应用研宄大部分OLAP应用在多维服务引擎上完成多维计算,并且具有良好的性能。因为这种方式可以同时优化引擎和数据库,而服务器上充分的内存为有效地计算大量数组提供了保证。3客户机在客户机上进行计算,要求用户具备性能良好的PC机,以此完成部分或大部分的多维计算。对于日益增多的瘦型客户机,OLAP产品将把基于客户机的处理移到新的WEB应用服务器上。16淘宝网商城首页HTTP/WWWKOOPPCOM数据仓库在电子商城系统中的应用研究第三章上海忙丽集团电子商城数据仓库系统设计第三章上海汇丽集团电子商城数据仓库系统设计在前一章的理论基础中主要介绍了数据仓库和OLAP的基本概念和系统结构,在此基础上本章通过对现有系统的现状分析,提出新的在互联网的环境下电子商务数据仓库的解决方案。3。1上海汇丽集团电子商城现有系统的描述上海汇丽集团电子商城CHUILICOM是一个电子商务平台,下面分系统结构和数据库两方面分别来介绍上海汇丽集团电子商城3。11上海汇霭集团电子商城的系统结构上海汇丽集团电子商城的结构大体分为两都分通过WEB的前端访问部分和后台数据库管理部分。其前端访问是浏览器,服务器BROWSESERVER结构,通过网络浏览器来实现,后台数据库管理部分是客户机,服务LZCLIENTSERVER结构,数据库股务器是由在MICROSOFTWINDOWS2000环境下的M加SONSQLSERVER2000实现20L。312上海汇丽集团电子商城的数据库上海汇丽集团电子商城电子商务平台己经建成了一个完整的关系数据库,拥有了各行业历年来大量的交易数据,并且不断更新。现有系统的数据库设计主要考虑的是对数据固定格式的检索,只是照搬了静态文档资料的数据一记录。因此在己经实现的基予浏览器的对数据检索。只是提供一些固定的报表格式。由于INTERACT环境下的各级用户越来越多、越来越复杂的统计、分析、预测需求,上海汇丽集团电子商城一直在寻求一种能汇总这些信息,进而支持数据挖掘、多维数据分析等当今尖端技术和传统的查询及报表功能的数据服务系统。数据仓库和联机分析处理正好满足了上海汇丽集团电子商城的这种需求。因此上海汇丽集团电子商城将建立一个互联网环境下的数据仓库系统,对原来的数据进行面向决策的数据重组,将其转移到新建设的数据仓库中,并在该数据仓库的基础上建立基于WEB的面向领域专家的统计分析应用系统和查询系统,为进一步的决策支持提供支持。通过该数据仓库系统,用户可以从各种不同的角度对交易和营销情况进行深层次的统计和分析,以指导其决策。17第三章上海汇丽集团电子商城数据仓库系统设计数据仓库在电子商城系统中的应用研究32数据仓库系统的总体结构设计321上海汇丽集团电子商城数据仓库系统体系结构体系结构的设计目标是为数据仓库开发健壮的、高层次的、详细的设计。在经过多次系统调研,参照上海汇丽集团电子商城本身的结构和数据仓库的体系结构,我们设计出上海汇丽集团电子商城数据仓库系统的结构。如图33所示。图33上海汇丽集团电子商城数据仓库系统结构系统有WEB服务器、应用服务器和数据仓库服务器。在WEB环境下,用户通过浏览器进行多维数据分析。322上海汇丽集团电子商城数据仓库系统模块结构和流程设计根据系统的业务要求,我们确定了系统模块结构和流程图,如图34所示。翻34系统模块结构和流程图18淘宝网商城首页HTTP/WWWKOOPPCOM数据仓库在电子商城系统中的应用研究第三章上海汇露集团电子商城数据仓库系统设计交易数据在元数据的管理下通过数据采集和数据吸取程序形成数据仓库,用户通过基于浏览器的多维分析处理访问数据仓库。其主要包括有三个主要模块系统管理维护模块、数据采集吸取模块和基于WEB的多维分析处理模块。在论文以下的部分中,将主要探讨数据仓库的设计和系统三个模块的实现。33系统开发的方法一般认为瀑布方法是传统的软件开发方法,其流程图如图35所示。该方法首先需要根据要求说明的内容建立一系列的要求,通过给予要求的分析定义出来未来系统所存在的环境,根据分析过程定义的环境以及环境中的要求说明设计出符合条件的系统。然后系统经过用户的开发和测试最终得到认可。所开发的系统已经认可就可作为成熟的产品景如用户团体。对系统要求说傲的任何修改或添加都将对瀑布的后续步骤产生影响,并且这种影响随着项目的不断深入而变大。在分析或设计阶段所进行的修改一般影响较小;而在认可测试过程中,如果用户发现系统中遗漏了重要的要求,那么软件开发人员必须重新构架这部分系统。因此软件开发人员必须仔细定义出适当的要求。一旦定义完毕,就记录用户验收的信息并冻结要求,此后的任何改变都必须先由用户正式提出,然后再由开发人员接受。331瀑布式方法的缺点图35瀑布式软件开发周期19G尊T上海汇耐集团电子商城数据仓库系统设计数据仓库在电子商城系统中的应用研究瀑布方法作为一个使用的方法应用于传统操作环境己达十多年之久,但它在使用时所作的一些基本假设对业务情报环境来说是不正确的。首先,传统方法假定了特定系统要求的静态集。在业务信息系统中是不存在静态的,在实际应用中希望有动态的、不断改进的决策支持系统要求。业务决策者能与数据仓库设计师一起讨论并最终列出业务决策者所需要的决策信息,这种想法是荒唐而且不切合实际的。如果当把决策支持系统传递给某用户时,该系统未发生任何变化,则说明用户劳没有使用这个系统。事实上,这表明该决策支持系统是失败的。在成功的业务信息系统中用户将扩展系统的使用,用户将搜索需要进行探索的新领域、分析解决不断出现的新问题。如果用户不知道他们应该提出什么闯题,那么我们的数据仓库的设计师对此也不会有所帮助。为了满足用户日益增长的需求,必须将系统范围扩展到新的主题区域并增加新的分析类型。瀑布方法还假定用户团体有一致的系统要求,这种情况在操作环境中十分罕见,自业务情报中则更是少之有少了。每个部门以及每个部门中的各个小组都有各自不同的需要,都试图设计符合自己要求的系统。在数据仓库中,随着数据市场的加入,我们必须灵活地满足每个不同的要求。对业务信息系统而言,瀑布法最主要的缺点是时间。瀑布法假定开发团队有足够的时间开发详细地分析设计过程,实际则不然,开发数据仓库必须尽可能快地将质量信息传递给管理者。如果项目在实施的初始阶段延伸了几个月,则应重新考虑数据仓库的业务范围。同样条件下,开发小规模的系统优于开发耗时的大系统。332螺旋式开发由上述可知,数据仓库的开发必须具备3个基本特征。第一,方法必须灵活。数据仓库设计必须能在没有详细定义系统内每个功能和数据元素的情况下进行数据仓库的开发。第二,数据仓库的设计不必苦于够在一个系统来满足用户团队的各种需要有时要求甚至是矛盾的,企业级系统专门用于处理企业级策略。第三,开发过程必须是迅速丽准确的。为了满足数据仓库的构建要求,在实际应用中已经用螺旋式开发方法替代了原来的瀑布法。螺旋式开发方法如图36所示。图中开始的几次反复可以看作是对概念的验证,它形成了系统的基础,建立了许多基本的系统基础结构。这一过程限制淘宝网商城首页HTTP/WWWKOOPPCOM墼舱库在电子商城系统中舶应用研究第三章上海汇爵集团电子商城数据仓库系统设计了内置业务功能的数量。每向外通过一次螺旋,就会添加新的功能,每次经过的螺旋末端均为评估阶段,在这一阶段用户和开发者以协商的方式评估系统发展的状况以及在下次反复中所应加的新功能。圈36螺旋式开发方法螺旋式开发方法的各个阶段如下1定义是描述兑现和数据仓库范围的过程。该过程由用户驱动,用于解决由业务决策者所代表的需求。定义将于初始项目对象一起在项目说明中记录下来。2分析详细检查定义阶段所提出的要求。该过程还研究并一记录具有任何可能
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024-2030年中国烟煤细分行业未来趋势及投资前景研究研究报告
- 2024-2030年中国左炔诺孕酮片行业消费动态及营销趋势预测研究报告
- 角色基础网络课程设计
- 2024-2030年中国光固化保形涂料行业竞争动态与产销需求预测报告
- 2024-2030年中国不锈钢线材行业发展动态及投资前景预测研究报告
- 内燃机课程设计进气道
- 光纤预制棒相关行业投资规划报告
- 济南大学《网上创业》2021-2022学年期末试卷
- 年度大型工程基础稳定性勘探及检测设备市场分析及竞争策略分析报告
- 济南大学《工程测量》2023-2024学年第一学期期末试卷
- 国家电网有限公司十八项电网重大反事故措施修订版-2018版
- 古诗选择题带答案解析
- 噪声监测培训20150416+(1)
- 桥梁BIM入门教程Civil3D基础课路桥梁工程
- 口腔科应急预案详解
- 砌筑工-技能评分记录表3
- 滚牙前外径查询表
- 人教版数学五年级上册课本习题(题目)
- (完整word版)电气设备预试方案
- upvc污水管道施工方案
- 钢筋合格证(共6页)
评论
0/150
提交评论