OLAP数据挖掘技术在QAD产品审计中研究_第1页
OLAP数据挖掘技术在QAD产品审计中研究_第2页
OLAP数据挖掘技术在QAD产品审计中研究_第3页
OLAP数据挖掘技术在QAD产品审计中研究_第4页
OLAP数据挖掘技术在QAD产品审计中研究_第5页
已阅读5页,还剩87页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、OLAP和数据挖掘技术在QAD产品审计中的应用与研究摘要随着时代的进展,现在的企业已大多进入了“无纸化”的办公时代。原有的手工信息输入与分析已无法适应现在日益增多的信息数据。能够讲,企业每天都面临着大量的商业信息,而如何利用、分析好这些数据从而为企业的进展提供指导就显得尤其重要。关于QAD公司而言,它是一家专门为制造业提供企业解决方案的软件供应商,它在全球范围内的九十多个国家拥有超过六千多个客户。每一年,它都会对每个客户使用公司软件产品的情况进行审计。在每个客户审计的过程中,自然会产生大量的数据。关于公司而言,所有客户的审计数据将是百万级的。面对如此庞大的数据,如何从这些数据中猎取公司所需的信

2、息,分析出审计的结果,并得出一定的指导性结论就显得尤其重要。为此,本文提出了一种基于联机分析处理(OLAP)和数据挖掘技术的审计信息分析的设计。OLAP和数据挖掘技术是近年来数据库领域和人工智能领域研究的热点,它通过对大量数据进行分析和处理,得到隐含在这些数据背后有用的信息和知识。本项目实现了基于SQL Server 2008分析服务(SSAS)在审计信息立方体之上的OLAP多维数据分析和MDX多维数据查询,并利用决策树、神经网络等数据挖掘算法对审计信息数据进行挖掘,得出有用的知识。为实现上述目标,首先需要决定存储分析后的审计信息的数据库版本与类型以及最终生成审计结果报表所需使用的报表生成工具

3、。为此,针对数据库的选择提出了以下几种可行的解决方案:Progress数据库、MySQL数据库、Access数据库和SQL Server数据库。依照实际需求,分不比较了以上四种数据库的优缺点,最终权衡之后选择了SQL Server数据库作为本项目的关系数据库服务器。同样,针对报表生成工具,也提出了以下几种可行的解决方案:QAD公司自己实现的报表生成框架、微软的Access工具和微软的Excel工具。分析了以上几种工具使用的便捷性以及代价考虑,最终选择了大伙儿比较常用且比较轻量型的Excel作为我们最终的报表生成工具。在选定了数据库和报表生成工具的解决方案之后,便要对历史审计数据进行一定的整理、

4、分析以及数据提取和存储工作。审计数据是由公司产品所提供的功能菜单运行后自动生成的,客户在对这些多种多样的报表整理时,可能依照自身的适应进行不同的打包方式。因此公司从客户手上得到的审计数据结构则是复杂繁多的,没有一定的规律性可循,这对我们进行历史审计信息的提取造成了一定的困难与阻碍。通过对历史审计数据的详细分析之后,找到了所需要的两个审计文件:应用使用详细报告和许可权使用情况报告。其他诸如数据库使用报告等日志文件目前对我们来讲并没有太大的意义。因此我们的目标只是在每个客户的审计数据文件夹下找到这两个文件,分析提取数据,并存入数据库中。在实践中,发觉假如不对历史数据进行处理,直接运行数据分析提取程

5、序,则效率十分低下。究其缘故是因为程序每次都需要遍历每个文件来确认该文件是否为所需的那两个报告文件,因此要花费大量的时刻。为解决这一问题,就需要在程序之上再加上一层数据预处理的程序,立即不需要的历史数据文件过滤,按照原有的目录结构,只留下所需的那两个文件。如此,在数据预处理的基础上,程序运行的效率将大大提高。解决了这一问题之后,便是要将分析出的数据存入数据库中。依照历史审计数据信息及相关的外部数据信息,按照需求,共设计了六张数据表。该数据库将为后面的OLAP提供高效的数据源。有了关系数据库源,便可利用SSAS对审计数据进行维度建模。本文重点论述了审计信息数据的概念模型设计和逻辑模型设计,包括度

6、量、维度和粒度的设计,事实表和维表的设计,同时采纳了雪花模型构造了逻辑视图,最终生成了审计信息的多维立方体,供最终生成审计结果报表和数据挖掘提供了多维数据源,完成了OLAP在QAD产品审计中的应用。在生成审计结果报表时,使用Excel中的透视表,建立数据库连接,选择建立的多维数据源,便可读取多维数据中的内容。为了方便客户批阅,特不定义了十多个报表模板,可供客户选择,差不多涵盖了所有的审计结果,且客户能够自主选择想要查看的内容,对数据进行一定的钻取等,十分方便。最后,便是使用数据挖掘技术对审计数据进行一定的挖掘任务研究。传统的数据挖掘过程往往基于关系数据库。本文探讨了基于OLAP的数据挖掘技术在

7、产品审计中的应用,分不使用了决策树算法和神经网络算法对同一个挖掘模型进行了挖掘,并利用提升图比较了两个算法的挖掘准确性。本文所建立的挖掘模型为分析客户选择QAD公司不同产品类型组合的因素,意在发觉一个行业领域内使用QAD公司产品组合的最佳实践,为不同的客户在选择公司产品组合时提供一定的建议。由于时刻及精力的有限,只是粗略探究了数据挖掘在公司审计中应用的可能性。相信能够利用该技术挖掘出更多对公司经营决策有指导性意义的知识。本文的研究和结果表明,OLAP和数据挖掘技术在QAD公司产品审计中的应用是可行的,而且是便捷高效的。它不仅从企业治理的角度为公司决策层与销售人员提供了更为智能的分析方法和途径,

8、还为审计分析人员提供了新的手段和视角,来挖掘出更多数据背后隐藏的有用的知识。关键词:数据挖掘,OLAP,多维数据分析,SQL Server 2008分析服务,产品审计THE APPLICATION AND RESEARCH OF OLAP AND DATA MINING TECHNOLOGY IN QAD PRODUCT AUDITABSTRACTWith the development of the society, science and technology, most of the enterprises have now entered the paperless office ti

9、me. The original manual input and analysis couldnt deal with the increasing information and data any more. Every day, enterprises are faced with lots of business information, and be aware of know how to use these data to analysis, to provide guidance for development of the enterprise is especially i

10、mportant. For QAD which is a software supplier company who provides solutions to specialized manufacturing enterprises, has more than 6,000 multiple clients within 90 countries worldwide. Every year, all clients using software products conditions will be audited by the company. In every customer aud

11、it process, large amounts of data will be produced. For QAD, the number of all customers audit data gathered together will be millions. Facing such large numbers of data, it is especially important to know how to get the information the company need, to analysis the audit results, and some guidance

12、conclusions from this huge and messy data.Therefore, this paper proposed a multi-dimensional analysis of QAD product auditing design based on OLAP and data mining technology. OLAP and data mining technology have becoming a research hot spot of database and the field of artificial intelligence during

13、 recent years. It through the large data analysis and processing, implicates useful information and knowledge behind these data. This project realized OLAP multi-dimensional data analysis and MDX multi-dimensional data query on the basis of SQL Server Analysis Service 2008 in the audit information c

14、ube, and achieved audit information data mining using decision trees and the neural network data mining algorithm for audit information to draw useful knowledge for the company.To achieve this goal, we first need to decide the database version and type to choose, which is used to store the audit inf

15、ormation after the analysis and which reporting framework tools to choose to generate final audit result report. Therefore, several feasible solutions of databases based on demand were put forward. They are Progress database, MySQL database, Access database and SQL Server database. According to actu

16、al needs, and after comparing each advantages and disadvantages of the above four database servers, the SQL server database was chosen as the relational database server finally. Similarly, for reporting tools, the following feasible solutions were also put forward: QAD reporting framework realized b

17、y the company, Microsoft Access tool and Microsoft Excel tools. Excel was chosen as the reporting tool finally because most of the users are very familiar with it and it is powerful for generating various reports though it is very lightweight.After finished selection of database and report generatio

18、n tool, the next step was to deal with the audit data. We need to sort out, analysis and extract data and finally make these useful information be stored in database correctly. Audit data is automatic generated by using the product function menu. Customer will work on these various reports according

19、 to their own habit of different packaging. So the company obtained from the customer on the audit data structure is complex range, no certain regularity, this to our historical audit information extraction has caused some difficulties and obstacles. Through analyzing the historical data after detai

20、led analysis of audit, we found out that only two kinds of report are needed, including Application Detail Usage Profile Report and Licensed Application Report. Other files such as database log files are not so important to us for now. So our goal is to find out these two files in each customer audi

21、t data folder and to analysis, extract data from these two files and store the extracted information in database. In practice, we found that if we run data processing procedure directly instead of pre-processing the historical data first, then the data processing procedures efficiency is very low. T

22、he reason it that every time the procedure is run, it need to traversal every file in the appointed folders to see whether this file is useful for us or not, that is to say the procedure will open each file to see whether this file is the Application Detail Usage Profile Report and Licensed Applicat

23、ion Report or not, thus a lot of time is spent. To solve this problem, it need to plus a layer of data pretreatment process before the above processing procedures. That is to say, after running the data pretreatment process, some historical audit files which are not needed will be filtered, only two

24、 kinds of report mentioned above will be remained according to the original directory structure. So, on the basis of data pretreatment, the program will greatly improve the efficiency of the operation. After solving this problem successfully, it is time to deposit the analyzed data into database. Ac

25、cording to the historical data information and related auditing data information stored in external database, in accordance with the requirement, and six tables were designed. This database filling with audit information data will provide efficient data source for OLAP mentioned below.Since we alrea

26、dy have a relational database source now, we can use SQL Server Analysis Service to build dimensional modeling for audit data. This paper detailed discusses the concept of audit data model design and logical model design, including the measure, dimension and granularity design, fact table and dimens

27、ion tables design, also adopted the logic structure model of snowflakes, generating a view of the audit information and eventually generated multidimensional cube of audit information, which provide a multidimensional data source for audit results statements and data mining. So the application of OL

28、AP in QAD product audit has been brought into effect. In order to generate audit results report, we can use Excel, establish the pivot table, and choose to build database connection of multidimensional data source. Then we can read the contents of the multidimensional data. In order to facilitate cu

29、stomer review, more than ten report templates were defined, which can be provided for customer to choose, basically covers the entire audit results, also customers can choose to have a check on the content and the data of drilling, very convenient at all.Finally, the data mining technology should be

30、 used to do some mining task study on audit data. The traditional data mining is often based on relational database. However, in this paper, it details the application of data mining technology based on OLAP in product audit, using decision trees algorithm and the neural network algorithm respective

31、ly for the same mining model, also a lift chart was build to compare the two algorithms mining accuracy. This paper established a mining model to find out the key factors which influence the customers choice of different types of QAD product combination, in order to find a best practice for using a

32、combination of products which QAD provides in a specula industry field, which can be used for different types of customers in choosing products combination provide some suggestions. Due to the limited time and energy of mine, I only make a rough exploration of the possibility of the application of d

33、ata mining in company product audit. According to the existing results, it is believed that the data mining technology can be used to excavate more guiding significance of knowledge for operation decisions.This research and results show that the application of OLAP and data mining technology in QAD

34、product audit is feasible and it is high efficient and more convenient also. It not only provide more intelligent analysis of the ways and means form the perspective of business management for company administrators and sales personnel, but also provided new means and methods form the perspective of

35、 audit research for the company audit researchers, to create more useful knowledge hiding behind the audit data for company development.Key words: data mining, Online Analytical Processing, multi-dimensional data analysis, SQL Server 2008 Analysis Services, product audit目 录绪论-1QAD产品审计问题简述及分析-11.2 研究

36、目的与意义-11.3 国内外研究现状-21.4 论文研究内容-2解决方案比较与选定-42.1 数据库的选择-42.1.1 Progress数据库-42.1.2 MySQL数据库-42.1.3 Access数据库-42.1.4 SQL Server数据库-42.2 报表工具的选择-52.2.1 QAD报表生成框架-52.2.2 微软Access报表-52.2.3 微软Excel报表-52.3 本章小结-5数据处理与存储-63.1 数据的分析与处理-63.1.1 历史数据结构与内容概述-63.1.2 历史数据处理-73.2 数据的存储-83.3 本章小结-11OLAP的应用-124.1 OLAP技

37、术概述-124.2 维度、度量及立方体的设计-124.2.1 维度的设计-124.2.2 度量的设计-134.2.3 事实表和维表的设计-144.3 建立审计多维数据模型-154.4 审计信息MDX多维查询分析-174.5 审计信息统计报表生成-184.6 本章小结-20数据挖掘的应用-215.1 数据挖掘技术概述-215.2 基于决策树算法的数据挖掘应用-225.2.1 决策树算法的差不多原理-225.2.2 使用决策树算法-235.3 基于神经网络算法的数据挖掘应用-255.3.1 神经网络算法的差不多原理-255.3.2 使用神经网络算法-265.4 本章小结-27第六章 结论-286.

38、1 论文总结-286.2 展望-28参考文献-30谢辞-31第一章 绪论1.1 QAD产品审计问题简述及分析QAD (企安达) 公司是国际上闻名的MRP = 2 * ROMAN II软件公司,它于1979年在美国加州成立,是一家专门为制造业提供企业解决方案的供应商。目前在全球范围内,已有遍布90个国家的6000个制造商企业使用了QAD的产品。随着企业规模的扩大及公司ERP软件使用客户数的增多,每年对产品使用情况作一次审计就显得特不有必要。其产品审计的作用要紧表现在以下两方面:一方面,QAD的产品是通过软件许可权(License)进行收费的,客户依照自身需求能够选择记名和并发两种许可权方式,通过

39、购买一定数量的许可权,对软件进行使用。但在实际使用过程中,为了不阻碍客户的日常工作,QAD同意客户有违反许可权的行为存在,比如同时使用软件的人数超过了所购买的许可权数量。为此,就十分有必要通过每年的产品审计,发觉那些有违反许可权使用情况的客户,对他们进行额外的补收费,以保证公司方面的利益。另一方面,由于产品审计的数据是由客户通过产品软件的内置菜单自动生成,再由客户将这些数据打包给公司,因此产品审计这一前期的数据搜集过程是需要客户的支持的。为了激发客户的积极性使得能更好的配合审计,公司认为能够对这些产品使用数据进行一定的分析,生成相应的使用情况分析报表提供给客户,让他们明白自己在软件的使用过程中

40、,哪些模块并未得到充分的利用等。同时公司自身的销售与执行治理层也希望通过审计的结果,了解目前产品和模块在不同领域、不同区域的客户处的使用频率与使用量,从而能更好的指导新产品的开发方向,更是希望能从中得出每个领域的最佳实践,以此来指导公司的客户更好的使用产品,使他们物尽其用,物更有所值,最终达到双赢的目的。基于以上两点,同时考虑到历史数据量的巨大性,因此公司特地建立了UCA(User Count Audit)for Master Bundle那个项目,并希望能通过此来较好的实现这些目标,同时尽可能的高效、简单,便于操作。1.2 研究目的与意义计算机科学与信息技术的飞速进展,使得人类能够借助计算机

41、为自己解决许多问题。但随之而来,是我们每天面对的信息量不断增多扩大。在如此的大环境下,关于一个企业而言,要想保持自己在行业内的竞争优势,没有处理大量数据的能力是不行的,以往的手工数据录入、分析在海量的数据面前也是无能为力,更是低效,跟不上时代节奏的表现。因此乎,人们想到了数据库技术,它能对现实世界存在的大量数据进行有效的组织与治理。然而随着数据库应用的规模、范围和深度的不断扩大,随着数据和数据库的急剧增长,仅仅依靠数据库治理系统的查询检索机制和统计学分析方法已远远不能满足现实需要,它迫切的要求自动、智能地将待处理的数据转化为有用的信息和知识。确实是在这种背景下,使得OLAP(Online An

42、alytical Processing)和数据挖掘(Data Mining,简称DM)为了迎合这种要求而产生并迅速进展起来。使用OLAP和数据挖掘技术,对产品审计数据进行多方面的综合分析,从中能够发觉对公司业务决策所需的知识,并以直观易明白的形式将分析结果展示给客户与公司治理层,为他们的决策提供了客观依据。通过对产品审计信息数据库进行数据联机分析,更能够方便的生成多种形式的报表,使软件的开发商与使用商都能快速的了解软件使用的各项统计信息。另外,通过研究本课题,通过最终结论的证明,更能够将OLAP和数据挖掘技术更多更好地应用在相类似的行业中,使本课题的研究更具有有用价值和宽敞的进展前景。1.3

43、国内外研究现状 OLAP和数据挖掘技术是目前国际上数据库、数据仓库和信息决策系统领域最前沿的研究方向之一,引起了国内外众多领域科学家和工商界的广泛关注。关于这方面的应用与研究,国外比国内领先许多,那个地点要紧以国内现状阐述为主。国内对OLAP的研究起步较晚,要紧是对数据立方计算、存储,多维数据查询和物化视图等关键技术的研究,以及基于国外OLAP服务器产品的OLAP应用。国内企业关于决策分析需求大部分差不多上通过开发一些功能单一的专用程序来完成1。近些年随着国内企业信息系统的不断完善与进展和数据的持续积存,各行各业差不多普遍关怀数据挖掘技术的应用。国内应用数据挖掘的企业依旧以通信企业(移动、联通

44、、电信)为首,应用的深度和广度都处于领先地位,缘故要紧是行业竞争比较激烈、直接,另外通信业的数据质量和数量都还不错。除了通信业,国内的银行、保险、证券使用数据挖掘技术的意愿也比较强烈,这跟国际趋势相吻合,以后几年金融领域的数据分析应用一定会从传统的统计分析进展到大规模数据挖掘应用。但跟国外相比,国内零售业对数据挖掘的应用看起来并不太热衷,这可能与客户信息的完整性有关,也确实是讲“啤酒和尿片”的故事需要再过几年才能在国内零售业发生。 我国政府部门中使用数据挖掘技术比较领先的是税务系统,国税总局对信息系统建设及数据分析应用工作也越来越重视。 随着电子商务的普及,各大商务网站差不多大规模使用数据挖掘

45、技术,同时迅速从中取得商业价值。比如,国内好多网上商城差不多开始使用数据挖掘技术进行客户聚类或者商品关联推广。 另外,个人认为搜索引擎企业使用数据挖掘技术的需求也特不迫切。从技术角度讲,他们需要使用数据挖掘算法发觉Web页面之间的关联与结构关系,更好的进行网页推送;从商务角度讲,各大搜索引擎需要取得更多的广告收入,需要对点击流数据进行分析,以实现最大的商业利润。尽管数据挖掘差不多在移动通信、保险、证券、银行、电子商务等相关行业进行了较为成功的应用,但在企业日常业务信息系统中的应用,如产品审计信息等目前还处于起步时期,需要更多的研究与应用。1.4 论文研究内容OLAP和数据挖掘各有所长,然而也各

46、有缺陷,而若能将二者结合起来使用,进展一种建立在OLAP基础上的,针对多维数据的数据挖掘技术,则更能适合实际的需要。本课题拟在探讨一种将OLAP与数据挖掘相结合的方法,使之能运用到QAD公司的产品审计分析中。 针对以上的研究内容,本课题将提出一种基于OLAP和数据挖掘技术的软件使用信息数据的多维分析系统的设计,研究使用基于SQL Server 2008 分析服务(SSAS)在用户审计数据仓库之上的OLAP多维数据分析和MDX多维数据查询,并研究使用神经网络规则,决策树等数据挖掘算法及改进算法对模块及程序使用情况进行数据挖掘,得出有用的知识,从而关心指导客户更好更高效的使用公司产品,也可使公司对

47、现有产品有更好的了解与规划。具体的要紧研究内容如下:1 利用OLAP技术和数据挖掘技术的差不多理论知识、多维分析方法及数据立方体的存储结构,分析其在QAD产品审计中的具体运用。2. 对历史数据进行过滤、分析、提取并存入预先定义的数据库表中。3. 完成产品审计信息多维立方体的分析、设计,采纳维度建模的方法建立了产品使用信息的多维立方体。4. 进行产品审计数据结果的访问设计,定义Excel报表模板用于显示数据分析结果、查询等。5. 对数据挖掘中决策树算法、神经网络算法等进行分析,并进行改进,利用这些算法对产品审计信息进行数据挖掘,使用SSAS的数据挖掘功能来实现并得到有用的知识。第二章 解决方案比

48、较与选定2.1 数据库的选择由于已确定了使用OLAP和数据挖掘技术对QAD产品审计信息进行分析与研究,但在具体实现上仍需要有对多个可行方案进行比较选择,最终选择最为合适的解决方案,存储历史数据信息的数据库的选择确实是其中之一。如下列举了几个可选的数据库方案,并依次分析它们的优点与缺点,最终按照比较的结果确定最可行的方案。2.1.1 Progress 数据库使用Progress的数据库的优势特不显而易见。QAD软件的基础编程语言是Progress,也确实是讲大部分的产品差不多上用Progress编写而成,其使用的也是Progress的数据库。如此一来,关于分析存储历史数据时,集成起来会相对容易些

49、。但同时它的缺点也专门明显同时对本项目来讲可能是致命伤。由于Progress数据库的普及性并不高,在编程与连接数据库时会要求一定的专业知识,这可能会造成一定的潜在苦恼,同时Progress数据库可能得不到其他主流数据分析工具的支持。另外,最终是要通过数据库中的内容,生成审计结果报表来查询、了解相关结果统计信息的。在这点上,Progress数据库可能专门难有效灵活地做到这点。2.1.2 MySQLMySQL是个开源的数据库服务器,它的优点是能够运行在多种平台,如windows,Unix/Linux;它体积专门小,专为WEB数据库设计,特点是响应速度特不快,要紧面向中小企业的数据库使用。同时它是真

50、正的多用户多任务的数据库系统,它占用系统资源专门少但功能却专门强大,能够作为大型数据库系统使用,最重要的是其标准版是免费的。尽管作为一个免费的数据库服务器而言,使用MySQL的性价比专门高。事实上QAD公司的UCA Team使用的确实是MySQL的数据库,但关于本课题而言,要面对海量的数据,MySQL数据库就显得有些力不从心了。2.1.3 AAccess数据库是个小型数据库。在本项目中使用Access数据库最大的好处在于,它本身就提供了表生成器、查询生成器、报表设计器以及数据库向导、表向导、查询向导、窗体向导、报表向导等工具,能专门方便的生成所需的审计结果报表。另外Access基于Window

51、s操作系统下的集成开发环境,该环境继承了各种向导和生成器工具,极大地提高了开发人员的工作效率,使得建立数据库、创建表、设计用户界面、设计数据查询、报表打印等能够方便有序地进行2。但同时,正因为它是小型数据库,既然是小型,就有它的全然局限性。关于本项目而言,它的数据库容量实在是太小了,且性能也并不太好。如在以下情况下数据库差不多上会吃不消:数据库过大,一般Access数据库达到50M左右的时候性能会急剧下降;记录数过多,一般记录数达到十万条左右的时候性能就会急剧下降;网站访问频繁,经常达到100人左右的在线。关于本项目而言,数据量是百万条的,可见Access数据库也并不合适。2.1.4 SQL

52、Server 数据库SQL Server数据库是美国Microsoft公司推出的一种关系型数据库系统。它是一个可扩展的、高性能的、为分布式客户机/服务器计算所设计的数据库治理系统,实现了与Windows NT的有机结合,提供了基于事务的企业级信息治理系统方案。关于本项目而言,使用SQL Server数据库有以下优势:由于同是微软的产品,通过Excel,专门容易能够生成基于SQL Server数据库的报表,此为其一。另外,Progress的ODBC(Open Database Connectivity,开放式数据库互接)驱动能够连接到SQL Server数据库的。这点比较重要,因为QAD公司的产

53、品MFG/PRO的eB2版本的解析器是用Progress进行编码的,因此专门需要两类数据库服务器能够比较方便地进行互连,此为其二。最后,关于我们的百万条数据而言,SQL Server能够做到较高性能的支持,同时微软提供的SSAS(SQL Server Analysis Service)工具更能为我们后面进行的OLAP和数据挖掘的应用提供足够的支持与实现。由此看来,SQL Server能够较好地满足我们对数据库的要求,唯一的不足可能依旧要使其与QAD的其他产品相集成可能会有些苦恼,因为大部分的QAD产品所使用的差不多上Progress数据库。但这并不阻碍我们选择SQL Server作为本课题的数

54、据库使用。 2.2 报表工具的选择最终分析处理的审计结果是需要以报表的形式展现给客户和公司治理者的,因此选择一个合适的报表工具也显得尤其重要。以目前的情况看来,我们列出了三种可选的方案,以下将对这三种方案分不进行优缺点的论述,最终选择适合我们的报表工具。2.2.1 QAD报表生成框架这是QAD自己开发的一个报表生成框架,能够作为Appshell的插件进行使用,同时公司职员对此框架都比较熟悉,这是它的优点之一。另外,由于该框架是QAD自己开发的,显然它也是基于Progress数据库的,如此一来在与其他产品的集成上就显得特不容易。但那个看似最优的执行方案关于本项目而言实在是过于重量级了。要想使用那

55、个框架,用户必须安装有QAD的企业应用或标准应用。而这两个软件应用是相当大的,安装的过程也比较复杂,特不耗时,整个过程可能需要两三天。也正因为如此,那个框架不太适用于本课题的研究使用。2.2.2 微软Access报表微软的Access用于生成报表十分简单,然而它的报表工具与数据库服务器是集成在一起的。由于我们先前差不多选定了SQL Server作为我们的数据服务器,因此在那个地点选择Access报表工具就显得有些不太适当了。2.2.3 微软Excel报表Excel是微软办公套装软件的一个重要的组成部分,几乎所有的Windows平台的操作电脑上都会安装有Excel,它能够进行各种数据的处理、统计

56、分析和辅助决策操作,广泛地应用于治理、统计财经、金融等众多领域。Excel被人熟知,使用起来也较为方便,更能够生成多种样式的表格图表等,能够讲是一个强大的数据后期分析工具,且比较轻便。因此我们最终选择Excel作为我们后期的报表生成工具。2.3 本章小结本章先后分析了数据库服务器和报表工具的可行方案,最终确定选择了SQL Server数据库服务器和微软的Excel报表工具。要紧缘故在于:SQL Server能够专门容易的应用Excel生成报表,同时许多客户都对Excel特不熟悉,使用起来会比较容易。同时SQL Server也有能力处理百万级的数据,并能利用工具通过Progress代码来访问SQ

57、L Server数据库服务器。另外,利用SSAS也能较为方便地使用OLAP和数据挖掘技术。第三章 数据处理与存储3.1 数据的分析与处理尽管历史数据是由程序自动生成的,但在具体的打包处理操作上则是由人手工完成的。同时这些历史数据来源于各个不同地域不同行业的公司,最终导致历史数据的结构比较杂乱,需要通过一定的分析与处理,最后将有用的数据提取,存入数据库中。3.1.1 历史数据结构与内容概述正如上面所讲的,历史数据十分杂乱,且目录层次多,包含的压缩包层次也多,处理起来着实让人头痛,下面几部分将认真介绍处理方式,那个地点就先不赘述了。要紧的数据文件结构是如此的:最外层是年份名命名的文件夹,比如200

58、9。在那个文件夹下面是一堆以客户的8位ID进行命名的文件夹,比如00000783。在每个用户的文件夹下,又有按照审计日期命名的文件夹,比如Aug-20。在这些日期下存放着审计的大量信息,结构尽管千变万化,但大致的内容却大致相同,要紧如下图所示:图3-1 历史数据内容结构图如图3-1所示,所有的审计数据要紧包括两部分内容:审计信息和客户信息,其中客户信息按照客户ID在QAD的Notes数据库中进行匹配并将相关数据存入数据库中。而审计信息包括以下四部分内容:日志(Log):要紧是QAD产品MFG/PRO的Progress系统操作记录文件,记录了用户在服务器上的操作,如登录/登出等。审计程序生成报告

59、(Report generated by audit programs):这些审计报告是由MFG/PRO里的菜单程序运行而生成的,比如违反许可权报告,供应链报告等。数据库表信息(DB Tables):这些是从MFG/PRO中备份出来的数据库表信息及数据库表的具体内容等。差不多信息(Basic Information):这些文件包含客户使用MFG/PRO的具体信息,如版本名和版本号等。从以上信息可见,历史审计数据包含了太多的数据,一些数据库日志文件和数据库表文件可能高达1G的内容,但它们对我们的审计并没有太大的用处,假如不先预处理这些历史文件,会使得后面的处理程序运行起来特不的慢。缘故要紧在于,

60、处理程序会遍历每个目录下的每个文件,通过打开文件,猎取文件表头来推断该文件是否是我们所需要的那个类型文件。因此假如存在太多的无用文件,这将大大的阻碍程序的运行效率,这确实是我们需要文件过滤这一步骤的缘故,具体的操作将在下节进行具体描述。下面要讲讲我们所需要的到底是哪些文件。实际上,这是针对MFG/PRO eB2版本之后而言的,因为早于eB2版本的程序并可不能生成我们所需的这两个文件,这也是在具体程序运行后出现有些客户有有效的审计信息,而有些客户没有的缘故之一。下面确实是我们需要的那两个文件:ad.prn Application Detail Usage Profile Report ( lva

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论