一种Web日志分析系统实现_第1页
一种Web日志分析系统实现_第2页
一种Web日志分析系统实现_第3页
一种Web日志分析系统实现_第4页
一种Web日志分析系统实现_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、【Word版本下载可任意编辑】 一种Web日志分析系统实现 随着Web站点规模的增大,所涉及的应用服务种类越来越多。所谓网站(Website),就是指在网际网路(因特网)上,根据一定的规则,使用HTML等工具制作的用於展示特定内容的相关网页的集合。简单地说,网站是一种通讯工具,就像布告栏一样,人们可以通过网站来发布自己想要公开的资讯(信息),或者利用网站来提供相关的网路服务(网络服务)。人们可以通过网页浏览器来访问网站,获取自己需要的资讯(信息)或者享受网路服务。站点的监控和统计分析已成为站点建设的一项重要内容。Web服务器的访问日志文件记录了客户端每次请求的细节,因此,对Web站点访问日志开

2、展分析,已成为评估网站运行质量的一种常用方法。 大型Web站点的日志文件的重要特征是数据量巨大,每日几百兆甚至上千兆,并且随着时间推移不断增加。因此很多站点对日志文件开展按日分割(即每天产生1个文件),而这样就带来日志文件的离散性。传统日志分析系统过多关注日志分析的效率问题,而忽略了对离散文件开展连续分析的研究及对每次分析结果的构造化保存问题。随着数据挖掘技术逐渐由理论到实践以及人们对海量数据的利用越来越关注,开展持续分析以及对分析结果开展构造化存储甚至比效率显得更加重要。 现代关系数据库很重视原始数据的导入,一般都提供数据导入工具,本文就是通过在日志分析系统中嵌入SQL-SERVER的DTS

3、,从而使系统既有较高的执行效率,又很好地解决了离散文件的连续性分析与存储问题。 1 DTS介绍 大多数组织都使用多种格式和多个位置来存储数据。为了支持决策、改善系统性能或对现有系统开展升级,经常必须将数据从一个数据存储位置移动到另一个存储位置。Microsoft SQL Server 2000 数据转换服务(DTS )提供一组工具,可以从不同的源将数据抽取、转换和合并到一个或多个目标位置。要利用SQL-SERVER的这一强大功能,首先要建立DTS包。DTS包是数据转换服务的可执行单元,每个包都包含1个或多个顺序或并行执行的程序步骤。当包执行时,首先连接到正确的数据源,然后复制数据和数据库对象,

4、完成数据转换工作。每个软件包可包含一组已安排好的任务,它们定义要执行的工作、对数据和对象的转换、定义任务执行的工作流约束条件以及数据源和目标间的连接方式。DTS 软件包还提供一些服务,如记录软件包执行详细情况、控制事务和处理全局变量。 创立好DTS包后,便可在客户端通过DTS执行实用工具(如dtsrun)开展调用,这样就可将特定格式的数据从不同的数据源导入目的数据库中。由于DTS是系统提供的一种多线程数据迁移工具,因此具有很高的转换效率。详细的关于如何创立DTS包和dtsrun的调用方法请参考相关专着和SQL-SERVER联机帮助。 2 系统设计 通过上面的分析,本文认为运用DTS技术能够很好

5、地解决日志系统运行效率与数据构造化存储之间的瓶颈问题。整个系统的架构设计如图1所示。本设计基本实现了以下目标。 (1)适合日志文件的多样性 现有多种流行的Web服务器,如Apache、IIS等。不同服务器的访问日志文件所记录的内容大同小异,如请求资源、请求时间、客户IP、服务器IP、发送字节数和接收字节数等,然而记录格式却不尽相同。Apache和IIS的Web日志格式如下表1所示。 由此可见,日志文件属于半构造化的文本文件。对于这样的文件DTS是不能够直接导入到数据库中的。因此,在原始日志文件到本地后,应该对文件开展规范化处理,这里称为日志文件的归一化处理,即将不同的日志格式转换成一种DTS可

6、以直接操作的文件格式。 (2)离散非构造数据的构造化存储 日志文件在开展归一化处理后,便可使用DTS服务了。首先通过向导(Wizard)或数据转换服务中的工具定义一个DTS包,其中数据源是经过归一化处理的日志文件,导入目的库是系统使用的数据库。一切定义好之后,便可以将数据导入到数据库表中。 (3)开展远程离线统计 分析系统应该尽量做到对Web服务器的无干扰操作,否则会影响Web服务器的正常工作。为此,分析系统应该在物理上与Web服务器隔离,使之位于另一台服务器上,甚至另一个网络中。 (4)分析功能的定制性 功能定制也称为基于组件的软插拔技术,是现代软件所倡导的技术之一。因此,本系统的分析功能采

7、用基于软组件的方法,实现了系统功能的配置与定制。数据在导入数据库系统之后,便可以利用关系数据库和编程语言的强大功能开展数据挖掘和分析处理。 (5)功能丰富的报表输出B/S方式 B/S方式已成为人机交互和信息表现的主流方式。本系统也是通过该方式显示分析结果,通过丰富的报表、统计图等直观的手段,为网站管理者和决策者提供有价值的信息。 3 系统实现 本系统由2部分组成,其中后台服务程序负责完成日志文件、归一化处理、DTS入库、分析等功能,根据需要可以设置为自动运行和手动运行。现已实现了访问统计功能、频道统计功能、热门页面(HotPage)排行和用户地域分析等功能。前台显示程序是基于B/S构造,通过统计表和统计图方式直观地展示分析结果。本系统采用Java语言开发,为系统移植和扩展提供了方便。利用本系统对某大型新闻类网站开展的一个月度访问走势比照分析如图2所示。 4 结束语 本文介绍了Web日志分析系统的特点和目前研究重点,并概要介绍了Microsoft SQL Server的DTS技术。在此根底上开发的Web日志分析

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论