【毕业学位论文】(Word原稿)Web日志分析的设计与实现-软件工程_第1页
【毕业学位论文】(Word原稿)Web日志分析的设计与实现-软件工程_第2页
【毕业学位论文】(Word原稿)Web日志分析的设计与实现-软件工程_第3页
【毕业学位论文】(Word原稿)Web日志分析的设计与实现-软件工程_第4页
【毕业学位论文】(Word原稿)Web日志分析的设计与实现-软件工程_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大 连 民 族 学 院 本 科 毕 业 设 计(论 文) 志分析 的设计 与实现 学 院(系): 计算机科学与工程学院 专 业: 软件工程 学 生 姓 名: 池涌泉 学 号: 04083205 指 导 教 师: 段晓东 评 阅 教 师: 完 成 日 期: 大连 民族学院 志分析的设计与实现 - I - 摘要 随着 务的发展 ,几乎各个政府部门,公司,大专院校,科研院所等都在构建或正在建设自己的网站。而与此同时,在构建网站建设中各个单位都会遇到各种各样的问题,那么对 务器的运行和访问情况进行详细和周全的分析对于了解网站运行情况,发现网站存在的不足,促进网站的更好发展重要性是不言而喻的。 在这次的设计中,完成的是一个 志分析程序, 就是来实现对网站的运行和访问情况分析,这次设计的主要思路是设计一个过滤器来将所关心的 信息进行过滤并存储到数 据库中, 如访问者的 问者的路径等, 然后 通过 筛选 数据库 中的数据 对 需完成 的功能模块有 用户的来源分析,流量分析, 访问路径分析 ,网页的相关性分析。 要完成本次设计要对以下几个知识点要有一定的了解,首先是对 务器的发送,接受请求要明确的认识,对过滤器的功能有一定的了解,对关联规则 有所掌握,对图存储结构中的邻接矩阵 有一定的认识并能够完成该算法在程序中的应用。 关键词: 志分析, 过滤器,关联规则, 邻接矩阵 志分析的设计与实现 - of on eb so on in or At in in of of eb in of to he of is In of a is to of of is to a to be of to of n as s s in on eb of to is of of To on to a of of on eb to to a of of a to On in a be to in 志分析的设计与实现 - 目 录 摘 要 . I . 引言 . 1 计基本前提和条件 . 1 内外研究现状 . 1 验方案的拟定 . 2 发环境及开发环境,语言 . 2 2 关键技术介绍 . 3 据挖掘 . 3 掘 . 3 滤器 . 3 联规则 . 4 . 4 3 系统设计 . 5 要设计 . 5 体设计 . 5 能模块说明 . 6 统用例图,流程图 . 6 细设计 . 8 滤器设计 . 8 户 路径显示 . 10 户 源查询 . 11 量分析 . 12 页相关性分析 . 13 据库设计 . 14 据库设计设计原则 . 14 据表设计 . 14 4 系统实现 . 17 统安装 . 17 统配置 . 错误 !未定义书签。 用说明 . 17 志分析的设计与实现 - 5 系统测试 . 19 6 运行结果 . 22 7 测试结果 . 错误 !未定义书签。 结 论 . 23 参 考 文 献 . 24 附录 A 附录内容名称(调研报告) . 错误 !未定义书签。 致 谢 . 25 志分析的设计与实现 1 1 引言 1969年 12月在加州大学洛杉矶分校的一次计算机通信试验开始计算,互联网已经发展了 37 年。 37 年来,互联网一直被认为是信息传播最快捷,最廉价的方式。目前在互联网的各项应用中, 务充分利用了互联网的快捷,开放等特性而普及。 面对巨大而复杂的网络系统以及浩如烟海的信息资源,研究人员将传统的数据挖掘技术和 行 掘,从半结构或无结构的 面中,以及使用者的活动中,抽取感兴趣的、潜在的模式,分析、研究,并加以利用。 几乎各个政府部门、企业 /商业机构、大专院校、科研院所,及成千上万的个人都在互联网上提供 务。在大多数情况下,我们都希望能够了解公众对所发布的信息的反馈,对 务器的运行和访问情况进行详细和周全地分析,可以及时了解网站运行情况,发现网站存在的不足,促进网站更好地发展,它的重要性是不言而喻的。管理 站不只是监视 速度和 内容传送。它不仅要关注服务器每天的吞吐量,还要了解这些 站的外来访问,了解网站各页面的访问情况。根据各页面的点击频率来改善网页的内容和质量,提高内容的可读性,以及跟踪包含有商业交易的步骤及管理 站 “ 幕后 ” 的数据等。为了更好地提供 务,监控 务器的运行情况、了解网站内容的详细访问状况等等就显得越来越重要和迫切 了。而这些问题都可以通过 据挖掘而得到解决。 计 基本前提和条件 本次设计是对 站的进行一些相关的分析,因此需要对网络的相关知识有一定的认识,还有就是对数据挖掘的知识有一定的了解因为这次设计中的网页相关性研究中采用的就是 掘的技术 实现手段是数据结构中的图算法 。 问日志记录了服务器接收请求以及运行状态的各种原始信息。通过对这些信息的统计、分析和综合,就可以识别用户,了解访问分布,掌握服务器的运行状况等,从而改进站点的性能和组织结构,提高图书馆信息服务的质量和效率。 务模式 非常简单,它主要有以下步骤。服务请求:客户端通过浏览器向 务器发出服务请求一系列信息。服务响应:务器收到请求后,根据请求将客户端要求的信息内容返回到客户端。 内外研究现状 万维网是到目前为止世界上最丰富和最密集的信息来源。如何开发和利用这些丰富的资源就成了人们普遍关注的问题。于是 ,数据挖掘技术和网络应用研究的结合 成了当今比较活跃的一个研究领域。 志 分析 是 志分析的设计与实现 2 使用挖掘的一个分支 ,它作为 析 的一个重要组成部分,具有独特的理论和实 践意义。 志 分析 中模式分析与模式表达通过发现的模式研究用户 览行为 ,理解访问者的浏览兴趣 ,这些都是提高 量和改善站点结构设计的重要环节。网络管理人员可以根据 志的分析结果改进网站的设计 ,实现网站的有效管理。 验方案的拟定 首先是对功能模块的分析,在这里我选择了一下的几个功能模块,用户开源分析,访问路径分析,流量分析,网页相关性分析。这些功能是 志分析中较为重要的几个模块。 要想对 行分析,首先是要理解 务器的请求发送过程,创建一个过滤器,这个过滤器是主要 对访问该网站的 行过滤也就是说可以截获所需要的信息。然后把这些截获的信息存储到数据库中,这些数据在对以后的分析有着很重要的意义,当然在设计过滤器时还要考虑的一个问题就是当访问网站的时候就要开始对其进行过滤,每当要换一个网页时就要对其在进行一次过滤,为了使得到最及时的信息,直到推出该网站的时候这个过滤器就结束对其的过滤。 这次的设计中进行网页相关新分析所采用的是在 析中比较多为采用的关联规则, 实现的方式为数据结构中的图算法 。 发环境 及开发环境,语言 互联网服务采用的是浏览器 /服务器 (B/S)模型 ,由于要完成的是 志分析的程序因此需要在服务器端进行进一步的改进。 在本系统中采用 为开发工具。如今, 经成为开发 态网站的重要而快速、有效的工具,它是全新的网络服务器端编程环境。 分利用了 强大功能,是一种优秀的服务器端技术。由于 于强大的 言,具有极强的扩展能力,良好的收缩性,以及与平台无关的开发特性,在根据 台构建动态商务网站成为主流的今天, 着其它技术所不具备的优势,能设计出优质的网页。 志分析的设计与实现 3 2 关键技术介绍 据挖掘 数据挖掘 (是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘其实是一类深层次的数据分析方法。数据挖掘与传统的数据分析 (如查询、报表、联机应用分析 )的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先未知,有效和可实用三个特征。 掘 掘 (基于 掘 , 据挖掘是针对各种 档和访问数据,应用数据挖掘的方法,提取抽象的、潜在的有用的知识。根据 掘中数据对象的不同,分为 容挖掘 (、 和 用记录的挖掘 (种方式。其中内容挖掘是从文件内容及其描述中获取有用的信息的过程;而结构挖掘则是从人为的链接结构中获取有用的知识的过程;使用记录挖掘是从 存取模式中获取有价值的信息的过程。在 掘过程中,有时将这三类数据融合在一起,以提高挖掘结果的质量 。 滤器 过滤器是一个对象,可以传输请求或修改响应。它可以在请求到达 前对其进行预处理,而且能够在响应离开 后对其进行后处理。所以如果你有几个 要执行同样的数据转换或页面处理的话,就可以写一个过滤器类,然后在部署描述文件 (把该过滤器与对应的 系起来。你可以一个过滤器以作用于一个或一组 个或多个过滤器能过滤一个或多个 个过滤器实现 口并定义它的三个方法: 过滤器执行 被调用,以设置过滤器的配置对象。 ;在过滤器执行 被调用。 志分析的设计与实现 4 联规则 关联规则是如下形式的逻辑蕴涵: 设 ,21 , A 是一个项集,关联规则是形如 的形式,其中 , 。关联规则具有如下两个重要的属性: 支持度 : B)P ( AB)s u p p o r t ( A ,即 A 和 B 这两个项集在事务集 D 中同时出现的概率。 置信度 : )|()( on f i de nc e ,即在出现项集 A 的事务集 D 中,项集 B 也同时出现的概率。 同时满足最小支持度阈值和最小置信度阈值的规 则称为强规则。给定一个事务集D,挖掘关联规则问题就是产生支持度和可信度分别大于用户给定的最小支持度和最小可信度的关联规则,也就是产生强规则的问题。 的存储结构 图是 一种 一种数据元素间为多对多关系的数据结构,加上一组基本操作构成的抽象数据类型。 图的存储结构有很多,本次设计中所采用的是相邻矩阵表示法,相邻矩阵表示法有以下几个特点 用邻接矩阵表示顶点间的相邻关系 ,用一个顺序表来存储顶点的信息 ,具体的介绍将在详细设计中进一步的说明 志分析的设计与实现 5 第 3 章 系统设计 要设计 体 设计 志分析的目标是对 通过由 业可以分析自身所有的网站活动 ,也就是从流量分析统计、网站访客行为分析、商业活动效果直至商业分析的点击行为分析。 通过 志分析的设计与实现 分析软件的用户界面、概要和模板确保了企业用户快速访问和了解他们所需要的信息。 因此一个 志分析的设计与实现 日志分析软件需要以下的几个功能。用户来源分析,访问路径分析,流量分析, 网页相关新分析。 功能模块如图 W e b 日 志 分 析流 量 分 析网 页 相 关 性 分 析相 关 信 息 显 示 用 户 来 源 分 析 访 问 路 径 分 析图 志分析的设计与实现 6 能模块说明 (1)用户来源分析 该功能模块的主要功能是 对截获的 进行源地址的确认 。这个被截获的 通过数据库查询语句与 中进行查询。 (2)访问路径分析 该功能模块的主要功能是对某一个 行 ,这个功能模块主要是为了网页的相关性分析中做一个基础,在前面说过当 问的时候会被过滤器 截取一部分的信息。 (3)流量分析 在特定的时间内对网站的访问量进行显示, 这样可以了解到该网站的 在哪个时间段内的访问量最大 。 (4)网页相关性分析 做为本次设计的重点以及难点,首先要对网页的相关性进行一个介绍,当 频繁的出现 一条路径 , 我们可以 称为主路径或是主干道,例如一个网站的主路径为 ,当我们得到这个结论后我们就可以判断很多的可能, 网站的开发人员可以在以这条路径为主干线,进行更多的网站的扩展,还可以 把 一些相关的内容都链接到这条主路径上有着很打的商业价值 同时还 考虑 到了 用户的访问的习惯性和方便性。 还有也可以知道哪条路径是网站的比较怪异的路径,这个也有着很大的价值,你可以知道一少部分人 的访问习惯,还有就是 可以防范一些不安全的因素。 本次的设计所完成的功能 为 以上的几个功能 ,这些功能是 志分析中的几个较为重要的功能,只有在完成这几个功能的前提下,才能继续对其进行展开。 统用例图,流程图 系统用例图如图 示: 志分析的设计与实现 7 管 理 者流 量 分 析用 户 来 源 分 析网 页 相 关 性 分 析访 问 路 径 分 析图 系统流程图如图 志分析的设计与实现 8 主 页 面功 能 选 择用 户 来 源 分 析流 量 分 析 网 页 相 关 性 分 析访 问 路 径 分 析图 细设计 滤器设计 (1)什么是过滤器 过滤器是一个程序,它先于与之相关的 面运行在服务器上。过滤器可附加到一个或多个 面上,并且可以检查进入这些资源的请求信息。在这之后,过滤器可以作如下的选择: 以常规的方式调用资源(即,调用 面)。 利用修改过的请求信息调用资源。 志分析的设计与实现 9 调用资源,但在发送响应到客户机前对其进行修改。 阻止该资源调用,代之以转到其他的资源,返回一个特 定的状态代码或生成替换输出。 (2)滤器的基本原理 在 为过滤器使用时,它可以对客户的请求进行处理。处理完成后,它会交给下一个过滤器处理,这样,客户的请求在过滤链里逐个处理,直到请求发送到目标为止。例如,某网站里有提交“修改的注册信息”的网页,当用户填写完修改信息并提交后,服务器在进行处理时需要做两项工作:判断客户端的会话是否有效;对提交的数据进行统一编码。这两项工作可以在由两个过滤器组成的过滤链里进行处理。当过滤器处理成功后,把提交的数据发送到最终目标;如果过滤器处理不成功, 将把视图派发到指定的错误页面。 (3)外界 与服务器请求回应 的过程 如图 图 看图便可知,外界与服务器之间都是 由外界给服务器个 求, 到服务器后就会变为 求, 当服务器 接收到该请求后就会给 外界一个 为对请求的回应 ,到外界后再变为 (4)过滤器如图 志分析的设计与实现 10 图 要想完成 志分析软件就需要对过滤 器有一定的 认识,在上图中不难看出 过滤器 可以 完成该功能, 在服务器前加入一个过滤器所有外界与服务器之间的请求都需要先经过过滤器,这样过滤器就可以截获一些我们所需要的信息,将其放入数据库中,过滤器的既可以在服务器接收请求前截获信息,也可在服务器响应后进行截获信息。 户 示 及 路径显示 访问 路径 的 显示看起来并不复杂, 但 要注意 与数据库连接 查询 , 数据库中有着很多的数据 ,因此 要考虑的是分页问题, 过滤器在过滤数据的时候会把一些我们不需要的信息也放入到数据库中 ,因此对数据的筛选也很重要,哪些数据有着参考价值,哪些数据没有参考价值是很重要 需要解决的一个问题。 对 于每一个 需要 查询 该 来源。 这样网站的管理人员就可以知道访问者 实际地址,这样 就知道了网站在哪些区域是受到的关注度较高,这样 可以对市场进行更进一步的调研 ,还有就是 这种对 址的查询也有助于 维护网站的安全性。 路径分析 也是对于数据库的操作,数据库中有一个 D 的数据 元素 ,这个指当一个 其网站进行访问的时候系统给出的一个由系统自动产生的字段, 通过这个字段就可以得到 其访问的相关的路径。 志分析的设计与实现 11 户 源查询 (1)思是 “ 网络之间互连的协议 ” ,也就是为计算机网络相互连接进行通信而设计的协议。在因特网中,它是能使连接到网上的所有计算机网络实现相互通信的一套规则,规定了计算机在因特网上进行通信时应当遵守的规则。 (2)所谓 2 按照 P(输控制协议 /协议规定, 个 2特换算成字节,就是 4个字节。一个采用二进制形式的 00001010000000000000000000000001” ,这么长的地址,人们处理起来也太费劲了。为了方便人们的使用, 间使用符号 “.” 分开不同的字节。于是,上面的 。 点分十进制表示法 ” ,这显然比 1和 0容易记忆得多。 (3)顾名 思义就是装有 一个较为完善的数据库非常庞大并且是收取费用的,因此本次设计中采用的是较为小的一个 个 下图所示: 图 其中 字段 0进制后的起始和末尾的地址 ,在这个地址中会每个地区所分配的 样方便与查找。 字段 (4)那怎样才能才能使这些 为在上面已经介绍了此需要在 他们之前把 进行转换,如下就是该公式的介绍 . 假设一个 算方法为 256256256256256256256 D*C*B*A* 即志分析的设计与实现 12 可。这样既可以得出与 (5)法 上面说到了 但 .” 字符串 ,所以在进行计算之前要先对 在这里我所选择的方法是 的方法,这个方法的意思是指 从 到 “.” 后就对其进行分割,把分割出来的那个部分放入到一个数组当中, 就是这样进行循环,知道把 量分析 (1)流量分析介绍 通常说的网站流量 (指网站的访问量,是用来描述访问一个网站的用户数量以及用户所浏览的网页数量等指标,常用的统计指标包括网站的独立用户数量、总用户数量 (含重复访问者 )、网页浏览数量、每个用户的页面浏览数量、用户在网站的平均停留时间等。此外 ,网站流量还有一层意思,就是一个网站服务器所传送的数据量的大小 (数据流量常用字节数 /千字节数等指标来描述 ),在网络营销中所说的网站流量一般与网站的实际数据流量没有一一对应关系。 (2) 流量分析实现方式 获取网站访问统计资料通常有两种方法:一种是通过在自己的网站服务器端安装统计分析软件来进行网站流量监测;另一种是采用第三方提供的网站流量分析服务。两种方法各有利弊,采用第一种方法可以方便地获得详细的网站统计信息,并且除了访问统计软件的费用之外无需其他直接的费用,但由于这些资料在自己的服务器上,因此在向第三方提供有关数据时缺乏说服力;第二种方法则正好具有这种优势,但通常 要为这种服务付费,虽然也有一些免费网站流量统计服务,但由于在功能方面会有一定的限制,或者通常需要在网站上出现服务商的标识甚至广告,对于商业网站来说使用免费服务肯那个不太合适。此外,如果必要,也可以根据需要自行开发网站流量统计系统。 (3)完成功能 本次的 设计 中我所完成的是网站页面流量的分析和独立 量的分析。 下面就来介绍两种不同的流量分析 。 独立 量:不同的 址浏览的数量。 要完成 独立 量 分析 首先需要对 所有的 行 区分即使是同一 要在不同的时间内访问就要计数一次,所以我在数据库中设立了 一个字段 个是由 服务器生成的字段,每当一个 行访问的时候服务器就会给一个 段 直到该 束了与服务器之间的通讯后这个 段将自动的消失 。 因此在进行数据库查询的时候只要对 段进行查询就可知道 独立 访问 流量 情况, 需志分析的设计与实现 13 要注意的是一个 段只对应了一个 此在数据库查询语句中需要指定了其唯一性, 还有就是要根据时间来 进行 独立 量 的分析 。 页相关性分析 (1)相邻矩阵 介绍 本次的设计中对于网页 相关性的实现 所采用的是图的存储结构中的 相邻矩阵表示法 ,相邻矩阵是表示顶点间相邻关系的矩阵若 式 ;0, 的权值为 15, 的权值为 20, 的权值为 15, 说明了数据库中 揭示 了这样 的一种信息,大部分的人 会这样的浏览该网站, 从 在到 , 通过 这样的 权值我们可以判断出 这样一个结论 : -当然这是一种最理想的情况 。 还有就是也会出现这样的一种状况 的权值为 10, 的权值为 15, 的权值为 20, 的权值为 15,但是其中还存在着这样的一种路径从 的也频繁的出现 而且与 的访问次数出现了相同的 情况 ,即 的权值也为 15,要是根据 前面所阐述的那样就会出现这样 , 的一种循环情况 这样 在算法的执行中就会进入一个死循环的状态, 这就需要 一个更好 解决 方案 ,可以这样,从 到 C,按权值走的话应该是 ,此时我们可以做个判断,就是假设这个页面已经出现过一次的情况下, 就不再对其进行 考虑,也就是说不再对 环 搜索,从 志分析的设计与实现 14 到 A,如 的权值尽比 的要小,这样 就可以记录 ,然后就在进一步的进行分析 。当得到这么一条主要路径后网站的开发人员很方便的可以对其 网站 进行 维护,也可以在这条路径加大网站的宣传力度或是增加广告效应等。 (4) 最不频繁路径 算法的实现 每个人都有着自己上网浏览的习惯,举例来说,很多人在访问新浪的时候都可能会先从新浪的首页开始浏览访问,但是会有一少部分的人会是先从 新浪体育开始浏览访问 ,这是对于一些大型的门户网站而言的, 最不频繁路径的概念不是指没人走的路径而是最怪异的路径 ,少部分的人所浏览的路径 , 先选择矩阵中所有的 在这些项中查找权值最大的 项 作为访问路径的头路径, 然后 对这些路径通过循环的方式一一比较 , 的权值为 3, 的权值为 3, 的权值为 2, 的权值为5, , 的权值为 2, 这些都是最小的一项 ,在这些数据中查找一个 最小项值最大的那个座位访问的开始,以此类推,因此可以得出个结论为在这种条件下最不频繁路径为-C。 当然也会可能出现回路的情况 , 这 里的 解决方案与频繁路径中的 解决方案相一致 。 据库设计 据库设计 设计原则 要想设计一个高质量的数据库管理软件,首先则要解决建立良好的数据库结构这一问题。关系数据库设计理论主要包括三方面内容,数据依赖、范式和模式设计方法。其中数据依赖起着核心的作用。为了便于程序设计,提高软件的可靠性和运行效率,我们必 须在信息分析的基础上合理的建立数据库。 据表设计 数据表明: 据库 下图所示: 志分析的设计与实现 15 过 滤 器 数 据 库编 号当 前 访 问 的 前一 路 径当 前 访 问 路 径I P 地 址系 统 分 配 编 号系 统 时 间图 数据库字段如图 示 。 图 字段 这个数据表中有 5 项数据,具体的功能在下面来介绍 . 志分析的设计与实现 16 键,用来给每次访问记录一个编号。 来记录每次访问的访问者的 次访问所访问 的路径,在这里访问路径是由一跳一跳记录,因为访问中你无法得知访问者到底要访问多少的访问路径 ,因此无法给出一个具体的长度。 来记录访问者的时间,这个时间是系统的时间。这个数据在后来的数据库操作中有着很大作用。 来给每次所访问的访问者一个编号,这个与主键不同,主键会随变化而增加,而这个是系统给访问者的一个 有在访问者结束网站的访问后这个 录当前访问路径的前一个路径,这个字段意义在于你可以判断页面之间是有关联的。这个在网页相关性的分析中有着很 重要的作用。 据 存储相关信息 图 数据库中所存储的信息的 一个实例。 图 以上记录的是两次访问, 个由于是服务器在访问因此 为 录的 一条一条的记录 。 在两次的访问中系统自动的给分配了两个 为保证区别两次访问,否则就无法进行 对数据进行分析 。 志分析的设计与实现 17 第 4 章 系统 实现 统安装 (1)安装 这里设默认安装目录为 d:装完毕后重新启动 计算机。 (2)安装 务器,在这里我们设默认安装目录为 D: (3)安装 X、 (4)安装 (5)安装 。 用说明 将文件夹放置到 d: .0下。并把包含 件的包放置在 d: .0。启动 务器,打

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论