【毕业学位论文】（Word原稿）Web日志分析的设计与实现-软件工程

上传人：O*** IP属地：江苏上传时间：2016-07-09 格式：DOC 页数：30 大小：472.50KB 积分：20 举报 版权申诉

已阅读5页，还剩25页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

大连民族学院本科毕业设计（论文）志分析的设计与实现学院（系）：计算机科学与工程学院专业：软件工程学生姓名：池涌泉学号： 04083205 指导教师：段晓东评阅教师：完成日期：大连民族学院志分析的设计与实现 - I - 摘要随着务的发展 ,几乎各个政府部门，公司，大专院校，科研院所等都在构建或正在建设自己的网站。而与此同时，在构建网站建设中各个单位都会遇到各种各样的问题，那么对务器的运行和访问情况进行详细和周全的分析对于了解网站运行情况，发现网站存在的不足，促进网站的更好发展重要性是不言而喻的。在这次的设计中，完成的是一个志分析程序，就是来实现对网站的运行和访问情况分析，这次设计的主要思路是设计一个过滤器来将所关心的信息进行过滤并存储到数据库中，如访问者的问者的路径等，然后通过筛选数据库中的数据对需完成的功能模块有用户的来源分析，流量分析，访问路径分析，网页的相关性分析。要完成本次设计要对以下几个知识点要有一定的了解，首先是对务器的发送，接受请求要明确的认识，对过滤器的功能有一定的了解，对关联规则有所掌握，对图存储结构中的邻接矩阵有一定的认识并能够完成该算法在程序中的应用。关键词：志分析，过滤器，关联规则，邻接矩阵志分析的设计与实现 - of on eb so on in or At in in of of eb in of to he of is In of a is to of of is to a to be of to of n as s s in on eb of to is of of To on to a of of on eb to to a of of a to On in a be to in 志分析的设计与实现 - 目录摘要 . I . 引言 . 1 计基本前提和条件 . 1 内外研究现状 . 1 验方案的拟定 . 2 发环境及开发环境，语言 . 2 2 关键技术介绍 . 3 据挖掘 . 3 掘 . 3 滤器 . 3 联规则 . 4 . 4 3 系统设计 . 5 要设计 . 5 体设计 . 5 能模块说明 . 6 统用例图，流程图 . 6 细设计 . 8 滤器设计 . 8 户路径显示 . 10 户源查询 . 11 量分析 . 12 页相关性分析 . 13 据库设计 . 14 据库设计设计原则 . 14 据表设计 . 14 4 系统实现 . 17 统安装 . 17 统配置 . 错误 !未定义书签。用说明 . 17 志分析的设计与实现 - 5 系统测试 . 19 6 运行结果 . 22 7 测试结果 . 错误 !未定义书签。结论 . 23 参考文献 . 24 附录 A 附录内容名称（调研报告） . 错误 !未定义书签。致谢 . 25 志分析的设计与实现 1 1 引言 1969年 12月在加州大学洛杉矶分校的一次计算机通信试验开始计算，互联网已经发展了 37 年。 37 年来，互联网一直被认为是信息传播最快捷，最廉价的方式。目前在互联网的各项应用中，务充分利用了互联网的快捷，开放等特性而普及。面对巨大而复杂的网络系统以及浩如烟海的信息资源，研究人员将传统的数据挖掘技术和行掘，从半结构或无结构的面中，以及使用者的活动中，抽取感兴趣的、潜在的模式，分析、研究，并加以利用。几乎各个政府部门、企业 /商业机构、大专院校、科研院所，及成千上万的个人都在互联网上提供务。在大多数情况下，我们都希望能够了解公众对所发布的信息的反馈，对务器的运行和访问情况进行详细和周全地分析，可以及时了解网站运行情况，发现网站存在的不足，促进网站更好地发展，它的重要性是不言而喻的。管理站不只是监视速度和内容传送。它不仅要关注服务器每天的吞吐量，还要了解这些站的外来访问，了解网站各页面的访问情况。根据各页面的点击频率来改善网页的内容和质量，提高内容的可读性，以及跟踪包含有商业交易的步骤及管理站 “ 幕后 ” 的数据等。为了更好地提供务，监控务器的运行情况、了解网站内容的详细访问状况等等就显得越来越重要和迫切了。而这些问题都可以通过据挖掘而得到解决。计基本前提和条件本次设计是对站的进行一些相关的分析，因此需要对网络的相关知识有一定的认识，还有就是对数据挖掘的知识有一定的了解因为这次设计中的网页相关性研究中采用的就是掘的技术实现手段是数据结构中的图算法。问日志记录了服务器接收请求以及运行状态的各种原始信息。通过对这些信息的统计、分析和综合，就可以识别用户，了解访问分布，掌握服务器的运行状况等，从而改进站点的性能和组织结构，提高图书馆信息服务的质量和效率。务模式非常简单，它主要有以下步骤。服务请求：客户端通过浏览器向务器发出服务请求一系列信息。服务响应：务器收到请求后，根据请求将客户端要求的信息内容返回到客户端。内外研究现状万维网是到目前为止世界上最丰富和最密集的信息来源。如何开发和利用这些丰富的资源就成了人们普遍关注的问题。于是 ,数据挖掘技术和网络应用研究的结合成了当今比较活跃的一个研究领域。志分析是志分析的设计与实现 2 使用挖掘的一个分支 ,它作为析的一个重要组成部分，具有独特的理论和实践意义。志分析中模式分析与模式表达通过发现的模式研究用户览行为 ,理解访问者的浏览兴趣 ,这些都是提高量和改善站点结构设计的重要环节。网络管理人员可以根据志的分析结果改进网站的设计 ,实现网站的有效管理。验方案的拟定首先是对功能模块的分析，在这里我选择了一下的几个功能模块，用户开源分析，访问路径分析，流量分析，网页相关性分析。这些功能是志分析中较为重要的几个模块。要想对行分析，首先是要理解务器的请求发送过程，创建一个过滤器，这个过滤器是主要对访问该网站的行过滤也就是说可以截获所需要的信息。然后把这些截获的信息存储到数据库中，这些数据在对以后的分析有着很重要的意义，当然在设计过滤器时还要考虑的一个问题就是当访问网站的时候就要开始对其进行过滤，每当要换一个网页时就要对其在进行一次过滤，为了使得到最及时的信息，直到推出该网站的时候这个过滤器就结束对其的过滤。这次的设计中进行网页相关新分析所采用的是在析中比较多为采用的关联规则，实现的方式为数据结构中的图算法。发环境及开发环境，语言互联网服务采用的是浏览器 /服务器 (B/S)模型，由于要完成的是志分析的程序因此需要在服务器端进行进一步的改进。在本系统中采用为开发工具。如今，经成为开发态网站的重要而快速、有效的工具，它是全新的网络服务器端编程环境。分利用了强大功能，是一种优秀的服务器端技术。由于于强大的言，具有极强的扩展能力，良好的收缩性，以及与平台无关的开发特性，在根据台构建动态商务网站成为主流的今天，着其它技术所不具备的优势，能设计出优质的网页。志分析的设计与实现 3 2 关键技术介绍据挖掘数据挖掘 (是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘其实是一类深层次的数据分析方法。数据挖掘与传统的数据分析 (如查询、报表、联机应用分析 )的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先未知，有效和可实用三个特征。掘掘 (基于掘，据挖掘是针对各种档和访问数据，应用数据挖掘的方法，提取抽象的、潜在的有用的知识。根据掘中数据对象的不同，分为容挖掘 (、和用记录的挖掘 (种方式。其中内容挖掘是从文件内容及其描述中获取有用的信息的过程；而结构挖掘则是从人为的链接结构中获取有用的知识的过程；使用记录挖掘是从存取模式中获取有价值的信息的过程。在掘过程中，有时将这三类数据融合在一起，以提高挖掘结果的质量。滤器过滤器是一个对象，可以传输请求或修改响应。它可以在请求到达前对其进行预处理，而且能够在响应离开后对其进行后处理。所以如果你有几个要执行同样的数据转换或页面处理的话，就可以写一个过滤器类，然后在部署描述文件 (把该过滤器与对应的系起来。你可以一个过滤器以作用于一个或一组个或多个过滤器能过滤一个或多个个过滤器实现口并定义它的三个方法：过滤器执行被调用，以设置过滤器的配置对象。 ;在过滤器执行被调用。志分析的设计与实现 4 联规则关联规则是如下形式的逻辑蕴涵：设 ,21 ， A 是一个项集，关联规则是形如的形式，其中 , 。关联规则具有如下两个重要的属性：支持度 : B)P ( AB)s u p p o r t ( A ，即 A 和 B 这两个项集在事务集 D 中同时出现的概率。置信度 : )|()( on f i de nc e ，即在出现项集 A 的事务集 D 中，项集 B 也同时出现的概率。同时满足最小支持度阈值和最小置信度阈值的规则称为强规则。给定一个事务集D，挖掘关联规则问题就是产生支持度和可信度分别大于用户给定的最小支持度和最小可信度的关联规则，也就是产生强规则的问题。的存储结构图是一种一种数据元素间为多对多关系的数据结构，加上一组基本操作构成的抽象数据类型。图的存储结构有很多，本次设计中所采用的是相邻矩阵表示法，相邻矩阵表示法有以下几个特点用邻接矩阵表示顶点间的相邻关系，用一个顺序表来存储顶点的信息，具体的介绍将在详细设计中进一步的说明志分析的设计与实现 5 第 3 章系统设计要设计体设计志分析的目标是对通过由业可以分析自身所有的网站活动 ,也就是从流量分析统计、网站访客行为分析、商业活动效果直至商业分析的点击行为分析。通过志分析的设计与实现分析软件的用户界面、概要和模板确保了企业用户快速访问和了解他们所需要的信息。因此一个志分析的设计与实现日志分析软件需要以下的几个功能。用户来源分析，访问路径分析，流量分析，网页相关新分析。功能模块如图 W e b 日志分析流量分析网页相关性分析相关信息显示用户来源分析访问路径分析图志分析的设计与实现 6 能模块说明 (1)用户来源分析该功能模块的主要功能是对截获的进行源地址的确认。这个被截获的通过数据库查询语句与中进行查询。 (2)访问路径分析该功能模块的主要功能是对某一个行，这个功能模块主要是为了网页的相关性分析中做一个基础，在前面说过当问的时候会被过滤器截取一部分的信息。 (3)流量分析在特定的时间内对网站的访问量进行显示，这样可以了解到该网站的在哪个时间段内的访问量最大。 (4)网页相关性分析做为本次设计的重点以及难点，首先要对网页的相关性进行一个介绍，当频繁的出现一条路径，我们可以称为主路径或是主干道，例如一个网站的主路径为，当我们得到这个结论后我们就可以判断很多的可能，网站的开发人员可以在以这条路径为主干线，进行更多的网站的扩展，还可以把一些相关的内容都链接到这条主路径上有着很打的商业价值同时还考虑到了用户的访问的习惯性和方便性。还有也可以知道哪条路径是网站的比较怪异的路径，这个也有着很大的价值，你可以知道一少部分人的访问习惯，还有就是可以防范一些不安全的因素。本次的设计所完成的功能为以上的几个功能，这些功能是志分析中的几个较为重要的功能，只有在完成这几个功能的前提下，才能继续对其进行展开。统用例图，流程图系统用例图如图示：志分析的设计与实现 7 管理者流量分析用户来源分析网页相关性分析访问路径分析图系统流程图如图志分析的设计与实现 8 主页面功能选择用户来源分析流量分析网页相关性分析访问路径分析图细设计滤器设计 (1)什么是过滤器过滤器是一个程序，它先于与之相关的面运行在服务器上。过滤器可附加到一个或多个面上，并且可以检查进入这些资源的请求信息。在这之后，过滤器可以作如下的选择：以常规的方式调用资源（即，调用面）。利用修改过的请求信息调用资源。志分析的设计与实现 9 调用资源，但在发送响应到客户机前对其进行修改。阻止该资源调用，代之以转到其他的资源，返回一个特定的状态代码或生成替换输出。 (2)滤器的基本原理在为过滤器使用时，它可以对客户的请求进行处理。处理完成后，它会交给下一个过滤器处理，这样，客户的请求在过滤链里逐个处理，直到请求发送到目标为止。例如，某网站里有提交“修改的注册信息”的网页，当用户填写完修改信息并提交后，服务器在进行处理时需要做两项工作：判断客户端的会话是否有效；对提交的数据进行统一编码。这两项工作可以在由两个过滤器组成的过滤链里进行处理。当过滤器处理成功后，把提交的数据发送到最终目标；如果过滤器处理不成功，将把视图派发到指定的错误页面。 (3)外界与服务器请求回应的过程如图图看图便可知，外界与服务器之间都是由外界给服务器个求，到服务器后就会变为求，当服务器接收到该请求后就会给外界一个为对请求的回应，到外界后再变为 (4)过滤器如图志分析的设计与实现 10 图要想完成志分析软件就需要对过滤器有一定的认识，在上图中不难看出过滤器可以完成该功能，在服务器前加入一个过滤器所有外界与服务器之间的请求都需要先经过过滤器，这样过滤器就可以截获一些我们所需要的信息，将其放入数据库中，过滤器的既可以在服务器接收请求前截获信息，也可在服务器响应后进行截获信息。户示及路径显示访问路径的显示看起来并不复杂，但要注意与数据库连接查询，数据库中有着很多的数据，因此要考虑的是分页问题，过滤器在过滤数据的时候会把一些我们不需要的信息也放入到数据库中，因此对数据的筛选也很重要，哪些数据有着参考价值，哪些数据没有参考价值是很重要需要解决的一个问题。对于每一个需要查询该来源。这样网站的管理人员就可以知道访问者实际地址，这样就知道了网站在哪些区域是受到的关注度较高，这样可以对市场进行更进一步的调研 ,还有就是这种对址的查询也有助于维护网站的安全性。路径分析也是对于数据库的操作，数据库中有一个 D 的数据元素，这个指当一个其网站进行访问的时候系统给出的一个由系统自动产生的字段，通过这个字段就可以得到其访问的相关的路径。志分析的设计与实现 11 户源查询 (1)思是 “ 网络之间互连的协议 ” ，也就是为计算机网络相互连接进行通信而设计的协议。在因特网中，它是能使连接到网上的所有计算机网络实现相互通信的一套规则，规定了计算机在因特网上进行通信时应当遵守的规则。 (2)所谓 2 按照 P(输控制协议 /协议规定，个 2特换算成字节，就是 4个字节。一个采用二进制形式的 00001010000000000000000000000001” ，这么长的地址，人们处理起来也太费劲了。为了方便人们的使用，间使用符号 “.” 分开不同的字节。于是，上面的。点分十进制表示法 ” ，这显然比 1和 0容易记忆得多。 (3)顾名思义就是装有一个较为完善的数据库非常庞大并且是收取费用的，因此本次设计中采用的是较为小的一个个下图所示：图其中字段 0进制后的起始和末尾的地址，在这个地址中会每个地区所分配的样方便与查找。字段 (4)那怎样才能才能使这些为在上面已经介绍了此需要在他们之前把进行转换，如下就是该公式的介绍 . 假设一个算方法为 256256256256256256256 D*C*B*A* 即志分析的设计与实现 12 可。这样既可以得出与 (5)法上面说到了但 .” 字符串 ,所以在进行计算之前要先对在这里我所选择的方法是的方法，这个方法的意思是指从到 “.” 后就对其进行分割，把分割出来的那个部分放入到一个数组当中，就是这样进行循环，知道把量分析 (1)流量分析介绍通常说的网站流量 (指网站的访问量，是用来描述访问一个网站的用户数量以及用户所浏览的网页数量等指标，常用的统计指标包括网站的独立用户数量、总用户数量 (含重复访问者 )、网页浏览数量、每个用户的页面浏览数量、用户在网站的平均停留时间等。此外，网站流量还有一层意思，就是一个网站服务器所传送的数据量的大小 (数据流量常用字节数 /千字节数等指标来描述 )，在网络营销中所说的网站流量一般与网站的实际数据流量没有一一对应关系。 (2) 流量分析实现方式获取网站访问统计资料通常有两种方法：一种是通过在自己的网站服务器端安装统计分析软件来进行网站流量监测；另一种是采用第三方提供的网站流量分析服务。两种方法各有利弊，采用第一种方法可以方便地获得详细的网站统计信息，并且除了访问统计软件的费用之外无需其他直接的费用，但由于这些资料在自己的服务器上，因此在向第三方提供有关数据时缺乏说服力；第二种方法则正好具有这种优势，但通常要为这种服务付费，虽然也有一些免费网站流量统计服务，但由于在功能方面会有一定的限制，或者通常需要在网站上出现服务商的标识甚至广告，对于商业网站来说使用免费服务肯那个不太合适。此外，如果必要，也可以根据需要自行开发网站流量统计系统。 (3)完成功能本次的设计中我所完成的是网站页面流量的分析和独立量的分析。下面就来介绍两种不同的流量分析。独立量：不同的址浏览的数量。要完成独立量分析首先需要对所有的行区分即使是同一要在不同的时间内访问就要计数一次，所以我在数据库中设立了一个字段个是由服务器生成的字段，每当一个行访问的时候服务器就会给一个段直到该束了与服务器之间的通讯后这个段将自动的消失。因此在进行数据库查询的时候只要对段进行查询就可知道独立访问流量情况，需志分析的设计与实现 13 要注意的是一个段只对应了一个此在数据库查询语句中需要指定了其唯一性，还有就是要根据时间来进行独立量的分析。页相关性分析 (1)相邻矩阵介绍本次的设计中对于网页相关性的实现所采用的是图的存储结构中的相邻矩阵表示法，相邻矩阵是表示顶点间相邻关系的矩阵若式；0, 的权值为 15，的权值为 20，的权值为 15，说明了数据库中揭示了这样的一种信息，大部分的人会这样的浏览该网站，从在到，通过这样的权值我们可以判断出这样一个结论： -当然这是一种最理想的情况。还有就是也会出现这样的一种状况的权值为 10, 的权值为 15，的权值为 20，的权值为 15，但是其中还存在着这样的一种路径从的也频繁的出现而且与的访问次数出现了相同的情况，即的权值也为 15，要是根据前面所阐述的那样就会出现这样，的一种循环情况这样在算法的执行中就会进入一个死循环的状态，这就需要一个更好解决方案，可以这样，从到 C，按权值走的话应该是，此时我们可以做个判断，就是假设这个页面已经出现过一次的情况下，就不再对其进行考虑，也就是说不再对环搜索，从志分析的设计与实现 14 到 A,如的权值尽比的要小，这样就可以记录，然后就在进一步的进行分析。当得到这么一条主要路径后网站的开发人员很方便的可以对其网站进行维护，也可以在这条路径加大网站的宣传力度或是增加广告效应等。 (4) 最不频繁路径算法的实现每个人都有着自己上网浏览的习惯，举例来说，很多人在访问新浪的时候都可能会先从新浪的首页开始浏览访问，但是会有一少部分的人会是先从新浪体育开始浏览访问，这是对于一些大型的门户网站而言的，最不频繁路径的概念不是指没人走的路径而是最怪异的路径，少部分的人所浏览的路径，先选择矩阵中所有的在这些项中查找权值最大的项作为访问路径的头路径，然后对这些路径通过循环的方式一一比较，的权值为 3, 的权值为 3，的权值为 2，的权值为5，，的权值为 2，这些都是最小的一项，在这些数据中查找一个最小项值最大的那个座位访问的开始，以此类推，因此可以得出个结论为在这种条件下最不频繁路径为-C。当然也会可能出现回路的情况，这里的解决方案与频繁路径中的解决方案相一致。据库设计据库设计设计原则要想设计一个高质量的数据库管理软件，首先则要解决建立良好的数据库结构这一问题。关系数据库设计理论主要包括三方面内容，数据依赖、范式和模式设计方法。其中数据依赖起着核心的作用。为了便于程序设计，提高软件的可靠性和运行效率，我们必须在信息分析的基础上合理的建立数据库。据表设计数据表明：据库下图所示：志分析的设计与实现 15 过滤器数据库编号当前访问的前一路径当前访问路径I P 地址系统分配编号系统时间图数据库字段如图示。图字段这个数据表中有 5 项数据，具体的功能在下面来介绍 . 志分析的设计与实现 16 键，用来给每次访问记录一个编号。来记录每次访问的访问者的次访问所访问的路径，在这里访问路径是由一跳一跳记录，因为访问中你无法得知访问者到底要访问多少的访问路径 ,因此无法给出一个具体的长度。来记录访问者的时间，这个时间是系统的时间。这个数据在后来的数据库操作中有着很大作用。来给每次所访问的访问者一个编号，这个与主键不同，主键会随变化而增加，而这个是系统给访问者的一个有在访问者结束网站的访问后这个录当前访问路径的前一个路径，这个字段意义在于你可以判断页面之间是有关联的。这个在网页相关性的分析中有着很重要的作用。据存储相关信息图数据库中所存储的信息的一个实例。图以上记录的是两次访问，个由于是服务器在访问因此为录的一条一条的记录。在两次的访问中系统自动的给分配了两个为保证区别两次访问，否则就无法进行对数据进行分析。志分析的设计与实现 17 第 4 章系统实现统安装 (1)安装这里设默认安装目录为 d:装完毕后重新启动计算机。 (2)安装务器，在这里我们设默认安装目录为 D: (3)安装 X、 (4)安装 (5)安装。用说明将文件夹放置到 d: .0下。并把包含件的包放置在 d: .0。启动务器，打

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

【毕业学位论文】（Word原稿）Web日志分析的设计与实现-软件工程

文档简介

温馨提示

最新文档

评论

【毕业学位论文】（Word原稿）Web日志分析的设计与实现-软件工程

文档简介

温馨提示

最新文档

评论

相关文档