Web日志挖掘在网络远程教学中的应用_第1页
Web日志挖掘在网络远程教学中的应用_第2页
Web日志挖掘在网络远程教学中的应用_第3页
Web日志挖掘在网络远程教学中的应用_第4页
Web日志挖掘在网络远程教学中的应用_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Web日志挖掘在网络远程教学中的应用摘要随着现代信息技术在远程教育中越来越广泛的应用,网络远程教育模式正逐步成为远程教育的主流。本文对eb日志挖掘在远程教育强中应用流程进行了研究探讨,从而更好地指导了远程教育实践。关键词eb挖掘;eb日志;远程教学在网络远程教育模式下,学生学习的过程就是在远程教育网站页面中跳转活动的过程,他们的每个活动都是对教学网站上的一个页面对象的点击操作,这些点击操作都能被完整地记录在系统日志中,通过对日志的分析挖掘,可以找出学生行为模式;在另一方面,远程教育网站的结构组织是不是符合学生和教师学习和教学的规律,通过对网站日志的分析也可以得到。所有这些都离不开数据挖掘技术,

2、本文就是通过对远程教育eb服务器日志文件进行分析,从而进一步指导网站建设。eb挖掘是针对包括eb页面内容,页面之间的结构,用户访问信息等在内的各种eb数据源。在一定基础上应用数据挖掘的方法以发现有用的隐含的知识的过程。eb挖掘与传统的数据挖掘相比有其自身的特点。eb本身是半结构化或无结构的数据,缺乏机器可理解的语义,eb挖掘的对象是大量,异质,分布的eb文档,对eb服务器上的日志、用户信息等数据所开展的挖掘工作也属于eb数据挖掘的范畴。eb信息的多样性决定了挖掘任务的多样性。按照eb处理对象的不同,一般将eb挖掘分为3类:eb内容挖掘,eb结构挖掘和eb使用记录挖掘(如图1所示),针对这3种不

3、同的处理对象,能够挖掘出许多有用的信息。图1eb挖掘分类2.1eb内容挖掘eb内容挖掘是指从文档的内容中提取知识。eb内容挖掘又分为文本挖掘和多媒体挖掘。目前多媒体数据的挖掘研究还处于探索阶段,eb文本挖掘已经有了比较实用的功能。eb文本挖掘可以对eb上大量文档集合的内容进行总结、分类、聚类、关联分析,以及利用eb文档进行趋势预测等。eb文档中的标记,例如Title和Heading等蕴含了额外的信息,可以利用这些信息来加强eb文本挖掘的作用。2.2eb结构挖掘eb结构挖掘是从eb的组织结构和链接关系中推导知识。它不仅仅局限于文档之间的超链接结构,还包括文档内部的结构。文档中的URL目录路径的结

4、构等。eb结构挖掘能够利用网页间的超链接信息对搜索引擎的检索结果进行相关度排序,寻找个人主页和相似网页,提高eb搜索蜘蛛在网上的爬行效率,沿着超链接优先爬行。eb结构挖掘还可以用于对eb页进行分类、预测用户的eb链接使用及eb链接属性的可视化。对各个商业搜索引擎索引用的页数量进行统计分析等。2.3eb使用记录挖掘eb使用记录挖掘是指从eb的使用记录中提取感兴趣的模式,目前eb使用记录挖掘方面的研究较多,中的每个服务器都保留了访问日志,记录了关于用户访问和交互的信息,可以通过分析和研究eb日志记录中的规律,来识别网站的潜在用户1;可以用基于扩展有向树模型来识别用户浏览序列模式,从而进行eb日志挖

5、掘;可以根据用户访问的eb记录挖掘用户的兴趣关联规则,存放在兴趣关联知识库中,作为对用户行为进行预测的依据,从而为用户预取一些eb页面,加快用户获取页面的速度,分析这些数据还可以帮助理解用户的行为,从而改进站点的结构,或为用户提供个性化的服务。3eb日志挖掘步骤eb日志挖掘流程如图2所示:图2eb日志挖掘流程3.1eb日志记录的主要内容eb服务器日志记录用户访问该教学网站时每个页面的请求信息。3.2数据预处理eb日志挖掘首先要对日志中的原始数据进行预处理,包括依赖于域的数据净化、用户识别、会话识别和路径补充等。预处理过程是保证eb日志挖掘质量的关键步骤。(1)数据净化。指删除eb服务器日志中与

6、挖掘算法无关的数据。大多数情况,只有日志中HTL文件与用户会话相关,所以通过检查URL的后缀删除认为不相关的数据。例如,对于一个主要包含图形文档的站点,此时就不能将图形文件删除,而是自定义一套规则将它对应到一定的HTL文件,这样就不会将一些重要的用户会话丢失。(2)识别用户。由于本地缓存、代理服务器和防火墙的存在,使得识别用户的任务变得很复杂。一般最常被eb日志挖掘工具使用的技术就是基于日志/站点的方法,例如可以使用了一些启发式规则帮助识别用户。1)如果IP地址相同,但是日志中表明用户的浏览器或操作系统改变了,则认为不同的代理表示不同的用户。2)将日志和网站拓扑结构结合,构造用户的浏览路径。如

7、果当前请求的页面同用户已浏览的页面间没有链接关系,则认为存在IP地址相同的多个用户。(3)识别用户会话。用户会话是指用户对服务器的一次有效访问,通过其连续请求的页面。我们可以获得他在网站中的访问行为和浏览兴趣。日志文件中不同的页面当然属于不同的会话。当用户的页面请求在时间上跨度较大时,就可能是该用户多次访问同一个网站。这里可以利用超时,如果两页间请求时间的差值超过一定界限就认为用户开始了一个新的会话。(4)识别片段。在识别用户会话过程中的另一个问题是确定访问日志中是否有重要的请求没有被记录.这就是路径补充所做的工作,解决的方法类似于用户识别中的方法。如果当前请求页与用户上一次请求页之间没有超文

8、本链接,那么用户很可能使用了浏览器上的“BAK”按钮调用缓存在本机中的页面。检查引用日志确定当前请求来自哪一页,如果在用户的历史访问记录上有多个页面都包含与当前请求页的链接,则将请求时间最接近当前请求页的页面作为当前请求的来源。若引用日志不完整,可以使用站点的拓扑结构代替。通过这种方法将遗漏的页面请求添加到用户的会话文件中。3.3模式发现模式发现是运用各种算法和技术对预处理后的数据进行挖掘,生成模式。这些技术包括人工智能、数据挖掘、统计理论、信息论等多领域的成熟技术。可以运用数据挖掘中的常用技术如路径分析,关联规则、序列模式以及分类聚类等等。3.4模式分析该阶段实现对用户访问模式的分析,基本作

9、用是排除模式发现中没有价值的规则模式,从而将有价值的模式提取出来。ebining指在上挖掘有趣的、潜在的、有用的模式和信息的过程。其主要目标则是从eb网站的访问日志记录中获取感兴趣的模式,每个eb服务器都能有访问日志文件,它记录了访问者的访问和交互的信息。通过分析这些数据可以帮助网站管理者理解用户的行为和eb结构,了解用户的浏览习惯,调整从而改进站点的设计。4.1eb日志信息对于一个特定的网络远程教学网站来说,其拓扑结构是已知的,虽然不同的学习者可能有不同的访问浏览模式,但从长期统计趋势上说他们是稳定的,所以经过一段时间后会在网站上积累大量有用的信息(如用户的访问日志、注册信息、需求信息、定单

10、信息、交流信息等),如果不加以有效利用,会造成了资源的极大浪费。如果采用ebining技术就可以充分利用这些有用信息,从而建立一个集智能化与个性化为一体的远程教学平台。这些数据信息包含在以下几种类型的日志文件中。Serverlg:格式如下:域描述日期用户请求页面的日期时间用户请求页面的具体时间用户IP客户端主机IP地址或DNS入口用户名客户端的用户名字节数传输的字节数(发送或接受)服务器名服务器名称、IP地址和端口号方法用户请求的方法协议状态返回HTTP的状态标识URL用户请求的页面所花时间完成浏览所花时间协议版本传输所用的协议版本用户代理服务器提供kiekie标志号参照用户浏览的上一面表1服

11、务器日志文件中的数据格式Errrlg:存取请求失败的数据,如:丢失连接,授权失败,或超时。kie:由ebserver产生的记号并由客户端持有,用于表示学习者和学习者的会话,kie是一种标记,用于自动标记和跟踪站点的访问者。4.2网络远程教学网站eb日志挖掘数据的预处理从学习者的访问日志中得到的原始日志记录并不适于挖掘,必须进行适当的处理才能进行挖掘。因此,需要通过日志清理,去除无用的记录;对于某些记录,我们还需要通过站点结构信息,把URL路径补充成完整的访问序列;然后划分学习者,并把学习者的会话划分成多个事务。4.3网络远程教学网站eb日志数据挖掘的模式发现一旦学习者会话和事务识别完成,就可以

12、采用下面的技术进行模式发现。路径分析它可以被用于判定在一个站点中最频繁访问的路径,还有一些其它的有关路径的信息通过路径分析可以得出。例如:70%的学习者在访问/E-Business/2时,是从/EB开始,经过/E-Business/SipleDesriptin,/E-Business/1;65%的学习者在浏览4个或更少的页面内容后就离开了。利用这些信息就可以改进站点的设计结构。关联规则使用关联规则发现方法,可以从eb的访问事务中找到如下的相关性:40%的学习者访问页面/E-Business/2时,也访问了/E-Business/7;30%的用户在访/E-Business/SipleDesrip

13、tin时,同时也访问了/E-Business/referene。利用这些相关性,可以更好的组织站点的eb空间,实行有效的教学策略。序列模式在时间戳有序的事务集中,序列模式的发现就是指那些如“一些项跟随另一个项”这样的内部事务模式。例如:在访问/E-Business/2的用户中,有80%的人曾在过去的一个星期里用关键字“液晶显示器”在baidu上作过查询。发现序列模式,能够便于预测学习者的访问模式,有助于针对这种模式,开展有针对性的教学。分类和聚类发现分类规则可以给出识别一个特殊群体的公共属性的描述,这种描述可以用于分类学习者。例如:在/E-Business/4学习过的学习者中有40是20左右的

14、女大学生。聚类分析可以从eb访问信息数据中聚类出具有相似特性的学习者。在eb事务日志中,聚类学习者信息或数据项能够便于开发和设计未来的教学模式和学习群体。4.4网络远程教学网站中eb日志数据挖掘的模式分析模式分析是eb日志挖掘中最后一项重要步骤。其通过选择和观察把发现的规则、模式和统计值转换为知识,再经过模式分析得到有价值的模式,即我们感兴趣的规则、模式,采用可视化技术,以图形界面的方式提供给使用者。进一步的工作我们可以将eb访问日志的挖掘和其他的eb内容和eb链接结构挖掘结合起来用于eb页面的等级划分、eb文档的分类和多层次eb信息库的构造等方面,总之对eb数据进行进一步的数据挖掘是非常有意义的。当然,数据挖掘所带来的好处,是与用户的需求及数据挖掘技术本身的发展相关的。在充分了解学习者的爱好、需求的基础上。利用各种eb挖掘技术,设计出能满足不同用户群体需

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论