已阅读5页,还剩43页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
硕士学位论文 m a s t e r st h e s i s 摘要 当今,随着互联网的普及和远程教育在w e b 站点上的应用越来越多,学习内容 日益丰富,从大量学习者的访问信息中自动获得更好更快的学习模式的需求随之也 增大。如何设计出一个合适的教育平台自身特点的w e b 站点已经成为站点设计者首 先需要考虑的问题。首先,不同的学习者对知识的掌握各有不同。其次,同一个学 习者在不同的时间段内有着不同的学习目的和要求。再次,学习平台随着时间的推 移需要不断的发展,教育素材逐渐增加,学生的多元化,导致其初始设计的站点结 构不再合适。最后,随着版本的不断修改,学习平台实际提供的信息服务往往超出 了其最初设计的范围,甚至完全改变了定位。因此,研究适用于远程教育平台的数 据库知识发现系统具有理论和现实意义。 w e b 站点服务器提供的日志文本提供了用户与站点之间相互提交的相关信息。 w e b 数据挖掘技术通过分析用户访问日志中用户的学习模式,提供更好的学习模式 并自动地改进教育平台的内部结构。为了解决其中的问题,计算机学术界开始研究 自适应w r e b 站点:通过学习用户的访问模式自动地改进w ,e b 站点上信息的组织与显 示。自适应w e b 站点能够使用户更容易找到自己所需要的信息。:_ 个自适应站点能 够自动地完成网站的改进或者是向站点的管理员提出建议等。 在本文中,第二章定义了自适应教育平台,根据所查文献找出自适应教育平台 研究的主要问题,叙述了本文所设计的自适应教育平台的所要达到的主要目标,并 基于w e b 数据挖掘技术在已存在的站点上进行自适应系统的开发,最后通过第三方 的测试证明本系统的有效性。 在第五章中,本文设计了自适应教育平台的体系结构以及如何在自适应教学平 台中使用新理论新技术,主要是将a j a x 技术的应用到教育平台中。 关键字:远程教育;自适应站点;w e b 数据挖掘;p p a 算法 硕士学位论文 m a s t e r st h e s i s a b s t r a c t n o w a d a y s ,、i t l lt h ep o p u l a r i t yo ft h ei n t e m e ta n dt h ei n c r e a s i n g l ya p p l i e do f d i s t a n c ee d u c a t i o na p p l i c a t i o no nt h ew e bs i t e ,t h en e e d so fa c c e s s i n gi n f o r m a t i o nf r o ma l a r g en u m b e ro fl e a r n e r si no r d e rt og e tb e t t e ra n df a s t e ra u t o m a t i cl e a m i n gm o d ei sa l s o i n c r e a s e i n g d e s i g na s u i t a b l ee d u c a t i o nw e bs i t eh a sb e c o m eam o r ed i f f i c u l tp r o b l e m f i r s t , d i f f e r e n tl e a r n e r sh a v ed i f f e r e n tl e a r n i n ga b i l i t i e s s e c o n d ,al e a r n e ri nac h a n g i n g e n v i r o n m e n tw i l lh a v ed i f f e r e n tl e a r n i n gp u r p o s e a g a i n ,w i t ht h ep a s s a g eo f t i m ea n dt h e g r a d u a l l yi n c r e a s e dm a t e r i a l ,t h ei n i t i a ls t u d ym o d eo fl e a r n i n gp l a t f o r mw i l ln ol o n g e r a p p r o p r i a t e f i n a l l y , t h el e a r n i n gp l a t f o r mf o r t h ea c t u a lp r o v i s i o no fi n f o r m a t i o ns e r v i c e s i so f t e nb e y o n dt h es c o p eo fi t sd e s i g n ,o re v e nac o m p l e t ec h a n g ei nt h ep o s i t i o n t h e r e f o r e , t h es t u d yo fd i s t a n c ee d u c a t i o np l a t f o r mf o rk n o w l e d g ed i s c o v e r yi nd a t a b a s e s y s t e mh a st h et h e o r e t i c a la n dp r a c t i c a ls i g n i f i c a n c e t h el o gi n f o r m a t i o no fw e bs i t es e r v e rp r o v i d e sr e l e v a n ti n f o r m a t i o nt ou s e r st o i n t e r a c tw i mt h es i t e b yu s i n gw e bd a t am i n i n gt e c h n o l o g yt oa n a l y s e st h el e a r n i n g m o d eo ft h eu s e ra c c e s sl o g s ,i tc a na d v a n c eb e t t e rl e a r n i n gm o d e ,i m p r o v ee d u c a t i o n p l a t f o r ma u t o m a t i c a l l ya n da d j u s tt h ei n t e m a ls t r u c t u r e i no r d e r t os o l v et h ep r o b l e m ,t h e c o m p u t e ra c a d e m eb e g i n st od oc o r r e l a t i v er e s e a r c ho fs e l f - a d a p t i v ew e bs i t e :t h r o u g h l e a r n i n gu s e r sa c c e s sm o d et oa u t o m a t i c a l l yi m p r o v et h ei n f o r m a t i o no r g a n i z a t i o na n d d i s p l a yo ft h ew e b s i t e t h i sc a nm a d eu s e r se a s i l yf i n dt h ei n f o r m a t i o nw h i c ht h e yn e e d m o s t as e l f - a d a p t i v ew e bs i t ec a nc o m p l e t et h ei m p r o v e m e n tb yi t s e l fo rg i v es o m e s u g g e s t i o nt ot h es i t ea d m i n i s t r a t o r , e t e i nt h i sp a p e r ,w ed e f i n et h es e l f - a d a p t i v ee d u c a t i o np l a t f o r m ,p r o b ei n t ot h em a i n p r o b l e m so ft h i ss t u d ya n ds p e c i f yi t sp r i m a r yt a r g e t b yu s i n gd a t am i n i n gt e c h n o l o g y , a s y s t e mo fs e l f - a d a p t i v ee d u c a t i o np l a t f o r mi sd e v e l o p e db a s e do ne x i s t i n gw e bs i t e s ,a n d t h e nt h r o u g h t 1 1 i r d p a r t yt e s t st op r o v ei t se f f e c t i v e n e s s f i n a l l y , i nt h i sp a p e r , w ed i s c u s e st h ea r c h i t e c t u r eo ft h es e l f - a d a p t i v ee d u c a t i o n p l a t f o r ma n d i n t e r r e l a t e dt h e o r ya l o n g 晰t hn e w t e c h n o l o g yw h i c hw ea d o p t e d ,e s p e c i a l l y t h ea j a xt e c h n o l o g ya p p l i c a t i o n k e y w o r d s :d i s t a n c ee d u c a t i o n ;s e l f - a d a p t i v ew e bs i t e ;w e bd a t am i n i n g ;p p aa l g o r i t h m 硕士学位论丈 m a s t e r st h e s i s 华中师范大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研究工作 所取得的研究成果。除文中已经标明引用的内容外,本论文不包含任何其他个人或 集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在 文中以明确方式标明。本声明的法律结果由本人承担。 作者签名:饰钗牟 日期: 彤年多月二日 i l 。 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权 保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借 阅。本人授权华中师范大学可以将本学位论文的全部或部分内容编入有关数据库进 行检索,可以采用影印、一缩印或扫描等复制手段保存和汇编本学位论文。同时授权 中国科学技术信息研究所将本学位论文收录到中国学位论文全文数据库,并通 过网络向社会公众提供信息服务。 储戳:撕 日期 吵年为日 导 日 本人已经认真阅读“c a l i s 高校学位论文全文数据库发布章程”,同意将本人的 学位论文提交“c a l i s 高校学位论文全文数据库 中全文发布,并可按“章程 中的 规定享受相关权益。回意途塞握交后澄卮;旦圭生;旦= 生;旦三生筮查! 一 储始n 獬千 日期:哆年“工目 硕士学位论文 m a s t e r st h e s i $ 1 1 引言 第一章绪论 w e b 数据挖掘是一个集人工智能、机器学习、数据库、i n t e m e t 技术、并行计 算、统计学、模式识别等技术于一体的交叉性学科研究领域。它是将机器学习运用 到互联网的高级形态,其不同于传统的面向查询处理的搜索引擎,w e b 数据挖掘应 该是面向w e b 数据进行分析和知识提取的。互联网上页面内、页面之问、站点相互 链接、页面访问序列等都包含大量规则,而这些不为人知的规则对日后的站点维护 和更新提供更好的解决方案。 远程可视化教学平台所要包含汉语教材的开发、包装、交流等主题,其目的是 让汉语学习达到下列要求【l j : 跨地域性:学习者。呵以在任何时间、任何地点通过互联网和手机网络取得所需 要的学习资料。 可交互性:提供给学员双向互动的平台,在线老师能提供给学员能在同一时间, 不同地点与在线老师进行交流,现场解答相关问题,离线辅导能提供给学员在任何 时间任何地点给老师留言,并让老师能集中时问处理学员的问题。 数据独立性:在平台中使用各种工具开发的教学资源,可以在网络自由播放、 浏览,达到平台独立。教学资源可以在各种不同的硬件,操作系统以及通用网页浏 览器上显示。 可维护性:当服务器出现版本更新或修改时,不需要修改站点内的内容。 可持续性:当资源出现增长速度较快时候能自动调整站点页面信息,当站点超 过硬件容量时能调整资源的分类以及可扩展功能。 随着i n t e r n e t 上的数据量越来越庞大和臃肿,海量数据涌入互联网,个人难以 在如此多的数据中找到需要的数据,即使是使用目前的搜索引擎也不可避免的被精 确度低和无组织、凌乱的数据集淹没掉我们所要找的信息。伴随着人工智能的发展, 数据挖掘技术也越来越从以前的理论研究走进向应用,w e b 数据挖掘技术也越来越 运用到各大站点中。 1 2 研究背景与意义 随着中国综合国力的增强和国际地位的提高,汉语的实用价值不断提升。让汉 硕士学位论文 m a s t e r st h e s i s 语走出国门,面向世界人民,让全世界都能感受到汉语的文化底蕴。教外国人学汉 语是古已有之的事,我国在汉唐盛世就培养过不少留学员。汉语水平考试的影响日 益扩大,海外孔子学院建设进展迅速,世界各国对汉语学习的需求急剧增加,学习汉 语正在成为一股热潮; 对外汉语教学和汉语国际推广是制定的一项重大战略,其工作重心、对象、内 容、方法、形式和目标主要着眼与汉语和中华文化在全球的传播,它工作的对象是 我国境内、外并且主要是境外的汉语学习者,就对外汉语教学的内容来说是汉语与 中华文化并重,教学的方法和形式则多种多样。它是一项以国内外汉语应用需求为 先导,以大众媒介( 包括传统课堂) 传播为载体,并以汉语能力的提高和中华文化 知识的普及为依托的工作。u 叼 现在汉语是联合国工作语言之一,也是世界上使用人口最多的语言。中国有 5 0 0 0 多年的悠久历史,文明从未间断,想了解中国,汉语是一个很准确的切入点, 学习好汉语就等于掌握了了解中华文明的工具。通过汉语学习,可以打破语言和文 化的阻隔,缩小发展差距,促进文明对话,跨越数字鸿沟,实现和平发展。 2 0 0 4 年,国务院批准了国家对外汉语教学领导小组制定的对外汉语教学事业 2 0 0 3 年至2 0 0 7 年发展规划汉语桥工程,提出以八项措施推进中国汉语教 学对外推广工作。 对外汉语远程可视化教学模式研究是2 0 0 7 年国家社会科学基金项目( 项目 编号是0 7 b y y 0 3 3 ) 。项目依托i n t e r n e t 网络环境,充分利用现代化技术,建构具有 中国特色的汉语言自主学习平台,让用户通过智能终端比如手机、便携机和p d a 就 可以自如的进行汉语学习,使国外学习者在具体的虚拟文化场景中饶有兴趣地学习 汉语,能全面、完整,多角度、多视野地在具体语境中加深对汉语的理解,同时又 增加对中国文化的感性认识。 1 3 本文的主要工作 本文通过分析自适应网站的研究现状,结合w e b 数据挖掘技术,和微软提供的 相关站点研发技术,通过“汉语言远程可视化教学平台”服务器端提供的相关信息, 抽象出一个适合汉语言日志挖掘的数据模型,在该模型中,通过分析a p r i o r i 数据 挖掘算法,分析其在数据挖掘中的优缺点,并结合平台的特点,提出一种适合远程 教学平台的p p a 算法。以提高站点自适应的准确率。 那么本文所要做的工作包括: ( 1 ) 教学平台模块化 2 硕士学位论文 m a s t e r st h e $ 1 s 运用w e b 数据挖掘技术,设计出“对外汉语言远程可视化教学平台 体系结 构,通过w e b 设计的三层设计模式,分离出用户层、应用程序服务层、数据库服务 层以及相关接口,并将各个模块集成化,减少模块之间的数据交互,达到高内聚, 低耦合。 ( 2 ) 教学资源建设规范化 随着计算机应用技术的发展,国内资源建设成多元化发展,站点管理者收集到 的资源为各种老师自主制作,不仅让老师浪费大部分时间在教学资源的制作上,而 且各种教学资源格式不一,让管理者在发布时很不方便,因此本研究需要站点设计 人员根据老师提供的脚本和相关资料进行总体的设计,然后提交给程序设计人员来 完成总体的制作。这样将大大提高老师和站点管理人员的工作效率和教学资源的表 现力。 ( 3 ) p p a 算法的设计和验证 通过对数据挖掘中比较典型的h p r i o r i 算法进行分析,找出a p r i o r i 算法的缺 点和需要改进的地方,同时提出一种适合f 1 志挖掘的p p a 算法,然后与原始的 a p r i o r i 算法进行比较,看是否能更快的找到用户需要的学习资源。 ( 4 ) 站点的压力测试对比 通过对站点中以前的系统和本研究设计的系统进行压力分析,和运用a j a x 技 术与h p r i o r i 算法相结合运用到设计的系统中,运用w e b b e n c h 站点压力测试工具得 出相关的测试数据,看是否能提高服务器的利用率。 1 4 本章小结 本章中简要介绍了w e b 数据挖掘的前人研究成果,结合远程汉语教学的研究意 义分析,得到本文所要做的工作。 硕士学位论文 m a s t e r st h e s i $ 第二章w e b 挖掘与自适应站点综述 2 1w e b 挖掘综述 i n t e m e t 的迅速发展,使得万维网已经深入到社会生活的方方面面,i n t e m e t 给 网民带来了极大方便和丰富的信息资源,然而,随着i n t e m e t 上数据的急剧增加, 给使用者准确查找和定位所需要的信息带来了前所未有的困难的同时,也感觉到了 知识的危机,即所谓的“信息爆炸,知识贫乏 0 0 1 。w e b 站点发布的数据是一个巨 大的、广泛分布的、高度异构的、半结构化的、超文本超媒体的、相互关联并不断 进化的信息仓库;发送到浏览器的都是以h t m l 语言组成的页面数据,但在服务器上 的数据随着管理员业务的增长,和浏览者反馈给服务器的数据也越来越庞杂【1 1 】。 传统的数据挖掘技术处理的数据对象介绍的主要是结构化数据,很少处理w e b 上的异质、非结构化信息,凶此,如何处理w 曲上的数据挖掘具有极大的挑战性”3 1 : ( 1 ) 对数据挖掘而言,其数据量太过庞大;( 2 ) w e b 页面不同于一般的文本文档, 其中包含着许多复杂的标示符号,w e b 页面在服务器端可能只是一个单一的请求页 面,但由于浏览者反馈的信息不同,发送给浏览者的数据就千变万化,其中所包含 的数据不仅仅是显示在浏览器上的相关数据元素和相关风格;( 3 ) w e b 是一个动态 性极强的信息源,其信息量在以难以理解的速度增长;( 4 ) w e b 面对的是一个形形 色色的用户群体,各个用户有着不同的兴趣和使用目的;( 5 ) 对某个人来说,w e b 上的信息只有很小的一部分是有用的,其余信息是不感兴趣的【1 2 1 。基于上述的各种 原因下,人们迫切需要能找到相关的工具,让人们能够从w e b 上快速、高效的发现 资源,发现隐含的规律性内容,提高在w e b 上检索信息、利用信息的效率,解决数 据的应用质量问题;于是从数据挖掘中针对w e b 方面分支出了一个新的研究领域: w e b 数据挖掘( w 曲d a t am i n i n g ) 。 2 1 1w e b 挖掘特点 互联网上的所有数据都是通过数据流进行传输,在浏览器端都形成的网页文 本,但是它不同于关系数据库中的单一结构化数据,能用有一定的管理系统或者方 法来进行管理和分析,也不同于文本数据,有这一定的数据规则,相对于其他文件 数据,w e b 数据有自己鲜明的特点n m 们: ( 1 ) 包含海量数据 4 硕士学位论文 m a s t e r s1 t h e s i s 互联网是一个巨大的、分布广泛的全球性信息服务中心。用户可以无视空间的 限制直接访问到海量的信息,尤其是一些大型的社区站点和新闻站点,每天的数据 访问量已经不是单台服务器能够承受的,很多大型的站点都使用了服务器集群,每 天在服务器集群上生成的日志文件能达到千万条记录,也就反映出超大的访问量是 互联网的最明显的特征。其中对w e b 服务器上的日志和用户登陆信息和访问信息等 进行的挖掘在运用数据预处理后得到结构化的数据后一般运用传统的数据挖掘技 术可以。 ( 2 ) 数据结构复杂 由于现在站点开发技术的多样化,a s p 、a s p n e t 、c # n e t 、j s p 等技术支撑起 各种各样的动态站点。服务器类型也多种多样,使得互联网上不仅数据量庞大,站 点的各种数据组织结构也丰富起来。站点内的文档和通过数据库反映出的各种页面 形成了整个站点的结构图。如果在站点内还超链了其他站点的地址将使得站点更加 复杂。特别是导航站点将整个_ 瓦联网结合成一个巨大的网络图。 理论上讲,w e b 数据的来源的可以是任何现代计算机所支持的数据,对用户来 说所有有价值的数据都可以成为它挖掘的数据源。但由于这些对象的数据形式和含 义的差异,使用挖掘技术也要求不同。 ( 3 ) 数据内容增长迅速 。 互联网上的数据是持续不断地急速增长、变化、更新的。上面包含的各种信息 都随着时问的推移进行积累,所有站点也都在不断地更新着各自的内容,同时c n 站点域名的规模突破千万大关,站点的速度还在高速增长。与此同时,站内外网页 相互之间的链接信息也在频繁地更新之中。 ( 4 ) 数据冗余过多 用户在互联网上查找的资源,往往在网上只有很少的站点上的页面有,其他信 息( 数据) 对用户而言是无用的。相似信息如果干扰太大对用户来说很可能会淹没有 用数据,增加数据挖掘的难度。现阶段的搜索引擎能在大量的页面中找出相似的信 息,但这些搜索结果都是凌乱的、无组织的,因此无法反复使用,而且搜索的范围 很广,使得搜索的结果可用性大打折扣。 ( 5 ) 数据存储方式多样 虽然浏览器显示给用户的都是网页上的h t m l 数据,但很多都是通过服务器上 不同的页面传递给客户端,反映到浏览器上的很多页面就有着不同的后缀名,网页 的数据来源也各不相同:w e b 服务器上的静态网页;动态站点上需要的后台数据库 中;用户的本地c o o k i e 中的数据;在线市场数据等。不同的数据存储方式,也增 硕士学位论文 m a s t e r st h e s i s 加了数据的异构性嘲。 2 1 2w e b 挖掘的分类 根据w r e b 挖掘任务的不同,处理对象的不同,所需要的功能不同,w 曲挖掘分 为三大类:w e b 内容挖掘、w e b 结构挖掘和w e b 使用挖掘【3 j 1 7 】,如图2 - 1 所示。 k :磊习 w e b 结构挖掘liw e b f f f l 蝴llw e b 内容挖掘 挖掘页而导航 挖掘x m l 结构 模式 推荐系统 电子商务 系统自适应 代理服务 信息过滤 聚类 关联规则 文本挖掘 多媒体挖掘 图2 1w e b 挖掘分类 ( 1 ) w e b 内容挖掘:w e b 内容挖掘是对站点发送给浏览器显示的页面内容进 行挖掘并从其描述中抽取知识的过程,w r e b 文档文本内容的挖掘,基于概念索引的 资源发现,以及基于代理的技术都属于这一类。用以帮助或改善信息的查找或过滤。 w e b 内容挖掘一般为对文本文件( 包括x m l 、h t m l 、t x t 、p d f 、w o r d 等格式) 和多媒体文件( 包括图片、声频、视频等媒体类型) 这些非结构化的数据的挖掘。 这种挖掘可以被认为是基本的w e b 检索工作的延伸。通过概念层次、用户概貌、页 面链接技术等对传统的搜索引擎进行改进 6 1 。 一种w e b 内容挖掘分为代理人方法和数据库方法: 代理人方法使用软件代理来完成内容挖掘,检索机制就是这种情况的最简单的 实现,包括智能检索代理、信息过滤和个性化w e b 代理等。 数据库方法将所有的w e b 数据库描述为一个数据库,意味着w e b 是一个多级 的数据库并有多种查询语言指向w e b 。 ( 2 ) w e b 结构挖掘:从站点的结构信息中推导知识,挖掘w e b 链接结构中的 潜在模型。模型建立在超链接的拓扑结构之上,可以对超链接进行图形化描述。w e b 页面的链接类似学术上的应用,因此一个重要的页面可能会有很多页面的链接指向 它。也就是说,如果有很多链接指向一个页面,那么它一定是重要的页面。 ( 3 ) w e b 使用挖掘 2 1 1 1 挖掘在用户访问站点的过程或行为中所产生的数据。 6 硕士学位论文 m a s t e r st h e s i s 从用户同w e b 进行数据交互时的行为入手,挖掘第二级数据。这些数据包括访问 日志、用户数据、c o o k i e s 、书签数据等。w e b 使用挖掘主要解决的三方面的需要: 首先,w e b 服务方要根据自己的领域知识设计w e b 页面的结构,而群体用户根 据各自的访问兴趣访问这些页面,怎样设计更有利于群体用户的访问? 更加吸引访 问者? 这些问题是w e b 使用挖掘的所要解决的主要问题。 其次,群体用户的访问存在哪些特点? 如果掌握了这些特点,那么怎样利用其 开展迸一步的工作? 最后,对于每一个新的w e b 站点的访问者,都会在曾经访问的群体用户中找到 一些最相似的访问者,那么如何让这些访问者的访问提供给这个新的访问者提供推 荐,以便于新访问者进一步访问。 本研究将结合以上三种挖掘方式,主要通过日志挖掘来对用户的访问模式进行 追踪和记录,辅助以结构挖掘来和文本挖掘来提取出用户对学习资源的访问模式, 并通过站点的结构调整实现自适应功能。 2 2 自适应站点综述 通常我们在一个熟悉的站点上访问时候总是喜欢访问某些固定的模块,使用同 定的方法,而对不感兴趣的模块不予理会。 学习者在访问站点时候经常会有相同或类似的访问习惯:一个非自适应的站点 在不更新数据的情况下站点结构保持不变,而自适应网站会学习用户的访问行为, 只给所有用户各自提供感兴趣链接的页面,或者把用户所喜好的页面连接放在显眼 的位置,并突出显示。 自适应站点不同于自定义站点,尽管这两种站点都实现的用户的访问个性化。 主要区别在于自定义站点需要用户输入一些相关信息,或者在页面上对相关板块进 行自主的修改和排列,从而按照用户感兴趣的顺序排列显示在页面上,而自适应系 统则是通过客户端请求的数据信息观察学习用户的访问行为寻找到相关的访问模 式,为每个用户提供不同的网页样式和拓扑结构,实现网站的自适应功能。 2 2 1 白适应站点相关概念 “自适应”这个术语是随着人工智能的进步,仿生学在人工智能上越来越得到 广泛的模仿。一个细胞,一个器官,一个有机体或者一个物种,如果在变化着的环 境中,能调节自身的性能以维持生理平衡,那它就是自适应的。人类社会和自然界 的进化过程就是一个不断适应和发展的过程,人们按照其规律在人工智能中总结出 7 硕士学位论文 m a s t e r st h e s i $ 了遗传算法就是自适应系统的代表n 铂。 自适应站点系统在某种意义上讲,就是按照仿生学的思想而设计的一种适应用 户使用模式的站点。所谓自适应,般是指站点按照环境的变化,自身能随着用户 的使用和资源的添加而改变相关的访问结构和表现形式,使得其在新的或者已经改 变了的环境下,得到最好或者相对容易得到用户的认可的特性和功能,这种对环境 变化具有适应能力的控制站点称为自适应站点n 引。 由于自适应站点的输入是那些用户访问站点时不定性的访问站点,所以这种控 制应首先能在站点的运行过程中,通过不断地测出站点的输入、请求数据、输出和 访问时间,逐渐了解和掌握用户访问模式,然后根据所得的过程信息,按一定的设 计方法,做出控制决策去更新站点的中问件访问模式、前端页面或后台控制,以便 在某种意义下使用户使用效果达到最优或次最优,或达到某个预期的目标,按此设 计思想而建立的站点便是自适应站点。 2 2 2 白适应站点待解决的问题 通常在构建一个能长时问的适应业务发展和能很好的适应新的需求的w e b 系统 时,常常是比较困难的: 用户在访问站点时所想要找到的资源各不相同,因此访问网站时带有各自不同 的目的,通过站内搜索想找的目标显然就不同,访问的路径也就不同。即使是相同 的用户在不同时间访问站点时候需求也不相同,可能在上次学习了一部分课程后想 学习后继的知识,这就使得服务器需要记录相应的用户信息,摆脱站点对时问的依 赖。 最重要的是随着时间的变化,网站数据需要更新,内容的需要增加,其初始设 计必然无法使用站点的需求,新增的各种资源和链接常常放在不合理的地方,旧系 统的无用信息却常常占据相对重要位置。如果在站点设计初期没有完全考虑到用户 的所有需求,将会使用户花费时大量的时间在资源的查找中,这就意味着站点的设 计出现了问题。如果是静态的站点,这样的网站需要更新需要消耗大量管理者的时 间和经历,如何让站点能自动地更新,让管理者只用管理资源,而摆脱在对站点结 构的修改是摆在站点开发者面前的一个难题。 2 3 白适应站点设计原则 理想状态的自适应w e b 站点将信息的显示格式、逻辑结构、物理组织都相互独 立,能够通过学习用户的访问模式自动或者半自动的组织和表现方式的网站,最终 8 硕士学位论文 m a s t e r st h e s i $ 让f e b 网站具备自动学习和设计优化的功能。 由于站点要为用户提供的适合用户访问序列的下一个资源,在教学资源上能进 行灵活的添加、删除、修改等操作,而且在设计时要充分考虑用户的使用习惯,对 哪些模块需要固定,哪些模块是随时变化的。例如可以为学习者提供一个根据其学 习模式和习惯动态的生成学习索引页面。 这就需要在用户的访问模式中能发现出访问规则,从这些规则中能够找到需要 改进的地方,与网站管理员有效的协同工作,达到建议或者自动修改的自适应效果。 同时提供在线和离线的学习算法,使之适应不断增长的数据量和更新的业务需求。 模块分两部分,其中一部分功能是给管理开发人员提供站点的日常统计信息, 提供给他们站点的运行情况,让他们能根据这些提供的数据在相关资源找出那些资 源针对那些相关的用户组以及资源的访问程度。第二部分功能是根据学习者在浏览 站点时的访问序列规则结合学习者的个人信息为他们根据已有的学习模式推荐给 他们相关的资源,让他们能更方便的学习站点内的资源。 同时由于些较难或者较专业的内容很少被用户访问到,造成这一部分数据可 能长期处于用户访问死角,站点在提供自适应页面的同时不能对整个结构全面修 改,更不能对相关的资源进行删除。 在系统提供在线凋整时必然会增加一定的系统处理时间,为了减少处理时间, 减少服务器与客户端之间重复数据的传输,在实现个性化的同时不影响用户访问的 速度,本研究将引进a j a x 技术来保证服务器与客户端之问的响应速度。 总之,自适应站点的设计包括两方面:站点能实现通过用户访问信息提供给用户 个性化服务,并能通过频繁访问序列中不断更新索引页。这两方面共同实现才能组 成自适应站点。 2 4 设计中要考虑的问题 本系统首先针对对外汉语教学的需求,综合考虑现在f e b 挖掘的主要研究方法, 通过对序列规则的挖掘,该系统可以根据访问者的访问模式为其自动的生成推荐链 接,从而实现自适应站点的实现目标。通过对各个页面被浏览信息的统计分析,提 供给管理者那些内容在什么时间段内的关注程度和资源访问的相关关系,从而通过 得出来的相关信息结合访问者的个人信息,给相关的用户组在将来的访问中提供参 考嘲。 其次,本系统使用b s 体系结构,站点管理者可以通过浏览器使用相关的管理 模块,结合管理模块中提供的图形图表方法给管理者显示相关的统计结果和关联的 9 硕士学位论文 m a s t e r st h e s i s 规则,更好的管理和维护。 第三可扩展性好,通过将i i s 中运行的日志进行整理后保存到数据库中,只保 留对数据挖掘有用的数据,对不关心的内容进行剔除。给预处理模块提供方便。 2 5 白适应站点模型 本系统在总体框架分为四个部分:数据收集模块、预处理模块、数据挖掘模块、 建立索引模块阳1 ,其中数据挖掘模块包括模式分析模块和模式反馈模块。 在预处理模块中,通过数据清洗、会话识别、数据格式化几个步骤,将i i s 的 访问日志中每一行提取有用的信息,存入数据库中。 在模式挖掘模块中,采用上述的w e bm i n i n g 中的统计分析和挖掘序列规则的算 法,通过对i i s 的日志进行分析,得到访问者的访问网站基本统计信息和访问网站 行为的序列规则。关联规则的挖掘、分类规则、聚类规则的挖掘将在今后系统完善 的过程中逐步补充进来。 在模式分析模块主要是模式挖掘部分通过统计分析所得到的结果。网站的管理 人员可以通过本系统的管理界面对访问者的访问网站基本统计信息进行查询,了解 资源的使用情况,以此来调整网站内容和结构。 在模式使用模块主要是使用模式挖掘部分通过挖掘序列规则的算法所得到的结 果。系统通过将i i s 的日志进行缓存,来跟踪访问者的访问行为。结合访问者的当 前的访问行为和访问者行为的序列规则,系统自动的为访问者生成推荐的链接。 自适应站点就是对站点内的相互有关联的页面进行自动调整,把w e b 站点自动 调整看作在不同的检索页面路径中如何找到页面空间中所需要资源的路径,在页面 空间中,一个页面可以看成一个查找点,同时在服务器端则为一个服务对象,在日 志里则会显示出一个访问记录。此时访问模式是来自( 1 ) s e r v e rl o g s ( 2 ) e r r o r l o g s ( 3 ) c o o k i e 中的数据鄙。 全部是静态页面的站点是开发者将站点内的各个页面相互之间的关系固定在服 务器的代码中:下一个将要显示的页面由现在所在页面和点击的链接决定。在这种 情况下,一个站点就是一个固定的图形结构,其中所有页面为节点,链接为指针。 通常所说的自适应站点是在原有的站点基础上通过得到用户的个人信息以及相 关的访问路径能自动调整用户访问的链接所指向的页面,当重新调整站点的时候, 首先应该考虑到用户是否更快的找到需要的信息。自适应站点的设计好坏由用户访 问时候的成功找到需要的页面所做出的操作量来衡量,比如在找到相关信息时花了 多少时间,访问了多少页面,另外还有在访问到当前需要的消息时前信息的访问比 1 0 硕士学位论文 m a s t e r st h e s i s 率有关。 当然一种模式的改变不可能对所有的用户提供好处,对大部分人提供的好处也 可能是不明显的,但它的确为一部分人提供和相当明显的好处。本研究的目的就是 找出在一起被访问的w e b 页面,并把它们组织到一个组里面,以帮助用户更好的访 问,让不同的人访问站点的时候,能给其提供适合的索引页,并且在修改模式的时 候能更好的提供给用户最大的方便。 2 6 小结 本章对w e b 日志挖掘和自适应站点进行了综述,对涉及到本研究的相关技术进 行了介绍,依据外汉语教学的特点提出了自适应站点的相关模型。 硕士学位论文 m a s t e r st h e s i s 3 1w e b 日志 第三章w e b 日志挖掘 w e b 数据挖掘中最关键的步骤是如何收集数据和创建合适的目标数据集。在一 般w e b 站点的三层访问模式中,用户访问通过互联网访问w e b 站点时,w e b 服务 器端将记录用户对站点的访问提交数据。正常情况下服务器将记录用户访问的所有 行为。当用户用代理服务器访问时,代理服务器访问日志记录了用户对某个站点或 多个站点的访问记录,用户p c 上的c a c h e 记录了用户访问内容。客户端的书签也 记录了用户对某个站点的兴趣程度。同时代理服务器内部的c a c h e 内也记录了多个 用户访问内容。因此,用户访问模式的挖掘能在w e b 服务器、代理服务器、浏览器 上进行,根据挖掘的目的和对象不同,挖掘用户访问模式的侧重点也不相同口3 1 。 w e b 日志挖掘的数据主要来源于w e b 日志( 包括w e b 服务器日志、错误日志、 c o o k i e ) ,其中服务器日志f t p 日志默认保存在i s y s t e m r o o t s y s t e m 3 2 l o g f i l e s m s f t p s v c l ,默认每天一个日志,w e b 日志默认位置:s y s t e m r o o t s y s t e m 3 2 l o g f i l e s w 3 s v c l ,默认每天一个日志,其中所记录的数据反映了一个w e b 站点 被所有用户访问的模式,具有非常好的结构便于数据挖掘。 3 1 1w e b 服务器常用日志格式 i i s 中日志记录的有多种属性,其主要属性如表3 - 1 所示。 1 2 硕士学位论文 m a s t e r st h e s i s 表3 - 1 扩展公共日志格式e c l f 名称描述 客户端主机的i p 地址或 客户端i p 地址( c i p ) d n s 入口 用户请求的方法,有g e 方法( c s m e t h o d ) t 和p o s t 方法 u r i 资源( c s u r i s t e m )用尸请求的贝回 协议状态( s c s t a t u s )返回h t t p 的状态表不 时间( t i m e )页砸被访问的时间 用户名( c s u s e r n a m e )客户端的用户名 服务名( s - s i t e n a m e )虚拟主机的代称 服务器名( s c o m p u t e r n a m e ) 服务器名称 服务器i p 地址( s i p )服务器的i p 地址 服务器端口( s p o r t )服务器的端口号 u r i 查询( c s u r i - 用户所请求的页面 q u e r y ) w i n 3 2 状态( s c - w i n 3 2 一 w i n 3 2 状态,一般5 代表 s t a t u s ) 拒绝访问、1 5 代表系统 找不到指定的驱动器 发送的字节数( s c - 服务器发送的字节数 b y t e s ) 接受的字节数( c s - 服务器收到的字节数 b y t e s ) 所用时间( t i m e - t a k e n ) 完成浏览器所花费的时 间 协议版本( c s v e r s i o n )传输用的协议版本 主机( a s h o s t )服务器的操作系统版本 用户代理( c s ( u s e r a g e n t ) ) 服务的提供者 c o o k i e ( c s ( c o o k i e s ) )c o o k i e 标识号 引用站点( a s ( r e f e r e r ) )用户浏览的上一页 日期( d a t e )页面被访问的日期 在站点上访问网页的记录存于w e bl o g 中,默认的数据包含访问的客户端i p 地 址( c i p ) 、方法( c s m e t h o d ) 、u r i 资源( c s - u r i - s t e m ) 、协议状态( s c s t a t u s ) 、 时间( t i m e ) ,扩展的属性如表3 1 。默认数据格式为:t i m ec - i pc s - m e t h o d c s u r i s t e ms c s t a t u s 包含所有的数据字段的排列顺序:d a t et i m ec - i p a s u s e r n a m es s i t e n a m es c o m p u t e r n a m es i ps p o r tc s m e t h o dc s u r i s t e m 硕士学位论文 m a s t e r st h e s i s a s 。u r i 。q u e r ys c s t a t u ss c - w i n 3 2 s t a t u ss c b y t e sc s b y t e st i m e t a k e n c s v e r s i o nc s h o s tc s ( u s e r a g e n t ) a s ( c o o k i e ) c s ( r e f e r e r ) 3 1 2w e b 日志挖掘过程 w e b 日志挖掘的一般流程如图3 一l 所示,大体分为三个阶段:数据收集、数据预 处理和数据挖掘。 数据净化 w e b 日志 用户识别 i 路径分析1 w e b 站点结构 会话识是_ 用户注册信息i f 路径补充f 挖掘关联规则 数据挖掘 数据收集事务识别 数据预处理 图3 - 1w e b 日志挖掘流程 其中在数据收集中为了给预处理模块提供较全面的数据,在提取出w e b 日志的 同时需要得到w e b 拓扑结构和注册用户表中的用户信息,让数据预处理模块中能迅 速的识别事务,结合内容挖掘和结构挖掘,迅速的得到需要的有效数据n 引。 在预处理的数据净化,用户识别,会话识别,路径补充,事务识别这连续的模 块处理后能得到用户的访问路径表,然后能通过数据挖掘中的关联规则和挖掘算法 来得到用户的访问规则,并记录到数据库服务器,当用户再次访问时能通过匹配模 式数据库中的规则来自主
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 保护耳朵教案及反思
- 配件风险管理策略
- 服装行业招投标违规责任追究
- 游戏厅装修施工合同
- 商业综合体砌体施工协议
- 公共安全管理办法释义
- 大型电力变电站施工合同
- 劳动争议处理策略研究
- 北京环保项目采购规定
- 污水处理工程招投标合同
- 学校校园文化建设协议书
- 2024年医师定期考核题库(人文医学测评) 含答案
- DZ∕T 0287-2015 矿山地质环境监测技术规程(正式版)
- 工程机械租赁服务方案及保障措施
- GB/T 13077-2024铝合金无缝气瓶定期检验与评定
- 《食品生物化学》课件-脂溶性维生素
- 有限空间作业安全承诺书
- 幼儿园预防近视教师培训
- SY-T 6966-2023 输油气管道工程安全仪表系统设计规范
- 医院科室合作共建方案
- 3.1DNA是主要的遗传物质课件-高一下学期生物人教版必修二
评论
0/150
提交评论