




已阅读5页,还剩63页未读, 继续免费阅读
(计算机软件与理论专业论文)金卫医学教育网的web使用模式挖掘研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 近年来,随着i n t e r n c t 的迅猛发展,w w w 技术已经成为了广泛应用,遍布世界各地的信息 服务中心,数据挖掘技术也越来越多的应用到万维网中,于是产生了w e b 数据挖掘技术,w e b 使用模式挖掘是w e b 数据挖掘的重要组成部分。 本文以金卫医学教育网为研究对象,深入研究了在针对金卫网的w e b 使用模式挖掘过程中 遇到的各种问题,并探讨了相应的处理方式。在数据预处理阶段,采用基于启发式的数据预处理 算法,从而高效,准确地实现数据清洗,用户识别和路径补充。在挖掘实施阶段,通过矩阵归一 化方法改进传统模糊聚类算法,有效解决了奇异数据点引起的偏差问题。 通过分析金卫网w e b 服务器日志文件信息和数据库相关记录,采用模糊聚类分析方法,发 现具有相似学习行为学员群体,相关页面和频繁访问路径。 在此基础上,深入探讨了不同学员群体的行为特征,针对其行为特征,分析预测其可能感兴 趣的医学资料信息,为金卫网的网站管理人员提供决策依据,使其针对不同类型的学员采取不同 的宣传推荐策略,从而为医学学员提供个性化的服务。通过分析相关页面,可以帮助网站管理者 发现页面间链接结构不合理的地方,以修改网站拓扑结构,方便学员访问浏览。通过分析频繁访 问路径,让管理者及时发现系统瓶颈,增加预留缓存解决网络拥堵,从而优化网站结构。另外通 过分析那些被频繁访问的资源以及不同类型学员的学习需求,可以对医学资源库的建没提供参考 意见。 本文采用的主要方法和技术如f : 1 采用模糊处理技术,对构造的关联矩阵进行聚类分析。 2 将w e b 日志记录和数据库表记录结合起米,在数据预处理阶段方便数据清洗和用户识别; 在模式分析阶段,便于对学员进行准确定位。 本文的特色和创新之处在于: 1 采用启发式规则改进数据预处理算法,有效提高了预处理阶段算法的效率和识别的准确 度。 2 采用矩阵归一化方法将数据建模后的关联矩阵进行处理,以消除异常数据对聚类结果产生 的偏差。 关键词:w c b 使用模式,数据预处理,启发式规则,模糊聚类,矩阵l 门化 a b s t r a c t i nr e c e n ty e a r s ,丽l ht h ei n t e m e t sr a p i dd e v e l o p m e n t ,w w wt e c h n o l o g yh a sb e c o m eaw i d e l y u s e di n f o r m a t i o ns e l v i c ec e n t e ra l lo v e rt h ew o r l d , d a t am i n i n gt e c h n o l o g yi sa l s om o r ea n dm o r e a p p l i c a t i o n st ot h ew o r l dw i d ew e b t h e ni t i sw e bd a t am i n i n ga n dw e bu s a g em i n i n gi sa n i m p o r t a n tc o m p o n e n to ft h ed a t am i n i n g i nt h i sp a p e r , g o l d e nm e d i t e c hm e d i c a le d u c a t i o nn e t w o r kw a st a k e na st h er e s e a r c ho b j e c t , i n - d e p t hs t u d yo ft h ev a r i o u sp r o b l e m sw h i c hc o u l db em e ti nt h er e s e a r c ho ft h ej i nw e im e d i c a l e d u c a t i o nn e t w o r k ,t h e nd i s c u s s e dt h ep r o c e s s i n gm e t h o d s i nt h ed a t ap r e - p r o c e s s i n gs t a g e ,h e u r i s t i c r u l e sb a s e dw a su s e do nd a t ap r e - p r o c e s s i n ga l g o r i t h m s ,t h u sd a t ac l e a n i n g ,u s e ri d e n t i f i c a t i o na n dp a t h c o m p e n s a t i o nm a yb ew o r k e do u te f f i c i e n t l ya n da c c u r a t e l y i nt h ei m p l e m e n t a t i o np h a s e ,t h em a t r i x n o r m a l i z a t i o nm e t h o dw a su s e dt oi m p r o v et h et r a d i t i o n a lf u z z yc l u s t e r i n ga l g o r i t h m ,t h e ns i n g u l a r i t y s o l u t e de f f e c t i v e l yw h i c hc a u s e db yu n n o r m a ld a t ep o i n t b ya n a l y z i n gt h ew e bs e r v e rl o gf i l e sa n di n f o r m a t i o nf r o md a t a b a s ea b o u tj i nw e im e d i c a l e d u c a t i o nn e t w o r k , w ec o u l df i n dt h a ts t u d e n t sw i t hs i m i l a rl e a r n i n gb e h a v i o rg r o u p s ,r e l e v a n tp a g e s a n df r e q u e n tr e q u e s t e dp a t h s ,u s i n gf u z z yc l u s t e r i n ga n a l y s i si m p r o v e db ym a t r i xv e c t o rv o r m a l i z a t i o n b a s e do n i t ,d e e p l ys t u d yo ft h eb e h a v i o r a lc h a r a c t e r i s t i c so fd i f f e r e n tg r o u p so fs t u d e n t s , a n a l y z i n ga n df o r e c a s t i n gw h a tm e d i c a li n f o r m a t i o nt h e ym e i g h tb ei n t e r e s t e di n ,a c c o r d i n gt od i f f e r e n t b e h a v i o r a lc h a r a c t e r i s t i c so fd i f f e r e n tg r o u p s t h e nd e c i s i o n m a k i n gb a s i sp r e p a r e df o rp o l i c ym a k e r so f t h ej i nw e im e d i c a le d u c a t i o nn e t w o r k i no r d e rt op r o v i d ep e r s o n a l i z e ds e r v i c e , s ot h a td i f f e r e n tt y p e s o fp r o m o t i o nr e c o m m e n d a t i o ns t r a t e g i e sw a su s e d ,a c c o r d i n gt od o f f e r e n tg r o u p so fs t u d e n t s b y a n a l y z i n gt h er e l e v a n tp a g e st h a tc a nh e l pw e bm a n a g e r sf i n d i n gt h eu n r e a s o n a b l eh y p e rl i n ks t r u c t u r e s b e t w e e np a g e s ,t h e nm o d i f yt h es i t et o p o l o g ys t r u c t u r e st of a c i l i t a t es t u d e n ta c c e s st ob r o w s e b y a n a l y z i n gt h ef r e q u e n ta c c e s sp a t h s ,l e t st h es u p e r i n t e n d e n td i s c o v e rt h es y s t e mb o t t l e n e c kp r o m p t l y , a n dt h e ni n c r e a s i n gt h ec a c h es e ta s i d et or e s o l v en e t w o r kc o n g e s t i o nt oo p t i m i z et h es t r u c t u r eo ft h e s i t e t h r o u g ha n a l y i n go ft h o s ew h i c hw e r ef r e q u e n t l ya c c e s s e dr e s o u r c e sa n dt h ed i f f e r e n tt y p e so f s t u d yd e m a n d s ,l o t so fa d v i c ec o u l db eg i v e nt ot h ec o n s t r u c t i o no ft h em e d i c a lr e s o u r c el i b r a r y i nt h i sp a p e r , t h em a i nm e t h o d sa n dt e c h n i q u e su s e da r ea sf o l l o w s : 1 a n a l y s i st h es t m c t e dc o r r e l a t i o nm a t r i xu s i n gf u z z yp r o c e s s i n gt e c h n o l o g y 2 c o m b i n e dw e bl o gf i l e sa n dt h er e c o r d so fd a t a b a s et a b l e s ,i no r d e rt og e tag o o dr e s u l to fd a t a c l e a n i n ga n du s e ri d e n t i f i c a t i o ni nd a t ap r e - p r o c e s s i n gs t a g e ,a n dt of a c i l i t a t ea c c u r a t ep o s i t i o n i n go ft h e s t u d e n t si nt h ep a t t e r na n a l y s i ss t a g e t h ec h a r a c t e r i s t i c sa n di n n o v a t i o n si nt h ep a p e ra r ea sf o l l o w s : 1 u s i n gh e u r i s t i cr u l e st oi m p r o v ed a t ap r e p r o c e s s i n ga l g o r i t h m ,i m p r o v e dt h ee f f i c i e n c ya n d a c c u r a c yo ft h ea l g o r i t h mi nt h ep r e p r o c e s s i n gs t a g e 2 p r o c e s s i n gt h ed a t am o d e l e dc o r r e l a t i o nm a t r i xu s i n gn o r m a l i z a t i o nm e t h o d ,i no r d e rt o e l i m i n a t ed e v i a t i o nw h i c hc a u s e db ya b n o r m a ld a t a k e yw o r d s w e bu s a g ep a a e r n ,d a t ap r e t r e a t m e n t ,h e u r i s t i c ,f u z z yc l u s t e r i n g ,m a t r i xn o r m a l i z e d i i 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成 果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发 表或撰写过的研究成果,也不包含为获得宁夏大学或其它教育机构的学位或证书而使 用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的 说明并表示了谢意。 研究生签名:砉毒 时间:加伤年歹月陟日 关于论文使用授权的说明 本人完全了解宁夏大学有关保留、使用学位论文的规定,即:学校有权保留送交 论文的复印件和磁盘,允许论文被查阅和借阅,可以采用影印、缩印或扫描等复制手 段保存、汇编学位论文。同意宁夏大学可以用不同方式在不同媒体上发表、传播学位 论文的全部或部分内容。 ( 保密的学位论文在解密后应遵守此协议) 研究生签名:孳孝:k时间:纱乃年j 为矿日 导师签名: 衫誓碉 时间:年月日 宁夏人学颂f j 学位论文第一章绪沦 1 i 研究背景 第一章绪论 随着w e b 和i n t e m e t 的广泛普及,人类社会进入信息互联的时代,使得教育也面l 临新的机遇 和挑战。在传统教育方式中,学生在预定的时间集中在预定的地点,进行统一的授课讲解。现代 社会的高速发展、知识的快速更新都对人们提出了更高的要求。 现代远程教育的发展方兴朱艾,蓬勃发展的现代远程教育以学习者为核心,利用现代教育手 段,通过网络将内容以数据的形式传送出去,学习者通过视频、音频、图片、文字等方式接受所 需知识,这样学生就可以选择实时或非实时地接受教育,在很大程度上解决了不断学习的需要。 据研究,一个人在学生阶段学到的知识,在其以后的生活中,随着时间的推移,知识的爆炸式增 长,如果不继续学习,将会被历史所淘汰,现代教育提倡“活到老,学到老,终生学习”的概念, 正是基丁以上几点考虑的。而通过i n t e m e t 实现网络在线学习,成为了当今教育发展的新趋势。 远程教育网站在现代教育技术中,己显示出巨大的实际效果。越来越多的教育类网站希望能 真正了解网路学员的学习行为模式,这对于网站的设计和管理都是很有心的,改进教育站点的内 容和结构设计,用以改善网站性能:优化缓存配置和预取机制的相关参数:分析趋势,均衡服务器 负载:为学员定制自适应w e b 站点等。 要提高网站的效益,为学员提供更优质的服务,就必须根据用户的浏览模式来分析研究如何 改进网站建设。一个非常突出的问题是,w e b 上的信息资源具有海量、动态、异质、非结构化等 特点,从这些浩如烟海的“信息的海洋”中,如何获得有价值的知识,用户如何从这些海量的数据 快速获得自己所需要的信息f l l ,这种需求从某种意义上说,访问者本身未必清楚【2 】。网站管理者 如何从“信息的海洋”中发现学员的兴趣爱好等使用模式等t 3 1 ,成为亟待解决的突出矛盾,由此产 生了w e b 数据挖掘( w e bd a t am i n i n g ) 。它是是指在w w w 上挖捌有趣的、潜在的、有用的模式 和信息的过程【4 j 。而从海量的w 曲浏览记录中发现有价值的用户浏览模式,必须依靠w e b 使用 模式挖掘技术。 研究教育网站的学员行为,一般通过学员的浏览学习内容、相关页面、频繁访问路径来分析 学习者群体的构成,从而将相似学习行为的学员聚类分组,区别对待,以促进网站建设和进行个 性化服务来实现其商业价值,使学习者和网站管理者同时受益。 w e b 服务器的日志有着很好的结构,每当学员访问w e b 站点时,所访问的页面、时间、用 户i d 等信息,在日志中都有相应的记录。因此,挖掘w e b 日志,可以构造出学员的访问模式( a c c e s s p a t t e r n ) ,从而根据学员的行为模式改进站点的设计,为他们提供更好的个性化服务。 宁夏大学硕 :学位沦交第一章绪论 1 2 国内外研究现状及发展趋势 1 2 1 国外研究现状及发展趋势 虽然w e b 使用挖掘的研究历史还只有l o 多年,但随着i n t e m e t 的迅速普及,目前已经成为 国内外专家、学者研究的重点和热点,并且取得了一定的研究成果。 数据挖掘( d a t a m i n i n g ,简称d m l 指从大量的、不完全的、有噪声的、模糊的、随机的原始 数据中提取出隐含的事先未知,但又是潜在的有用信息、和知识的过程【5 1 。从机器学习的角度, 数据挖掘定义为从数据中抽取隐含的,明显朱知的和潜在有用的信息【6 】。1 9 9 7 年c o o k e y r , m o b a s h e rb t7 】等人首次给出了w e b 挖掘的定义,并且给出了w e b m i n e r 系统。 1 9 9 9 年美国斯坦福( s t a n f o r d ) 大学b a l a b a n o v i c 和s h o h a m 开发的系统【8 】是用户学习浏览 i n t e r a c t 并选择w e b 页面的一种典型方式,用户反馈的评价信息可用于更新搜索方式并用于选择 相应的启发式方法。1 9 9 9 年美国 内基梅隆大学a r m s t r o n g 等人开发的系统w e b w a t c h e r t 引,该 系统可以通过用户提供的关键字帮助用户和在w e b 上定位信息,并给用户超级链接的提示,提 供获取相似文档的可能性在w 曲文本挖掘方面,t e r v e e n 等人提出了p h o a k s e l 0 1 ,本系统可以自 动地识别和重新分配所挖掘的w e b 资源,这些资源是米自u s e n e t 的新闻信息;m a n n i l a 等人使用 来自于w e b 服务器日;占的数据挖掘技术作为发现频繁经历的事件;g o l c h n a n 等人开发的m u s a g 1 1 1 接受从用户处获取的关键字,再搜索w e b 上文档产生概念辞典;l a m a c c h i a 提出了l a t e m e tf i s h l l 2 】, 时一类资源发现t 具,用于从i n t e r n e t 上抽取有用信息,允许使用现有搜索引擎帮助用户浏览; d a nl g r e c u 等人提出一种在分布式环境下进行数据挖掘的强制性学习算法【l3 1 ,体现出协同式的 思想;m a r k og r o b e l n i k 等提出基于y a h o o ,利用贝叶斯分类器进行i n t e r n e t 倒曲上稳步分类的方 法【1 4 l ,收集高概率的特征字,以快速分类文本;m i t c h e l l 等人提出的c a l e n d e ra p p r e n t i c e 【1 5 】,可 以帮助朋户进行会议时序安排;h a r a m o n d 和b u r k e 等人开发的f a q f i n d e r 1 6 l ,和崩基于问题的 自然语言界面存取分布式稳步信息源,帮助用户在数据库中发现对其问题的回答;k a m b a 等人开 发的a n t a g o n n o m y l 】,可在w e b 上组成个性化报纸;m a e s 等人提出了一个音乐推荐系统r i n g o 1 8 j , 所推荐的音乐具有很高的得分,这些得分是由具有相似音乐尝试的用户给出的:c 1 1 铋【i9 】等人引入 了利用最人向前引用的概念把用户会话分解到浏览模式挖掘的事务中去;h a r t 2 0 】等人提出基于数 据立方体的方法。根据w e b 日:基建立数据立方体,然后再其上执行挖掘和o l a p 操作,用于发 现刚户的访问模式。 以电子商务应州为背景的数据挖掘和知识发现的研究,主要是根据商业中对条码机数据的分 析,发现顾客购物规律,采川的数据主要是w e b 日志。主要以分析系统性能为目标;以改进系 统设计为目标;以理解用户意图为目标。采川技术也相应不同,如采用统计学方法,分析频繁访 问页面。访问时间分布图等( w e bl o ga n a l y z e r j :具) 【2 i j 。 目前,从事数据挖掘研发的人员遍布世界8 0 多个国家,数据挖掘的研究重点也已从算法研 究向具体应州过渡,从实验室走向商品化阶段。国际上从事数据挖掘产龆研发的软件公司已从 1 9 8 9 年的儿个公司。猛增到上百家公司,每年都有若干软件产品推出。 知识发现和数据挖掘( k n o w l e d g ed i s c o v e r yi nd a t a b a s ea n dd a t am i n i n g ) 的研究重点逐步从 发现方法的研究转向实际系统应州,成为当前计算机科学界研究的一大热点瞄l 。如s a s 公司的 2 宁夏人学硕i :学位论文 第一章绪论 e n t e r p r i s em i n e r ,i b m 公司的i n t e l l i g e n tm i n e r ,s g i 公司的s e t m i n e r 。他们主张“数据仓库( d a t a h o u s e w a r e ) 4 - 数据挖掘( d a t a m i n i n g ) = $ a v i n g e 的口号,说明了k d d m 的价值所在。 1 2 2 国内研究现状及发展趋势 相对于国外的研究成果来说,国内的起步要稍晚一些。 沈均毅等人提出以w e b 站点的u r l 为行,以u s e r l d 为列,建立u r l ,u s e r i d 关联矩阵,元 素为访问次数,分析矩阵得相似客户群体,相关页面和频繁访问路径f 2 3 l 。河海大学成功的将w e b 挖掘应用到了防洪网站中,西安交通大学在w e b 挖掘研究方面做了多项t 作。胡和平等人提出 应用多维立方体挖掘w e b 日志的多维关联规则的方法f 2 4 j 。上海交通大学提出了一种w e b 日志预 处理阶段的f r a m e 页面过滤算法,中科院提出了k - p a t h s 路径聚类方法,根据用户访问兴趣对用 户集进行划分。国防科技人学,武汉大学也在做电子商务网站中数据挖掘的研究。 1 9 9 9 年国防科学技术大学计算机学院的周斌等人还提出了基于e o e m l 2 5 的数据模型及算 法,以从数据中挖掘出更有意义的知识。该算法克服了以往算法的缺点,如发现模式不太理想及 规则的可用性不理想等,提供了从大量顾客数据及日志数据中,挖掘有意义的用户访问模式及潜 在用户群的数据模犁,以便丁商家制定促销策略等。 周龙镶等人分析w e b 用户浏览活动规律,提出w w w 浏览路径的基本概念,设计了基于用 户访问模式的浏览路径优化算法【2 引。 陆丽娜等人采川基于事务的方法,研究w e b 日志挖掘预处理及访问序列模式挖掘方法,提 出了基于扩展有向树模型进行浏览模式识别的w e b 日志挖掘方法1 2 。 王熙法等人提出神经网络的w e b 用户行为聚类,采用s o f m 模型进行聚类,最后生成用户 聚类f 2 8 】。 1 3 论文研究的主要内容 w e b 挖掘是数据挖掘技术在w e b 上的应用。由于本文研究的对象是针对本人所在的实习单 位开发的“金甲医学教育网”项目,本人全程参与了金卫网项目从整理需求,概念设计,模型设计, 数据库结构设计和系统开发以及维护的所有环节。本论文主要内容如下: l 本论文首先简要介绍了关于金卫网项目的来源,项目需求和主要的功能,并简要介绍了金 卫网项目的数据库结构设计。系统地介绍了与数据挖掘和w e b 数据挖掘相关的概念以及主要技 术实习方法,重点研究了w e b 使刚模式挖掘技术。 2 在传统数据预处理方法的基础上,采用基于启发式规则的方法,对数据清洗,用户识别, 路径补充等阶段的算法进行了改进,并结合金卫网项目的w 曲服务器日志文件,验证了采用改 进后的算法预处理阶段的效果。 3 阐述了本论文挖捌中,用到的模糊聚类分析方法,合理地解决了异常数据的问题,提高了 挖掘结果的可信度。 4 在论文最后,从金卫网中提取段时间内的l o gf i l e s ,采用前几章所探讨的技术和算法, 给出了完整的w e b 使用模式挖掘流程及结果分析。 3 宁夏大学预 学位论文 第一节绪论 由于金卫医学网的w c b 站点页面数以千计,用户数更是数十万计,聚类空间是相当大的, 应用传统聚类算法,如果聚类维数很高,均值就不能很好地区别类。聚类空间大于样本空间时,概 率法如贝叶斯聚类,又不能取得好效果。针对以上问题。本论文将做以下几方面的重点研究: l 数据的收集和预处理净化。 日志文件中的数据多半是不完整的,很难直接使用,需要进行数据预处理,数据预处理主要 是删除一些与挖掘算法无关的数据,目的是将w e b 日志转化为适合数据挖掘的可靠的精确的数 据。本论文采用了一种基于启发式规则的方法,有效地提高了预处理阶段的效率和准确性。 2 根据预处理后的数据,建立相应的数据挖掘模型。 3 选择模糊聚类方法,对建立的模型实施w e b 挖掘。 本文基于模糊聚类分析的思想,采用距离度量法海明距离对从教育网站服务器中提取的日志 文件进行w e b 数据挖掘,通过对用户长期浏览行为的特定分析,按照页面内在的联系,构造一 个关联矩阵来进行挖掘。 4 选择适当的阈值,得出w e b 挖掘结果。 将关联矩阵进行归一化处理,计算出各向量间的海明距离矩阵,找出网站访问者之间、页面 与页面之间的相异度,根据选定的阈值,将海明距离矩阵各元素进行划分,得剑聚类结果,从而 发现相似访问者群体、相关页面,并在此基础上,通过相关页面的路径访问频度,发现频繁访问 路径。这些知识的发现,将为网站的进一步改建提供有益支持。 1 4 论文结构安排 本论文的结构主要分六部分: 第一章:主要介绍了w e b 数据挖掘产生的背景,当前国内外在数据挖掘和知识发现领域内, 取得的进展和今后的发展趋势等,对本论文的主要内容和将要研究的重点做了简要介绍。 第二章:主要包括两部分,第一部分是介绍本项目( 金卫医学教育网) 的相关情况。包括金 卫教育网的项目来源,需求定位,概念设计,数据库结构设计和主要的功能介绍:第二部分是介 绍数据挖掘和w e b 数据挖掘的相关概念。 第三章:主要介绍了w e b 使用模式挖掘的相关技术,包括w e b 使用挖掘的特点,挖掘的过 程和其中的难点等。尤其对数据预处理阶段做了重点介绍。本论文采用基于启发式规则的方法, 对预处理阶段的数据清洗,h j 户识别,路径补充等相关过程做了算法改进,大人提高了预处理效 率,在本章最后,结合金卫网实际情况,给出了这种改进后预处理算法的性能分析。 第四章:主要介绍了聚类分析方法和模糊处理技术在聚类分析方法中的应用,并结合金卫网 的实际情况,探讨了采川模糊聚类分析方法在金卫网w e b 使用模式挖掘中的可能性和有效性。 对挖掘过程中可能出现的问题,给出了相应比较合理的处理方法。 第五章:根据前面儿章研究的结果和对挖掘过程中问题的处理方式,针对金卫网实施挖掘。 并以图表形式展示,给出效果分析。 第入章:针对本论文的研究成果,做总结和下一步研究工作的展望。 4 宁夏大学硕f j 学位论文第一:章余。p 仄学教育网及w e b 挖掘的相关溉念 第二章金卫医学教育网及w e b 挖掘的相关概念 2 1 金卫医学教育网项目 2 1 1 金卫教育网项目来源 北京金卫学成科技有限公司是一家医学教育的专业培训机构,随着当今远程教育技术如火如 荼的发展,北京金卫学成科技有限公司决定推出自己的网络学校,将自己的医学教育培训课程实 现w e b 化,从而方便更多的学员学习,于是便由科派特信息技术有限公司开发其w e b 产品,即“金 卫医学教育网”,本人在实习期间参与了项目的具体开发,开发时间为2 0 0 9 年3 月1 日至2 0 0 9 年6 月3 0 日,项目共分二期,期从2 0 0 9 年3 月1 日一2 0 0 9 年4 月3 0 日,主要包括信息发布, 学员注册选课,视频课件的下载观看,分科练习和模拟考试,金卫论坛等基本模块;二期从2 0 0 9 年5 月8 日一2 0 0 9 年6 月3 0 日,主要包括支持各种类型的网上缴费支付,报表统计( 培训内容 受欢迎程度,课件的浏览下载次数,频皮统计) 等。该项目于2 0 0 9 年7 月1 日开始止式发布至 公网,网址为:h t t p :w w w j i n w e i e d u t o m 根据报表统计信息和w e b 服务器日志记录,分析发现学员的访问模式,进而针对不同类型 的学员实施不同的宣传推荐策略。 2 1 2 金卫网设计 金卫医学教育网是北京金卫学成科技有限公司致力丁远程医学教育培训的专业网站。 根据客户的要求,在设计金卫医学教育网的阶段,充分考虑到如何能够更好地服务于医学学 员,如何更好地优化网站结构,提升金卫网的价值。 因此,本网站除了具有一般培训类网站的特性外,还具有根据不同类型学员的兴趣爱好,自 动向学员推荐其感兴趣的信息,比如:( 1 ) 向不同学员推荐某类医学考试的国家统一考试时问,考 纲,相应模拟练习试题等;及时更新我们金卫医学教育网内的相关音频,视频学习资料,并同时 将相关信息以e m a i l ( 此e m a i l 为学员在注册为金卫网会员是填写的e m a i l 地址) 的方式,发 送给这些学员,从而提升网站的商业价值( 2 ) 根据学员的访问数据,分析金卫网不同类型页面间 关系,找出关联度比较人的页面,进而适当修改页面超链接结构( 3 ) 发现系统瓶颁,并对一些经常 被访问的资源,预先增加系统缓存等。 基于以上原冈,在设计金卫网的数据库结构时,特意增加了收集学员资料。数据库设计阶段, 主要的表结构如表2 1 所示: 5 宁夏大学预l 一学位论交第一:章会1 i 医学教育潮及w e b 挖掘的栩关概念 表2 _ 1 金卫网数据库设计主要表结构 其中: u s e r i n f o 表,记录注册学员的个人信息,主要是为了在w e b 使用模式挖掘的用户身份识别过 程中,结合w e b l o g f i l e s ,用来筛选用户和清理日志记录所用。 a d v e r t i s e m e n t 表,保存向学员推荐的学习资料,当经过w e b 使用模式挖掘,已将金卫网学 员进行相似学习者聚类后,后台管理员就可以根据该类学员的兴趣偏好等信息,分析究竟哪类学 习资料适合他们,并且,当该学员下次登录金卫网是,将这些学习资料的相关信息推荐给他们, 6 宁夏大学硕 :学位论文第二章会p 医学教育网及w e b 挖攥的相关概念 曼曼曼曼曼鼍曼曼曼曼曼曼! 曼曼量曼曼曼皇曼曼舅舅曼曼曼曼曼量曼皇曼曼曼毫曼曼曼舅鼍曼曼蔓曼曼曼皇曼鼍曼曼!i i 曼曼曼曼皇皇曼曼曼鼍曼曼皇曼曼量量鼍曼曼曼量 具体的推荐方式很多,在本项目中,由于学员在注册为金卫网的会员时,我们会要求学习者提供 他们的个人邮箱。因此,我们完全可以将推荐的这些学习资料以邮件的方式发送给学员。 c o u r s e c h a p t e r 和c h a p t e r 表,用来保存金卫网中所有医学学习资料的相关信息。金卫网的医 学资料的最小单位具体到每一章节,学员可以根据自己的实际情况,决定学习相关的章节( 即决 定购买相应的学习卡) 。 c o u r s e w a r e 和d r m c e r t i f i c a t e 表,保存每个学习资料的在服务器上的物理存放位置。在金卫 网中,课件的主要形式是医学视频文件和对应的练习题,考试题等。学员的学习过程,也就是在 线收看视频或是下载到本地,为防止一人下载多人共同使用等损害金卫网经济利益的情况发生, 在金卫网设计时,采用d r m 数据加密技术米限制d o w n l o a d 和c o p y 次数。我们的原则是,要想 学习金卫网的医学视频,学员的电脑必须连接到我们的网站,这很容易实现,每次点击视频学习 时,先从d r m c e r t i f i c a t e 表读取相关信息,获得许可后,采用网站专用播放器才能在线收看。如 果学员想下载到个人电脑上,则只允许c o p y 两次,收看时还必须连接到金卫网。这样,我们就 可以很准确的记录下每位学员的学习情况和课件的下载情况。从而为我们金卫网的医学资源库的 建设提供宝贵的实践经验。 d i s c o u n t 表,记录相应的课件打折信息。当提取到某类学员的学习兴趣后,为提高金一网医 学资源利 1 j 率,向该学员推荐相关的医学资料,如果该学员接受了我们的推荐,则根据d i s c o u n t 表的相关记录,向该类学员提供相应的打折优惠。 s t u d y c a r d 表,记录学员的学习卡信息。一个学员可以购买多张学习卡,每张学习卡对应于 一门课程下的一个章:肖,之所以这样设计,是充分考虑到网络学员的差异问题,有的学员基础程 度好,有的基础程度差,有的学员对某门课程里面的某些章节感兴趣。有的则对另一些章节感兴 趣。 e x a m i n a t i o n s e t 表,为了便于学员自我检验学习效果,提供了“我的考试”模块,此表保存金 卫医学教育网的所有课程的考试题信息。e x a m i n a t i o n r e s u l t h e a d e r 表和e x a m i n a t i o n r e s u l t d e t a i l 表:保存每位学员的考试结果情况,并提供“考试结果查询”和“错题【亓l 放”功能,便于学员巩固学 习效果。 w e b s i t e v i s i t s 表,保存每位用户的访问情况。f r e e m e d i a s e t 和f r e e m e d i a 表:保存免费试听 资源的服务器存放地址。根据调查,大多数医学学习者在学习某些课程前,都希望能够先了解一 下该资料的大致内容,然后再决定是否值得购买相应的学习膏。为了满足这个要求,同时也为了 提高金卫网医学资源的利片l 率,特意增加此模块。u s e r d o w n c o u r s e w a r e h i s t o r y 表:保存每位学 员的课件下载情况统计。 经过以上方案设计出的数据库,再加上从金卫网w e b 服务器上取得的l o gf i l e s ,就可以即 方便又准确的统计出每位学员的学习情况,进而掌握学员的兴趣爱好,有利于在w e b 使j j 模式 挖掘过程的数据清洗j 1 :作。 7 宁夏大学硕卜学位论文第二章会p 医学教育网及w e b 挖掘的相关概念 曼曼曼鼍曼皇量曼鼍i i i i i 一 iiii i i o 皇曼曼量 2 2 数据挖掘技术 2 2 i 数据挖掘的定义 随着计算机软硬件的发展和数据库技术的应用和普及,人们面临着海量的数据,从而形成了 “丰富的数据,贫乏的知识”【2 9 j 。为有效解决这一难题,数据挖掘技术快速发展起来。 数据挖掘p 0 1 ( d a t am i n i n g ) 也称数据库中的知识发现k d d 3 1 1 ( k n o w l e d g ed i s c o v e r yi n d a t a b a s e ) 。是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人 们事先不知道的但又是潜在有用的,人们感兴趣的信息和知识的过程,易于用户理解,最好是用自 然语言表达所发现的结果暇j 。它是一种挖掘性的分析= 具,它主要是利用各种分析方法主动地去 挖掘隐藏在大量数据中蕴含的知识,规律,反复使用多种数据挖掘算法从观测数据中确定模式或 合理模型。还有很多和这一术语相近似的术语,如从数据库中发现知识( k d d ) 、数据分析、数据 融合( d a t af u s i o n ) 以及决策支持等。 数据挖掘( d a t am i n i n g ,简记为d m ) 是一种决策支持系统,它主要基于人j c 智能( a i ) 、机器学 习、统计学等技术;能高度自动化地分析企业原有的数据,做出归纳性的推理,从中挖掘出潜在的 模式,预测客户的行为:帮助企业的决策者调整市场策略,减少风险,做出止确的决策。 2 2 2 数据挖掘分析过程 数据挖掘是一个完整的过程,该过程从大型的数据库中挖掘先前朱知的、有效的、可使用的 信息,并使用这些信息做出决策或丰富知识。数据挖掘环境如下所示:如图2 1 所示: 图2 - 1 数据挖掘环境 数据挖掘的基本过程和主要步骤如下: l 确定业务对象 8 宁夏人学硕l :学位论文第一:章会1 i 医学教育嘲及w e b 挖掘的相关概念 皇曼曼曼曼曼曼曼詈曼曼! 曼曼曼皇舅i i ;i i i _ 一 i ii _ 一i i 一_i i ii 一一i i 鼍量曼鼍曼曼蔓 清晰地定义出业务问题,认清数据挖掘目的是数据挖掘的重要一步。数据挖掘的最后结果是 不可预测的,但要探索的问题应是可预见的,为了数据挖掘而数据挖掘则带有盲目性,是不可能 成功的。 2 数据准备 ( 1 ) 数据的选择:搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数 据挖掘应片j 的数据。 ( 2 ) 数据的预处理:研究数据的质量,为进一步的分析做准备,并确定将要进行的挖掘操作 的类型。 ( 3 ) 数据的转换:将数据转换成一个分析模型。这个分析模型是针对挖掘算法建立的,建立 一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。 3 数据挖掘 对所得到的经过转换的数据进行挖掘,除了完善从选择合适的挖掘算法外,除此之外一切工 作都可以自动完成。 4 结果分析 解释并评估结果,其使舶的分析方法般应作数据挖掘操作而定,通常要用到可视化技术。 2 3w e b 数据挖掘技术 数据挖掘技术就是从大量数据集合中发现有效、新颖、潜在有用的、可理解的模式。但是数 据挖掘的绝大部分t 作所涉及的结构化数据库,很难处理w e b 上的异质、非结构化信息的1 :作。 所以面对巨大的网络系统和丰富的信息资源,研究者将传统的数据挖掘技术和w e b 相结合,进 行w 曲挖掘。 w e b 挖掘是数据挖掘技术在w e b 上的应用,它利瑚数据挖掘技术从与w e b 相关的资源和行 为中抽取用户感兴趣的、有用的模式和隐含信息,涉及w e b 技术、数据挖掘、统计学,人工智 能、信息学、等多门学科。w e b 挖掘可以在很多方面发挥作用,如对搜索引擎的结果进行挖掘、 确定权威页面、w e b 文档分类、w e bl o g 挖掘、电子商务等。 2 3 1w e b 挖掘定义 w e b 挖掘( w e bm i n i n g ) 是数据挖掘技术在w e b 上的应用,从w e b 数据中发现用户感兴趣的 潜在有用信息与模式的过程【3 3 1 。它是一项综合技术,涉及w e b 技术、数据挖掘技术、计算机语 言、信息科学等多个领域,不同研究者从自身的领域出发,对网络挖掘的含义有着不同的理解, 项目开发也各有其侧重点,因此,不同人对w e b 数据挖掘的定义也相应不同。 定义2 1 :w e b 挖掘就是采h j 数据挖掘技术,自动从网络文档中发现和抽取信息的过程。 定义2 2 :针对包括w e b 页面内容、页面之间的结构、用户访问信息、电子商务信息等各种 w e b 数据,应用数据挖掘技术,发现有用知识来帮助人们从i n t e r n e t 中提取信息和知识,以改进 站点设计,从而更好地开展电子商务。 9 宁夏大学硕卜学位论文第二章会p 医学教育阴及w e b 挖掘的相关概念 定义2 - 3 :w e b 挖掘指从大量w e b 文档集合c 中发现隐含模式p 。如果将c 看作输入,将看 p 作输出,则w e b 数据挖掘的过程,也就是从输入c 到输出尸的映射孝- ( c ,鼋) _ j 。 2 3 2w e b 数据挖掘特点 i n t e m e t 是一个巨大、分布广泛、全球性质的信息服务中心,涉及新闻、广告、电子商务、 教育和其它信息服务。w e b 包含丰富的超链接信息,以及w e b 页面的访问信息,为w e b 挖掘提 供丰富的数据信息。 面向w e b 的数据挖掘是一项复杂的技术,比面向单个数据仓库的数据挖掘要复杂得多。因 为传统数据库中的数据是结构化的,面i n t e r n e t 土的数据。其显著特点是半结构化,也决定了面 向i n t e r n e t 的数据挖掘将是一个颇具挑战性的课题。 w e b 上的数据增长迅速,且其信息还不断发生更新。因此对于w e b 进行有效、快速的资源 和
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 七年级生物下册 第四单元 生物圈中的人 第八章 人是生殖和发育 第二节 人的生长发育和青春期教学设计(4)(新版)苏教版
- 七年级道德与法治下册 第三单元 在集体中成长 第六课“我”和“我们”第2框《集体生活成就我》教学设计 新人教版
- 人教版 (2019)必修 第二册Unit 3 The internet教案及反思
- 人教版八年级下册第十一章 功和机械能11.2 功率教案配套
- 剪纸魔法(教学设计)皖教版三年级上册综合实践活动
- 人教版 (新课标)八年级上册第一节 自然资源的基本特征教学设计
- 七年级地理下册 9.3 撒哈拉以南的非洲-黑种人的故乡教学设计 晋教版
- 九年级化学上册 第六单元 课题3 二氧化碳和一氧化碳教学设计 (新版)新人教版
- 一年级道德与法治上册 2 老师您好教学设计 新人教版
- 七年级生物下册 第二单元 第五章 第一节 激素与生长发育教学设计 (新版)冀教版
- 口腔检查-口腔一般检查方法(口腔科课件)
- 畜禽养殖场排查情况记录表
- 2023年高考全国甲卷数学(理)试卷【含答案】
- 弗雷德里克 桑格
- 浅谈初中数学单元整体教学的实践 论文
- 历史时期的地貌变迁优秀课件
- 心血管内科五年发展规划
- GB/T 38620-2020物位计性能评定方法
- 纳米酶研究进展
- GB/T 12009.2-2016塑料聚氨酯生产用芳香族异氰酸酯第2部分:水解氯的测定
- 弹塑性力学(浙江大学课件)
评论
0/150
提交评论