已阅读5页,还剩60页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料羞有不实之处,本人承担一切相关责任。 本人签名: 土蹙 日期:互里l 旦:堕:2 互 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论 文注释:本学 本人签名 导师签名 适用本授权书。 日期:塑2q :旦兰:兰墨 日期: 扭亚1 盖; 北京邮电大学硕士学位论文 基于w e b 浏览的用户行为分析系统的研究与设计 基于w e b 浏览的用户行为分析系统的研究与设计 摘要 随着互联网技术的发展和日益普及,网络为人们提供了海量的知 识资源,并成为人们学习、教育、情感交流的最佳方式。网络具有数 据量巨大、类型多样化、动态性、平等性和虚拟性等特点;它渗透于 网络自身、网络服务和网络应用的各个层次。但是在这个庞大的网络 系统中,如何快速高效地提取自己感兴趣的知识成为人们关注的热点 和焦点。网络用户分析将成为网络服务的重要工具,它对提高网站服 务质量,改善网络运行效率,保证网络的安全性,提供个性化服务等 多个方面起到了非常重要的作用,满足了网络用户和服务提供者两方 面的需求。网络用户行为的分类以及在此基础上的分析研究越来越亟 待提到日程上来。 本课题在用户行为分析领域中结合网络用户和用户行为分析的 概念和分类方法,从数据获取的高效性以及用户行为分析的直观性两 个方面,提出了一个以计算用户兴趣度为目的的用户行为分析步骤和 系统架构,并介绍了系统架构中所用到的一些关键技术,包括:唧 协议解析,数据包捕获技术,s o c k e t 编程技术,数据挖掘的基本知识, 以及个性化服务中基于规则的技术、基于信息过滤的技术等等。分析 上网用户信息源的获取方法,以部分获取信息作为区分用户的标准, 并结合数据挖掘的分类算法定义了兴趣度的计算公式,通过实际实验 观察每个用户在浏览网页的过程中兴趣度的变化,值的大小能够客观 地反映用户的兴趣爱好,最后简要说明了用户行为分析系统的一些实 际应用。 关键词:用户行为分析数据捕获套接字数据挖掘兴趣度 北京邮电大学硕士学位论文基于w e b 浏览的用户行为分析系统的研究与设计 t h es t u d ya n dd e s i g no f u s e r b e h a v l 0 ra n a l y s i ss y s t e m b a s e do n 、砸bb r o w s i n g w i t ht h eq u i c kd e v e l o p m e n ta n di n c r e a s i n gp o p u l a r i t yo fi n t e r n e t , n e t w o r kp r o v i d e sp e o p l ew i t hm a s s i v ek n o w l e d g ea n db e c o m e st h eb e s t w a yo fs t u d y , e d u c a t i o na n dc o m m u n i c a t i o n t h ef e a t u r eo fn e t w o r ki s : i n c l u d i n gah u g ea m o u n to fd a t a ,d i v e r s i f i c a t i o no fd a t at y p e ,e q u a l i t y , d y n a m i c i t y , v i r t u a l i z a t i o na n d s oo n i tp e n e t r a t e si n t ot h en e t w o r ki t s e l f , n e t w o r ks e r v i c ea n da p p l i c a t i o n b u th o wt og e tt h ek n o w l e d g et h a t p e o p l en e e de a g e r l yi nt h eh u g en e t w o r kw o r l db e c o m e st h ef o c u sa n d h o t p o to fs t u d y f o rt h e s er e a s o n s ,t h ec l a s s i f i c a t i o n so fn e t w o r ku s e r s a n du s e rb e h a v i o ra n a l y s i sd e m a n dt ob er e s o l v e du r g e n t l y n e t w o r k b e h a v i o ra n a l y s i si sa ni m p o r t a n tt o o li nt h en e t w o r ks e r v i c e i tp l a y sa n i m p o r t a n tp a r t i n i m p r o v i n g t h eq u a l i t yo fw e b s i t e ,e n h a n c i n gt h e e f f i c i e n c yo fn e t w o r k ,e n s u r i n gn e t w o r ks e c u f i t y a n dp r o v i d i n gu s e r s w i t ht h ep e r s o n a l i z e ds e r v i c e i tm e e t st h en e e d so ft h eu s e r sa n ds e r v i c e p r o v i d e r s t h et h e s i sp r o p o s e st h ep r o c e s sa n ds y s t e ma r c h i t e c t u r eo fu s e r b e h a v i o ra n a l y s i sb a s e do nt h ec o n c e p t so fu s e r sw h os u r ft h ei n t e r n e ta n d u s e rb e h a v i o ra n a l y s i s 。胎c o n s i d e rt h ee f f i c i e n c yo fd a t aa c q u i s i t i o na n d f i n da l li n t u i t i v ew a yt os h o ww h a tau s e ri si n t e r e s ti n s o m ec r i t i c a l t e c h n o l o g i e sr e f e r r e d i nt h ea r c h i t e c t u r ea r ei n t r o d u c e d t h e ya r e h y p e r t e x tt r a n s f e r p r o t o c o lw h i c hi sa n a l y z e dt oo b t a i n t h eb a s i c i n f o r m a t i o no fu s e r s ,p a c k e tc a p t u r et e c h n o l o g y , s o c k e tp r o g r a m m i n g , d a t am i n i n g ,a sw e l la st h ep e r s o n a l i z e ds e r v i c et e c h n o l o g yb a s e do nr u l e s a n di n f o r m a t i o nf i l t e r i n g i ts h o w sh o wt og e tt h ei n f o r m a t i o no ft h eu s e r s w h os u r ft h e n e tb yc o m p u t e r t h eu s e r sa r ed i s t i n g u i s h e db ys o m e i n f o r m a t i o nt h a ti so b t a i n e d w r ed e f i n et h ef o r m u l ao fi n t e r e s t i n g n e s s c o m b i n i n gw i t hd a t am i n i n gc l a s s i f i c a t i o na l g o r i t h m a n do b s e r v et h e v a r i a t i o no ft h ei n t e r e s t i n g n e s sb ya c t u a le x p e r i m e n t t h e v a l u e s o b j e c t i v e l yr e f l e c tt h eh o b b yo ft h e s eu s e r s a tt h ee n do ft h ep a p e r , a n u m b e ro fp r a c t i c a la p p l i c a t i o n so fu s e rb e h a v i o ra n a l y s i sa r es t a t e d k e yw o r d s :u s e rb e h a v i o ra n a l y s i s d a d ac a p t u r es o c k e t d a t a m i n i n gi n t e r e s t i n g n e s s h i 目录 第一章绪论3 1 1 课题研究背景3 1 2 课题研究目的和意义4 1 3 国内外研究的现状5 1 4 课题的主要工作和论文的安排7 第二章网络用户行为分析的概念及关键技术介绍9 2 1 网络用户的概念和分类9 2 2 网络用户行为分析1 0 2 2 1 网络用户行为分析概念1 0 2 2 2 网络用户行为的特点和分类1 0 2 2 3 影响网络用户行为的因素。1 2 2 3 关键技术简介1 3 2 3 1h t r p 协议解析1 3 2 3 2 数据包捕获1 5 2 3 3 套接字编程1 7 2 3 4 数据挖掘在用户行为分析系统中的应用2 0 2 4 本章小结2 2 第三章网络用户行为分析系统设计2 3 3 1 用户行为分析系统框架2 3 3 2 数据获取模块2 5 3 2 1 获取的数据内容2 5 3 2 2 获取数据的方式2 6 3 3 数据预处理模块。2 8 3 4 用户识别2 9 3 5 数据挖掘模块3 0 3 5 1 文本分类3 0 3 5 2 呵n 分类算法3 2 3 6 系统数据库模型设计3 4 3 7 兴趣度更新模块3 7 3 8 本章小结。3 8 第四章网络用户行为分析系统的实现。3 9 4 1 实验环境。3 9 4 2 数据库表的操作。4 0 4 3 模块接口实现。4 1 4 4 数据获取。4 3 4 5 用户识别。4 5 4 6 兴趣度更新。4 6 4 7 系统澳0 试4 6 4 8 本章小结4 8 第五章网络用户行为分析系统的应h j 。4 9 5 1 个性化服务。4 9 5 2 网页浏览监督5 2 5 3 本章小结5 3 第六章总结和展望5 4 6 1 课题工作总结。5 4 6 2 课题的创新点。 5 4 6 3 对课题的展望5 4 参考文献。5 5 致谢! ;7 攻读学位期间发表的学术论文。5 8 2 1 1 课题研究背景 第一章绪论 随着科学技术的进步,网络通过多种方式为人们提供了各式各样的服务,主 要包括信息浏览、软件下载、情感交流、电子邮箱、网络游戏、电子商务、安全 防护、影音播放等。人们只需要点击几下鼠标,浏览相关网站,就可以得到需要 的信息。网络为人们提供了生活和学习上的便利,开拓了人们的视野,增加了人 类之间的交流和通信,节省了很多时间和金钱上的消耗,使得人们足不出户就尽 知天下事。 网络影响了我们生活、学习、以及工作的方方面面,在现在的互联网中存在 了几十亿份相互连接的文档,这些文档简称为网页,网络的迅速发展使其成为世 界上规模最大的公共数据源,这使得挖掘有用信息和知识的任务变得十分有趣, 并具有一定的挑战性,作为计算机技术和通讯技术的完美结合体,网络具有以下 鲜明的特点: 1 )网络的开放性。互联网是一个四通八达,没有边界,没有中心的分 散式结构,体现的是自由开放的理念。任何人只要拥有一台计算机和简单的上网 设备,就可以接入到整个网络,向世界发布信息,传播自己的观点和理念,同时 也可以选择自己喜欢的信息和内容。网络使信息跨越了时空的界限,实现了自由 流动。 一 2 )网络上的数据量大。网络上的信息数量巨大,并在不断的发展壮大 过程中,数据的主题广泛而且内容多样,用户基本上可以从网络中找到任何需要 的东西,并根据自己的需求定制相应的服务。 3 )网络上数据类型多样化。网络中包含结构化的表格,半结构化的网 页,无结构化的文本,以及一些多媒体文件。 4 )网络上信息具有异构性。由于网页作者的不同,每个网站制作者掌 握的知识成分不一样,多数表示相同或相似内容的网页可能会使用完全不同的文 字和格式,不同的开发语言。 5 )网络上绝大多数信息是互相连接的。网站内部和网站之间通过超链 接建立关系,以实现网络的互通性。 6 )网络上包含噪音。这些噪音来自两个地方: 含多块内容,例如:网页的主要内容、导航链接、广告、 等。对于特定应用来说,只有其中一部分信息是有用的, 3 网络本身没有信息质量的控制机制,任何人都可以发表任何言论,因此存在许多 质量低下、漏洞百出的信息。 7 )网络服务多样性。大部分商业网站允许用户在他们的站点内进行实 际有效的操作。 8 )网络动态性。网上的信息处于不断的变化之中,因此有必要实时性 地跟踪网络的状态,了解网络发展的现状。 9 )网络平等性。网络的水平方向延伸的存在方式决定了网络是一个平 等的世界,在网上网民交流的是信息、是思想,不管交流双方是什么样的身份和 地位,网络交流隐藏了网民的权力、财富、身份、地位、容貌等因素,在网络组 织中成员彼此平等相待。 1 0 )网络虚拟性。互联网的存在状态是无形的,在网络的交流中,人们 看到的和听到的文字、形象和声音都变成了数字的终端显现,形成了另外一个时 空概念。除非你告诉对方或对方告诉你,交流对方的真实信息,否则你无从知道, 网络是一个充满幻想的虚拟世界。 中国网民规模相应的呈现持续快速发展的趋势,根据中国互联网信息中心 ( c n n i c ) 的调查结果显示,截至2 0 0 9 年6 月底,中国网民规模达到3 3 8 亿, 较2 0 0 8 年底增长1 3 4 ,半年增长了4 0 0 0 万;而宽带网民规模则达到了3 2 亿, 占总网民数的9 4 3 ,较2 0 0 8 年底上升了3 7 个百分点。数据同时显示,截止 2 0 0 9 年6 月,使用手机上网的网民达到1 5 5 亿,半年内增长了3 2 1 ,手机网 民规模也呈现出迅速增长的势头1 1 j 。 2 0 0 9 年1 1 月1 1 日,c n n i c 发布了 2 0 0 9 中国网民社交网络应用研究报告, 最新数据显示,社交网站的用户规模已接近国内网民总数的三分之一,其中大专 以上的中高学历人群为社交网站的主体人群。网络应用的发展状况:社交网站规 模发展迅速,学生和白领成为主力用户。据调查结果显示大专以上学历用户占了整个用户的 近六成水平;社交网站平台化特征明显,社交游戏驱动用户增长。给好友留言已经 成为用户最常使用的功能,使用率高达5 1 2 ;图片相册功能的使用率为4 8 6 ; 博客日志功能的使用率则达到了4 1 5 。由于用户社会关系在社交网站上日渐 积累,越来越多的信息交互和传递都会通过社交网站这一平台来完成。网络交易 安全需求随知识层次的提高而增加,4 0 用户期待手机s n s 应用。值得注意的 是,随着无线互联网应用的日渐广泛与深入,社交网站用户在手机上的s n s 应 用需求越来越大。调查数据显示,有4 0 9 的社交网站用户期望可以在手机上使 用s n s 服务。目前我国手机网民规模已达1 8 亿,社交网站在手机应用上有着良 好的发展前景。手机上网用户和电脑上网用户的数量都成指数形式的增加。 1 2 课题研究目的和意义 4 由以上数据可以看出,人们获取信息的途径越来越多的依靠网络,与现实社 会中人们的社会行为相对应,本课题把发生在互联网中虚拟社会中的行为称为 “网络行为一f 2 】,网络的使用者由于性别、年龄、职业、生活背景和文化背景等 客观和主观因素的差异,每个用户表现出不同的行为特征,行为特征可以反映出 每个人不同的喜好,例如:有的用户会对体育运动感兴趣,有的用户喜欢网上购 物,有的用户则喜欢浏览新闻等。由此可以看出在这个庞大、无序、动态性变化 的网络信息社会中,每个用户真正感兴趣的信息非常有限,并且用户个体之间存 在很大的差异,简单的信息资源共享已经不能满足他们的需求,用户对服务机构 提供的服务质量要求越来越高,希望网站服务机构能够提供给自己一些经过筛 选、整理之后的个性化服务。 网络已成为人们获取信息的重要手段,但是它具有开放化、动态性和多样化 的特点,随着w e b 站点数量、规模和复杂度的增加,网站的设计也变得越来越 困难。作为服务提供者,为了获取更大的商业利益,期望提供更好的服务,留住 老用户、吸引新用户,网站设计者渐渐地发现以往的“被动服务已经满足不了 用户的实际需求,需要真正地做到“主动服务和“智能化服务,从盲目走向 科学。从站点经营的角度来说,设计人员需要一种很好的自动辅助工具,来对网 络用户的网上行为进行自动地获取和科学地量化分析,可以根据用户的兴趣爱好 和构成、访问网站的频度、以及访问的时间来动态地调整网页结构和网页内容, 针对每个用户的潜在特征和特殊需求,改进服务,提供有针对性的服务以更好地 满足用户的需求,提供给用户真正感兴趣的信息。对于非赢利的网站来说,同样 希望自己的网站能够满足用户需求,得到用户的认可,也迫切地需要改进服务, 提高服务质量和服务效率,从而提高网站的访问数量和访问的频率。 基于以上两个方面,考虑到用户和服务提供商两者的利益,分析单个用户对 于某个主题的兴趣和爱好,成为网络化社会发展的一种趋势,是动态性网络发展 的方向,是人类社会发展的需求,用户行为分析的研究越来越亟待地需要被提到 日程上来。 1 3 国内外研究的现状 一、国外的主要研究 随着数据网络的发展和人类行为学研究的加深,早在上个世纪七八十年代, 国外的一些学者就意识到网络用户行为的研究是网络未来发展的一种趋势,并根 据实际需求提出了几种网络用户行为分析的模型,早期的研究主要是为了实现网 络的监控和网站的优化,实现的方法一种是在人们日常语境中的用户实践的社会 观察,实现起来比较麻烦,不够直接;另外一种方法是对用户行为的跟踪,对网 5 络中传输的报文进行分析来进行监控,国外的s n i f f e r p r o 做的比较好。随着无线 网络的发展,由于移动用户在不同网络间以及一个网络内改变位置,并且受设备 屏幕的大小和容量的限制【3 l 国外的一些研究人员希望通过统计分析用户行为和 个性化定制请求,利用w e b 数据提取的技术来满足移动用户的需求。从网络安 全方面,国外也有很多研究来分析用户行为,以加强网络的安全性保障。 二、国内的主要研究 1 、基于w e b 内容的分析方法:从w e b 文档中的内容信息中提取信息, w e b 内容包括文本信息和多媒体信息。其中文本信息包括t e x t 、h t m l 等 文本格式;多媒体信息包括i m a g e 、a u d i o 、v i d e o 等格式。基于w e b 内容 的网络行为分析就是从w e b 文档的内容信息中提取知识,目前常用的二些 w e b 内容挖掘方法: ( 1 ) 数据库方法:把半结构化的w e b 信息转化的更结构化一些,然 后就可以使用标准化的数据库查询机制和数据挖掘方法进行分析l 引。 ( 2 ) 对h t m l 页面内容进行挖掘,对页面的文本进行文本挖掘,对形 式多样的多媒体信息进行多媒体信息挖掘,包括对页面内容摘要、分类、 聚类以及关联规则发现等。w e b 页面的分类是根据页面的不同特征,将其 划归为事先建立起来的不同的类;w e b 页面的聚类是指没有给定主题的类 别的情况下,将w e b 页面集合聚集成若干个簇,并且同一簇的页面内容相 似性尽可能大,而簇之间相似度尽可能小。 2 、基于w e b 结构的分析方法:网页是采用h t m l 语言编写的、半结 构化的文本文件,除了文本和多媒体内容外,网页本身还包含一定的组织 结构和许多指向其它页面的链接文档之间的超链接,有用的信息不仅包含 在w e b 页面的内容之中,而且还包含在页面的链接结构之中。这种链接结 构反映了页面之间的包含、引用或者从属关系,利用这些关系,通过分析 一个网页链接和被链接数量以及对象来建立w e b 自身的链接结构模式【5 1 , 由此获得有关不同网页间相似度及关联度的信息,有助于用户找到相关主 题的权威网页。对w e b 结构的挖掘技术是针对链接信息这一重要的w e b 数据,试图发现文档间超链接的链接结构,从万维网的组织结构和链接关 系中推导知识。p a g e r a n k 方法就是利用文档间链接信息来查找相关的w e b 页面【6 1 ,它是评价网页权威性的一种重要工具;h i t s ( h y p e r l i n k i n d u c e d t o p i cs e a r c h ) 算法也用来搜索中心网页和权威网页。 3 、基于w e b 日志的分析方法:w e b 日志的分析方法是通过对代理 服务器同志的信息分析用户行为,w e b 服务器的日志文件记载了用户访问 文件的数据,包括服务器端的s e r v e rl o g 、p r o x ys e r v e rl o g 和客户端的c o o k i e 6 l o g 等【7 l 。这些数据涵盖了客户端的i p 地址、用户表示符、时间戳、访问请 求的页面、浏览器类型、响应状态、用户w e b 站点及配置信息等,当用户 访问一次网站的时候,就会向w e b 服务器的日志中追加一条记录。管理员 可以用此来查看访问网页的次数和访问时间之间的关系,访问用户所在的 国家和地区分布,访问频率较高的页面等信息。 4 、基于i p 地址的分析方法:主要是通过网络层源端i p 地址与目的端 i p 地址的不同组合对网络用户行为进行分类研究。基于i p 层的分析工作考 虑源i p 地址和目的i p 地址之间的对应关系,可以把网络用户分为以下四种 类型: ( 1 ) 单i p 地址对单i p 地址的访问,此时源地址和目的地址之间是一 对一的客户机服务器的模式,源i p 端发出请求,目的i p 端给出请求的应 答,这种方式可以反映出用户对该站点的偏好程度与访问的频率。 ( 2 ) 单i p 地址对多个i p 地址的访问,这种方式表示一个用户访问了 不同的网络站点。 ( 3 ) 多l p 地址对单个i p 地址的访问,多个用户访问同一个网络站点, 多个用户对于此站点可以形成一个用户群,用户群中的成员具有相同的兴 趣爱好。此类站点一般是某种类型的服务站点,例如:f t p 服务站点、游 戏站点、网上购物等站点。 ( 4 ) 多i p 地址对多i p 地址的访问,多个用户交叉访问多个站点,它 是以上三种方式的综合体l 引。 5 、基于页面点击的分析方法,利用用户对每个页面的基本操作、页面 上不同区域的点击量来统计对页面进行监视,进而进行用户行为分析。用 户对页面的基本操作包括:保存页面、打印页面、复制粘贴部分内容、后 退、把页面加入到收藏夹等。对于这种分析方式,可以用钩子函数能实现 以上的功能。 钩子,是操作系统消息处理的一种机制,通过安装一个钩子函数应用 程序,让系统在消息处理时自动调用,并可以在上面设置子进程以监视指 定窗口的某种消息,而且所监视的窗口可以是其他进程所创建的1 9 j 。利用钩 子函数,可以捕捉自己进程或其它进程发生的事件。通过“钩挂”,可以给 操作系统一个处理或过滤事件的回调函数,该函数也叫做“钩子函数,当 每次发生您感兴趣的事件时,操作系统都将调用该函数。 1 4 课题的主要工作和论文的安排 通过大量的阅读和借鉴国内外的参考文献,本文从网络用户行为分析的框架 7 出发,研究了系统中应用的关键技术,并说明了各种技术在本课题提出的系统中 的实现方式,最后说明了用户行为分析的一些应用,论文共分为六章,主要内容 安排如下: 第一章概括说明了本课题研究的背景和意义,国内外对网络用户行为分析研 究的现状,最后介绍了论文的总体结构。 第二章简要介绍了网络用户的概念及分类,用户行为的概念和分类,以及一 些影响用户网络行为的因素,之后引出了网络用户行为分析的概念,并介绍了本 课题中使用的一些关键技术。 第三章从用户行为分析的基本目标出发,介绍了用户行为分析的系统框架, 说明了数据获取模块、预处理模块、数据挖掘模块和兴趣度更新模块的设计思想, 在数据挖掘的基础上定义了用户兴趣度计算的公式。 析 过 验 司 并 韭塞鲣电太堂亟堂僮i 金塞基王避曼翻缝酸围庄征蕴盆短丕缠的班红皇逡让 第二章网络用户行为分析的概念及关键技术介绍 2 1 网络用户的概念和分类 网络用户是一个比较宽泛的概念,在不同的场合,网络用户有不同的 定义。有人认为:“网络用户指在一定条件下,一段时间内正在利用网络获 取信息的个人和团体 【1 0 】,有人认为“网络用户是指在科研、教学、生产、 管理、生活以及其它活动中需要和利用网络信息的个体和群体 i l ,还有 人认为“网络用户指在各项实践活动中利用互联网获取和交流信息的个人 【1 2 】。以上三种观点从不同的角度定义了网络用户,在本课题中研究的网络 用户或网民,是指利用网络来获取信息的个体,从用户的现实特性来推测 潜在特性。 网络用户组成了一个特殊的社会群体,用户的分类是进行网络用户行 为分析的基础,并成为重要的步骤,只有认真地了解了用户的兴趣爱好, 并把用户进行相应地分类,才有可能更好的对用户行为进行分析,从不同 的角度,可以把用户分成不同的类别,以下从多个方面和角度来区别网络 用户。 根据网络用户的知识水平分类,网络用户可以分为高级水平、中级水 平和一般水平的用户。高级水平的用户不需要别人指导可以直接根据自己 的意愿查询信息,他们一般是一些科研人员、计算机专业人士。中级水平 的用户需要专业人士的指导来进行相关的检索和查询工作。而一般的用户 是指普通的查询检索用户。如果按照网络用户所需内容,可将用户分为学 术科研型用户、大众文化娱乐型用户、时事政治型用户以及普通用户1 1 3 1 。 按照用户兴趣的差异也可以把用户分成不同的群体,例如:体育爱好者、 新闻阅读者、游戏玩家等。按照学科性质不同,可以将用户分为:人文类 用户、社会科学类用户、科技类用户、心理学用户等。从行为目的的角度 出发,用户可以被分为:发布信息用户、信息交流用户、信息查询用户、 下载信息用户等类别。根据用户是否具有主动性可以将用户抽象为:活跃 主动型、活跃被动型、非活跃主动型、非活跃被动型四种用户类型。根据 是有信息需求是否实施实际行动,也可以将用户分为潜在网络用户和现实 网络用户。根据网络用户的信息查询行为,网络用户可以分为以下几种: 一是既有信息检索技术同时也有现实的信息需求的用户;二是那些不懂信息检 索技术但通过网络上的其他方式满足了自己的信息需求的用户;三是在网络条件 9 下,知道检索技术但未加以实践以致使自己的信息需求得不到满足的用户;四 是有一些不懂网络检索技术的网络用户1 1 4 1 。 互联网实验室通过网民行为进行归纳,把现今活跃在网络上的用户分 成了十种,即:纯信息网民、纯沟通网民、基础网民、泛娱乐网民、典型 娱乐网民、信息娱乐网民、泛娱乐网民的特征、网络工作网民、次全能网 民、全能网民1 1 5 l 。这十种网络用户组成了一个金字塔结构,在网民构成的 金字塔中,纯信息网民、纯沟通网民和基础网民是基础部分,偏娱乐的网 民构成金字塔的中层,全能网民是金字塔的顶端。这1 0 个分类属于不完全 的层级关系,但是每个层次没有特定的界线,各个层级的用户可以相互转 化和交叉,每一层的用户都可以向上一级或者下一级用户转变,更有甚者 完全退出网民这个概念。比如,互联网实验室认为,休闲娱乐类网民就很 可能有这样一条发展轨迹:纯娱乐用户可以转化为典型娱乐,之后转化为 泛娱乐,最后转化为信息娱乐网民。因此,网络服务提供者在利用用户层 级关系的时候,还需要考虑到各个层级的外延,考虑到层级间存在的空隙。 2 2 网络用户行为分析 2 2 1 网络用户行为分析概念 网络用户行为就是用户在访问网络时所表现出来的行为,它是一种虚拟的社 会行为,网络用户行为的研究与人类学、行为学、社会学、综合应用心理学、法 律学、管理理论和方法等学科有着密切的联系,它是一门综合性学科。网络用户 行为分析就是分析网络用户的行为,了解用户的行为的产生、特点、构成和发展 趋势,以及他们在网络应用过程中体现出来的规律【1 6 1 ,通过监视用户的行为来 预测和控制未来的行为。 2 2 2 网络用户行为的特点和分类 在这个庞大的虚拟社会中,由于网络的十大特征,决定了用户的网络行为具 有自身的特点,主要表现在以下几个方面i l7 j : ( 1 ) 主动性强。由于网络的开放性和平等性,促使了用户的网络行为完全 突破了地域和身份地位的限制,可以充分体现网络用户的个性和主观意志。 ( 2 ) 隐蔽性高。网络组成了一个虚拟的社会,用户的行为具有隐蔽性,可 以表现在两个方面:一方面是指行为主体身份的隐匿,即任何人都可以通过一台 能够联网的计算机来浏览网络中传播的信息,其过程无须登记,也无法得到别人 的准确资料,网上存在着大量匿名行为,所以用户之间是隐蔽的;另一方面,网 1 0 络行为本身也具有隐蔽的特征。网络上信息以数字、图像、音频等形式存在,操 作者能够在数据传输过程中改变信息的内容和形式而不留任何痕迹,不被其他人 察觉。 ( 3 ) 性质复杂。网络空间的纷繁复杂决定了网络行为的性质是多种多样的, 足以和现实社会相媲美。 ( 4 ) 知识含量高,升级快。网络为人们提供了丰富的资源,数据含量多, 类型丰富多彩,用户需要有一定的计算机知识和网络技术,具备利用电子网络的 能力,才能更好的利用网络为自己服务。 ( 5 ) 判断标准不一。网络的发展拉近了用户之间的空间距离,为用户提供 了极大的便利的同时,也会产生一些利益方面的冲突,但是由于用户的文化差异 和背景差异,制定统一的标准来规范用户的行为,满足所有用户的需求是很难实 现的问题。 由于性别、年龄、文化背景、生活环境等各个方面的差异,用户表现出不同 的网络行为,网络用户行为的分类同样也是行为分析的基础。按照不同的划分标 准,用户行为被分为不同的种类。 从行为主体对象是否唯一可以将用户分为:网络用户个体行为和群体行为。 由于网络的开放性、共享性等特点,使得用户在网络中能充分的享受自由和 平等的气氛的同时,也会出现道德和法律上的一些不规范的行为,因此可以根 据行为是否符合法律约束将网络用户行为分为网络规范行为和网络失范行为。 网络失范行为主要包括:隐私权侵犯行为、知识产权侵犯行为、网络游戏上瘾 行为、网络色情行为。网络失范行为危害了社会的发展,要靠网络用户主体的 自律,进行自我约束、自我控制,防止以上失范行为的发生。并且社会要起到 监督的作用,收集信息,加工处理来观察用户的行为,对网络失范行为进行控 制。 根据用户的目的,我们可以将网络用户行为分为两类:有意识的网络行为和 无意识的网络行为。有意识的网络行为,是指用户出于一种特殊的目的、有意识 地来进行某种活动,从而对网络产生一定的影响。无意识的网络行为是指用户在 无意或者不知情的条件下进行的网络活动。 根据用户行为所使用的协议不同,也可以将用户行为分为:基于物理层的网 络行为,基于数据链路层的网络行为,基于网络层的网络行为,基于传输层的网 络行为,和基于应用层的网络行为;其中基于网络层和应用层的网络行为比较重 要,可以从两层协议中获得用户很多有用的网络行为信息。 以互联网实验室把网络用户行为划分为基础网络行为和扩展网络行为,进而 把所有网络行为分成五大类,即信息获取类、沟通交流类、休闲娱乐类、电子服 务类、电子商务类【1 s l ,在目前相对稳定的一段时间内,无论是现有的网络服务 还是将来新增的网络服务,都可以按照它们的特性,归类到这五种类型中。 2 2 3 影响网络用户行为的因素 网络行为是网络用户主体和外界环境交互作用的结果,影响网络用户行为的 因素分为主观因素和客观因素。 用户主体因素:用户因素是制约用户行为的内因,影响用户信息行为的个人 因素很多,其中包括用户的年龄、性别、职业、个人爱好、知识结构等。这种用 户的内因可以称为网络用户的个人特质,主要包括人口特质、人格特质和认知形 态。人口特质包括用户的性别、年龄、教育程度、行业性质、收入水平等;人格 特质包括用户心理因素,主要指使用动机和情感目标;认知形态主要包括知识认 知和经验认知【1 9 j ;知识认知是指用户的知识面,对自己所从事领域的认识程度; 经验认知是指信息获取的经验,尤其是网络的使用经验。 环境客体因素:外界的环境是影响用户行为的外因,会使用户的潜在信息需 求向显性信息需求的转化,从而影响现实行为的结果。包括用户的生活环境、家 庭背景、地理环境等都可能影响到用户的网络行为。本课题主要从与网络有关的 四个方面来进行相关的阐述: ( 1 ) 网络的基础设施建设:主要是指网络的速度和费用两个方面。网络速 度过慢,尤其在下载急用的资料的时候,大大地浪费了用户的宝贵时间,影响了 用户使用网络的心情,降低了用户的积极性。网络费用过高也会使一些用户打消 上网的念头,减少了网络用户的数量。现在主要的收费方法有:按时间和按流量 收费两种,网吧或者是学校网络大部分是按照时间长短来收取费用的,这样用户 可以不用考虑上网的具体内容,任意地浏览信息,下载视频或大型软件都比较方 便。但是对于按流量收费的服务来说,用户将会关掉图像、视频等占用资源比较 大的资源,上网时间也会相应减少。 ( 2 ) 网络信息的有效性:网络上数据量大,资源丰富,但是对于用户来说, 可用信息的数量才是决定行为的主要因素。由于网络目前网络本身没有信息质量 的控制机制,国内的一些中文网站普遍存在内容空洞,信息量少,更新速度慢等 缺陷,用户需要花费很长时间和精力来查找自己需要的信息,用户的行为无法明 显得表示出来。 ( 3 ) 网络的易用性:首先,网络信息表征的合理程度影响着用户利用信息 的效率。其次,信息查询和交流工具的易用程度会直接影响用户是否利用它们, 也问接影响了用户的信息行为。据c n n i c 调查,e m a i l 、搜索引擎是用户使用最 多的网络服务,究其原因,正是其易用性起了重要作用l 捌;并且现在很多人喜 欢玩开心网、人人网等类型的网站,主要是因为这种类型的娱乐网站易用性高, 用起来方便,不需要安装特别的软件就可以实现人们之间的沟通,并可以在业余 的时间玩一些小型游戏。 ( 4 ) 网络的安全和隐私问题:网络安全和隐私问题给用户利用网络信息造 成很大的障碍,限制了用户利用网络信息的范围和频率。网络的安全性主要受计 算机网络软件、硬件技术的不完善,计算机病毒,系统内部的安全威胁,物理电 磁辐射引起的信息泄露,以及防火墙技术、数据加密技术、数字签名、鉴别技术 等技术的影响。网络具有开放性,如果没有好好保护自己的资料,就有可能自己 的生活带来不必要的麻烦。 2 3 关键技术简介 2 3 1 唧协议解析 超文本传输协议( h t r p ,h y p e r t e x tt r a n s f e rp r o t o c 0 1 ) 是应用层协议,它用于 传送万维网方式的数据,是w e b 技术中的一个最基本的协议,直接用t c p 层来 传递,协议的具体内容可以参考r f c 2 6 1 6 。哪协议采用的是请求相应模型, 它分四个过程:建立连接、发送请求信息、发送响应信息、关闭连接。客户端是 终端用户,服务器端是网站,通过使用w e b 浏览器,客户端向服务器发起一个 哪请求,应答的服务器上存储了相应的h t m l 文本和图像资源。 w e b 页面由多个对象构成,对象( o b j e c t ) 仅仅是可由单个统一资源定位符 u r l 寻址的文件,例如h t m l 文本文件、静态图像、j a v a 小应用程序、语音 片段、动画视频等。大多数w e b 页面由单个基本h t m l 文件和若干个所引用的 对象构成。基本h t m l 文件使用相应的u r l 来引用本页面的其他对象。每个 u r l 由存放该对象的服务器主机名和该对象的路径名两部分构成。h 1 曙的u r l 的一般形式是:h t t p : : ,h t r p 的默认端口是8 0 ,通常可 以忽略。例如,在如下的u r l 中:h t t p :n e w s s i n a c o m c n h e a l t h i n d e x s h t m l ,其 中h t t p 是u r l 所用的协议类型,w v e a n 代表万维网服务器,n e w s s i n a c o m c a 是 主机名,h e a l t h 是路径名,i n d e x s h t m l 是文件夹中的一个s h t m l 文件。 h 1 曙既可以使用非持久连接( n o n p e r s i s t e n tc o n n e c t i o n ) ,也可以使用持久连 接( p e r s i s t e n tc o
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 木制家具生产合同
- 2024聘请常年法律顾问合同协议书
- 土地租赁合同税务问题
- 股权扩股协议书格式
- 建筑设计培训就业协议书
- 3.1.1 勾股定理 同步课件
- 七年级地理上册-4.2-世界的语言和宗教同课异构教案1-新人教版
- 2024版发起人协议书范例
- 《未来的建筑》示范公开课教学课件【小学三年级美术下册】
- 2024年多应用场景童鞋购销合同
- 生物质能发电技术应用中存在的问题及优化方案
- GA 1809-2022城市供水系统反恐怖防范要求
- 幼儿园绘本故事:《老虎拔牙》 课件
- 2021年上半年《系统集成项目管理工程师》真题
- 一个冬天的童话 遇罗锦
- GB/T 706-2008热轧型钢
- 实验六 双子叶植物茎的初生结构和单子叶植物茎的结构
- GB/T 25032-2010生活垃圾焚烧炉渣集料
- GB/T 13610-2020天然气的组成分析气相色谱法
- 《彩虹》教案 省赛一等奖
- 2023年湖南建筑工程初中级职称考试基础知识
评论
0/150
提交评论