基于CNZZ 的网络用户信息行为挖掘.doc_第1页
基于CNZZ 的网络用户信息行为挖掘.doc_第2页
基于CNZZ 的网络用户信息行为挖掘.doc_第3页
基于CNZZ 的网络用户信息行为挖掘.doc_第4页
基于CNZZ 的网络用户信息行为挖掘.doc_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于CNZZ的网络用户信息行为挖掘*常进,陈宏东,张春燕,邵瑞华(兰州大学图书馆 甘肃 兰州 730000)文 摘 本文从分析网络用户信息行为的重要性出发,以兰州大学图书馆主页为实例,使用CNZZ网络数据从访问量、时间偏好、访问资源、用户浏览习惯等方面分析了网络用户的信息行为,试图了解网络用户信息行为的特征与规律,从而为网络管理者提供改善服务的相关依据。关键字 用户信息行为 网络服务 CNZZ 图书馆主页*本文系2010年中央高校基本科研业务费项目(人文社科类)“Web2.0环境下的用户信息行为及其服务模式优化研究”成果之一,项目编号为:10LZUJBWZY040。The Mining of Web User Information Behavior Based on CNZZ Chang Jin, Chen Hongdong, Zhang Chunyan, Shao Ruihua(Lanzhou University Library, Gansu Lanzhou 730000)Abstract: Beginning with the importance of user information behavior, this paper analyzes the users information behavior of Lanzhou university library web site using the CNZZ data from following aspects: page viewtime preferencevisited resourcebrowsing habit and so on, tries to study the characteristic and pattern of web user information behavior, and thereby helps website manager to improve the library service. Key Words: User information behavior, Web service, CNZZ, Homepage of library 据2010年1月15日中国互联网络信息中心(CNNIC)发布的第25次中国互联网络发展状况统计报告显示,截止2009年12月,我国网民规模已达3.84亿,互联网普及率进一步提升,达到28.9%1。互联网在人们工作、学习、生活等方面发挥的作用越来越大。由于网络环境下用户信息行为与传统服务背景下的信息行为有着较大区别,造成我们对网络用户信息行为的特点和规律知之甚少,网络信息服务系统在建设中往往具有较大的盲目性,因此,对其进行系统深入的研究,有助于满足网络用户的信息需求,并从中为网络信息服务系统找到一条可持续发展的道路。Bouazza在1989年提出,信息行为就是信息利用,即利用信息来满足一个人的信息需求的行为。以网络用户信息行为研究为主题,国外很多学者从网络用户信息检索行为、浏览行为、交互行为、选择行为等方面做了大量的研究,例如Yi K.研究了特定网络信息系统的用户信息查询行为2,Lenhart A.对互联网下的知识交流行为进行了研究3等。国内学者不仅将国外各种有意义的研究方法与结论及时得翻译引进到国内,并在此基础上做了进一步的探索,例如邱均平4、沙勇忠5就做了大量有关网络用户信息行为的研究。 CNZZ作为一个免费独立的第三方网络数据统计分析服务提供商,自上线第一天起就服务于广大的网站以及网站所服务的客户,其战略合作伙伴广泛涉及众多领域,为广告主、商业网站的管理层、中心网站站长以及IT网站从业者提供了大量权威、客观的数据统计和分析报告。本文通过使用来自CNZZ的数据分析兰州大学图书馆网站,提取网络环境下用户的信息行为特征与规律,为网络管理者的服务策略调整提供依据和帮助。1 研究方法1.1 研究样本兰州大学图书馆网站与众多高校图书馆网站一样,不仅是本校师生的文献信息保障服务体系,同时也是其他地区用户的信息支撑平台。本论文选择兰州大学图书馆网站()2010年1月1日到2010年12月31日的网站信息作为研究样本,时间跨度达一年,这样降低了人为的选取某一个月或某几个月的数据作为研究样本而造成的偏差,对分析普遍意义上的用户信息行为奠定了客观的基础。1.2研究方法 本文中所有的初始数据都来自国内独立第三方数据统计分析服务提供商CNZZ()。这些数据经过分析统计处理后,主要从以下五个方面来挖掘用户潜在的信息行为特征:一是网页访问总体情况,即按月分析2010年度兰州大学图书馆网站的被访问情况;二是用户访问习惯,这里分别以一周、24小时两种尺度来探索用户行为的时间偏好;三是资源存取分析,包括用户浏览页面、用户停留时间等;四是用户浏览习惯,主要从进站网页排行、出站网页排行来分析;五是用户及区域分析,通过用户区域排行、用户回头率两个指标来分析站点的使用情况,进而获取用户的信息需求,为提高网站服务质量提供决策性的支持。2 结果与分析2.1 访问量首先要解释下CNZZ中PV的涵义:指用户访问网站Page View数,CNZZ通过在网页上放置一段javascript 代码来获取用户每次访问的统计数据,只有浏览器打开网页并执行统计代码的时候,数据才会反映到统计系统里。CNZZ将这段统计代码放在网页的下部,只有当一个网页被自上而下全部展开时,这次访问才会反映到统计系统里,也就是说CNZZ统计的是实际页面打开PV,或称为有效PV。图1显示了兰州大学图书馆网站在2010年一年内的访问情况, 从访问量分布图来看,访问量较大的时间段分别是一月,三月至六月,九月至十二月,这三个时段恰好是兰州大学的正常工作期间,而访问量较少的月份例如二月、七月、八月基本处在学校的寒暑假期间。通过该项分析,可以看出网站访问量有一个比较明显的周期,这个周期与学校学期制度有关,在正常工作期间访问量较大,在寒暑假期间访问量较小。图1 2010年网站的访问量2.2 时间偏好 通过挖掘网络用户信息行为的时间偏好,可以帮助我们了解用户在时间方面是否有共同的偏好,用户行为是否随时间的变化而变化,以及这种变化的是否呈一定的规律性。本文以一周、一天中24小时为尺度两个方面挖掘用户信息行为的时间偏好。2.2.1以一周为周期的用户行为时间偏好图2反映了以一周为周期兰州大学图书馆网站的PV数、独立访客数、IP数的变化。可以看出PV、独立访客、IP这三种不同的曲线趋势基本相同。用户在从星期一到星期四的信息行为基本保持在一个活跃的状态,从星期五开始曲线呈现下降趋势,到星期六出现最低值,但到星期日这种趋势有所回转,并逐渐呈上升趋势。2.2.2 以24小时为周期的用户行为时间偏好图3反映了以24小时为周期兰州大学图书馆网站的PV数、独立访客数、IP数的变化。同样可以看出PV、独立访客、IP这三种不同曲线的走势大体相同,并且都出现三次明显的波峰,分别代表了一天中三个不同的特征时间段:上午9点到11点,下午2点到5点,晚上8点到10点,点击量最少的时段是午夜1点到早晨7点的睡眠时间。通过以上两方面的分析我们可以看出,不管是以一周为周期还是以24小时为周期,用户信息行为都呈现出明显的时间偏好,例如,以一周为周期的规律与用户的工作日有关,访问量最大的时间段集中在周一到周五,周六与周日访问量明显低于前五天,而以24小时为周期的规律与用户的工作时间相关,呈现出三个很明显的访问量高峰期,而在晚上休息时段的访问量一直处在一个较为平稳的访问低潮。图2以一周为周期的用户行为时间偏好 图3以24小时为周期的用户行为时间偏好2.3 访问资源 用户利用图书馆网站的目的是获取信息资源,通过本项分析一方面可以掌握用户使用的资源,从而在一定程度上反映出用户的信息需求与行为特征,另一方面还可以通过统计页面各种标题、栏目的浏览次数,来反映这些页面元数据或内容的编排及放置的位置是否合适,表述是否易于用户理解,从而为下一步的网页系统改造或升级等工作提供依据。表1是浏览次数排前10的兰州大学图书馆网站页面。可以看到浏览次数最多的页面是首页,因为一般用户会选择首页作为利用图书馆资源的入口。第二类浏览量较大的页面是电子资源导航页面,例如排在第二位的图书馆电子数据库导航页面、排在第八位的中文数据库导航页与排在第十位的学科导航页面,这表明用户一般会根据网站提供的导航页面来查询各自所需的信息。第三类浏览次数较多的页面是各种中外文电子数据库,其中中文数据库包括中国CNKI学术数据库、维普中文数据库、万方数据库、超星数字图书,外文数据库主要包括Elsevier数据库与ACS数据库。这说明用户利用图书馆的网络资源主要集中在对各种远程数据库的利用上。 表2是浏览次数居前15位的兰州大学图书馆网站首页栏目排行情况。仔细分析表2并将其归纳为以下几类,一是馆藏及资源栏目,这些栏目为用户提供了方便快捷的链接,深受广大用户的青睐;二是图书馆服务,这些栏目多为不了解图书馆提供的服务内容和服务项目的用户而设置;三是快速导航;四是帮助与指南,包括数据库使用与常用软件的培训课件,说明随着电子资源的日益更新,各种培训课件是大多用户迫切需要的一类资源。五是硕博论文在线提交。可以看出,用户关注的重点是如何快速、准确的查找获取信息,图书馆网站应考虑建立高效完善的信息检索系统作为完善其服务的主要内容。 通过对以上两个表的分析我们可以看出,用户利用图书馆网站的主要目的是查阅、检索、获取各种专业性、学术性较强的中外文电子期刊杂志、电子图书等,这是符合高校图书馆网站的用户定位的。用户这种获取信息行为的方式在极大的程度上很依赖于网站的信息导航系统,然而,目前的信息导航系统,不管是各种学科资源导航、还是中外文资源数据库导航,更多只是对馆内各种资源的一个简单列表或链接,并没有发挥真正意义上的导航功能。因此,网站不仅要优化整合信息资源平台,还要提供个性化的信息导航服务,从而提高用户发现知识、创新知识的效率。表1 Top 10访问页面序号页面浏览次数1图书馆主页14323822图书馆电子数据库导航11025303中国CNKI学术数据库5136804维普中文数据库2102355万方数据库894576Elsevier数据库793727超星数字图书455908中文数据库导航358129ACS数据库3458110学科导航32404表2 Top15访问栏目序号栏目名称浏览次数1馆藏及资源中电子数据库11025302馆藏及资源中试用资源271573馆藏及资源中图书/电子图书261884硕博论文在线提交244065快速导航中简化版189316馆藏及资源中学位论文179107馆藏及资源中馆藏目录135928图书馆服务中借还书服务132619帮组及指南中数据库使用培训软件1024710快速导航中文献预约982411图书馆服务中好书推荐893912图书馆服务中SCI分区886813帮助及指南中的常用软件857714馆藏及资源中的网上报告厅794415快速导航中馆际互借及文献传递60602.4 用户浏览习惯用户访问网站的第一个页面就是用户进站页面,这些页面往往是访问者最为关注内容的所在页面,可以帮助网络管理者得知用户最需要的信息;出站页面是用户离开网站前浏览的最后一个页面,用户离开网站的原因有:已经获得所需的信息资源,或者最终没有找到所需的资源,通过对退出页面的分析可以了解用户是否完成了本次获取信息的任务,帮助网络管理者发现用户在使用网站过程中存在的问题6。因此,通过研究用户浏览习惯为优化网络信息资源的组织结构提供了可靠的依据。图4给出了用户进站与出站的方式,进站的一系列方式处在图的左方,出站的一系列方式处在图的右方,中间的黑色盒子区域代表通过CNZZ所提供的数据并不能详细检测用户自进入网站到离开网站的具体浏览路径,这里我们把它比喻为一般意义上的“黑匣子”。 用户进入某个网页获取信息资源的方式有两种,一是通过首页或者其他搜索功能开始一步步的进行查询,二是通过保存的书签或在浏览器上直接输入网站地址进入到所需资源的检索平台进行检索。从图4可以看出,用户以进入图书馆主页、电子数据库检索页、图书馆主页简化版、中外文电子期刊数据库、试用资源的方式作为进入网站的入口均属于进站方式的第一种情况,而以中国CNKI学术总库、维普中文科技期刊数据库、超星电子图书等其他数据库网页作为进入网站的入口均属于第二种情况。从图4站内出口分析可以看出,多数用户离开网站的页面是最后进入的数据库页面,可能他们已经从数据库中获取了所需的信息,还有排在第三位的出站方式是图书馆主页,这部分用户很可能并没有在图书馆主页上找到他们所需的信息而最终选择退出。 通过该项分析再一次说明了用户的需求主要集中在数据库资源和电子文献资源,值得关注的一点是排在进站方式第四位的2007年SCI分区,这说明用户不仅关注各种电子杂志文献所包含的具体信息,更关注这些杂志的影响力水平,只有在全面掌握了各种杂志影响力水平的条件下,才可以更好的区别、对待这些杂志所包含的信息。图书馆主页排在出站方式的第三位说明主页在排除干扰信息、减少浏览随意性从而引导用户顺利地到达浏览目标的能力方面较弱,因此用户难免会遇到信息迷航问题,这就需要网络管理者改进用户导航系统,提高用户的访问效率。图4 用户进站、出站的方式2.5 用户群细分 用户群细分包括对用户空间分布与回头率的分析,通过对这两项的挖掘我们可以找出有哪些用户访问本网站及用户的回头率,从而可以判断这些用户是否存在相似的特征,为从整体上把握网站访问者的概貌奠定了客观的基础。用户空间分布提供了访客来源于哪个地区,图5给出了按访问量排名前15位的访问地区,可以看出,居第一位的是甘肃省用户,这与兰州大学图书馆所在高校是甘肃省唯一一所“985”、“211工程”院校有关,兰州大学图书馆较其他院校、地区图书馆提供的网络信息资源更为丰富,因此受到了广大甘肃用户的青睐。排在第二位的是陕西省用户,它不仅属于西部地区而且科研实力较强。其余用户多分布在全国其他有较强科研实力的北京市、广东省、江苏省等地区。用户回头率反映了网站访客访问次数多少的情况,回访次数越多,用户的忠实度越高。从图6可以看出,绝大多数用户访问图书馆网站的次数为一次,说明该类用户属于随机用户,而访问次数为十次以上含十次的用户所占比例也较大,这类用户就属于兰州大学图书馆网站的固定用户群体,但相比于访问一次人数的比例37.85%,固定用户群体只占25.60%。 通过对用户群的分析,我们可以看出网站用户群的特征从总体上具有较强的科研实力,其次网站所属的区域与用户所处地理位置有较大关系,离网站所属区域地理位置较近的用户群占比例较大,相反,离网站所属区域地理位置较近的用户群占比例较小。这需要网络管理者改善其网络服务,增加固定用户群体数量,提高信息资源的利用率。 图5用户空间分布 图6 用户回头率3 结论本文以兰州大学图书馆网站为研究对象,通过CNZZ提供的网站访问数据,从网站访问量、用户时间偏好、访问资源、浏览习惯、用户回头率和空间分布等方面挖掘了网络用户的信息行为特征与规律,最终得出以下结论:1)从访问量分布图看,网站访问量有一个比较明显的周期,这个周期与学校学期制度有关,在正常工作期间访问量较大,在寒暑假期间访问量较小,这说明网站用户的定位对象是以学校教师和学生为主。2)从用户时间偏好来看,以一周为周期的分析基本反映了工作日和周末用户访问量的差异,即周一到周五的访问量要高于周六和周日;以24小时为周期的分析分别在上午、下午和晚上呈现出三个不同的访问高峰时段,这为网络管理者维护网络提供了可参考的时间。3)从访问资源和浏览习惯共同得出,用户访问的重点集中在数据库资源和各种电子文献资源,这是符合高校图书馆定位的,更为有意思的是发现用户在关注各种数字资源内容的同时也关注这些数字资源的影响力水平。其次,用户在访问资源过程中很大程度上会依赖于网站的导航系统,这说明一个高效完善的导航系统是网络管理者提高资源利用率的关键性所在。4)从用户回头率和空间分布来看,网站用户群从总体上具有较强的科研实力,但网站服务覆盖面较小。长期以来,研究者们在利用网站数据研究用户信息行为时受到服务器日志复杂、分析需要花费时间较长等限制7,本文提供了一种利用第三方提供的数据进行网络用户信息行为特征挖掘的新思路,并得出一些有意义的结论,这些结论为网站进行优化和调整提供有价值的参考意见。 参考文献1中国互

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论