聚类算法在高校网络用户行为分析中的应用_第1页
聚类算法在高校网络用户行为分析中的应用_第2页
聚类算法在高校网络用户行为分析中的应用_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

聚类算法在高校网络用户行为分析中的应用聚类算法在高校网络用户行为分析中的应用

中图分类号:TN911《34文献标识码:A文章编号:1004《373X〔2022〕07《0029《04

Abstract:Thenetworkmanagementdepartmentsinuniversitieshaveaccumulatedusers′massonlinebehaviordatainope《rationmanagementprocess,whichcanmasterusers′onlinehabitandregularpatternbyreorganizingandanalyzingtheusers′onlinebehavior,andformulatetheonlinemanagementstrategyscientificallyandeffectively.Aspecificcollegeistakenastheexample,theusers′onlinedataispreprocessed,andcorrespondingfieldisextractedtobuilttheanalysisdataset.Theonlinelogintimeisshowedingraphicformafterstatistics.Bytakingonlinetimeastheindexvalue,theclusteringanalysisfortheonlinerecordisconductedwithK《meansclusteringandKohonenneuralnetworkclusteringmethodstoobtaintheclusteringresults.Incombinationwiththeuserinformation,theresultsobtainedfromthetwoclusteringmethodsarecomparedbytakingcorrespondingcriterionofuserandonlinerecordasthecriteriontojudgetheclusteringeffect,andthesuitableresultisselected.Theonlineconditionoftheexperimentalunitisanalyzedwiththecomputedresultstoproposesomesuggestionsforonlinemanagementstrategy.

Keywords:Kohonenneuralnetwork;universitynetworkmanagement;onlinebehavior;onlinemanagementstrategy

0引言

信息技术的高速开展,不但对人们的生产生活产生了巨大的影响,同时也给传统的学校教育带来了很大的冲击[1]。随着互联网应用的遍及,网络用户数量快速增加。对国内高校而言,互联网已成为学校师生学习、工作、生活的根本需求,网络用户几乎覆盖了学校100%的人员。高校用户具有知识性强,使用互联网积极性高,信息交互量大等特点,对联网速率、网络稳定性都提出了较高要求。而由于我国高校网络用户连接互联网大多通过学校统一网络管理部门出口连接互联网,对高校而言,互联网出口带宽是有限的,网络管理部门在响应用户的上网需求时,有较大压力。为解决相关问题,各高校网络管理部门也采取了一定措施。一方面,通过技术伎俩优化学校网络结构,升级网络设备,提高网络可用性;另一方面,通过出台相应的管理措施利用经济与行政伎俩对用户上网行为进行相应引导,平衡用户的联网需求。

目前国内的很多高校在校园网的运营管理上都会使用一些应用效劳器,主要用于认证计费、入侵检测、流量监控等方面。在提供效劳的同时,也产生了大量的日志数据存储于后台数据库中。这些数据包含着整个校园网内部用户的使用状况。如果能对这些数据进行科学有效的分析,并对分析结果加以合理利用,将会对整个网络管理起到很大的推进作用[2],为网络管理进行有效撑持,为决策科学化、管理精细化提供帮忙。本文以一具体高校为案例,对用户上网行为进行分析,找到相应规律,根据相应指标对用户进行分类,为用户分组,制定用户管理决策提供帮忙。

1数据抽取与分析

D校在进行用户链接互联网管理过程中,用户通过专用客户端软件登录的方式登录互联网,网络管理部门对用户的登录上线时间、退出下线时间,登录总时长等都有专门数据库进行记录。每一次登录在后台都会出现一条记录。由于运行数据库相对庞大,表之间关系较为复杂,数据结构多样,为方便分析,从运行的上网数据库中提取与教工用户上网时间相关的字段,构造上网时间分析表进行分析,如表1所示。从图1可以看出,每天大约6点钟后开始有少量教工登录互联网,在早8:00―9:00间到达顶峰。在中午下班前11:00―12:00间登录人次降低。中午休息及下午上班前〔12:00―14:00〕登录人次较中午休息前增加,临近下班登录人次降低,下班后登录互联网人次相对稳定但低于上班期间数量。

2上网时长聚类

聚类〔Clustering〕是数据挖掘中一种重要的挖掘办法,它是将物理或抽象对象进行分组并将相似对象归为一类的过程[3]。

对于数据库中的记录,上网时长字段〔TIME_LONG〕是指从登陆网络到退出网络的时间,上网时长指标有一定规律性,为掌握用户上网行为,科学制定用户上网管理策略,下面对用户每次登陆的上网时出息行分析。

K《均值算法是一种基于划分的聚类算法,它通过不断的迭代来进行聚类,当算法收敛到一个结束条件时就终止迭代过程,输出聚类结果。由于其算法思想简便,因此K《均值算法己成为一种最常用的聚类算法之一。

使用K《均值聚类算法对一学院教工上网时长记录进行聚类,根据样本数量,设置聚类个数为4个,经过聚类,四个类的聚类中心分别为:聚类1,中心为3.51;聚类2,中心1.19;聚类3,中心44.25;聚类4,中心72.86。

为每条记录增加一个字段,表示该条记录所属的类别。按上网时长排序的聚类结果如表2所示。

Kohonen网络是自组织竞争型神经网络的一种,它能够辨认环境特征并自动聚类[4],该网络为无监督学习网络,能够辨认环境特征并自动聚类。该办法用迭代算法优化目标函数来获取对数据集的分类。

聚类结果如表3所示。

3聚类结果比拟与策略分析

对照原始数据发现,一个用户每天可以频繁屡次登陆退出网络,在有联网需要的时候上网,不需要上网的时候及时退出,待有需要的时候再次联网,在这种情况下,对于同一个用户,在数据库里一天可以有多条记录。同样,也存在这样的情况,有的用户每天只登陆网络一次,待关机时自动退出网络,对于这样的用户,一天只有一条登录记录。

对于绝大多数用户,个人的上网行为是有一定规律的,而在上述对上网时出息行聚类的过程中并没有考虑用户的因素,这就出现了同一用户的不同上网记录被划分到不同类别的情况,如果上网时长相差较大,被分在不同类别是可以理解的,而如果同一个用户每次上网时长比拟接近,且恰巧在聚类边界点附近,但被划分在不同类别,则聚类结果那么不能被很好的理解。

基于这种现象,对上述两种聚类办法的聚类效果进行评价。

评价偏好若:相比于类间距、类内距离而言,将同一个用户主体距离较近而类别不同的记录记为一类更有意义。对不同聚类算法而言,聚类边界点附近的属于同一个用户但被划分为不同类别的记录越少越好。边界点附近的记录比照结果如表4所示。

在[K《]均值聚类结果中,202220x2,199610x0,202220x0,202210x9四个用户具有在边界点附近且被划分为不同类别的记录,而在Kohonen聚类的边界点附近却没有类似的数据。因此,根据评价偏好,在本例中采用Kohonen聚类办法聚类效果更好,对实际数据的解释效果更好。

策略分析:通过对用户上网时出息行聚类,分析聚类结果,约70%的上网记录为第一类,上网时长集中在1h之内,表明对大局部用户,都能根据上网需求,调整上线时间,在没有上网需求时,主动退出互联网,这也与大局部用户选择的按时上网收费策略是相关的,表明相应的策略能够影响用户的上网行为。

第四类上网记录数量不多,但上网时长较长超过6h,比照上网记录的用户信息,发现主要集中在个别用户,结合实际工作与走访调查,发现上述用户普遍存在对上网工具使用不熟悉,不会主动退出网络,只在关机时自动退出网络的现象。针对这种情况,对此类用户进行有针对性的上网工具培训,同时在上网管理策略中增加规那么,对上网时长超过6h的记录,通过

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论