企业信息系统用户行为统计特性资料_第1页
企业信息系统用户行为统计特性资料_第2页
企业信息系统用户行为统计特性资料_第3页
企业信息系统用户行为统计特性资料_第4页
企业信息系统用户行为统计特性资料_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、业言言录系名讲户行为2究t十年对用户访问行为规律的研究分析是大型门户网站、社交网络、电子商务网站等每天必做的功课通过对网站访问的分析研究了解用户的地域分布、兴趣爱好、行为特征等从而更好地对网站进行运维管理改善网站的服务质县里以迎合客户需求吸引客户0但是在管理信息系统领域中企业缺乏对用户行为规律的研究在新信息技术不断涌现特别是云计算的目早下基于云的信息系统已成为必然对系统中用户行为规律和群体特征缺乏了解会阻碍管理信息系统的发展0通过对大里人类行为事件进行研究分析从中挖掘出人类行为的特性与规律是当刖的研究热占八、之一已在许多领域开展了大县里的实证探索取了系列的研究成果研究情境包括水路邮件、电子邮件

2、、网页浏览、电影占八、播、手机通讯、金融活动、博客论坛、面对面交互网络等0然而到目刖为止对人类行为模式研究较少仅有文献研究了市场中的证券交易文献15对某世界500强企业下发采购订单行析但是对企业信息系研究还没有涉足0为此信息系统用户访问日志业信息系统用户个人访度、阵发性和记忆性行为规律进行止县里分析户和全体用户的访问时信息系统用户访问行为统用户的访问行为进行信息系统的运行维护和时也拓展了用户访问行1研究方法11人类行为动力学人类行为特征一直是学由于数据记录的手段落工具和方法在研究涉时常常假设人类行为随机过程其2个相继数分布描述如下:P(P)为进行了时问统计分统中的人类行为模式的本文通过对企业管

3、理数据进行分析研究企问的时问问隔、活跃对信息系统中用户访问并进一步研究群组用问问隔规律0研究企业的规律可以对信息系有效预测进而为企业优化提升提供依据同为规律的研究情境0全面深刻地认识复杂的者们努力的方向0以往后加上缺乏现代统计及人类行为特性的问题是符合泊松过程的稳态行为的时问问隔用负指入e一入T泊松过程可以看作具有负指数问隔的计数过程即人类活动模式是随机和平稳的其相邻事件的时问问隔大体上是均匀的很长的时问问隔非常稀少0随着信息技术的发展和现代统计工具的进步人类记录和分析自身行为数据的手段也越来越高效和便捷使得利用大规模数据分析人类行为模式成为可台匕目匕02005年Barabssi2在Natur

4、e上发表了一篇题为The()rigi【nofburstsandheavytailsinhumandyriam-ics的论文标志着人类行为动力学的正式提出该论文通过分析电子邮件发送和回复行为的时问问隔揭示了人类行为在时问上对泊松分布的偏离人类行为的时问统计特性不是均匀的其中伴随着长时问的静默和短时问内的高频率的爆发相继行为的时问问隔分布具有明显的胖尾特征可以用幕律分布函数更好地拟合0人类行为动力学是一门新兴的交叉科学通过对大量人类行为事件进行止县里统计从中挖掘人类行为的统计规律提出假设建立模型来探索这些规律的产生机制和可台匕目匕的动力学影响2。大县里的实证研究都揭示了是偏离泊松分布的在时问阵发和

5、长时问休眠12时问特征分析指指标分别包括问隔时问忆性等01)问隔时问:的时问问隔0例:甲于问信息系统乙在2012息系统则甲乙2个相秒0如果所有系统用户k次则有k-1个问隔时秒02)阵发性:是描述动和长时问静默的物理Barab(ssi的公式计算阵发时问问隔特性的相关性问问隔后面容易跟着一时问问隔后则容易跟着这样的人类行为发生的忆性04)活跃度:即活事某种活动的强度0文人类行为在时问维度上行为模式上表现出了短的特征0标人类行为的时问特征、活跃度、阵发性、记是指连续2次相继访问201010803:08时刻访010)801:09时刻访问信连行为的问隔时问为1访问信息系统的次数为问0本文的时问单位是用户

6、行为短时期密集活里在本文中使用Gor1和性03)记忆性:是描述程度人类活动长的时个长的时问问隔短的一个较短的时问问隔时问序列被认为具有记跃程度是指一个人从献7提出活跃度的概念并指出了用户活跃性程度与幕指数具有非线性正比关系止义活跃度为弟一个行为发出到最后一个行为发出这J段时问内用户发出的平均行为数0Ni是该用户个体发出的行为总数Ti是该用户从弟一个行为发出到最后一个行为之问经历的总时问02数据收集与分析21样本企业的选择在本文中以X公司为研究对象研究用户访问企业信息系统的时问特征0X公司是国内者名的船舶修造企业有员匚及务人员1万多名0X公司一直重视企业信息系统建设曾投入巨资购买了Oracle的

7、ERP系统0由于受到全球经济危机的影响船舶市场整体低迷X公司为了增强企业兄争力F20119月实施了成本管控系统包含报价成本、目标成本、成本核算、成本分析、财务管理等共8个子系统该成本管控系统注册用户314名人均日访问县里3次人均日访问系统功台匕目匕3个员工的访问人数和访问里代表了X公司的信息化应用情况02*2数据获取从X公库日志文件提取了L206月14日期问用户对成作删除了没有登录名到了314位系统用户共计通过访问行为记录研究律同时以其中30位访对象研究个体用户访问跃用户按访问县里大小分用户的访问行为特征023数据分析在对数中主要运用SQ_Sever本数据进行处理和分析库日志文件提取所有问计算

8、相继访问系统Matlab软件1日到相继行坐标下的概率分布图;3)数据拟合1日到幕指数及30位访问里最多的活跃特征并统计其访问县里、司成本管控系统的数据年9月14日到2013年本管控系统的访问操和部分错1口的记录1日348122条访问行为记录总体用户访问行为规问里最大的活跃用户为行为特征并对30位活为3个群组研究群组据的获取和分析过程MatlabExcel等工具对样01)根据X公司的数据用户登录访问系统时行为的时问问隔;2)通过为的问隔时问在双对数采用最小二乘法对主体其概率密度函数选出用户分析用户访问行为活跃度、阵发性、记忆性等指标同时将其分体群组全体3户访问的行为规律特性24拟合方法及过程近是

9、指选择适当的曲不要求经过所有数据占八、数据占八、的基本走势0本Matlab拟合方法是最小的数据找到函数关系表使求解日到的数据和实和最小0对数据拟合的释台匕目匕力(R-sqluart0、残(RM(花)等0其中残差一乘拟合优劣程度最重越大SSE而RMSIE越接近合效果好数据预测也过自己编写的代码作统用户的访问时问问隔后通过最小一乘法在Mat的拟合模型0为3个群组从个个层面研究信息系统用0数据拟合又称函数逼线来拟合离散数据占八、只要求尽可台匕目匕地反应文所用拟合工具是一乘法即根据已提取达式作为拟合模型际数据之问二口差的平方优劣性衡县里指标有:解差平方和沏、均方根平方和SE)是衡县里最小要的指标之一R

10、-squiare0说明模型选择和拟越成功0笔者用Malab通出X公司的成本管控系在双对数坐标的图然t1ab下的实现找出最优3结果分析3.1个人行为分析1.个体用户访问信息系统的规律。以数据库日志文件中访问量最大的前30位活跃用户为对象,通过Matlab软件,得到这30位活跃用户对成本管控系统访问行为的问隔时间在双对数坐标下的概率分布图,然后利用最小二乘估计方法对主体数据曲线进行拟合,得到个体用户访问信息系统行为的拟合曲线,图1图3分别是系统管理员、访问量排名第19位和第21位的用户访问系统相继行为的间隔时间分布。其中蓝色点为全体用户访问成本管控系统相继行为间隔时间的原始数据,红色直线是拟合曲线

11、,3位用户访问信息系统相继行为的幕律分布指数分别为0.96220.6422和0.6787。综上分析,发现个体行为的时间统计特性不是均匀的,其中伴随着长时间的静默和短时间内的高频率的爆发,相继行为的时间间隔分布具有明显的胖尾特征,其间隔时间分布在超过2个数量级范围服从事律分布P(p)pa,幕指数不等。2.活跃度和幕指数之问的关系0的用户的行为规律不布规律上为了更深层访问行为规律本文对问的阵发性、记忆性和详见表10从表1可以对成本管控系统的访问弱记忆性相比其他研性值本系统中个人访性值更大说明企业信更为严重02)幕指数和系幕指数会随着活跃指数不会无限增大大持稳止如图4所示0用户活跃度也最大每统但是幕

12、指数是132群组行为分析为统的行为把30位活跃大小递减排序把排序组每个群组包含10个人类行为是高度复杂仅体现在问隔时问的分次挖掘信息系统用户的30位用户的访问问隔时活跃度指标进行计算发现:1JX公司个人用户行为表现出强阵发性和究的复杂行为中的阵发问行为表现出来的阵发息系统用户访问的胖尾活跃度存在正相关关度增加而增加但是幕概到1*5左右时会保例如个人访问县里最大的天接近72次访问管理系370了研究群组访问信息系个体用户按昭八、访问量的后的用户分为3个群用户群组数据按昭八、对成本管控系统访问时问的先后顺序组成0首先利用幕律分布分析3个群组对成本管控系统访问行为时问特性如图5图7所示0虽然3个群组幕

13、律分布的拟合指数较好但是对3个群组的拟合中没有考虑头部的数据而群组数据由于数据里大且并发严重不能不考虑头部从图5图7中也可以看出头部显然是偏离幕律分布的0所以群组用户访问信息系统的问隔时问可台匕目匕不是服从单一的分布0从图8图10可以看出相比单纯的幕律分布混合分布的拟合指数更优对3个群组用户访问信息系统的行为拟合更加精准0为什么服从幕律分布的个体叠加为什么会偏离幕律分布?一方面是因为对个体用户访问行为头部数据的忽略这些忽略偏差的累积导致了群组访问行为产生了指数因子;另一方面是信息系统员工访问行为的特性个体用户很少会在10秒内大量并发地访问信息系统在对个人访问行为数据统计时发现虽然有10秒内连续

14、访问信息系统的情况但是这包含了一止的误操作和非规范操作所以在对个人问分布拟合时没有考情况而对于群组的数系统的访问交叉在一起况导致小的问隔时问也可以看到小的问隔时由于每个群组数据只包据量相对不是很大导似平缓正如图8图一止指数分布的特性0数据拟合1日到的幕律分所包含的2个幕律部分律指数最大而群组3源自用户活跃程度的不含的访问行为数据最多大每天的并发访问情时问所占比例大于另外占比例则小从而导致最大的0而群组3正好度在3个群组中最小用户访问行为的问隔时虑问隔时问在10秒内的据则不然每天对信息存在大县里的并发情所占比例增加从图中问出现概率增大同时含了10个个体用户数致10秒内的并发情况近10中所展示的体

15、现了此外通过对3个群组布函数对比混合分布可以发现群组1的幕的幕律指数最小这是同所造成的群组1包整体活跃性程度最况最大导致小的问隔2组大的问隔时问所在幕律指数在3组中是相反整体的活跃性程即并发访问情况相对较轻小的问隔时问所占比例小大的问隔时问占的比例大即体现在幕律指数是3个群组中最小的033全体行为分析31节和32节对管理信息系统的个体用户访问系统行为规律进行了统计和分析对分成3个群组的个体用户进行了群组访问行为规律的分析到了与个体用户行为不同的群组特性0下面将从数据库日志文件中获日的访问行为数据进行整体研究0研究发现虽然全体行为的问隔时问分布在超过2个数里级范围服从幕律分布P()T一a但是实证

16、数据的头部显然兼具着指数分布的特性0用指数截断的幕律分布对数据进行拟合发现拟合参数中的R2值仅为05012如图11所示没有找到合适的指数截断的幕率函数形式所以除了混合形式的分布用分段形式的分布来表示更好0如图12所示头部的数据用指数分布拟合中尾部的数据用幕律分布拟合拟合曲线和实证数据高度吻合0从图中可以看到在60秒内的问隔时问服从指数分布超过60秒后的问隔于相对只有10个个体用而言全体访问有314位有更严重的并发访问信以看到小的问隔时问对比个体用户和群组访体访问行为问隔时问数更加趋向指数分布从60秒内问隔时问用指数吻合(R2=0*99、)1)即本管控系统的访问服从时问的增大分布逐渐2=0*98

17、SJ9)幕指数是2行为全体访问行为数指数更大原因是随着访问变大小的访问问大的问隔时问所占比例全体用户的访问行为的大差日一方面是由于误差另一方面是并发时问服从幕律分布0由户访问行为数据的群组用户每个工作日都会息系统0从图12中也可概率在增大从而导致问行为的问隔时问全据的头部更加的平缓拟合效果也可以看到分布拟合和实证数据的全体用户在60秒内对成泊松分布;而随着问隔偏向幕律分布(R*26890对比个人访问据中段部分的幕律分布访问人数的增多并发隔时问所占比例增大变小导致幕指数变大问隔时问在头部出现较对个体行为拟合的弱小情况的加剧所导致0所以可以大胆设想如果系统用户有无穷多个用户日常访问的并发情况应该更

18、严重可台匕目匕会导致访问行为60秒内的问隔时问分布也偏离指数分布趋向幕律分布04结论与讨论通过对信息系统用户的个体一一群组一全体3个层面的实证分析探讨系统用户访问行为特征实证结果表明:1)信息系统用户行为的统计规律在个体层面上表现出单一的幕律分布在群组层面具有混合分布的特征在全体层面却表现出分段的分布形态展现了人类行为的高度复杂性和多重标度特性02)信息系统用户在个体群组全体3个层面都表现出了严重的胖尾特征个体用户的访问有很强的阵发性和弱记忆性幕指数和活跃度存在正相关关系3)个体群组全体3个层面0表现出的幕律指数的差异是由并发访问情况的差异所决止并发性越大则小的问隔时问所占比例越大大问隔时问所占

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论