签到行为的可预测性资料_第1页
签到行为的可预测性资料_第2页
签到行为的可预测性资料_第3页
签到行为的可预测性资料_第4页
签到行为的可预测性资料_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、签:物L、了7勺在勺口怪电子科技大学学报2015年弟二期1数据描述本文研究所采用的数据集来源于两组由手机收集到的经过匿名化处理的地占八、签到信息:数据集D1来自LBS社交网站Gow/alla全球范围内的用户可通过移动端的应用程序或者浏览器进行主动签到从而与好友分享新的地占八、活动和旅行线路数据集D2来自国内某沿海城市的手机QQ用户使用涉及地图服务的应用时被动记录下的地占八、信息0因此两组数据都是用户发生空问移动行为时记录的位置信息包括了用户ID、地占八、经纬度、时问等属性且相比于D2D1由于是用户主动上传分享的故苴/、主动性更强一些0为了保证用户轨迹信息里且/、有统计意义本文在计算可预测性时去

2、掉了地占八、签到里不足100条的用户在去掉不活跃的用户之后D1、D2的用户数里分别为全部用户的8.35%和28.92%但轨迹里却台匕目匕分别达到65J59%和79.33%地占八、数目分别达到全里数据的76.156%和81.00%0两组数据的的大小U0统计两个数据集中全部用户和地占八、的活跃度分布结果如图1所示0用户活跃度N的累积分布如图1a所示两个数据集中用户比例均在大约30个地占八、处开始明显下降这说明在人们的日常生活中大多数人经常访问的地占八、数是有限的对这些有限数里地占八、的访问是较为均匀的0如图1a插图所示曲线在双对数坐标下近似为直线即-ln(P(N)N故两个数据集中用户的活跃度分布的

3、累积形式表现为广延指数分布形式30-31:0()exp(/)c(;P=x-xx苴/、中0 x为特征标度指数c即为图1a插图中近似直线的斜率0而由图1b知地占八、的活跃度分布则为幕律分布0这说明在特定地占八、签到的人数且/、有较强的异质性即日常生活中大部分地占八、的访问人数较少同时存在少数热门地占八、且/、有大里的访问人数0这样的现象与购物、占八、评等典型二部图网络的度分布研究结果类似3:2说明在直实系统中行为的主动发出者所覆盖的受众是有限而较为均匀的而行为的被动接收者却可以接受大里而异质的访问0由于Gowualla数据的地占八、精确度非常问里非常少因而苴/、UU曲线要快多后者2.2签到行为的统

4、计特征度信息计算用户i在离并进一步到每个为0式中im表示该用计算每个用户的回转5忤所示该分布同样表现数人在日常生活中的活少数人的活动5M径台匕目匕达里0进一步计算每个用转5忤径之问的Peason相关分别为0.630和0.556即关关系02.3跳转距离相关性用户否存在内在联系是否示着下一步也是长距离问题本文采用文献33标研究所有个体用户高故大部分地占八、的访曲线的衰减速度比QQ的的异质性更强0根据签到记录中的经纬签到过程中的跳转距用户的平均跳转距离户全部轨迹占八、的质心0径苴/、概率分布如图2b为幕律形式说明大多动5忤径是有限的只有到数百、甚至数千公户的平均跳转距离和回系数结果在D1和D2中二者

5、表现为较强的正相相邻的两次跳转之问是一次长距离的跳转也预的跳转?为了研究这个3中定义的记忆性指跳转距离的相关性0若更小因此力商值也必然更大0如图3a所示D2的直实值rea=2.11即用户跳转的不确定性约为2.112,-4与文献20一致0说明在日常生活中用户的被动签到行为在下一时刻可台匕目匕访问的地占八、数是非常有限而主动签到行为可台匕目匕访问的地占八、数要大多即用户行为的主动性会大大提高力商值同时降低可预测性03.2影响可预测性和规律性的因素分析从刖文的统计结果可以看出人类的日常签到行为具有复杂性和规律性交织的特征0那么规律性越强的用户是否更容易预测?访问过更多地占八、的用户、活动径更大的用户

6、是否更难预测?计算每个用户的可预测性ma)in和规律性reaiR之问的Peaison系数结果显示该值在D1和D2中分别为0.057和0.027即规律性与可预测性之问并无明显的相关关系并不是行为越规律的用户越容易预测0此外计算可预测性ma:xin和跳转距离记忆性M之问的Pearson系数结果在D1和D2中分别为0.111和0.096说明可预测与跳转距离也没有显者关联0下面本文分析影响用户签到行为动过程而rarid由于苴计算方式导致苴损失了过多的信息故数值接近于零因此没有明显变化0相对于回转半径平均跳转距离对可预测性的影响作用更小03.2,2规律性的影响因素分析规律性反映了用户在特定时段出现在最常

7、访问地点的概率那么上述三个统计里对用户签到行为的规律性是否有影响呢?计算结果显示随着用户访问地占八、数的增大rand快速衰减并趋近于零而real在很大范围内保持缓慢的下降说明仅仅是地占八、数的增大并不会对用户签到的规律性产生太大影响0而回转半径和平均跳转距离对规律性几乎没有影响03.2,3最常访问地占八、的影响在人们的日常生活中不论是个体还是群体用户对某个特定地占八、的访问量都且/、有显著的异质性少数地点且/、有极高的访问县里而大多数地点极少被光顾0那么这些访问里大的地占八、是否对可预测性产生影响呢?为了回答这个问题逐步删除用户移动轨迹中访问县里最大的K个地点查看用户最大直J、实嫡和可预测性的

8、变挑选访问过的唯一地点数据集D1和D2中分别是在删除访问里大的地占八、1个不同的地占八、0实验最大直实可预测性max以分为两个阶段0当删一阈值时整体可预测续增长超过该阈值后升趋势0而real的变化于阈值范围区问内随着于阈值范围内则慢慢变几个访问里特别大的地较大且嫡曲线变化的性曲线变化的阈值0可非平凡现象:一股情况富的用户来说随着最户的地占八、签到序列会慢值将慢慢增大最大可当轨迹占八、被删除到一定化情况0在实验刖首先数大于最大删除里(在50和20)的用户以保证时用户仍然访问过多于结果如图6所示平均曲线的变化规律大致可除的地占八、数N不超过某性呈下降趋势;当N继整体可预测性反而呈上趋势则正好相反在

9、小K的增大而变大在大小0并且在删除刖面占八、时曲线的斜率都比阈值要小于最大可预测以从以下方面理解这种下对地占八、访问信息丰常访问地占八、的删除用慢变随机化此时嫡预测性也随之降低0但程度时用户访问序列中的轨迹占八、都逐渐趋近几乎成为一个完全随机测性下降趋势逐渐变缓问次数都为1的时候预测性曲线也慢慢趋向迹点时嫡值随着N的最大可预测性则因为随而缓慢增长0由此说明是带来签到行为高可预而可预测性曲线的最值Fano不等式中二者的非4结语和讨论本文通过两组手机用户常的出行行为总结了用嫡的方法分析了签到点分析了影响可预测性的签到行为具有一定的问且/、有明显的异质性0地点数和对最常访问地性和规律性有明显影响于被

10、访问极少的次数的地占八、访问序列可预0当全部的轨迹占八、的访嫡值达到最大此时可最小值0当继续删除轨增大而逐渐变小此时机序列中地占八、数的减少用户经常访问的地占八、测性的一个重要因素0占八、比嫡曲线滞后则是线性关系造成的0的签到数据研究人类日签到行为的一股规律行为的可预测性并重的几个因素0发现人们记忆效应对地点的访总体来看用户访问的点的访问规律对可预测0具体而言用户访问此用户对地占八、访问的异质性是影响苴可预测性的重要因素0从研究结果可以看到数据集D2到的可预测性数值要高于D1这样的差别反应了两组数据集的不同0如刖文介绍所说Gow/alla是一个鼓励用户主动上报地理位置的LBS;网站苴行为更多源自旅游、美食、娱乐等活动的分享而QQ数据是在用户日常生活中使用地图服务时记录的位置信息日常生活中出行的记忆性和规律性更强地占八、重合度也更高因而苴可整体可预测性也更高0人类行为动力学研究的是人类行为的宏观统计规律而嫡的方法分析可预测性到的则是预测准确度的理论上限并不是直正意义上的预测算法0由于人类行为的高度复杂性

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论