版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
--第1章绪论1.1研究背景及意义众所周知,现实世界是动态变化的,存在大量的运动实体,如运动的飞机、车辆与行人,这些随着时间演变的空间对象通常被称为移动对象。而随着移动定位技术和通信技术的不断融合,以及位置相关服务、物联网和智慧城市等应用的不断发展,移动对象的轨迹数据获取越来越简单,这也造成了LBS技术的蓬勃发展。例如1989—1994年所部署的GPS系统在今天已经在日常生活中被广泛利用。用户位置的可用性促使过去的种种设想成为现实,如基于数字地理地图的自动导航、地理社交网络、根据给定的需求搜索位置等。各类软件也迅速崛起,美团、大众点评、去哪儿网等可以帮助人们搜索出特定地点附近的酒店、电影院、景点门票等;滴滴打车、高德地图、花小猪打车等可以帮助人们规划适合自己的出行路线,同时帮助选择出行使用的交通工具;微信、qq、新浪微博等都可以让人们根据自己的当前位置查看自己附近的人的状态,包括发现周围的用户、自己与用户间的距离、查看周围人所发布的公开信息等;而悦跑圈、Keep、动动等都可以记录人们的运动路径、运动距离及运动时间等信息,同时可以帮助人们自己查看自己的健康情况。在这其中移动用户的位置、轨迹信息作为基于位置服务产生的数据信息,不仅能反映出移动用户的活动轨迹,同时也能间接地体现出用户自身的活动路径与自己所处环境中的交互关系。例如,出租车在一天中的行驶路径,除了可以记录这辆车在一天当中的行驶路线,同时其中也蕴含着一些隐秘的行为信息(比如加油地点、就餐地点及时间、乘客上下车位置等),使其区别于私家车,还能在很大程度上客观反映较大范围的城市路况,这也可见轨迹数据的重要性。但是,即使LBS在为人们的衣食住行带来了极大好处,难道就没有任何风险吗?答案当然是否定的,任何技术都是一把双刃剑。LBS技术有好的一面,当然也有不利的一面,因为在使用LBS过程中我们每个人的隐私信息都有被泄露的风险。具体而言,在LBS应用中,用户把自己的位置发送给LSP,LSP就会收集甚至非法使用用户所提供的位置信息,也就可以轻松地得到用户的隐私。对所有使用LBS服务的客户来说,公开自己的所处地点都有自身隐私被披露的风险。在每个人的所处位置中都可以分析出目标用户的住址、工作位置、生活习惯等。并且根据科学调查后也看到了每个人日常行动中都有着自身的规律。正因如此获取用户的地点坐标不但是让不法分子有掌握用户当前环境的风险,更重要的是有未来自身行动轨迹被掌握的概率。并且由于移动设备中的LBS应用需要获取用户的实时位置,从而向其提供相应的线上服务。比如,用户需要寻找距当前位置最近的商场,但是在这个过程中用户所公布的地点信息就有被不法分子截获的可能性,进而暴露自己的行踪。同时,有些用户也不希望服务器知晓自己的确切位置,只要服务器能够根据自己的大致位置提供相应服务即可。为此,针对在线查询这一方面出现了大量的隐私保护技术研究,这些技术的主要目的是保证攻击者不会通过用户的连续LBS查询获取用户的行踪。1.2国内外研究现状目前所说的隐私保护是指在用户使用位置服务时,通过技术手段确保用户的位置隐私信息不被泄露出去。自2003年,beresford首先提出了位置隐私的概念,自此对LBS隐私保护的研究开始提上日程。Ghinita从私有查询和轨迹匿名两个方面对位置隐私进行了综述,但没有涉及隐私度量和查询隐私;Krumm着重评述了匿名、模糊化隐私保护技术和一些利用位置数据几何性质的隐私侵犯算法,但没有涉及系统结构和查询隐私;张学军对位置隐私保护研究现状与进展进行了综述,阐述了当前几种典型的隐私保护技术的优缺点;Kim通过一种kNN查询处理算法优化了隐私技术,有效保护数据隐私同时降低系统开销。霍峥从传统关系数据隐私保护向时空方向拓展的角度对数据发布中的轨迹隐私保护和LBS中的轨迹隐私保护关键技术进行了分析和比较,但没有涉及查询隐私;周长利等研究了LBS务器文体建构隐私保护问题,对查询服务质量和安全性进行了分析,提出了基于路网的近邻查询隐私保护方法;闫光辉在K匿名隐私保护法基础上,针对推理攻击位置熵的选取进行量化研究,提高了隐私保护效果。关于位置隐私保护研究至今,国内外的专家学者不断提出各种技术方法,基于多个隐私保护手段,对位置隐私服务的复杂度、保密性、安全性、抗干扰性和准确性等多方面的安全性能都有了极大的改善。同时采用多种保护技术,不仅有效的保护了数据隐私,降低系统开销,提高了服务质量,还拓宽了其应用场景,尤其是在位置移动终端上的应用使位置隐私服务得以面向大众,服务大众。但是在面对当今各种复杂环境,各种应用服务需求,以及各种用户种类,位置服务的安全性,保密性以及复杂度还无法完全满足。尤其是在面对LBS系统时,其安全性和复杂度方面就存在明显不足。宋成等[9]差分隐私法指的是抵御差分攻击所采取的方法,近年来在国内成为大家关注的热点。差分隐私方法最早是Dwork在2006年针对隐私破坏提出的基于概率的隐私模型。LiuLing等人提出使用中值长度估计方法来估计用户的轨迹长度,并生成既保护差异隐私又具有高效用的合成轨迹。HuaJingyu等人针对轨迹的差分隐私泛化算法,利用指数机制,根据不同点的距离来合并节点。之后他们提出了另一种不同的方式释放泛化后的轨迹。Muhammad等人将差分隐私与轨迹泛化方法相结合,以保护敏感车辆轨迹的隐私,这不仅为车辆轨迹提供了不同的隐私预算,同时也为不同的轨迹提供了不等的保护程度。在轨迹隐私保护的几种方法中,差分隐私法是目前研究最广的方法,这种方法不需要对攻击者所掌握的攻击背景做出严格限制,允许攻击者了解部分攻击背景,但是差分隐私方法也存在一定缺陷:近年来对差分隐私的研究过于看重最终的保护效果,但忽视了为了保护所添加的噪声强度过大导致数据可用性不足,导致失去保护的意义得不偿失;此外现在的大部分研究追求保护效果但往往造成计算复杂度过大、时间相应长,忽视了时间成本,这样虽然加大了隐私保护程度但是却造成了时间上的浪费,因此,如何平衡隐私保护程度和数据可用性是本文的研究重点。第2章相关基本理论2.1隐私的概念隐私的意思就是我们自己、他人或者是公司或企业等希望对他人保密的秘密信息,这其中包括个人信息和公共信息。个人信息包括自己的家庭住址、工作地点、薪资水平、出行的交通工具等等。公共信息则包括一个公司的经营状况、年度计划、财务报表等等。而无论是个人隐私还是公共隐私都是需要被保护的。2.1.1隐私的获取获取隐私信息主要有以下几种方式:(1)通过视频监控:这种方式是日常生活中出现最多的一种,现在所有公共场所几乎都装有监控摄像头,比如学校、银行、医院、路口等等,这些摄像头在很大程度上能保护人们的隐私安全,但是这种方式的弊端就是当监控所录下的影像资料被不法分子所截获后,将会给政府和人民带来无法挽回的损失。(2)通过信息拦截:在当今社会,人们之间沟通交流一般都会采用打电话,收发信息、邮件等方式,因此如果这些信息被拦截将给人们造成巨大的损失和伤害。(3)通过信息汇集:现在很多人都会通过爬虫等方式对信息进行收集汇总,之后对这些信息分析得出所需要的隐私信息,汇总的信息越多越有可能得到自己想要的秘密信息。(4)通过信息分析:现在很多公司都有体量很大的用户,这些用户往往会给公司带来巨大的价值,所以诸多公司都对用户的信息进行分析,从而可以制定出符合公司发展的战略规划。(5)通过信息跟踪:在以前如果想知道一个人的行动轨迹最简单的办法就是跟踪这个人,在现在我们每个人每天在上网了解信息的过程中也会留下自己的痕迹,这有时也会被有心之人利用,跟踪到我们自身的隐私信息。2.1.2隐私泄露的类型攻击者可以获取到我们的隐私信息原因就是我们在不经意间泄露了自己的全部或部分隐私信息,这主要包括以下几种:(1)精确泄露:精准泄露隐私是所有泄露类型中危害最大的,这会让攻击者完全掌握他们所需的隐私信息因此这是我们最不愿看到的情况。(2)范围泄露:这种泄露方式所产生的危害性要小于精确泄露,这种是攻击者掌握用户的一定隐私信息范围,根据范围推断用户的隐私信息,范围越小所得出的信息越精确。(3)模糊猜测:模糊猜测指的是攻击者掌握一条或两条用户的其他信息,从而猜测想要得到的信息。比如攻击者知道了用户每天都做129路公交车,就可以猜测用户家住在129线路上的A、B或C小区。这种猜测方法准确性比较低,有价值的隐私信息暴露概率较小。(4)逆向分析:逆向分析是指通过结果反向推断,从而得到信息的范围。比如攻击者了解到用户每天上下班都不会做地铁2号线,那么可以反向推测出用户不住在地铁2号线附近的楼盘。2.2位置隐私保护的基本概念2.2.1LBS技术在这里举两个例子。第一个例子是国外的Foursquare应用程序。Foursquare希望用户可以积极分享自己的位置、自己所处的环境等基本信息。到了后期Foursquare发展成了一个应用程序,其根据用户的历史浏览记录和历史登记记录,提供围绕用户当前位置的个性化推荐,如图2.1所示。图2.1Foursquare中围绕用户当前位置的个性化推荐可以被看作是一个基于现实生活的大富翁,每一个置身其中的用户都通过手机网络记录自己的足迹。当用户经常光顾某家酒店,并且每次都签到,就有可能获得星级用户的称号,或者用户经常四处游历,也许就可以得到一个“冒险家”的勋章。Foursquare不是仅仅可以签到,它对于用户而言更为重要的作用是帮助用户找到自己的朋友,并且了解他们在干什么。第二个例子是在我国使用率非常高的高德地图,它在我国的地图导航方面始终处于领先的地位。同时高德地图提供了地图浏览、在线导航、出行查询等基本功能,如图2.2所示。图2.2高德地图的基本功能展示对一个地图应用,位置查询和导航服务应该是其最基本、也是用户最在意的功能,我们可以直接在高德地图应用程序的首页输入最想去的地点,然后其会基于用户的位置提供出行选项和出行路线。目前,高德地图还集成了打车、公交、骑行、步行等多种选项,为用户提供更好的使用体验。以上是LBS应用的两个直观例子,下面介绍LBS技术的组成。图2.3显示了LBS技术的组成。图2.3LBS技术的组成该技术使用先进的移动设备接入互联网和地理信息系统使得互联网和移动地理信息系统成为可能。同时,空间数据库在网络上的应用,促成了网页地理信息系统。这些技术的结合形成了LBS,其基本系统架构如图2.4所示,包括移动设备、定位系统、位置提供服务商和通信网络。下面将详细地描述每个组件。图2.4LBS的基本系统架构(1)移动设备:它是移动用户携带的移动对象,可以用来请求各种服务并向移动服务提供商发送所需的信息。如今,被广大用户使用最多的就是自身可以导航定位的智能手机。(2)定位系统:该系统允许移动设备在本地自动确定其位置。确定位置的方法有很多,如可以通过导航定位系统或移动无线电系统完成定位,其中移动无线电系统能确定移动用户所在的蜂窝网络,从而知晓移动用户的所在位置。(3)LSP:可以利用用户在移动设备上所提交的所处地点,从而帮助用户进行位置查询以及休闲娱乐等多项服务,包括但不限于信息咨询、出行规划、美食寻找、实时公交信息等。(4)通信网络:最后需要在系统组件之间建立一个通信网络,以便实现它们之间的信息交换。2.2.2位置服务的应用场景目前,LBS几乎覆盖了人们的生活的方方面面。这里介绍几种典型的应用场景,分别是基于位置的兴趣点检索服务、基于位置的导航服务、基于位置的社交网络服务和基于位置的运动服务。(1)基于位置的兴趣点检索服务:一些主流的信息检索类软件,如美团、携程旅行、去哪儿旅行等众多软件都是基于位置的兴趣点检索服务。每个用户都可以在这些软件上找到固定区域内的自己想查询的内容,如美食、住宿和娱乐场所等。除了能看到相关的推荐内容外,还可以检测到其他用户的使用内容,如用户评价、使用体验等。(2)基于位置的导航服务:现在人们开始越来越依赖一些出行类软件,如谷歌地图、哈啰出行、嘀嘀打车等软件。当用户在利用这些服务时,必须不断地向服务商报告自身准确的位置,而服务商便根据所搜集到的信息为用户规划出行路线及出行所需的交通工具等。(3)基于位置的社交网络服务:现在人们每时每刻都在使用一些社交软件,如微信、陌陌、soul等都是帮助人们建立社交圈子提供平台。附近区域检索服务是指用户可以基于自身的实时位置查看周围的地理社交信息,如看到自己周围的用户,方便用户建立新的朋友圈;而签到服务则是用户可以在任何一个有实际意义的地点签到,服务商为用户提供自己所签到地点附近的其他相关信息,并将该位置信息通知其朋友。通过这类软件,好友之间可以相互了解对方最近的生活状态,从中发现共同爱好。(4)基于位置的运动服务:现在一些运动达人都会使用一些运动软件,如Keep、悦跑圈等都是广大运动爱好者的选择。用户在开启这些app后,这些app便可以实时记录已经运动的步数和距离(部分软件需配合运动手环使用),同时可以建立每日步数目标,督促用户进行运动,并且有些app中带有步数排行榜,可以让用户看到自己朋友的运动状态,从而帮助用户建立运动友谊。在此类服务中,服务商可以获得用户完整的运动轨迹。以上四类基于位置服务的应用已经深入到了人们的日常生活中,为人们的衣食住行提供了极大的便利。除此之外,还有一些基于位置服务的应用场景,如基于位置的广告推送服务、基于位置服务的游戏等。第3章基于LBS的位置隐私保护方法3.1差分隐私保护模型3.1.1差分隐私概念差分隐私的保护模型在2006年被首次提出,差分隐私的提出主要目的是针对数据库发布数据所产生的数据泄露问题。经过差分隐私保护方法处理得到的数据集对单个数据的属性应该是不敏感的,这可以帮助我们抵御差分攻击。例如我们共发布了100条轨迹,但是即使攻击者掌握了其中的99条,但是依然无法用做差的形式推测出最后一条轨迹。差分隐私的保护方法依赖于临近数据库,因此在这里我们先给出临近数据库的基本定义。定义3.1邻近数据集:已知数据集和,如果向中添加或删除一条记录获得数据集,即或,则和被认为是一对邻近数据集,如表3.1和表3.2中的两个数据集就是临近数据集。表3.1用户的购买行为U1{A、B、C、D}U2{A、C、F}U3{B、F、G}U4{B、C}表3.2用户的购买行为U1{A、B、C、D}U2{A、C、F}U3{B、F、G}接下来我们给出差分隐私的定义:定义3.2差分隐私:随机算法满足差分隐私的条件,同时也存在随意一组邻近数据集和,对于随意一个输出,都有这一约束: (3.1)其中表示隐私泄露的风险,叫做隐私预算参数,用来衡量隐私保护水平,越小,保护效果越好。定义3.3-差分隐私:对于任意一对数据集和,如果这一组数据集中最多只差一个元素,并且满足: (3.2)那么对于满足差分隐私,当时,为差分隐私。若想让数据得到差分隐私保护通常是通过向数据集中添加噪声,但是如果加入噪声量过大,就会导致数据的可用性较差;同样如果所加的噪声量太小,则无法起到保护效果,因此为了分辨加入噪声量的多少,于是在这里我们引入全局敏感度的概念:定义3.4全局敏感度:对一个函数,,其中是数据集,是一个维的实数向量,表示查询结果。然后查询函数对一对临近数据集和的全局敏感度是,记为,那么 (3.3)其中是和的1-阶范数距离。全局敏感度由函数自身的特性决定,其表示的是函数的输入数据集中任意删除一条数据时,算法的输出结果的变化大小。3.1.2加噪机制对于数据进行差分隐私保护的基本原理就是向原始数据集中加入噪声,通过噪声让改变数据,最终达到保护数据的目的。在差分隐私方法中最常使用的分别为Laplace加噪机制和指数加噪机制。(1)Laplace机制Laplace机制指向原始数据中添加服从Laplace分布的随机噪声,选取任意数据处理函数,当隐私保护方法经过隐私处理步骤后的所得到最终集合满足如下约束时: (3.4)该处理过程中的保护算法符合差分隐私约束,每个之间不存在交叉关系。拉普拉斯机制多适用于数值型的输出,例如假设医院中存在三种疾病的病人,现在已知这三种疾病病人的平均年龄,现利用拉普拉斯机制对平均年龄加噪,如表3.3所示表3.3差分隐私机制病症平均年龄糖尿病50.05852.58649.03150.105高血压50.08654.70551.00550.250癌症65.41462.94366.85265.243(2)指数机制与拉普拉斯噪声机制不同的是,指数机制一般来说针对一个概率值的查询,这里有一个函数将数据集作为基准集,最终所得到的结果为,体现出了判断数据的精度大小。如果函数QUOTEA采用满足分布的方法进行隐私处理后的输出为,可以得到经过该隐私处理函数加工后的服从于差分隐私约束。例如现在要查询中国最好的大学是哪一所,以清华、东大和蓝翔举例,如表3.4所示。表3.4指数机制学校概率清华0.9990.3330.6280.993东大0.000040.3330.2710.006蓝翔3*10^-70.3330.1010.0013.1.3组合定理但是在实际情况中,有许多问题都不会特别简单,因此如果仅做一次差分隐私保护还无法解决问题,这时就必须多次利用差分隐私的保护方法。但是又由于隐私预算总是有限的,所以若想在所要求的隐私预算下便可以保护好需要保护的数据,就只能通过运用组合性质分配隐私预算,让隐私预算可以更有效地发挥作用。组合定理又分为序列组合以及并行组合。定义3.5序列组合性质:当前在这里一共有个互不相同的差分隐私算法则为隐私预算,而由这个不同的算法经过组合,最终成为新算法,提供差分隐私保护。利用序列组合性质,我们便能在保护数据的隐私时更为灵活,可以将一个大的隐私算法划分为多个子算法,进而可以在所规定的隐私预算下更好地保护数据的隐私。例如,如果我们现在要对一个数据集进行隐私保护,而这时能提供的隐私预算的强度为,在保护过程中所应用的算法需要为,这时我们便能够将这个算法分为两个子算法,子算法分别是和,与此同时设定子算法与的隐私预算是与,同时应该让,这时两个算法与如果分别为保护隐私提供了和的隐私预算,便能够认为算法符合差分隐私保护模型。定义3.6并行组合性质[65-66]:当前在这里一共有个互不相同的差分隐私算法,分别为隐私预算,当将其分为个不相交的子集后,由这些算法和子集组合形成的新算法提供差分隐私保护。并行组合性质所表达的意思是,若在差分隐私保护中需要处理的数据集间没有交集,由这些子算法组合而成的新算法,便可以提供差分隐私保护,而这一算法所提供的保护水平是所有子算法中隐私预算最大的,如果一个算法所设定的隐私预算越大,证明所加入的噪声越小,因此如果利用这一机制那么所提供的保护的隐私水平为所有算法中保护程度最差的一个。在对轨迹隐私保护的应用中,我们所用到的通常是laplace机制。3.2清洗漂移点并选定停留点由于我们在日常生活中,需要被保护的隐私通常都是我们在某地做了某事,而做一件事情通常都需要我们在某地停留一段时间,因此在轨迹中无速度的点,也就是停留点就是我们所应该重点关注的位置点。停留点的意思是用户在某个区域内没有运动,停留了一段时间的坐标点。停留点并不是单指轨迹中的某个点,而是由一组GPS点所构成,同时具有一定的语义。用户的停留点蕴含着活动信息,只有花一定时间用户才能做一些有意义的事。同时因为单独一个GPS点无法蕴含任何信息,只有多个点共同组成一个集合才能具备某种意义。其次我们根据对轨迹数据分析后我们发现,在一条轨迹中当用户的运动速度较快时通常这段轨迹不需要被保护,而当用户的运动速度较慢时,往往在运动过程中会产生一些比较重要的轨迹点,而这部分轨迹点才是需要我们保护的。因此我们应该将重点放在用户的停留点上。定义3.7停留点[71]:停留点所表达的是在一个区域范围内,用户所停留的时间超出了我们所定义的时间阈值。点集便是一个符合该定义的停留点,,,且其中,,。如图3.2所示,表示一条GPS轨迹,其中且,则分别为停留点。图3.2轨迹中的停留点但是由于在不同的应用场景下,采集到的轨迹信息是不同的,同样在不同场景下轨迹中位置信息的特点也是不同的。例如在开车过程中由于车载GPS不需要考虑电量的问题,同时由于驾车过程中始终在户外,所以GPS信号始终都会存在。但是我们利用移动设备所得到的行人步行便会出现不同情况,有时会出现信号丢失的情况,从而导致轨迹的采样时间间隔不一,轨迹路线不准确等问题。造成这些问题主要是因为:首先如果行人步行进入到一个建筑物内时,有可能导致GPS信号较弱,所以会出现一些轨迹中的位置信息获取不到的现象,因此导致一条轨迹的相邻点时间间隔不一致;同时假如用户自身所在建筑物与外界的交界点,也会导致用户的位置信息不准确,容易导致位置漂移的现象。第二由于移动设备自身电量的要求,一些手机会关闭正在使用用户位置的软件,同时部分用户出于各种原因也会主动关闭软件中的位置服务,这也会导致步行的位置点中容易造成部分点出现位置偏差。因此我们采取先清洗轨迹中偏离正常轨迹较多的点。由历史经验可知在日常生活中由于GPS信号的不稳定造成的偏离点通常呈现角度小于15度的锐角,且时间较为短暂。同时为了避免一些轨迹中的用户由于正常运动造成角度较小的轨迹的情况,我们决定引入时间阈值来界定。即假设在实际轨迹中下,用户很难在3s之内以某种交通方式造成角度较小的锐角轨迹。所以我们将角度和时间同时作为判定标准,将角度小于15度同时运动时间小于3s的位置点剔除,从而得到清洗后的新轨迹。如图3.3所示为清洗偏移点前后的轨迹图,可见在最上方的位置点由于角度较小,停留时间较短而被滤除,从图中可以看出轨迹在经过清洗之后所得到的轨迹更符合实际情况。图3.3清洗偏移点前后轨迹图3.3隐私约束加扰本文所提出SCSDP算法,在数据稀疏压缩的基础上利用差分隐私保护轨迹隐私。如图3.4所示,这一算法主要分为五个部分,轨迹数据的清洗,停留点的判定,测量矩阵的构建,差分隐私保护和重构算法。与传统算法有区别的是,本文提出的SCSDP算法目的不是全部重构出数据矩阵,而是利用压缩采样后的数据集,设计一个差分隐私保护的模型。图3.4SCSDP模型处理过程3.4.1测量矩阵的构建根据对压缩感知重构算法的持续研究,Candes等人提出可以选择高斯随机矩阵,理由是高斯矩阵既有好的列独立特征,满足RIP条件,同时可以提升重构数据的精确度。因此本文同样利用高斯随机测量和基于矩阵分解的方法相结合设计观测向量,设计出既有比较高的重构精度又能保证有较高可用性的观测向量。假设为有着行和列的一个数据集,根据矩阵降维的办法将变换成2个实数的集合与,。数据矩阵中的真实数据与行矩阵和列矩阵的关系为公式(3.7) (3.7)是该数据集中的真实数据,是重构出的数据。为潜在压缩空间的维度。为了将原始数据与之间的误差损失降到最低,我们算出和恢复值间的差值,也就是公式(3.8): (3.8)同时利用随机梯度下降法让误差最小,即 (3.9)这时我们便可以算出局部最小值。同时保证和间误差最小的同时,也能保证对数据的恢复值与真实数据基本相同,这就意味着我们可以保证有较高的信息精度。因此我们能够将原始的矩阵压缩成潜在的特征向量,同时也能减少数据的损失,这样也就可以得到更精确的值。同时由于我们要对恢复的值与实际的值间的损失度进行评估,因此要根据正则化避免过拟合现象,本文建立下面的目标优化函数: (3.10)其中,表示的是正则化程度,为了防止过拟合测量数据,最后得到测量矩阵。3.3.2算法描述算法1轨迹数据清洗输入:原始轨迹数据;输出:清洗后轨迹数据;whiledofortodobeginifthenifthendelifthen;elseendendendend算法2判定停留点输入:清洗后轨迹数据,时间阈值,距离阈值输出:判定后轨迹数据;,whiledofortodobegin;;ifthenifthenfortodostay;endend;returnend算法3轨迹数据分解输入:分组后轨迹数据,正则化参数,学习速率,测量维度;输出:行潜在特征矩阵;//矩阵分解获取最优化while(abs(Optcur-Optlast)>epsilon)//接近最小阈,停止训练获得最优化foriinrange:forjinrange:;forin://在测量维度内,对向量和进行迭代更新;;endforendforendforendwhile算法4测量矩阵构建输入:分组后轨迹数据,正则化参数,学习速率,行特征矩阵,随机高斯矩阵,测量维度;输出:测量矩阵;//迭代训练获得测量矩阵while(abs(Optcur-Optlast)>epsilon)//迭代终止获得测量矩阵foriinrange:forjinrange:;forin:;endforendforendforendwhile算法5差分隐私数据发布输入:分组后轨迹数据,测量矩阵,测量维度,差分隐私参数;输出:重构数据集;随机测量forinrange:forinrange:;;//最大投影系数对应的位置;//根据最小二乘求得;//残差迭代公式;endfor;//稀疏系数矩阵endfor3.5隐私数据发布可用性分析为了评价我们所提出的新算法对轨迹隐私的保护效果,在数据集的选取中选择了Geolife项目中所发布的轨迹数据集。该数据集中共有18670条真实的用户轨迹,也是目前所被应用最多的数据集。因为在这一数据集中部分轨迹数据的相邻点时间过短,导致数据采样点过多,相邻轨迹点之间间距过小,因此本文提出在清洗轨迹数据后,每过5min记录一次位置点从而构造出用户的行动路径。实验1SCSDP算法对轨迹的保护效果本组实验的目的是通过利用我们所提出的新算法对原始轨迹进行加扰,进而比较原始轨迹与进行保护后所得到的新轨迹,从而可以直观体会到SCSDP算法对轨迹的保护效果。图3.5不同轨迹保护前与保护后的路径我们设定为0.1,迭代次数为50次,在图3.5中显示出了对轨迹保护前后的轨迹路径之间的差别,我们可以看出通过利用SCSDP算法可以让原始轨迹的路径做出一定改变,从而可以有效地隐藏需要被保护的轨迹隐私信息,对原始轨迹起到良好的保护效果。实验2不同的隐私约束方法对数据发布精确度的影响本组实验的目的是考察在满足差分隐私的前提下,将本文提出的SCSDP算法与采用压缩感知对恢复结果集进行差分隐私加扰方法(LCSDP)、对轨迹进行聚类后利用差分隐私保护的方法(DPK-up)和利用差分隐私对混合位置隐私保护方法(LPPDP)进行对比,并分别对步行、骑自行车及开车的轨迹各取6组比较现轨迹与原始轨迹间的误差及可用性。(a)步行轨迹(b)骑自行车轨迹(c)开车轨迹图3.6不同算法对不同组别轨迹隐私保护度的比较4.结论本文通过清洗轨迹中的某些偏移轨迹点来提升轨迹的可用性,让轨迹更能反映实际情况,同时选定轨迹的停留点,在加噪过程中重点对停留点进行加噪,避免过度保护降低轨迹数据的可用性,并分别对不同交通方式分别测试,分析测试结果。针对差分隐私保护轨迹数据隐私时出现的查询结果不理想、计算复杂度高等问题,提出了将压缩感知与差分隐私相结合的算法,从而可以缓解数据稀疏性的问题;然后向其中加入拉普拉斯噪声从而实现差分隐私;最后应用基于正交匹配追踪的重构算法恢复重建数据矩阵。通过实验我们证明了所提算法可以在保护过程中提供好的保护效果,可以在不损害轨迹可用性的同时保护用户隐私。参考文献唐留朋,夏清国,王黎明.LBS的一种隐私保护模型[J].计算机工程与设计,2008,29(016):4159-4161.代仕芳,李燕,海凛.多因素融合的个性化位置推荐算法[J].计算机工程,2018,v.44;No.488(06):306-310+316.LiuC.ResearchandDevelopmentStatusofLBSPositioningTechnology[J].JournalofNavigationandPositioning,2013.KumarG,GamePS.SmartSecurityModelbyPredictingFutureCrimewithGISandLBSTechnology
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024双人合伙商业店铺协议模板
- 2024年企业工程承包详细协议细则
- 德邦物流2024年专项快递服务协议
- 2024年度供应商保密义务协议
- 2023-2024学年浙江省嘉兴市高考数学试题考前三个月(江苏专版)
- 2024年战略采购合作协议模板
- 2024房屋权属更名补充协议
- 2024年产品委托加工协议文本
- 6.1圆周运动(含答案)-2022-2023学年高一物理同步精讲义(人教2019必修第二册 )
- 2024年制造业劳务承包基本协议格式
- 绵阳市高中2022级(2025届)高三第一次诊断性考试(一诊)语文试卷(含答案)
- 自然资源调查监测劳动和技能竞赛
- 2 0 2 4 年 7 月 国开专科《法理学》期末纸质考试 试题及答案
- 6.1 我对谁负责 谁对我负责 课件-2024-2025学年统编版道德与法治八年级上册
- 2023-2024学年天津市经开区国际学校八年级(上)期末物理试卷
- DB23T 3842-2024 一般化工企业安全生产标准化评定规范
- 期中模拟押题卷(1-3单元)(试题)-2024-2025学年苏教版数学六年级上册
- 环氧树脂项目可行性研究报告项目报告
- 公共政策分析第一章
- 2024-2025学年人教版数学三年级上册 第三单元 测量 单元测试卷(含答案)
- 2024新信息科技三年级第四单元:创作数字作品大单元整体教学设计
评论
0/150
提交评论