网络地理信息应用中用户行为数据获取与分析研究_第1页
网络地理信息应用中用户行为数据获取与分析研究_第2页
网络地理信息应用中用户行为数据获取与分析研究_第3页
网络地理信息应用中用户行为数据获取与分析研究_第4页
网络地理信息应用中用户行为数据获取与分析研究_第5页
已阅读5页,还剩74页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

XXXX大学研究生学位论文自评表学号作者层次□博士þ硕士□工程硕士□同等学力硕士学科专业地图学与地理信息系统论文题目网络地理信息应用中用户行为数据获取与分析研究作者对论文创新点的综述(不超过5项,并标注对应的论文章节)、取得的主要成果及有待改进之处的评述:论文创新点本文在分析现有的用户行为数据获取和分析方法基础上,结合网络地理信息应用特点。通过扩展和改进页面标签技术,实现了网络地理信息服务平台中用户行为数据获取,并利用统计分析、模糊聚类分析等方法对用户的活跃度和相似性进行分析;利用API与网络爬虫融合技术获取了位置信息服务中用户行为数据,提高了数据获取效率,并利用探索性数据分析方法,探索了新的地理要素重要性评价方法,基于用户背景数据对景点进行信息挖掘。本文创新点如下:(1)建立了网络地理信息应用中的用户行为数据分类体系,并以此为基础构建了网络地理信息应用的用户行为数据获取和分析研究框架;(第二章)(2)通过对传统页面标签技术进行改进和功能扩展,实现了从地理信息服务平台中获取用户访问空间资源类型、用户访问空间位置等特有的用户行为数据的方法;(第三章)(3)结合位置服务所提供的API和通用网络爬虫技术,设计了一种空间爬取策略,实现了从位置服务平台(新浪位置微博)中高效获取用户签到信息,并能从中提取用户行为数据的方法;(第四章)(4)利用探索性数据分析方法对位置信息服务中用户行为数据进行分析,以旅游景点用户签到数据为例,探讨了用户视角的旅游景点分类分级方法,并研究了“性别”、“地域”和“时间”对景点选择的影响。(第四章)2.取得的主要成果1.导航电子地图自适应用户模型构建与匹配研究[J],《测绘与地理空间信息》,2015年第2期,第一作者.2.基于模糊综合评测法的移动电子地图分析研究[J],《测绘通报》,2014年第6期,第二作者.3.TheDesignofGeo-spatialMetadataArchitectureforDigitalBoundary[C]“周边地缘建模与解析”国际研讨会,2013年,第二作者.4.一种个人地理标记数据的可视化方法[J],《测绘学报》,2015年第2期,第四作者.5.一种基于标签云的与位置关联的文本信息方法可视化[J],《武汉大学学报·信息科学版》,已录用,第四作者.6.LBS移动导航电子地图的空间认知研究[J],《地矿测绘》,2013年3月,第四作者.7.一种基于位置签到数据的旅游景点评价方法[J],《测绘科学与技术》,已录用,第二作者.3.需要进一步研究内容网络地理信息应用中用户行为研究涉及到多个学科知识,如心理学、社会学、行为科学、统计学、计算机网络技术等,以及需要借助新的可视化手段,如热力图、标签云。本文虽然对网络地理信息应用中的用户行为数据获取和分析的理论、技术和方法进行研究,并取得一定成果,但要真正实现对用户的认知仍然需要对相关理论和技术进行深入研究,概括起来主要表现在以下几个方面:(1)进一步完善数据获取和处理方法:对用户认知是建立在海量数据分析之上的,用户数据来源众多,如何实现多源数据的融合,提高数据质量成为用户行为研究的重要一环。在“大数据”背景下,应当借鉴大数据获取与处理的理论方法和技术。(2)建立和完善相应的理论体系:目前该方面的研究比较分散,尚未形成规模,不成体系,缺乏系统科学的理论进行指导。(3)进一步深入研究用户行为的分析方法:目前研究多是基于数学方法分析用户行为,但是用户行为往往是在复杂的环境中受到多重因素影响条件下发生的。(4)建立相关的安全机制,制定相关的法律规范:在用户数据获取过程中可能涉及用户的隐私,尽量避免数据获取时产生伦理道德问题。学号:论文密级:公开中图分类号:P208学科分类号:170.4599学校代码:硕士学位论文网络地理信息应用中用户行为数据获取与分析研究Acquisition

and

Analysis

of

User’s

Data

in

NetworkGeographicInformationApplication论文作者:指导教师:申请学位:理学硕士学科名称:地图学与地理信息系统研究方向:互联网空间数据挖掘论文提交日期:2015年4月20日论文答辩日期:2015年月日XXXXXX大学XXXXXX学院二○一五年四月

ADissertationSubmittedtoXXXXXXUniversityfortheDegreeofMasterofScience

第页第二章网络地理信息应用中的用户行为研究框架网络地理信息应用中用户行为的研究有助于我们认知用户需求和行为规律,虽然许多学者认识到对用户行为研究重要,并取得了一定研究成果,但是这些研究多是通过传统的问卷调查、实验观察等方法获取用户行为数据。目前针对用户真实的在线行为数据研究比较零散,尚不成体系,因此需要建立系统的研究框架。本章在已有的用户行为研究基础上,借鉴相关领域研究,结合网络地理信息应用中用户行为数据的特点,建立网络地理信息应用中的用户行为研究框架,为接下来的研究提供指导,奠定研究的理论基础。2.1网络地理信息应用中用户行为数据及特点传统意义上,用户就是信息的接受者,即用户是信息传播的最终环节,但是在Web2.0时代,社会成员或者组织在获取并利用信息的同时,也伴随着新的信息产生和传播,表现为用户与信息、用户与用户之间的交互作用机制,因此当社会成员或者组织通过一定途径获取信息或者进行交互时,均称为用户。根据上面对用户的定义面向网络地理信息应用的用户可以分为两类:一类是网络地理信息服务平台的使用者,这类用户在网络地理信息服务平台上浏览、查询、搜索信息时,会产生一系列的操作行为,这些数据记录了用户“从哪里来”、“到哪里去”、“做了什么”、“如何做的”等,这是我们认知用户兴趣偏好和行为模式的重要资源,是衡量地理信息服务网站使用状况,提高网站可用性,实现个性化服务的重要依据;而另一类是使用位置服务的用户,这类用户虽然操作行为比较简单,但是其生成的数据中包含了大量用户行为信息,例如微博中的签到数据如图2.1,包含了用户的ID、地域、时间以及该地点的图片、评价等信息,如果将一个用户的多个签到数据进行连接,我们则可以发现用户的运动轨迹。这些数据一方面可以帮助我们了解用户现实生活,另一方面可以衡量POI的重要程度,丰富POI的属性信息。图2.1微博中用户签到数据(少林寺)无论是用户在使用网络地理信息服务平台时产生的各种操作还是使用位置信息服务时生成的数据都呈现出以下特点:(1)知识丰富,升级速度快:经过长时间的积累,网络地理信息应用已经拥有大量的用户,培养了用户习惯,这些用户使用相关应用获取信息同时,产生了大量数据,这些数据揭示了用户行为,反映了现实世界变化。(2)主动性强,特点鲜明:用户使用网络地理信息应用时带有一定的目的性,具有明显的行为偏好,使用习惯不受地域和时域的限制。(3)随机性与规律性并存:个体用户行为特征具有很大的随机性,但从整体上看又具有很强的规律性。(4)隐蔽性强:很多用户行为都是在匿名状态下进行的,由于在虚拟网络空间环境中对用户行为难以形成有效的监管,传播的信息的真实性难以判断,并且信息在物质媒介中传播也具有隐蔽性。(5)标准不一:一方面由于缺少统一规范,用户产生的数据多为非结构化的;另一方面由于文化程度、专业素质不同,用户提供的数据的准确度也存在很大差异。(6)多维特性:网络地理信息应用中的用户行为数据既有一维属性数据,又有二维的空间数据以及具有属性特征、空间特征和时间特征的多维数据。用户行为受到来自自身的属性、信息与信息环境、社会和自然环境等多重因素的影响,因此造成了用户行为个性的差异和需求的多元化,但这又决定了用户的个性具有一定的稳定性,成为用户行为研究的前提和基础。2.2网络地理信息应用中用户行为数据分类体系网络地理信息应用中的用户行为数据根据不同分类标准可以有多种分类结果。如果按数据的维度进行划分,可以分为一维数据、二维数据、三维数据和多维数据。如果从用户角度上来分,可分为用户的属性数据和用户产生的数据。用户的属性数据,主要包括年龄、性别、学历、职业、收入等;用户产生的数据,主要包括用户获取信息或者进行信息交互时进行的一系列操作活动以及由用户生成的各种数据。前者相对比较固定、变化小,后者变化更新速度快、信息量大。如果从数据的获取来源分,可以分为网络地理信息服务平台应用中的用户行为数据和位置信息服务中用户生成的数据,网络地理信息服务平台中用户行为数据是指用户在网络地理信息服务平台上浏览内容、查询信息等一系列操作行为数据,访问地理信息服务网站的时间以及用户使用的设备信息,这一类数据一般是通过服务器端的记录日志来获取,或者是通过一定的软件进行实时捕捉;而位置服务中的用户行为数据是指用户在使用位置服务时产生的各种数据,这一类数据则需要通过普通下载、网络API、“网络爬虫”等多种方式来获取。本文根据数据来源对用户行为数据进行初步划分,在此基础上综合多种因素对数据进行更为详细分类,得到网络地理信息应用中用户行为数据的分类体系。如图2.2所示:图2.2基于数据源的用户行为数据分类2.2.1网络地理信息服务平台中的用户行为数据网络地理信息服务平台依托详实的地理信息数据,通过在线方式满足政府部门、企事业单位、和社会公众对地理信息和空间定位、分析的基本要求。在众多的网络地理信息服务平台中网络电子地图是应用最广,最为典型的一种,如图2.3用户可以在网络地图上选择不同类型地图浏览信息、搜索内容、查询路线、标注、量具等操作,用户在选择相应的功能时是带有一定目的性的,通过对这些操作行为进行分析可以挖掘用户的兴趣需求和用图偏好。网络地理信息服务平台中的用户行为数据可进一步细分为用户背景数据、传统用户行为数据和与地理信息服务平台应用相关的用户行为数据,下面将对其具体包含的数据类型做详细介绍。图2.3百度地图网站1.用户背景数据用户的背景数据主要包括:昵称、ID、年龄、性别、职业等,这些信息主要有以下三种获取途径:(1)用户的注册信息:这是用户属性数据最主要的来源,但是由于对用户隐私安全的保护,一般网络地理信息服务平台只会要求用户填写必填信息,包括用户登陆名、用户密码、用户邮箱、用户别名(可以为空)等。(2)通过页面标签技术或者日志文件获得,这部分用户的背景信息主要包括用户IP信息、语言设置信息,通过这些信息可以推断用户的地理位置。(3)第三方用户样本数据库:各种专业的网络用户研究机构,如Aleax等,往往会有海量的第三方用户样本数据库。由于用户邮箱已知,因此可以和该样本数据库进行比对,从而提取出用户的年龄、学历、婚姻状况等更详细的用户信息。2.传统用户行为数据传统用户行为数据即网络用户行为研究中所说的“点击流”数据,是网络网站用户行为分析中最常用的数据,由于网络地理信息服务平台具有自身的结构特点,所以相同的指标代表含义存在差别,分析结果也不一样。传统用户行为数据至少包括以下几种类型:(1)访问数:由用户第一次会话请求到最后一次请求称之为一次访问,但是如果用户打开网站然后离开计算机,并在接下来的30分钟内没有进行任何操作则会话自动结束。一个独立的会话ID可以将访问的所有操作集中在一起,形成一次完整的访问。它度量的是网站在一段时间内被访问的次数,访问数的变化反映了网站的流行趋势;用户访问轨迹信息则蕴含着用户的行为规律。(2)点击数:表示用户对服务器的一次请求,即用户在网站上的一次活动。(3)独立访客:当访客触发网站第一个页面或请求时,就会在用户浏览器中生成一个独立cookie,会话结束后cookie仍然会保留,再次使用该浏览器访问网站,系统会自动识别这个cookie的ID,独立访客指标就是某段时间内这些cookie的个数。独立访客比较接近网站的用户的真实数量,但不完全相等,因为存在cookie禁用现象。(4)停留时间:在Web分析中主要包括页面停留时间和网站停留时间,主要用来衡量一个访客在网站中某一网页或一次会话所停留的时间。(5)页面查看次数:表示一个页面被浏览的次数,在网络地理信息服务平台中地图可以是二维线划图、卫星影像图、3D立体图等,此处的页面查看指的是不同类型地图被访问的次数。在网络地理信息服务平台中这些数据的调用使用了Ajax技术,不会发生页面跳转,传统方法对其无法进行追踪。(6)跳出率:指来到页面什么都没有做就离开的访客占所有访客的比例,跳出率高的网页往往存在问题。由于地图用户中很大一部分只是浏览地图,根据普通方法计算跳出率结果会很高,在此主要根据会话时间小于设定的值所占的比例。(7)退出页面:记录有多少访客从该页面离开了网站,是指无论用户从哪个网页进入网站,而在这个网页退出所占的比率。这个页面往往是与地理空间信息服务网站相关联的各种社交网站,可以衡量地图作为一个服务入口与各社交网站密切程度。(8)转化率:表示在访问中能够完成既定任务的用户所占的比例,在此主要指网站注册用户占独立访客的百分比。除此之外,还可以获取用户使用的操作系统、浏览器版本等信息。这类数据主要从服务器日志中提取或者通过页面标签技术获取。3.网络地理信息服务平台应用相关的用户行为数据这类用户行为数据是网络地理信息服务平台应用所特有,目前并没有很成熟的获取技术方法,需要针对特定网站编写监控代码才能获得这类数据。根据网络地理信息服务平台特点可以将该类数据概括为以下五类:(1)空间区域访问范围:空间区域访问范围获取方式主要有两种,一种是用户所浏览的空间区域访问范围,由于一般网络地理信息服务平台中的地图都是按照地图瓦片的方式进行组织的,因此空间区域访问范围主要通过记录层号和图片编码完成。另外一种则是记录用户点击的鼠标位置,通过计算将该屏幕坐标转换变成地理经纬度存储起来,并借助一定的可视化手段在地图上显示出来,如热力图。(2)地理搜索关键字:是指用户在使用地理搜索引擎时通过哪些关键字获取信息的。这些关键字通过分词技术处理后,获取对应地图位置的地理坐标进行存储。利用这些数据可以生成标签云地图,反映一个区域的搜索热度,挖掘该区域的地理名片等。(3)地理服务访问数:是指用户在网络地理信息服务平台上具体使用了哪些服务,如地图浏览服务、量算服务、查询服务、路径规划与导航服务、标注服务以及用户反馈服务等。(4)用户地理位置信息:通常用户使用桌面计算机或者笔记本访问网络地图应用站点是难以获得用户地理位置信息的。一般是通过用户的语言设置和IP信息,推断用户的地理位置信息。基本思路是通过语言设置初步判断用户所在的国家,但是用户的IP往往是不固定的,一台家用计算机在一个月内通常会有10.5个IP地址,但该IP地址出现在不同城市的可能性非常之小,因此可以将IP地址和网络上免费的IP地址库(如GeoIP等)匹配,从而判断出用户所在的城市。(5)用户访问内容:指用户具体访问了哪些信息,用户访问内容在一定程度上反映了用户的需求,通过对这些数据进行挖掘可以发现用户的偏好,这是进行内容推荐的基础。2.2.2位置信息服务中的用户行为数据位置信息服务中的用户行为数据主要是指用户使用位置服务,主动生成的数据。这些数据来源复杂、分布广泛,就犹如一个个“贫富不均、深浅不一”的矿藏无序的分布在网络空间中,结构化与非结构化、空间与非空间数据并存,信息与数据垃圾混杂,质量良莠不齐。因此位置信息服务中的用户主动生成的数据难以直接使用,而需要经过数据清洗、处理、融合等一系列操作之后,才可以使用。位置信息服务中用户行为数据从类型上主要分为如下两大类:(1)轨迹数据:通过全球导航卫星系统或者基站定位等测量手段方法获得的用户活动数据(包括个人轨迹数据、车辆轨迹数据、飞行器轨迹数据等)。单用户的轨迹数据可以显示用户的位置,反映用户的偏好,认知用户的生活模式;多用户轨迹数据可以用来计算用户的相似度,根据相似度进行信息推荐。轨迹数据主要来源有各类导航数据、智能手机数据、可穿戴设备、物流数据、民航系统数据等。如图2.4为用户轨迹信息生成的北京经典徒步路线。图2.4北京经典徒步路线(2)地理标签数据:地理标签数据可能是文本、HTML网页、照片、微博、视频、动画等各种媒介形式。尽管形式不一,但是他们有一个共同的特征是这些数据中都显式或隐式的植入了地理空间信息,这种地理空间信息最常见的表现形式是地理经纬度坐标,但也可能包含高程、范围、形状等其它信息。最为常见的地理标签数据有以下几种:=1\*GB3①地理标签文档:如维基百科的地理标签文档(图2.5),截至2014年维基百科上的地理标签文档保守估计超过400万份,覆盖200种以上语言,其中与用户行为相关的位置数据包括用户所在位置,用户所编辑的地理文档位置等。=2\*GB3②地理标签照片:如Flickr的地理标签照片(图2.6),与用户行为相关的位置数据包括照片本身,照片上除地理标签外的其它标签和拍摄照片的设备信息。=3\*GB3③位置微博:如Twitter的位置微博(图2.7),其中与用户相关的位置数据包括微博本身,微博的标签信息和微博用户自身属性。图2.5关于“美国白宫”的标签文档,来自于维基百科图2.6美国白宫的照片(作者Koedian,来自于Flick网站)图2.7“美国白宫”位置微博2.3网络地理信息应用中用户行为研究框架在前文对网络地理信息应用中的用户行为数据类型、特点及其存在形式的分析基础上,通过设计网络地理信息应用中用户行为数据获取和分析研究框架,可以进一步明确具体的研究内容和相应的研究方法,有利于我们系统的开展接下来的研究。网络地理信息应用中用户行为研究框架如图2.8所示。图2.8网络地理信息应用中用户行为数据获取与分析框架通过网络地理信息应用中的用户行为数据获取与分析研究框架可以看出,网络地理信息应用中用户行为数据获取与分析研究是一个非常庞大而且复杂的体系,涉及到多方面问题。考虑到现有条件以及实现的难度和工作量,本文选取了有代表性的数据源,重点突破关键性的方法,图2.8中实线和实线要素代表的是本文重点研究和实现的技术流程,而虚线和虚线要素则是本文简单了解或者未涉及的内容。本文研究内容涉及数据源的确定、数据获取、数据建模、数据分析和可视化等一整套完整的技术方法体系。本文重点对数据获取阶段和数据分析及可视化阶段进行研究。2.3.1用户行为数据的数据源确定阶段由图2.8可以看出,网络地理信息应用中的用户行为数据呈现出多源异质特点。不同来源的数据包含的内容不同,在数据结构和存储方式方面往往也存在较大差异,因而导致数据获取手段和研究方法不同,而所有研究都是建立在数据源确定的基础之上。本文研究主要针对网络地理信息服务平台中的用户行为数据和位置信息服务中用户生成的数据。网络地理信息服务平台中用户行为数据来源比较明确,数据源确定主要是指网络地理信息服务平台的选择,用户行为数据可能因为平台不同,具有细微差异。总的来讲用户自身属性数据一般由用户注册时提供;用户的行为数据主要是用户使用网络地理信息服务平台时的各种操作行为,主要包括“点击流”数据和与网络地理信息服务平台应用相关的用户行为数据。位置信息服务中的用户行为数据来源比较广泛,并且不同来源的数据结构和内容存在很大差异,获取的手段和方法也存在较大差异,并且出于保护用户隐私、商业机密等原因,并非所有的数据均能通过网络技术手段获得,比如出租车轨迹数据就难以在网络上获得。但是许多开放的网站平台在Web2.0模式下已经积累了大量的极具价值的用户行为信息,例如OpenStreetMap以及OpenFlight站点是获取个人轨迹数据以及飞行器数据的极好数据源;而位置微博、地理标签照片和地理标签文档中不仅包含了大量的位置数据还包含了大量的用户属性数据以及评价信息。2.3.2用户行为数据获取阶段数据获取是用户行为研究中至关重要的一环,它是进行数据分析的基础,数据的类型和质量在很大程度上决定了分析结果的准确性和精度。数据来源不同数据获取手段存在不同,而且同一来源数据往往有多种获取方式,该阶段的研究主要目的就是确定需要获取的数据指标,选择合适的数据获取手段。下面将根据数据来源对用户行为数据获取方法进行介绍。网络地理信息服务平台中的用户行为数据获取网络地理信息服务平台中用户行为数据主要包括用户属性数据和用户操作行为数据。用户属性数据获取方法主要有用户注册、第三方用户样本库,但是出于保护用户隐私或者商业原因,通过网络获取第三方用户样本库非常困难,因此用户属性数据主要靠用户注册获取;用户操作行为数据则可以根据Web的基本结构从客户端、代理服务器端或Web服务器端展开,目前使用比较广泛的是基于日志的数据获取方法和基于页面标签的数据获取方法。前者来自于网络地理信息服务平台的数据库,获取相对简单,本文重点对用户操作行为数据的获取进行研究。 (1)基于日志的数据获取方法:基于日志的用户行为数据获取方法主要是从(代理)服务器所产生的日志文件中获取有用的数据。服务器日志记录了用户与服务器进行交互的详细信息,一般都包括:用户身份、用户访问路径、用户在页面上的停留时间、是否达到目的以及请求的文件名称、时间和结果等。但是日志文件是被设计用来衡量服务器性能的统计数据,与用来进行用户分析所需的大量数据相比会存在不足[46]。由于获取的数据缺乏针对性,加之数据源文件本身的复杂性、非精确性导致了分析结果存在一定局限,例如通过IP识别用户,无法获取用户真正身份,页面停留时间计算不精确,不能追踪事件等。(2)基于页面便签技术的数据获取:基于页面标签技术的方法只需将监测软件生成的一段JavaScript代码植入到被监控网站,便可以从客户端实时获取用户各种操作行为数据,这些数据一部分来自用户访问网站时生成的Cookie,一部分来自对操作行为的监控。基于页面标签技术的用户行为数据获取方法在保证了数据真实性的同时,克服了基于服务器日志的用户行为数据获取方法的不足,可以正确反映用户的浏览路径,精确的计算页面停留时间,并且不受动态分配IP地址或代理服务器的影响,可以追踪事件,但是由于直接从客户端获取数据,会产生流量,影响网络性能。无论是从获取数据类型,还是获取数据精度上基于页面标签技术的方法具有明显优势,我们将在已有的功能上进行扩展,使其适用于网络地理信息服务平台中用户操作行为数据获取。位置信息服务中用户行为数据获取位置信息服务中用户行为数据获取除少部分可以直接下载如OpenStreetMap中的数据,大部分用户行为数据是通过基于开放API的方法和基于网络爬虫方法获取的。(1)基于开放API的数据获取方法:开放API就是在网络上把各种网络应用产品进行封装成一系列可以被计算机识别的接口,供第三方开发使用[47]。为了保证数据安全,使用该方法获取数据必须经过认证授权,成功登陆后才可以根据需要,调用相应的接口,便可快速的获取相应数据。(2)基于网络爬虫的获取方法:网络爬虫是一种按照特定的逻辑和算法自动下载网络网页的程序或者脚本[48-50],其主要目的就是将网络上的网页下载到本地形成一个或者联网的镜像,主要包括页面获取和页面解析两个模块。根据其工作的原理网络爬虫可以分为两类:通用网络爬虫和主题网络爬虫。前者将一个或者多个页面作为起始页面,在下载这些页面的同时,获取这些页面内包含的URL,不断将这些URL存入队列,一直重复这个过程,直到满足一定条件则终止程序运行;后者主要通过分析已经下载的页面内容和链接,计算页面与主题的相关程度,预测需要爬取的下一个页面的链接,尽可能多的获取与主题相关页面,较少获取无关页面。基于开放API的数据获取方法获取数据方便,并且效率较高,但是为了保证服务器的稳定和用户数据安全,对获取数据的数量和类型进行限制,许多数据获取必须获得高级权限。网络爬虫获取数据效率虽然比不上前者,但是由于获取数据量不受限制,也无需进行授权,在数据获取中应用较广。2.3.3用户行为数据建模阶段用户行为数据建模阶段主要目的是将获取的所有用户行为数据,按照统一的模型放置在数据库中。本文主要采用MySQL数据库进行数据存储,它具有体积小、速度快和拥有成本低等特点。为了保证数据获取和分析过程既相对独立,又彼此联系,提高数据分析效率,本文设计了面向数据获取的日志库和面向数据分析的归档库,如图所示2.9。图2.9用户行为数据模型(1)日志库中数据的存储:日志库主要是面向数据获取的,在日志库中存储的是获取的最原始数据,也称之为“rawdata”,它是完全没有经过任何改变和加工的数据。依据上述分类,日志库主要分为两大子库,网络地理信息服务平台中用户行为数据子库和位置信息服务中用户行为数据子库。网络地理信息服务平台中用户行为数据子库包括用户注册信息表、访客表以及访客行为表等。位置信息服务中用户行为数据子库则会根据不同的数据来源设计相应的数据表。针对微博数据主要包括两类数据源:一类是以用户为种子,按照用户相互之间的关注关系爬取,该表称之为依用户爬取的微博原始信息表;另一类是以地点为种子爬取获得,该表称之为依地点爬取的微博原始信息表。(2)归档库中数据的存储:归档库中数据主要是面向数据分析的,在归档库中存储的是经过数据清洗之后与研究相关的数据。面向数据分析的归档库也分为两大子库即网络地理信息服务平台中用户行为数据子库和位置信息服务中用户行为数据子库,但与日志库不同,该库的数据都是经过深加工处理的,可以依据该数据生成报表,形成可视化图形等。其中站内信息子库同样包括用户注册信息表、访客表以及访客行为表,但其存储的信息和日志库中的表有所不同,如图2.10所示,在日志库中,访客表记录的是用户访问的地理信息资源页面和访问时间,但是归档库中,如图2.11所示,记录的是地理信息资源页面和页面浏览数。归档库中的位置信息服务中用户行为子库将日志库中依用户爬取的微博原始信息表和依地点爬取的微博原始信息表中所有与位置无关的数据清洗掉,仅留下与位置相关的数据,存储在数据表中,由于两个表中均含有用户自身属性数据,为了减少数据冗余,提高数据调用效率,将这些数据提取出来,生成用户信息表。从日志库到归档库这一数据处理过程,本文也称之为数据归档过程。图2.10日志库中的访客表信息图2.11归档库中访客表信息2.3.4用户行为数据分析与可视化阶段分析是由数据到信息转换的必经阶段,是挖掘数据价值,实现应用的基础,而可视化是一种有效的数据分析手段,可以清晰、直观的显示数据的分布特点和规律。用户行为数据分析与可视化阶段主要是借助数学的方法和原理进行数据处理和分析,建立数据之间的联系,并运用计算机图形学和图像处理技术将数据转化为可以在屏幕上显示的图形或图像。数据分析方法的选择受到数据自身属性影响,还与研究的目的有关,由这两者共同决定。适当的可视化手段有助于我们理解数据中隐藏的信息,认知用户的行为规律。本文涉及到不同来源的两类用户行为数据,其分析的结果和作用也存在差异。1.网络地理信息服务平台中用户行为数据分析与可视化网络地理信息服务平台中用户行为数据主要包括三种:用户属性数据、“点击流”数据、网络地理信息服务平台应用相关的用户行为数据。第一种数据是最基本的数据,许多学者通过这些数据,运用认知论、感受论等理论研究不同类型用户,如性别,对符号色彩、界面显示风格等的偏好,本文旨在从数据中研究用户偏好,因此对这部分数据不单独作重点研究。“点击流”数据主要记录了在一段时间内用户“有多少”、“从哪里来”、“到哪里去”、“什么时候来”、“待了多久”这些最基本的信息。这些数据均为连续变量,通过数值大小表示量的多少或者时间长短。这类数据处理主要进行简单的数据统计,通过描述被分析数据的性质来研究数据的关系,揭露数据的总体结构,反应数据的分布情况,进而创建模型,借助模型进行趋势预测。主要的可视化方法有:(1)折线图:用直线将各数据点连接起来,以折线的方式显示数据的变化趋势和变化幅度以及各组数据之间的差别,如图2.12。(2)直方图:又称之为质量分布图,主要用一系列高度不等的纵向条纹表示数据分布情况,一般用横轴表示数据的性质,纵轴表示质量(数量)特征,具有简单直观等特点,如图2.13。(3)饼状图:一般用颜色表示数据属性,面积表示数据比例,如图2.14。图2.12折线图图2.13柱状图图2.14饼状图网络地理信息服务平台应用相关的数据是本部分研究的重点,一方面由于网络地理信息服务平台提供的服务多为空间服务,许多用户行为数据中具有空间特征,利用传统的数据分析和可视化手法无法真正揭示数据分布规律和特征;另一方面,这些数据记录了用户使用了哪些功能、进行了什么操作、访问了哪些信息等,这一系列的行为数据中蕴含了用户的行为模式和兴趣偏好。我们可以根据用户行为的相似度对用户进行分类,研究类群间的差异、偏好和需求,有助于提高信息推荐的准确度,为提供个性化服务提供科学依据。在研究中我们的主要目的是利用大量无序的数据从定量角度进行用户分析,因此使用的分析方法主要是聚类分析。聚类分析就是在相似的基础上进行数据分类,使得同一类对象尽可能的相似,不同类别对象间的差异性尽可能的大,对象间的相似程度一般通过距离、相关系数等来描述。在通过聚类分析完成分类的基础上,我们可以通过研究同类用户在行为上的相似性,对比不同类别用户在行为上的差异,总结各类别用户的偏好和行为习惯。在可视化方面,地图本身就是一种很好的空间数据可视化手法,对于带有空间特征的数据我们可以借助一些新的可视化方法如热力图、标签云等,并与地图相结合,从地理维度上对这些数据进行分析和挖掘。2.位置信息服务中用户行为数据分析与可视化位置信息服务中的用户行为数据主要包括轨迹数据和地理标签数据,前者是线状要素,后者是点状要素,但是按照时间顺序将地理标签连接起来也可以呈现用户的活动轨迹。这类数据一般源于用户现实生活,对于研究用户行为更加真实可靠。对位置信息服务中用户行为数据研究可以分为两类,一类是根据用户的轨迹数据来计算用户的相似度,根据用户相似度进行位置推荐;另一类是根据用户的关注度计算POI的重要程度,作为POI分类分级的标准。此外还可以结合用户的其他数据进行信息挖掘,丰富POI的属性,比如某一地点比较受男性还是女性欢迎。本文主要利用地理标签数据对第二方面进行研究,这方面的研究成果可以改进网络地理信息服务平台中POI的分类分级中存在的不足,并且可以根据用户信息进行POI的选择性表达。在POI分类分级方面,许多专家根据多年的经验、相关规定和准则综合考虑多种因素,制定了相应的标准,奠定了POI分类分级的基础,但是这些分类分级标准忽略了用户需求,无法实现按需表达。根据用户关注程度建立新的分类分级标准需要在遵循POI分类分级基本准则的前提下,充分考虑用户这一因素,建立新的分类分级体系。基于其他数据对POI进行信息挖掘主要是研究这些POI受到哪些人关注,这些人有什么特征以及是否受时空因素的影响等。2.4网络地理信息应用中的用户行为获取与分析关键技术研究为了提高数据获取效率和分析的准确度,更好地满足应用要求,本文根据构建的网络地理信息应用中用户行为研究框架,进行了关键技术突破,主要表现在以下两个方面:1.网络地理信息服务平台中用户行为数据获取与分析关键技术研究网络地理信息服务平台中用户行为数据主要包括三类:第一类是用户注册时提交的个人背景数据和个性化标签,这部分数据存储在数据库中,是我们认知用户的基础数据;第二类是“点击流”数据,这是目前网络用户行为分析中最常用的数据,可以从Cookie中或者服务器日志中提取,通过统计分析可以用来衡量网站使用状况,分析用户质量(忠诚度、活跃度等),改进平台的设计;第三类数据为网络地理信息服务平台应用相关的用户行为数据,这类数据是本文研究的重点,它记录了用户一系列的操作行为和访问内容,反映了用户的行为规律和兴趣偏好,主要通过实时监测用户行为获取。网络地理信息服务平台中用户行为数据获取,主要针对平台中用户行为数据的特点和页面标签技术不足,对页面标签技术进行改进和功能扩展,使其在满足网络地理信息服务平台中用户行为研究需要前提下,提高用户的体验,主要解决目前无法追踪数据异步调用、具有空间特征用户行为数据获取和数据传输影响用户体验三个方面的问题。在数据分析方面则主要利用聚类方法计算用户相似度,挖掘不同类别用户的偏好和区别,在可视化方面利用热力图、标签云等可视化手段,将具有空间特征的用户行为数据在地图上进行表达,基于用户行为数据进行区域分析。2.位置信息服务中用户行为数据获取与分析技术随着移动定位技术发展和以手机为代表的智能终端设备普及,位置信息服务得到迅速推广,深植于各种网络应用平台中。由于平台开放程度不同,数据获取方式存在很大差异,但是为了提高用户参与度,许多平台开放了API,本文主要针对这些网站平台中用户行为数据获取与分析进行研究。位置信息服务中用户行为数据主要包括两类:第一类是利用GPS定位等手段实时记录自己位置生成的轨迹数据;第二类是用户通过定位技术生成的各种地理标签数据。这些数据一般来源于用户真实的现实生活,反映了用户的生活轨迹,其中除了位置信息外,还包含了大量的用户的背景数据以及用户对位置的评价、描述等信息。通过对位置信息服务中用户行为数据获取和分析,可以从用户的视角,建立新的POI分类分级体系,结合用户背景数据和评价信息从更深层次上进行位置信息挖掘,完善和丰富位置的属性信息。位置信息服务中用户行为数据获取主要采用API与网络爬虫相融合的方法,通过开放的API获取种子文件,然后利用网络爬虫有选择的获取数据。该方法既可以解决基于开放API获取数据量受限问题,又可以提高网络爬虫的工作效率。在数据分析方面,考虑到来自网络的数据规律性差,无法很好满足某种分布问题,采用探索性数据分析方法,对数据分布进行正态性判断,剔除异常值,通过幂变换使其服从正态分布,在此基础上进行显著性检验,发掘信息。2.5本章小结本章分析了网络地理信息应用中用户行为数据的特点,并根据网络地理信息应用中用户行为数据来源对用户行为数据进行分类,在此基础上构建了网络地理信息应用中用户行为研究框架,从数据源的确定、数据获取、数据建模和数据分析与可视化四个阶段进行研究,明确了各部分研究的内容和使用的技术方法,为接下来的研究奠定了基础。第三章网络地理信息服务平台中用户行为数据获取与分析第三章网络地理信息服务平台中用户行为数据获取与分析用户使用网络地理信息服务平台查询的信息、访问的内容一般是用户最感兴趣的信息,反映了用户偏好,是我们认知用户行为规律、理解用户需求最为关键的数据,是网络地理信息应用中用行为研究的主要内容之一。本章试图探求出科学实用的网络地理信息服务平台中用户行为获取与分析研究方法,满足相关研究的需要。具体地说,就是通过扩展页面标签技术解决数据获取问题,为分析提供数据基础;通过统计分析、聚类分析,发掘用户行为规律和偏好,为改善地理信息平台建设提供指导。3.1网络地理信息服务平台中用户行为研究机理网络地理信息服务平台主要提供空间信息服务,是用户获取空间信息,认知客观世界的一种重要工具。网络地理信息平台中用户行为具有更强的交互性,除了通过缩放、漫游等操作进行信息浏览外,还可以进行检索、查询、标注等操作。网络地理信息服务平台中用户行为不仅因为用户需求不同而存在差异,同时也受到用户所处的环境和用户的知识水平等多种因素的影响,具有很强的复杂性,因此需要分析网络地理信息服务平台中用户行为研究机理,明确研究对象、方法和目的,为接下来研究提供指导。网络地理信息服务平台中用户行为研究机理如图3.1所示,主要分为数据获取、数据分析和应用三个模块。在数据获取模块主要通过改进和完善页面标签技术,实现地理信息服务相关的用户行为数据获取;在分析模块主要根据数据特征以及应用要求不同,采用不同的数据分析方法进行数据分析;应用取决于数据分析结果,一个应用往往需要对多种数据进行分析,一种数据分析结果也可以为不同应用提供指导,本文以数据获取和分析为重点,不对应用做具体研究。图3.1网络地理信息服务平台中用户行为研究机理3.2基于扩展页面标签技术的用户行为数据获取方法本文主要采用页面标签技术进行数据获取,利用页面标签技术从客户端获取用户行为数据减少了人为干扰,与传统问卷调查和观察法相比,获取的数据更加真实,与基于日志方法相比降低了服务器资源的消耗,并且还可以对各种操作进行追踪,支持功能扩展。但是目前基于页面标签技术获取用户行为数据主要是针对普通网站,无法满足网络地理信息服务平台中用户行为数据获取的需要。针对当前研究中存在的不足,本文对其功能进行了扩展,主要实现以下三个功能:追踪异步调用的用户行为数据;获取具有空间特征的用户行为数据;基于网络状况实现数据动态上传。基于扩展页面标签技术进行用户行为数据获取的基本思路是:首先在服务器或者其他电脑上安装开发的系统软件;然后将要被监测的网站添加到软件中,软件会自动生成一段用户行为监测代码;最后在网站的</body>标签前面加入一段JavaScript脚本。完成上述操作后,当用户通过浏览器访问网站时,会向Web服务器发送请求,当页面在浏览器中加载时,会执行包括监测代码在内的所有JavaScript代码,监测代码调用系统中的各项功能,进而获取各种用户行为数据。3.2.1针对异步调用的用户行为数据获取Ajax(AsynchronousJavaScriptandXML)即异步的JavaScript和XML,它可以在不刷新页面的情况下,实现数据的局部更新,减轻了服务器负担,提高数据响应速度,减少了用户等待时间。因此网络地理信息服务平台在设计中大量采用了Ajax技术,但是页面标签技术是根据浏览器中URL变化来识别页面的,这造成了数据获取的不准确,在此我们通过改进页面标签技术,通过手动触发方式对异步调用行为进行追踪。网络地理信息服务平台中最为典型就是不同类型地理信息资源切换,以此为例本文进行详细介绍。网络地理信息服务平台一般会提供多种类型地图如矢量地图、卫星影像图、三维立体图等,当不同类型地图进行切换时,只是地图显示区域内容进行局部更新,整个网页并没有重新加载,因此可以采用手动触发方式对这些操作行为进行追踪,初始代码为:<ul><li><ahref=”#VectorMap”>矢量地图</a></li><li><ahref=”#SatelliteImagery”>卫星影像</a></li><li><ahref=”#3DMap”>3D地图</a></li></ul>在地图类型控件对应的标签内添加一个事件,事件中的参数即为地图类型(页面名称),当用户通过控件切换地图时便会触发相应事件,这些事件将不同类型地图当作一个单独的面进行监控,添加事件后的代码如下:

<ul><li><ahref=”#VectorMap”onclick=”javascript:baTrack.trackPageView(‘矢量地图’);”>矢量地图</a></li><li><ahref=”#SatelliteImagery”onclick=”javascript:baTrack.trackPageView(‘卫星影像’);”>卫星影像</a></li><li><ahref=”#3DMap”onclick=”javascript:baTrack.trackPageView(‘3D地图’);”>3D地图</a></li></ul>3.2.2具备空间特征的用户行为数据获取在普通网络网站中利用页面标签技术获取的坐标多为屏幕坐标,只需将屏幕与网页对应就可以显示用户访问的位置,但是用户通过网络地理信息服务平台获取的是地理位置服务,可这些位置与屏幕位置不存在对应关系,因此在获取用户许多行为数据时需要将获取的屏幕坐标转换为真实的地理坐标,例如通过记录用户点击鼠标位置来表示空间区域访问范围和用户搜索使用的关键词。这里以通过记录用户点击鼠标位置来表示空间区域访问范围为例进行介绍。地图中数据是以瓦片的形式进行存储的,每一个瓦片都有自己的行列号,通过这个行列号我们可以计算出屏幕左上角对应的地理坐标,然后根据比例尺换算出屏幕每一点对应的地理坐标。当鼠标在屏幕上进行点击时,首先判断点击位置是否位于地图区域内,如果是则调用GetScreenPoint()事件,获取点击位置的屏幕坐标;然后调用ScreentoMap()事件,计算点击位置的地图坐标,将屏幕坐标转化为经纬度进行存储。实现处理程序如下:if(点击位置位于地图图层显示区域){functionGetScreenPoint(){获取点击位置对应的屏幕坐标;获取地图显示区域左上角屏幕坐标及其对应的地图坐标;functionScreentoMap(){获取地图比例尺;计算点击位置在地图显示区域的屏幕相对位置;将屏幕坐标转化为地理经纬度坐标。}}}当需要在地图上再现点击位置时常常以热力图方式,首先需要借助一定算法对数据进行聚类,确定分类数和中心,然后由经纬度转化为屏幕坐标,以热力图形式显示在屏幕上。其主要流程是:点击热力图显示按钮,调用HeatMap()事件,获取存储在数据库中的经纬度,对数据聚类,确定每一类的中心点坐标,并设定中心点的颜色以及渐进的灰度带;然后调用MaptoScreen()事件,将经纬度转化为屏幕坐标,在屏幕上显示。3.2.3基于网络状况的数据动态上传数据上传是指把从客户端获取的各种用户行为数据发送至服务器数据库进行存储,以便于对数据进行分析和处理。JavaScript是客户端脚本语言,无法与服务器建立连接,需要借助Ajax(AsynchronousJavaScriptAndXML,异步JavaScript及XML)中的XMLHttpRequest对象来很好的实现数据的无刷新上传。目前用户行为数据上传策略主要有暂存策略和实时传输,前者只需要在页面关闭时发送一次数据,减轻了服务器端的压力,但是加重了客户端的压力,如果数据流量过大,还会降低页面的响应速度,降低用户体验;后者可以实时传输数据,但是数据比较零散,需要在服务器端进行额外的加工处理,增加了服务器端的压力。为了弥补上述两种方法的不足,本文采用动态上传数据的方法,通过监控用户状态来决定数据传输时间,如果用户空闲则自动上传数据,如果用户操作频繁则暂时存储用户行为数据,当页面关闭时将剩余数据一次性上传。数据上传主要包括两步,首先在空闲时传递数据,在Ajax中数据的传递方式主要两种,即通过XMLHttpRequest对象的send()方法和open()方法,以查询字符串的形式传递用户行为数据。数据传递的算法描述为:functionUpload(){if(网络空闲){传递数据至上传模块;清空已上传数据;}间隔一段时间再次执行Upload();}关闭页面时会触发onbeforeunload()事件,直接将剩余数据全部上传,然后在缓存中清空,事件的处理程序描述如下:window.Onbeforeunload=function(){传递数据至上传模块;清空数据缓存;}3.3基于多源异构的用户行为数据分析网络地理信息服务平台中用户行为数据具有“多源异构”特点,“多源”主要指数据来源众多,“异构”主要指数据结构复杂,质量不一。网络地理信息服务平台中用户行为数主要包括三种:用户背景数据、“点击流”数据、网络地理信息服务平台应用相关的用户行为数据。其中用户背景数据来自于平台数据库,属于结构化数据,数据质量高,可以直接使用,而“点击流”数据和网络地理信息服务平台中用户行为数据多属于非结构化数据,数据质量低,需要经过处理后才可以使用。本文主要利用这些数据对网络用户活跃度、空间区域访问情况和用户相似度进行分析研究。3.3.1用户活跃度分析用户活跃度分析主要是通过对一定时间范围内的“点击流”数据中各指标进行统计和分析,来衡量这一段时间内网络地理信息服务平台的使用情况,根据用户使用情况研究用户的质量,评价网络地理信息服务平台的服务水平,为改进平台建设提供指导。网络地理信息服务平台中用户行为数据统计分析时间范围设定如图3.2。图3.2时间范围设定空间1.用户访问趋势分析主要是按照统计时间范畴,分析网络地理信息服务平台使用情况,由图3.3可以看出,起初访问量由无到有然后上升再趋于平稳,其中有两个峰值。这是因为在测试之前并未对网站进行监控,然后是小组内利用几台机器进行测试,出现峰值是因为为了测试服务平台的稳定性多台计算机多次对平台同时进行访问。此外我们还可以设置多个指标,如图3.4,通过对多个指标进行分析,我们可以计算访客的忠诚度,衡量访客健康程度和质量。图3.3访客趋势图(指标设置)图3.4访客趋势图2.用户访问的时间分布规律通过分析用户活动在时间上的分布规律,可以了解用户每天的行为模式。图3.5为依服务器时间记录的访问次数统计直方图,从图中可以看到访问主要集中在上班工作时间,这是因为平台处于测试阶段,访问来自平台网站开发人员检查服务效果,统计结果符合客观实际情况。图3.5依服务器时间记录的访问次数直方图3.用户停留时间分析用户使用平台是带有一定目的或需求的,通过访问停留时间我们可以推测平台服务是否达到用户预期,能否满足用户需求。如果停留时间过短占的比例比较大说明平台内容比较“糟糕”,对用户没有吸引力;如果停留时间过长占的比例较大,说明平台服务设计不合理,用户感兴趣的“知识”隐藏太深。图3.6为实验环境下数据,用户主要为了查验平台运行状况,而不是获取感兴趣内容,所以停留时间较短。图3.6访客停留时间3.3.2基于点击位置的空间区域访问分析由于网络地图提供的多为空间信息服务,因此许多用户行为数据中带有空间特性,甚至是时间特性。这些数据中包含了位置信息,可以很方便计算数据间的距离,因此非常适合聚类分析。在聚类的基础上,借助新型的可视化手段如热力图、标签云等,将聚类结果可视化,制作各种可以反应数据空间分布特征的地图,从地理维度对这些数据进行挖掘。这类数据中很典型的一类是通过记录鼠标点击位置获取的空间区域访问信息,如果一个地区被关注度很高,我们应该提高该地区数据的更新速度,提供更详细的数据。本小节以此为例介绍聚类分析在该类数据中的应用,并通过热力图与地图结合进行可视化分析。热力图即利用空间统计的算法,从离散的点事件中找到空间聚集区域,然后将离散数据(事件或事物)的分布及其相互关系图示化,常常以一张具备显著颜色差异图片的方式呈现最终结果,亮色一般代表事件发生频率较高或事物分布密度较大,暗色反之。生成热力图主要包括数据处理和热力图绘制两个阶段。1.数据处理利用热力图对点数据集进行可视化首先需要对数据按照一定方式进行聚类,在此采用了K-Means聚类算法,因为热力图显示需要随着地图缩放漫游实时变化,K-Means算法效率高,可以很好满足需求。其基本思想是初始随机给定K个聚类中心,按照最邻近原则把待分类样本点分到各个类中。然后按平均法重新计算各个类的中心,从而确定新的类中心。一直迭代,直到类中心不变或者移动距离小于某个给定的值。K-means聚类流程为:(1)从所有数据点中随机选取K个数据点作为中心点,记下中心点的坐标;(2)依次测量剩余数据点到每个中心点的距离,并把它归到距离最近的中心点的类;(3)根据每个类中数据点的坐标和该类中数据点个数,重新计算已经得到的各个类的中心点,并记下中心点坐标作为新的聚类中心;(4)不断重复第(2)、(3)步,直至新的中心点与原中心点相等或小于指定阈值,聚类结束。2.热力图绘制经过数据处理我们得到含有若干点的K个类,每个类的中心点就是热力图的中心,我们以这些中心点,绘制热力图,流程如下:(1)计算类中所有点到其中心点的距离;(2)使用渐进的灰度带(完整的灰度带是0~255),将距离“标准化”为灰度值,中心点的灰度值为255,最远距离处的灰度值为0,带有小数的数值根据四舍五入原则确定;(3)以灰度值为索引,从一条有256种颜色的色带中映射颜色,从中心点由内向外进行填充,并对图像进行着色,从而实现热力图的绘制。结果如图3.7:图3.7基于鼠标点击位置的空间区域访问热力图3.3.3基于特征向量的用户相似性分析用户行为受到多种因素影响,具有内在的规律性,用户访问的内容和使用的功能在一定程度上反映了用户兴趣和偏好。利用这些内容构建特征向量,可以帮助我们计算用户之间的相似程度,并以此为依据对用户进行分类,研究不同用户之间的异同,分析用户需求,为用户提供个性化服务。这里我们主要利用模糊聚类的方法,以用户查询酒店为例,根据用户查看的酒店类型构建特征向量,并基于该特征向量完成对用户的分类,其主要步骤如下[46]:表3.1用户查询酒店类型统计表行为用户X1X2X3U1231U22571U34146U42093U5668U616186U7620U814240U92230U1081812(1)数据预处理首先根据表3.1的不同用户访问地理信息资源次数计算每种行为观测点样本的平均值和标准差。平均值:X标准差:S然后将数据标准化:X'ki=图3.8标准化矩阵(2)根据欧氏距离,计算各对象间的模糊相似矩阵F,公式如下:dr其中c是适当选取的参数,对距离d起到约束作用,保证rij大于0图3.9模糊相似矩阵(3)根据F求包含F的最小模糊传递矩阵,即F的传递闭包t(F)。图3.10最小模糊传递矩阵(4)根据t(F)和阈值r进行分类,当阈值变化时分类结果发生变化,我们可以根据需要和经验选定合适阈值。当C取0.1时,若r取0.946,结果如下:图3.11阈值为0.946时分类结果实验表明:用户分为四类,其中用户1、6、8为一类,用户2、4、7、9为一类,用户3、10为一类,用户5独立成类。当C取0.1时,若r取0.820,结果如下:图3.12阈值为0.820时分类结果实验表明:用户分为三类,其中用户1、3、6、8、10为一类,用户2、4、7、9为一类,用户5独立成类。以用户选择酒店类型为例,在第一次分类中第一类用户在酒店选择方面偏好于前两种,尤其是快捷酒店;第二类用户在酒店选择方面更倾向于星级酒店;第三类用户在酒店选择方面后两种较多,但更倾向于快捷酒店;第四类用户则比较均衡。由于第一、三类用户均更偏爱于快捷酒店,所以当分类数目减少时合为一类。如果进一步进行信息挖掘,第二类用户消费水平最高,属于商务人士可能性比较大;第一类用户次之,选择快捷酒店原因多为其价格低廉;第三类用户消费水平低于第一类,其选择快捷酒店原因可能是因为其比较安全可靠;第四类用户特征不明显,属于随遇而安类型。我们可以根据分析结果有针对性的对用户进行推荐。3.4本章小结本章首先分析了网络地理信息服务平台中用户行为研究机理,在此基础上针对网络地理信息服务平台用户行为数据特点,对页面标签技术进行扩展,实现了针对异步调用的用户行为数据、具备空间特征的用户行为数据获取,并且实现了基于网络状况的数据动态上传。最后基于用户行为数据分析了用户的活跃度和相似性,并利用热力图对空间区域访问数据进行可视化,这些研究为改善地理信息服务平台提供了科学依据。第四章位置服务中用户行为数据获取与分析第四章位置信息服务中用户行为数据获取与分析位置信息服务已经成为一种重要的地理信息应用,用户在使用这些服务的同时,往往会对位置进行标注、评价,这些数据反映了用户对该位置关注程度,是衡量其重要性的一个重要指标。由于目前POI分类分级都是在客观调查基础上进行专家打分,忽略了用户需求,而用户最关注的才是最重要的。本章主要基于位置信息服务中用户行为数据,在遵守POI分类分级基础上,综合考虑用户因素的影响,建立新的分级体系,并基于用户背景数据对POI进行信息挖掘,为提高地理信息服务水平提供科学依据。4.1位置信息服务中用户行为研究机理随着GPS、基站定位技术日渐成熟,移动智能终端设备的普及以及移动网络的迅速发展,众多应用都嵌入了位置服务,极大的便利了人们的日常生活。从目前位置服务的整体来看位置服务内容主要可以概括为:位置社交(如QQ、微博等)、工具类应用(如导航、团购等)、传统位置服务(如车辆管理、信息查询)三大类。位置服务应用广泛,这导致了用户行为数据来源多样化,但由于商业机密或者保护用户隐私,有些用户行为数据我们无法通过网络获取,例如出租车轨迹;有些应用不是针对普通大众或者数据内容不满足本文研究需要,如飞行轨迹数据。在此选取数据开放度高,信息丰富,用户覆盖范围广的微博作为数据来源,研究位置服务中的用户行为机理,如图4.1。位置信息服务中用户行为研究主要分为数据获取和数据分析两个阶段,数据获取阶段主要采用基于API与网络爬虫相融合的方法,该方法首先基于API获取种子文件,然后利用网络爬虫根据种子文件获取用户行为数据,该方法既可以避免基于API获取数据量受到限制问题,又可以克服网络爬虫获取数据缺乏针对性,效率较低问题。获取的用户行为数据中主要包含位置属性数据和用户背景数据,前者反应了该POI受到用户的关注程度,是衡量其重要性的一个重要指标;后者反映了关注该POI的用户类型,可以用来分析POI的受众类型,丰富POI的属性信息。图4.1位置信息服务中用户行为机理4.2基于API与网络爬虫融合的用户行为数据获取4.2.1基于API获取数据的原理微博开放平台根据功能开发需要开放了众多的API接口。根据接口功能划分主要分为三类接口:微博基础数据接口,例如微博访问接口、用户接口和关注接口;微博地理位置信息接口,例如地图引擎接口、POI数据处理接口和移动定位接口等;测试接口,如help/test测试接口。在微博开放平台上获取应用首先需要注册一个微博账户,然后提交个人的实际信息,供微博开放平台核准确认(OAUTH授权),只有通过审核后的用户才可以获得开发者身份,进而创建自己的应用。创建开发应用时,用户会获取两个重要的参数:APPKey和SecretKey,前者是开发者创建的应用标识,主要用来供程序来识别应用;后者是平台分配给创建的应用的密钥,主要用来确保该应用的真实性和安全性。通过OAUTH授权解决了程序访问新浪微博API的用户身份认证问题,用户可以根据需要调用相应接口获取数据,其流程如图4.2:图4.2新浪微博API数据获取程序流程为了方便调用API,新浪微博提供了一套软件开发包即新浪SDK,其中封装了从授权认证到数据获取与解析的各项功能。SDK是建立在API基础上的集成与开发,可以支持Python、C++、PHP、JAVA、JavaScript等十几种计算机语言,并且可以在手机、平板电脑等移动设备上使用,它的使用极大地减少了程序开发的工作量,但是存在着开发不完善,在功能上和稳定性方面均不如API[46,47]。虽然通过开放API可以方便获取微博数据,但是获取数据的数量和类型受到限制,许多数据获取必须获得高级权限。为了均衡服务器负载,新浪微博API服务商除了限定单页返回记录最大为50条以外,对用户的API接口访问频次做了限制,普通授权、中级授权和高级授权用户在使用一个应用请求频次均不能超过2000次/小时。4.2.2基于网络爬虫获取数据的原理基于网络爬虫获取数据主要涉及网页获取和页面内容解析两部分,首先利用网络爬虫来获取目标网页,然后利用页面解析技术获取页面内容。1.网页获取网络爬虫工作基本原理是:网页之间一般都是通过链接进行跳转,如果将每一个页面看作一个节点,网页之间的链接看作连接节点的一条有向边,这样就可以构成一个有向图。网络爬虫可以对网页进行类似于有向图的遍历,从设定的一个或者多个节点出发,下载相应网页并获取网页中的其他URL链接,进而根据这些URL遍历其他节点。为了提高网络爬虫工作效率,避免重复获取网页,在URL获取过程中一般会采用一定的抓取策略,常用的策略有:(1)深度优先策略:爬虫从起始页开始,持续跟踪一条线路里的链接,直至处理完整条线路然后返回起始页,继续跟踪起始页的子节点。(2)广度(宽度)优先策略:网络爬虫先抓取起始页中所有链接,然后逐次选择一个链接,继续抓取在此网页中链接的所有网页。(3)最佳优先搜索策略:利用一定的算法,计算待抓取的网页的链接与目标页面的相关程度,优先爬取与主题相关度高的页面。2.页面内容解析HTML页面结构是半结构化的,在HTML页面中使用不同的标签及其属性来表示文本具有的不同意义,这些标签一般都是成对出现的,数据内容就存储在了一对标签之中。一个典型的网页结构如下:<html><head><title>页面标题</title></head><body>//包含主要的文本数据……<ahref=”链接”>内容</a>……</body></html>获取的HTML页面在结构上基本是一致的,根据文档具体结构,设计程序利用正则表达式便可以从页面中有选择地提取需要的内容,按照一定格式存储。在新浪微博中只有登录后才可以访问微博信息,所以在获取数据前需要登录微博平台,目前解决方法是利用程序模拟用户登录行为[46,48]。利用网络爬虫可以不受限制获取数据,但是爬虫需要不断计算URL相关度,或者遍历所有URL,造成了不必要开销,因此基于网络爬虫获取效率低于基于API方法。4.2.3基于API与网络爬虫融合的数据获取方法基于API获取数据的方式效率高,但是受到来自服务器的限制,当数据量比较大时不能获取到完整的数据集。基于网络爬虫的获取方式虽然可以获取完整数据集,但是效率低下。在此我们将两者结合起来,提高数据的获取效果。具体流程如图4.3:图4.3基于API与网络爬虫融合的数据获取方法由图可以看出,该方法主要分类两部分:第一部分主要利用开放API获取所需的种子文件,确定初始的URL,将URL提供给网络爬虫模块;第二部分是网络爬虫模块,该模块根据初始URL获取页面,进行页面解析,获取所需内容并根据微博中URL的规律构建新的URL集合,获取所有相关页面,直到程序满足结束条件。以新浪微博中签到数据为例,首先利用API获取POI的ID信息,根据其ID信息构建初始URL,然后爬虫模块通过URL获取相应的页面,通过页面解析获取每个POI签到页数,利用签到页面URL规律循环抓取所有签到页面,利用页面解析技术获取所需内容。在此利用上述方法获取全国范围和郑州周边两个尺度下的旅游景点在微博中的用户签到数据作为本章节实验数据。首先在全国范围内从全国1A-5A以及非A级共5138个旅游景点中[49]按照不同级别进行不放回简单随机抽样,总共6个简单随机样本,单个样本容量为25,从新浪位置微博站点[50]上爬取各旅游景点的微博数、签到人数和图片数等信息。在郑州范围内对百度旅游-郑州旅游景点[51]中所推荐的179个旅游景点进行筛选,最终选取了郑州市及其周边58个旅游景点,签到总人数为70721(获取的最后时间为2014年8月15日),其中4个3A景点和2个2A景点(表格中阴影区域)由于签到人数不满100,没有获取详细的签到用户信息。获取的签到用户数据总共包括8项:用户ID、用户名称、性别、地区、关注数、粉丝数、微博数和签到时间,具体参见表4.1。表4.1获取的签到用户信息数据项数据项数据类型举例用户ID字符串299****627用户名称字符串框***桑性别枚举型男地区字符串天津滨海新区关注数整型19粉丝数整型2微博数整型2签到时间日期型2012/4/2819:39:004.3基于用户行为数据的POI重要性评价和信息挖掘4.3.1基于EDA的用户行为数据分析探索性数据分析(EDA)是在尽量少的先验假设条件下对通过观察、测量等手段对初步得到的杂乱无章的数据进行处理,借助作图、制表等形式或者通过计算某些特征量、方程拟合等手段来探测数据的结构和规律。它从原始数据出发,完全以实际数据为依据,具有分析方法灵活,结果直观简单等特点。利用探索性数据分析(EDA)可以对来自网络的无序的数据进行处理,使其符合某种分布,在此基础上借助传统的数据分析方法进行数据发掘,避免当数据偏离假定所描述的模型时,传统分析方法分析效果很差甚至错误。本文选择探索性数据分析方法进行数据分析,主要用于判断数据是否服从正态分布,如果数据不服从正态分布则利用幂变换和极小异常值检测等手段将非正态分布数据,变为正态分布。1.数据分布正态性判断(1)设有n个数据,经从小到大排序后记为:,这组数据的中位数是M。此时,当n是偶数时,;当n是奇数时,。(2)次序统计量:四分数F,八分数E,十六分数D,三十二分数C等,其中它们均有两个值,下四分数是处于中位数与最小值的半中间的那个数,上四分数是中位数与最大值的半中间的那个数;下八分数是处于下四分数与最小值的半中间的那个数,上八分数是上四分数与最大值的半中间的那个数;依次类推十六分数,三十二分数等。次序统计量的深度:将一个数在一组数据中所处位置称为这个数的深度。M的深度=d(M)=F的深度=d(F)=C的深度=d(C)=其中表示求不超过x的最大整数运算。(4)次序统计量的中总括值:对于每一个次序统计量的2个值,其平均值称为该次序统计量的中总括值,如下:M的中总括=中位数F的中总括=E的中总括=D的中总括=C的中总括=对于一组排好序的数据,按照上述4个步骤可求出5个中总括,若这5个值既无递增趋势也没递减趋势,且大小均相近,则这组数据是正态或近似正态的。如它们是递增的,则数据分布是偏正态的;若它们是递减的,则数据分布是负偏态的。2.偏态幂变换若数据不服从正态分布,则可对每一个数据进行幂变换来消除偏性,变换后得到一组新的数据:。变换的幂的大小p如下确定:(1)对每一个次序统计量T(T=F,E,D,C),求经过(0,0),(x,y)的直线方程的斜率b,计算如下:(2)对上述步骤得到的4个斜率,计算其中位数,则取变换的幂,若实际计算中p是小数,可取与其相近的两个整数分别计算,再取最合适的那个值作为p.(3)幂变换后的数据做正态性判断:首先,按上述提到的方法计算变换后的数据的5个中总括值,将相邻的两个中总值相减,得到4个差值。如果这4个差值中各有两正两负,则说明变换后的数据基本是正态分布。反之,则要再调整p值,当分布正偏时,调低p值;当分布负偏时,调高p值。3.基于改进格拉布斯准则的数据异常值检测由于样本中会存在极小异常值,这些异常值存在导致幂变换后数据仍然不服从正态分布,因此需要剔除这些异常数据,在此基础上在进行幂变换。最常用的异常值检测方法是格拉布斯准则,但该准则适用于两端的极值异常检测,因此需要对该准则增加“仅检测极小异常值”的约束条件,本文改进后的格拉布斯准则算法如图4.4:图4.4仅检测“极小异常值”的格拉布斯准则算法改进格拉布斯准则改进算法流程:(1)计算初始样本的样本均值A和标准差σ;(2)如果样本均值A-2σ小于0,证明该分布在置信区间内(置信度取95%)签到人数存在负值,因此认为样本中的极小值为异常值,去除该异常值,生成了新的样本,返回到第(1)步。(3)如果样本均值A-2σ不小于0,找到残差中的极值,并计算格拉布斯临界值M,如果M小于阈值,认为样本中不存在异常值,算法结束。如果M大于阈值,去除样本中的极小值后,生成了新的样本,返回到第(1)步。4.3.2基于用户关注度的POI分级体系建立尽管在地理信息应用中,已经科学的建立了一套POI重要性评价模型,依靠客观调查进行专家打分,从而给出POI的分级体系[53,54],但是这种分级方法忽略了用户这一至关重要的因素,因为从用户角度讲,其需要的才是最重要的。因此我们在POI分级体系建立过程中必须考虑到用户这一因素。用户在使用位置信息服务时,会留下自己的“足迹”,通过对这些数据进行统计比较,可以反映到达不同地点的人数多少,是衡量用户对此POI关注度的一个重要指标。但是单纯依靠用户关注程度建立POI分级体系,会忽略掉POI的许多客观价值,如“集安市高句丽文物古迹旅游景区”,虽然在2004年就被列入《世界文化遗产名录》,但由于地处偏远(吉林省东南边陲,与朝鲜隔江相望),因此在新浪位置微博上仅有2人签到的信息。因此基于用户关注程度建立POI分级体系,是在遵循科学客观的分级基础之上,结合用户关注程度建立新的POI分级体系,其中包括两个指标:通过专家打分建立的分级体系和用户关注度。在新的分级标准中由于依靠专家打分建立的POI分级体系的分级结果多是定序变量,如景点分为1A到5A,而用户关注程度多为定距变量,如微博数的多少。因此需要将定距变量转换为定序变量,即“关注度高”、“相适应”、“关注度低”。用户关注度的“高”和“低”是一个相对概念,比如,比如一个5A景点签到人数为500,会被认为关注度“低”,但是对于一个1A景点来说,则被认为关注度“高”。如果同一级别的POI用户关注度呈正态分布,那么从统计角度出发,可以认为在均值的1个标准差范围内的人数都是和该级别的POI相适应的,而在1个标准差范围以外的,则被认为用户关注度过“高”或者过“低”,如下所示:0其中A为样本均值,σ为标准差。在此

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论