《Z市建筑物尺度人口估算实证探究》15000字(论文)_第1页
《Z市建筑物尺度人口估算实证探究》15000字(论文)_第2页
《Z市建筑物尺度人口估算实证探究》15000字(论文)_第3页
《Z市建筑物尺度人口估算实证探究》15000字(论文)_第4页
《Z市建筑物尺度人口估算实证探究》15000字(论文)_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Z市建筑物尺度人口估算实证研究目录TOC\o"1-2"\h\u4381Z市建筑物尺度人口估算实证研究 118038摘要 129647第一章绪论 2224081.1研究背景 2115861.2研究现状 373781.3研究内容与技术路线 4249851.4本章小结 526576第二章理论基础与研究数据 6273222.1研究区概况 6101752.2理论基础 7194762.3数据来源 817492.4数据预处理 13290602.5本章小结 1627149第三章基于随机森林的人口估算模型 17313323.1随机森林算法理论基础 17124133.2实现过程 1966633.3人口估算建模 21139163.4人口估算结果 2285003.5人口估算结果精度评价 232793.6本章小结 248286第四章模型解释与分析 25258944.1特征重要性分析 25206474.2特征贡献分析 26152384.3本章小结 288691第五章结论与展望 29112645.1研究结论 29324015.2研究不足与展望 2931394参考文献 30摘要随着我国城镇化建设的稳步推进,城市人口也在不可避免的持续增长。在这个发展背景下,实现城市的人口分布监测,对城市的资源分配、生态维护和建设规划等多方面都有着重要的意义。本文以郑州市为研究范围,使用POI数据(PointofInterest,兴趣点)、夜间灯光数据等与人口分布息息相关的要素通过构建随机森林人口估算模型得到了郑州市的人口分布数据并依据特征重要性评价了模型的精度。主要探究成果为下面两项:(1)经过数据预处理后提取出POI兴趣点数据、珞珈一号夜间灯光数据和街道建筑物的轮廓特征,然后基于随机森林回归算法建立估算效果较优的随机森林人口估算模型。该模型输出郑州市人口分布数据,与实有人口数据进行对比。模型精度良好;(2)在完成随机森林模型的训练及输出人口估算结果后,运用特征重要性指标定量分析了各个特征在人口估算模型之中的重要性,并评估模型精度提升的方向;(3)探究各个特征对最终估算结果基于特征值的特征贡献。思考产生误差的隐含原因和改进目标。该人口估算方法是基于常见的数据能以较短的时间成本得到相对准确的人口分布数据,提供了获取人口分布数据的新方法,为人口分布监测提供了新思路、新渠道。关键词:人口估算;随机森林;夜间灯光遥感数据第一章绪论1.1研究背景在近四十年以来随着国家城镇化建设的不断迈进,我国的城镇化率从1978年的17.9%增长到了2020年的60.60%。随着改革开放和城市建设的推进,城市人口的增加也使得城市的生态、经济、发展等方面产生相互影响。人口的分布状况影响着城市的生态建设、城市建设以及资源分配等多方面问题,而城市的生态建设和城市建设又反过来影响着人口的分布。所以,在城镇化建设如火如荼的当今,能以较短得时间、人力成本较低的方式获得相对准确的人口数据,对城市的建设规划和生态环境维护等方面都有着深远意义REF_Ref27954\r\h[1]。目前,最为主要的人口数据获取方式是十年一度的人口普查,其数据真实、完整。但人口普查数据获取的时间间隔过长,无法刻画普查间隔期内的人口数据,难以满足更短时间的人口变化和更小尺度的人口统计研究。所以,要想获取相对准确、过程简洁的人口数据就得借助于地理信息系统和遥感数据等新技术。基于GIS和遥感得发展,我们可以较为容易得获取许多与人口分布有关得数据其人口分布数据,也可以更加直观得将抽象数据分析和展示出来。当前这一领域得研究主要集中于格网尺度得人口估算和街道建筑物尺度得人口估算。其中格网数据拥有计算便捷、规则性强等优势的同时也有着对自然地物的分割的缺陷,相对难以刻画真实人口分布状况。相对而言,街道建筑物尺度更能反映人口分布得真实区域,故而本次论文选用街道尺度能够真实刻画人口统计情况。在上述背景下,生成以街道为基本单位的人口分布数据成为了一个亟待解决的问题。目前也有一些能够准确反映人口聚集的数据分别从不同的维度刻画了人口的分布信息,为人口估算的研究提供了必要的资源。1.2研究现状近年来,地理信息系统和遥感技术取得了长足发展,我们可以轻松获取到诸如路网水系、POI数据以及土地利用等与人类分布密切相关的数据,也可使用各类遥感数据派生出许多与人口分布模式相关的因子,如建筑物密度、建筑物容积率、绿化覆盖率等。这些数据和因子有助于我们从更多不同的角度来描述人口分布。其中不同的土地利用类型影响着人口的分布,如居住地与水域山地的人口分布是截然不同的,与此同时,交通方便与否、房价与收入比例合理程度以及城市建设等多个因素也同样影响人口的分布。所以人口分布本身就是一个超多因素影响得复杂模型。现提出一些已有的主要人口估算模型如下;国内外早期的人口估算方法是应用区域插值。其输入人口统计数据,经过不同空间单元之间的区域变换,变换前后的空间单元分别标记为A、B区域。A区一般为行政区划单元,B区更低一级的行政区划单元或特定分辨率的格网单元。区域转换一般是运用区域插值将A区数据转换为更精细的栅格数据,再将它们聚合或分解到B区中。区域插值受A区域聚合或分解操作的误差影响,其准确度在很大程度上取决于如怎么样去定义A区和B区,所以受认为影响较大。插值过程中的泛化程度以及分区表面的特征。随着近些年地理信息系统、遥感技术和机器算法模型的发展,我们可以获取到更多的与人口分布密切相关得空间数据和更有效估算方式,在这个基础上,人口估算方法已经从最开始的人口数据空间化向人口估算模型转变,运用估算模型来评估人口和受其影响的各个变量之间的关系,最后再通过该关系直接应用于变量来获取相对准确的人口数据。估算模型办法能够较为便捷的获取相对准确的人口分布数据,但其也存在忽视的问题,例如与人口关系复杂的变量难以刻画,或者与人口关系是否存在的变量难以确定等新问题。基于此,机器学习的人口估算方法应运而生,在数据中寻找规则,学习到人口数据与各种变量之间的复杂关系并变现出来。如一些较难刻画的人口与变量的非线性关系可以通过机器学习的算法实现,故而机器学习可以完美解决上述两个统计模型的遗留问题,是当前人口估算研究的前沿REF_Ref28251\r\h[3]。1.3研究内容与技术路线本节在总结前人研究经验的基础上提出让随机森林人口分布估算模型的研究基础理论和实现路线方法。1.3.1研究内容通过对人口估算办法理论和随机森林等集成学习算法的学习来对郑州市人口分布做一个有依据和理论支持的成果。大量搜集既往研究成果学习并综合研判,对自身研究论文做出理论补充和合理规划;分析客观事实并得出结论,对理论和技术部分做合理归纳并分析其因果关系并从而得到结论。1.3.2研究方法根据当前人口估算研究的办法,本文致力于运用常见的和尽可能简单的数据来刻画相对准确的郑州市人口分布。基于此,本文的研究内容如下;(1)本文运用POI数据、夜间灯光数据、行政区划数据等表述人口分布的变量数据并提取其特征,为接下来的机器学习建模训练建立估算模型提供数据支持。(2)运用随机森林回归算法,结合基于夜间灯光遥感影像、POI数据及街道区划数据构建的特征,将郑州市街道尺度实有人口数据作为验证数据,将数据按照8:2的比例分为训练数据和测试数据对人口估算模型进行训练和建立,使模型精度达到相对准确。最后建立一个结合多变量的郑州市人口估算模型,直接向模型输入变量,从而得到郑州市人口分布估算的结果。将模型输出的人口分布估算结果与普查人口数据做对比,并作出模型精度方面得评价。(3)评估人口估算模型中各个主要特征的重要性,以及各特征对最终得人口估算模型输出的人口估算结果所做出的特征贡献。1.3.3技术路线本文在提取到有关人口分布信息的特征数据之后,与实有人口数据合为原始数据集参与建立随机森林人口估算模型,具体技术路线如图1.1。图1.1技术路线图1.4本章小结本章首先阐述了人口数目及其分布与城市建设等方面的相互关系,指出其紧迫性和重要性,然后解释了人口分布估算模型建立的必要性和可行性,在其基础上总结了之前学者在人口估算方面的经验和方法,进而提出本次论文所采用的人口估算办法——随机森林人口估算模型以及其基理论和技术路线。第二章理论基础与研究数据2.1研究区概况本文选取郑州市作为研究区域。郑州市是河南省省会、特大城市、中原城市群核心城市。常住人口1260万人是河南省省会、特大城市、中原城市群核心城市,国务院批复确定的中国中部地区重要的中心城市、国家重要的综合交通枢纽,如图2.1所示,截至2021年,全市下辖6个区、1个县、代管5个县级市,总面积7567平方千米,常住人口1260万人,城镇人口987.9万人,城镇化率78.4%。2020年地区生产总值12003亿元。图2.1郑州市区划2.2理论基础2.2.1郑州市人口分布郑州市作为河南省省会,准确及时地获取其人口数据对城市建设和资源调配等方面具有深远意义。其人口主要分布于市区、市区东郊和新郑市,在市区北部和西部人口密度较低,关于郑州市相对准确的人口估算成果而查找过往研究资料发现,学者何克福和李娟从GDP影响人口分布的角度结合DMSP夜间灯光数据研究了郑州市的人口分布估算模型。但从其他角度或者更优的算法模型探究郑州市人口估算的课题还鲜有人涉足,而本文将基于前辈所做的人口估算工作经验提出了一种准确性更优的人口估算模型。2.2.2地理信息系统地理信息系统是强大的空间信息技术,其结合了地理学、遥感及计算机科学多学科,可以快速准确的输入、分析、查询、存储、输出地理数据因而在愈多领域取得了广泛的应用。依靠GIS技术可以对相关的研究对象进行空间特征的相关分析,其可视化的特点也可以对分析对象和输出结果做可视化表达,地理信息系统把这种独特的视觉化效果和地理分析功能和一般的数据库查询分析等操作集成在一起。从而让人更加直观的了解到相关内容,为相关决策和发展预测提供技术支持。基于地理信息系统强大的功能,本次论文运用地理信息系统分析处理了能够表现人口分布相关的夜间灯光数据和POI数据,完成了夜间灯光影像的亮度、坡度和曲率提取以及POI数据的合并分类工作,并根据随机森林人口估算模型的所需提取了上述数据在尺度上的特征数据。最后对人口估算模型输出的结果进行可视化分析。2.2.3随机森林算法随机森林算法是集成学习算法的一种,于1995年被最早提出,其源于bagging算法,随机森林顾名思义以“随机”和“森林”为特点,“随机”意思使对特征数据随机采样,“森林”的意思是组合多颗决策树,使各颗决策树的结果相互弥补从而避免了结果的局限性,使最终估算结果准确性更高。所以随机森林算法天然就比单一算法具有更高的精度,抗噪声能力和避免过拟合方面因为训练数据和随机数据的划分而产生两个随机性的引入也比一般算法更具优势。除此之外随机森林能够处理高维特征的输入数据并不需要降维,也能评估各个特征在问题上的重要程度以便于后续改进。尤其使在对各个特征数据与人口分布之间的关系不甚清楚的情况下,随机森林可以完美的避开这一点而建立相对准确的估算模型,是探究人口分布的优秀工具REF_Ref28402\r\h[7]。2.3数据来源本文使用的数据包括珞珈一号夜间灯光遥感影像、POI数据、郑州市街道区划数据、郑州市街道尺度实有人口数据和郑州市建筑物矢量轮廓数据。2.3.1珞珈一号夜间灯光遥感影像本文选用夜间灯光遥感影像可以变现人口分布的状况,其由于检测范围大以及时空分辨率高等优势正成为探测人类活动信息的关键数据。例如人口估算、建成区监测、GDP估算以及多个社会经济方面的监测。夜间灯光影像记录的灯光强度、曲率和坡度等信息与人口数量有正相关关系,过往的研究表明了夜间灯光和人口数量之间存在的关系,也开发了其他表征人口数据的变量结合夜间灯光数据估算人口分布数据的新方向。目前监测人口活动分布广泛使用的有DMSP/OLS和NPP/VIIRS夜间灯光遥感数据,这两种数据的空间分辨率相对珞珈一号存在不足,只能在较为宏观的角度来刻画人口。随着珞珈一号的升空,在空间分辨率方面取得较大提升,相比前两种夜间灯光数据,其更有利于反映小尺度省的人口分布估算。如表2.1所示对珞珈一号、DMSP/OLS及NPP/VIIRS三种数据的参数进行比较,可以看出在空间分辨率方面的区别。珞珈一号是武汉大学与相关机构共同研发的夜光遥感卫星,于2018年6月升空,弥补了我国在夜间灯光数据获取方面的不足。它是中国第一颗专注于夜间灯光遥感的卫星,也是目前国际上第三颗具备夜间灯光数据拍摄能力的卫星,具有重要的价值和意义。珞珈一号01星重量22千克,采用大相对孔径像方远心光学系统、大像元高灵敏成像器件等,珞珈一号改进前代产品以使其能够获取较高精度的夜间灯光影像。珞珈一号的夜间动态范围高达14位,空间分辨率约为130米,图幅为250公里,优于美国国防气象卫星。珞珈一号卫星可以为人口、GDP等社会经济指标、生态建设维护、城市建设以及公共卫生等多方面提供数据支持,使我国遥感卫星从地表检测转向社会经济发展检测具有重要意义。本次所用影像如图2.2所示,该数据在湖北数据与应用中心可以免费下载REF_Ref27954\r\h[1]。表2.1DMSP/OLS、NPP/VHRS和Luojia1-01参数对比DMSP/OLS NPP/VIIRS Luojia1-01发射机构美国国防部NASA武汉大学波长范围1992年-2013年2011年至今2018年至今轨道高度830KM830KM645KM空间分辨率2.7KM742M130M幅宽3000KM3000KM260KM重访周期12小时12小时15天在轨定标否是是图2.2郑州市夜间灯光遥感影像(珞珈一号)2.3.2POI数据POI数据中文翻译是兴趣点数据,其在地理信息系统中可以代表一个房子、一个公交站、一个商铺等地理实体,一般应用在导航地图中。而在人口分布估算的实验中,POI数据也是一项可以突出人口分布空间差异的数据,作为地理实体的一种抽象表征数据,无论是二维的、三维的、真实的、虚拟的,都能抽象成一个零维的点。另外POI数据还具有多种优势,例如数量多、信息丰富等都可以作为反映人口分布的输入数据用以弥补夜间灯光数据刻画人口分布的片面性。每个POI数据包含四方面信息,即名称、类别、坐标、分类,一般按照一级分类和二级分类与相应的行业或名称对应如表2.2所示。由于其特点和优势,POI数据被广泛应用于导航、城市结构和城市功能区分析等地理现象的研究REF_Ref28656\r\h[2]。本文所用POI数据来自数据云平台,如图2.3所示。是由中国科学院地理科学与资源研究所建立的数据中心,所采用郑州市POI点数据共计17万余。在研究区郑州市共提取到POI数据分为十余类,根据中国土地利用分类标准,将POI数据重新划分为商务住宅、商业服务、公共服务余交通运输共四大类,POI数据记录了这些地理实体的名称、地址、坐标以及类别编号。图2.3POI数据表2.2POI数据类别类别编号一级类别二级类别1商务住宅居民小区宾馆酒店餐饮服务购物广场2商业服务会展中心金融服务休闲娱乐公共设施3公共服务生活服务医疗服务运动健身政府机构4交通运输交通设施汽车服务2.3.3郑州市街道区划数据在建立估算模型和结果可视化的过程中,需要对学习数据做一个基本单元的分类提取与展示,故而本研究使用街道区划数据作为人口数据空间化的基底数据,数据采集于2019年,其记录了郑州市199个街道信息包含名称、编号、位置等字段。将作为影响人口分布的变量特征提取和人口空间分布可视化的基底数据来使用。数据来源于BIGEMAP地图下载器。2.3.4郑州市第六次人口普查数据随机森林建立估算模型需要真实数据作为建模前的学习数据和估算结果的验证数据,所以本文采用郑州市实有人口数据作为本实验中的机器学习输入数据和人口估算结果的验证数据,来源于国家统计局官网,从第六次人口普查数据中裁剪所得。记录了2010年郑州市各街道区划内常住人口数量,字段包括人口总数、男/女人口数、未成年人口数、成年人口数以及65岁以上人口数据。在后续的模型建立过程中,将实有人口数据作为模型的输入数据和估算结果的验证数据。本文所用人口数据及其字段如表2.3所示。表2.3郑州市实有人口数据字段名字段类型备注FIDString记录编码所属区县String记录所在区县名称所属街道String记录所在街道名称经度Double记录中心点经度纬度Double记录中心点纬度某年龄段男(女)人数Long记录特定年龄段特定性别人口数,如“男人/女人(四个字段)数”、“未成年数”等合计Long记录街道内常住人口数量2.3.5郑州市建筑物轮廓数据本文使用了建筑物轮廓数据作为建筑物特征,通过人工目视解译高分辨率遥感影像所得。郑州市共计12万余建筑物面状要素,包含面积、楼层、编号字段,删除面积为0的四千多个数据后投入使用。该数据来源于博文测绘GIS服务中心。2.4数据预处理2.4.1实有人口数据与行政区划数据匹配在随机森林建立人口估算模型的过程中,需要统一单元作为最终估算结果可视化的单位,并且需要各个单元的人口数据作为机器学习的输入训练数据和结果检验数据,所以在空间上两者需要达到一对一匹配的处理。而实际获取到人口数据有183个,街道区划数据有199个,并非一一对应,有的街道有多个人口点,有的街道无人口点。主要原因是(1)人口数据是2010年第六次人口普查结果,而街道区划是2019年的数据,十年来有一些新成立的街道未进行人口普查故而无人口数据,也有一些之前存在的街道改名或分解导致数据无法匹配;(2)人口数据和街道数据的统计单位不同,导致坐标不统一而出现人口点与街道面之间的偏移现象。以街道行政区划数据的空间位置为基准,经过两项处理使得人口点数据和街道数据建立一对一的关系。(1)对于无人口普查数据的街道根据互联网搜集最新人口数据或根据周边街道人口数据进行合理估算。对于存在人口数据但无对于街道面的点,选择删除;(2)对于人口点和街道面出现偏移的情况采用手动修改人口点坐标的方式平移至对应行政区面中心。经过这两项处理,实现了199个人口点与199个街区面的一一匹配。2.4.2特征提取在随机森林建立郑州市人口估算模型的过程中,决策树的生成和分裂都需要特征数据作为样本来采集。特征是某一类对象与其他类对象有所区分的相应特点,或这些特点特征的集合。对本次随机森林建立人口估算模型而言,需要提供不同单元的各个特征用于机器学习和训练。在特征选取之前,我们不知道每一个属性特征的重要程度甚至有用与否,为了使得最终的人口估算结果相对准确,本着应有尽有的原则,选取了与人口分布数据关联性各异甚至可能不相关的各种特征,以便于后续的模型训练和学习REF_Ref28728\r\h[4]。城市人口的数量及其分布一般偏向于环境良好、资源丰富的地区,与各种社会经济指标有较强规律。故而一般认为,通过观察夜间灯光数据,其亮度的强度和面积能够部分反映人类经济活动的强弱也能侧面反映出人类的分布情况,但人类的聚集是个复杂的分布,受多方面因素影响,例如房价收入比例、生态文明建设状况、地区发展前景等,所以在采用夜间灯光数据作为刻画人类分布的输入数据之外我们继续引入POI数据作为地理实体的分布来反映人类分布情况,这两类数据可以相对准确的反映出区域内人口的分布。图2.4夜间灯光影像坡度首先通过将夜间灯光遥感数据裁剪出郑州市范围,再运用地理信息系统得到其坡度和曲率数据,如图2.4所示为夜间灯光影像坡度,最后根据现有行政区划提取相应的灯光特征。对先前做好分类工作的POI点数据进行核密度处理,对得到的栅格数据同样根据现有行政区划提取至相应单元。最后选取了各行政区内的建筑物特征作为补充,数据有建筑物面积和高度。数据处理后得到共计二十多个特征。街道建筑面积、夜间灯光辐亮度MIN、夜间灯光辐亮度MEAN、夜间灯光辐亮度MAX、夜间灯光坡度MIN、夜间灯光坡度MAX、夜间灯光坡度MEAN、夜间灯光曲率MIN、夜间灯光曲率MAX、夜间灯光曲率MEAN、商务住宅MIN、商务住宅MAX、商务住宅MEAN、公共服务MIN、公共服务MAX、公共服务MEAN、商业服务MIN、商业服务MAX、商业服务MEAN、交通业务MIN、交通业务MAX、交通业务MEAN、*特征名称中的MEAN表示均值,MIN表示最小值,MAX表示最大值。2.5本章小结本章首先介绍了研究区域郑州市的基本情况以及所用人口估算方法的基本数据及其来源,着重介绍了各数据在模型建立过程中所承担的作用和贡献。之后介绍了数据处理方面的基本理论和处理的流程并得到了建立随机森林人口估算模型所需要的二十余个与人口分布有密切关系的特征变量。

第三章基于随机森林的人口估算模型3.1随机森林算法理论基础随机森林本质是是一种有监督学习的算法,是以决策树为基学习器的集成学习算法。在了解随机森林之前我们首先要指导集成学习的思想和其分支bagging算法。本次论文我们的目标是学习一个稳定且在各方面表现良好的模型,但现实往往不甚理想的得到多个在个别方面表现较好的弱监督模型。对此问题,集成学习算法就展现了优势,它将多个弱监督模型进行组合而使其成为相互之间错误能够得到弥补和纠正的强监督模型。严格来说,集成学习并不是一种分类器,而是一种分类器结合的办法,通俗的讲就相当于多个决策着决策同一件事,以期降低偏差、改进预测效果。对于集成学习算法的首要问题,个体学习器的种类的不同可以将他们分为同质和非同质。在同质学习器中,可以根据之间是否存在依赖关系而分为两类,bagging算法就是依赖关系不强的个体学习器算法之一。Bagging的基本思路是:当有一个训练集D,使用基于Bagging思想的算法在该训练集上进行分类或回归时,首先从中均匀、有放回地(使用自助抽样法)选出m个大小为rf的子集作为新的训练集。其次在这m个训练集上使用分类、回归等算法,则可得到m个模型,再通过取平均值、取多数票等方法,即可得到最终结果。当Bagging应用于决策树算法时,给定训练集X和目标Y。Bagging方法重复B次从训练集中有放回地采样,在这些样本上重复训练决策树模型,在训练结束之后,对未知样的预测可以通过对所有单个回归树的预测求平均来实现如果简单地在同一个数据集上训练多棵决策树会产生强相关的决策树,决策树之间的相似性较高。Bagging是一种通过产生不同训练集从而降低决策树之间关联性的方法。所有单个回归树的预测的标准差可以作为预测的不确定性的估计REF_Ref27954\r\h[1]。Bagging算法的子采样就是放回抽样,即每一次采集样本之后都在放回后有一定概率被继续采集,通常我们采集与训练集样本数一样的样本,这样我们得到的训练集和样本集的样本个数就相同而样本内容不同。例如采集Y次,则Y个采样集之间胡不一样。Bagging算法对弱学习器没有限制,最常用的一般是决策树和神经网络。因为随机采样的原因,该算法的泛化能力较强,但对于训练集的拟合程度就会差一些,也就是模型偏差较大。在理解bagging算法的基础上,我们就能很好的掌握随机森林算法。随机森林就是一个进化版的bagging算法,他们的思想是共通的,知识进行了特有的改进。随机森林的特点也是随机采样,随机采样就是从我们的训练集当中有放回的采集固定个数的样本,这就会导致有些样本被多次采集,而有些样本却没有被采集到,对于一个包括X各样本的训练集进行随机采样,任意一个样本被采集到的概率为1/X,不被采集到的概率为1-1/X,那么经过X次采样都没有被采集的概率为(1-1/X)的X次方,当X趋向无穷大时,(1-1/X)的X次方等于1/e,约等于0.368。通常我们把这些没有被采集到的约36.8%的数据被称为袋外数据,这些袋外数据没有参与训练集模型的拟合,因此可以用来检测模型的泛化能力REF_Ref28833\r\h[5]。图3.1随机森林原理随机森林相比于bagging算法,用决策树作为弱学习器,决策树是树状结构,可以用枝节和节点形象刻画决策过程和决策结果。其算法核心与上述一样是为了组合多个决策树以降低单一结果的片面性和提升预测的准确程度。其过程是首先随机有放回的抽取M个样本,共进行N次采样,从而生成N个训练集。对这N个训练集分别训练N个决策树模型,在单个决策树模型的每次分裂中根据其信息增益或基尼指数选择一个最好的特征进行分裂每棵决策树都依次分裂直到该节点的所有训练样例都属于同一类截止。通过袋外数据误差比对确定各个特征的重要性。随机森林就是生成的多颗决策树的组合,对于分类问题我们通常使用投票的办法投票法有考虑类别权重的复杂投票也有简单的相对多数投票。对于回归问题我们使用算术平均值或者考虑权重的加权平均值REF_Ref28934\r\h[9]。由于随机森林采样过程中对样本和特征都进行了随机引入,所以在抗噪声和防止过拟合方面相比一般算法有一定优势。本次模型实现流程如图3.1所示。3.2实现过程随机森林是一种特殊的bagging算法,与其他集成学习算法类似,都是对弱监督模型/决策树进行组合而得到预测效果更好的强监督模型。具体实现过程分为一下几个过程。(1)随机采样首先对样本数据按照8:2的比例划分为测试数据和训练数据。其采用随机选点的方式产生,保证了样本的随机性。同时也保证了样本数据在研究区域范围内的均匀分布,可以更有效的使模型学习到不同因子对不同地块的人口分布影响,使得模型更能反映人口的空间分布。之后对样本数据进行有放回的抽样参与训练,共计采集N次并由此构建N个决策树。在这个过程中不可避免的会有数据被多次采样,而有的数据没有被采样,假设训练集中样本个数为X,当X足够大时,我们可以推导出每个未被抽取的样本概率,大约为36.8%。这些没有被采样的数据被称为袋外数据,它们没有参与训练。(2)决策树分裂决策树分裂和样本采集类似,其分裂过程没有用到全部待选特征同样是采用无放回的在待选特征中选取。在单个决策树模型的每次分裂中根据其信息增益或基尼指数选择一个最好的特征进行分裂每棵决策树都依次分裂直到该节点的所有训练样例都属于同一类截止。至此构建森林和各个决策树建立完成。(3)参数调优初步建模完成后,将特征数据和比对数据按照2比8的比例分为训练和测试部分,训练数据作为输入参与到训练中。随机森林模型的训练实际上就是模型参数的调优,在众多不同组合产生复杂影响关系的情况下,唯有不断训练调整以得到适合我们问题的参数组合。随机森林模型的参数主要包括决策树参数(决策树深度、结点分裂最小样本数、最大叶子结点数、叶子节点最小样本数等)和随机森林框架参数(决策树个数等)两种。n_estimators:最大弱学习器个数(决策树个数)。默认值为一百,该参数决定了随机森林的复杂程度,值越大则决策树个数越多;max_features:寻找最佳分裂时考虑的最大特征数量。决策树在分裂节点时会根据衡量标准,比如基尼系数,考虑所有的特征,选择信息增益最大的特征进行分裂,但是这样比较耗时,特别是特征很多的时候。所以如果特征数非常多,我们可以只考虑的部分特征,以控制决策树的生成时间random_state:该参数控制随机状态。为了保证同样的算法模型在不同的训练集和测试集上的效果相同,所以该参数可以控制程序每次运行都对训练集和测试集作恒定划分。表3.1随机森林本模型参数最优取值参数名称scikit-learn参数名最优取值最大弱学习器个数n_estimators17最大特征数max_features100随机种子random_state21运用网格搜索法对待优化的参数进行调整,该实现过程是构建一个包括所有参数的所有取值范围在内的参数字典,再对每一个待优化的参数作一一尝试并寻求最优取值。其可以判断每一个参数的每个值对结果精度的影响,以求最终获得最优的参数组合。即模型训练结束。在调优参数的过程中,有的参数对模型整体精度和效率影响较大,本次模型得到这些参数的最优取值如表3.1所示。(4)分类与回归在将多个决策树组合成随机森林及模型训练结束之后,我们可以用随机森林模型对新的数据进行分类和回归预测。其中分类问题是根据各决策树输出结果的投票决定,若结果A决策树票数多于结果B,则最终结果为A,这类似于少数服从多数;而回归模型则是基于各决策树做加权平均值或者简单的算术平均值,值得注意的是,加权平均值由于权重估算不准确而并不一定比算术平均值更具优势。(5)重要性评价特征重要性是模型评估的重要环节,对于某个特征Y,其实现原理是先对每一颗决策树使用相应的袋外数据来计算它的袋外数据误差,再将其与加入噪声干扰的后的袋外误差做一个比较。若对某个特征而言,加入噪声之后,其袋外准确率大幅度下降,则证明该特征对模型影响较大,也就是重要性较高。通常我们使用变换后的预测误差与原来相比差的均值来反映特征重要性。3.3人口估算建模首先将第二章的二十余个特征和郑州市人口普查数据作为建模的特征数据和目标数据。并对其进行划分,本次实验按照8比2的比例随机选取了测试数据和训练数据REF_Ref28999\r\h[6]。Sklearn机器学习库包含各大类的模型以及数据处理函数,对初学者及其有帮助。运用Python编程语言和第三方开源机器学习算法库编写。使用各个参数的初始默认值构建初始模型,之后记录初始模型的精度、特征重要度和平均精确度减少值,并根据平均精确度较少值做特征筛选。某特征的平均精确度减少的越多,就表明该特征对模型精度提升的正向效应越强。代码实现如下:转换所有特征形式为float;随机对数据采样构建子集并选取最有特征;构造多个决策树并组合创建随机森林;用测试集完成测试并输出结果。由于本次建模选取特征较少,所以没有用初始模型按照特征重要性对特征数据做筛选。最终应用的特征如表3.1所示。表3.1选取特征建筑面积商务住宅MAX夜间灯光辐亮度MIN商务住宅MEAN夜间灯光辐亮度MEAN公共服务MIN夜间灯光辐亮度MAX公共服务MAX夜间灯光坡度MIN公共服务MEAN夜间灯光坡度MEAN商业服务MIN夜间灯光坡度MAX商业服务MAX夜间灯光曲率MEAN商业服务MEAN夜间灯光曲率MIN交通业务MIN夜间灯光曲率MAX交通业务MAX商务住宅MIN交通业务MEAN*特征名称中的MEAN表示均值,MIN表示最小值,MAX表示最大值.3.4人口估算结果上一节通过训练模型得到了预测效果较好的郑州市人口估算模型,该模型输入二十余个特征并输入郑州市各个街道的人口预测结果如图3.3所示。其中预测值如图3.2所示,R方=0.90,预测效果良好。使用地理信息系统和郑州市区划数据作为位置数据实现估算结果的可视化,结果显示郑州市人口主要集中于市区周边和新郑市,市区以西和东南方向人口密度较低,结果符合预期。图3.2预测结果图3.3人口估算结果3.5人口估算结果精度评价对估算结果与真实数据进行比较,将两者生成散点图如图3.4所示,观察可知绝大多数散点位于趋势线附近,位于下方的散点数多于上方的散点数,表明结果相对较为高估。模型估算结果得到判定系数呈现R方=0.90,总体精度良好。图3.4估算人口3.6本章小结本章首先对集成学习算法和决策树进行了解释,并详细描述了随机森林算法的原理。再此基础上勾勒出一个切实可行的实施过程并经过特征采集、数据训练,运用Python编程语言实现了估算模型的建立。最后对模型输入特征得到了估算结果,将真实数据于估算数据进行对比得到判定系数R方=0.90。总体精度良好。第四章模型解释与分析上一章描述了集成学习和随机森林算法的理论基础与实现的过程,运用第二章所建立的特征数据训练构建了一个郑州市的随机森林人口估算模型,经过与人口普查数据比较分析,对预测结果和模型精度做出了评价。本章继上一章的基础上对模型进行解释分析,从而找到误差产生的原因,一般而言,当决策树的特征数量和深度、数量较大时,森林结构也会趋于复杂,即使对于一颗深度为10的决策树,分析表述也是极其困难的。该算法相当于一个黑匣子,在特征数较大的情况下不具有解释分析的可行性。因此我们了解随机森林内部机制通常是利用其袋外数据错误率得出的特征重要性和基于决策路径特征值的特征贡献方面来刻画。本章也将从这两个方面来对模型进行解释分析REF_Ref29071\r\h[8]。4.1特征重要性分析特征重要性,就是描述特征数据对模型估算结果所产生影响的重要程度,也能够反映出该特征在特征库中的重要程度,属于模型解释分析的重要指标之一。一般而言特征重要性的计算是通过比较某特征在每颗决策树的袋外数据误差和随机添加噪声后的袋外数据误差来评价该特征对模型影响程度,弱加入噪声后,其袋外准确率大幅下降,则表明其影响较大,也即重要性较高。在随机森林的特征选择和模型解译过程中,特征重要性是一个十分重要的指标。一个特征的特征重要性既可以反映出该特征对于模型预测结果起到的效果,同时也可表示出该特征在多维特征库中的重要程度。特征重要性表示当模型特征库中的某特征序列被加入噪声干扰时,对模型精确度的影响程度。特征重要性的计算是基于每次有放回抽样的过程中始终未被采集的大约三分之一的数据,这些数据被称作袋外数据。由于其没有被采样,所以这些数据也没有参与建立决策树,故而模型可以通过计算袋外数据误差进行模型预测结果的精度评价,故而在做模型的精度评价时候,可以通过计算袋外数据的误差来进行。这种对模型精度进行评价的方法称为袋外估计法。特征重要性的计算思路如下:对随机森林中的决策树利用其袋外数据计算误差;计算随机对袋外数据的所有样本特征加入噪声干扰后的误差;比较两个误差的出最终特征重要性排序。如图4.1可视化了随机森林人口分布估算模型的特征重要性。可以看出建筑物面积是重要性最高的特征,达到了0.23,表明其对模型估算结果影响最大。影响最小的是坡度MAX,对模型精度影响可以忽略不计。其他值得关注的重要特征有商业服务POI核密度平均值商业服务MEAN、公共服务POI核密度平均值公共服务MEAN、商务住宅POI核密度平均值商务住宅MEAN、夜间灯光数据坡度最小值坡度MIN、商务住宅最大值商务住宅MAX和商业服务最大值商业服务MAX。其特征重要性均超过0.05。图4.1特征重要性4.2特征贡献分析特征重要性是从总体的角度评估各个特征数据对模型最终预测结果的贡献,而在更精细的尺度上,例如基于特征值、分地块等方面评估特征重要性会得到不一样的结果,对提升后续模型精度的工作上,特征贡献分析比特征重要性更为关键。本文将从特征值方面来评估主要特征数据的特征贡献。4.2.1特征贡献分析原理我们通常把决策树从生成到输出结果的路径成为决策路径,每一次结点的分裂就是一次特征主导的决策。我们通过观察决策树的每一次结点分裂对最终模型预测结果的增强或削弱影响及它们在不同类别样本中的分布可以得出每个特征到底对最终输出的人口分布结果产生什么样的作用及效果REF_Ref27954\r\h[1]。了解决策贡献之前先要清楚一个基本理论,即在模型中的一个学习器训练的过程中,对每一个最终所得的结果而言,都有确定的一条从初始点到最末端的决策路径。决策路径的每一次决策就是一次树的划分,其受到一些由特征所主导的决策产生,每一次树的分裂都会对最终结果产生积极或消极的影响。随机森林可以依据决策路径生成基于个体样本的特征贡献序列,通过观察特征贡献在空间和不同类别样本中的分布,可以了解到各个特征对于每个样本的人口估算结果起到了什么作用。如果特征贡献为正,表明该特征对人口数量有增加的效果。反之,如果特征贡献为负值,则表示该特征降低了人口的估计值REF_Ref27954\r\h。在完成回归树的构建后,回归树中的每一个子结点均通过某个特征与父结点建立了联系,这种联系进而不断上溯到根结点。根结点的估计值是所有样本因变量的平均值,每一个子结点的估计值都是在父结点估计值的基础上发生一定程度的增益或者损失。从父结点估计值到子结点估计值的增益或者损失即为特征对父结点划分产生的贡献,称为特征贡献。当发生增益时特征为正,当存在损失时特征贡献为负。随着回归树深度不断增加,结点不断分解,估计值越来越接近目标值。具体每个特征的最终贡献取决于它经过的决策路径和结点,增强为正,削弱为负,结果等于经过结点的贡献之和。4.2.2基于特征值的特征贡献分析观察对模型的特征重要性较高的建筑物面积、商业服务MEAN、公共服务MEAN和商务住宅MEAN随着特征值变化的特征贡献变化。观察散点图发现与人口分布关系紧密的几个特征,如图4.3所示,郑州市建筑物面积、商务住宅核密度均值随着特征值的增加而增加,变化的趋势较为明显。特征贡献随公共服务POI核密度均值的增加总体呈现上涨趋势,商业服务POI均值的特征贡献变化趋势相对较缓。如图4.2所示,夜间灯光辐亮度MEAN对特征的贡献比较不同,总体上随着特征值增加,特征贡献是下降的。按地域分地段分析,夜间灯光辐亮度均值MEAN特征在模型的特征优选过程中在住宅区是正向影响,在其他地段影响相反。这表明在一些公共设施和灯火通明的公路上,灯光强度并不能很好的代表人口聚集程度。图4.2夜间灯光亮度MEAN特征贡献图4.3建筑物面积特征贡献4.3本章小结本章探寻了人口分布估算模型的特征重要性和特定值的特征贡献。首先介绍了特征重要性性地基础理论和计算办法,然后解释分析了本次实验建立的人口分布估算模型的特征重要性,通过可视化观察结果,得出郑州市建筑物面积特征的重要性最高,达到了0.23,夜间灯光数据坡度MAX的特征重要性最低的结论。第二节简要介绍了模型特征贡献的基本理论和方法,进一步分析了特征值方面的特征贡献,得到郑州市建筑物面积随着特征值的增大而总体增大,夜间灯光辐亮度MEAN随特征值的增大而较小的结论并解释了其原因。第五章结论与展望5.1研究结论本文运用机器学习之中随机森林算法和夜间灯光、POI等于人口分布息息相关的数据建立郑州市人口分布估算模

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论