不动产数据批量化整合工艺的研发-电建昆明院经纬QC小组成果报告-昆明院2019年度_第1页
不动产数据批量化整合工艺的研发-电建昆明院经纬QC小组成果报告-昆明院2019年度_第2页
不动产数据批量化整合工艺的研发-电建昆明院经纬QC小组成果报告-昆明院2019年度_第3页
不动产数据批量化整合工艺的研发-电建昆明院经纬QC小组成果报告-昆明院2019年度_第4页
不动产数据批量化整合工艺的研发-电建昆明院经纬QC小组成果报告-昆明院2019年度_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

不动产数据批量化整合工艺的研发中国电建集团昆明勘测设计研究院有限公司经纬QC小组二〇一九年三月目录TOC\o"1-2"\h\z\u一、小组概况 3(一)小组注册情况 3(二)小组成员情况 3(三)小组活动情况 4二、P阶段(计划阶段) 5(一)课题选择 5(二)目标及可行性分析 8(三)提出方案并确定最佳方案 910(四)制定对策 1415三、D阶段(对策实施) 1516(一)开发数据库批量导入导出工具 1516(二)异构数据融合 1820(三)楼盘整理 1921(四)基于贝叶斯的楼盘与业务数据关联 2021(五)属性字段自动完善 2223(六)整体流程测试完善 2224四、C阶段(效果检查阶段) 2324(一)目标实现情况检查 2324(二)实现效益检查 2627五、A阶段(总结阶段) 2729(一)标准化 2729(二)总结和下一步打算 2831一、小组概况(一)小组注册情况表1小组注册情况表小组名称经纬QC小组课题名称不动产数据批量化整合工艺的研发课题类型创新型课题组长廖丽敏小组成立日期2008年4月20日本课题注册日期2018年4月小组注册编号2008-036(二)小组成员情况小组成员组成情况见表2:小组成员情况表。表2小组成员情况表序号姓名职务年龄职称组内职务文化程度组内分工1廖丽敏/27工程师组长硕士全面负责小组工作2吴弦骏副主任工29工程师副组长硕士负责资料分析和方案制定3黄天勇总工44教高组员本科方案审查4栾有昆分院副总工47教高组员本科方案制定5郑江室主任45高工组员硕士方案审查6闻平院长助理36高工组员硕士方案审查7谢飞/31高工组员硕士数据处理8王冲分院院长53教高组员硕士方案审查9杨勇喜/30工程师组员硕士数据处理10杨洁/35工程师组员本科方案审查11王媛副室主任53高工组员本科协助实施12王莹/26工程师组员硕士数据处理小组成员由领导干部、技术人员和操作人员共12人组成。(三)小组活动情况小组本课题活动情况见表3。表3本课题小组活动情况表活动时段2018年4月~2018年12月活动次数8次每次活动平均时间3小时平均接受TQC教育50小时以上出勤率100%二、P阶段(计划阶段)(一)课题选择1.课题背景长期以来,由于登记数据的分散化管理,土地、房屋、矿产、林业等部门都拥有不同类型的登记管理权限,致使各不动产存量数据的存储形式和位置都存在“碎片化”现象。为整合不动产登记职责、建立不动产统一登记制度,需要快速、准确地将不动产登记数据进行整合并建立不动产登记成果库。2018年3月,我单位中标昆明市五华区不动产统一登记数据整合项目,该项目有如下特点:1.体量大,房产整合量约为70万户。2.技术难度高,数据复杂,需要大量人工干预。3.工期紧,该项目要求在2018年内验收完成。技术总包单位提供了相关的技术路线与整合软件,以户为单位进行人工补录,预计至少投入150人,效率低下,难以完成项目任务。经小组调查,自不动产统一登记工作开展以来,诸多学者针对不动产数据整合的关键技术、应用实践、图形与属性一体化建库等进行了研究与探讨。然而,现有研究大都是基于“户”为单位进行房地数据整合,依靠人工进行数据关联和信息补录,缺少批量化处理思路,耗费大量人力成本,数据整合的整体效率和质量低下。图1传统不动产数据整合方式核心问题制图:廖丽敏校核:吴弦骏2018年5月2日小组进一步对现有技术路线的整合效率和各环节耗时进行了统计,结果表明整合效率平均为45户/人/天,而提取融合、楼盘整理、数据关联、属性完善这四个环节耗时最长。表4现有技术路线各整合环节耗时统计图整合环节外业调查提取融合楼盘整理数据关联属性完善档案核对图形落宗质检入库平均1人整合1万户所需天数3.5644.4429.7863.1162.668.895.334.44耗时占比1.6%20%13.4%28.4%28.2%4%2.4%2%图2现有技术路线各整合环节耗时占比饼分图制图:杨勇喜校核:谢飞2018年5月5日针对数据关联环节,小组人员通过抽查统计2000户数据现有关联字段的质量情况,发现现有的关联字段存在920户(46%)缺失和100户(5%)的错误,不能直接使用,需要人工逐户进行判断关联,严重影响整合效率。因此,解决以户为单位的低效整合技术以及人工逐户判别的低效不动产数据关联方式,是本课题识别的两个需求点。2.借鉴查新针对需求,小组成员集思广益产生了几点思路:其一,由于同一小区的房屋属性具有同质性,因此是否能以“小区”为单位进行批量化整合?本部门曾承担大理市土地权属信息整理工作,以村委会为单位,通过开发软件,实现各地块各户属性信息的自动匹配和在不同表格之间的传输,与人工填写入库相比,此工艺将入库效率由36户/人/天提升至189户/人/天。因此本课题可借鉴此方案,通过总结算法编写软件,实现以小区为单位的不动产数据批量化整合。其二,是否可以充分利用现有关联字段和其他字段信息,自动化楼盘与业务数据关联?小组成员带着疑问查阅了大量资料,在其他领域找到了可以借鉴的应用案例,即贝叶斯概率模型在医学诊断中的应用。如何判断一个人是否患了SARS,利用工作性质、近期活动范围判断出同类人群中的发病率作为先验知识,利用此人的血压、血脂、体温等信息作为观测值,通过贝叶斯概率模型推断患病的后验概率,准确性达80%以上。小组成员由此获得启发:以现有的不完备的关联信息作为先验知识,以其他信息如坐落和所在层数作为观测值,基于贝叶斯概率模型进行自动化楼盘与业务数据关联,通过编写软件实现以小区为单位的不动产数据批量化整合。针对此思路,小组成员在网络上和查新机构进行了科技查新,结果表明一整套以“小区”为整合单位,基于贝叶斯概率模型的不动产数据自动关联等不动产数据整合工艺为国内首创!图3科技查新结果制图:吴弦骏校核:闻平2019年1月7日因此通过识别需求和借鉴查新,小组选择了创新型课题《不动产数据批量化整合工艺的研发》。(二)目标及可行性分析1.设定目标经小组讨论决定,将本次活动的目标设定为:研发以“小区”为单位的不动产数据批量化整合工艺,使得整合效率平均达到150户/人/天,详见图4:目标柱状图。图4目标柱状图制图:杨勇喜校核:吴弦骏2018年5月23日2.目标设定依据本次QC活动的目标设定的依据为:(1)技术可实现性1)传统数据整合过程中存在大量重复性的人工操作,若编写程序自动化整合处理,则可节省大量人力和时间。2)同一个小区房屋属性具有同质性,以小区为单位进行批量化整合具备一定的理论基础。3)小组人员业务素质高,创新能力强,多位组员具备开发程序的能力。(2)目标量化依据1)由借鉴数据可知,通过开发软件可将信息整理入库的效率提升5.25倍。本课题在原来技术路线基础上,通过批量化和自动化的内业数据整合处理,综合考虑为批量化生产而新增的准备工作耗时,预计可将提取融合、楼盘整理、数据关联及属性完善这四个重复性人工操作环节的合计耗时占比由90%降至20%,从而使得整体耗时可缩减为活动前的30%1.6%+20%+4%+2.4%+2%=30%①图5各环节耗时占比图制图:廖丽敏校核:闻平2018年7月2日原整合效率为45户/人/天,经计算,活动后效率可达到150户/人/天.4530%因此,目标可实现。(三)提出方案并确定最佳方案1.提出总方案小组成员运用头脑风暴法,对总方案展开讨论,形成了基于现有技术路线改进,和研发新工艺两种总体方案,利用亲和图整理如下:图6研发总方案亲和图制图:王莹校核:王媛2018年7月2日通过测试和专家分析,两种总方案的优劣如表5:表5总方案对比表评价指标一、基于现有技术路线改进二、研发新工艺技术难度现有软件平台非开源,要找到改进结合突破口非常难。相对容易研发周期大约2周大约3周测试过程以数据提取、楼盘批量新建和属性完善这三个功能为示例,基于现有软件,开发小工具基于原有整合软件进行辅助生产。以数据提取、楼盘批量新建和属性完善这三个功能为示例,开发新软件进行批量化处理。测试结果难以摆脱以户为单位整合的底层框架,需要在多个应用来回切换,人工干预量大;此三项功能实现效率约为210户/人/天。应用更简便,更自动化;此三项功能实现效率约为530户/人/天。票选结果淘汰100%选择通过投票选择,100%的小组成员选择方案二,因此小组选择总方案——研发新工艺。2.方案分解为了细化和实施总方案,小组成员对其进行分解。研发新工艺,首先涉及到数据库操作方式的选择,其次是不动产数据整合处理环节,包含异构数据融合、楼盘整理、基于贝叶斯的楼盘与业务数据关联以及属性自动完善四个功能模块。图7方案分解图制图:廖丽敏校核:吴弦骏2018年8月2日(1)数据库操作方式选择表6数据库操作方式对比表方案名称一、基于原始oracle数据库操作二、以小区为单位批量导入导出操作难度难。经调查,30位内业人员中有27位对SQL语言不熟,并且短时间无法掌握。简单。所有内业人员均掌握Excel操作方法。数据安全性不安全,多人操作容易造成数据库混乱。安全运行效率低。几十G数据联动操作造成卡顿,每查询一次平均需要9秒。高。由于数据量小,无卡顿现象。结论淘汰选择在操作难度、数据安全性以及运行效率上,方案二均优于方案一。综合考虑项目管理和质量把控,小组选择了方案二,以小区为单位批量导入导出。(2)异构数据融合方式选择表7异构数据融合方式对比表方案名称一、以日常数据为基准二、以存量数据为基准时效性日常数据为2016年后登记办证使用,时效性强存量数据时效性差权威性日常数据ID与住建ID一致,具有权威性,后期不需要修改存量数据ID与住建ID不一致,后期需要修改,耗时耗力完备性日常库字段100%覆盖生产库字段存量库字段100%覆盖生产库字段结论选择淘汰同样具备100%的字段覆盖率,日常数据时效性更强,其数据ID具有权威性,因此小组选择以日常数据为基准,将存量数据融入日常数据中,补充和完善日常数据。(3)楼盘整理方式选择表8楼盘整理方式对比表方案名称一、基于档案信息整理二、基于外调信息整理准确性风险无风险,能确保楼盘信息与档案信息一致存在外调错漏的风险效率效率低,受制于档案收集的效率。档案每日收集扫描5000户,至少需140天才收集完备。整个小区楼盘信息一次性搭建完备,效率高可实施性在数据关联前,无法收集到该小区所有档案,使得批量数据关联进程无法进行,不可实施。可实施,有利于批量数据关联。结论淘汰选择基于外调信息整理有利于效率推进,但是它存在外调错漏的风险,针对此风险,小组设计了严密的外调组织工艺,将2000户档案与外调成果对比,外调错漏率为0%。图8外调工艺成果图制图:谢飞校核:闻平2018年5月2日兼顾质量和效率,小组选择基于外调信息进行楼盘整理。(4)楼盘与业务数据关联方式选择表9数据关联方式对比表方案名称一、以最大概率关联二、设定概率阈值辅以人工判别描述将最大概率的关联视为正确的关联。以最大概率进行关联,当关联的后验概率低于设定阈值,则辅以人工核对。效率完全自动化,不需要人工干预,效率极高需少量人工核对,效率较高准确性前文借鉴案例中准确性为80%以上,即存在错误的风险。因此当关联的后验概率比较低时,准确性欠佳准确性强结论淘汰选择本着质量第一的原则,小组选择设定概率阈值辅以人工判别进行数据关联。方案选定后,小组对整体方案进行了梳理,形成了如图所示的最终方案。图9最终方案示意图制图:吴弦骏校核:闻平2018年8月8日(四)制定对策根据最终方案,小组成员按照“5W1H”原则制定了对策表。见表10:对策表。表10对策表序号对策目标措施负责人完成时间1开发数据库批量导入导出工具实现从数据库中以“小区”为单位的所有表格的完整导入导出,正确率达到100%。1.梳理各表格之间的逻辑关系;2.开发软件,实现根据逻辑关系从oracle数据库中导出涉及该小区的所有表格。保振永2018.42异构数据融合以日常数据为基准,将存量数据与日常数据融合,融合正确率达100%。1.数据库格式转换2.将存量库数据融入日常库数据中。廖丽敏2018.43楼盘整理将楼盘数据整理成与外调获得的真实楼盘结构一致1.用分支图将楼盘结构可视化2.根据外调信息,通过修改、删除、重新挂接等方式进行楼盘整理和批量新建。廖丽敏2018.44基于贝叶斯的楼盘与业务数据关联1.实现基于贝叶斯概率模型的业务数据与楼盘数据自动关联2.自动关联正确率达到95%以上3.人工核对后正确率达100%。1.研究算法2.实现算法并检查效果吴弦骏2018.55属性字段自动完善1.将所有表格数据中包含的信息以及可以挖掘到的信息进行交互自动整合完善2.将属性完善耗时缩减90%。1.总结算法2.字段属性自动填充吴弦骏2018.56整合流程测试完善确保不动产数据批量化整合工艺顺利实施。用不同的数据分环节进行测试,最后再整体测试,根据测试结果对过程进行修改完善,实现不动产数据整合总体目标。谢飞2018.5制表:廖丽敏校核:吴弦骏、郑江2018年7月20日三、D阶段(对策实施)(一)开发数据库批量导入导出工具根据日常库、存量库、生产库共计36类表格间的内在逻辑关系,总结算法并编写程序,实现从ORACL数据库中以小区为基本单位批量导入导出,导入前质量检查,快速清空、备份和还原特定服务器的数据。图10各表逻辑关系图制图:保振永校核:闻平2018年9月2日图11导入导出程序界面图制图:保振永校核:闻平2018年9月2日以小区为单位的数据批量导出后,数据组织形式如图12所示:图12导出数据组织形式示意图制图:保振永校核:闻平2018年9月2日图13导入导出log文件制图:保振永校核:闻平2018年9月2日根据log文件统计,数据批量导入导出成功率为100%,对策目标实现。(二)异构数据融合1.数据库格式转换对于同一种表格,存量库和日常库中字段结构、字段顺序以及完整度相异,因此融合的第一步就是要制定生产库字段标准,然后将日常库和存量库中的表格调整字段顺序,输出为生产库格式,这就实现了数据库结构的统一。2.楼盘表批量融合楼盘数据通常包含5种表格,分别是项目(小区)、自然幢、逻辑幢、层和户,其逻辑关系如图16。对于存量库中的楼盘数据与日常库中的楼盘数据,若存在存量库某户(XMID1,ZRZID1,LJZID1,CID1,FWID1)与日常库中某户(XMID2,ZRZID2,LJZID2,CID2,FWID2)的唯一标识符一致,则将两者判定为现实中的同一户。自此,可得出存量库与日常库中这五个字段的映射关系,将存量库中所有的XMID1,ZRZID1,LJZID1,CID1,FWID1改为对应的XMID2,ZRZID2,LJZID2,CID2,FWID2,合并后再将各表主键重复的记录删除,从而实现了该小区楼盘数据的融合。图14楼盘结构图制图:廖丽敏校核:闻平2018年9月5日3.业务数据融合首先将各表的存量库数据和日常库数据进行合并,然后根据各表主键,保留日常库内容,并用存量库的内容补充完善日常库缺失属性,从而实现业务数据的融合。以2000户数据作为测试,经人工检查和统计,异构数据融合正确率达100%,对策目标实现。(三)楼盘整理在存量库中,大量业务缺失相应楼盘或相应楼盘混乱,直接影响挂接关联。针对此问题,本课题首先对小区的楼盘结构进行外业调查,弄清该小区每个自然幢的逻辑幢、单元数、层数、户数之间的实际关系以及相关的属性信息,然后利用可视化界面展示楼盘结构,根据外调信息,通过挂接、融合、删除、继承等多种方式对楼盘数据进行整理和批量新建。当业务数据关联后,每一户的业务信息也可展示于窗口之中。对策目标实现。图15不动产数据整合软件界面图制图:吴弦骏校核:栾有昆2018年9月5日(四)基于贝叶斯的楼盘与业务数据关联在统一办证前的存量库中,两者缺失大部分关联关系。为了使得所有登记业务挂接于具体楼盘,从而进一步分析同一户的上下手关系,需要将所有业务数据与楼盘数据进行挂接关联。由于各种复杂的历史原因,在关联两部分数据的时候存在如下问题:(1)房屋登记数据与楼盘表户数据缺失部分关联,有的房屋登记数据未关联到户上;(2)房屋登记数据与楼盘表户数据部分关联错误,有部分房屋登记数据未关联到正确的户上。为了解决上述问题,传统的整合方法是分析房屋登记数据中的房地坐落字段,并根据其坐落将其关联到户表中对应的记录上。传统的整合方法以单条房屋登记业务数据为基本单位,根据单条业务数据的房地坐落信息,人工从中提取诸如项目名称、自然幢名称等关键信息,然后在楼盘表中采取模糊搜索的方式找到对应楼盘,依据户表中的户坐落信息人工判别该业务记录是否属于该户,并通过不动产单元号或者房屋ID建立两者之间的关联关系。这种基于单笔业务、仅基于坐落信息的关联方法具有一定的可行性,但同时存在着很大的缺陷,即在具体的实施过程中,需要大量的人力资源供应,并且耗时耗力,直接影响到项目的生产进度。因此为提升不动产数据整合效率,亟需寻找一种新的关联方法,快速的、批量的实现房产登记数据与楼盘表之间的关联。本课题提供了一种在不动产数据整合过程中,用于关联房产登记业务数据与楼盘表的方法。该方法以部分缺失的楼盘表数据、和楼盘关联关系不完整且存在部分错误关联的房产登记数据为整合对象,以房产登记数据和楼盘表对应户的初始关联关系计算关联状态的先验概率,以房产登记数据和户之间的坐落匹配度、建筑面积一致度、总层数一致度、所在层一致度、其他登记数据冲突度等为作为观测值,进一步辅助判断房产登记数据和某户是否关联。观测值的选取可视不同地区数据库标准而定,本课题选取的5个观测值均以昆明市不动产统一登记存量数据整合工作为例。本课题结合此5项观测值,采取贝叶斯后验概率模型对原始数据关联情况进行深度分析,实现房产登记数据和楼盘表户表的批量关联。图16贝叶斯概率模型求解关系图制图:吴弦骏校核:郑江2018年9月6日第i条业务数据和第j条户信息的关联状态的后验概率为:P两者间关联的后验概率为:P=两者间不关联的后验概率为:P=以2000户数据作为试验,试验证明,该对策实现了楼盘与业务批量化自动关联,1922户(96.1%)首次自动关联正确;人工核对后正确率达100%,对策目标实现。(五)属性字段自动完善楼盘与业务关联后,同一户的所有登记记录及上下手关系得以明晰,各登记业务数据中的空缺属性字段可利用同一户的其他业务数据的相关字段进行补充完善,该户相关的所有表格属性可以交互推断补充完善。如图所示,可以根据权利人和登记时间信息推断出登记簿状态、登记类型、共有方式等字段。图17属性关系梳理图制图:吴弦骏校核:郑江2018年10月2日通过数据关联、逻辑梳理与属性互补,大部分信息得到完善。经调查,2000户每户105个共210000个必填字段属性中,原始资料空缺属性有174302个,经程序,163807个属性被自动填充,填充率由17%提升至95%,后期只需根据档案核对补录证件号等信息。以一人整合,此环节耗时由12.5天缩减为1.1天,仅为活动前的8.8%,对策目标实现。(六)整体流程测试完善当以上批量化环节实施成功后,小组对不动产数据整合的完整流程进行了测试并修改完善,最终实现了业务落户,户落幢,幢落宗,宗落图的总体目标,不动产数据批量化整合工艺测试实施成功。图18整合流程图制图:吴弦骏校核:栾有昆2018年9月7日四、C阶段(效果检查阶段)(一)目标实现情况检查本次活动形成的工艺成功应用于昆明市五华区不动产统一登记数据整合项目,取得了非常可观的成效。表11一人整合10000户不动产数据所需时间对比(天/人):外业调查提取融合楼盘整理数据关联属性完善档案核对图形落宗质检入库汇总活动前3.5644.4429.7863.1162.668.895.334.44222.22活动后3.569.7410.2414.305.618.895.334.4462.11图19目标完成情况检查图制图:廖丽敏校核:闻平2018年11月2日以一人整合一万户所需时间作为比较,活动前需要222天,活动后仅仅需要62天;活动效率由45户/人/天提升至161户/人/天,大于目标期望值;同时,通过计算机处理,避免了人工差错,提高了数据整合的科学性和严密性,因此整体目标圆满完成。此次活动形成的工艺成功应用于昆明市五华区不动产存量数据整合项目,过程中形成了两个软件,并获得了两个相应的软件著作权。此外,小组成员对本次QC的成果进行总结提炼,一篇文章《不动产存量数据批量化整合关键技术研究》已发表于《国土资源信息化》期刊,并在水利水电测绘信息网学术交流会上获得优秀论文荣誉。目前,基于贝叶斯的不动产数据关联方法正在申请发明型专利。图20软件著作权制图:吴弦骏校核:郑江2018年11月30日图21优秀论文荣誉制图:吴弦骏校

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论