版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
集中化经分外部数据获取研究项目
软课题技术方案目录
数据获取研究项目背景和理解1
软课题项目工作内容2亚信相关研究成果介绍3项目投入资源与成果4集中化经分外部数据获取研究项目背景虽然内部数据积累了众多数据,但是必须结合外部数据才能更好的对内部数据进行深
入的洞察,才能真正发挥数据的价值!B域数据O域数据其他数据(外省)其他行业数据大数据分析指导活动黄页信息网页信息终端信息如:用户的去超市购物的行为与天气的关系,机场航班的延误及机场的人流与航班时间点的关系,用户的手机到底是阅读什么类型的书籍,这些类型的数据在我们的上网日志和位置信令是无法分析得到的,而丰富的互联网的各类信息可以通过爬虫获取或者外部获取数据,并用来指导我们的大数据分析生产活动。中国移动启动外部数据获取的试点工作外部数据类别外部数据内容试点省份手机信息获取(终端品牌、型号、价格、商品页面更新时间、销量)天猫手机商品信息广东京东手机商品信息重庆华为等手机厂商自有网站商城的手机商品信息陕西苏宁易购手机商品信息福建国美在线手机商品信息河南一经终端信息库补充终端品牌、型号、TAC、操作系统山西、黑龙江福建、河南黄页信息获取全网12580黄页数据信息江苏航班信息获取航班号,起飞时间,到达时间、出发机场、到达机场河北内容类商品信息获取阅读类商品信息重庆、陕西动漫类商品信息福建、陕西第5页
结合中国移动经分系统的发展规划,和收集到的外部数据获取及管理的需求,对外部数据获取进行调研,选择合适的产品和方案进行对比分析,选择合适于中国移动的架构。在此基础上,对外部数据产品进行明确内容,并且与外部数据管理形成两级级联的数据对内对外共享平台,可以构建基础的数据链接工具,作为数据连接的基础设施和中介管理机构,使得彼此的数据互动变得容易。外部数据获取及管理集中化经分江苏分公司黄页信息数据接口京东手机信息天猫手机信息手机信息获取终端信息库山西分公司…….……..全网外部数据共享服务及管理华为手机信息黑龙江分公司……手机信息省份分公司专业公司江苏分公司山西分公司……分公司本次项目的价值和理解目录数据获取研究项目背景和理解1软课题项目工作内容2亚信相关研究成果介绍3项目投入资源与成果4调研确定中国移动经分系统对外部数据获取及管理的需求调研外部数据获取及管理的案例调研调研互联网公司和其它电信运营商的外部数据获取及管理产品和架构基于两级级联的外部数据获取及管理技术方案提供外部数据获取及管理工具原型进行验证提供获取外部数据形成标准数据产品标准本次软课题整体内容的理解项目研究方案:本次软课题项目建设思路项目启动:确定业务目标与技术目标,工作范围网罗知识:(1)国内外厂商调研。
(2)省公司、专业公司书面调研。
(3)总部及省公司、专业公司现场调研。需求梳理:将通过与领域专家的交流,获取了在其他解决方案中成功解决的需求。整合进入本课题的研究需求文档。需求做原型:网罗知识中发现的新需求,将通过为需求做原型的方式,检查与软课题研究目标的一致性并发现其中的潜在需求。需求整合:根据网罗知识的结果,软课题研究小组将通过集中讨论,确定了需要进行研究的需求文档。形成最终研究报告的第一版大纲。质量审核:在小组每一次集中过程中,将通过小组讨论确保了软课题报告的质量。分析设计建模:根据已明确的研究方向,软课题进入实质分析、设计、建模阶段。在此阶段中,将提出流处理应用技术建议书软课题研究反馈:提交本次软课题相关输出成果。
调研互联网公司产品和架构从数据管理集中度和数据来源两个角度,对市场现有数据共享和交换平台进行分析。数据来源第三方混合自有数据管理集中度分散混合集中京东万象Quandl数据联盟P2P方式的数据管理数据需要采集到集中的IT平台上管理DatamarketQlik晶赞UMADataHub.ioapigeefactual数据堂中关村数海AzureMarketplacexignitepremisegitHub百分点九次方新科兰德聚合数据上海晶赞科技发展有限公司(简称晶赞科技),成立于2011年,是互联网专业数据服务供应商(ProfessionalDataServiceProvider,PDSP)UMA是一个基于创新技术的联合营销平台,是中国互联网业具有品牌影响力的优质受众营销联盟。截止2013年,UMA已覆盖中国80%的互联网用户,月活跃用户数达7亿。晶赞科技为该联盟搭建的UMA大数据平台是一个集标签、归类、机器学习于一体的自动化平台。这平台只提供数据共享。Quandl成立于2012年,是加拿大科技公司,公司集成了上百家企业数据。通过统一配置及管理,方便数据用户得到他们想要的数据格式。Quandl提供开放数据和企业数据的数据平台型网站。数据使用者可以在网站上搜索,查看数据,并通过api等数据使用者期望的方式调用数据(开放数据集可直接下载),开放数据以免费形式开放,企业数据通过企业定价交易的形式开放。Quandl提供超过1500万的金融和经济数据来自500多个出版商和供应商。Apigee是API管理平台,帮助企业进行API的推荐和监控,Apigee还提供更专业的管理服务,如BaaS(后端即服务),以帮助客户搭建应用及软件来进行分析并预测。该公司有三款产品,旗舰产品ApigeeEdge用于API管理,ApigeeInsights用于预测性分析,ApigeeLink为设备制造商的物联网方案创建API连接Apigee的API管理平台是支持多供应商SDN的一个独立软件,通过实时的API转换,它可以把网络管理系统与来自多个供应商的SDN控制器进行整合。新科兰德科技(ThinkLandTechnology)创立于2010年3月,总部注册于苏州工业园区,是一家专业从事互联网数据服务,智能手机软件开发的创新型企业。聚合数据平台主要为APP开发者、软件公司、网站站长、电商等提供原始数据及API接口服务,服务包括数据挖掘,数据优化,数据存储,数据备份。平台数据类型覆盖LBS、金融、电商、教育、公共交通、日常生活等多个大类。目前聚合数据平台已成为国内最大的基础数据API服务平台,数据总量及日使用量均为国内领先。
调研互联网公司产品和架构互联网公司产品和架构总结各厂家因自身业务特点,从平台架构、数据源获取、数据服务及应用等各有不同。结合实际情况,通过对apigee、Quandl、晶赞UMA、聚合数据的对比分析,可以借鉴的方面如下表所示。平台技术特点数据服务应用数据交易支撑数据获取方式晶赞UMA数据提供方快速实现数据开放变现数据需求方通过接口调用快速实时查询及更新数据数据定价、议价、数据审核能力垂直搜索能力、大数据可视化多源异构数据融合数据脱敏处理、屏蔽处理、安全测试分散数据,P2P方式取信统一提供认证、计费等能力JS布码获取和监测Quandl提供多种SDK方便使用开放数据集可直接下载开放数据以免费形式开放提供数据检索、数据下载服务提供超过1500万的金融和经济数据来自500多个出版商和供应商企业数据通过企业定价交易的形式开放用户授权数据实时获取给合作伙伴服务换取数据搜索引擎爬取Apigee针对小企业推出免费自助API的平台平台上每月的API请求数超过100亿次根据流量和存储能力不同定价API管理平台提供API的一站式管理、分析平台新手任务虚拟币,移动可采用支持多供应商SDN聚合数据移动设备开发人员及图商提供原始数据API服务提供各类基于位置查询与调用服务提供定制化的服务,按照客户提出的接口要求,定制所需要的不同种类的接口,按月进行收费合作伙伴数据网络搜索数据专门团队采集与校验提供30+大类,100+种基础数据API服务类似于GoogleAPIS的数据聚合中国移动经分系统对外部数据获取及管理的理解全网数据A省:终端信息数据共享平台各现有数据分析系统B省:互联网信息C省:POI信息。。。。。。众包一点收集全网共享众包模式:应有大量人工操作,放在一点实行成本较大,故采用众包的方式;总部将根据各省在建设全网协同数据所作出的贡献上进行激励机制。中国移动集团集中化数据收集现状分析数据通道经分……数据源A省集中化经分Hadoop云主数据仓库深度分析云经分……B省经分……C省业务系统……专业公司上传下达上传下达上传下达上传下达集中化经分现阶段实现对B域、M域、O域数据的省份公司数据采集,现阶段主要通过两级数据通道实现全省公司以及专业公司的数据上传下达,实现的通过单点实现全网数据星型数据架构。外部数据获取与共享,需要对省份公司及专业公司之间,直接的数据流通,现阶段还未实现。……通过外部数据获取和管理共享使得集中化数据获取的形式的改变数据通道经分……数据源A省集中化经分Hadoop云主数据仓库深度分析云经分……B省经分……C省业务系统……专业公司上传下达上传下达上传下达上传下达……对外获取数据共享服务平台利用对外获取数据共享服务平台,可以实现数据网状传输,打通省公司之间的数据通道,可以实现通过总部共享服务平台实现数据之间透传,总部共享服务平台对整个传输过程进行消息控制管理,数据直接由提供方到需求方,通过总部共享服务平台实现对数据注册、管理、发布等工作。中国移动经分系统对外部数据获取及管理两级架构数据源终端大数据:运营终端信息互联网大数据:互联网第三方信息社会大数据:企业黄页、企业服务短信等行业大数据:虚拟运营商信息等外部大数据:外部数据等某省公司某专业公司某省公司某省公司信息收集与标准化整理集中化经分对外获取数据共享服务平台数据描述及标准规范数据标准化访问终端信息共享信息互联网信息黄页信息虚拟运营商某省公司某专业公司某省公司某省公司信息获取和应用通过集中化经分构建数据共享平台,将数据运营的任务分散到有实力的省公司,由省份公司收集和整理数据,通过集中化经分平台实现数据的处理和共享,实现全网数据市场交换。中国移动经分系统对外部数据获取及管理实现技术架构对外数据获取数据共享服务集中化经分数据服务器数据共享客户端数据共享客户端数据提供方数据使用方消息控制流RestAPISub订阅Pull获取并存储本地数据存储(需要预定义)Pub发布,可为自提供的API,亦了为托管区的API。可发布不同版本Push将数据从预定义的本地存储推送到托管服务器(包括加密、序列化等工作)直接数据产品提供Pub托管式数据发布Push托管式数据推送用户/认证/授权/账单/支付/社交对外数据获取数据共享服务技术功能描述外部数据获取管理共享能力:通过RestAPI接口和WEB界面提供用户帐户管理、认证、授权、PUB/SUB、PUSH/PULL、数据资源管理、数据资源搜索、结算、支付、社交等服务提供两种类型的数据连接:批量数据集DataSet(通过文件实现)和数据流DataFlow(通过Kafka实现)可以有两种方式发布:公有数据集(所有用户皆可使用,无需授权,可以自行设置收费还是免费),私有数据集(只能由自己或主动授权的用户/APP使用)工具链:消费者端:数据订购以后,若数据有更新,会主动调用回调函数(WEBHOOK)通知数据消费者端的(流模式下的SDK,或者文件模式下的最终消费者)提供者端:SDK可以定期查询数据API的版本情况,或者提供回调函数,供数据提供方侧提醒数据有更新,从而发起自动的数据发布原型系统功能点和实现形式设计外部数据产品标准化APP内容识别阅读:图书id影视:视频id音乐:音乐id……用户上网日志资源库阅读类资源表应用Book_id图书资源信息i悦读0102983图书名称、作者……………………商户类资源表应用item_id商户资源信息大众点评0102983商户名称、地址…………………………识别:视频名称、频道识别:图书书名,作者识别:音乐名称、演唱者、所属专辑影视阅读音乐上网内容资源识别得到资源ID后,在资源库中查询智能爬虫沉淀资源ID与资源信息的对应关系可识别:商户名称、电话、地址、人均消费商户提供外部数据标准化数据接口目录数据获取研究项目背景和理解1软课题项目工作内容2亚信相关研究成果介绍3项目投入资源与成果4外部数据获取相关建设应用案例
亚信在这些项目中进行外部数据获取和管理运用到多个中国移动、中国联通、中国电信流量运营分析、经营分析系统、大数据系统等相关系统,积累了丰富的大数据类平台的建设经验,具有丰富的系统建设、支撑、业务运营的实施经验。访问URL采集与解析终端资源采集与解析应用资源采集与解析终端信息整合一经终端信息库和GSM协会终端信息资料应用信息整合用户使用应用的数据统计内容信息整合用户上网访问内容分类信息可为省内终端运维、新终端识别和定制终端定价策略提供支撑可为应用识别运维、自有应用推广策略等提供数据支撑互联网内容热点关联用户浏览内容统计后,有效对热点内容进行捕捉,对用户上网浏览内容进行预测移动某省公司外部数据获取及管理定期采集内容型业务内容及互联网业务内容,建立统一的内容信息管理库,支撑统一的用户运营及内容运营。采集内容类型:阅读、视频、音乐、游戏五类。采集范围:自有内容、互联网内容全采集精聚合强运营1.2.3.自有内容互联网内容通过基地平台接入,内容周期性更新从互联网中抓取内容,包括热点视频、歌曲等信息,进行数据共享。热门内容信息展示内容地址信息展示统一内容分类标签关键词查询各业务内容准确把握最佳营销时机实现触发式、任务式、调用式运营活动的时机管理,准确把握营销活动发起时机精确洞察客户内容需求多层次、多角度集中分析客户行为,从客户的对全内容的使用行为特征综合把握客户偏好,挖掘客户需求,用于支撑用户级内容运营选择最佳营销渠道选择客户偏好的渠道作为营销活动的执行渠道进行自有渠道和互联网渠道相结合,并统一协同内容聚合管理内容信息库内容审核内容整合内容收集内容维护内容分群移动某省公司外部网页数据获取及应用管理亚信构建多省大数据交易市场,有着丰富的外部数据源,实现全面数据共享目录数据获取研究项目背景和理解1软课题项目工作内容2亚信相关研究成果介绍3项目投入资源与成果4项目研究方案:项目计划安排编号任务项历时(天)时间段1外部数据获取现状调研582015年10月至11月1.1项目启动会及技术交流31.2制定需求调研表51.3总部支撑系统客户访谈51.4省公司支撑系统客户访谈151.5需求调研反馈结果及访谈记录分析201.6制作现状调研分析报告102案例研究和资料收集202015年10月2.1国内外案例研究以及收集72.2
调研互联网公司产品和架构102.3案例分析报告33完成两级级联的外部数据获取及管理技术方案302015年11月3.1
收集到外部数据获取及管理的需求53.2
产品和方案进行对比分析53.3
制定外部数据获取标准方案103.4制定两级外部数据获取及管理技术方案104完成外部数据获取及管理工具原型进行验证602015年12月至2016年1月4.1
提供并完成原型系统工具304.2
原型系统功能、性能、压力测试204.3
原型系统验证报告105完成共享获取外部数据形成标准数据产品标准352016年1月至2月5.1
制定外部数据标准205.2
制定外部数据权限105.3
完成外部数据共享56项目总结及评审252015年3月至4月项目研究方案:项目人员安排(1)姓名宋亮性别男大数据、BI工作年限11年学历本科毕业学校东北大学联系方作经历201309-至今
:负责中国移动集团集中化经分系统规划、设计和项目管理工作;201301-201309:负责中国移动南方基地经分系统规划、设计和项目建设管理工作;2011年-2013年:负责中国移动集团浙江、山东、青海、重庆省份经营系统规划、设计和项目建设管理工作;2008年-2011年:负责中国联通集团公司集中化经分系统设计、规划和项目建设管理工作;项目总负责人:现场项目经理:姓名叶鹏性别男大数据、BI工作年限9年学历本科毕业学校新疆大学联系方作经历2008-2015年5月:负责新疆移动经营分析系统规划,参与集团经营分析系统规范编制工作;2015年5月-至今:负责亚信数据大数据PAAS平台技术架构、设计工作。项目研究方案:项目人员安排(2)姓名龚静性别女大数据、BI工作年限7年学历研究生毕业学校吉林大学联系方作经历2015年8月-至今
亚信DataHub产品总监,负责DataHub产品设计、产品运营。2010年3月-2015年7月
中国移动通信集团南方基地南方基地(西藏)经营分析系统三期扩容改造工程项目建设负责人,负责系统规划、功能设计、建设。南方基地经分云应用项目
项目建设负责人,负责系统规划、功能设计、建设。南方基地西藏经营分析系统二期扩容改造工程项目建设负责人,负责系统规划、功能设计、建设。2009年7月-2010年3月
广东移动业务支撑中心业务支撑中心系统运营,负责广东移动电子渠道(网厅、短厅、自助终端)系统运营管理。
姓名阎妍娇性别女大数据、BI工作年限7年学历硕士毕业学校北京航空航天大学联系方作经历
201408-至今:负责大数据运营商(中国电信、中国联通)及外围行业(生命健康、餐饮连锁)BI产品规划、经分云化、大数据平台及应用建设所需的IT咨询、方案规划及落地后需求分析工作,主要省分有电信总部、广东电信、辽宁电信、河南电信、天津电信、湖南电信、北京联通、山东联通、吉林联通、博奥生物、海底捞等2012年-2014年:负责中国联通U-CLOUD(全国一级云平台)从企业咨询管理层面开展顶层设计与核心需求工作;2006年-2012年:负责中国
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 贸易公司客服工作总结
- 胃蛋白酶颗粒雾化吸入剂型优化-洞察分析
- 通信设备零售行业绩效考核与激励机制研究-洞察分析
- 创新科技园区合作建设与运营协议
- 小熊学校经典情节读后感
- 神经科护理工作总结
- 文化差异与咨询伦理-洞察分析
- 童装产品创新趋势研究-洞察分析
- 存量房屋买卖合同范文
- 工业园区物业管理合同范本
- 2024年石家庄正定国际机场改扩建工程合同
- 2025年度爱读书学长定制化阅读计划合同2篇
- 河南省信阳市浉河区9校联考2024-2025学年八年级上学期12月月考地理试题(含答案)
- 快速康复在骨科护理中的应用
- 国民经济行业分类和代码表(电子版)
- ICU患者外出检查的护理
- 公司收购设备合同范例
- 广东省潮州市2023-2024学年高二上学期语文期末考试试卷(含答案)
- 2024年光伏发电项目EPC总包合同
- 试卷(完整版)python考试复习题库复习知识点试卷试题
- GB/T 44679-2024叉车禁用与报废技术规范
评论
0/150
提交评论