中国移动云南公司大数据平台技术建议书-TAS_第1页
中国移动云南公司大数据平台技术建议书-TAS_第2页
中国移动云南公司大数据平台技术建议书-TAS_第3页
中国移动云南公司大数据平台技术建议书-TAS_第4页
中国移动云南公司大数据平台技术建议书-TAS_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

PAGEV中国移动云南公司大数据平台技术建议书编写编写时间2014-12-23审批陈娟审批时间文档版本VX.X中国移动云南公司信息技术中心版权所有文档中的全部内容属中国移动云南公司信息技术中心所有,未经允许,不可全部或部分发表、复制、使用于任何目的。文档修订摘要日期修订号描述修订人审阅人审阅日期2014-12-23V1.0云南移动大数据项目技术建议书

目 录1. 需求概述 11.1. 建设背景 11.2. 系统目标定位 11.3. 系统建设原则 21.4. 业务框架 22. 系统概述 32.1. 系统功能框架 32.2. 系统技术架构 42.3. 两阶段的建设考虑 53. 业务需求 63.1. 标签体系 63.1.1. 标签体系构建 6. 需求目的 6. 分析维度 6. 分析指标 7. 界面展示要求 7. 查询条件 7. 功能优先级 7. 其它要求 7. 使用对象 7. 数据保存周期 73.1.2. 标签智能化推荐 73.1.3. 客户标签完善 73.2. 流量价值提升 73.2.1. 流量价值提升影响因素分析 73.2.2. 恶意刷机用户分析 73.2.3. 终端信息自动运维 83.3. 客服专区 83.3.1. 客服KPI监控 83.3.2. 客服流程分析 83.3.3. 投诉分类、热点分析 83.3.4. 投诉舆情分析 83.3.5. 区域投诉分析 83.4. 网络智能分析 83.4.1. 行业APN业务保障智能分析与监控 83.4.2. 小区网络监控、分析 83.4.3. PCC管控策略分析与监控 83.5. 星级专区 83.6. 融合专区 83.7. 4G专区优化 83.8. 集团专区 83.9. IMCD智慧营销场景 83.9.1. 场景名称(举例) 84. 一线支撑需求 104.1. 自助分析优化 10. 功能说明 10. 功能描述 10. 关键技术 104.2. 一线支撑APP 114.2.1. 一线营销小助手APP 114.2.2. 指标跟踪APP 114.2.3. 客户特征APP 114.2.4. 一线量酬APP 114.3. 增值业务支撑APP 114.3.1. 客户洞察小助手 114.3.2. 指标订阅小助手 114.3.3. 个性化营销信息推送小助手 114.3.4. 飞信流失用户每日预警小助手 114.3.5. 业务管理人员移动小助手 115. 基础功能需求 115.1. 数据源采集与解析 115.1.1. 源数据扩展 115.1.2. 信息增强 115.2. 数据处理与交换 125.2.1. 数据融合 125.2.2. 跨平台数据处理 125.2.3. 跨平台统一调度 125.2.4. 数据处理监控 125.3. 数据融合 125.3.1. 数据融合要求 125.3.2. 数据融合模型设计及管理 125.3.3. 数据融合流程及实现 12. 数据融合总体流程 12. DB2与MPP数据库融合 12. DB2与Hadoop平台数据融合 12. MPP数据库与Hadoop平台数据融合 125.4. IMCD智慧营销 125.4.1. 配置界面优化 12. 功能说明 12. 功能描述 13. 关键技术 135.4.2. 策略中心 13. 功能说明 13. 功能描述 13. 关键技术 135.4.3. 事件中心 13. 功能说明 13. 功能描述 13. 关键技术 135.4.4. 个性化推荐引擎 14. 功能说明 14. 功能描述 14. 关键技术 145.4.5. 触点渠道拓展 14. 功能说明 14. 功能描述 14. 关键技术 145.5. 投诉智能处理 155.5.1. 投诉文本分词、关键词处理 155.5.2. 投诉文本挖掘 155.5.3. 投诉文本营销商机挖掘 155.6. 服务开放 155.6.1. 服务开放平台 155.6.2. 自媒体广告平台 155.7. 综合管控 155.7.1. 数据资产管理优化 155.7.2. 平台多租户管理 155.7.3. 平台安全管理 156. 上游平台改造需求 156.1. Billing重构 156.1.1. 接口改造 156.1.2. 一经模型改造 156.1.3. 二经模型改造 156.1.4. MIS模型改造 156.1.5. 数据核对 166.2. CRM云化 166.2.1. 接口改造 166.2.2. 一经模型改造 166.2.3. 二经模型改造 166.2.4. MIS模型改造 166.2.5. 数据核对 167. 附录 167.1. 二级目录 167.1.1. 三级目录 16. 四级目录 16.1. 五级目录 16中国移动云南公司大数据营销项目需求规格说明书第37页需求概述建设背景利用大数据能力实现的精细化、智能化、个性化的市场营销与服务,以及与之配套的数据分析驱动的方案策划、营销执行、渠道协同、接触管理、过程优化、效果评估等功能。提高大数据在市场营销与客户服务中的应用水平,提升企业层面的整体营销与服务能力。目前,我省通过长期实践,在营销支撑方面积累了丰富的经验,如客户标签库,帮助实现深度的客户洞察;开发了营销管理平台,部分实现了营销活动的策划、审核、执行、评估的闭环管理,整合并打通了不同类型的多种营销渠道与触点,如短信、外呼、前台、网厅、掌厅、业务平台等;并在流量经营、存量保有、业务营销方面了作了积极有意的尝试,通过系统支撑的手段协同营销在各个渠道的执行。但是,现有的数字化营销实践也存在着一些局限性与片面性,包括:1)大数据应用尚处于初级阶段,受限于大数据能力未能充分发挥,客户需求洞察能力不足,很多营销仍然依赖于人工经验,大数据价值体现不足;2)渠道协同能力不足,渠道之间缺乏协同,造成跨渠道、多波次的营销活动开展能力不足,营销资源未能到充分利用,并造成重复接触、重复打扰等问题;3)实时事件驱动的营销能力不足,缺乏对关键事件的实时捕捉,以及后续的自动化营销过程;4)营销经验的沉淀不足,营销活动往往按需策划,好的营销活动往往未能通过适当抽象转化为营销,便于后续的复用与共享。系统目标定位以基于大数据的客户上网行为挖掘为基础,通过智能营销管理平台,实现目标客户准识别、营销产品精匹配、营销渠道全方位,实时和准实时互搭配,重点服务于4G客户迁移、存量维系、流量经营、终端营销、内容营销等领域。从产品、客户、渠道、关键时刻、商机等多个维度沉淀和落地几类营销场景。通过综合网关的上网触点感知和流处理技术的位置触点感知实现几类实时营销的落地。上网日志留存系统的经分适应性改造,提升大数据平台的数据来源,在数据质量、响应及时性、信息承载等方面的能力,为用户上网行为和基于位置的深度分析挖掘,用户需求深度洞察等提供基础能力。营销管理平台的智能化改造,实现营销触点的自动感知、营销渠道的统一管控、营销执行的科学反馈;并提升目标客户识别、产品策略匹配,渠道选型的综合营销策划能力。系统建设原则本期工程建设满足以下原则:开放性与先进性:基于开放式标准,采用先进成熟的设备和技术,确保系统的技术先进性,保证投资的有效性和延续性。灵活性与可扩展性:方便扩展设备容量和提升设备性能;支持业务处理的灵活的、参数化配置,业务功能的重组与更新的灵活性,新的应用业务可灵活加载,并不影响原有业务流程。安全性与可靠性:提供良好的安全可靠性策略,支持多种安全可靠性技术手段,制定严格的安全可靠性管理措施。准确性与实时性:保证系统数据处理的准确性,提供多种核查手段。对实时性要求高的处理提供特殊有效的处理方法。易用性与可管理性:对于用户可以方便、快捷的使用业务,对于用户可以快速的提供内容服务。平台本身应具有良好的操作界面、详细的帮助信息,系统参数的维护与管理通过操作界面完成。平台应具有良好的管理手段,可管理网络、服务器、操作系统、数据库及应用等。业务框架以大数据资源为依托,通过客户标签与产品标签实现客户群超细分,捕捉客户群事件性即时需求和群体性商机,适时开展针对细分客户群的静态、准实时甚至实时营销。整个营销过程执行之前,需要针对客户数据、产品资源进行准备,部署事件和商机规则,由事件/商机触发营销活动,当制定事件或商机发生时,匹配出客户-产品-渠道的营销活动方案,开展多波次营销,实现基于关键时刻的针对性准实时或实时营销,并就营销效果进行及时跟踪和数据评估,为后续营销活动规则、客户标签的不断优化迭代提供依据,推进营销方案的不断完善。因此,将营销过程从营销准备、事件/商机捕捉、客户-产品-渠道匹配、活动开展及效果评估五个环节,抽象出相关营销要素配置工作,形成5个核心营销要素:目标、产品、营销事件、营销渠道、与之相关商机。同时,随着营销的深度开展,将逐步形成海量的营销方案。为准实时或实时的营销事件自动智能匹配相应的营销,需要对各类营销活动进行统一管理。系统概述系统功能框架系统技术架构技术选型及亮点采用Flume计算框架,实现文件和消息采集与解析;采用流式爬虫、中文分词技术,实现互联网网页信息实时采集。引入Hadoop2.0,在1个集群上承载批处理和流处理,基于Yarn资源管理可最大效率利用资源,实现消峰填谷。在Yarn基础上,引入Storm计算框架,通过Hive、Mahout、RHadoop实现海量数据计算和全量数据挖掘;引入VoltDB内存数据库,结合Esper,实现基于CEP的实时动态营销。支持分析中心架构差异化,可有效保护现有投资;同时,积极的引入MySQL,利用Sharding实现数据快速访问,为未来技术替换缩减投资奠定基础。两阶段的建设考虑依据云南移动各业务部门对大数据平台支撑营销场景需求,结合云南现有大数据平台建设情况,参考其它兄弟省份大数据平台建设经验,建议云南移动大数据平台建设分阶段有序推进,达到“阶段目标、过程可控、效果可见”的目标。第一阶段:继续利用融合感知分析(C3)能力,通过扩容hadoop平台,提升大数据处理能力;升级智能营销(IMCD)软件并扩容智能营销(IMCD),实现与综合网关对接,实现实时营销;扩充并完善客户标签、数据挖掘,为精准营销奠定基础;升级互联网内容规则及实例库,细化互联网分类及准确性;探索客户服务投诉文本分析。从而满足业务部门所提营销及平台建设技术要求。第二阶段:上网日志留存系统改造,取代融合感知分析(C3)的采集和初级预处理能力,构建信息识别增强模块实现对URL信息的识别与增强;升级互联网内容解析软件,并扩容互联网爬虫、实例库匹配功能,提升互联网内容分类、解析能力;改造智能营销(IMCD)产品,使用flume+storm技术实现与信息增强模块对接,以支撑融合感知分析(C3)下线后的实时营销场景;依据新的数据源和业务发展需要,扩充并完善客户标签,优化并验证数据挖掘模型。业务需求标签体系标签体系构建需求目的/*简要说明此功能分析主要内容及分析目标。*/如:目前普通的营销方式(赠送食用品,积分等)不能满足用户的多样性需求,为扩大商盟商户合作,同时也能够更贴近客户,提升客户的体验,通过商盟商户合作,实现向不同用户根据偏好或需求,通过赠送电子购物券等方式向用户推荐不同的商盟商户,建立完善良好的营销模式。分析维度日期:月地域:地市、区县商圈:商圈名称用户类型:居住、工作、驻留品牌:全球通,动感地带,神州行终端类型:是否智能终端近3月ARPU:停留时长:分析指标界面展示要求查询条件功能优先级其它要求提供分页展示功能;下载清单字段可以包含用户一些其他消费,收入等信息;营销目标用户数提供清单下载功能;使用对象数据保存周期标签智能化推荐客户标签完善流量价值提升流量提升驱动力因素分析需求目的为帮助运营商完成提升流量目标,从传统的单靠业务营销知识入手转变为通过自动化手段分析挖掘流量驱动因素,从而做到拉伸流量规模。产品从流量使用的对象,即从用户方面入手,分析用户流量使用习惯。通过对用户群进行筛选分类,分析用户上网行为及流量使用情况,挖掘对流量变动影响最重要的因素,全面分析因素驱动流量变动的影响度,分析结果可为提升流量的策略提供强有力、精准的数据支撑。功能概述流量驱动力因素分析通过对一些固化沉淀出的流量影响因素,经过一系列的指标选取、相似度计算和短发分析,输入影响流量驱动的因素列表以及对应的影响度大小。主要是为用户提供一个制定营销策略提升流量的数据支撑平台。流量驱动力因素分析的过程是将影响因素、数据经过规则筛选、算法分析,输出对流量驱动影响因素及其对应的影响程度。此过程中根据既定规则和数据类型从不同的口径获取数据,通过对因素指标模板的管理、初选,并结合数据筛选出相关性较大的指标,后通过算法分析出因素已经因素的影响度。关键技术建立指标模板,用户根据省份业务,选择初选因素指标。通过观察用户的上网行为数据和专业人员的业务经验提炼沉淀出100个流量波动影响因素作为固化的模板。例如:可用流量较上月增幅、近3个月超套的次数、是否变更为3G手机用户、应用消耗流量较上月增幅、是否变更为4G手机用户、新增使用应用的个数、是否流量套餐包升级等等。用户根据本省业务,对提供的一百个指标模板进行选择,选择可能对流量产品影响的指标。用户样板选取的规模和类型。样本的数据量,需要根据部署省份的数据情况进行计算,推算样本的最小数据量,以保证不会影响后续模型算法的准确性。由于在不同的置信度和不同精度水平下,需要不同的样本量做保证,因此,在样本选取前,需要对部署省份数据进行分析。例如:样本量确定过程假设置信度为95%,最大系统误差不超过3%,即E=3%,a=99%=0.99,得:N=1863.36。样本量数据确定结果考虑到以为建模惯例、数据处理能力等,选取正、负样本共计10万户。其中正、负样本的数量比例为1:2。将样本以9:1为比例,平均划分为两部分,一部分为正式样本数据,供用户模型计算使用;另一部分为测试样本数据,供用户验证数据使用。对于用户流量提升而言,可从多角度(流量变化、套餐、终端等)分析决定流量提升的关键性因素,在各个不同角度下,分析的因素不尽相同,亚信方案提供给客户进行用户分群的角度选择,以便后续模型计算更加精准。在可选择的同时,亚信也会凭借业务经验给用户推荐贴合业务的分群角度。筛选影响流量的指标原始选择的指标,大体依靠业务经验,导致指标繁杂、无章可循,并且仅以业务为角度进行了梳理,影响后续模型计算的结果和效率,需要从数据角度进行精简、筛选和梳理,经过Pearson系数相关度,筛选后的模型可用指标。通过模型计算,进行因素分析亚信流量驱动力因素分析专题,以指标筛选后的流量因素和正式样本数据两个数据源为依据,以当前普适性较高的计算模型为计算基础,分别根据各个算法,计算出该算法下的流量因素、因素影响度,还有其算法对应的正确率,供用户进行选择。模型计算规则集由用户选择算法,自动生成规则集。规则集中每一条线为各个节点组成的规则。模型验证,跟踪分析流量波动群用户,评估改进算法产品根据算法计算出的规则集和测试样本数据两部分共同生成验证结果。用户群体的跟踪分析,更深层次的了解用户使用流量的波动曲线,挖掘更具有影响力的因素;跟踪用户在接收营销推广之后一段时间内使用流量情况,查看基于驱动因素分析数据建立起的营销活动对用户流量提升的影响效果。智能推荐引擎概述智能推荐引擎是基于大数据平台的数据和计算能力,通过对各类数据的分析、计算、关联、预测等方式,将对的产品推荐给对的人,为精准营销提供能力支撑。智能推荐引擎提供的能力包括:产品推荐能力(找到适合推荐的产品,例如,活性最高的应用、热门的终端等等),用户推荐能力(找到每一类产品适合推荐的用户群)以及基于大数据挖掘的效果评估。与现有营销流程的整合集成方案如下:与IMCD系统接口该接口用于在TAS智能推荐引擎与IMCD系统间通过FTP方式进行数据同步。接口采用FTP方式进行数据传输,TAS与IMCD需互相开放文件存储服务器及路径、定时将封装后的文件向对方上传;需同步的数据文件应以csv或xml文本方式保存,并遵循csv或xml格式规则;数据文件统一命名格式:TypeSubTypeMmDdMmDd.INR;Type代表数据类型;SubType代表子数据类型,主要营销效果评估报表中,多维度的统计数据需要生成多份文件;MmDdMmDd代表数据的时间范围,其中第一个MmDd是数据处理的起始日期、第二个MmDd是数据处理的完成日期;为了检查是否有文件丢失,接口层生成完一个数据文件后即生成一个校验文件,文件名也需要包含生成时间信息(如TypeMmDdMmDd.CHK)当没有数据也要按照约定的时间生成文件,表示系统工作正常。与COC系统接口该接口用于在TAS智能推荐引擎与COC系统间通过FTP方式进行数据同步。接口采用FTP方式进行数据传输,COC需互相开放文件存储服务器及路径、TAS定时将封装后的文件向对方上传;TAS向COC同步的数据类型包括:用户应用偏好标识与用户渠道偏好标识;需同步的数据文件应以csv或xml文本方式保存,并遵循csv或xml格式规则;数据文件统一命名格式:TypeMmDd.INR;Type代表数据类型;MmDd代表数据生成的时间;为了检查是否有文件丢失,接口层生成完一个数据文件后即生成一个校验文件,文件名也需要包含生成时间信息(如TypeMmDdMmDd.CHK)当没有数据也要按照约定的时间生成文件,表示系统工作正常。个性化应用推荐需求目的在流量时代,业务部门需求与大数据紧密关联,利用大数据推动运营流程转变、推动商业模式变革。个性化应用正是形成以大数据分析驱动的智能营销闭环管理流程,实现营销策划的精细化和智能化,助力电信运营商提升4G用户流量规模。功能概述产品从应用安装使用的对象,即从用户方面入手,活性分析得出用户热门应用,实现自动推荐;其次对全量用户通过协同过滤筛选后再从中挑选出4G用户(4G用户口径:使用4G终端、开通4G套餐、4G流量包),给予个性化的应用推荐;对推荐结果进行多维度的效果评估,通过安装应用、监控应用的使用来推动用户的流量提升。具体实现功能包括:用户业务偏好分析、应用活性分析、应用使用特性分析、协同过滤算法、营销效果多维分析。关键技术整体功能框架:1.用户应用偏好分析基于DPI流量话单(HTTP话单或通用话单)中计算的应用访问量、访问时长、访问流量等多维度的指标,通过一系列规则计算得出用户对其所已使用过应用的偏好得分。2.应用活性分析应用活性分析从静态和动态视角对已识别应用的用户保有率、流量保有率等关键指标进行统计,评估应用的用户粘性和对流量提升的作用。应用活性分析的用户样本是各月的应用‘新装用户’,分析周期为3个月。即在2015年1月统计出各个应用的新装用户后,分别从静态视角和动态视角对相关指标进行统计。其中,静态视角主要关注第N月新装用户在第N+3月的用户保有率和流量保有率指标现状;动态视角主要关注‘增幅’类指标,以及流量保有率和用户保有率等指标在分析周期内的变化趋势。3.应用特性分析系统通过最佳推荐应用分析提供默认的最佳推荐应用列表。最佳推荐应用列表产生的原则是:根据静态活性分析结果,分别选取用户保有率和流量保有率TOP30的应用,取并集同时去重;根据动态活性分析结果,分别选取用户保有率增幅和流量保有率增幅TOP30的应用,取并集同时去重;针对最终选取出的应用中,判断应用使用类型,过滤出户均流量‘上升型’的应用。如果过滤出的应用数量不足30个,则选取用户保有率最高的应用进行补全;如果过滤出的应用数量大于30个,则选取用户保有率最低的应用进行过滤;目前主要参考新装与存量用户的户均流量变化趋势对比来选择最佳推荐应用,后续可叠加指标和判定规则,采用户均访问量、户均流量组合判断的方式来选定推荐推荐应用且判定规则可由用户选择或配置4.协同过滤算法1)协同过滤算法用于基于用户相似度或应用的相似度来分析和圈定目标推荐用户。它的实质是根据用户对应用的偏好度,利用相似度算法生成用户相似度矩阵和应用相似度矩阵,计算出用户对被推荐应用的偏好度,根据这个偏好度来确定各应用的目标推荐用户。2)相似度矩阵计算得出后,可通过设定固定数量的邻居或基于相似度门槛来过滤邻居用户或邻居物品。根据经验,用户相似度矩阵计算量较大、物品相似度矩阵计算量较小;此外,余弦相似度和皮尔逊相似度算法是最适用于相似度矩阵计算的2类算法3)目标用户二次过滤功能主要用于当协同过滤后得到的推荐用户规模较大时,可根据上述指标进行过滤,缩小用户规模4)对筛选出的用户再次过滤,只取出4G用户。(4G用户口径:使用4G终端、开通4G套餐、4G流量包)5.营销效果评估计划推荐用户数和实际传播用户数,IMCD通过外部接口向TAS进行同步后。一般从传播开始前一周到传播结束后一周作为评估周期,为了增加指标效果,可延长统计周期至传播前后1个月,传播效果分析中,指标统计均以‘实际传播用户’为数据样本总体。用户可以查询到历史推荐的列表,能查看到当时具体推荐应用的内容以及用户数规模;并可对具体的推荐活动进行效果评估。主要从应用及区域两个维度对历史活动进行分析评估推荐效果。个性化主套餐推荐需求目的随着运营商提供的套餐方案越来越多,套餐内提供的产品种类繁多,每种产品的适用条件又不尽相同,用户往往不能清楚的知道自己应该使用哪一种套餐;新的套餐也因为宣传手段有限,无法及时通知到最适合的用户。通过个性化主套餐推荐,及时的推荐用户新的套餐或者建议升级主套餐,最大限度地保有存量用户,在稳步提高收入的同时,更能有效的提升用户感知,降低用户维系的成本。功能概述首先,基于大数据中心的数据挖掘分析能力,分析并预测出用户下月对各类产品的实际需求;其次,根据用户现在使用的套餐,分析匹配程度;第三,分析现有的所有套餐产品,分析出最合适的主套餐;第四,分析用户的“月保底消费叠加规则”,滤除 资费中大部分是保底消费的用户;第五,输出需要升级主套餐的用户以及推荐的目标主套餐产品。关键技术预测用户下月对主套餐内各种产品的需求根据用户使用本地通话、长途通话、流量、WLAN、短信、彩信等产品的实际数据,分析出用户使用每一种产品的历史变化趋势,通过产品使用量预测模型,推算出用户下个月对每种产品可能的需求量。主要使用的算法:其中表示在t时刻的收入值,类似表示在t-1时刻的收入值,t值可以根据获取值的情况,可以取时、天、周、月等值,是自回归参数,是滑动平均参数,为残差。定阶:以表示为序列真值,为根据模型阶数(p,q)得到的估计值。利用在不同阶数下是否显著来判断模型阶数。为此引入残差方差。=模型的剩余平方和/(实际观察值个数-模型的参数个数),模型的剩余平方和,实际观察值个数=N-自回归阶数,对于ARMA(p,q)为,利用a2的变化规律,确定模型阶数。随着模型阶数的增大,分母减小;分子在不足拟合时,一直减小,速度较快;过拟合时,分子虽减小,但速度很慢,几乎不变。a2取决于分子、分母减小的速度。在不足拟合时,a2一直减小;过拟合时,a2却增大。选择a2的最低点为模型的最优阶数。参数估计:共有(p+q+1)个待估参数1,2,,p与1,2,,q以及2,其估计量计算步骤及公式如下:第一步,估计1,2,,p,利用如下方程组是总体自相关函数的估计值,关于p的计算可参照AR(p).附AR(p)模型参数的最小二乘估计法:假设模型AR(p)的参数估计值已经得到,即有残差的平方和为:所要求的参数估计值是下列方程组的解:,即,j=1,2,…,p。解该方程组,就可得到待估参数的估计值。第二步,改写模型,求1,2,,q以及2的估计值,将模型改写为:令,于是上述方程改写为,构成一个MA模型。按照估计MA模型参数的方法,可以得到1,2,,q以及2的估计值。附MA(q)模型参数的矩估计法:将MA(q)模型的自协方差函数中的各个量用估计量代替,得到:首先求得自协方差函数的估计值,上述方程是一个包含(q+1)个待估参数的非线性方程组,可以用直接法求解。对MA(1)模型的直接法为:对于MA(1)模型,上述方程相应地写成:于是有解:,由于参数估计有两组解,可根据可逆性条件|1|<1来判断选取一组。检验:由于ARMA(p,q)模型的识别与估计是在假设随机扰动项是一白噪声的基础上进行的,因此,如果估计的模型确认正确的话,残差应代表一白噪声序列。如果通过所估计的模型计算的样本残差不代表一白噪声,则说明模型的识别与估计有误,需重新识别与估计。在实际检验时,主要检验残差序列是否存在自相关。可利用2检验来检验是否拒绝残差序列为白噪声的假设。最终得出每一个用户下一个月使用各种产品的预测情况,例如:本地通话:200分钟长途通话:100分钟漫游通话:50分钟流量:500MBWLAN:60分钟短信:50条彩信:10条139邮箱:是分析现有套餐的匹配度按照不同产品符合程度的加权算法,得出用户现有套餐组合产品的符合程度得分。确定分类指标中的子指标得分权重,用变异系数权重法找出三因子的权重系数;算法如下:为了消除各项评价指标的量纲不同的影响,需要用各项指标的变异系数来衡量各项指标取值的差异程度。各项指标的变异系数公式如下:式中:是第项指标的变异系数、也称为标准差系数;是第项指标的标准差;是第项指标的平均数。各项指标的权重为:计算各指标的最大值和最小值;使用最大最小规格化法对指标数据进行标准化,得到标准化指标index,具体计算公式:设指标的最大值为a_max,指标的最小值为a_min,则标准化:index=(当前值-a_min)/(a_max-a_min)计算应用偏好得分score:score(n)=index(1)*weight(1)+index(2)*weight(2)+index(3)*weight(3)...index(n)*weight(n) index(1):第一个指标值 weight(1):第一个指标值的权重 index(2): 第二个指标值 weight(2):第二个指标值的权重 index(3): 第三个指标值 weight(3):第三个指标值的权重...index(n): 第n个指标值weight(n):第n个指标值的权重根据用户的“月保底消费叠加规则”,滤除不建议再推荐升级主套餐的用户群。结合用户近三个月出账费用的稳定性及规模(X),假定参加某活动A需要添加保底Y1且活动A将产生消费额Y2,用户参加活动A前已有保底消费规则Y,系统判断Y+Y1+Y2<X*90%,如果满足则向用户推荐活动A,否则不推荐。4G终端推荐需求目的终端引领一直是运营商很重要的用户发展手段,如今通信市场已正式进入4G高速移动互联网时代,而现网中还有大量的2G、3G存量用户。通过增加对4G终端潜在换机用户的精确识别帮助运营商正确引导用户,完成终端换机推荐,实现提升流量目标,同时让各合作终端厂商的终端都能够被推荐给对其感兴趣的用户,是现在需要分析解决的问题。功能概述4G终端推荐通过终端信息获取、用户画像、终端参数与流量分析、终端算法推荐等流程手段可提供对4G终端潜在换机用户的精确识别及4G终端推荐结果查询两大功能。4G终端推荐精准分析可通过几种识别方式对用户进行筛选,将适合推荐的人群展现出来:“用户兴趣人群化”识别:基于用户业务使用习惯,兴趣分类及流量数据业务监控进行用户群筛选画像,圈定终端推荐适配人群。“购买事前动作”识别:基于用户通信行为和上网行为进行分析,通过用户流量使用行为变化,APP使用行为变化、特定网站上网行为变化等筛选潜在换机用户。“终端偏好”识别:基于用户通信消费能力、交往圈、用户位置、上网行为、终端搜索行为、终端参数配置爬取等匹配用户适配终端。4G终端推荐结果查询可以查询到历史推荐列表,查看当时具体推荐终端型号及用户数规模;同时还可对推荐结果进行效果评估,从终端型号、用户群、区域等维度对历史活动进行分析评估推荐效果。关键技术建立用户对4G终端偏好的画像通过用户分类判断条件将用户按照兴趣进行人群化分类,剔除掉已在用4G终端用户,分析客户的基础信息、消费能力及终端使用情况。使用潜在用户换机识别模型挖掘剩余用户中现有终端的生命周期及对终端需求的变化,识别定制终端潜在客户。推荐引擎组合算法1)基于用户业务偏好推荐算法统计单用户各大类业务的日均流量和每款待推荐终端平均单用户各大类业务的日均流量。例如:使用pearson相关系数的方法,用户A与小米4终端用户的相似度可以用如下公式来表达。代表用户A每天各大类业务的平均流量。P代表各项业务的集合。得到计算结果:推荐策略:用户群体业务喜好相似度最大;排名规则:按相似度由高到低排序。2)基于终端性价比推荐算法为了对现有用户的终端以及将要推荐的终端进行评估,故选取了决定终端性能的重要参数和终端价格评估待推荐终端,求出性价比参数CP。以部分现网流量top终端为例,求出其性价比参数CP并对终端按高中低性价比的不同进行分类。CP>20的终端,我们称为高性价比终端。CP<10的终端,我们称为低性价比终端。10<CP<20的终端,我们成为中等性价比终端。推荐策略:推荐高、中性价比以及高价低性价比终端。排名顺序:按性价比参数由高到低排序。3)基于终端流量预测值推荐算法屏幕尺寸,屏幕占比,电池容量,CPU性能、内存、是否支持4G这些参数的提升都会促进用户流量的增长。其中屏幕是最重要的促进因素。推荐策略:推荐预测值大于用户现流量值50%以上的终端。排名顺序:待推终端按流量预测值由高到低排序。通过模型计算,生成最终推荐4G终端推荐分析经过前面的一系列算法计算会生成一份初始推荐结果,使用用户终端偏好分析模型,通过数据挖掘算法,从价格、品牌、功能三个角度对客户的终端偏好进行深入分析,借助训练模型,得到决策树规则集。通过决策树规则集输出终端价格,终端品牌,终端功能数据,对挖掘输出的潜在购机用户进行购机营销,并根据营销反馈结果迭代训练模型,实现机器学习。决策树算法说明:对现有用户进行数据筛选,提取有终端价格需求数据的用户相关信息,并将用户群随机拆分形成训练集和检验集。训练集和检验集可依据决策树效果交叉检验。目标集为待挖掘用户的群体,该群体用户有模型所需的相关信息,但终端价格偏好未知。结果集由目标集输入检验后的决策树,得到用户群的WLAN需求。根据结果集的数据制定营销方案,将营销反馈数据重新检验,迭代训练决策树规则,实现系统闭环。恶意刷机用户分析需求目的通过“三码对应”规则可切实有效的甄别恶意刷机行为,分析识别疑似恶意刷机终端群体,查找这些终端对应的渠道商信息,为运营商有效进行渠道管控、商业止损提供数据支撑,旨在解决当前运营商普遍面临的不良渠道商通过恶意刷机非法套取佣金酬金但无法有效识别与监督的现状难题。功能概述恶意刷机用户分析通过“三码对应”手段可提供恶意刷机识别,及恶意刷机结果查询两大功能。恶意刷机用户分析识别可通过对用户上网记录数据中关键字段信息进行解析提取,包括IMEI匹配、Useragent/URL中的终端信息,采用“三码对应”规则,对数据解析的结果数据进行比对分析,初步判定出可能刷机的用户群。恶意刷机用户分析对初步判定的可能刷机的用户群IMEI号进行监测分析(如一个月),通过“二次甄别”手段将UA/URL数据中剔除手机作wifi热点导致IMEI变化的部分用户,剩下的则判定为疑似刷机终端。同时将刷机用户与渠道信息进行关联,甄别判定恶意刷机渠道。恶意刷机用户分析查询可逐月提供合约机识别输出分析报表,包括:疑似恶意刷机用户列表,恶意刷机渠道列表等。关键技术数据解析通过接口从DPI系统侧获取用户上网详单数据(至少包括:Starttime、MSISDN、UA、URL、IMEI字段)。通过DPI识别手机号,确定唯一。通过DPI识别获得用户上网的IMEI后,再匹配IMEI信息库,即可得出终端品牌、终端型号信息;通过DPI识别获得用户上网的Useragent字段后,可通过一定的文本抽取规则,从Useragent字符串中,匹配抽取出用户的终端品牌、终端型号信息;通过DPI识别获得用户上网的URL字段后,可通过一定的文本抽取规则,从URL字符串中,匹配抽取出用户的终端品牌、终端型号信息。通过接口从终端运维平台获取终端信息,将用户上网的IMEI号与终端信息库进行关联匹配,得出终端品牌、终端型号信息。通过接口从经分系统获取渠道信息以及各渠道的终端销售信息,将识别出来的疑似恶意刷机用户与渠道销售信息进行关联,统计分析出各渠道的疑似恶意刷机用户数。初步判定采用“三码对应”规则作为鉴别疑似恶意刷机行为的依据。终端在被恶意IMEI刷机后,会改变IMEI串号,但不会影响UA和URL中的手机品牌型号信息。取Useragent/URL通过规则模板进行解析,匹配识别在用终端品牌及终端型号信息,与导入终端品牌型号信息表关联比对判断是否一致,初步判定疑似恶意刷机用户。示例:二次甄别恶意刷机终端甄别判定:如果一部终端被当作热点使用,则会出现监测到的Useragent信息中型号与IMEI匹配出来的信息多次不一致状况,此类情况不属于刷机终端。针对这种情况需要进行二次甄别。如果该终端在IMEI号变化之后的监控期(比如一个月)内,其UA/URL中原有IMEI号又反复(原IMEI出现次数≥1)出现,则判定为该终端被作为WIFI热点使用,为非刷机终端。如果该终端在IMEI号变化之后的监控期内,其UA/URL中没有再次出现过原有IMEI号(原IMEI出现次数=1),则判定为疑似刷机终端。恶意刷机渠道甄别判定:通过疑似恶意刷机用户清单数据与渠道信息表关联,分析出各渠道的疑似恶意刷机用户数量及比例。根据一定的阈值来判定是否属于恶意刷机渠道。终端信息自动运维需求目的伴随着移动互联网大力发展和4G时代的到来,移动终端成为了承载移动互联网应用的重要载体,终端运营成为了在4 G新时期移动转型的核心战略之一。在收获了手机用户的同时也面临着终端管理带来的新挑战。运营商需要对现有的移动终端进行统一管理维护,保证终端信息覆盖全面、准确,以支撑网络分析、精确营销等业务。在这种背景需求下,建立一个统一的终端信息运维平台,实现终端信息的实时更新,提升覆盖度及准确性,对企业经营战略的落地提供基础的支撑能力显得尤为重要。功能概述终端运维平台产品,主要是面向运营商业务支撑部门提供的基于规则识别和爬虫爬取的终端信息运维产品,旨在解决当前运营商普遍面临的终端信息库不全、终端信息不新、不准的现状难题,为用户提供一个完整、准确的终端信息库。终端信息自动运维的过程是:1)从流量数据中分析用户终端的IMEI号,通过解析获得该终端的TAC信息,对比已有的IMEI信息库,获取无法关联匹配的终端TAC码;2)从流量数据中分析用户访问网络时使用的Useragent/URL,通过一定的文本抽取规则结合UA/URL识别模板,获取这些无法识别的TAC码对应的用户终端厂家以及型号信息;3)根据识别的终端型号,利用网络爬取技术获取终端特征数据,识别终端的其他属性信息;4)将解析爬取到的库中没有的终端信息,作为一条新的终端信息记录,自动新增到终端信息库中。5)将终端信息库的终端信息与爬取的终端属性信息做对比,如果存在不一致,提示管理者存在更新信息,手工确认后更新至终端信息库。同时为了使终端解析更加准确,覆盖面更广。面不断变化的UA/URL,现有的解析规则并不完整需要进行不断的完善维护。记录操作人员在系统操作终端信息的日志,方便系统运维人员对系统数据流转的监控。关键技术终端UA/URL/人工解析(1)用户通过手机应用访问互联网时都会产生一个UA的标识。通过这个标识,用户所访问的网站可以显示不同的排版从而为用户提供更好的体验或者进行信息统计。如下图所示:在该信息中我们可以看到它携带了终端品牌以及型号标志等信息。通过反复多次的对各种UA进行整理总结出规则,然后使用该规则库对用户的UA信息进行解析,获取终端信息。对UA解析不出来的还可以同过URL二次识别,URL是用户在Internet上所有资源都有一个独一无二的URL地址如下图所示。同样通过先建立解析模板然后再对用户上网进行解析,获取终端信息。经过两次识别都未能识别的终端信息对UA/URL都解析不出来的用户将通过UA解析和URL解析的终端信息数据进行合并,然后还可通过累积下来的UA/URL/EMAIL/TEL等信息人工观察或者外呼等方式解析出终端的平台和型号信息。终端属性信息爬取在UA解析出用户终端后需要用网络爬虫去完善该终端的信息,并将该信息更新入终端库。网络爬虫是按照一定的规则,自动的抓取万维网信息的程序或者脚本。根据一定的网页分析算法过滤与终端无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到爬取完所有需要的终端属性信息为止。业务模型流量提升驱动力因素分析模型模型描述通过分析用户的上网行为,实现对流量提升的各关键因素的影响度计算,输出决策树规则集图表以及各个因素的影响度排行,支撑对省内用户的流量提升情况的分析以及预测。输入项可能对流量提升有影响的因素指标,包括:手机上网流量较上月变化,手机上网时长较上月变化,3G流量较上月变化,4G流量较上月变化,wlan流量较上月变化,wlan时长较上月变化,可用流量较上月变化,是否变更为4G手机,是否参与赠送流量型营销活动,是否阶跃用户等等。输出项决策树规则集图表以及各个因素的影响度排行。数据分析周期生成模型的数据周期越长,准确性越高,建议至少采用三个月的历史数据,其中两个月的数据作为训练集,一个月的数据为校验集。分析思路分析不同因素在用户上网行为数据中的表现形式,深入这些因素本身各个层面,使用决策树算法,细致分析它们对流量波动产生的影响度,形成可量化的评估指标。分析步骤提取在网用户的上网行为数据,输入可能对流量提升有影响的因素指标可能对流量提升有影响的因素指标,包括:手机上网流量较上月变化,手机上网时长较上月变化,3G流量较上月变化,4G流量较上月变化,wlan流量较上月变化,wlan时长较上月变化,可用流量较上月变化,是否变更为4G手机,是否参与赠送流量型营销活动,是否阶跃用户等等。构建决策树将训练集用户清理过后的数据通过决策树算法,形成决策规则,将模型输出结果处理得到树节点,将用户的相关信息数据处理得到决策点,并对形成的决策树进行相应的剪枝处理,最终形成决策树。将待挖掘用户(目标集)信息输入决策树对待挖掘用户信息进行数据清理后,逐个输入到已构建好规则的决策树中,决策系统将根据已有的决策规则得出判断,输出决策树规则集图表以及各个因素的影响度排行。个性化应用推荐用户筛选分析模型模型描述根据用户对应用的偏好度,利用相似度算法生成应用相似度矩阵,计算出用户对被推荐应用的偏好度,根据这个偏好度排序来确定各应用的目标推荐用户。输入项输入基于应用访问量、应用访问量占比、日均访问量等指标得出的偏好度打分矩阵。输出项物品相似度矩阵,排序的应用列表。数据分析周期生成模型的数据周期越长,准确性越高,建议至少采用三个月的历史数据,其中两个月的数据作为训练集,一个月的数据为校验集。分析思路基于所有用户对应用的偏好,找与应用A相似的应用B。根据用户历史偏好打分找到“已安装应用X但未安装应用Y”的用户A,将应用Y推荐给A。分析步骤1.建立向量:将所有用户对某个应用的偏好作为元素建立该应用X的向量;2.得到应用相似度:通过向量间的计算公式得到所有应用之间的相似度;基于物品相似度的常用算法有皮尔逊相关系数、余弦相似度(在最后介绍)。3.找到相似应用:通过计算结果,找到某个应用的相似应用Y;4.得出应用偏好:根据每个用户的历史偏好打分矩阵,用相似度矩阵中的相似应用预测尚未表示偏好的应用,计算得出一个排序的应用列表作为当前用户推荐的清单。具体示例:假设1)根据三个用户历史偏好,对物品A/物品B/物品C分别建立每个物品的向量,即矩阵的纵列;2)通过向量相似度算法,分别计算出物品间的相似度,即矩阵中的每个单元格,打钩表示相似。物品A仅计算得到一个相似物品C;3)根据用户C喜欢物品A的历史偏好,预测用户C也可能喜欢物品C说明:1)皮尔逊算法:皮尔逊相关系数是一个-1到1的值,表示两个定距变量间联系的紧密程度,值越大表示两组变量联系越紧密,相似度越高,反之亦然。皮尔逊相关系数可以理解为两组组数字按比例一起运动的一个趋势,这样就会在一组变量和其他变量的值之间有一个大致的线性关系。当紧密程度很高的时候,系数值为1;当几乎没有关联时,系数值为0;当呈现对立关系时(一组变量中的值很大,而另一组对应变量值很低),则系数值为-1。皮尔逊相关系数计算公式:其中X,Y在基于用户CF中表示两组用户对物品的偏好值向量,在基于物品CF中表示用户对两组物品的偏好值向量。2)余弦相似度算法:余弦相似度(Cosine-basedSimilarity)的计算方法为将两个项目i,j视作为两个m维用户空间向量,相似度计算通过计算两个向量的余弦夹角,那么,对于m*n的评分矩阵i,j的相似度sim(i,j)计算公式为:潜在用户换机识别模型模型描述通过分析客户的基础信息,终端使用情况及历史换机行为等相关数据,挖掘现有终端的生命周期及用户对终端的需求变化,识别定制终端潜在客户,为定制终端精准营销提供目标客户名单,提高营销资源分配合理性,并最终促进定制终端销量增长。输入项客户终端使用情况分析相关指标:客户ID,消费能力,入网品牌,入网时长,使用时长,换机周期,换机次数等。输出项决策树规则集图表以及客户购机需求列表。数据分析周期生成模型的数据周期越长,准确性越高,建议至少采用1年的历史数据,其中8个月的数据作为训练集,4个月的数据为校验集。分析思路1)提取已有购机记录的用户相关数据,作为模型构建基础数据。2)根据有购机记录的用户相关数据通过决策树算法训练得到分类规则。3)将购机挖用户的相关数据带入分类规则,得到目标掘目标用户的购机需求。4)对挖掘输出的潜在购机用户进行外呼调查,并根据外呼调查反馈结果迭代训练模型,实现模型优化。分析步骤1)对现有用户进行数据筛选,提取有购机需求(包含各档需求)数据的用户相关信息,并将用户群随机拆分形成训练集和检验集。2)训练集和检验集可依据决策树效果交叉检验。3)目标集为待挖掘购机用户的群体,该群体用户有模型所需的相关信息,但换机需求未知。4)结果集由目标集输入检验后的决策树,得到用户群的换机需求。5)根据结果集的数据制定外呼确认方案,将外呼反馈数据重新检验,迭代训练决策树规则,实现系统闭环。用户终端偏好模型模型描述通过数据挖掘算法,从价格、品牌、功能三个角度对客户的终端偏好进行深入分析,为业务部门的终端营销工作和数据流量提升提供帮助。输入项终端价格偏好分析相关指标:换机器按三个月平均ARPU,最近使用终端价格,历史使用终端最高价格,历史终端平均价格,历史终端最低价格,交往圈终端平均价格,最近搜索终端价格等。终端品牌偏好分析相关指标:换机器按三个月平均ARPU,最近一次使用终端品牌,历史使用最大品牌,交往圈最多终端品牌,最近搜索终端品牌等。终端功能偏好分析相关指标:原终端屏幕大小,原终端价格档次,原终端是否智能机,最近终端搜索关键词,品牌,入网时长,用户基本信息,通信费用,通信行为等。输出项决策树规则集图表以及用户终端价格、终端品牌、终端规则等推荐列表。数据分析周期生成模型的数据周期越长,准确性越高,建议至少采用1年的历史数据,其中8个月的数据作为训练集,4个月的数据为校验集。分析思路1)通过数据挖掘算法,从价格、品牌、功能三个角度对客户的终端偏好进行深入分析,为业务部门的终端营销工作和数据流量提升提供帮助。2)终端价格,终端品牌,终端功能三方面选取指标,分别建立三个模型。3)训练模型,得到决策树规则集。4)通过决策树规则集输出终端价格,终端品牌,终端功能数据。5)对挖掘输出的潜在购机用户进行购机营销,并根据营销反馈结果迭代训练模型,实现机器学习。分析步骤1)对现有用户进行数据筛选,提取有终端价格需求数据的用户相关信息,并将用户群随机拆分形成训练集和检验集。2)训练集和检验集可依据决策树效果交叉检验。3)目标集为待挖掘用户的群体,该群体用户有模型所需的相关信息,但终端价格偏好未知。4)结果集由目标集输入检验后的决策树,得到用户群的WLAN需求。5)根据结果集的数据制定营销方案,将营销反馈数据重新检验,迭代训练决策树规则,实现系统闭环。产品使用量预测模型模型描述通过对用户的本地通话、长途通话、流量、WLAN、短信、彩信等产品使用历史数据的计算,分析预测出用户下一个月可能的需求用量,为下一步的套餐营销决策、业务发展方向提供数据支撑。输入项用户前一年使用的本地通话时长、长途通话时长、漫游通话时长、本地流量大小、全国流量大小、WLAN使用时长、短信条数、彩信条数。输出项用户下一个月的本地通话时长、长途通话时长、漫游通话时长、本地流量大小、全国流量大小、WLAN使用时长、短信条数、彩信条数。数据分析周期生成模型的数据周期越长,准确性越高,建议至少采用1年的历史数据,其中8个月的数据作为训练集,4个月的数据为校验集。分析思路分析不同产品的使用趋势变化,使用时间序列算法,细致分析每一个产品的变化趋势预测出未来的发展方向,形成每一个用户的主套餐需求。分析步骤通过计算用户使用产品的一定时间段(建议1年)数据,通过时间序列(ARMA)模型预测出后1个月的相关值。获取之前一定时间段(建议1年)的本地通话时长、长途通话时长、漫游通话时长、本地流量大小、全国流量大小、WLAN使用时长、短信条数、彩信条数的历史详细数据。预处理用户明细数据中的极值、异常值、空值等信息。通过对输入数据进行按天汇总,得出以日为单位的相关信息对上述历史值采用时间序列(ARMA)模型进行计算得出后1个月的值按天计算的各自值;在中间表中存有按天的详细数据信息;按月进行汇总并计算相应的增长率。客服专区客服KPI监控客服流程分析投诉分类、热点分析投诉舆情分析区域投诉分析网络智能分析重点区域保障分析业务目标基于常驻用户特征的区域保障分析功能以大数据平台的流量数据位置修正能力为基础,准确获取用户常驻区域,同时结合用户标签信息分析不同区域内的常驻用户特征,结合用户特征与业务使用特征指导客服、市场运营及网络工作的开展,促进网络、市场与客服的工作联动,保障区域内的用户感知。通过该功能的应用,业务人员完成以下工作:了解不同区域内的常驻用户特征及业务使用特征;了解不同用户群体的区域分布特征了解重点区域(如:高离网率区域、VIP用户常驻区域、高投诉率区域)的网络质量及业务质量现状明确重点区域网络保障策略(有限保障哪些区域、如何保障)业务流程首先,利用大数据平台的ETL关联分析能力修正流量数据中位置信息(LAC/CI)不准确的问题,准确获取用户发生业务的小区;其次,利用经过位置修正的Gn接口用户上网日志数据,结合用户标签(VIP用户、离网用户……)信息划分区域类型(VIP区域、高离网率区域……);第三,结合流量数据、经分数据、资源数据等多种数据源对区域内的网络及业务发展现状进行全面评估与,对区域内的问题及现状进行可视化分析;最后,结合区域内的用户及业务特征制定有针对性地保障策略,促进跨部门工作联动。关键技术Gn接口DPI话单是流量经营相关应用功能的主要数据来源,在对流量特征进行透视分析时,需要从应用、区域、终端、用户等维度深入挖掘流量产生的各种特征,但由于Gn接口DPI话单中只能够记录用户PDP上线的位置信息(LAC-CI),在用户位置发生变化时无法准确记录,因此单纯地基于Gn接口DPI数据对流量产生的区域特征进行分析,分析结果会与实际情况存在较大偏差。流量数据位置修正功能,通过将DPI流量话单域Mc位置更新话单的位置信息抽取与关联实现DPI话单中位置信息的修正,准确获取用户所在的小区,一定程度上解决数据统计及模型分析的数据准确性问题。用户业务使用过程中无位置变化在一条Gn接口的HTTP话单或通用业务话单的开始时间至结束时间范围内,在Mc接口的位置更新话单中没有找到对应IMSI的记录,将该IMSI最新的位置信息(LAC/CI,在该用户的最近一次位置更新记录里查找)同步至Gn话单的对应字段中。从Mc接口的位置更新话单中,抽取时间、IMSI、Lac、CI四个关键信息,并将信息进行缓存,建立用户位置标签库将位置标签库中的位置信息与最新的位置更新话单进行比对,若不一致,则需要将Mc位置更新话单中的信息更新至用户位置标签库从Gn接口HTTP话单或通用业务话单中获取用户上网位置信息将用户上网位置信息与用户位置标签库中的信息进行比对、同步将位置信息同步结果返回,在Gn话单中进行更新利用更新后的Gn接口话单进行数据建模及应用分析用户业务使用过程中有位置变化在一条Gn接口的HTTP话单或通用业务话单的开始时间至结束时间范围内,在Mc接口的位置更新话单中找到对应IMSI的1条或多条记录,首先对用户数据业务的起始位置进行修正,然后再根据位置更新时间计算用户驻留在各位置区的时长,对Gn话单按时间进行拆分,生成多条话单。从Gn接口话单中提取IMSI、LAC、CI、时间、流量、包数六类关键信息,同步至ETL模块ETL模块从Mc位置更新话单中,根据IMSI和时间范围进行搜索,产生2个中间结果:在Gn话单开始时间前的用户最后一次位置更新记录和Gn话单过程中用户所有的位置更新记录和每次位置更新的时间将Gn话单中的位置信息与Gn话单开始时间前的用户最后一次位置更新记录中的位置信息进行对比,如果不一致则将位置更新记录中的位置同步至Gn话单,修正Gn话单的起始位置信息根据搜索出的所有位置更新记录,计算每2次位置更新的时间间隔,把计算结果作为用户驻留在各小区的时长根据用户驻留在各小区的时长拆分Gn上网话单,其中流量、数据包等字段信息按照时长分布比例进行拆分拆分后生成新的Gn话单基于最新的Gn话单进行数据建模及应用分析小区劣化预警业务目标小区劣化预警分析以大数据平台的数据挖掘分析能力为基础,挖掘并量化导致小区劣化的各类因素,建立小区劣化预警模型,监控并及时发现有劣化趋势的小区,及时发现网络问题,支撑网络优化、网络建设工作的开展。通过该功能的应用,业务人员完成以

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论