




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2022年年6月月2第一部分 数据分析工具Clementine引入的背景及意义目录 第二部分 Clementine的应用理念及引入的优势第三部分Clementine的基本操作演示第四部分Clementine在网优分析中的实战应用第五部分展望3世界大数据发展趋势社交网络、移动设备、传感器、交通、医疗等各行业不断的产生信息,使得数据正以每年50的量增长着, 2011年,全球共有1.8ZB字节的数据产生近日的运营支撑大会上,专家预测,大数据会成为继云计算后我国下一个国家战略非结构化、半结构化、结构化的大容量且高速率的数据,我们能做什么?增强收集海量数据、分析萃取信息的能力,对于容量大且速率高的大数据
2、使用全新的处理方式,提升决策力和洞察力以及优化处理能力,提高科学和研究的步伐驱动运营商对数据分析的需求4世界大数据发展趋势随着W及PA+网络的的成熟,移动互联网迅猛发展,数据增长速度加快,运营商新业务不断涌现,导致数据暴增。信令数据、互联网数据其规模已经达到数百TB,甚至PB规模,整个产业压力突出,传统数据库技术已无法满足运营商对大数据充分利用的需求。对运营商来说,数据爆发性增长后,带来的收入并未改观,网络问题依然不断,因此,如何利用好运营商手中的大数据,成为需要面对的问题驱动运营商对数据分析的需求5贴近用户感知,增加用户满意度快速发现解决问题,节省运维成本网络技术日益复杂网络复杂度不断增加网
3、络层次结构日益增多网络规模不断增大业务不断多样化用户不断增多贴近用户感知,找到用户需要和运营方向从大量数据这一源头追根溯源数据分析方法上:多接口多数据源的联合优化几类业务数据之间的表面关系,深入到各种业务数据之间内在关联的研究从使用一种单一的方法解决单一问题,到融合多种方法解决复杂问题数据分析内容上:从简单统计KPI到真正贴近用户感知,进行底层用户事件级的关联分析发现网络故障和潜在隐性问题,找到优化方法6 大量的数据使得专业数据挖掘分析工具Clementine的应用引入应运而生另一方面网优平台从数据源中去挖掘优化分析现网多样化的隐匿问题数据量大且复杂的分析工作利用专业数据分析工具的应用优势,基
4、于网优平台的数据进行充实分析,形成新的成果后固化到网优平台上 统计监控信令跟踪用户行为分析小数据分析excel解决 7 7第一部分 数据分析工具Clementine引入的背景及意义目录 第二部分 Clementine的应用理念及引入的优势第三部分Clementine的基本操作演示第四部分Clementine在网优分析中的实战应用第五部分展望8Clementine软件概况应用主体思路软件概述Clementine发展及特点 基本概况 专业化特点 最早由英国ISL公司开发,1998年被SPSS公司收购,并重新整合 和开发 2009年,被IBM收购,成为IBM麾下一款面向商业用户的高品质 数据挖掘产品
5、,从诸如Statsoft Statistics、Oracle DM、 MATLAB等众多软件中脱颖而出跨行业数据挖掘的标准过程, *定位是面向行业、工具导 向、面向应用 *适用于大型工业和商业实 践的一般标准六个阶段:商业理解数据理解数据准备建模模型评估结果发布9Clementine软件概况应用主体思路软件概述Clementine的操作与数据分析的一般流程相吻合。数据分析通常经过数据收集、数据展示恶化预处理、模型建立、模型评价等环节。Clementine形象的将这些环节表示成若干节点,将数据分析过程看成数据在各个节点之间的流动,并通过一个图形化的数据流直观表示整个数据分析过程。 处理流程 操作
6、目的Clementine的操作目的就是要建立一条或多条数据流,不断修改和调整流中的节点及参数,执行数据流,进而完成整个数据分析任务。1. 数据导入2. 数据处理3. 结果展示10Clementine软件的关键应用优势可视化编程大数据量处理模块化处理丰富的数据挖掘算法# 对于一个340M的数据文件 #很难打开,后续基于公式的数据处理更为困难,甚至死机,效率较低 首次读入缓存后读入文件大小不影响文件大小不影响Clementine模块化设计,但模块化设计,但VB需要打开需要打开excel后执行后执行11Clementine软件的关键应用优势大数据量处理可视化编程模块化处理丰富的数据挖掘算法节点一个节
7、点图标代表在 Clementine 中进行的一个操作工作流一系列连接在一起的节点选项板包含一系列丰富功能的功能节点具有可视化的操作界面,简单易用,分析结果直观易懂,图像功能强大略去复杂VB的代码工作本身具有数据库节点,支持与数据库互通互联12Clementine软件的关键应用优势可视化编程模块化处理大数据量处理丰富的数据挖掘算法超节点模块化处理,利用超节点建立可重用的模块,搭建好复杂的数据分析处理模型,对于不同地域、不同时间段关于统一系列问题的分析工作只需导入相对应的数据文件便可反复应用超节点扩展13Clementine软件的关键应用优势可视化编程丰富的数据挖掘算法模块化处理大数据量处理8个预
8、测模型节点3个聚类方法3个关联技术经典数据挖掘算法形成模块直接使用最大化支持数据挖掘算法14ClementineExcel 2010SQL分析数据限制无1百万行无复杂分析逻辑建立难易可视化,简单VBA调试麻烦SQL编写,复杂分析逻辑建立灵活性中差强分析速度快慢中调试易难难使用者要求中透视表易,VBA高高可视化强中差数据挖掘功能强无无Clementine关键优势对比1515第一部分 数据分析工具Clementine引入的背景及意义目录 第二部分 Clementine的应用理念及引入的优势第三部分Clementine的基本操作演示第四部分Clementine在网优分析中的实战应用第五部分展望16数
9、据流区域工具栏 菜单栏 选项板区节点数据流和输出项目窗口建模17字段选项图形记录选项源模块库输出*源节点-用来将数据读入 Clementine 中#文本文件 #SPSS 数据文件#ODBC 兼容的数据库 #SAS 数据文件#用户输入文件自由字段文本文件固定字段文本文件建模18字段选项图形记录选项源模块库输出选择合适的 ODBC 驱动,该驱动应该匹配数据库的名称和版本添加配置数据库ODBC 兼容的数据库节点19建模字段选项图形源记录选项输出*记录选项对数据进行条件筛选、样本抽取、横向/纵向连接、排序、均值/方差计算等操作CLEM语言记录选择节点分组汇总节点模块库20建模记录选项图形源字段选项输出
10、*字段选项对数据关键属性字段进行过滤、填充、字段重排、导出和重新分类等操作 过滤节点导出节点模块库建模记录选项字段选项源图形输出*图形将数据结果绘制成饼图、直方图、散点图等不同的图形种类进行呈现模块库21 图形板节点22图形记录选项字段选项源建模输出*建模丰富的数据挖掘算法,执行预测、关联、聚类等功能模块库23图形记录选项字段选项源输出建模*输出按照需求输出不同形式的结果模块库 表节点 报告节点基本演示环节数据的快速读入排序、过滤数据合并l 纵向合并l 横向合并数据汇总CLEM语言使用内连接全外连接部分外连接反连接25基本演示环节内连接全外连接部分外连接反连接将多个表格关键字段值相等的记录的所
11、有属性列进行连接合并。列出多个表格所有不重复关键字段值,然后将不同表格所有属性列进行连接合并,若相应关键字段值在原表中无匹配记录,则对应属性列置空。定义主表并以主表关键字段值为对象连接合并其他表格属性列,若主表关键字段值在其他表中不存在则对应属性列置空。定义主表,若主表关键字段值在其他表中无匹配记录,则对应主表记录即为目标记录l纵向合并l横向合并属性列完全相同表格数据记录的简单追加26CLEM语言CLEM 全名为 Clementine Language for Expression Manipulation,也就是在 Clementine 中执行函数运算时的专用语法,它是一个功能强大的语言,用
12、来分析操作 Clementine 流程处理;可以用在导出、选择、过滤、平衡和报告等多节点中,这些函数可以实现导出新的值、根据条件选择记录、比较和评估数据、插入数据等功能;CLEM 表达式与一般由数值、字段名、操作符和函数等构成的公式相似18类丰富的函数CLEM定义CLEM表达式构成27大小写敏感性在字符值和所有变量(字段)名上加引号当涉及数值时使用小数点( 0.0) CLEM语言简单示例 注意事项任何以 开头的 CLEM 函数都是大写字母标准 CLEM 函数全部是小写字母使用表达式构造器!2828第一部分 数据分析工具Clementine引入的背景及意义目录 第二部分 Clementine的应
13、用理念及引入的优势第三部分Clementine的基本操作演示第四部分Clementine在网优分析中的实战应用第五部分展望29CDR数据结构及可供分析优势多接口合成结构化事件级的记录事件类型丰富,可从中进行深入挖掘隐匿问题字段类型丰富,可结合多字段进行多维度的联合分析不同事件类型 CDR的关联分析,更有效贴近用户感知发现解决问题优势特点应用现状应用前景CDR其中蕴藏了大量丰富信息,针对CDR利用专业化数据分析工具进行二次分析和优化,拓宽分析方法思路,对现网单通链路、起呼3切2、小区对切换失败原因集中度等实质性问题展开优化分析核心网平台在建设完成已有一段时间,但现网实际工作中基于它的应用却并不多
14、见沦落为对问题定位时的信令跟踪查询工具或是另外类同网管的指标统计工具,与平台建设初衷有较大差距。303Clementine&起呼3G切2G优化分析2Clementine &3G切2G小区对失败集中度分析1Clementine&单通链路优化分析典型应用5Clementine&预测分析4Clementine&异常点检测怎么没有声音?喂!喂!能听见吗?喂!单通问题由来已久对用户感知影响较大,是比较严重的语音质量问题目前在现网上不同程度普遍存在各地客服经常接到此方面的投诉但是1、信令流程上单通事件与正常通话完全一样2、缺乏通过用户面内容进行快速有效判定的方法3、用户面的数据采集、存储存在一定困难31核
15、心思路优化流程PCM通话次数(暂定100)平均通话时长(暂定30秒)通话时长分布异常CIC疑似链路级单通用户行为分析指标分析结论分析对象A口/E口CDR数据,T局话单疑似链路级单通检测拨测验证及问题定位优化评估优化实施数据源模块检测问题定位优化效果评估模型参数修整32 将用户行为与CDR数据的关键字段相结合进行疑似单通的判定大部分链路平均通话时长集中在72至125秒之间对平均通话时长60秒内的区域进行局部放大,异常链路集中在30秒内3334针对链路/时隙通话时长字段进行分组求平均,基于检测条件筛选出单通链路/时隙数据清洗范围:范围:2012年年8月月1日全天日全天A/E口通话口通话CDR(约(
16、约12G)E口链路E口时隙A口链路A口时隙-19069条链路-疑似链路:17条-282790个时隙-单通时隙:36个- 2542条链路- 疑似链路:0条-76269个时隙-单通时隙:2个(XX TMSC1-1:XX MSS4)中9.2%的单通比例,几乎每10次通话中就有一次是单通35序号序号OPCOPCDPCDPC1 1XX TMSC1-1XX MSS42 2XX MSS1XX TMSC1-13 3XX MSS4XX TMSC1-14 4XX TMSC1-1XX MSS15 522-255-156XX MSS16 6XX MSS122-255-1567 7XX MSS122-255-1638
17、841-152-48XX GMSS19 9XX GMSS141-152-481010XX IGW22-254-109111141-152-4822-35-56121241-152-4822-35-561313XX IGW22-254-153141422-254-153XX IGW151522-254-109XX IGW1616CDGMSS2XX MSS21717CDGMSS2XX MSS436典型应用3Clementine&起呼3G切2G优化分析2Clementine &3G切2G小区对失败集中度分析1Clementine&单通链路优化分析5Clementine&预测分析4Clementine
18、&异常点检测37背景通常切换失败可能是未配置临小区信息SGSNGGSNHLRMSCGMSCPSTNIPNetworkRNCBSCA-bisIu-CSC/DEGnGbGiIubIu-PSGr 局内3切2局间3切2 局内3切3同时经营2/3G两张网 原因 影响 多次切换失败后造成信令掉话或者语音通话质量差严重影响用户感知从而迫使用户主动挂断 网络资源拥塞等原因造成 局间3切3 局间2切2 局内2切2 各地客服经常接到此方面的 用户投诉,品牌好感度下降38研究思路向CDR的细处挖,结合源、目标小区等多字段进行统计,综合分析切换失败小区对的原因值分布情况切换次数多、切换失败率高的小区对进行分析开展针对
19、性优化,为提高语音业务质量、改善用户感知提供参考和依据 做什么 怎么做X值与Y值选择原则39模型搭建综合选择节点、汇总节点及合并节点的功能,对不同小区对间成功及分原因的切换失败次数进行归类统计40现网3G切2G失败集中度分析成果采集时间范围:1*24小时采集网元范围Iu接口:共计390521次切换事件,涵盖3G切2G(切出部分)、3G切3G(切入切出部分);A接口:共计1590325次切换事件,涵盖3G切2G(切入部分)、2G切2G(切入切出部分);E接口:共计46525次切换事件,涵盖3G切2G、2G切2G,不区分切入切出,只是针对E接口的MAP消息进行分析;可以看出,对于异系统间切换(即3
20、G切2G),局间切换失败率(即E接口的切换失败率)最高,在10%以上;对于以局内切换为主的Iu口3G切出、2G切入环节则分别为3%、6%左右。理论上讲,3G切出、2G切入环节的成功率应当大致相同,但由于两者采集范围的差异,导致切出、切入次数和切换失败率上存在一定的偏差小区小区对之间的对之间的切换次数切换次数接口接口小区小区对个数对个数切换切换次数次数切换切换失败率失败率1 1次及以上次及以上IuIu接口(切出)接口(切出)67255672553792523792522.45%2.45%A A接口(切入)接口(切入)70562705624137004137009.11%9.11%E E接口接口3
21、33323123117.75%17.75%2020次及以上次及以上IuIu接口(切出)接口(切出)404140411841071841072.56%2.56%A A接口(切入)接口(切入)448744872087332087336.06%6.06%E E接口接口3 31371378.76%8.76%5050次及以上次及以上IuIu接口(切出)接口(切出)1095109595838958382.77%2.77%A A接口(切入)接口(切入)124512451111551111555.93%5.93%E E接口接口1 1616111.48%11.48%数据采集总体情况41共计55对,该类小区只占2
22、0次以上小区对总数的1.36%,但却占相应切换失败次数的20.25%现网3G切2G失败集中度分析成果共计11对,该类小区只占50次以上小区对总数的1.07%,但却占相应切换失败次数的10.27%针对切换次数多、切换失败率高的小区对进行分析,根据这两类标准暂分为两类如下:原则日切换次数20次以上切换失败率80%以上的小区对日切换次数在50次以上的小区对:重点分析切换失败率在50%80%之间的对象422G、3G采集范围中均包含的目标小区对:15对;现网3G切2G失败集中度分析成果 其总的切换尝试次数为1740次,切换失败次数为1654次,切换超时次数为66次,切换失败率达98.85%序号序号失败失
23、败原因值细分场景原因值细分场景目标小目标小区对个区对个数数切换切换失败次数失败次数切换切换超时次数超时次数目标目标小区里失败次数占比小区里失败次数占比1 13G:113,O&M 3G:113,O&M InterventionIntervention2G:7,O and M intervention2G:7,O and M intervention5 57867860 045.7045.70% %2 23G:29,Relocation Failure in 3G:29,Relocation Failure in Target CN/RNC or Target System Target CN/R
24、NC or Target System 2G:37,BSS not equipped2G:37,BSS not equipped4 45405400 031.4031.40% %3 33G:29,Relocation Failure in 3G:29,Relocation Failure in Target CN/RNC or Target System Target CN/RNC or Target System 2G:9,Call control2G:9,Call control3 31981982 211.6311.63% %4 43G:100,Abstract Syntax Error
25、 3G:100,Abstract Syntax Error (Reject) (Reject) 2G:81,Invalid message contents2G:81,Invalid message contents2 21011010 05.875.87% %5 53G:29,Relocation Failure in 3G:29,Relocation Failure in Target CN/RNC or Target System Target CN/RNC or Target System 2G:0,2G:0,超时无响应超时无响应1 1292964645.415.41% %场景1分析(
26、日切换次数20次以上切换失败率在80%以上)43序号序号失败原因值细分场景失败原因值细分场景目标小目标小区对个区对个数数切换失切换失败次数败次数切换超切换超时次数时次数目标小目标小区里失区里失败次数败次数占比占比63G:114,No Resource Available8380084.44%73G:98,Semantic Error 170015.56%序号序号失败原因值细分场景失败原因值细分场景目标小目标小区对个区对个数数切换失切换失败次数败次数切换超切换超时次数时次数目标小目标小区里失区里失败次数败次数占比占比82G:0,超时无响应超时无响应250111982.95%92G:7,O and
27、 M intervention27905.86%102G:255,Null15655.19%112G:9,Call control26004.45%122G:37,BSS not equipped11921.56%其总的切换尝试次数为519次,切换失败次数为450次,切换超时次数为0次,切换失败率达86.71% 其总的切换尝试次数为1495次,切换失败次数为163次,切换超时次数为1186次,切换失败率达90.23%只有3G采集范围中包含的目标小区对:9对;只有2G采集范围中包含的目标小区对:31对成都现网3G切2G失败集中度分析成果44序号序号失败原因值细分场景失败原因值细分场景目标小区对个
28、数目标小区对个数切换失败次数切换失败次数切换超时次数切换超时次数目标小区里失败次目标小区里失败次数占比数占比132G:0,超时无响应超时无响应5039242.06%143G:114,No Resource Available3232024.89%153G:29,Relocation Failure in Target CN/RNC or Target System 2G:33,No radio resource available2232225.11%163G:100,Abstract Syntax Error (Reject) 2G:81,Invalid message contents17
29、317.94%场景2分析(日切换次数50次以上切换失败率在50%80%之间)成都现网3G切2G失败集中度分析成果45典型失败场景的具体案例分析一次3G通话开始后,有多次未成功的3G切2G事件,并且在最后一次切换不成功事件10秒内用户挂机。这样的情况,可以认为是由于切换原因导致的掉话,对用户的感知有较大的影响。 根据3G切出、2G切入的不同失败原因值进行了场景分类,结合各场景设备和现网验证后,可明确每类失败原因值场景对应的真实原因,如邻区漏配、无线覆盖差等,为日后针对切换失败集中的小区对快速开展定位和优化提供参考 分析意义3G切2G切换掉话事件1 1 次切 换失 败后6秒钟 呼叫 结束 针对用户
30、8618628022727:共14次3G的呼叫,共有5次切换掉话,其中很多掉话是在切换失败4s内挂断的,此用户一天当中由于切换失败导致的掉话的比例达到了35.7% 失败率高典型场景:切换失败原因值为3G:113,O&M Intervention-2G:7,O and M intervention;46典型应用3Clementine&起呼3G切2G优化分析2Clementine &3G切2G小区对失败集中度分析1Clementine&单通链路优化分析5Clementine&预测分析4Clementine&异常点检测47背景及优化思路通话一方在3G网络中发起通话,当双方通话开始20秒内,主叫方发生
31、了到2G的切换,则定义为起呼3G切2G。 以综合话单和切换CDR为基础,确定参数,利用起呼3G切2G的判定原则进行现网数据分析,对于起呼3G切2G发生次数较高的小区,进行切换原因值分析,从而完成问题定位和优化实施判定原则 小区的网络环境相对较差,3G用户在开始进行通话后,很快切到2G网络,造成语音质量不好,用户可能无法正常完成通话,主动挂掉电话,严重影响用户感知问题背景优化思路喂,喂!48模型搭建 通过挖掘CDR中TDR ID字段,将综合话单记录与切换事件记录两个不同的CDR进行关联,根据原则,筛选出符合要求的起呼3切2事件。标识同一次呼叫或者事务 *如何联合综合话单&切换事件CDRTDR I
32、D字段49现网实施采用XX省综合话单CDR数据,利用起呼3G切2G的判定原则对现网数据进行分析,得到总的起呼3G切2G事件个数为:676371个,发生起呼3G切2G小区个数为:51068个;*不同起呼3G切2G占比区间小区的个数分布* 选择全天总起呼次数50次以上的小区进行统计分析得到下图:起呼3切2占总起呼次数比例达到了60%以上,这些小区3G切2G和重选参数需要重点关注和检查总体情况50 对上面起呼3G切2G比例较高的小区进行了切换原因值分布统计,可以看到,“BSSAP_更好的小区”占98%,此原因意味着相当大部分的起呼3G切2G是由于3G网络变差,2G较好,达到了3G切2G的切换条件;另
33、一部分原因则是由于“无线侧请求重定位”,占比较小。下表给出了起呼3G切2G次数较高的小区详细信息,包括小区总的起呼次数,起呼3G切2G次数等现网实施51典型应用3Clementine&起呼3G切2G优化分析2Clementine &3G切2G小区对失败集中度分析1Clementine&单通链路优化分析5Clementine&预测分析4Clementine&异常点检测52基本思想 目标对象与大部分其他对象不同,在数据分布图中远离其他的数据点 利用特定方法检测出属性值明显偏离期望的或常见的属性值的异常对象prob(|X|=c)=ac=1,a=68%c=2,a=95%c=3,a=99%1. 将给定的
34、一组样本认定为正态分布进行拟合;2.计算样本均值u,样本标准差v; 离群点异常检测检测流程3.基于公式 z=(x-u)/v进行样本归一化;4. 当|z|大于等于c时,判定该数据值为离群点离群点*一元正态分布离群点检测法*53模型搭建z=(x-u)/v汇总节点导出节点54时间点时间点4月2日4月3日4月4日4月7日4月8日4月14日20 20 点点1230.21204.21104.63767.931075.881165.04时间时间网元名称网元名称BSCBSC话务量话务量2012/4/7 20:00XXXX188.1562012/4/2 21:00XXXX227.2152012/4/2 18:00XXXX198.32012/4/20 11:00XXXX56.1532012/4/20 11:00XXXX39.8352012/4/26 10:00XXXX63.1332012/4/20 11:00XXXX31.5542012/4/20 11:00XXXX41.9112012/4/20 11:00XXXX24.60
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 足浴店营销策划与执行考核试卷
- 窗帘面料的透气性与防水性考核试卷
- 传统养猪合作协议
- 铁路旅客运输市场营销策略考核试卷
- 金属卫生器具的环保型涂层材料研究考核试卷
- 纽约大学面试题目及答案
- 大学食堂收费管理制度
- 员工培训监督管理制度
- 2025保险公司借款合同模板
- 员工租房安全管理制度
- 基础直播运营知识培训课件
- 2024年医学高级职称-口腔修复(医学高级)笔试历年真题荟萃含答案
- 班徽班歌班训
- 《市场营销基础》课件
- 精神科护理技能课件出走行为的防范与护理
- 房屋建筑工程和市政基础设施工程设计文件质量检查报告(建龙空白页)
- 微电子科学与工程专业职业生涯规划书
- 数字孪生应用技术基础知识考试题库(600题)
- 刺激性气体中毒查房
- 《天工开物》课件
- 基于情境的小学语文学习任务群设计与实施对策分析
评论
0/150
提交评论