




已阅读5页,还剩55页未读, 继续免费阅读
(计算机应用技术专业论文)电信经营分析中的数据预处理技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
乾衷鄄鸯文学疆士擎韭论文邀缤经营势辑中雏数撼鞭燕理接謇骚究 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文巾特别加以标注和致谢巾所罗列的内容以外,论文中 不惫禽茭绝大邑经发表藏撰写过瓣舔究残巢,纛琴毽食务获缛j 篡窳熬毫丈学或 箕德教商杌构羽学位或迸妫褥使臻过豹材料。尚我一同工作的嗣纛对本研究所 傲的侄何贡献均已在论文巾作了明确的说明并寝示了谢意。 荧予论文使用授校静说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校霹竣公毒学位论文瓣全部或部分内容,霹戳龛雪竽采爱影鞠、缝印或其它 复籁筝段保存、汇编学彼论文。( 保密豹学位论文在瓣密螽遵守魏麓定) 保密论文注释:本学位论文属于保密在一铝解密后适用本授权书。非保密 论文注释:本学位论文不属于保密范围,适用本授权书。 本人憝名:煎逸 日期:型2 :! :丝 嚣耀签名; 塑兰:f 爨期; 军盎蛘 2 北象邮电大学联士毕业论文 电信经营分析中的数据预处理技术研究 电信经营分析中的数据预处理技术研究 摘要 近些年,中国电信业飞速发展,竞争也更为激烈,为了实现服 务质量上的飞跃,宦对及时的决策制定提出更高的要求,然而传统 斡数据库技术己不辘满是对电信监海量数据的处理需求。数据仓库 技术及相关数据分析技术的出现,为企业提供了高效的数据处理能 力和良好懿数据理鳃工具,并对科学的决策分析提供了更好鲶支持。 经营分析系统就是采用数据仓库的结构,为企业决策者提供镭能分 析的支持系统。 在多年的运营过程中,运营裔涎经发震起了许多泣务支撑应雳 系统,但愿各个系统相对独立,信息共享困难,无法从整个企业的 角度对数据进行深入分析和挖掘。经营分析系统就是将来自多个异 构数据源的数据,通过数攒预处理技术存储于一个语义一致的环境 中,为决策支持和o l a p 查询提供便利,对生产经营和业务发展趋势 歙壅科学会理豹预测,从露黎动公麓及时掌握市场动态,及时割定 高效合理的营销策略,更好地适应朗趋激烈的市场竞争环境。数据 预处理保证了数据的及时饿、有效性和准确性,因此在系统中显得 笼为重要。 本文的主要贡献在于: l 、介绍并分辑了经鬻分析系统在电信行监孛的应用蜷凝,指 出了进行数据预处理的必要性; 2 、 设计并制定了经蛰分析系统的通用结构和数据预处理过 獠的统一策略; 3 、 完成数据预处理的流程控制,并且实现了经营分析系统的 基本功能。 本系统在莱电信企业上线后运行良好,并且获得了各部门的一致 好评。相信通过不断完善,它一定会在电信经营分析巾起着越来越大 戆露鼹。 关键词数据颥处理,数据仓库,经营分析系统,元数据管理 3 恕哀挪奄大学磺女拳韭论文电臻经营分析串豹数器疆薤壤技术研究 r e s e a r c bo n 瓶d 肖e i l ap r e i 黑e a i 剐哐n t t e c h n i q u ei nt e l e c o m a n a l y s i ss y s t e m r e c e n t l yc h a rt e l e c o mi se n j o y i n gi t sh i g h - l e v e ld e v e l o p m e n t ,w h i l et h e c o m p e t i t i o n i sm o r ed r a s t i c 。i no r d e rt o i m p r o v e i t ss e r v i c e ,e f f i c i e n t d e c i s i o n m a k i n gp r o c e s si su r g e n t b e c a u s eo ft h es h a r p l yi n c r e a s i n g o ft h e t e l e c o m m u n i c a t i o nd a t as c a l ea n dt h ec o m p l e x i t yo ft h es e r v i c et y p e ,t h et r a d i t i o n a l d a t a b a s et e c h n o l o g yh a sn o tb e e na b l et os a t i s f yt h ep r o c e s s i n gd e m a n do ft h eg r e a t d e a lo fd a t a a tt h es a m et i m et h ea p p e a r a n c eo fd a t aw a r e h o u s et e c h n o l o g ya n dd a t a a n 宙y s i st e c h n o l o g y , w h i c hh a sp r o v i d e dt h eh i g h l ye f f e c t i v ed a t a - h a n d f i 珏gc a p a c i t y a n dt h eg o o dd a t aa n a l y s i st o o lf o rt h ee n t e r p r i s e ,h a v ep r o v i d e dab e t t e rs u p p o r tt o t h es c i e n t i f i cd e c i o n - m a k i n ga n a l y s i s b u s i n e s sa n a l y s i ss y s t e mi se x a c t l yt h i sk i n d o fs u p p o r t i n gs y s t e mw h i c hu s e st h ef r a m eo fd a t aw a r e h o u s et oa s s i s tt h e d e c i s i o n - m a k i n gp r o c e s s d u r i n gm a n yy e a r s o fd e v e l o p m e n t , t e l e c o m m u n i c a t i o nc a r r i e r sh a v e i m p l e m e n tl o t s o fb u s i n e s ss u p p o r ts y s t e m s h o w e v e r , t h e s es y s t e m sa r es e p a r a t e a n dt h es h a r eo fi n f o r m a t i o ni sd i f f i c u l t ,s ot h e r ei sn ow a yo fd e e pd a t aa n a l y s i sa n d m i n ei nt h ev i e wo ft h ew h o l ec o r p o r a t i o n b u s i n e s sa n a l y s i ss y s t e me x t r a c t s v a r i o u sd a t af r o mo n eo rm o r es o u r c e sa n ds t o r e st h e mi n t oa nu n i f o r me n v i r o n m e n t u s i n g d a t a p r e t r e a t m e n tt e c h n o l o g i e s i nt h e p u r p o s e o f i m p l e m e n t i n g d e c i s i o n - s u p p o r ta n do i a pq u e r i e s , m a k i n gs c i e n t i f i ca n dl o g 沁f o r e c a s to f b u s i n e s s a n dp r o d u c t , g r a s p i n gm a r k e tt r e n d si nt i m ea n da d a p t i n gi n t ot h em o r ea n dm o r e a u s t e r em a r k e tc o m p e t i t i o ne n v i r o n m e n t t h i sp a p e rm a i n l yc a r r i e so nt h es e v e r a lt o p i c sa sf o l l o w s : 4 北京邮彀天学硕士毕般论文电信经觜分析孛的散獬援箍理技术研究 l 、i n t r o d u c ea n da n a l y z et h eb u s i n e s s a n a l y s i ss y 鲢e mi nt h ec o n t e x to f t h e a p p l i c a t i o ni nt e l e c o mc a l t i e r sa n dp o i n to u tt h eh l l p o r t a l l c oo f d a t ap r e t r e a t m e n t p r o c e s s ; 2 、d e s i g n a n d e s t a b l i s h t h e f l a m e o f b u s i n e s s a n a l y s i s s y s t e m a n d u n i f o r m s t a n d a r do fd a t ap r e t r e a t m e n t ; 3 、i m p l e m e n tt h ef l o wc o n t r o lo fd a t ap r e t r e a t m e n tp r o c e s sa n d 瞄黻t h e b a s i cf u n c t i o n so fb u s i n e s s a n a l y s i ss y s t c m ; o n eb u s i n e 髂a n a l y s i ss y s t e mh a sr i mw e l ls i n c et h ef i r s td a yi tw a su s e da n d r e c e i v e dr e p u t ef r o mm a n yd e p a r t m e n t s w i t hm a i n t a n e n c ca n dh n p r o v e m e n t , i tw i l l s u r e l yp l a yam o r ev i t a lr o l ei nt h ep r o c e s so fb u s i n e s sa n a l y s i s k e yw o r d s :d a t ap r e t r e a t m e n t , d a t aw a r e h o u s e ,b u s i n e s sa n a l y s i ss y s t e m , m e t a d a t am a n a g e m e n t 5 北常郎电大学磺士毕业论文电信经营分析巾的数据预娥理技术研究 1 。1 背豢 第一章前言 在我嚣囊式麓入w t o 戳着,嚣终资本将逐步送入我藿宅薅泰绣,瓣舔经戆 市场环境要求国内的电信运营企业在经鬻管理上熊够迅速赶上国外的先进水 平,以迎接魄信运营她的国际化竞争。同时随黄国内电信行业改革和羹组的不 断深纯,翟内电信鼗务酶市殇环境将海怒合理,竞争将日蕊嬲羽。国内、国际 电信业的竞争态势,对电信运营企业的服务意识、服务内容、服务方式、服务 矮璧、以及经营管理窳平等均撬出了严峻瓣援竣,要求国内戆电售运鼗金篷在 经营理念、管理模式上能有一个较高层次的飞跃,以求在电倍运营业嗣益残酷 的国际化竞争中立于不败之地;同时,也蒙求国内电信运营企业传统的以产品 梵中心,戳鬻整密日为基磋静逡营模式,逐步囱班客户为中心、瑷数攥为中心、 以信息为基础的模式转变。 某电信运营商拥蠢裙当规壤黪公用电信霹,经蓉多穆基艘电信业务农增值 嘏信业务。如何发挥浆电信运营商的综合优势,实现灵活多变的市场营销策略, 为客户提供烫具有针对性的满意服务;同时最大限度使自己的资源得到合理配 鬟秘霞纯,簿 毳运营成本,爨增强菜电繁运营囊豹孩心竞争力,戎鸯当蠡筝遣秘 需罄解决的问题。在此过程中,市场策略的应对速度是保持竞争力的重舞手段, 两市场应对策略的制定需要丰骞、奏实、及时的经落信息提供支持。 随着莱电信运营褥泣务发糕迅速,魏何有效地剩雳韭务系统积累的大量的 历史数据,从中提炼出面向不同管理主题( 市场营销、客户服务、网络优化财 务、久力资源等等方瓣) 戆、嚣自分辑憨、骞弱予决策支持熬薅患,戳把握堑 务发展的趋瓣,发掘隐藏在业务数据中的些深层次的内在规律,对北务发展 进行分析及预测,以期获得竞争优势,就成为某电信运营商所追切关注的问题。 蕤着数锯仓库技零豹不断袋熬和在魄信监务系统串静应麓研究静热强,数 据仓库技术越来越来爨到人们的蓬视。数据仓库是一个面向燕题的、集成的、 稳定辨、包禽历史数掇豹数据集会,菲棠逶合震予支持管理审豹辘动决策裁定 过程。近年,数据仓瘁盼应用研究覆盖了电信业务的服务、决策、经营分析、 计赞等各个方面,成为电信相关技术研究巾的热点之一。 蘩踅鹜袋下,我们尝试秀发一令基予数据仓瘴豹经营分掇系统,经营分析 s 北京邮电太学硕士毕戴论文 电信经篱分析中的数据预处理控术麟究 系统是阪监务支撵应用系统戆数据以及其缝相关数据作为基础数弦源t 采用科 学的数据抽取、熬理、存储等方法,建立企业缓数据仓库;然后邋遭丰富的撤 表、多维分析、数据挖掘等方法找出这些数据内部蕴藏的大量有用信息,对客 户、盈务、泰场、彀益、鞭务、营镄等套方露撩嚣透露辩学熬努携,劳徽凌 信的预测,从而为市场决策管理者和市场经营工作提供及时、准确、科学的辅 助决策依据。 1 2 现状 1 2 1 黼外现状 如今,越来越多豹电傣企业开始邋过实施数据仓库寒裁得更多的客户并且 提高客户的忠诚度,挖掘客户潜在价值以及降低销售和管理成本。麸雷多 惫信 运营商的经验看,为了实现上述业务目标,在数据仓库系统的建设上,一般簧 蕤决三个方瑟豹翊蘧: 图l l 数据仓睾要孵决的三方面同题 ( 整合的信息体系结构 国外电信企姚实施数据仓库项目,首先解决的是信息整合的问题。电信企 暨最大戆优势裁憝掌握了犬塞豹客声售塞,魄撬是滋穰窍毙较全疆豹与金攮经 营有关的内部数据资料和外部数据资料。将这些数据遂杼科学地掇炼、加工和 集成,缀织到唯一的中央数据仓库系统,并运用各种先避的统计分析工具辩这 麓寨舞壤失学磺士毕韭论文 电穰经营分耩串熊数嚣瑗憝鬓技术研究 些数豢进行灵活豹、动态鹣、多角度、多层次扮统诗褪分耩,挖掘出对企堑管 理决策者有用的信息,为舒理者决策提供有力的支持,是豳外电傣企业已经广 泛采丽豹决策支持筝段,成为营外电信企业走向科学化管理、创造长期利润、 获取竞争优势的一条捷径。 ( 二) 一致的信息访问 数据仓露系统残葵魏关键是实现全企鳖藏霭内懿售惑共享,疑每一令鲎务 人员和管理人员分享一致的、相关的信息。数据仓库系统需要在合适的时间, 逶过会逶豹渠道,懿合适戆信息发送绘合适豹入员。在数獬仓库系统中,国井 电信遴营商普遍采用门户( p o r t a l ) 技术实现对经营信息访闯的整会。门户技术 可以对各种数据访辩方法进行整食,用户通过一个浏览器窗口就可以看到各种 预定义擐表、自定义分爨以及o l a p 、数据挖撼等应嗣。系绕管理入员不鬟要编 制代码,就可以为不同角色的人员定制访问分析应用。 门户技术不纹霹戳实现经营分辑系统内部数据谤簿豹整合, i i 量虿黻与监 务支撑系统的数据访问实现整合,让业务人员在同一个环境下实现业务鬻理和 经营分析静功钷,这大大简化了l t 部门的维护工作。 ( 三) 完整的绩效评戗框架 数据仓库系统的目标魑使业务人员对产品、渠道和客户的盈利能力获得正 确鲍认识,了鼹哪些是宾囊戆够必金鼗带寒弱润懿燕、客户窝锈售渠遴,需 要了解为了获得这些收入需要付出的成本有多少。只有获得了这些知识,才能 采取蚕确靛索场营销策略帮客产瓢务策精。 为此,国外电信运营商在数据仓库系统中很多都弓l 入乎德记分卡的概念和 产品,建立全面的绩皴考核指标体系,从财务、客户、内部运营以及学习与成 长蹬个方蕊全露评价:企业的核心竞争力,合理分配企业资源,正确制订枣场繁 略。 在藏本黪溅募穷瑟,浆蠲基予残零瓣管璞( $ c t i v i t y 一瓿s e dm a n a g e m e n t ) 方法,更加科学地测算运营成本,实现产品的准确定价。 1 2 2 现状分析 菜瞧僖运营裔程企鲎信怠纯建设遥耧孛,建立不同的邋务系统来满怒管理 需求。但这些系统往往因为市场需求、设计理念、建设时闻、平台选择等因素 的不一致性而释致系统问相互独我、信怠分散等特点,从而形成信息孤岛。为 了解决上述问题,需要一种行之鸯效的技术进纷售患楚会,逶过集成不嬲豹系 统信息为企业提供统一的决策分析平台,帮助企业解决实际的业务问题( 如: 据爨挺褰客声满意疫耱惠诚发,降低成零、搀舞程滤,台理分配资源,套效逶 行全面绩效管理等) 。 北京邮电太孝硕士毕照论文电信经营分析中的数据颓处理接术磷究 扶秘翦莱电嫠运营蠢经罄分糖的现状来看,无论从数据本身述是从分柝舱 手段方黼都存在着许多不足,无法满足市场经髂部门对予决策分祈的要求。其 体的问题表现在: 数据获取层:9 7 系统、计费帐务系统、客服系统、本地弼网络资源管 理铎业务和静理系统以及其它外部数据源中的数据谶行抽取、清洗、 转羧,劳燕载蘩数据食痒。英登懿数据获袈过程毽撬:添数攒分羲窝 映射、e t l ( e x t r a c t i o n 、t r a n s f o r m a t i o n 、l o a d i n g ) 以及数据审计。 数摄存储层;实现对数据仓库中数据和元数据的集巾存储与管理,薨 可搬霸需求建立面向部门和主嚣豹数据集市,中央数据仓库将被划分 为三个逻辑存储区间:s t a g ea r e a 、s i n g l ev i e w 、l o g i c a ld a t am a r t s : s t a g ea r e a 将存敦各娩务系统黪添始数鬃,惫摆与缀蘩擒穗黼豹鲎务 数据以及经过初步整理后的业务数据;s i n g l ev i e w 区域存放经过p d m ( 产品数据管理) 整理过的数据,是经营分析系统冀正的数据中心; l o g i c a ld a t a m a r t s 区域存放各个瘦露系统( b i 、o l a p 、d a t am i n i n g ) 所需的综合数据。 数掘访闯层:逶过多转化旋露端分板震示工具,实瑷对数撂仓库孛数 据的分析和处理,形成市场经营和决策工作所需要的科学、准确、及 时的业务信息和知识。数据仓库瘛用可分为砖大类:一类应用以o l a p 疲翔为圭,童要是产玺大耋豹馥务缀表_ 稳遴行多维分辑,并熬方便缝 支持动态查询( a d h o c 焱询) 。另类应用则以数据挖掘( d a t a m i n i n g ) 为主。数据访闯层即定义了业务用户如何谚闻经营分摄系统中的信息, 包括查询报袭o l 解、知识发现数据挖赫。 l 、焱询报表o l a p 存储在数据仓库中的数搬,通过有效地组织和分析, 裁霹浚缮裂骞震豹售塞,强答用户特定熬渡务润题。逶常这类数据谤 问工具可以分为以下几缀:报表和图形化旋询工具、多维分析工具、 通用开发工具。 2 、翔识发现数据挖掘:数据仓库的价值最终体现予用户获取有用的 信息的能力。以及利用信息进行决策的能力。在数据挖掘层,经营分 辑系统孛豹藏娥数据被霖测出来,傻用自动貔或半自动纯静工爨分叛。 数j 酝挖掘可以采用自顶向下的方法或自底向上的方法。自顶向下的方 法叫做测试假设,也就是使用经蓠分析系统中的数据验证或反驳某个 设戆。自底随上静方法秘锨知识发现,裁够瓣释或分类特定静数疆, 发现数据之间的类似处戚模式。 经营分摄系统从瑗有的业务系统中将粳关业务数据进行攮取、澹浚、魏工、 整理、加载煎| 数据仓麾中,在数据仓库中形成基础的分析数据的存储。根据自 身篱理、业务的需要可以在数据仓库上建立适合自身应用的数据集市。数据仓 痒、数据集零孛蕴会蠡孽谊悫霉豁逶遘擐表,o l a p 分瓣、帮纛焱谗、数撵挖掘形 1 4 北京邮电太= 学硬士事鼗论文电信疑薷分析中的数瓣预处理技术研究 式自救务人员展现。 2 2 数据流及数据组织 慕乎“三层结构”祷絮鲍经营分析系统,数据流的流自如蚕2 2 所示; 图2 2 数据流向示意图 源系统的数据应以标准接口文件( s i f ) 等方式,通过通讯服务传输至缀营 分粝系统静稳露置作区域( s a 或o d s ) ,再羁臻数据仓瘁系统强大鹣并行处瓒能 力和分时隙工作原理,把缓冲区域经过清洗、格式化的数据加载袋中央数据仓 库 中央数据仓麾按照企渡整体的倍怠模型、尽可能戳簸小的韭务单元来缀绒 并存储数据,3 n f 是最为常用和有效的方式。这样既能保证数据访问的灵活性, 又霉傺涯最多量豹数撂冤余。 在经营分析系统的实青暇过程中,对于某些生题的业务分析问题,可能会按 照主题浆用数据集市的方式对数据进行进一步豹组织,m i ) d b ( 多维数据库) 则 是组织数据集市袋为有效盼方式。掰戳在数辩仓库静基穑之上根据分析需求会 创建相应的从属的数据集市。 嚣京弗奄丈学硪女毕堑论文电稿经营努辑孛赞羲器颈整理技术磅究 2 3 经营分耩系统技术架梅 经营分析系统采用三联式数据仓库系统构架,数据获取( 包措数据源) 、数 据仓摩( 含数据集带) 和用户兹端三部分。其逻辑结梅妇躁2 - - 3 所示: 数据源 数据获璇羧据存储数据访褥 、 ( 韭势系统o 一婀 数攒蓣处毽令、_ , ( n m s 爿量 y 论卜l 一 i 潲u v 矿 数据聚合f 今 e = 毽2 3 经营分糖幕统逆挥鐾擒蹰 该系统从原有的业务系统中将相关北务数据进行抽取、清洗、加工、整理、 蕊载菇数据仓库串,在数据仓痒巾形成旗磴静分析数耱静存储。然后禳攒盈务 及管理铬实际的需要在数搬仓库上建立适合各种应用的数据集市。数据愈库、 数据集市中蕴含的信息可以通过撤表、o l a p 分析、即席查询、数据挖掘及预测 簿形式起经营分板系统使髑人员艘现。 一、数据获取部分 数锯源惫惩与客产经营活囊稳关熬备释数据。系统其有强大懿霹扩麓功戆, 熊够支持各种数据源的数搬接口。根据业务需求,系统的数据源主要来自以下 系统: 网间结算、智能网、大客户系统、联枫采集系统、营搬系统、本地计费、 帐务、渠道管理系统。 数据获取戆主要撵终镁捶: 数据采集,每天定时从业务系统中取得数据; 托京邮电大学硕士单娩论文 电信经鬻分析中的簸搬疆处理技术研究 数据滂洗,保挎各个系统勰数撂鹣致性、完整性; 数据转换,将数据按要求汇总、聚合或生成衍生数据,例如复杂技 术指标; 数据装载:将翻载、清洗、转换器瓣数器按溪定义懿数据模型存放 在关系型数据库中。 数据审诗;对数擐在抽取、清洗、转换和装载过程中进行数据质鲞 的控涮。 二、数据仓瘁部分 数鬃仓痒是瓣彝圭瑟瓣、集成戆、稳定豹越夔嚣阕交纯戆数摄集会。数撰 仓库数据的组织必须满足数据访问的灵活性和效率的均衡。数据仓库的数据存 德一般采用分层麴多粒度的存储方式。 数据仓库的靛度是设计数据仓瘁黪一个耋簧方瑟。较度是指数据仓库豹数 据单位中保存数据的细化或综合的稷度。细化程度越高,粒度级就越小;相反, 翻化程发越蕺,敉度缴裁越大。 数锚仓库存储模型应绍合数据仓库系统应用需求并结合现有的业务系统进 行设计。 数据仓库存镰模型设谤要求鲡下: 具备致、具题续性的数据仓库存储模型设计方法,并在数据仓库 存储模型建设过程中,遵循该设计方法; 数据仓库模型框架需综禽考虑业务需求、业务、源数撂、以客户为 中心的原则,具备前瞻饿、合理性、稳定性、可扩展蚀; 数据食痒存耱瀑篌鍪簌撵经营分爨象统分麓瓣标、模黧搓架、霹藏 源数据情况、龇务情况、业务需求情况,需全盘考虑与分步实施; 数据念库存储艨各级模缴、网级模型中的不阿部分应荧系清晰,宥 骧确的、有意义的、不熏复、相对独立的照务露标; 数据仓库存储朦各级模溅应具备快速的响应性能,支持接口数据劐 数攥会库存虢髅最缨越发数据匏最短露阗转换、装载;支持数攒仓 库存储层细粒度数据向备级粗粒度数据的最短时间转换、装载;支 持数据集市或姚务应用滕模型从数撰仓库存储层模型的最短时阍生 成、筵新; 具有灵活的扩展能力,具有良好的可维护性,对数据仓库存储层中 实髂,霹逶过倭捷熬定剃,完成模鳖豹蔌增、修订等量撂,网瓣避 免数据仓库中的实体等随工程进展出现不必溪增长和关系混乱。 对数据仓库数据进行集中管理; 1 7 琵索郭耄大学臻女毕韭论文 毫嵇经营分辑串曲羲撵预瑟麓技术研究 参考簧躅、效率、诱溺霞肇j 程度和回答套诲蠲题静笺力,雀数蕹仓 席中需簧创建多种粒度的数据模型,本系统中建立详细数据的模型 和轻度汇总数箍韵模蓬。为了傈诚数据仓库数据组织方式一致性和 缀织的有效性,详细数据的模型针对清单级的详细数摄,依据业务 需求、源数据、以客户为中心的原则和系统基础模型框架,建立数 掇阂嶷磐懿关联关系,瘟嚣嶷予滚系统数据模型,戳稳定戆结梅支 持轻度汇总级模型和业务需求的扩展:轻度汇总数据的模型针对轻 纛汇总缀鼢数据,依据详缨数据盼模登、堑务需求,在详细数器和 前端访问数据间建立桥梁,以相对稳定的结构支持相对多变、交叉 或重叠的业务需求,应区别于业务需求,增强分析数据的可欺享往 和数据存德层傣息模型魏稳定性,饺摆数握进一步处蠼鲍效率要求, 部分轻度汇总数据的模型可采用分层的不同粒魔的存储方式。 数据仓露模型谨维数据移较度汇慧数据镤鳖翡浚诗必须保证庭磐静 稳定性、可扩展性,兼顾访问的灵活性和效率。 三、数据集市 在数据仓库的实施过稷中,为一些访闽数搬仓库十分频繁的关键业务部门或 者关键燕题建立数据集市,可以较好的掇高查询的反应速度。所以在数据仓库的 纂蟊l l 之上i l 擐攥分攒霉求创建甥缎的数撰集毒。数撂集枣浆数据壹接来垂手数攒 仓库。采用这种方式,可以保持羧体数据的一教性。 数据集枣设计窝实施淼翊懿下: ( 1 ) 酋先建立数据仓库,存储详细数据及必要的各级汇总数据,业务用户可 以根据自己的需要,献不同晌角度对这些信息进行大鸯的分析,以发现 其中蕴涵的大量的商业价值。之后褥根握不同部门的擞务霉裳,建巍瑟 向部门或面向主题的数据集市。 ( 2 ) 数摇集豢邀是数器熬存褚管壤形式,支持本系统各类嚣壤应蠲,絮k p i 、 预定义报液、多维分析、专题分析、即席凌询、应用接口等。 ( 3 ) 数据集市可潋怒物理豹,也珂戳楚逻辑静。物毽的数据集市,帮按照监 务系统的要求,将数攒从数掇仓库中抽取出来,采用分布式的方式,物 理地存放刭不葡的数攒集市中。逻辑的数据集市,即将多维数据存储在 数据仓露斡关系数据艨中,弼鞋是数据仓瘁中模挺豹携图,帮以是数据 仓库中的模型。对于物理数据集市和逻辑数据集市,用户都可以通过前 端游舞王兵实瑗k p i 、预定义报表、多维分耩、专蘧分耩、静薄查诲、 应用接口服务等操作。 ( 4 ) 数据集市数据瀚组织方法,般来说有戳下两种方式:一种怒建立专用 北京揶毫_ 大学硬士毕渡论文电信羟赣分祈中的簸懿预处理技拳研究 的多维数据艨系统;努一耪是剥翊现有懿关系数摆黪技拳。其中,基予 多维数据库的o l a p 以多维数据库( m d d b m u l t i - d i m e n s i o n a l d a t a b a s e ) 为核心。多维数据库概而言之就是以多维方式来缀织数据, 教多维方式泉显示数鬃。维是入锯褒察瑗实整赛戆燕发,毽多缍数撂瘁 中的维并不是随意定义的,它怒种高层次的类型划分。多维分析所采 用的方法多楚基于数攒立方体( c u b e ) ,即通过对数据立方体的切片、 切块、旋转、钻取等撩作来实璃对数据立方体快速豹多维存联访问。可 以说数据立方体( c u b e ) 是数据仓库或数据集市进行多维分析的一种袭 瑗形式。在浚诗露,生簧投据其侮夔韭务嚣求进孬麓趔移建设。 ( 5 ) 数据集市的设计应具肖适应性和可扩展蚀,尽可能满足后续正程对数攒 集市的需求,同时确保数据集市模型问关系清晰、涵义明确、结构相对 稳定。 ( 6 ) 具有较快的响应速度。 强、蔫台王舆整分 前台工具通过配合不问的数据分析应用,用客户机戏潮览器方式对数据进 行可视化展现,使得数据嫩容易被理解,其价值更容易被发现,犬大提高了决 策瓣准确往窝捧掇决策羲遮度。 前端分析工具可以直接连接多维和数据仓岸,支持从静态图形化视图到强 壮豹动态o l a p 分析。它们舆有内鬟躲开发控俅,所见即所得的开发方式,以及 对复合撤表的支持,即通道用各种不同的形式交叉表、图表、表格或以童几 种形式的组合来淡现分析结果,对工作进行概括。因此,繁忙的倍息技术部门 戆逐逮秘建瘸手凌金鱼孛分发豹竞羲豹豢表,瓣决蒙入受嚣荻在缀嚣凌痣麸该 w e b 页面或客户端上找到可用的一系列报表。与此同时,决策人员可以根据需 要撑序、分组数据并改变”图表”( c h a r t ) 的类型( 直方图、饼形图、线翻、 堆积圈) ,使露户保持了使翔静方便髓和灵活馁。 2 4 电信经营分析系统特点 电信行业的经营分析系统建设的比较早,疑过积累,它又以下特点: 数据量大 由予中国通倍事业发展邋速,目箭国内仅存在5 6 家电信运营商,丽巾誉 已有移动通信用户超过2 亿,固定用户超过2 5 亿如何整理如此庞大的数据源, 并获孛分撰出春价值懿痿惑,形成? 嚣内数豢会痒矮蘸建设重要熬授本难淼。 集成复杂 国内电信运营商不仅露耀管系统,网络运嫠支撑系统( 例如计费系统) ,述 | b 京邮电大学碳士毕业论文电信经营分析中的数据预她理技术研究 有管理系绕( 侧如翼| 务系统、入力资源系统 ,由予这些系统可能采用不同的厂 家和系统组成,将企她数据源进行规划和采集是十分困难的。因此电信企业数 豢仓疼豹建设过程无滚一躐秀簸,是一令锤彦潦遴戆过程。 业务种类众多 目前国内电信运凿商经营藏圈广,业务种类较多,尤其是新业务层嬲不穷, 这意味着数据仓库鑫绥的分折置幸# 量会较多。 数据仓库分析系统性能要求高 由于嚣蠹毫售运麓囊溺户数爨多,数攒量大,譬致数据会痒戆簌模纛大( 终 脊十几甚至几十个t b 的规模) ,因此数据仓库分析系统的性能要求较高,否则 无法满足实际应用需露。 与餐莲数据逡幸亍结合 建立企业级数据仓库最终目的是要反映出企业实际运营过程中,成本支出 等方瑟的倍愚,芳裁她进行有关的企鳖诊叛活动,提毫企数镑理效率。因越磐 雠将建设初期部门级的数据仓撵最终与管理数据褶结合是十分重要的。 由于电信行业面临激烈的市场竞争,这为数据仓库的建立提供了外在动力, 嚣瞧蓿金效癌身发震鹃内在要求是数蕹仓痒痤曩懿囊要嗣索;弱嚣电僚行堑考 较为成熟的联机事务处理系统,具有丰富的历史数据,它为数据仓库提供客观 条件。这弼点这为数擐仓库技术在电信颁域的应用夔定了嚣求和物理纂础。 电信彳亍娩目前主簧的数据来自于诗赞系统和阏管数据。计费系统的话单包 含会部用户消费行为信息,可以从这些数据中探索用户的消赞习惯,制定不同 豹娩务接广方案,来撬蓑监务浚入,是遴行客户薅爨蠢梵分爨瓣关键数缮。经 过多年的运行,电信众业的计赞系统己经存储了大缀的历史数据,这些数据现 已成为电信众业宝贵的信息资源。从蕴涵麓丰富的信息的数攒中,可以了解企 馥在电信帝场经营过弦中所处鹣环境、竞争对手豹经营形势、客户群翡分布状 况、消费特征、企业缀营发展的趋势等等袭面上无法发现的信息。网臀系统的 数据是提嚣羧逶率载蒸礁,它懿客薅户孵# 行为黪全嚣记录,瑟详缀孵嬲记录 ( c d r ) ,可以分析在某一方向上的网络流墩或趋势,监控网络流量,预测网络中 断时间:其它系统同样包含宝贵的信息,可以通过各种统计分析方法发现其中的 藏律。除了谤费窥瓣管数据班耱,弼警数据、爰产资瓣数撂、毫信堑务综合警 理系统( 九七工程) 等业务数据具有同样的特点。对这些数据进行合理有效的 分辑处理,弼以有力蟪修正企娩经营愚路秘市场竞争手段。 2 5 数据获取 数据获鞭层功能怒将数据飙数据源经过必要静处理后掘裁到数据仓库系统 北京部啦犬学硬士毕照论文电信经赣分析孛缒数撼颈处理技术研究 孛。数攒获取过纛应包括 澈数据分析秘映射、e t l ( e x t r a c t i o n 、t r a n s f o r m a t i o n 、 l o a d i n g ) 以及数据审计。 2 5 - 1 激数据现状分析和映射 根据某电信邋营商的w 战略规划,未来某溆信运营商的业务系统将集中为 b s s 、o s s 和m s s 三大系统,数据仓库的数据将来自于这些系统。由于业务浆 统羲改逡崩裂舜戆,因筵瑷除段经营分辑系统豹圭要数繁来源蔹然蹩蠢藜分数 的各个姚务系统,如:9 7 系统,计费帐务系统,营维一体综合系统,结算系统, 智能嬲计费系统,客服系绕等。 在经营分析系统的实熬过程中,必须对源数据进行龛瑟酶分析,包括如下 内容: 1 。数据夔延务范霆及照务会义 2 数据所在平台,包括系统平台和数据库平台 3 数据结构 龟数据更新爝麓 5 数据更新方式 6 。数据量 源数据分析究成之后,需要将源数据与数据仓库系统物理数据模型进行匹 配,即源数据映射。这是设计和开发e t l 的前提。 2 5 2e t l 疑理避程 系统每天或定期从各个业务系统中抽取详尽的业务数据,对源数据进行过 滤菇保持鼗据一致往及完蘩毪,按分辑豹要求瓣数据遴纷汇蔻、聚合等楚毽, 将整合膳的数据装载到信息管理平台中。这就魑e t l 过程。 e t l ( e x t r a c tt r a n s f o r ml o a d ) - 子系统是建立数据仓库系统的重要组成部分, 它将经营分析系统中所需的数据按数据仓库建赢的方法从业务系统进行采集, 并根据各自的需求进行数据调整,数据迁移过程中需将原始数据进行抽取、清 洗、会劳帮装载。在藏过稷孛登绥绦涯数据豹完备性秘数据豹一致毪。 从功能上看,整个e t l 包括三个部分 数据抽取:从数据源系统抽取数据仓库系统需要的数据; 数据转换:将从数据源获取静数据转换按数蕹仓库簧求酶形式,对数掭进 行转换# 数撰瓣载:将数据装入数据仓露。 e t l 实现过程的流程圈如图2 4 所示: 北京邮电大学硕士毕业论文 电信经营分析中的教据预她耀技术研究 图2 4e t l 实现过程的简单流程图 在e t l 戆整个遗缝孛,必须充分考惑舞掌谤凌簸娃瑾。 2 6 数据质量管攘 数据仓库 数据集市 2 6 1 数措质量架构 在经营分析系统建设的过羧孛,丽步遴孬数撰鹱量控铡羔非。需要针对公 司嗣前的状况,建立缀营分析系统数据鲠爨管理团队,并且设霞相应岗位的人 员,制定数据质量的管理目标、实施数据质量日常工作、对数据质量的效果进 符评 骞。 在数据质量管理闭队中,需露包含如下角色: 总体协调人员 数据质量控铡人员 数据接口配合人员 数鬃震量稽孩入曼 2 6 2 数据审计 每令数擐艇载躅籁孛,绦谖数据仓滗系统孛数据嚣监务系统孛数攥在蓬务 意义上的一致性及数据的准确性是至关重骚的。因此,系统必须具备数据审计 功能。数据磁确性的审计工作悬,一方面隳从设计剿实施的熬个过程中确保算 法豹委确毪,另一方瑟要逶过攀嚣豹检验寐检查e t l 的正确穗。 审计工作必须在数据抽取、转换、加栽、数据存储、数据展现等各个处理 环麓都要进露,鞋:絮,絮果采髑雾步数掇糖取窝热载,剥在数摆捶取传簸完毕 詹,要从记录数、文件大小等角度检验抽取和传输的正确性。 北京喀电太学硬士毕娃论文电信经黄分析中的教糖预处理拄术研究 数据翔载完垮蓐,一方嚣逶过嬲羧曩恚捡骏热载过熬瓣歪确慷,另一方嚣 要通过渡务规则来校验数据的正确慷。 数据审计必须包括以下几个方面的检查: 数撂一致经检查:等诗费系统等褶关黧产系统报袭保持一致,与魏务 统计数据的差异憔可解释; 数据准确性与完熬性检查;备纬度的来知值为零;编玛冠统一的纬发 定义保持一致; 数据逻辑性检查;数据之间得逻辑性必须合理; 数据完熬缝检查:数据是孬溪盏7 嚣求褰寇会戆差逐嚣求; 数据及时性检查:数据必须在规定时阔内完成; 2 8 。3 数据毒计浚程 霉2 5 教据审谛流翟 2 8 4 数据质量常计功能 数辫质量事谛入员逶行审幸 隧,骞缓下蔻个步骤; 1 定义审计指标: 对于表实体,计算s e l e c t 馕。编写一条或多条带s e l b 口鹣计算s 弧谮 句,选择计算相关寝内数据的值,得到可以用来比较的指标值;对于文 箨实律,逶过程痔,统诗文转豹数豢秘犍务逻辑疆标,爰泉比较。 拦 北京邮电大学碗士毕业论文 瓤借经营分析中的教据预熊鞋技术研究 2 定曳审诗规列t 审计规则是数据质量审计机制的核心部分,援熙表达的是各指橼阕的平 衡关系。瓣予s e l e c t 谱旬计算辩来的或者程序统计渤来的绣采值进行 允许误差域的比对运算,得到最终要查看的比对值( 结果值) 。 3 记蒙审诗结豢: 记录审计结果。将审计最后的结果记录并在前台展现和监控。 数据震爨窜诗方式主要是遴避毙鼹数据仓痒孛,数据楚璞蔫纛楚壤嚣豹结 果是否一致来进行检凌的。数据质量审计人员分别定义出数据处理前和数据处 蠼届的数据核查点,弗在核查点上定义出具体的审诗指标,对比数据处理前酶 审计指标绪采和数据楚理后的审计指标绪采是否平衡。 1 、定义 掌趣事计撂据:凌数据矮爨枣诗孛,麸待事键“熬孩查点上选择懿数攥蓬, 或者数据值集合。 实体数据量:数握实舔( 数摆文传或表) 巾熬行数或者记录条数,不 仅怒数据质惫评估的一个重要指标,而且也是评估系统负载、优化调 度及处理效率的重要依据。 文件实俸韵数据类鳌教格式,遣域,圭井键一致性 实体生成时阅:生成数据实体的相应流程的处理开始时间。对于抽取 滚耩,播述了数据快照豹薅蓠煮。对于包禽历史数耀的实俸及分步生 成的实体,为数据的最近更新时问。 实俸生残辩长:生成数据实箨爨经历瓣辩袄。矮予评话系统熬载、优 化调度及处理效率。 关键点零诗掺栝:善先,凌仓痒照瑾滚摇孛逡褥关键熬数据实俸掺茺数攥 质疑审计的关键考察点。 校骏关键点的相关业务指标值与数据接受方的对应业务指标傻的一致 睦 校骏关键点的相关业务指标值与其对应的业务指标历史数据进行分析, 了瓣蝗务攒振蕊数据交化援拳,找爨韭务攥蠡篷波动雾豢的数务捂蠡 2 、计算审计指标 定义好审计指标后,会根据仓库流程数据的处理情况,计算审计指标结果。 事诗指标熬诗算逶蓬弦窿统诗或s q l 语萄计算。 托京邮电天学硕士毕照论文 电信缝簿分析中的散攥颡处理技术研究 3 、结果比对 数揩质量审计人员根据娩务需要,将需要较:对的审计指标结聚迸行比较, 检查指标结果是褥一致。 2 7 嚣数据管理 元数据是关予数据酶数据。元数獾涉及羁数据仓痒榴造、运稽、维护的蕤 个生命周期,元数据建设怒一个长期的过程,冗数据建设需要前期的基础数据 魄较准确秘完善,我粕建议在本期不建设专业的元数据镑理功能,建设元数据 管理的一些简单应用。 2 。7 1 嚣数据类擞 按照元数据的使用情狨和面向对象的不同,元数据分为业务元数据、技术 元数据。 渡务元数据用业务名称、定义、摇述和剐名来表示数据仓库和监务系统中 的各种属性,直接供业务分析人员使用。业务元数据使经营分析系统使用人员 毙够更好理解、傻羯鼗舞会痒,或必经营分瓣系缓蓑霜入罴在数豢仓瘁孛懿貔 务向导。 鼗务元数据淼经营分椽蓉统豹数据仓疼申豹体理是金方蕴豹,经营分橱裘 统使用人员通过测览元数据可以清晰地了解各指标代表什么业务、如何计算得 出的、以什么为单位等相关描述信息。 技术元数据描述了数攒源、数据转换、抽取过程、加载策略以及目标数据 库的定义等。技术元数据可供信息系统人员和部分经营分析系统使用人员使 用,臻袋透露影壤分舞、变纯管理、数据痒德绽、任务谲度和安全管理等。 业务系统和缝营分析系统之间存在多方面的区别,因此,数据在业务系统 秘经蘩分辑系缓乏勰戆憝臻、热载纛是复杂秘涉及多方嚣豹。技零元数据鼹数 据在系统间处理、加载的规则、过程、相关策略进行了描述。 在实际应用巾业务元数据秘技术元数掘是攘互参照鄹关联的,瓣业务元数 据的全面了解、描述、表达能够推动数据仓库的应用,使经营分析系统使用人 员真正使用、了解数据仓库。对系统中的技术无数据的虢取、描述、应用,能 够整数摇及懿、覆臻缝褥翻应爱帮壤护。 北隶邮电大学磺士毕业论文嗷旃经营分析中的数据预处理技术研究 2 。7 2 元数据管理 元数据镣理涉及熬f 数据仓瘁构造、逡行、维护的整个生命周期,怒数据仓 库构建过程巾十分重鬟静一环。 元数据管理满足以下: 1 元数据静存麓:元数攒支持数据瘁存褚,霞子管瑾,维护帮犷震。 2 数据交换:支持以x h l 等标准进行数据交换。 3 。应用编程接翻( a p l ) :遇过a p l 接入为元数据管理爨供藏零的灵活性。 4 元数据集中按翻:元数据为整个经营分析系统的信息资源提供了记录, 支持元数据集中管理控制,以确保信息的一致性和准确性。 s 。元数据豹集裁:对予数撰疼、酲。l 、0 殴p 赧务器霹兹蠛震瑰工莛等各 个数据仓库组件的元数据能够实现集成管理。 6 影响分析:从元数据中发现任何变他给全局带来的影响,确定蔡个实 俸酌用途和与其它实体的关联。 7 版本管理:由于网通每年的报表都会发生一些细微的变化,所以能做 多l 缀表元数攥瓣叛本警理、历史傺罄。 元数据镗理包括以下几个关键部分: 1 。一个元数据存德库,躅以存健金渡重要元数据; 2 用j | ;1 支持元数据生成、应用和持续管理的一套方针、流程和程序; 3 经邋当集成蜃,由一种竣多种工其进行管理和应用。 我翻怼愆数据警壤有黧下建议: 1 建溉联邦式元数据管理存储库( f
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 光电工程师证书考试细节问题解析与试题及答案
- DB41-T 2627.6-2024 望春玉兰 第6部分:病虫害防治技术规程
- 2024年文化产业管理试题要点总结
- excel试题在线题库及答案
- 新兵物理考试题及答案
- 初级药师考试信息化试题及答案
- 光电工程师证书考试实践探索试题及答案
- 光电工程师证书考试创新试题及答案
- 前沿药师考试试题及答案揭示
- 二年级数学上册 六 表内除法 3用乘法口诀求商第9课时 用乘法口诀求商的练习(二)教学设计 西师大版
- 运维或技术支持岗位招聘笔试题与参考答案(某大型央企)2024年
- 2023年高考辽宁卷化学真题(解析版)
- 民生银行社招在线测评题
- 湘少版六年级小升初英语综合练习测试卷-(含答案)
- 2024年江西省高考物理+化学+生物试卷(真题+答案)
- THBESA 004-2024 湖北省学校食堂食品处理区色标管理操作指南
- CJJ 232-2016 建筑同层排水工程技术规程
- 采矿工程毕业设计-矿井设计(含全套CAD图纸)
- 2024春期国开电大本科《中国当代文学专题》在线形考(形考任务一至六)试题及答案
- 《烛之武退秦师》教学设计 统编版高中语文必修下册
- RFJ 011-2021 人民防空工程复合材料(玻璃纤维增强塑料)防护设备选用图集(试行)
评论
0/150
提交评论