版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、补充:结合电信领域的特点,通过一个应用实例来说明数据仓库的具体实施第一阶段:工程的需求和目标分析一主题划分电信公司分公司营业 厅网管中心账务核算客户市场营中心中心中心销部门计费 中心记形获登管收录形成取记理集电信注册/计费/支付投诉/代销、市场竞网络变更账务咨询分销商争信息形 成管 理登 记记 录客户形 成消 费一个简单的电信企业模型DB网管DB计费DB账务DB在电信企业中,现有的业务数据库系统一般包括客户效劳 市场信息DB营销信息DB等。通常按照电信公司的业务需求可能将其主题域划分为:1 客户开展:主要是对客户群体进行分类后,从不同的角度展现公司提供效劳的客户数量情况。可以按照客户本身的自然
2、属性如年龄、入网时间、受教育程度等、客户的扩展属性如信用度、客户价值、流失概率、挽留价值等等不同的角度进行划分。2 .收益分析:主要是通过不同的角度对电信企业的收益情况进行分析。收益分析的角度 可以按照客户的自然属性和扩展属性划分,也可以按照电信公司的业务运营进行划分,还可 以按照机构设置、地理角度对收益进行划分。3 .呼叫特征分析:分析不同类型客户在呼叫上具有的特征。具体的衡量指标包括很多, 例如:把呼叫分成长呼叫、中呼叫、短呼叫。4.业务开展:主要是对电信公司提供的各种业务的使用客户人数、客户特征、收益金额进 行比拟,以发现具有潜力的业务或者为开展能够吸引更多客户的新业务提供指导。5 营销
3、管理:主要是对各电信营业厅、电信分销商、代销商的经营状况进行分析。6 市场竞争:主要是对电信运营商的竞争对手的客户开展、收益、业务运营等多方面的 信息进行收集并分析,从而为本企业提供市场竞争的策略。其中涉及的数据主要是外部数据 和非格式化数据。7等。8效劳质量:主要包括发现客户投诉、咨询的焦点,发现公司内部在运营上存在的问题网络优化管理:分析如何有优化网络的配置、如何更好的对网络进行管理等问题。电信领域常见的数据挖掘层次的问题1 客户群体划分:客户群具有两个金字塔占总客户数 10%的大客户的消费金额占了总 客户消费金额的70%。对客户群体进行合理的划分,有利于公司了解一下信息:公司的主要客户群
4、体的情况;主要客户群体的呼叫特征行为;主要客户群体对业务的需求;大客户群体的呼叫特征行为;大客户群体对业务的需求;在对客户进行合理划分的根底上,可以针对不同客户群体的特点采用不同的策略,对其 消费行为进行合理的引导。可以采用聚类或分类的方法2客户流失划分:挽留一个老客户比争取一个新客户付出的代价要小得多。3客户欺诈分析:主要针对可能出现的客户恶意欠费问题进行分析。4 .网络规划优化5 网管中的分析问题:网络优化、网管故障的相关性分析、统计设备的故障率等。三.工程规划在工程初期,应中选择当前最急需、能在较短时间内发生效益、业务模型清晰、能从现 有系统或通过其他方式获取数据的决策目标作为系统初期的
5、任务。在后续阶段,根据新的需 求、现有系统的改造情况、积累的经验确定新的决策目标,逐步开展完善数据仓库系统。在建设初期,可以将以下五个主题列在前期任务考虑之内。客户开展分析收益情况分析呼叫特征分析营销管理分析业务开展分析作为螺旋开发的第一个循环,建议先将客户开展、收益分析、呼叫特征分析列入第一阶 段的任务。四需求分析的形成1 任务说明书:在任务书中,指明了 DW中涉及的主题有3个:客户开展、收益分析、呼 叫特征分析。在 DM层次上,需要完成对客户的流失概率、客户价值、客户挽留价值进行合 理的评估。2.需求说明书:任务说明书需要设计人员进一步将其细化成需求说明书。在进行需求分析的时候,设计人员最
6、少应当访问如下的几类人:(1) 工程负责人:对整个工程的宏观目标和方向有比拟准确的把握,对DW工程有全境 式的认识。(2) 主题涉及部门的管理人员:了解部门内部对数据的需求。使得设计人员能够站在管 理人员对数据需求的角度来看问题,而不是站在技术的角度看问题。(3) DSS分析员和未来使用DW系统的最终用户:从他们那里了解他们目前是如何为管理 层提供决策辅助信息的,提供信息的内容包括哪些,信息的来源有哪些,在处理数据中遇到 的棘手问题有哪些,另一方面是他们对 DW系统的需求和希望,并可以从最终用户那里了解 比拟细致的需求。(4) 企业的信息技术人员,包括数据管理人员(对数据质量进行管理的人员,不
7、是DBA、 数据库管理员、数据库设计人员、程序员:从他们那里了解现有业务系统是如何构造的、现有系统的运行情况、现有系统中存在哪些问题、应该从哪儿获取需要的数据。各类人员同工程需求的关系如下列图所示:部门高层管理人员DSS分析员工程负责人决策辅助信息的使用者当然还包括更高层的人员未来的最终用户手工的数据分析、非集成的数据分析业务系统B业务系统C业务系统的设计、使用、维护者了解工程的全境,把握工程的目标和方向了解部门内部对数据的需求了解部门内部某一局部对数据的需求 及其细节企业技术人员了解现有系统的细节设计人员需要将从上述人员那儿了解到的信息进行归纳总结,权衡各方面的因素,最终 给出一个比拟具体的
8、功能需求描述。下表给出一个收益分析主题的功能需求分析例子。收益分析不同时期的收入总量分析及预测。收益结构分析月租费、本地话费、漫游费、 入网费、卡费等功能名称功能描述度量涉及维度维成员品牌和业务构成收益的品牌构成各种品牌在企业总收益中所占比重和数量收益、收益 百分比品牌神州行、 全球通收益的业务构成各项业务在企业总 收益中所占比重和 数量收益、收益 百分比业务类别通话、 短信息呼叫特征企业收益的主/被 叫构成主叫、被叫对于企 业收益的奉献收益、收益 百分比主/被叫主叫、被叫企业收益的呼叫 类型构成长途、漫游、本地 对于企业收益的贡 献收益、收益 百分比通话类型长途、漫 游、本地企业收益的呼叫
9、时长构成不同时长的呼叫对 于企业收益的贝献收益、收益 百分比呼叫时长1分钟以下15分钟 510分钟10分钟以 上等:客户特征企业收益的客户不同性别客户对于收益、收益客户性别男性别构成企业收益的奉献百分比、客户数量女 未知企业收益的客户 年龄构成不同年龄段客户对 于企业收益的奉献收益、收益 百分比、客 户数量客户年龄段18以下1822O O O企业收益的大客 户构成大客户和普通客户 对于企业收益的贡 献收益、收益 百分比是否大客户 维大客户 普通客户企业收益的客户 类型构成企业收益客户类型 的百分比构成客户数量、 百分比客户类型单位、 个人企业收益的不同在网时间客户构成不同在网时间客户 对于企业
10、收益的贡 献收益、收益 百分比、客 户数量在网时间维一年以下12年O O O企业收益的客户 信用积分构成O O O收益、收益 百分比、客 户数量客户信用积 分根据数据 的具体分 布企业收益的客户 信用度层次构成O O O信用度客户信用度按照挖掘 后的结果 进行划分企业收益的客户 消费层次构成O O O收益、收益 百分比、客 户数量客户消费层 次按照挖掘 后的结果 进行划分企业收益的客户离网概率层次构成O O O收益、收益 百分比、客 户数量客户离网概 率层次按照挖掘 后的结果 进行划分企业收益的客户挽留价值层次构成O O O收益、收益 百分比、客 户数量客户挽留价 值层次按照挖掘 后的结果 进
11、行划分企业收益的客户 价值层次构成O O O收益、收益 百分比、客 户数量客户价值层次按照挖掘 后的结果 进行划分企业收益中小客 户成为大客户概 率层次构成O O O收益、收益 百分比、客 户数量中小客户成 为大客户概 率层次按照挖掘 后的结果 进行划分欠费情况和预测欠缴费比例O O O金额收 益、金额百分比、客户数量、 客户数量 百分比欠缴费欠费、 缴费不同时期的企业 欠费金额O O O欠费金额时间月、季、半 年、年不同时期的企业 欠费数量O O O欠费客户数量时间月、季、半 年、年收益预测话费收益预测O O O短信费收益预测O O O不同时期的企业 收益情况O O O收益收益/欠费 百分比
12、时间月、季、半 年、年在完成功能需求后,可以用一个 数据搜集报告把所需的不同的数据源的属性列出来。此 报告至少包含如下的内容:数据源内/外部数据源负责维护此数据的个人/组织设计该数据库的DBA数据使用的存储方式数据中包含的表、字段、记录的数据数据的大小数据的物理存储介质平安需求数据在使用上的限制数据是否涉及用户的隐私问题数据描述报告中 应包含如下内容:字段/列的数据字段是空缺值的数据/百分比字段的名字对于每个字段,通常需要记录:数据类型数据定义数据描述计量单位所有不同值的个数值的列表值的范围空值的百分比 收集信息例如怎么得到、在哪、什么条件下 时间频度每天、每周、每月特别时间数据主键/ 外键关
13、系第二阶段 系统结构和模型设计一系统结构设计1 数据量的估算2 系统硬件结构 / 软件结构选择 : 根据数据量的估算,选择相应的软硬件配制i. DW模型的设计1 可利用的数据:要确定完成以上 3个主题,需要 3 局部信息: 客户的根本信息表客户的账单客户的呼叫信息表CDR表用户识别码用户号码用户类别用户级别用户信用度用户姓名用户通信地址用户身份证号用户联系 用户 用户归属局通信费支付方式开户日期用户状态用户密码开户行编码信用卡卡号用户银行账号账号开户名用户付款状态用户号码 月租费 附加功能费 本地话费 省内漫游费 省际漫游费 国际漫游费 账单金额 短信费 滞纳金金额 总话费 付款方式 开户银行
14、代码 用户银行账号呼叫类型IMSI 号主叫号码 被叫号码 通话开始时间通话时长根本通话费根本通话附加费长途费长途附加费通话位置漫游类型2 粒度确实定:设计DW中,最重要的步骤。对于客户根本信息表采用单一的数据粒度即可。对于客户的账务信息也采用单一的数据粒度。但是要增加适宜的时间段和适宜的导 出数据按季度综合、按年度综合对于客户的呼叫信息采用双重粒度:对于近 34个月的细节呼叫/计费数据,保存在 DW中,并定期聚合成按月综合表,然后将细节数据导出至磁带设备,为新的细节数 据腾出空间。呼叫类型IMSI 号 主叫号码 被叫号码 通话开始时间 通话时长 根本通话费 根本通话附加费 长途费 长途附加费
15、通话位置 漫游类型IMSI 号 主叫号码 被叫号码 通话开始时间 通话时长 根本通话费 根本通话附加费 长途费 长途附加费 通话位置 漫游类型3个月之前的细节数据磁带设备按月综合的数据通话月份主叫号码通话总次数通话总时长漫游类型通话次数漫游类型通话时长长途类型通话次数长途类型通话时长主叫通话次数主叫通话时长被叫通话次数被叫通话时长短信发送次数短信接收次数最近3个月的细节数据3 定义DW的关系模式:这个过程需要第二阶段形成的数据搜集报告进行记录系统的定义。所谓记录系统的定义就是指明 DW中关系表各个字段来源于哪个业务数据库的哪张 表的哪个字段。还需要建立一个数据字典,将问题中涉及的关键词语的含义
16、、在字段命 名中将采用什么关键字等信息记载在数据字典中。三.OLAP莫型设计OLAP模型设计的思路是先分析问题中可能涉及的所有维度,针对每一个主题确定需要的维度和度量变量,然后为每一个主题定义关系模式,从而形成一个星型结构。在这个星型结构 的根底上,可以生成多维数据表,建立多维数据库。1 .工程设计的维度分析静态维度:指客户详细资料维、状态维、年龄段维、品牌维等不经常发生变化的纬度。静态维度并不一定是完全不变的,只是相对动态维度而言。动态维度:指经常会发生变化的维度,例如客户的呼叫地理维度、呼叫时间维度、 客户的费用层次纬度,这些维信息都将随着时间的变化而变化。目标维度:需要通过数据挖掘分析的
17、目标。根据工程任务书中,我们主要的目标有 分析客户的价值、客户的流失概率、客户的挽留价值、客户的信用度 等。这些维度 在进行DM之前是空缺的,在进行 DM之后,利用DM的模型给这几个指标打分,然 后在将这些数据补充回OLAP的维表和事实表中,供数据展现使用。2 各个主题的维度设计:以收益分析主体的维度设计说明书为例:模型名称:收益分析模块功能:用于企业收益构成分析对应的事实表:profit_s度量:收益,入个用户账单记录产生的总费用金额数据粒度:在事实表中,记录每个用户每月的费用信息。事实表存放5年之内的数据,5年以上的数据按时间(月)进行汇总后从事 实表中导出。相关的维度:(1) 客户详细资
18、料维(2) 客户性别维(3) 客户年龄段维(4) 品牌维(5) 收益类别维(6) 通话类型维(7) 是否大客户维(8) 月总呼叫次数层次维(9) 平均呼叫时长层次维(10) 信用积分维(11) 信用度层次维(12) 消费层次维(13) 离网概率层次维(14) 挽留价值层次维(15) 价值层次维(16) 时间维(17) 客户类型维(18) 在网时间维注释:以上各维均与客户相关,用于分析不同客户群体对企业收益的奉献, 维的层次和元素与客户数量分析模型中相同。收益分析主题的星型结构如下:Table5客户详细资料维PKCust ID收益事实表ProfitiiliCust_IDSex_ID AgeLev
19、el_ID Bra ndD CallToallCountLevel ID客户性别维PKSex ID客户年龄层次维PKAgeLevel IDTable1品牌维PKBrandDTable4月总呼叫次数层次维PKCallTotalCou ntLevelIDTable3Table2第三局部系统装载、数据挖掘和界面设计一数据装载/数据综合模块设计DW中的细节数据装载模块负责从业务系统的数据表中提取、清洗数据以及转化格式变为 表。数据综合模块利用装载模块生成的细节表生成各个综合层次的数据表和导出表。在进行数据装载模块设计时,需要注意以下几个问题:定义良好的数据清洗规那么:数据质量的重要保证注重代码的模块化
20、和重用性、可维护性。提高代码的处理效率制定一个调度方案:不同的装载程序需要在不同的时间运行,设计人员需要根据实际系统的情况,确定一个合理的数据抽取方案,并在DW管理工具中实施这个调度方案OLAP莫型生成程序。如果需OLAP莫型生成模块利用DW中的数据构建维表和事实表通常先实现一个主题 要创立多维数据库,那么需要将维表和事实表连接后生成一张详细的多维数据表,然后在这张多维数据表的根底上创立多维数据库。OLAP模型生成/创立多维数据库模块数据装载模块数据综合模块数据仓库细节表细节表综合表/导岀表综合表/导岀表三.数据挖掘宽表设计和生成要进行DM需要将所有能够收集的对分析有用的信息组织成一张非常“宽
21、的数据表, 将这张表称为数据挖掘宽表。1 首先确定同目标变量相关的数据:通常需要向该方面的分析专家请教。2 .创立新变量:即对细节数据要进行一定程度的综合, 比原始细节数据更具有现实意义。3 准备训练集合与验证集合数据质量的检验选择适宜的数据抽样方法为目标变量附上初始值:目的是为模型准备训练 /验证数据集合,这些初始值并不 是最终的结果。根据算法的需要,对宽表中的变量,特别是目标变量的形式进行转化:常常将目 标变量转化成布尔型变量。例如将目标变量“客户流失概率转化为新的目标变量“是否流失4. 确定分析的次序:由于目标变量之间存在相关性,因此需要确定分析的次序客户信用度客户价值客户流失概率客户挽留价值5. 变量选择:在准备好数据训练/验证集后,需要将同目标变量具有强相关性的变 量去除。例如:我们要分析客户价值,就需要将计算客户价值公式中出现的变量去除, 否那么DM工具将直接在这些变量和目标变量间建立关系,而不是我们所希望的通过划 分客户是否高价值客户来发现高价值客户在呼叫行为、 消费行为、背景信息上的特征。6. 挖掘建模:将训练/验证集合作为输入数据,利用挖掘工具/算法进行建模。模型 通常是以一个数据处理程序的形式给出的。 使用模型程序对宽表中
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度年福建省高校教师资格证之高等教育心理学模拟考试试卷B卷含答案
- 2024年度山西省高校教师资格证之高等教育法规考前练习题及答案
- 历史教师培训心得体会
- 2024年度茶叶批发销售协议范本
- 2024年私人贷款协议样式
- 房产买卖居间服务协议2024全攻略
- 2024年家庭装修协议
- 2024游乐场设施租赁协议模板
- 2024年居间合作项目协议精简
- 2024年跨境资本贷款协议示例
- (新版)高级考评员职业技能鉴定考试题库(含答案)
- 中医护理进修总结汇报
- 《食品理化检验技术》课件-第七章 糖类
- 毛竹购销合同协议书
- 《食品安全抽样检验工作规范》附件文书2024
- DL∕T 1555-2016 六氟化硫气体泄漏在线监测报警装置运行维护导则
- 2024广西专业技术人员继续教育公需科目参考答案(97分)
- YYT 0653-2017 血液分析仪行业标准
- 个体户退股协议书范本版
- 室外管网施工组织设计
- 当代社会政策分析 课件 第四章 教育社会政策
评论
0/150
提交评论