版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Clementine数据的基本分析数据的基本分析变量的探索性分析---评估数据的质量计算基本描述统计量---掌握数据分布特征的数字变量分布的探索两变量的相关性分析列联分析---揭示品质型变量之间的内在联系均值检验---把握数据之间的相互影响程度变量的重要性分析分析工具:图形分析数值分析数据的基本分析案例数据;虚拟的电信客户数据该数据包括:居住地、年龄、婚姻状况、家庭月收入(百元)、受教育水平、性别、家庭人口、基本服务累计开通月数、是否申请无线转移服务、上月基本费用、上月限制性免费服务项目的费用、无线服务费用、是否电子支付、客户类型、是否流失15个变量。分析任务:分析保持和流失客户的一般特征(本章)建立模型做客户流失的预测(后续)数据质量的探索数据离群点和极端值的诊断和处理问题数据缺失值的替补问题数据中离群点和极端值的诊断和处理数据中完整变量和完整样本(不包括缺失、空白、离群点、极端值等)比例的计算示例流失客户在各个变量的不同取值都有分布开通月数比较少的客户其流失比例相对较大
收入变量呈显著的右偏不对称分布
收入和家庭人数两个变量上分别存在15和6个无效样本数据质量主要出现在:异常点和极端值上数据质量的探索---数据离群点和极端值问题离群点和极端值的修正处理Coerce:用离群点或极端值最近的正常数据替代它们。例如,如果异常点定义为3个标准差以外,则可用3个标准差上的最大值或最小值替代。
Discard:剔除异常点或和极端值。Nullfiy:用系统缺失值$null$替代异常点或极端值。
Coerceoutliers/discardextremes:按照第一种方法修正异常点,剔除极端值。Coerceoutliers/nullifyextremes:按照第一种方法修正异常点,用系统缺失值$null$替代极端值。数据质量的探索---数据离群点和极端值问题替补对象
BlankValues:对空白进行替补
NullValues:对系统缺失值$null$进行替补
Blank&NullValue:对空白和系统缺失值进行替补Condition:对满足指定条件的变量值进行替补替补方法
Fixed:用一个具体的值替补,均值、中间值、常数
Random:用正态分布或均匀分布中的一个随机数替补
Expression:用一个指定的算术表达式结果替补。Algorithm:用分类回归树的预测值替补数据质量的探索---缺失值替补保留高质量的变量Generate->FilterNode保留有效样本Generate->SelectNode数据质量管理的其他功能基本描述分析目标:对数值型变量计算基本描述统计量分析数值型变量之间的相关程度示例:计算基本服务累计开通月数、上月基本费用、上月限制性免费服务项目的费用、无线服务费用的基本描述统计量计算上述变量与年龄、家庭月收入(百元)、家庭人口之间的简单相关系数选择相关性较高的变量基本描述分析示例:利用DataAudit查看定距数据之间的相关性(基本费用和年龄)绘制散点图:示例:基本费用和年龄之间的相关性图形和数据的交互、图形的编辑分布特征探索变量进行怎样的转换处理后更接近正态分布示例:电信客户数据中,分析各种费用应做怎样的转换处理才接近正态分布定类变量相关性的研究---图形分析示例:分析套餐类型的分布特征,以及流失客户在套餐类型上的分布绘制柱形图柱形图参数的设置:ProportionalscaleNormalizebycolor柱形条数据访问样本的balance处理:boost/reduce定类变量相关性的研究---图形分析示例:分析套餐类型的分布特征,以及流失客户在套餐类型上的分布绘制网状图:直观展示两个或多个分类变量相关性特征的图形Web图:反映两两变量之间的关系示例:套餐类型和是否流失Web图的显示控制Directedweb图:反映一个变量与多个变量之间的关系示例:流失因素的探讨(婚姻状况、电子支付、套餐类型)定类变量相关性的研究---列联分析示例:分析套餐类型的分布特征,以及流失客户在套餐类型上的分布数值分析:列联分析分析的变量类型?分析的数据对象?原假设?采用的检验统计量?什么是期望频数?如何利用检验统计量的观测值和概率p值进行决策?采用的检验统计量通常有怎样的约束?定类变量相关性的研究---列联分析列联分析,品质数据的相关性进行分析年龄与工资收入交叉列联表 低中高 青 4000 0 中 0500 0 老 00 600 低中高 青 00 500 中 0600 0老 4000 0
H0:行列变量之间相互独立构造卡方统计量统计量服从(r-1)*(c-1)个自由度的卡方分布count:观察(实际)频数expectedcount:期望频数(期望频数反映的是H0成立情况下的数据分布特征)Residual:剩余(观察频数-期望频数)定类变量相关性的研究---列联分析定类变量相关性的研究---列联分析利用Matrix,计算流失/保留客户选择不同服务套餐类型时的基本费用的平均值基本分析---两总体均值的比较示例:分析保持客户与流失客户的基本费用描述性分析:图形观察直方图参数控制:等距分组或手动分组、balance处理示例:分析保持客户与流失客户的各种费用的总体均值比较两总体均值检验多总体均值检验:方差分析分析的变量类型?分析的变量称谓?分析的前提要求?原假设?采用的检验统计量?基本分析---两总体均值的比较示例:分析客户基本费用的均值与免费部分的均值是否存在显著差异配对样本的均值检验分析的变量类型?分析的前提要求?原假设?采用的检验统计量?基本分析---两总体均值的比较变量重要性的分析从两个方面联合考察:从变量本身考察从变量与输出变量相关角度考察从变量本身考察变量中缺失值所占的比例定类变量中分类值所占的最大比例
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026云南怒江州贡山县医疗保障局选聘医疗保障义务社会监督员10人笔试模拟试题及答案解析
- 2026年湖北省咸宁市单招职业倾向性测试模拟测试卷及答案1套
- 2026年江西陶瓷工艺美术职业技术学院单招职业倾向性测试模拟测试卷附答案
- 2026年江苏经贸职业技术学院单招职业倾向性考试题库及答案1套
- 2026年晋城职业技术学院单招职业倾向性测试题库及答案1套
- 2026年山西省忻州市单招职业适应性测试模拟测试卷附答案
- 2026年心理年龄考试题库及一套答案
- 《东方烟草报》社有限公司2026年高校毕业生招聘3人笔试模拟试题及答案解析
- 2025年山东潍坊国联嘉禾新材料有限公司招聘10人笔试备考试题附答案
- 2025年福建省福州市建筑设计院股份有限公司招聘14人笔试备考试题附答案
- 2025-2026学年北师大版二年级上册数学期末试卷及答案(三套)
- 放射科放射影像诊断演练培训
- 全国公路养护标准操作手册
- (2025年)(新)住院医师麻醉科出科考试试题(+答案)
- 2026年吉林工程职业学院单招职业技能考试必刷测试卷必考题
- 污水处理厂废水污染源追溯与溯源技术
- T-CAPC 004-2021 药品经营企业物流服务能力评估标准
- 教育部人文社科一般课题申报书
- 2025年事业单位联考e类结构化面试试题及答案
- 企业副总工作总结
- YDT 5102-2024 通信线路工程技术规范
评论
0/150
提交评论