




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Clementine数据的基本分析数据的基本分析变量的探索性分析---评估数据的质量计算基本描述统计量---掌握数据分布特征的数字变量分布的探索两变量的相关性分析列联分析---揭示品质型变量之间的内在联系均值检验---把握数据之间的相互影响程度变量的重要性分析分析工具:图形分析数值分析数据的基本分析案例数据;虚拟的电信客户数据该数据包括:居住地、年龄、婚姻状况、家庭月收入(百元)、受教育水平、性别、家庭人口、基本服务累计开通月数、是否申请无线转移服务、上月基本费用、上月限制性免费服务项目的费用、无线服务费用、是否电子支付、客户类型、是否流失15个变量。分析任务:分析保持和流失客户的一般特征(本章)建立模型做客户流失的预测(后续)数据质量的探索数据离群点和极端值的诊断和处理问题数据缺失值的替补问题数据中离群点和极端值的诊断和处理数据中完整变量和完整样本(不包括缺失、空白、离群点、极端值等)比例的计算示例流失客户在各个变量的不同取值都有分布开通月数比较少的客户其流失比例相对较大
收入变量呈显著的右偏不对称分布
收入和家庭人数两个变量上分别存在15和6个无效样本数据质量主要出现在:异常点和极端值上数据质量的探索---数据离群点和极端值问题离群点和极端值的修正处理Coerce:用离群点或极端值最近的正常数据替代它们。例如,如果异常点定义为3个标准差以外,则可用3个标准差上的最大值或最小值替代。
Discard:剔除异常点或和极端值。Nullfiy:用系统缺失值$null$替代异常点或极端值。
Coerceoutliers/discardextremes:按照第一种方法修正异常点,剔除极端值。Coerceoutliers/nullifyextremes:按照第一种方法修正异常点,用系统缺失值$null$替代极端值。数据质量的探索---数据离群点和极端值问题替补对象
BlankValues:对空白进行替补
NullValues:对系统缺失值$null$进行替补
Blank&NullValue:对空白和系统缺失值进行替补Condition:对满足指定条件的变量值进行替补替补方法
Fixed:用一个具体的值替补,均值、中间值、常数
Random:用正态分布或均匀分布中的一个随机数替补
Expression:用一个指定的算术表达式结果替补。Algorithm:用分类回归树的预测值替补数据质量的探索---缺失值替补保留高质量的变量Generate->FilterNode保留有效样本Generate->SelectNode数据质量管理的其他功能基本描述分析目标:对数值型变量计算基本描述统计量分析数值型变量之间的相关程度示例:计算基本服务累计开通月数、上月基本费用、上月限制性免费服务项目的费用、无线服务费用的基本描述统计量计算上述变量与年龄、家庭月收入(百元)、家庭人口之间的简单相关系数选择相关性较高的变量基本描述分析示例:利用DataAudit查看定距数据之间的相关性(基本费用和年龄)绘制散点图:示例:基本费用和年龄之间的相关性图形和数据的交互、图形的编辑分布特征探索变量进行怎样的转换处理后更接近正态分布示例:电信客户数据中,分析各种费用应做怎样的转换处理才接近正态分布定类变量相关性的研究---图形分析示例:分析套餐类型的分布特征,以及流失客户在套餐类型上的分布绘制柱形图柱形图参数的设置:ProportionalscaleNormalizebycolor柱形条数据访问样本的balance处理:boost/reduce定类变量相关性的研究---图形分析示例:分析套餐类型的分布特征,以及流失客户在套餐类型上的分布绘制网状图:直观展示两个或多个分类变量相关性特征的图形Web图:反映两两变量之间的关系示例:套餐类型和是否流失Web图的显示控制Directedweb图:反映一个变量与多个变量之间的关系示例:流失因素的探讨(婚姻状况、电子支付、套餐类型)定类变量相关性的研究---列联分析示例:分析套餐类型的分布特征,以及流失客户在套餐类型上的分布数值分析:列联分析分析的变量类型?分析的数据对象?原假设?采用的检验统计量?什么是期望频数?如何利用检验统计量的观测值和概率p值进行决策?采用的检验统计量通常有怎样的约束?定类变量相关性的研究---列联分析列联分析,品质数据的相关性进行分析年龄与工资收入交叉列联表 低中高 青 4000 0 中 0500 0 老 00 600 低中高 青 00 500 中 0600 0老 4000 0
H0:行列变量之间相互独立构造卡方统计量统计量服从(r-1)*(c-1)个自由度的卡方分布count:观察(实际)频数expectedcount:期望频数(期望频数反映的是H0成立情况下的数据分布特征)Residual:剩余(观察频数-期望频数)定类变量相关性的研究---列联分析定类变量相关性的研究---列联分析利用Matrix,计算流失/保留客户选择不同服务套餐类型时的基本费用的平均值基本分析---两总体均值的比较示例:分析保持客户与流失客户的基本费用描述性分析:图形观察直方图参数控制:等距分组或手动分组、balance处理示例:分析保持客户与流失客户的各种费用的总体均值比较两总体均值检验多总体均值检验:方差分析分析的变量类型?分析的变量称谓?分析的前提要求?原假设?采用的检验统计量?基本分析---两总体均值的比较示例:分析客户基本费用的均值与免费部分的均值是否存在显著差异配对样本的均值检验分析的变量类型?分析的前提要求?原假设?采用的检验统计量?基本分析---两总体均值的比较变量重要性的分析从两个方面联合考察:从变量本身考察从变量与输出变量相关角度考察从变量本身考察变量中缺失值所占的比例定类变量中分类值所占的最大比例
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 湖北汽车工业学院《社区服务和家政》2023-2024学年第二学期期末试卷
- 湖北生态工程职业技术学院《精准医学和癌症》2023-2024学年第二学期期末试卷
- 长春职业技术学院《皮肤生理学》2023-2024学年第一学期期末试卷
- 新疆科技学院《C程序设计及医学应用》2023-2024学年第二学期期末试卷
- 闽南师范大学《影视后期编辑实践》2023-2024学年第二学期期末试卷
- 湖南工程职业技术学院《教育概论》2023-2024学年第二学期期末试卷
- 河北艺术职业学院《阿拉伯语语法二》2023-2024学年第一学期期末试卷
- 汝州职业技术学院《大学英语Ⅳ》2023-2024学年第一学期期末试卷
- 南阳职业学院《毕业论文(设计)写作与文献检索》2023-2024学年第二学期期末试卷
- 塔里木职业技术学院《影视作品鉴赏》2023-2024学年第一学期期末试卷
- 纵隔肿瘤护理查房
- 眼镜店销售培训课件
- 宜宾市属国有企业人力资源中心宜宾临港投资建设集团有限公司下属子公司2025年第一批项目制员工公开招聘笔试参考题库附带答案详解
- 2025年全民国家安全教育日主题班会
- 2024-2025学年高一政治统编版下学期期中考试测试卷B卷(含解析)
- 江苏省盐城市东台市2024-2025学年高一上学期期末考试化学试题
- 内蒙古自治区呼和浩特市2025届高三第一次模拟考试物理答案
- 仓库管理奖惩制度
- 中级银行管理-2025中级银行从业资格考试《银行管理》点睛提分卷1
- 酒店前台插花培训课件
- 乳腺癌诊治指南与规范(2024年版)解读
评论
0/150
提交评论