




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、SWUFE1数据探查张英2022年3月24日星期四SWUFE2数据质量数据集特征 数据对应用的适合性数据对应用的适合性相关性、完备性、时效性相关性、完备性、时效性 数据的代表性数据的代表性(抽样偏倚抽样偏倚) 数据的可用性数据的可用性 属性含义、类型、取值单位、范围及约束说明 数据的收集问题数据的收集问题 数据的重复、缺失、不一致问题;是否存在孤立点2022年3月24日星期四SWUFE3数据质量数据集 数据的集成程度数据的集成程度 数据的规模和稀疏性数据的规模和稀疏性2022年3月24日星期四数据对象(实例、记录、观测)数据对象(实例、记录、观测)属性(变量、维、特征)属性(变量、维、特征)S
2、WUFE4属性特征属性特征 属性数据的测量问题属性数据的测量问题测量误差:系统性误差(测量误差:系统性误差(bias)和随机误差(噪声)和随机误差(噪声)测量精度:用标准差衡量测量精度:用标准差衡量测量精确度:取值单位(粒度)、有效数字测量精确度:取值单位(粒度)、有效数字 缺失值与数据的稀疏性缺失值与数据的稀疏性 属性类型与测量水平属性类型与测量水平 字符型(定性)与数值型(定量)字符型(定性)与数值型(定量) 离散的与连续的离散的与连续的2022年3月24日星期四SWUFE5属性类型2022年3月24日星期四注意:每种类型拥有其上方类型的性质和操作注意:每种类型拥有其上方类型的性质和操作S
3、WUFE6字符型属性的测量水平 二元(BINARY)属性 对称二元属性 例如:性别 不对称二元属性 例如:是否欺诈,只关注非零值 标称(NOMINAL)属性(类别属性)取值无序 例如:职业、专业、婚姻状况 序数(ORDINAL)属性(定序变量)取值有序 例如:职称、满意度2022年3月24日星期四SWUFE7数值型属性的测量水平 区间(INTERVAL)属性 (定距变量) 例如:温度 比率(RATIO)属性 (定比变量) 例如:成绩、收入、利润、人数 可以取字符型属性的测量水平2022年3月24日星期四SWUFE8缺失值和数据的稀疏性-排序的影响2022年3月24日星期四SWUFE9属性(变量
4、)的基本统计描述 属性取值的一般水平 属性取值的离散程度 分布的对称性与中心集中度 属性间取值的相关性2022年3月24日星期四SWUFE10数据的中心趋势 数值属性 均值 中位数 截尾均值 三均值 字符属性 众数2022年3月24日星期四niixnx11x8.08.08.08.08.08.08.019.08.08.08.0SWUFE11数据的离散程度 数值属性 极差、方差、标准差、平均绝对偏差 四分位数与四分位极差QR=Q3-Q1 变异系数 字符属性取值个数2022年3月24日星期四 下截断点:Q1 -1.5*QR 上截断点:Q3+1.5*QR孤立点上截断点 CV=(%)100 xSWUFE
5、12数据分布的对称性2022年3月24日星期四偏度SWUFE13数据分布的中心集中度2022年3月24日星期四峰度为负正态分布,峰度为0峰度为正SWUFE14属性间的相关性相关系数相关系数夹角余弦夹角余弦2022年3月24日星期四A、B属性为标称属性或二元属性,其取值个数分别为c,rOij:实际频数eij:期望频数自由度:(r-1)*(c-1)原假设:A和B独立12211(6 .1 0 )niiinniiiixxcxx SWUFE15 性别与阅读兴趣相关?结论:性别与阅读兴趣相关2022年3月24日星期四SWUFE16安斯库姆四重奏安斯库姆四重奏一二三四xyxyxyxy10.08.0410.0
6、9.1410.07.468.06.588.06.958.08.148.06.778.05.7613.07.5813.08.7413.012.748.07.719.08.819.08.779.07.118.08.8411.08.3311.09.2611.07.818.08.4714.09.9614.08.1014.08.848.07.046.07.246.06.136.06.088.05.254.04.264.03.104.05.3919.012.5012.010.8412.09.1312.08.158.05.567.04.827.07.267.06.428.07.915.05.685.04.7
7、45.05.738.06.892022年3月24日星期四统计量数值x的均值9x的方差11y的均值7.50y的方差4.122或4.127x与y之间的相关系数0.816SWUFE17数据的图形表示 分位数图 直方图或柱形图 盒形图 茎叶图 饼图 散点图、折线图2022年3月24日星期四等高线图等高线图平行坐标系平行坐标系图形矩阵图形矩阵星型坐标图星型坐标图Chernoff脸图脸图SWUFE18分位数图2022年3月24日星期四MQ1Q3MQ1Q3SWUFE19直方图(柱形图)2022年3月24日星期四SWUFE20盒形图2022年3月24日星期四中位数中位数平均数平均数Q1Q3上截断点上截断点或最
8、大值或最大值下截断点下截断点或最小值或最小值孤立点孤立点SWUFE21散点图2022年3月24日星期四SWUFE22多维图2022年3月24日星期四平行坐标系平行坐标系Chernoff脸图脸图星型坐标图星型坐标图SWUFE23客户信息数据问题举例 部分属性值为空部分属性值为空 少数客户的信息重复少数客户的信息重复 部分客户的收入值为部分客户的收入值为0 出生日期填写为出生日期填写为1900.1.1 不同地区的客户分散在不同的数据集中不同地区的客户分散在不同的数据集中 不同的属性分散在不同的数据集中不同的属性分散在不同的数据集中 客户数量太大、属性个数太多客户数量太大、属性个数太多 缺乏年龄属性
9、缺乏年龄属性 收入分布偏斜收入分布偏斜 地址对分析目标而言太详细地址对分析目标而言太详细 2022年3月24日星期四SWUFE24 数据清洗 数据集成 数据消减 数据转换 复杂数据类型的预处理:特征提取2022年3月24日星期四SWUFE25数据清洗 处理错误或不一致的数据 处理缺失值 识别处理孤立点 平滑噪声数据2022年3月24日星期四SWUFE262022年3月24日星期四缺失值的处理缺失值的处理 不做处理,忽略缺失属性值(与具体算法有关) 删除该条记录 填补 人工确定值或固定值 均值(中位数)或众数 同类别的均值(中位数)或众数 预测值:利用分类预测技术推断出最大可能取值 增加标识变量
10、SWUFE27识别并处理孤立点 识别 常识 统计规则 聚类,分类 处理 去除 视为噪声,进行平滑 保留2022年3月24日星期四SWUFE28噪声平滑 分箱分箱 聚类聚类 回归回归2022年3月24日星期四SWUFE292022年3月24日星期四分箱(Bin) 等高分箱:每箱数据个数相同 等宽分箱:每箱的箱距相同排序确定箱数确定每箱数据个数确定箱距分配替换SWUFE302022年3月24日星期四等高分箱方法举例4,15,25,34,8,21,26,9,24,28,29,21(1)排序: 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34(2)将数据分割为等高
11、的3箱,每箱4个数据项 :- Bin 1: 4, 8, 9, 15- Bin 2: 21, 21, 24, 25- Bin 3: 26, 28, 29, 34(3)根据箱中的平均值进行平滑:- Bin 1: 9, 9, 9, 9- Bin 2: 23, 23, 23, 23- Bin 3: 29, 29, 29, 29SWUFE312022年3月24日星期四聚类与回归平滑方法SWUFE32数据集成 合并多个数据源中的数据,将之存放在一个一致的数据存储中。 模式集成问题 :同名不同义,同义不同名。 数据值冲突的检测与处理例如:不同的计量单位、取值层次 数据冗余问题 纵向集成和横向集成2022年3
12、月24日星期四数据集数据集1中:中: Customerid(客户编号)(客户编号) Cid(客户身份证号)(客户身份证号) (一)季度存款额:单位:元(一)季度存款额:单位:元 开户行:分行开户行:分行数据集数据集2中:中: Cid(客户编号)(客户编号) (二)季度存款额:单位:千元(二)季度存款额:单位:千元 开户行:支行开户行:支行 SWUFE33 维归约 数据压缩(PCA、小波变换等) 属性构造 属性子集选择 行规约2022年3月24日星期四SWUFE342022年3月24日星期四数据压缩数据压缩 数据压缩是使用数据编码或变换,以便得到原数据的“压缩”表示。如果根据压缩的数据集可以恢复
13、原来的数据集,则数据压缩是无损的,否则,数据压缩是有损的。例如: 主成分分析 小波变换 奇异值分解SWUFE352022年3月24日星期四属性子集选择 手工消除无用或无关属性 特征子集选取 特征子集选取就是选取最小的特征属性集合,得到的数据挖掘结果与所有特征参加的数据挖掘结果相近或完全一致。 和建模过程集成 (嵌入方法) .多元回归分析、决策树方法 进行独立的选取工作(过滤方法和包装方法) 例如:用关联分析选取重要变量 用决策树方法选取重要变量 具有唯一值或近似唯一值的变量具有唯一值或近似唯一值的变量具有单一值或近似单一值的变量具有单一值或近似单一值的变量可以相互转换或同意义的变量可以相互转换
14、或同意义的变量SWUFE362022年3月24日星期四特征子集选择过程(过滤方法和包装方法)SWUFE372022年3月24日星期四行规约 聚集 抽样 聚类SWUFE38汇总属性的粒度 电话流失客户分月通话分钟数2022年3月24日星期四 电话流失客户分天通话分钟数SWUFE39抽样 简单随机抽样(有放回和无放回) 分层抽样 簇抽样 自适应或渐进抽样2022年3月24日星期四SWUFE40数据转换 函数变换 数据规范化处理 数据泛化 2022年3月24日星期四SWUFE412022年3月24日星期四数据规范化处理数据规范化处理 最小-最大规范化 z-score规范化(标准化) 十进制缩放规范化。身高(m)体重(kg)X 张三 1.760Y 李四 1.880身高(cm)体重(kg)X 张三 17060Y 李四 18080SWUFE422022年3月24日星期四最小-最大规范化 A属性的原取值区间minA,maxA 目标新区间new_minA, new_maxA例如:百分制的85分转化为5分制:SWUFE432022年3月24日星期四零均值(z-score)规范化将属性A的值v转换为标准化值v。v=(v-)/ 例:成绩属性score的均值和标准差分别为79和9。score为85,标准化化后转换为:
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030中国半径规行业市场发展趋势与前景展望战略研究报告
- 2025-2030中国医疗保健互操作性解决方案行业市场发展趋势与前景展望战略研究报告
- 2025-2030中国医用激光系统行业市场发展趋势与前景展望战略研究报告
- 2025-2030中国医养结合行业市场深度调研及竞争格局与投资研究报告
- 2025-2030中国动力耳鼻喉科手术器械行业市场发展趋势与前景展望战略研究报告
- 2025-2030中国凝结粒子计数器行业市场发展趋势与前景展望战略研究报告
- 2025-2030中国农用自吸泵行业市场发展趋势与前景展望战略研究报告
- 2025-2030中国公制O型圈行业市场发展趋势与前景展望战略研究报告
- 2025-2030中国克林霉素磷酸酯和过氧化苯甲酰行业市场发展趋势与前景展望战略研究报告
- 2025-2030中国中医装备行业市场深度发展趋势与前景展望战略研究报告
- 自愿离婚的协议范本5篇
- 商业运营服务合作协议
- 员工心理健康关怀与支持措施试题及答案
- 2025书画艺术品交易合同范本
- 儿童支气管哮喘诊断与防治指南(2025)解读
- 2024-2025学年人教版七年级(下)期中数学试卷(考试范围:第7~9章) (含解析)
- 安全生产“反三违”学习培训
- 网球裁判考试试题及答案
- 能源储备体系建设-深度研究
- 国家义务教育质量监测八年级美术样卷
- 2025年河南轻工职业学院单招职业适应性考试题库及答案1套
评论
0/150
提交评论