数据探查与预处理_第1页
数据探查与预处理_第2页
数据探查与预处理_第3页
数据探查与预处理_第4页
数据探查与预处理_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据探查张英02七月2023数据质量数据对应用的适合性:相关性、完备性、时效性数据的可用性:属性含义及其取值的可理解性数据集成程度数据的规模及抽样偏倚数据收集和测量问题收集问题测量问题02七月2023

数据特征

属性类型与测量水平定性与定量、分散与连续数据的粒度与单位缺失值与数据的稀疏性基本统计特征02七月2023数据对象(实例、记录、观测)属性(变量、维、特征)字符型(分类属性、定性属性)二元(BINARY)属性对称二元属性例如:性别不对称二元属性例如:是否欺诈,只关注非零值标称(NOMINAL)属性(类别属性)(定类变量)取值无序例如:职业、专业、婚姻状况序数(ORDINAL)属性(定序变量)取值有序例如:职称、满意度02七月2023数值型(定量属性)区间(INTERVAL)属性(定距变量)例如:温度比率(RATIO)属性(定比变量)例如:成绩、收入、利润、人数02七月2023属性类型的不同操作特征02七月2023注意:每种类型拥有其上方类型的性质和操作缺失值和数据的稀疏性

--排序的影响02七月2023基本统计描述属性取值的一般水平属性取值的离散程度分布的对称性与中心集中度属性间取值的相关性02七月2023数据的中心趋势数值属性

均值

中位数

截尾均值

三均值字符属性众数02七月2023x8.08.08.08.08.08.08.019.08.08.08.0数据睡的离文散程旷度数值档属性极差鲁、方酱差、龄标准论差、搭平均桥绝对图偏差四分通位数拆与四绕分位余极差QR期=Q3-Q1变异雾系数字符膝属性取值尖个数26荷六愧月管20桂23下截夹断点终:Q1-1岔.5*QR上截禁断点谎:Q3+1瞎.5*QR孤立筑点<下截御断点膨或孤立慢点>上截析断点

CV=数据原分布煤的对杜称性26隐六锈月联20赌23偏度数据按分布段的中收心集岔中度26牧六密月跑20宽23峰度为负正态分布,峰度为0峰度为正属性鸟间的陷相关悲性相关棉系数夹角但余弦26钥六犁月泳20兵23A、B属性沸为标隔称属栋性或经二元润属性绒,其粥取值柱个数瓣分别替为c,警rOij:实域际频虑数eij:期连望频椒数自由匙度:(r胶-1消)*遮(c山-1舍)原假嘉设:A和B独立性别青与阅箱读兴技趣相借关?结论概:性别为与阅没读兴权趣相闭关26农六撕月单20寸23安斯耗库姆续四重叼奏一二三四xyxyxyxy10.08.0410.09.1410.07.468.06.588.06.958.08.148.06.778.05.7613.07.5813.08.7413.012.748.07.719.08.819.08.779.07.118.08.8411.08.3311.09.2611.07.818.08.4714.09.9614.08.1014.08.848.07.046.07.246.06.136.06.088.05.254.04.264.03.104.05.3919.012.5012.010.8412.09.1312.08.158.05.567.04.827.07.267.06.428.07.915.05.685.04.745.05.738.06.8926揭六震月期20疮23统计量数值x的均值9x的方差11y的均值7.50y的方差4.122或4.127x与y之间的相关系数0.816数据峡的图遮形表谈示分位铅数图直方娘图或惧柱形烫图盒形墓图茎叶闪图饼图散点钳图、榨折线粘图26仰六冷月睛20纠23等高童线图平行岩坐标翻系图形稿矩阵星型赴坐标失图Ch泼er们no唐ff脸图……分位蒸数图26足六堪月炮20施23MQ1Q3MQ1Q3直方绸图(箱柱形蛛图)26真六愚月迅20分23盒形错图26乳六即月并20翅23中位忧数平均迹数Q1Q3上截锯断点变或最胀大值下截煌断点或最口小值孤立碗点散点匙图26迹六也月师20划23多维检图26敏六遗月避20过23平行只坐标首系Ch吗er驾no逼ff脸图星型联坐标障图客户沃信息解数据屯问题涛举例部分增属性挺值为免空收入象为0出生先日期驰填写因为不同嘉地区既的客抗户分作散在福不同赴的数捎据集未中不同淹的属傅性分桥散在破不同富的数泪据集给中客户梦数量应太大描、属怨性个陆数太秆多缺乏鸟年龄卫属性收入喂分布苍偏斜地址纪对分贤析目强标而舱言太搏详细26着六绸月改20忆23数据蔽预处勉理数据谜清洗数据岩集成数据老消减数据挪转换复杂湾数据挂类型范的预库处理26冲六妄月剑20穗23数据肃质量分析冷方法需求数据反清洗处理毅错误蛇或不一致盲的数婶据处理围缺失翅值识别第处理租孤立宏点平滑萌噪声姻数据26菊六撤月豪20舌2326紫六殖月耀20赵23缺失绳值的趋处理忽略务该条象记录填补人工殿确定狠值或姐固定萍值均值思(中远位数凡)或原众数同类币别的劈燕均值两(中财位数起)或喘众数预测垃值:栽利用躺分类堤预测任技术推断盯出最糟大可光能取缺值增加雁标识趋变量识别技并处肯理孤永立点识别常识统计惕规则聚类义,…处理去除视为然噪声痕,进库行平凭滑26量六茎月注20慰23噪声醋平滑分箱聚类回归26胞六盾月村20混2326疯六叛月档20眯23分箱洁(Bi厌n)等高吗分箱师:每驶箱数蒸据个博数相缘瑞同等宽恢分箱带:每辰箱的基箱距炸相同排序确定痛箱数确定泳每箱裹数据重个数确定之箱距分配替换26章六叼月队20裳23等高茄分箱胆方法伤举例4,15,25,34,8,21,26,9,24,28,29,21(1)排记序:捆4,仰8东,贵9,凳1示5,捷2福1,蜂2排1,火2谨4,恰2法5,私2细6,爪2恭8,梅2玻9,峡3吐4(2)将千数据哄分割为等高的3箱,圆每箱4个数糊据项:-歌Bi荐n拦1:养4风,排8锹,遇9竭,珍1炼5-税Bi渠n饱2:烛2起1,防2多1,觉2汽4,融2韵5-鲜Bi做n趁3:移2经6,桶2兄8,父2堡9,娘3烈4(3)根银据箱中的涉平均投值进懒行平跪滑:-颈Bi登n迈1:热9渔,卵9晋,刻9急,珠9-弊Bi洪n者2:蔑2乒3,柿2而3,旋2制3,口2叼3-忆Bi给n柏3:夏2冈9,浴2慎9,奋2哭9,嫂2羡926价六戒月闲20搭23聚类与回封归平坛滑方法数据促集成合并画多个老数据搅源中爱的数社据,失将之筝存放羊在一喜个一博致的石数据普存储舰中。模式肚集成阀问题阔:凭同名协不同桃义,洽同义嘱不同李名。数据窑值冲糟突的健检测争与处熔理例如借:不四同的涨计量物单位畏、取倚值层纺次数据北冗余贫问题纵向挨集成宁和横拼向集嫩成26秧六拜月舒20泉23数据院集1中:Cu痒st淹om理er海id(客策户编威号)Ci楼d(客割户身双份证断号)(一路)季旗度存对款额师:单傍位:托元开户舰行:故分行数据伪集2中:Ci镇d(客营户编仍号)(二岔)季梦度存新款额询:单苏位:尺千元开户贸行:火支行数据诵消减维归跌约数据盏压缩悬(PC讨A、小艳波变扁换等袋)属性自构造属性递子集逗选择行规午约26梯六敢月韵20姓2326红六灵月增20垦23数据甩压缩数据筝压缩并是使贯用数芹据编搏码或破变换虫,以疗便得肉到原借数据议的“胃压缩偏”表扰示。件如果府根据蚊压缩妙的数做据集干可以奥恢复凉原来箱的数牲据集香,则波数据孝压缩母是无津损的陷,否府则,震数据棚压缩瓦是有闹损的跨。例如违:主成唯分分劫析小波饿变换奇异挎值分逢解26育六凝月核20爹23属性触子集彻选择手工灵消除逗无用藏或无冬关属钞性特征子集选取特征子集选取蜘就是拉选取任最小扑的特掠征属痛性集喉合,鹅得到负的数评据挖缠掘结痒果与仗所有金特征恼参加斑的数马据挖耻掘结胳果相昂近或裤完全供一致秋。和建模世过程贝集成(嵌炎入方伐法).多元抹回归欲分析逐步桥添加自法(讽前向拉法)逐步警删除颜法(外后向纯法)添加辆和删退除结裳合法渣(前璃向和叙后向文结合原法).决策吐树方圣法进行默独立柔的选多取工狼作(着过滤恰方法累和包坚装方予法)例如赚:用些关联标分析虫选取妻重要齿变量用决贝策树交方法选取雅重要活变量具有田唯一批值或龄近似验唯一谎值的渡变量具有扩单一萝值或鸦近似炒单一竹值的尘变量可以妄相互脚转换洞或同推意义帖的变厨量26困六假月厨20截23特征辈子集旺选择您过程(过葡滤方唇法和遮包装万方法淹)26短六厕月匀20睬23行规川约参数迫方法非参姐数方猜法聚集抽样聚类直方坡图汇总联属性无的粒柏度电话求流失盒客户迷分月坑通话亩分钟疮数26患六权月旬20渔23电话吵流失少客户毯分天礼通话无分钟横数抽样简单感随机界抽样(又盗放回炎和无洋放回掘)分层泻抽样簇抽袋样自适访应或衬渐进咏抽样26绪六配月萄20争23数据哥转换数据未平滑什去噪数据教聚集新指金标属禾性的妖构造数据败规范圆化处蕉理数据醋泛化26傅六奴月诱20终2326熄六疏月鸡20比23数据艺规范受化处刘理最小-最大僻规范骑化z-风sc畅or锣e规范叮化(标挨准化颤)十进级制缩连放规娃范化灶。身高姨(m)体重(k表g)X张三1.米7膛6峡0Y李四1.横8竿8劲0身高歇(cm)体重(k筹g)X张三17救0觉6昂0Y李四18尖0

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论