![数据挖掘[6-5]Cluster-HierMeth(7)_第1页](http://file3.renrendoc.com/fileroot_temp3/2022-6/9/a986d8da-69e1-4400-9f4f-3392d15f603d/a986d8da-69e1-4400-9f4f-3392d15f603d1.gif)
![数据挖掘[6-5]Cluster-HierMeth(7)_第2页](http://file3.renrendoc.com/fileroot_temp3/2022-6/9/a986d8da-69e1-4400-9f4f-3392d15f603d/a986d8da-69e1-4400-9f4f-3392d15f603d2.gif)
![数据挖掘[6-5]Cluster-HierMeth(7)_第3页](http://file3.renrendoc.com/fileroot_temp3/2022-6/9/a986d8da-69e1-4400-9f4f-3392d15f603d/a986d8da-69e1-4400-9f4f-3392d15f603d3.gif)
![数据挖掘[6-5]Cluster-HierMeth(7)_第4页](http://file3.renrendoc.com/fileroot_temp3/2022-6/9/a986d8da-69e1-4400-9f4f-3392d15f603d/a986d8da-69e1-4400-9f4f-3392d15f603d4.gif)
![数据挖掘[6-5]Cluster-HierMeth(7)_第5页](http://file3.renrendoc.com/fileroot_temp3/2022-6/9/a986d8da-69e1-4400-9f4f-3392d15f603d/a986d8da-69e1-4400-9f4f-3392d15f603d5.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Data Mining (Spring 2012), Tsinghua University0数据预处理数据预处理 关于数据关于数据 为什么要预处理数据?为什么要预处理数据? 描述性数据汇总描述性数据汇总 数据清理数据清理 数据集成和变换数据集成和变换 数据规约数据规约 数据离散化和概念分层产生数据离散化和概念分层产生 小结小结Data Mining (Spring 2012), Tsinghua University1什么是数据什么是数据? 数据对象的集合及其属性数据对象的集合及其属性 属性是对象的性质或者特征属性是对象的性质或者特征 例如:人眼睛的颜色,温度等例如:人眼睛的颜色,温度等 属
2、性也可以理解为变量,领域,特征属性也可以理解为变量,领域,特征或者特点或者特点 描述一个对象的属性集合描述一个对象的属性集合 对象也可以理解为记录,观点,案例对象也可以理解为记录,观点,案例,样本,实体或者实例,样本,实体或者实例Tid Refund Marital Status Taxable Income Cheat 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorce
3、d 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes 10 AttributesObjectsData Mining (Spring 2012), Tsinghua University2属性值属性值 属性值是分配给一个属性的数字或者符号属性值是分配给一个属性的数字或者符号 属性和属性值的区别属性和属性值的区别 相同的属性可以映射到不同的属性值相同的属性可以映射到不同的属性值- 例如:高度既可以用尺也可以用米衡量例如:高度既可以用尺也可以用米衡量 不同的属性可以映射到相同的取值集合不同的属性可以映射到相同的
4、取值集合- 例如:例如:ID和年龄的属性值是整数和年龄的属性值是整数- 但是属性值的特性可以不同但是属性值的特性可以不同-ID没有限制但是年龄有最大值和最小值没有限制但是年龄有最大值和最小值Data Mining (Spring 2012), Tsinghua University3属性的类型属性的类型 属性有很多不同的类型属性有很多不同的类型 Nominal (名称性的名称性的)- 例如:身份号码,眼睛颜色,邮政编码例如:身份号码,眼睛颜色,邮政编码 Ordinal (顺序的顺序的)- 例如:排名(例如,薯片味道从例如:排名(例如,薯片味道从1-10级),分数,身高级),分数,身高高、中、低
5、高、中、低 Interval (间隔性的间隔性的)- 例如:日期,摄氏温度或华氏温度例如:日期,摄氏温度或华氏温度 Ratio (比率型的比率型的)- 例如:开尔文温度,长度,时间,计数例如:开尔文温度,长度,时间,计数Data Mining (Spring 2012), Tsinghua University4属性值的内容属性值的内容 属性的类型取决于它有下列的哪一个特征属性的类型取决于它有下列的哪一个特征: 区别区别: = 顺序顺序: 加法加法: + - 乘法乘法: * / 名称的属性:区分名称的属性:区分 顺序的属性:区分顺序的属性:区分&顺序顺序 间隔的属性:区分,顺序间隔的属性:区分
6、,顺序&加法加法 比率的属性:所有四种特征比率的属性:所有四种特征Data Mining (Spring 2012), Tsinghua University5离散和连续属性离散和连续属性 离散属性离散属性 只有一个有限集和可数无限集只有一个有限集和可数无限集 例如:邮政编码,计数,或者是一个文档集合的词集例如:邮政编码,计数,或者是一个文档集合的词集 通常表示为整数变量通常表示为整数变量 注:二进制属性是离散属性的特殊情况注:二进制属性是离散属性的特殊情况 连续属性连续属性 实数作为属性值实数作为属性值 例如:温度,高度,或者重量例如:温度,高度,或者重量. 特别的,实际值只能用有限位数的数
7、字测量和表示特别的,实际值只能用有限位数的数字测量和表示 连续性属性通常用浮点变量表示连续性属性通常用浮点变量表示Data Mining (Spring 2012), Tsinghua University6数据集的类型数据集的类型记录记录 数据矩阵数据矩阵 文本数据文本数据 交易数据交易数据图表图表 互联网互联网 分子结构分子结构顺序的顺序的 空间的数据空间的数据 时间的数据时间的数据 连续的数据连续的数据 基因序列数据基因序列数据Data Mining (Spring 2012), Tsinghua University7结构数据的重要特点结构数据的重要特点 Dimensionality
8、(维度维度) Curse of Dimensionality (维数灾难) Sparsity (稀疏稀疏) 只有存在才算数只有存在才算数 Resolution (分辨率,解析度分辨率,解析度) 模式取决于规模模式取决于规模Data Mining (Spring 2012), Tsinghua University8记录数据记录数据 由记录集合组成的数据,每一个记录又由一个固定的属性集组成由记录集合组成的数据,每一个记录又由一个固定的属性集组成Tid Refund Marital Status Taxable Income Cheat 1 Yes Single 125K No 2 No Marr
9、ied 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes 10 Data Mining (Spring 2012), Tsinghua University9数据矩阵数据矩阵 如果数据对象具有相同的一套固定的数值属性,那么数据对象可以被认为如果数据对象具有相同的一套固定的数值属性,那么数据对象可以被
10、认为是一个多维空间中的点,其中每个维度代表了不同的属性是一个多维空间中的点,其中每个维度代表了不同的属性 这样的数据集可以用这样的数据集可以用m * n的矩阵表示,的矩阵表示,m行,每行代表一个对象,行,每行代表一个对象,n列,列,每列代表一个属性每列代表一个属性1.12.216.226.2512.651.22.715.225.2710.23Thickness LoadDistanceProjection of y loadProjection of x Load1.12.216.226.2512.651.22.715.225.2710.23Thickness LoadDistanceProj
11、ection of y loadProjection of x LoadData Mining (Spring 2012), Tsinghua University10文本数据文本数据 每个文档都成为一个每个文档都成为一个“term”向量向量 每个每个term都是向量的一个分量都是向量的一个分量, 每个分量的值就是对应的每个分量的值就是对应的term在文档中出现的次数在文档中出现的次数. Data Mining (Spring 2012), Tsinghua University11交易数据交易数据 一组特殊类型的记录数据一组特殊类型的记录数据 每个交易记录都涉及一组项目每个交易记录都涉及一组
12、项目 例如:考虑一个杂货店,一个顾客一次购物所买的一组商品就构成一次交易,例如:考虑一个杂货店,一个顾客一次购物所买的一组商品就构成一次交易,这些购买的商品就是项目这些购买的商品就是项目TID Items 1 Bread, Coke, Milk 2 Beer, Bread 3 Beer, Coke, Diaper, Milk 4 Beer, Bread, Diaper, Milk 5 Coke, Diaper, Milk Data Mining (Spring 2012), Tsinghua University12图片数据图片数据 例如:一般的图片和网页链接例如:一般的图片和网页链接521
13、25Data Mining Graph Partitioning Parallel Solution of Sparse Linear System of Equations N-Body Computation and Dense Linear System SolversData Mining (Spring 2012), Tsinghua University13化学数据化学数据 Benzene Molecule (苯分子苯分子): C6H6Data Mining (Spring 2012), Tsinghua University14顺序的数据顺序的数据 交易序列交易序列Items/E
14、ventsData Mining (Spring 2012), Tsinghua University15顺序的数据顺序的数据 染色体序列数据染色体序列数据GGTTCCGCCTTCAGCCCCGCGCCCGCAGGGCCCGCCCCGCGCCGTCGAGAAGGGCCCGCCTGGCGGGCGGGGGGAGGCGGGGCCGCCCGAGCCCAACCGAGTCCGACCAGGTGCCCCCTCTGCTCGGCCTAGACCTGAGCTCATTAGGCGGCAGCGGACAGGCCAAGTAGAACACGCGAAGCGCTGGGCTGCCTGCTGCGACCAGGGData Mining (Spring 2012), Tsinghua University16数据质量数据质量 什么类型的数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 招聘高级家政合同范本
- 小学入学代办合同范本
- 技术咨询合同模板示例
- 凉菜摆摊转让合同范本
- 机加产品合同范本
- 代理物业的合同范本
- 公司定金转让合同范本
- 北京院士聘用合同范例
- 住宅防水维修合同范例
- 农户水稻收购合同范例
- GB/T 44328-2024七氟异丁腈
- 保安员资格测试题库300题(含标准答案)
- (完整版)智力七巧板整册教案
- 微流控器官芯片的医疗应用
- 《3.2动能定理的应用》 教学课件
- 春季中医养生课件
- 《校园环保倡议共建绿色校园》主题班会
- 4 同学相伴 第二课时 不让一个人落下 教学设计-2023-2024学年道德与法治三年级下册统编版
- DL∕ T 736-2010 农村电网剩余电流动作保护器安装运行规程
- 2024年民航安全检查员(三级)资格理论考试题库大全-中(多选题部分)
- 12《植物的叶》(教案)三年级下册科学粤教版
评论
0/150
提交评论