数据挖掘入门_第1页
数据挖掘入门_第2页
数据挖掘入门_第3页
数据挖掘入门_第4页
数据挖掘入门_第5页
已阅读5页,还剩86页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2022-3-2212022-3-2222022-3-2232022-3-2242022-3-2252022-3-2262022-3-227数据清理筛选数据清理筛选数据数据目标数据目标数据预处理预处理及变换及变换变换后的数据变换后的数据数据挖掘数据挖掘解释解释/评估评估2022-3-2282022-3-2292022-3-22102022-3-22112022-3-22122022-3-22132022-3-2214数据仓库数据仓库数据清理数据清理 数据集成数据集成过滤过滤数据库数据库数据库或数据仓库服务器数据挖掘引擎模式评估图形用户界面 知识库2022-3-22152022-3-221620

2、22-3-22172022-3-22182022-3-2219 定义:论域X=x上的模糊集合A由隶属函数A(x)来表征。其中A(x)在实轴的闭区间0,1中取值,A(x)的大小反映x对于模糊集合A的隶属程度。 A(x)的值接近1,表示x隶属于A的程度很高。 A(x)的值接近0,表示x隶属于A的程度很低。 特例,当A的值域取0,1闭区间的两个端点,亦即0,1两个值时,A便退化为一个普通的逻辑子集。隶属函数也就退化为普通逻辑值。 2022-3-22202022-3-22212022-3-22222022-3-22232022-3-22242022-3-22252022-3-22262022-3-22

3、272022-3-22282022-3-22292022-3-22302022-3-22312022-3-22322022-3-22332022-3-22342022-3-22352022-3-2236数据清理数据清理数据集成数据集成数据转换数据转换数据归约数据归约2022-3-22372022-3-22382022-3-22392022-3-2240n简单,但是没有意义2022-3-22412022-3-22422022-3-22432022-3-22442022-3-22452022-3-22462022-3-2247xyy = x + 1X1Y1Y12022-3-22482022-3-2

4、2492022-3-22502022-3-2251BABAnBBAAr) 1()( )(,ABAB2022-3-22522022-3-2253AAminnewmaxnew_,_AAAAAAminnewminnewmaxnewminmaxminvv_)_(2022-3-2254Avv jvv10Where j is the smallest integer such that Max(| |)Reduced attribute set: A1, A4, A6YYYNNN2022-3-22622022-3-22632022-3-2264count51015202530123456789101-10

5、11-2021-30510152025132515PricePricecount2022-3-22652022-3-22662022-3-22672022-3-22682022-3-2269count51015202530123456789101-1011-2021-30510152025132515PricePricecount2022-3-22702022-3-22712022-3-2272n例例1:包含数据:包含数据:101、110、203、222、305、315n方法:最高位包含方法:最高位包含3个值(个值(1、2、3)n分成分成100,200),),200,300),),300,40

6、0)三段)三段n例例2:包含数据:包含数据:101、110、103、422、405、415,400n方法:最高位包含方法:最高位包含2个值(个值(1、4)n分成分成100,150),),150,200) ,400,450) ,450,500)四段)四段n例例3:包含数据:包含数据:101、210、203、322、305、415,500n方法:最高位包含方法:最高位包含5个值(个值(1、2、3、4、5)n分成分成100,200),),200,300) ,300,400) ,400,500),),500,600)五段五段2022-3-22732022-3-2274countryprovince_or_ statecitystreet15 distinct values65 distinct values3567 distinct values674,339 distinct values2022-3-2275主要内容主要内容l为什么需要数据预处理为什么需要数据预处理? ?l数据清洗数据清洗 l数据集成与转换数据集成与转换l数据归约数据归约l数据离散化与概念层次的构建数据离散化与概念层次的构建l本章小结本章小结2022-3-22762022-3-2277信息可视化数据挖掘可视化 数据挖掘2022-3-22782022-3-22792022-3-22802022-3-2281

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论