Chapter2_DataPre数据挖掘_第1页
Chapter2_DataPre数据挖掘_第2页
Chapter2_DataPre数据挖掘_第3页
Chapter2_DataPre数据挖掘_第4页
Chapter2_DataPre数据挖掘_第5页
已阅读5页,还剩87页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据挖掘数据挖掘( (Data Mining)主讲教师:邵俊明Email: TelData Mining Lab, Big Data Research CenterSchool of Computer Science and Engineering, UESTC Http:/ 认识数据与数据预处理上节内容 什么是数据挖掘: 从大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识 。 知识发现的过程:数据清理, 数据集成, 数据选择, 数据变换, 数据挖掘, 模式评估, 和知识表示。其中数据挖掘是知识发现其中数据挖掘是知识发现的核心的核心!

2、 数据挖掘功能/任务: 关联规则, 聚类, 分类/回归, 孤立点分析等. 数据挖掘的常识性知识: 学科的交叉性:机器学习、数据库、统计学、拓扑学等具有紧密的联系 挑战:高维,大数据、数据类型、参数、数据演化性和数据隐私/安全性 常见工具包/期刊、会议。 主要内容一、认识数据n属性类型n数据的统计描述n相似性度量二、数据预处理n为什么进行预处理数据?n数据预处理方法一、认识数据l数据数据是对描述对象的抽象;l数据集:数据集:数据对象的集合;l数据对象数据对象:记录、点、向量、模式、事件、样本、案例、观测或实体;l属性:属性:用于刻画对象的基本性质或特性; 属性也称作:变量、特性、字段、特征或维。

3、l属性值:属性值:是赋予属性的数或符号基本概念Example对象对象属性属性数据集数据集属性值属性值1 1、属性类型、属性类型属性类型u分类型(Categorical)标称(Nominal)-(特殊:二元)例: ID 号、眼球颜色、邮政编码序数( Ordinal )例: 军阶 、 GPA、用 tall, medium, short表示的高u数值型(Numerical)区间(Interval)例: 日历、摄氏或华氏温度.比率(Ratio)例: 开氏温度、长度、计数属性类型属性类型属性类型描描 述述例例 子子操操 作作标称属性的值仅仅只是不标称属性的值仅仅只是不同的名字,即标称值只提供同的名字,即

4、标称值只提供足够的信息以区分对象足够的信息以区分对象(=, )邮政编码、雇员邮政编码、雇员ID号、号、眼球颜色、性别眼球颜色、性别众数、熵、列联相关、众数、熵、列联相关、 2检验检验序数属性的值提供足够的序数属性的值提供足够的信息确定对象的序信息确定对象的序()矿石硬度、矿石硬度、好,较好,较好,最好好,最好、成绩、成绩、街道号码街道号码中值、百分位、秩相关、中值、百分位、秩相关、游程检验、符号检验游程检验、符号检验对于区间属性,值之间的对于区间属性,值之间的差是有意义的,即存在测量差是有意义的,即存在测量单位单位( , )日历日期、摄氏或华日历日期、摄氏或华氏温度氏温度均值、标准差、皮尔逊均

5、值、标准差、皮尔逊相关、相关、t和和F检验检验对于比率变量,差和比率对于比率变量,差和比率都是有意义的都是有意义的(*,/)绝对温度、货币量、绝对温度、货币量、计数、年龄、质量、计数、年龄、质量、长度、电流长度、电流几何平均、调和平均、几何平均、调和平均、百分比变差百分比变差分类的分类的(定性的定性的)数值的数值的(定量的定量的)标标称称序序数数区区间间比比率率离散 vs. 连续属性离散属性(Discrete Attribute)- 有限或无限可数个值 例: 邮政编码、计数、文档集的词- 常表示为整数变量或字符串变量 连续属性(Continuous Attribute)- 属性值为实数 例:

6、温度、高度、重量. - 实践中, 实数只能用有限位数字的数度量和表示.- 连续属性一般用浮点变量表示. 通常,标称、序数属性为离散的,区间和比率属性是连续的。通常,标称、序数属性为离散的,区间和比率属性是连续的。对称 vs. 非对称二元属性n二元属性(binary attributes)n离散属性的特例n仅取两个不同值,0/1、真/假、是/否、男/女.n常用0、1表示n对称的二元属性n两个值一样重要n例如,性别n非对称的二元属性n通常,一个值比另一个更重要n重要的值通常比较少出现,通常用1表示n例如,化验结果阴性,阳性,其中阳性较少,但更值得关注2 2、数据类型、数据类型n记录数据n数据矩阵n

7、文档数据n购物篮数据(事务数据)n图数据(Graph)n万维网n分子结构n有序(Ordered)数据n时序数据n序列数据n基因序列数据n空间数据记录数据: 典型情况Tid Refund Marital Status Taxable Income Cheat 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 N

8、o Married 75K No 10 No Single 90K Yes 10 记录数据: 数据矩阵如果数据对象都具有固定个数的数值属性,则可以把数据对象看做多维空间中的点,其中每个维代表一个不同的属性这种数据可以用一个 m n 矩阵表示, 其中 m 行, 每行代表一个对象, n 列, 每列代表一个属性26.2512.651.22.715.225.2710.23Thickness LoadDistanceProjection of y loadProjection of x Load26.2512.651.22.715.225.2710.23Thick

9、ness LoadDistanceProjection of y loadProjection of x Load记录数据: 文档数据记录数据: 事务数据TID Items 1 Bread, Coke, Milk 2 Beer, Bread 3 Beer, Coke, Diaper, Milk 4 Beer, Bread, Diaper, Milk 5 Coke, Diaper, Milk 购物篮数据购物篮数据基于图的数据 (1)带有对象之间联系的数据 基于图的数据 (2)具有图形对象的数据 对象具有结构,即对象包含具有联系的子对象 例: 苯分子的球棍图,包含碳原子(黑色)和氢原子(灰色) 有

10、序数据: 时序数据有序数据有多种, 常常涉及时间或空间序时序数据(sequential data),也称时间数据(temporal data) 时间次序重要, 但具体时间不重要例:事务序列有序数据: 序列数据序列数据(sequence data)- 基因组序列数据GGTTCCGCCTTCAGCCCCGCGCCCGCAGGGCCCGCCCCGCGCCGTCGAGAAGGGCCCGCCTGGCGGGCGGGGGGAGGCGGGGCCGCCCGAGCCCAACCGAGTCCGACCAGGTGCCCCCTCTGCTCGGCCTAGACCTGAGCTCATTAGGCGGCAGCGGACAGGCCAAGT

11、AGAACACGCGAAGCGCTGGGCTGCCTGCTGCGACCAGGG有序数据: 时间序列数据 时间序列数据(time series data)上证综指上证综指800个交易日收盘价数据个交易日收盘价数据房价数据房价数据有序数据:空间数据n空间数据 - 具有空间属性,如位置或区域 例: 不同的地理位置收集的气象数据(降水量、气温、气压)n右图每月是全球温度空间数据,显示多月是时间-空间的温度数据(Spatial-Temporal Data)3 3、数据的统计描述、数据的统计描述数据的统计描述n中心趋势度量中心趋势度量(均值,众数,中位数,中列数)n数据的散布数据的散布(极差,四分位数,四

12、分位数极差,五数概括,盒图)n可视化可视化 中心趋势-均值均值例子:salary(千美元)如下: 30,31,47,50,52,52,56,60,63,70,70,110.n均值均值(mean)(mean):总和/个数n加权平均加权平均:考虑权重的均值n中列数中列数:数据集的最大和最小值的平均值中心趋势-中位数中位数中位数区间的宽度。:中位数区间的频率,有区间的频率和,:低于中位数区间的所:数据总个数,中位数区间的下界,:wi:211dthfreqfreqNLwidthfreqfreqNLmedianmedianlmedianln 中位数中位数(median):(median):有序数据值的中

13、间值有序数据值的中间值。大数据大数据 :近似值估计(线性插值方法):近似值估计(线性插值方法)中心趋势-众众数数n众数(众数(mode): 在集合中出现最频繁的值在集合中出现最频繁的值。n对于非对称的单峰数据,有以下经验关系: mean-mode 3 * (mean-median)一个数据集中可能有多个众数一个数据集中可能有多个众数数据散布数据散布n极差:max-minn四分位数(quantile)n四分位数极差(距离) IQR=Q3-Q1n方差n标准差n五数概括五数概括: min,Q1,median,Q3,max 盒图表示 ( summary 函数)可视化可视化- 分位数图分位数图n分位数图

14、(观察单变量数据分布)Xi (i=1, N) 递增排列的数据可视化:可视化:分位数分位数-分位数图分位数图Q1Q3中位数中位数刻画一个分布到另一个分布是否有漂移刻画一个分布到另一个分布是否有漂移 ( qqplot 函数)函数)可视化:可视化:直方图直方图直方图直方图:刻画数据的整体分布情况:刻画数据的整体分布情况 (hist函数)函数)可视化:可视化:散点图散点图散点图散点图:数据的具体分布(:数据的具体分布( 0, A and B 正相关 (As values increase as Bs). 值越大相关程度越高.rA,B = 0: 不相关; rAB 0, 则A 和B 同时倾向于大于期望值.

15、负covariance: If CovA,B 0,则如果 A大于其期望值, B is likely to be smaller than its expected value.Independence: CovA,B= 0 but the converse is not true.ABCorrelation coefficient:相关分析 (标称属性标称属性)2 (chi-square) test 卡方检验卡方检验ij是(ai,bj)的观测频度观测频度(实际计数)eij是(ai,bj)的期望频度期望频度N数据元组的个数属属A性性a1a2i acb1Bb2j br(A=ai,B=bj)rjij

16、ijijciee1212)(NbBcountaAcountejiij)(*)(自由度: (c-1)*(r-1)Example 2 (chi-square) 计算(括号中的值为期望计值,由两个类别的分布数据计算得到)下棋下棋不下棋不下棋Sum (row)看小说看小说250(90)200(360)450不看小说不看小说50(210)1000(840)1050Sum(col.)30012001500901500300*450)(*)(11Ncountcounte下棋看小说93.507840)8401000(360)360200(210)21050(90)90250(22222自由度为自由度为(2-1

17、)*(2-1)=1,查表结果表明查表结果表明p Buy Iphone 5IG(Iphone 5|MobileBrand) = 0.6IG(Iphone 5|Gender) = 0.2IG(Iphone 5|Age) = 0.3那么在特征筛选的时候,我么可以删除Gender数据压缩数据压缩有损压缩 VS. 无损压缩字符串压缩有广泛的理论基础和精妙的算法通常是无损压缩在解压缩前对字符串的操作非常有限音频/视频压缩通常是有损压缩,压缩精度可以递进选择有时可以在不解压整体数据的情况下,重构某个片断数据压缩81Original DataCompressed DatalosslessOriginal Da

18、taApproximated lossy数据归约-数量归约数量归约n基本思想:通过选择替代的、较小的数据表示形式来减少数据量n有参方法有参方法:使用一个参数模型估计数据,最后只要存储参数即可。n线性回归方法:Y=+Xn多元回归:线性回归的扩充n对数线性模型:近似离散的多维数据概率分布n无参方法无参方法:n直方图n聚类n抽样n数据立方体聚集直方图直方图一种流行的数据归约技术将某属性的数据划分为不相交的子集,或桶,桶中放置该值的出现频率桶和属性值的划分规则等宽等深V-最优MaxDiff聚类聚类将数据集划分为聚类,然后通过聚类来表示数据集如果数据可以组成各种不同的聚类,则该技术非常有效,反之如果数据界线模糊,则方法无效数据可以分层聚类,并被存储在多层索引树中抽样抽样允许用数据的较小随机样本(子集)表示大的数据集对数据集D的样本选择:简单随机选择n个样本,不回放:由D的N个元组中抽取n个样本简单随机选择n个样本,回放:过程同上,只是元组被抽取后,将被回放,可能再次被抽取聚类选样:D中元组被分入M个互不相交的聚类中,可在其中的m个聚类上进行简单随机选择(mM)分层选样:D被划分为互不相交的“层”,则可通过对每一层的简单随机选样得到D的分层选样数据立方体聚集数据立方体聚集最底层的方

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论