![数据挖掘 第二章 认识数据课件_第1页](http://file4.renrendoc.com/view/5036e3fa72abc0da7fe2ce1aed124289/5036e3fa72abc0da7fe2ce1aed1242891.gif)
![数据挖掘 第二章 认识数据课件_第2页](http://file4.renrendoc.com/view/5036e3fa72abc0da7fe2ce1aed124289/5036e3fa72abc0da7fe2ce1aed1242892.gif)
![数据挖掘 第二章 认识数据课件_第3页](http://file4.renrendoc.com/view/5036e3fa72abc0da7fe2ce1aed124289/5036e3fa72abc0da7fe2ce1aed1242893.gif)
![数据挖掘 第二章 认识数据课件_第4页](http://file4.renrendoc.com/view/5036e3fa72abc0da7fe2ce1aed124289/5036e3fa72abc0da7fe2ce1aed1242894.gif)
![数据挖掘 第二章 认识数据课件_第5页](http://file4.renrendoc.com/view/5036e3fa72abc0da7fe2ce1aed124289/5036e3fa72abc0da7fe2ce1aed1242895.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1第二章:认识数据数据对象和属性类型数据的基本统计描述数据可视化
度量数据的相似性和相异性2数据对象DataObjects数据集由数据对象组成。一个数据对象代表一个实体(entity)。销售数据库:顾客,商品,销售医疗数据库:患者大学数据库:学生、教授、课程数据对象又称为样本、实例、数据点、或对象。数据对象用属性(attribute)描述。数据行对应数据对象;列对应属性。3属性Attributes属性(attribute)是一个数据字段,表示数据对象的一个特征。如:customer_ID,name,address类型:标称属性(nominal)二元属性(binary)序数属性(ordinal)数值属性(numeric)区间标度属性(interval-scaled)比率标度属性(ratio-scaled)5属性类型AttributeTypes
序数属性(ordinalattribute)其可能的值之间具有有意义的序或者秩评定(ranking),但是相继值之间的差是未知的。成绩={优,良,中,差}其中心趋势可以用它的众数和中位数表示,但不能定义均值。注意标称、二元和序数属性都是定性的,即只描述对象的特征,不给出实际的大小。6属性类型AttributeTypes
数值属性(numericattribute)区间标度(interval-scaled)属性使用相等的单位尺度度量。值有序,可以评估值之间的差,不能评估倍数。没有绝对的零点。如:摄氏温度,华氏温度比率标度(ratio-scaled)属性具有固定零点的数值属性。值有序,可以评估值之间的差,也可以说一个值是另一个的倍数。如:开式温温标(K),重量,高度,速度7属性类型AttributeTypes
离散属性(discreteAttribute)具有有限或者无限可数个值。如:
邮编、省份数目具有有限个值,customer_Id是无限可数的。可以用或者不用整数表示。连续属性(ContinuousAttribute)属性值为实数。一般用浮点变量表示。8第二章:认识数据数据对象和属性类型数据的基本统计描述数据可视化
度量数据的相似性和相异性小结10中心趋势度量均值
(mean)加权算术平均:每i个xi与一个权重wi相关联截尾均值:丢弃高低端极值中位数(median)
有序数值的中间值数据集的中位数可以通过插值(interpolation)估算L1:中位数区间下界
N:数据集中值的个数
所有区间频率和
中位数区间的频率width:中位数区间的宽度
12中心趋势度量众数(mode)数据集中出现频率最高的值最高频率对应多个峰值,分为单峰的(unimodal),双峰的(bimodal),三峰的(trimodal)经验公式:中列数(midrange)最大数和最小数的平均值14数据统计常识Quartiles,outliersandboxplots四分位数Quartiles:Q1(25thpercentile),Q3(75thpercentile)四位分数极差Inter-quartilerange:IQR=Q3–
Q1五数概括Fivenumbersummary:min,Q1,median,
Q3,max盒图Boxplot:分布直观表示,体现五数概括离群点Outlier:第三个四分位数之上或者第一个四分位数之下至少1.5xIQR的值Varianceandstandarddeviation(sample:
s,population:σ)方差Variance:标准差Standarddeviation
方差的平方根15
盒图五数概括Minimum,Q1,Median,Q3,Maximum盒图盒的端点在四分位数上,使得盒长度为四分位数极差IQR中位数用盒内线标记盒外线延伸到最小和最大的观测值19December2022DataMining:ConceptsandTechniques163-D盒图17基本统计图盒图Boxplot:五数概括直方图Histogram:x-axis数值大小,y-axis频率
分位数图Quantileplot:观测单变量数据分布,x1最小xn最大分位数-分位数图Quantile-quantile(q-q)plot:两个观测集,观察一个分布到另一个分布是否漂移散点图Scatterplot:每个值视作一个坐标对,作为一个点画在平面上DataMining:ConceptsandTechniques18分位数图显示给定属性所有数据绘制分位数信息增序排列,每个观测值xi与一个百分数fi
配对,百分比0.5对应中位数,0.75对应Q320散点图确定两个数值变量之间看上去是否存在联系观察双变量数据的有用的方法21第二章:认识数据数据对象和属性类型数据的基本统计描述数据可视化
度量数据的相似性和相异性小结23基于像素可视化技术对于一个m维的数据集,在屏幕上创建m个窗口,每个窗口代表一个维度记录的m个维值映射到这些窗口对应位置上的m个像素像素的颜色反映相对应的值(correspondingvalues)Income(b)CreditLimit(c)transactionvolume(d)age24圆弓分割技术圆弓分割是一种节约空间且简明扼要展示多维间关系的方法在圆弓内表示一个数据记录(b)在圆弓内安排像素DataMining:ConceptsandTechniques26直接投影RibbonswithTwistsBasedonVorticity27散点图矩阵Matrixofscatterplots(x-y-diagrams)ofthek-dim.data[totalof(k2/2-k)scatterplots]Usedby
ermissionofM.Ward,WorcesterPolytechnic
Institute28平行坐标绘制n个等距离,相互平行的轴,每个代表一个维数据记录用折线表示,与每个轴在对应相应维值的点上相交30基于图符可视化技术将数据值可视化为有不同特征的图符代表技术切尔诺夫脸人物线条画31切尔诺夫图用二维的脸表示18维的多维数据(赫尔曼·切尔诺夫)切尔诺夫脸利用脸的眼耳口鼻等要素的不同形状,大小,位置和方向代表维的值。利用人的思维能力,识别面部特征的微小差异来理解许多面部特征,有助于数据的规律性和不规律性的可视化。DataMining:ConceptsandTechniques32
X和Y轴映射两个维usedbypermissionofG.Grinstein,UniversityofMassachusettesatLowell人物线条画用五段人物线条画表示其他维33层次可视化技术把所有维划分成子集(子空间),子空间按层次可视化Methods世界中的世界树图34Worlds-within-Worlds世界中的世界(n-version)对六维数据集(F,X1,…,X5)可视化把X3,X4,X5作为选定值,例如(c3,c4,c5),对另外三维可视化,内世界的点位于外世界(c3,c4,c5)处,外世界是另一个三维图35Tree-Map把层次数据显示成嵌套矩形的集合Schneiderman@UMD:Tree-MapofaSchneiderman@UMD:Tree-Maptosupportlargedatasetsofamillionitems可视化复杂对象和关系非数值数据的可视化:文本与社交网络标签云:用户产生标签的统计量可视化除了文本数据,还有用于可视化社交网络关系的技术Newsmap:GoogleNewsStoriesin200537第二章:认识数据数据对象和属性类型数据的基本统计描述数据可视化
度量数据的相似性和相异性38度量数据的相似性和相异性相似性(Similarity)两个对象相似程度的数量表示数值越高表明相似性越大通常取值范围为[0,1]相异性(Dissimilarity)(例如距离)两个对象不相似程度的数量表示数值越低表明相似性越大相异性的最小值通常为0相异性的最大值(上限)是不同的邻近性(Proximity):相似性和相异性都称为邻近性39数据矩阵与相异性矩阵数据矩阵-对象-属性结构行-对象:n个对象列-属性:p个属性二模矩阵(Twomodes)相异性矩阵(Dissimilaritymatrix)n个对象两两之间的邻近度对称矩阵单模(Singlemode)其中d(i,j)表示对象i与对象j之间的相异性40标称属性的邻近性度量标称属性(NominalAttributes):可以取两个或多个状态例如:颜色属性,可以取值为:红、黄、蓝、绿两个对象i和j之间的相异性使用不匹配率来表示m:对象匹配数目,p:对象的属性总数表2.2包含混合类型属性的样本数据表41只对标称属性test1计算相异性,因此p=1,当对象i和j匹配时,d(i,j)=0,当对象不同时d(i,j)=1对象标识符Test-1(标称的)Test-2(序数的)Test-3(数值的)1A优秀452B一般223C好644A优秀2842二元属性的邻近性度量对象i和对象j
的频数表对称的二元相异性
非对称的二元相异性(t被认为不重要,例如:病理化验呈阴性)ObjectiObjectj43Jaccard系数(非对称的二元相似性):Note:Jaccard系数与“一致性”计算相同:二元属性的邻近性度量44二元属性的相异性(例子)Name(姓名)和Gender(性别)是对称属性其他属性是非对称二元属性,假设只针对非对称二元属性进行相异性计算值Y和P是1,值N是045数值属性的相异性:闵可夫斯基距离闵可夫斯基距离(MinkowskiDistance):计算距离的通用的公式:i=(xi1,xi2,…,xip)和j=(xj1,xj2,…,xjp)是p维数据对象距离需要满足的性质:非负性:d(i,j)>0ifi≠j,andd(i,i)=0对称性:d(i,j)=d(j,i)三角不等式:d(i,j)d(i,k)+d(k,j)满足上述条件的测度称为度量(metric)46闵可夫斯基距离的特殊表现形式h=1:曼哈顿距离(或城市块距离Manhattandistance)h=2:欧几里德距离(用的最多的)h
:上确界距离找出两个对象的属性中最大的距离47例:闵可夫斯基距离相异性矩阵Manhattan(L1)Euclidean(L2)Supremum48序数属性的邻近性度量序数属性:值之间是有意义的序或者排位假设f为n个对象的一组序数属性之一,第i个对象的f值为xif
,属性f有个有序状态,表示排位用下面公式实现数据规格化相异性计算可以用数值属性的距离度量来计算49=3,把test2的每个值替换为它的排位,则4个对象将分别被赋值为3、1、2、3实现规格化:将1映射为0.0,2映射为0.5,3映射为1.0使用欧几里德距离求相异性矩阵对象标识符Test-1(标称的)Test-2(序数的)Test-3(数值的)1A优秀452B一般223C好644A优秀2831231.00.00.51.0表2.250混合类型属性的相异性数据库中可能包含各种属性类型标称的、对称二元的、非对称二元的、数值的或序数的分别对每类数据进行数据挖掘分析,可能产生的结果不兼容所有类型一起处理,公式为:如果xif或者xjf缺失,即对象i或者对象j没有属性f的度量值,或者xif=xjf=0,并且f是非对称的二元属性,则=0其他情况指示符=151混合类型属性的相异性若f是标称或二元的:如果xif=xjf,则dij(f)=0,否则dij(f)=1若f是数值的:
其中h遍取属性f的所有非缺失对象若f
是序数的:计算rif
和zif
,并将zif作为数值属性对待。52对于数值属性Test3,
计算相异性并规格化:max=64,min=22对象标识符Test-1(标称的)Test-2(序数的)Test-3(数值的)1A优秀452B一般223C好644A优秀28表2.253Test1Test2Test3对象1和对象4的最相似,对象1和对象2最不相似。对象标识符Test-1(标称的)Test-2(序数的)Test-3(数值的)1A优秀452B一般223C好644A优秀2854
余弦相似性对文档中的关键词或短语的频度表:词频向量通常很长,稀疏的,使用余弦相似性作为
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 食品安全追溯系统供应合同
- 雇佣劳动合同管理制度
- 工业废水处理与循环利用项目投资合同
- 船舶制造技术研发投资合同
- 大棚承包合同
- 建筑装饰材料采购合同
- 影视行业观影风险告知合同
- 二零二四年农田测绘及农业规划合同
- 二零二四实习协议与保密协议及培训服务合同3篇
- 二零二五年度城市出租车承包经营服务合同(全新版)2篇
- 商务星球版地理八年级下册全册教案
- 北京市北京四中2025届高三第四次模拟考试英语试卷含解析
- 2024年快递行业无人机物流运输合同范本及法规遵循3篇
- 伤残抚恤管理办法实施细则
- DL-T+5196-2016火力发电厂石灰石-石膏湿法烟气脱硫系统设计规程
- 2024-2030年中国产教融合行业市场运营态势及发展前景研判报告
- 2024年微生物检测试剂行业商业计划书
- 高中英语选择性必修一单词表
- 物业公司介绍
- (正式版)SHT 3551-2024 石油化工仪表工程施工及验收规范
- 【永辉超市公司员工招聘问题及优化(12000字论文)】
评论
0/150
提交评论