数据挖掘第三版第三章课后习题答案_第1页
数据挖掘第三版第三章课后习题答案_第2页
数据挖掘第三版第三章课后习题答案_第3页
数据挖掘第三版第三章课后习题答案_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2.1再给三个用于数据散布的常用特征度量〔即未在本章讨论的〕,并讨论如何在大型数据库中有效的计算它们答:异众比率:又称离异比率或变差比。是非众数组的频数占总频数的比率应用:用于衡量众数的代表性。主要用于测度定类数据的离散程度,定序数据及数值型数据也可以计算。还可以对不同总体或样本的离散程度进行比拟计算:标准分数:标准分数〔standardscore〕也叫z分数〔z-score〕,是一个分数与平均数的差再除以标准差的过程。用公式表示为:z=(x-μ)/σ。其中x为某一具体分数,μ为平均数,σ为标准差。Z值的量代表着原始分数和母体平均值之间的距离,是以标准差为单位计算。在原始分数低于平均值时Z那么为负数,反之那么为正数。计算:Z=〔x-μ)/σ其中μ=E(X)为平均值、σ²=Var(X)X的概率分布之方差假设随机变量无法确定时,那么为算术平均数离散系数:离散系数,又称“变异系数”,是概率分布离散程度的一个归一化量度,其定义为标准差与平均值之比。计算:CV=σ/μ极差〔全距〕系数:Vr=R/X’;平均差系数:Va,d=A.D/X’;方差系数:V方差=方差/X’;标准差系数:V标准差=标准差/X’;其中,X’表示X的平均数。平均差:平均差是总体所有单位的平均值与其算术平均数的离差绝对值的算术平均数。

平均差是一种平均离差。离差是总体各单位的标志值与算术平均数之差。因离差和为零,离差的平均数不能将离差和除以离差的个数求得,而必须讲离差取绝对数来消除正负号。

平均差是反响各标志值与算术平均数之间的平均差异。平均差异大,说明各标志值与算术平均数的差异程度越大,该算术平均数的代表性就越小;平均差越小,说明各标志值与算术平均数的差异程度越小,该算术平均数的代表性就越大。计算:平均差=(∑|x-x'|)÷n,其中∑为总计的符号,x为变量,x'为算术平均数,n为变量值的个数。2.2假设所分析的的数据包括属性age,它在数据元组中的值〔以递增序〕为13,15,16,16,19,20,21,22,22,25,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70.a.平均值29.963中位数是25b.众数是25及35数据的模态是二模c.最大数和最小数的均值=(70+13)/2=41.5d.第一个四分位数在(N+1)/4=〔27+1〕/4=7处:Q1=20。而第三个四分位数在3×(N+1)/4=21处:Q3=35e.最小值、第一个四分位数、中位数、第三个四分位数、和最大值是:13、20、25、35、70。f.箱线图为g.分位数图是一种用来展示数据值低于或等于在一个单变量分布中独立的变量的粗略百分比。这样,他可以展示所有数的分位数信息,而为独立变量测得的值〔纵轴〕相对于它们的分位数〔横轴〕被描绘出来。但分位数—分位数图用纵轴表示一种单变量分布的分位数,用横轴表示另一单变量分布的分位数。两个坐标轴显示它们的测量值相应分布的值域,且点按照两种分布分位数值展示。一条线〔y=x〕可画到图中+以增加图像的信息。落在该线以上的点表示在y轴上显示的值的分布比x轴的相应的等同分位数对应的值的分布高。反之,对落在该线以下的点那么低。2.4C.Q-Q图为散点图为2.5.简要概述如何计算被如下属性描述的相异性a.标称属性两个对象i和j之间的相异性可以根据不匹配率来计算:其中,m是匹配的数目〔即i和j取值相同状态的属性数〕,而p是刻画对象的属性总数。我们可以通过赋予m较大的权重,或者赋给有较多状态的属性的匹配更大的权重来增加m的影响。b.非对称的二元属性给定两个非对称的二元属性,两个都取值1的情况〔正匹配〕被认为比两个都取值0的情况〔负匹配〕更有意义。因此,这样的二元属性经常被认为是“一元的”〔只有一种状态〕。基于这种属性的相异性被称为非对称的二元相异性,其中负匹配数t被认为是不重要的,因此在计算时被忽略c.数值属性最流行的距离度量是欧几里得距离〔即,直线或“乌鸦飞行”距离〕。令i=〔xi1,xi2,…,xip〕和j=〔xj1,xj2,…,xjp〕是两个被p个数值属性描述的对象。对象i和j之间的欧几里得距离定义为:另一个著名的度量方法是曼哈顿〔或城市块〕距离,之所以如此命名,是因为它是城市两点之间的街区距离〔如,向南2个街区,横过3个街区,共计5个街区〕。其定义如下:d.词频属性在一份给定的文件里,词频〔termfrequency,TF〕指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被正规化,以防止它偏向长的文件。〔同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否。〕对于在某一特定文件里的词语ti来说,它的重要性可表示为:以上式子中ni,j是该词在文件dj中的出现次数,而分母那么是在文件dj中所有字词的出现次数之和。2.6a.欧几里得距离为45^0.5b.哈曼吨距离为11c.闵可夫斯基距离为233^1/3d.上确定界距离为62.8a.利用公式,得到以下的距离为欧几里得距离0.140.670.280.220.61余弦相似性距离0.99990.99570.99990.99900.9653基于欧几里得距离距离,排名顺序是x1,x4;x3,x5,x2。基于余弦相似度的点排位是x1,x3,x4,x2,x5。b.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论