数据挖掘-课后习题_第1页
数据挖掘-课后习题_第2页
数据挖掘-课后习题_第3页
数据挖掘-课后习题_第4页
数据挖掘-课后习题_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、习题-2:数据(或属性)的类型有哪几种?怎样区分这些类型?每种类型举一个例子。标称属性的值只提供足够的信息以_区分_对象. 序数属性的值提供足够的信息确定对象的_序_. 对于比率属性的值,进行_差_和_比率_操作都是有意义的. 摄氏温度、年龄、质量、长度、基因表达量、一号染色体的基因起始位置,它们分别属于什么数据类型。数据集的类型主要有几类?每种类型又包含哪些具体的数据集子类型。数据矩阵是一种特殊的记录数据类型。与记录数据类型相比,特殊在哪里?目前有100多个代谢通路,如葡萄糖代谢、嘌呤代谢等,那么葡萄糖代谢属于带有对象之间联系的数据还是具有图形对象的数据?如下是酵母细胞在多个时间点上的全基因

2、组表达情况。该数据集属于哪种具体的数据集类型?这种数据有什么特点。噪声和离群点的区别?产生遗漏值的原因有哪些?怎样处理遗漏值?数据预处理主要有什么方法?聚集的主要目的有:数据归约、使数据性质更加稳定、_。(判断对错!)OMIM数据库中每个疾病已知的疾病基因很少,因此难以利用他们来识别相应的通路。为此我们可以利用特征选择的方法把疾病亚类汇集起来,如肝移植、肾移植、等疾病,称为器官移植疾病。然后得到较多的基因,再进行识别通路。(错,聚集的方法)统计学使用抽样是因为_获得_(获得、处理)感兴趣的整个数据集的费用太高、太费时间。数据挖掘使用抽样是因为_处理_(获得、处理)所有的数据的费用太高、太费时间

3、。已知人类基因有2万个,我们检测了所有1000疾病基因对在通路中的距离,结果发现它们的平均距离(d)很小。但我们不确定这种现象是否是疾病基因特有的。试利用抽样方法来验证这种现象。连续属性离散化方法主要有_、_和_。叙述等宽和等频离散化方法的原理。当数据有一些离群点时,采用均值和标准差进行数据标准化受离群点影响大。这时可用_中位点 和_绝对标准差 代替。对象之间相似度和相异度测量方法主要有哪些?明可夫斯基距离 ,当r=1时,该距离称为_城市块距离_。当r=2时,该距离称为_。有两个数据对象,他们都是一维的数据(即简单属性),那么当他们是标称、序数、或连续属性时,他们之间的相似度和相异度怎样计算。

4、如果利用基因表达谱来构建基因相关网络,可以把每个基因当作数据对象,然后计算对象间的表达相关度。那么计算这种相关度可以使用_皮尔森相关系数_测度。阐述你选择这种测度的理由?并叙述怎样利用这种测度来构建网络。(因为是连续的)疾病的发生、发展与通路密切相关。目前已知的通路有100个。研究人员发现皮肤癌与其中的30个通路相关,中风与其中的20个通路相关。而且这两个疾病共享的通路有10个。选择一种方法计算这两个疾病的相似性值?SMC = (f11 + f00)/(f01 + f10 + f11 + f00) = (10+60) / (10+20+10+60) = 0.7 J = (f11) / (f01

5、 + f10 + f11) = 10 / (10 + 20 + 10) = 0.25 习题-6随机森林方法原理怎样利用多棵决策树来寻找疾病风险基因随机森林与组合决策方法的异同点详细阅读组合决策方法论文组合决策还适用于解决哪些生物学(医学)问题习题-9稀疏化的好处OPOSSUM聚类算法中重要一个步骤是稀疏化,叙述该稀疏化方法Chameleon算法使用接近性和互连性概念以及簇的局部建模。关键思想是:使用_和_概念,仅当合并后的结果簇_原来的两个簇时,这两个簇才合并。Jarvis-Patrick(JP)聚类算法首先计算_图,然后使用相似度阈值,稀疏化该图找出稀疏化图的连通分支。基于SNN密度的聚类不

6、象JP聚类简单地使用域值,然后取_作为簇,基于SNN密度的聚类使用基于SNN密度和_方法。SNN密度的优势。习题-6考虑下表中的数据(a)计算项集e,b,d和b,d,e的支持度.(b)利用(a)计算的结果,计算关联规则b,d=e和e=b,d的置信度。置信度是对称的度量吗?习题考虑如图所示的候选3-项集的Hash树(a)给定一个包含项1,3,4,5,8的事务,在寻找该事务的候选项集时,访问了Hash树的哪些叶节点?(b)使用(a)中访问的叶节点确定事务1,3,4,5,8包含的候选项集。习题习题将Apriori算法用于下表所示的数据集,最小支持度为30%.习题(a)画出数据集的项集格。并用以下字母

7、标记格中的每个节点。N:不是候选项集;F:频繁项集;I:经支持度计数后,发现是非频繁的候选项集。(b)频繁项集的百分比是多少?(c)Apriori算法的剪枝率是多少?(d)假警告率是多少?(假警告率指经过支持度计算后被发现是非频繁的候选项集所占的百分比。)习题考虑下面的相依表(a)对于表I,计算关联模式A,B的支持度,兴趣度和相关系数,并计算规则AB和BA的置信度。(b)对于表II ,计算关联模式A,B的支持度,兴趣度和相关系数,并计算规则AB和BA的置信度。(c)由(a)和(b)的结果可以得出什么结论。习题-7考虑下表所示的数据集。第一个属性是连续的,而其余两个属性是非对称二元的。一个规则是强规则,如果它的支持度超过15%且置信度超过60%。表中数据支持如下两个强规则:(i) (1 A 2),B = 1 C = 1(ii) (5 A 8),B = 1 C = 1习题(a)计算这两个规则的支持度和置信度。(b)为了使用传统的Apriori算法找出这些规则,我们需要离散化连续属性A。假定我们使用等宽分箱方法离散化该数据,其中bin-width=2,3,4.对于每个bin-width,上面两个规则是否能够被Apriori算法发现?对于每个与前面规则对应的规则,计算其支持度和置信度。习题对于下面给定的每个序列w=,确定它们是否是序列的子

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论