![临床数据挖掘方法-分类与聚类课件_第1页](http://file4.renrendoc.com/view/7893947e8844bacfdd5950da84d51ee8/7893947e8844bacfdd5950da84d51ee81.gif)
![临床数据挖掘方法-分类与聚类课件_第2页](http://file4.renrendoc.com/view/7893947e8844bacfdd5950da84d51ee8/7893947e8844bacfdd5950da84d51ee82.gif)
![临床数据挖掘方法-分类与聚类课件_第3页](http://file4.renrendoc.com/view/7893947e8844bacfdd5950da84d51ee8/7893947e8844bacfdd5950da84d51ee83.gif)
![临床数据挖掘方法-分类与聚类课件_第4页](http://file4.renrendoc.com/view/7893947e8844bacfdd5950da84d51ee8/7893947e8844bacfdd5950da84d51ee84.gif)
![临床数据挖掘方法-分类与聚类课件_第5页](http://file4.renrendoc.com/view/7893947e8844bacfdd5950da84d51ee8/7893947e8844bacfdd5950da84d51ee85.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 第三章 数据挖掘方法分类与聚类 第三章 数据挖掘方法分类与聚类1. 分类的概念及分类性能的评估2. 决策树与随机森林分类器的构建及R软件实现3. 案例:应用决策树获得影响结局的决策准则及应用随机森林算法预测样本分类并提取结局的重要风险因素4. 主成分分析及应用主成分分析绘制样本分类图分类1. 分类的概念及分类性能的评估分类聚类5. 聚类的概念及常用聚类方法(K均值聚类与系统聚类)6. K均值聚类与系统聚类的R软件实现7. 双向聚类热图及复杂热图绘制的R软件包ComplexHeatmap8. 基于数据挖掘中的分类与聚类发表SCI论文的经验分享聚类5. 聚类的概念及常用聚类方法(K均值聚类与系统
2、聚类)在高维数据的统计分析中,分类(Classification )和聚类(Cluster)是两种常见分析方法。分类:有监督学习方法聚类:无监督学习方法1 分类的概念及分类性能的评估在高维数据的统计分析中,分类(Classification 有监督学习:对已知类别的样本进行分类器的学习无监督学习:对未知类别的样本或不利用样本类别信息进行分类学习1 分类的概念及分类性能的评估有监督学习:对已知类别的样本进行分类器的学习1 分类的概念及分类(Classification)是一种数据分析过程,即根据记录各种属性的值确定该记录属于预定类别中的哪一类。分类是数据挖掘中的常用方法,在医学应用中,疾病的诊断
3、和鉴别诊断就是典型的分类过程。1 分类的概念及分类性能的评估分类(Classification)是一种数据分析过程,即根分类器的产生主要通过学习和测试两部分完成。学习过程是依据训练样本(Training Sample)进行有监督的学习,通过学习得到特定的分类器(Classifier)。测试过程是以学习得到的分类器对测试样本(Testing Sample)进行分类,并将分类结果与该样本的类别归属进行对照,以此判断分类器的性能。当分类器的分类性能达到预定目标后,即可用该分类器对未知数据的类别进行判定。用于评估分类器性能的测试样本必须独立于训练样本。1 分类的概念及分类性能的评估分类器的产生主要通过
4、学习和测试两部分完成。学习过程是依据训练训练样本与测试样本的选取(1)随机分组法:将已知数据集合随机的分为互不重叠的学习样本和测试样本,训练样本量越大,对于分类器的学习就会越准确。因此,当已知数据集较大的时候,常采用原始数据的三分之二作为训练样本,但缺点是可能会导致不同类别的样本在两个样本中分布不均衡。1 分类的概念及分类性能的评估训练样本与测试样本的选取1 分类的概念及分类性能的评估2)N倍交叉验证法:将原有数据集随机的分为N组,分别以其中的一组数据作为测试样本,其他组数据作为训练样本进行训练和测试。这样一共训练了N次,得到N个分类准确率。最后取N次测试的分类准确率的均值来反应分类器的性能。
5、 1 分类的概念及分类性能的评估特别的,当N为总样本数时,此方法则成为留一法(leave-one-out)。5倍交叉验证2)N倍交叉验证法:将原有数据集随机的分为N组,分别以其中的1 分类的概念及分类性能的评估(3)Bootstrap法(自助法):假设原数据集中有M个样本,对样本重复进行抽样,每次取m个样本,没有抽取的样本作为测试样本,训练分类器。该过程重复进行n次,综合n次的结果计算分类正确率。该方法适用于样本量较少的情况。Bootstrap法1 分类的概念及分类性能的评估(3)Bootstrap法(自常见的分类方法决策树(Decision Tree)随机森林(Random Forest)支
6、持向量机(SVM)1 分类的概念及分类性能的评估常见的分类方法决策树(Decision Tree)1 分类的分类准确率(Classification Accuracy)反映分类器能否将未知数据正确地划归某一特定类别的能力。此外,灵敏度(Sensitivity)、特异度(Specificity)和ROC(Receiver Operating Characteristic)曲线下面积AUC(Area Under ROC curve)也是常用的判断分类器的指标。1 分类的概念及分类性能的评估分类准确率(Classification Accuracy)决策树是一种十分常用的分类方法。该方法是一种监督学
7、习,每个样本都有一组属性和一个类别,这些类别是事先确定的,那么通过学习得到一个分类器,这个分类器能够对新出现的对象给出正确的分类。2 决策树与随机森林分类器的构建及R软件实现决策树是一种十分常用的分类方法。该方法是一种监督学习,每个样 决策树分类器的构建不需要应用领域的学科知识,无须设置参数,适用于探索性的数据挖掘和知识发现。但对训练样本的噪声较敏感,对海量数据的分类效率较低。2 决策树与随机森林分类器的构建及R软件实现 决策树分类器的构建不需要应用领域的学科知识,决策树处理分类问题的主要步骤:设计:用训练样本进行分类器的设计。实现:用设计好的分类器对已知或未知样本进行分类决策。2 决策树与随
8、机森林分类器的构建及R软件实现决策树处理分类问题的主要步骤:设计:用训练样本进行分类器的设决策树的结构根结点n1,n2,n3,n4为非终止结点t1,t2,t3t7为终止结点(叶子结点)2 决策树与随机森林分类器的构建及R软件实现决策树的结构根结点n1,n2,n3,n4为非终止结点t1,t决策树的分类原理可以处理两类或多类的问题产生决策准则,对未知样本进行分类2 决策树与随机森林分类器的构建及R软件实现决策树的分类原理可以处理两类或多类的问题2 决策树与随机森林决策树形成过程决策树算法output训练集决策树input2 决策树与随机森林分类器的构建及R软件实现决策树形成过程决策树算法outpu
9、t训练集决策树input2如何构建决策树呢?(分割准则)两种方法:1 最大信息增益法2 最小基尼指数法2 决策树与随机森林分类器的构建及R软件实现如何构建决策树呢?(分割准则)两种方法:2 决策树与随机森林熵的定义基于熵的分割准则:2 决策树与随机森林分类器的构建及R软件实现熵的定义基于熵的分割准则:2 决策树与随机森林分类器的构建及H(S)= -5/14* log(5/14)-9/14*log(9/14)=AH(S|outlook)=5/14* (-3/5log(3/5)- 2/5log(2/5)+ 4/14*(-4/4log(4/4)-0)+5/14(- 3/5log(3/5)-2/5lo
10、g(2/5)=B H(S|temp)=C H(S|humidity)=D H(S|windy)=Emax (H(S)-H(S| feature)=max (A-B, A-C, A-D, A-E)2 决策树与随机森林分类器的构建及R软件实现H(S)= -5/14* log(5/14)-9/14*lo通过信息熵构建的决策树2 决策树与随机森林分类器的构建及R软件实现通过信息熵构建的决策树2 决策树与随机森林分类器的构建及R软另一个分割准则:GINI INDEXMinimal Gini index:2 决策树与随机森林分类器的构建及R软件实现另一个分割准则:GINI INDEXMinimal Gin
11、i用决策树进行分析Training constructing a decision treeTestestimating a decision treeAccuracy:TP:真阳性数 TF:真阴性数NP:假阳性数 NF:假阴性数2 决策树与随机森林分类器的构建及R软件实现用决策树进行分析Training constructin构建决策树的主要终止条件:每一个叶子结点仅包括单一类的样本或限制叶子结点优势类样本的纯度2 限制树的深度2 决策树与随机森林分类器的构建及R软件实现构建决策树的主要终止条件:每一个叶子结点仅包括单一类的样本或决策树的R软件包为rpart package.2 决策树与随机
12、森林分类器的构建及R软件实现决策树的R软件包为rpart package.2 决策树与随安装加载决策树软件包(rpart)2 决策树与随机森林分类器的构建及R软件实现安装加载决策树软件包(rpart)2 决策树与随机森林分类器安装加载rpart package.install.packages(rpart)library(rpart)2 决策树与随机森林分类器的构建及R软件实现安装加载rpart package.install.packdata(kyphosis)kyphosis我们用R软件包自带的数据集作分析2 决策树与随机森林分类器的构建及R软件实现data(kyphosis)我们用R软件
13、包自带的数据集作分析总样本数为81例,取70例作为训练集,11例作为测试集。建立训练集和测试集sub-sample(1:81,70)train-kyphosissub,test-kyphosis-sub,2 决策树与随机森林分类器的构建及R软件实现总样本数为81例,取70例作为训练集,11例作为测试集。建立用训练集建立决策树模型model-rpart(KyphosisAge+Number+Start,data=train)model2 决策树与随机森林分类器的构建及R软件实现用训练集建立决策树模型model-rpart(Kyphos应用rpart.plot软件包绘制图形。安装rpart.plo
14、t软件包后输入语句:library(rpart.plot)prp(model, type=4, box.palette=auto,faclen=0)2 决策树与随机森林分类器的构建及R软件实现应用rpart.plot软件包绘制图形。library(rpprp(model, type=1, extra=?, box.palette=auto,faclen=0)extra=1extra=2extra=4extra=52 决策树与随机森林分类器的构建及R软件实现prp(model, type=1, extra=?, bo决策树模型的评价分类正确率=10/11=90.9%x-subset(test,s
15、elect=-Kyphosis)pred-predict(model,x,type= class)k-test, Kyphosistable(pred,k)2 决策树与随机森林分类器的构建及R软件实现决策树模型的评价分类正确率=10/11=90.9%x-su灵敏度=8/(8+1)=88.9%特异度=2/(2+0)=100.0%2 决策树与随机森林分类器的构建及R软件实现灵敏度=8/(8+1)=88.9%2 决策树与随机森林分类器 当前,随着生物医学技术的发展及大数据时代的到来,高通量多指标的高维数据越来越多。比如高通量的Microarray技术,可以同时检测成千上万个基因的表达谱,已经成为功能
16、基因组研究中的重要工具。对于这些数据,一方面希望能够构建模型,获得样本最大的分类准确率,另一方面如何能够从海量的指标中提取出重要的特征属性也是较为重要的问题。随机森林(Random forest)方法能够比较有效的解决这些问题。2 决策树与随机森林分类器的构建及R软件实现随机森林方法与原理 当前,随着生物医学技术的发展及大数据时代的到来 随机森林算法是基于递归分类树的有监督学习方法。对原始训练集采用bootstrap法有放回的随机抽取新的样本集并由此构建分类树,每次未被抽到的样本组成了袋外数据OOB(out-of-bag),作为测试集。在树的每个分叉结点对特征空间作一次穷尽搜索,提取一个特征基
17、因 ,使得在结点t的划分最大程度降低类别杂质度。采用Gini差异性指标作为结点t的杂质函数: 其中 表示结点t中某一样品属于第k类的频率。这种递归反复进行,直到满足树的增长停止规则。每棵树保证最大限度的增长,中间不作任何修剪。用袋外样本数据检验树的分类效果。将生成的多棵分类树组成随机森林,用随机森林对袋外数据进行判别与分类,分类结果按树分类器的投票多少而定。2 决策树与随机森林分类器的构建及R软件实现随机森林方法与原理 随机森林算法是基于递归分类树的有监督学习方法。对原始基于平均基尼指数减少量的特征属性选择 先来看基尼指数的定义。假设在样本采集中有两种不同性质的样本,其中包含目标检测物的待测样
18、本为 个,不包括目标检测物的对照样本为 个,则特征属性S的基尼指数定义为: 根据上述基尼指数的定义,如果采用决策树模型,可以获得在决策树中分裂结点(每一个分裂结点对应一个特征属性S)的基尼指数,即:在上述公式中,N表示N个分裂条件, 表示满足第i个分裂条件的样本数占全部样本数的比例。其中: 。这里的 和 表示在第i个分裂条件下待测样本和对照样本占全部样本的比例。2 决策树与随机森林分类器的构建及R软件实现基于平均基尼指数减少量的特征属性选择 先来看基尼指数的 越小,表明该分裂结点(每一个分裂结点对应一个特征属性)对样本的分类越好。平均基尼指数减少量的定义为:MDG(Mean Decrease
19、in the Gini index)就定义为: 其中, 表示决策森林中总的树的个数。该公式表明平均基尼指数减少量MDG是用总的分裂结点的杂质减少量除以构建的决策森林中的树的个数。MDG越大,表明该分裂结点对样本的分类越好。换句话说,某个特征属性的平均基尼指数减少量MDG越大,表明该特征属性的特异性越明显,对样本的分类贡献越大。2 决策树与随机森林分类器的构建及R软件实现 越小,表明该分裂结点(每一个 以一个简单的例子进行说明:假设在决策森林中构建了2棵决策树,有一个特征属性S对样本进行了分类,如下图所示。2 决策树与随机森林分类器的构建及R软件实现 以一个简单的例子进行说明:假设在决策森林中构
20、建则S的基尼指数减少量为:此时得到了特征属性S分裂结点的基尼指数为:对于第一棵决策树,假设有两个分裂条件S1(特征属性S1000),则可得:2 决策树与随机森林分类器的构建及R软件实现则S的基尼指数减少量为:此时得到了特征属性S分裂结点的基尼指类似的,对于第二棵决策树进行相同的计算。假设有两个分裂条件S1(特征属性S1200),则可得:此时得到了特征属性S分裂结点的基尼指数为:则S的基尼指数减少量为:如果按照2棵决策树来计算,则可以获得特征属性S的平均最小基尼指数减少量,即:2 决策树与随机森林分类器的构建及R软件实现类似的,对于第二棵决策树进行相同的计算。假设有两个分裂条件S随机森林在R的r
21、andomForest package安装随机森林软件包2 决策树与随机森林分类器的构建及R软件实现随机森林在R的randomForest package安装随加载randomForest package2 决策树与随机森林分类器的构建及R软件实现加载randomForest package2 决策树与随应用R自带数据iris分类标签2 决策树与随机森林分类器的构建及R软件实现应用R自带数据iris分类标签2 决策树与随机森林分类器的构构建随机森林模型袋外样本(out of bag)分类错误率data(iris)iris.rf-randomForest(Species.,ntree=5000,
22、data=iris,importance=TRUE)iris.rf2 决策树与随机森林分类器的构建及R软件实现构建随机森林模型袋外样本(out of bag)分类错误率dOOB=6/150=4%混淆矩阵2 决策树与随机森林分类器的构建及R软件实现OOB=6/150=4%混淆矩阵2 决策树与随机森林分类器的下面进行分类器的评价从150个样本中随机取100个样本作为训练集,其余50个样本作为测试集。2 决策树与随机森林分类器的构建及R软件实现下面进行分类器的评价2 决策树与随机森林分类器的构建及R软件输入语句:sub-sample(1:150,100)train-irissub,test-iris
23、-sub,model-randomForest(Species.,ntree=5000,data=train,importance=TRUE)x-subset(test,select=-Species)pred-predict(model,x,type=class)k-test,Speciestable(pred,k)2 决策树与随机森林分类器的构建及R软件实现输入语句:subasub-sample(1:392,260)train-asub,test-a-sub,model-rpart(group.,data=train)prp(model, type=4, box.palette=auto,
24、faclen=0)决策树模型构建:将年龄,性别,疾病病史和六个指标:index1-index6进行决策树模型的构建。程序如下: 3 案例:应用决策树获得影响结局的决策准则及应用随机森林算法预测样本分类并提取结局的重要风险因素library(rpart)决策树模型构建:将年龄,性别,疾决策树模型 3 案例:应用决策树获得影响结局的决策准则及应用随机森林算法预测样本分类并提取结局的重要风险因素决策树模型 3 案例:应用决策树获得影响结局的决策准则及应用x-subset(test,select=-group)pred-predict(model,x,type= class)k-test, group
25、table(pred,k)判断分类准确率分类正确率=122/132=92.4% 3 案例:应用决策树获得影响结局的决策准则及应用随机森林算法预测样本分类并提取结局的重要风险因素xaa.rf-randomForest(group.,data=a,importance=TRUE,proximity=TRUE)importance(a.rf,type=2)MDSplot(a.rf,a$group)随机森林模型构建 3 案例:应用决策树获得影响结局的决策准则及应用随机森林算法预测样本分类并提取结局的重要风险因素将年龄,性别,疾病病史和六个指标:index1-index6输出结果:前三个重要的特征变量依
26、次是:index4index2index6 3 案例:应用决策树获得影响结局的决策准则及应用随机森林算法预测样本分类并提取结局的重要风险因素输出结果:前三个重要的特征变量依次是: 3 案例:应用决策树随机森林提取的特征属性 3 案例:应用决策树获得影响结局的决策准则及应用随机森林算法预测样本分类并提取结局的重要风险因素随机森林提取的特征属性 3 案例:应用决策树获得影响结局的决绘制出多维尺度图(Multiple Dimension Scale)红色和蓝色点分别表示正常和疾病两类样本 3 案例:应用决策树获得影响结局的决策准则及应用随机森林算法预测样本分类并提取结局的重要风险因素绘制出多维尺度图
27、(Multiple Dimension Sc5倍交叉验证程序 3 案例:应用决策树获得影响结局的决策准则及应用随机森林算法预测样本分类并提取结局的重要风险因素5倍交叉验证 3 案例:应用决策树获得影响结局的决策准则及应 SCI论文的撰写大纲1) 单因素分析 3 案例:应用决策树获得影响结局的决策准则及应用随机森林算法预测样本分类并提取结局的重要风险因素 SCI论文的绘制箱式图:Index4和Index2在实验组与对照组中的比较 3 案例:应用决策树获得影响结局的决策准则及应用随机森林算法预测样本分类并提取结局的重要风险因素绘制箱式图:Index4和Index2在实验组与对照组中的比2) 多因素
28、Logistic回归分析 3 案例:应用决策树获得影响结局的决策准则及应用随机森林算法预测样本分类并提取结局的重要风险因素2) 多因素Logistic回归分析 3 案例:应用决策树获3)与随机森林和决策树的结果进行比较index4都是最重要的特征变量 3 案例:应用决策树获得影响结局的决策准则及应用随机森林算法预测样本分类并提取结局的重要风险因素3)与随机森林和决策树的结果进行比较index4都是最重要的4)ROC曲线分析 Index4的ROC曲线分析AUC=0.954 3 案例:应用决策树获得影响结局的决策准则及应用随机森林算法预测样本分类并提取结局的重要风险因素4)ROC曲线分析 Inde
29、x4的ROC曲线分析AUResponse: Thanks for the reviewer to provide such a good method to assess the accuracy of our prediction of cases and controls .We adopt 5-fold cross validation to implement the analysis. The results showed that the classification accuracy rate for each test data were In addition, for ea
30、ch analysis, we calculated the Mean Decrease Gini (MDG) involved in random forest algorithm which was used to quantify which taxa contributes most to classification accuracy.For each analysis, we filtered the top ten ranked taxas contributing to the classification according to their MDG. We found th
31、at Prevotellaceae and Eubacterimu were ranked the top ten in all of five analyses. Specially, Prevotellaceae was one of the discriminative features obtained by the LEfSe analysis (LDA score =4.608, pa pc.craautoplot(stats:prcomp(a-1),data=a,frame = TRUE, frame.type = t,frame.colour = group,colour =
32、group) 4 主成分分析及应用主成分分析绘制样本分类图绘制二维主成分分析结果图利用ggfortify软件包进行主成分图的绘制library 4 主成分分析及应用主成分分析绘制样本分类图 4 主成分分析及应用主成分分析绘制样本分类图 聚类分析 5. 聚类的概念及常用聚类方法(K均值聚类与系统聚类) 对事物进行归类是人类认识自然的根本方法.聚类分析是多元统计分析方法之一,虽然理论上还不完善,但具有很高的适用性. 5. 聚类的概念及常用聚类方法(K均值聚类与系统聚类)对事物进行归类是人类认识自然的根本方法.聚类分析是多元统计分聚类分析的基本思想:设对n个观察单位测量了m个指标 5. 聚类的概念及
33、常用聚类方法(K均值聚类与系统聚类)聚类分析的基本思想:设对n个观察单位测量了m个指标 5. 聚从而将观察单位分为若干类,满足同一类内的差别较小,而类与类之间的差别较大,此为聚类分析的实质. 5. 聚类的概念及常用聚类方法(K均值聚类与系统聚类)从而将观察单位分为若干类,满足同一类内的差别较小,而类与类之根据测量指标对各观察单位聚类,称为Q型分析,根据观察单位的测量值对指标进行聚类,称为R型分析. 5. 聚类的概念及常用聚类方法(K均值聚类与系统聚类)根据测量指标对各观察单位聚类,称为Q型分析,根据观察单位的测 聚类分析常用的统计量为距离和相似系数 5. 聚类的概念及常用聚类方法(K均值聚类与
34、系统聚类) 聚类分析常用的统计量为距离和相似系数 5. 聚类的概念及常(一)距离(常用于对样品聚类)1)绝对距离把各个样品看作是m维空间上的一个点,若有n个样品,就有n个点,任何两点间都有一个距离. 5. 聚类的概念及常用聚类方法(K均值聚类与系统聚类)(一)距离(常用于对样品聚类)1)绝对距离把各个样品看作是m2)欧氏距离3)明氏距离 5. 聚类的概念及常用聚类方法(K均值聚类与系统聚类)2)欧氏距离3)明氏距离 5. 聚类的概念及常用聚类方法(K4)马氏距离计算距离时,由于各指标单位不同,需将原始数据标准化以消除量纲影响,然后计算距离 5. 聚类的概念及常用聚类方法(K均值聚类与系统聚类)
35、4)马氏距离计算距离时,由于各指标单位不同,需将原始数据标准(二)相似系数(常用于对指标聚类)1)相关系数相关系数越大,表示相似程度越高. 5. 聚类的概念及常用聚类方法(K均值聚类与系统聚类)(二)相似系数(常用于对指标聚类)1)相关系数相关系数越大,2)指数相关系数3)列联系数(适用于双向有序列联表资料) 5. 聚类的概念及常用聚类方法(K均值聚类与系统聚类)2)指数相关系数3)列联系数(适用于双向有序列联表资料) 54)点相关系数当观察值Xi,Xj为二值分类变量时,将Xi与Xj构建成四格表,a,b,c,d为四格表中相应的频数. 5. 聚类的概念及常用聚类方法(K均值聚类与系统聚类)4)点
36、相关系数当观察值Xi,Xj为二值分类变量时,将Xi与X聚类的方法主要有K均值聚类法(K-means cluster)和系统聚类法(Hierarchical cluster) 5. 聚类的概念及常用聚类方法(K均值聚类与系统聚类)聚类的方法主要有K均值聚类法(K-means clusterK均值聚类法1 指定分类数,并指定某些观测为凝聚点作为各类的初始核心;2 按就近原则将其余观测向凝聚点聚集,从而得到初始分类,计算初始分类的中心位置;3 对中心位置重新聚类,完毕后再次计算中心位置,反复循环,直到中心位置改变很小(即收敛标准). 5. 聚类的概念及常用聚类方法(K均值聚类与系统聚类)K均值聚类法
37、1 指定分类数,并指定某些观测为凝聚点作为各类的系统聚类法1 n个观测看成不同的n类,将性质最接近的两类合并为一类;2 从n-1类中再找最接近的两类加以合并3以此类推,直到所有变量被合并为一类4 得到结果后,再根据具体问题和聚类结果决定分为几类.一般28类较为合适.缺点是速度较慢. 5. 聚类的概念及常用聚类方法(K均值聚类与系统聚类)系统聚类法 5. 聚类的概念及常用聚类方法(K均值聚类与系统类间合并递推公式有最短距离法,最长距离法,平均距离法,重心法,中位数法等九种方法.下面我们以最短距离法来说明系统聚类.当然也可以用相似系数进行聚类. 5. 聚类的概念及常用聚类方法(K均值聚类与系统聚类
38、)类间合并递推公式有最短距离法,最长距离法,平均距离法,重心法例如:设抽取5个样品,每个样品测一个指标.其测量值为1,2,5,7,9距离公式采用绝对距离。 5. 聚类的概念及常用聚类方法(K均值聚类与系统聚类)例如:设抽取5个样品,每个样品测一个指标.其测量值为1,2, 第一步聚类 5. 聚类的概念及常用聚类方法(K均值聚类与系统聚类) 第一步聚 第二步聚类(G1,G2合并为G6) 5. 聚类的概念及常用聚类方法(K均值聚类与系统聚类) 第二步聚类(G1,G2合并为G6 第三步聚类(G3,G4,G5合并为G7)G7与G6合并为一类. 5. 聚类的概念及常用聚类方法(K均值聚类与系统聚类) 第三
39、步聚类(G3,G4,G5合并为G7)G7与G6合并为一例:20种塑料样品,根据有关知识,认为它们可以分为3类,我们根据tear,gloss,opacity三个变量把20个样品分为三类。数据存于d盘,命名为kmeans.csv6. K均值聚类与系统聚类的R软件实现K均值聚类例:20种塑料样品,根据有关知识,认为它们可以分为3类,我们输入语句:read.table(d:kmeans.csv,header=TRUE,sep=,)-akmarownames(a)-c(j1,j2,j3,j4,j5,j6,j7,j8)hc-hclust(dist(a), ave)plot(hc)6. K均值聚类与系统聚类
40、的R软件实现编写R程序:ave表示类平均法;single表示最短距离法;系统聚类谱系图:如果聚为两类:j2,j4,j6是一类;j1,j3,j5,j7和j8是一类。如果聚为三类:j2,j4,j6是一类;j8是一类;j1,j3,j5,j7是一类。6. K均值聚类与系统聚类的R软件实现系统聚类谱系图:如果聚为两类:j2,j4,j6是一类;j1,如果采用最短距离法如果聚为两类:j8是一类;j1-j7是一类。如果聚为三类:j8是一类;j2,j6,j4是一类;j1,j3,j5和j7是一类hc1-hclust(dist(a), single)plot(hc1)6. K均值聚类与系统聚类的R软件实现如果采用最
41、短距离法如果聚为两类:如果聚为三类:hc1aa-as.matrix(a)heatmap.2(a)7. 双向聚类热图及复杂热图绘制的R软件包ComplexHeatmap编写R程序:read.table(d:heatmap.输出结果图: 该图顶部是对指标的系统聚类结果,左侧是对样本的聚类结果。底部是指标名称,右侧是样本编号。图的左上角是颜色标识。如果想对图的颜色,文字大小等进行优化,也可以输入相应语句进行修改。7. 双向聚类热图及复杂热图绘制的R软件包ComplexHeatmap输出结果图: 该图顶部是对指标的系统聚类结果,左侧是对样本如想让热图主色为红绿颜色,则在R窗口中输入语句:heatmap
42、.2(a,col=redgreen)7. 双向聚类热图及复杂热图绘制的R软件包ComplexHeatmap如想让热图主色为红绿颜色,则在R窗口中输入语句:heatma各种其它复杂的热图,例如R软件的pheatmap软件包,bioconductor ()的ComplexHeatmap软件包等7. 双向聚类热图及复杂热图绘制的R软件包ComplexHeatmap各种其它复杂的热图,例如R软件的pheatmap软件包,bi安装语句if (!requireNamespace(BiocManager, quietly = TRUE) install.packages(BiocManager)BiocManager:install(ComplexHeatmap, version = 3.8)7. 双向聚类热图及复杂热图绘制的R软件包ComplexHeatmap安装语句i
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 扬州工业职业技术学院《微生物药物学》2023-2024学年第二学期期末试卷
- 忻州职业技术学院《工程建设监理》2023-2024学年第二学期期末试卷
- 电火锅电蒸锅行业概述
- 宁夏艺术职业学院《摄影与显影》2023-2024学年第二学期期末试卷
- 南京铁道职业技术学院《数字电子技术A》2023-2024学年第二学期期末试卷
- 2025年电视制式转换器合作协议书
- 长江大学《机器学习案例分析1》2023-2024学年第二学期期末试卷
- 2025年漯河货运从业资格证考试卷
- 梧州医学高等专科学校《畜牧微生物学实验》2023-2024学年第二学期期末试卷
- 珠海广东珠海市香洲暨大幼教集团永德园区(永德幼儿园)合同制教职工招聘笔试历年参考题库附带答案详解
- 新时代青少年思想政治教育大中小学思政课主题宣传活动PPT
- 某水毁公路维修工程施工方案
- 家庭病房工作制度和人员职责
- 道德与法律的关系课件
- 建设工程监理合同示范文本GF-2018-0202
- 2022质检年终工作总结5篇
- 江苏省中等职业学校学业水平考试商务营销类(营销方向)技能考试测试题
- 国际商务谈判双语版课件(完整版)
- 物业管理应急预案工作流程图
- (高清正版)T_CAGHP 003—2018抗滑桩治理工程设计规范 (试行)
- 毕业论文论财务管理是企业管理的核心
评论
0/150
提交评论