植物mirna序列及其功能预测方法研究与实现

上传人：洞*** IP属地：北京上传时间：2023-01-18 格式：DOCX 页数：48 大小：1.64MB 积分：12 举报 版权申诉

免费预览已结束，剩余43页可下载查看

 付费下载

下载本文档

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

行分析和处理，使人们能够从分子层面上了解的发病机制，从而更加准确地进行的诊断，引起了人们极大的。针对传统排序聚合方法可能忽视单次排序中得分较高的以及所产生的基的前TopK个中选择具有代表性的、互不关联的用于表达数据分类。在7个常用的表达数据上的实验结果表明本文方法在相同个数针对表达数据分析时通常选择一个子集用于分类可能造成信息损失分组中采用随机选择的方式选择一条生成子集重复多次得到多个基分类器最后采用多数投票进行融合集成在7个表达数据集上的实验结果表明方法分类误差较低，分类性能稳定，可扩展性好。：表达数据;特征选择;近邻聚类;集成学EnsembleLearningBasedGeneSelectionandSampleThegenechiptechnologyprovidesanewmethodfordiseasediagnosis,treatmentandthedevelopmentofnewdrugs.Meanwhile,lotsofdisease-associatedgeneexpressiondatasetsaregenerated.Itmakespeopleunderstandthepathogenesisofcancerfromthemolecularlevelyzingandprocessingthiskindofdatasets,andinspiredgreatEnsemblelearninghasbeenwidelyappliedtomanyareasofmachinelearning,includinggeneexpressiondata.Comparingwithsinglemodel,lotsofprocessorsareusedtosolveoneproblemintheensemblelearningmodel,anditprovidesmorerobustandaccurateclassification.Whenensemblelearningmethodsareusedtoyzethedisease-associatedgeneexpressiondatasets,thetestsampleswillbeaccurayclassified.Therefore,employingensemblelearningmethodtoyzecancer-associatedgeneexpressiondatasetsisthemaincontentsofourpaper.Rankingaggregationmethodcanprovidesmorerobustandaccurategenesubset,butitmayignoresomegeneswhichhavehighscoresinsinglerankandtheobtainedgenesubsetmaycontainanyredundantgenes.Tosolvetheseproblems,affinitypropagationclusteringisapplied,asitcanselectrepresentativeandunrelatedgenesfromtheprimariesgenesubsetwhichcontainsthegeneswithhighscoreinsinglerank.Experimentalresultsonsevengeneexpressiondatasetsshowthattheproposedmethodcanselectmorerobustgenesubsetwithstrongerdistinguishabilityforsamplesandbetterclassificationeffect.Asonlyonegenesubsetisselectedforclassificationingeneexpressiondataysis,itmayresultinlossofinformation.Drawtheideasofensemblefeatureselectionmethod,weproposedanewensemblelearningmethod,whichbasedonthegenesranking,selectionandgrou.Firstly,manygenesubsetsareproducedbyrandomlyselectingagenefromenchgenegroupandcombiningthem.Secondly,basicclassifiersaretrainedinfeaturesubspacecorrespondingtogenesubsets.Finally,theresultsoftestdatausingthesebasicclassifierscanbeintegratedbymajorityvote.Experimentalresultsonsevengeneexpressiondatasetsshowthattheproposedmethodhaslowclassificationerror,stableperformanceandexcellent

：EnsembleLearning;Classification;GeneMicroarray;Affinity 绪研究背景与意研究现本文的研究内容及结相关生物学数据分析与处 miRNA及其和聚簇数 miRNA靶预测工具的选蛋白质相互作用网络数蛋白质相互作用网络数据蛋白质相互作用网络权重计算方 GeneOntology相关数 GeneOntology相关知 GeneOntology相关应本章小基于PPIN和图算法的miRNA功能相似性计 miRNA功能相似性计算的整体框权重蛋白质相互作用网络的构蛋白质相互作用网络的集蛋白质相互作用网络权重计靶间功能相似性计网络最短路径相关算靶功能相似性计 miRNA功能相似性计实验结果与分本章小基于功能相似网络和直推式多分类算法的miRNA功能预 miRNA功能预测的整体框基于聚类系数的miRNA功能相似网络构研究背景与意增殖机制失常而引起的疾病，于2011年超过心脏病，成为全球第一大原因，而且年新增病例每年都在增加。2014年2月发布的《WorldCancerReport病例还将增加50%，达到每年2160万人。中国的新增病例前景堪忧。报告中2012年确诊的新增病例有近一半出现在亚洲，其中大部分，而整个欧洲的新增病例才接近1/4，美洲约占1/5，非洲和中东则刚刚超过8%，如图1.1所示。因此，对的诊断和治疗进行研究分析具有十分重要的现实意义。中中拉丁美大洋百分比50地图 Fig. Thedistributionofworld’snewcancercasesin技术为诊断研究提供了高效客观的研究方法[2]GeneChip）技术，又称DNA微阵列（DNAMicroarray）技术，是20世纪90年物cDNA4种核苷进而获得待测样本的表达信息。这使研究者们能够同时获得研究对象在任意条件、任意时间下成千上万的表达模式，从分子层面上研究的产生与发展，为了解、预防、诊断以及遴选抗癌药物等提供了更加快捷、准确的方法。自1999年Golub[3]等在Science杂志上题为《MolecularClassificationofCancerClassDiscoveryandClassPredictionbyGeneExpressionMonitoring》的文章以来，采用技术研究诊断问题引起了研究者们的极大，并逐渐发展成为了生物信息学领域的研究热点之一。基于技术的诊断研究可以看成是对相关的表达数据的分类NearestNeighbors,KNN）、支持向量机[5]（SupportVectorMachine,SVM）、贝叶斯（NaïveBayesNB）、决策树[7]（DecisionTree,DT）Fisher线性判别分析[8]（Linear更好的集成学习[9](EnsembleLearning)方法成为表达数据分类的重要研究内容。20年来机器学习研究的热点内容，通过采用多个学习器对同一个问效的充要条件是学习器的精度高（所有学习器错误率都应当低于0.5）而且是个研究领域，尤其是表达数据分析领域。采用集成学习方法对相关的表达数据进行研究具有以下意义提高诊断准确性。在诊断研究中，如何对测试样本给予一个精确的够降低诊断模型受这些因素的影响，在的应用当中获得稳定的预测结果。降低高维度的对分类的影响。在表达数据分类时，高维度问题困扰了很多分类算法，在分类前通常需要进行特征（）选择，而且其选择的好坏也关系到分类效果的好坏。许多选择方法通常选择少量的、类标记关联紧密的、彼此之间互不冗余的组成子集用于分类，然而一个子集的分类能力是有限的，同时一个与类标记有关联的、与已选相互冗余的对分类也会产生行融合，避免选择导致的分类信息损失带来的影响，提高模型的预测性能。研究现（1）选择方面。选择少量的合适的能够获得较好的样本分类效果。然而，对同一个数据集采用不同的选择方法或采用同一个选择方法对进行小样本”的表达数据中，显得尤为突出。为了获得一个稳定的、准确的子集用于后续分析，Saeys[13]等人采用集成学习的思想，通过执行多次排序，并把多个排序结果按照某一方式融合起来从中选择，得到一个更为稳定的子集。BoulesteixSlawski[14]对这类方法进行了归纳和总结。Wald[15]把这类方法称（2）分类模型设计方面。集成学习方法在降低数据集“高维度、小样本、类不平衡”对分类模型影响方面具有很强的优势，同时还能够降低分类模型对训练数据“过拟合”现象的发生可能性，能够提高样本分类的准确度，对诊断研究具有十分重要的意义。目前，围绕表达数据集成分类模型设计，学者们提出了很多方法[16-29]，主要集中在三个方面：①把经典的集成学习方法（Bagging和Boosting方法）应用到表达数据领域，Dettling[16,17]2003年成功将Boosting方法成功应用到表示数据分析，此后2004年又将Bagging与Boosting相结合，将Bagging方法方法作为Boosting方法的一个模块，提出了性能更优的BagBoosting方法。②构建基于特征选择的集成学习。表达数据的高维度使得很多传统的学习方法难以适应，在分类前通常需要进行选择，通常选择一个较优的子集用于分类，能够有效提高分类模型的分类性能。然而在被剔除的中间，也存在与样本分类相关的具有很强区分能力的，于是选择方法就有可能造成分类信息的损失。基于特征选择的集成学习方法通过生成多个存在差异的特征子集，在各自对应的特征子空间中分别训练分类器构建集成分类器，能够有效避免选择带来的分类信息损失，提高分类模型的效能。rtoni等[18]将o[19]随机子空间集成（RandomSubspaceMethod,RSM）法成功应用于表达数据分类领域，并取得了比单分类器更好的识别效果；Hu等[20]选择完全不同的来构造多个C4.5分类器，增加了集成学习间的差异，但忽视了子集的样本区分能力的不同，使获得的训练基分类器，提出了一种源于随机划分的集成分类方法（ClassificationbyEnsemblesfromRandomPartitions，CERP）方法，适合高维数据分类，并用于。Liu[22]基于快速关联过滤（FastCorrelated-BasedFilter，FCBF）提出了一种简单、高性能、便于实现的分组集成选择（EnsembleGeneSelectionbyGrou,EGSG）方法，该方法运用近似MarkovBlanket进行分组，使同组内的相互关联，在此基础上，从每个分组的前t个与类标记关联紧密的中运用随机方法选择一条生成子集，在对应的特征子空间中训练基分类器进行集成，在表达数据分类中获得了较高的③选择集成方法研究。有研究表明[23-25]：选择部分优化后的基分类器子集进行集成比使用所有基分类器集成效果要好。Png[23]采用mens聚类的方法将判别空间相似的分类器进行分到一组，然后在从每个分组中挑选出一性的基分类器进行集成，从而提高了用于集成的基分类器之间差异，获得了较好的集成学习效果，同时减少了计算的开销。文献[24,25]均采用优化算法（如遗传算法[24]或粒子群算法[25]）对产生大量的基分类器进行优选，从中选出最优的组合来进行集成，这类方法在提高集成效果的同时，增加了时间复杂度，而且容易产生过拟合问题。④类不平衡问题。类不平衡问题是近年来机器学习研究的热点内容，关注的是数据样本类不平衡或未被充分表达情况下学习算法的性能，主要采取的是通过抽样技术使训练数据集的类重新平衡，或引入代价敏感技术使得分类算法适应类不平衡数据。集成学类不平衡数据分类中具有以下优势[26]：一方面基分类器的构建与抽样技术结合在一起，使得基分类器的训练数据类平衡，在不增加计算代价的基础上有效应对类不平衡问题；另一方面多个分类器集成能够在一定程度上提高分类模型应对各种的能力，避免过拟合问题。lagus和us[27-29]围绕类不平衡的表达数据的分类，研究了选择，分类算法、抽样技术等对分类的影响，结果表明：高维度加剧了类不平衡数据分类的；STE方法在低维数据中表现良好，在高维数据分类中表现欠佳，结合选择方法后相比结合之前在一定程度上能够提高分类性能；A算法在类不平衡问题不太激烈时能够胜过大多数分类算法获得较好的分类性能；同时基于欠抽样技术的集成方法，比单个欠抽样方法和过抽样方法更适合类不平衡数据分类。inhn[12]lagus和ua研究的基础上，对不平衡比率（Imblanertio）、类分离与覆盖（Smalldijunctsndovrlapomplxity）、数据缺与选择（kofdtandftureletion）对表达数据分类的影响进行了进一步的总结，研究发现影响类不平衡数据中少数类分类准确性的主要因素是数据缺乏；当数据集类不平衡状况不太SM，基于决策阈值调整的S（SMthrholddjutmnt，ST）方法能够获得了较好的分类效果。本文的研究内容及结本文首先介绍了表达数据分类的相关技术，包括表达数据的表示、基因选择和分类方法。针对选择，介绍了几种常用排序方法，详细介绍了集SVM分类方法，同时还介绍了不平衡数据对传统的基于数据扰动的排序聚合技术进行了改进针对获得的子集中存在冗余以及最终选择的子集可能忽视单次排序得分较高的部分的问题提出了基于融合聚类的改进方法对所单次排序的合并后放入初选子集，然后以bicor系数为关联衡量标准，利用近邻聚类算法进行聚类，从中选择具有代表性的互不关联的作为最终的子集并通过实验验证了方法的有效性。在选择的基础上，针对冗余的、与样本分类相关的也具有很强区分能力的问题，借鉴集成特征选择方法的思想，在基于近邻聚类的融合选择的基础上，从聚类获得各个分组中随机选择一条，生成子集并用于训练分类器，重复的表达数据集上的实验结果表明了方法的正确性和良好分类性能。第二章介绍了表达数据的表示、分类流程，对当前常用的选择方法做了一衡数据分类的SVM改进方法，最后还介绍了类不平衡数据分类的一些评价标准。第三章介绍了近邻聚类算法的技术原理以及一种对噪声不敏感的关联度量标准，对排序聚合技术所选子集存在冗余以及可能漏掉一些有用的问题采用近邻聚类方法从所有单次排序的中选择具有代表性的从而获得更具区分能力的子集。选择方法，然后借鉴分组集成选择方法的思想，对第三章基于近邻聚类子集的方式构建集成特征选择方法，实验验证的结果表明方法正确性和有效基于SVM的植物miRNA序列预植物miRNA预测模型的构建框SVM的集成分类器，并且被命名为mirPlantPreMat。mirPlantPreMat不仅可以用来分类真假植物miRNA前首先，我们从miRNA数据库miRBase（版本19）[]中全部植物miRNA前体序列，保留具有单一茎环结构的前体序列，并且去除重复的前体序列，最终我们3126条非冗余且具有单一茎环结构的植物前体miRNAmiRNAmiRNA体序列，这些植物miRNA前体序列作为负数据集。这个模型构建过程分为如下几部：（1）从正负数据集中分别随机选取2000条数据用来训练mirPlantPreMatmiRNAmirPlantPre；（2）miRNA152（3B-SVM-RFE47个特征；（4）47个特征训练前体分类模型mirPlantPre；（5）3126条来自miRBase中的实验证实的植物miRNA3835条序列片段，即从miRNA成熟体序列的开始位置，一直扩展到miRNA*序列的结束位置，既可能从5’端开始，也可能从3’端开始，将这些序列作为正数据集；（6）miRNA前体序列中抽39428条序列片段，这些序列不在上一步获得的正数据集序列中，并且长度55nt和具有茎环结构，将这些序列作为负数据集；（7）1000条正集5000SMOTE算法[]对这些数据进行预处理，保证正负数1:1训练该模型时使用通过B-SVM-RFE63维特征（8mirPlantPre和mirPlantMat结合在一起来构建集成分类模型mirPlantPreMat。正负数据集选一个有效的植物miRNA前体和成熟体分类器应该能够将虚前体和成熟体响分类的准确率。我们所采用的正集是由已知的实验证实的植物前体和成熟体miRNA序列数据，而负集是由虚番茄、大豆和拟南芥数据组成。，miRBase数据库（19版本）6378miRNA成熟体Vienna[]工具包中的RNAfold预测出这些序列的二级结构。在这些前体miRNA序列中3126条非冗余且具有单一茎环结构的序列作为训练mirPlantPremiRNA序，53nt938ntmiRNA序列具有更加复杂的二级miRNA序列上成熟体miRNA和miRNA*的位置。在本研究中，真实的植物前体miRNA在其已公布的成熟体miRNA的位置处截断，该位置既可能在5’端，也可能在3’端，截断后的前体miRNA序列作为训练模型mirPlantMat的真实的数据样本。进而，体miRNA序列上除了真实成熟体miRNA的位置外的其他任何位置截断所得的前体miRNA序列都可以作为虚数据样miRNA序列将展现出较小的长度范围，并且前体上每个区域的结构几乎所有被公布的miRNA的位置是分布在非转录区域或者是间隔区域。在组miRNA序列相似的茎环结构，但却没miRNA序列公布出来。因为训练出的分类模型是要用来正确区分相似的真假前体miRNAmiRNA上的CDSsmiRNA120nt左右，因此，我60nt150nt中选取滑动窗口，并用该滑动窗口在CDSs上扫描，进而5种条件，即发卡结构上的碱基对数目，%G+C，MFEImiRNA序列的互补碱基配对和涉及到MFE率的前体miRNAmiRNA序列来19个碱基对，%G+C0.2420.825，MFEI0.522，1.39miRNA序列与其互补序列中存在最多不37p-value0.01和37℃下计算所有前体序列的二级结构。对于MFE的频率分布和经验分布，我们采用改进的S型函数进行建模。xMFElengthf(x)

blength代表前体miRNAa1.339e12b2.7783e13和c45.843f(xf(x)4.42。最终，我们获得8494条虚前体miRNA序列作为负集数据。在训练分类模型mirPlantMatmiRNA序列上获取不在成miRNAmiRNA*序列所在位置剪切的序列片段，然后将这些mirPlantMat的负集数据。这些序列片mirPlantMat的训练集中正集样本，或是被正集样本包含。在虚假前体miRNA的茎区序列上，一个碱基与其所在链的对立链上的另一个碱基配对，我们类不平衡问题及SMOTEmiRNA60nt150nt，而每一条前体序列只包含一个成熟体miRNA，因此，从一条前体序列上将能获得远不止一个虚假的成熟体miRNAmirPlantPre时所采用的正负训练集比例应用于训练mirPlantMat，势必会导致大量的负集样本缺失，进而这些缺失的负样本所携1:5，即如果我们选择一个正训练集样本，那么同时要高的假负率出现。为了解决该不平衡分类问题，我们采用了SMOTE算法对正负训2002年，Chawla首次提techniqueSMOTE算法属于过抽样方法，它的主要思想是通过在少数类样本集中，向一些位样本，因此在一定程度上可以解决分类器过拟合问题。SMOTE算法的实现步骤如Nx的k样本，并在这个k个最紧邻样本中随机选择N个样本，记作y1, yN；在少数xyi(i12,Nzirand(0,1表示(0,1特征提取及特征选择植物miRNAmiRNA的序列及其二级结构的许多特征对分类首先，我们引入了Triplet-SVM[]3232维的结构特征定义为：”C(((“，”A(.(“，…，”U…”，其中左括号”(”表示体miRNA3‘端链上的相应碱基使用右括号”)”表示。一个圆点”.”表示一个碱基不与其在相对链miPred[]29维的序列及其二级结构相关特征。16个碱基对的出现频率，即%XYX,YA,C,U,G。%XYXY(L1)100XYXYL关的特征是%GC，表示体miRNA序列中鸟嘌呤G与胞嘧啶C的含量之和%(GC)(GC)L100GC表示其在该序列中的出现次数。该分类器所采用的二级结构相关特征是通过RNAfold计算得到的，其中p-value设为0.01，温度为37℃，所得的最小自由能为MFE，最终获得如下特征：（1）标准化的最小自由能dGMFEL[]。（2）最小自由MFEI1dG%(GC与MFEI2dGn_stems，其中n_stems表示在预测得到的前体miRNA二级结构中茎的数目，包含三个连续碱基对的结构称为一个茎[]。（3）标准化的碱基对倾向dPtot_basesL，其中tot_bases是前体miRNA二级结构中的所有P(SeE

eERTSS(x)

ESR8.31451Jmol1K1T表示温度310.15K（37℃）。碱基ijp

)，如果碱基ij是一个碱基对，则1，否则0

。ijpijlog2(pij)。 (

p2dD

[]。（6）第二（菲尔德）特征值dF可以通过一个树图GRNA二级结构SL(G是树图GL(G)的第二特征值dFdF[L(dF[L(G)]可以用作RNA二级结构的相似性度量（6结构特征dG,dP,dQ,和dFzGzPzQzDzFdX Z(dX)

;

(dXidX)RR其中dX和dX是特征dX的样本均值和样本方差，是基于来自原始序列随机产生的RR103。microPred[]RNAfoldMFEI3dGn_loops和MFEI4MFEtot_bases，其中n_loops是二级结构的数目；标准化集成自由能NEFEEFEL，其中EFERTln(Z[]Freqe(EFEMFE)RT[]；机构差异性（碱基i,对距离）Diversityi,

pij(1pij

MFE

LMfolddS，标准化的结构熵dSL，结构焓dH，标准化结构焓dHL，结构的熔化能Tm100dHdS，标准化的结构熔化能TmL，以上这些热力学相关特征都是由Mfold服务包中的UNAfold程序计算得到的[]；新的碱A

L,G

XY%(A

第四组特征是PlantMiRNAPred[]MFEI5MFE%(GC_SMFEI6MFEstem_tot_bases%(GC_S茎中的碱基GC所占比例，stem_tot_bases是茎中碱基对的数目；每21nt长的序最后一组是我们在本研究中新引入的69个特征，包括最小自由能索引MFEI7MFE%(GC_Begin_n_21ntsMFEI8MFE%(GC_End_n_21nts和MFEI9MFEAvg_mis_num，其中%(GC)_Begin_n_21nts是前21个碱基碱基GC所占比例，%(GC)_End_n_21nts是后21个碱基中碱基GC所占比例；茎的前21个碱基中错配数Mis_num_begin和后21个碱基中的错配数Mis_num_end；从miRNA 前体序列的前和后分别提取的Triplet-SVM 中的特征G(((_begin_SA(.(_begin_S和C(((_end_SG(.._end_S。改进的SVM-RFE该算法的流程描述如下：（1）输入训练样本集

0x1,x2

xT及其相应的 nyy1y2 y；（2）s12,152和排列好的特征列表rnnTns为止；（3）s中的特征在训练样本上计算相应的特征值XX0sSVM分类器SVMtrainX,y；（4）数为length(swyx；（5）对于所有的i计算排列索引cw)2kk k

argmin(c，然后更新特征排列列表rsfrss(1:f1,f1length(s（8确定最终的分类器重计算。因为每次参与训练的特征数目不同，进而训练的SVM分类器也不同，最终导基于信息增益[]的有放回的SVM-RFE算法，即B-SVM-RFE算法。该算法相较于SVM-RFE算法的改进在于，当排列完所有属性的权值并且更新了s和r后，如果在r中sr中具有最高信息增益的属性s中，然后重新训练SVM分类器。如果这时的交叉验证错误率好于前一次ss中形成新的特征子集，否则，将该属性从s中删除重新放回r中。B-SVM-RFE算法的具体流程如图所示。5折交叉检验错误识别率（LooErrorRate）试错误识别率（TestErrorRate）5折交叉检验分类器性能分SESP

TP FPAccGm

TPFPFNSESP其中，TP表示预测结果的真正率，即在预测为真的结果中确实为真的结果所占比例。TN表示预测结果的真负率，即在预测为结果中有多大比例的结果确实为假。FP表示预测结果的假正率，即在预测结果为真的样本中预测错误的样本所占比例。FN表示预测结果的假负率，即在预测为样本中错误预测的样本所占比例。为了体现我们mirPlantPreMat具有很好的推广能力，mirPlantPre和mirPlantMat基于mirPlantPreMat的拟南芥miRNA预一些研究已经表明，miRNAmiRNA在不同物种间体现出了保守的进化关系[]miRNA，一个是我们可以通过序列和结构相似性识别同源片段，另一个是可以使用已知的miRNA来识别未知的miRNA[]。到目前为止，miRBase（21版本）427条拟南芥成熟体miRNA，来自于47个。大量物种可能包含相同的miRNA，在本部分的研究中，我们采用已知的植物miRNA成熟体序列去识别未知的拟南芥成熟体miRNA。miRNAmiRBase（21版本）得到，总共包括8069条成熟体miRNA序列。为了找到拟南芥未知miRNA，需要通过已知的其他植物miRNA成熟体序列比对到拟南芥组序列上，发现具有相似性的序列，进而预测拟南芥的miRNA，所以，我们还需要拟南芥的基因组数据，这些数据我们从拟南芥数据库TAIR[]。拟南芥成熟体miRNA基于其他植物的成熟体miRNA序列以及拟南芥组数据，并通过我们预测模型预测拟南芥未知的miRNA序列，首先需要将其他植物的成熟体miRNA序列比对到拟南芥组的每条序列上，依据一些条件来选择比对位点，基于比对的结果在序列上截取待预测的拟南芥前体miRNA序列，最后，通过我们分类模型对这些前体miRNAmiRNA序列上的其他植物的成熟体miRNA就可能是拟南芥的未知成熟体miRNA，否则不是拟南芥的未知成熟体miRNA。是相似的，我们在实验中也遵循这个条件。在本研究中，基于SEED算法[]KMP算法，我们提出了一个新的序列比对算法。首先，已知的成熟体miRNA序列分为列片段。如果其中有一段是完全匹配的，则将其他段比对到组上，若是少于3个碱miRNARNAfold计算这些前体的二级结构及最小自由能。最后，我们选择那些满足如下指标的前体miRNA序列作为最终的待预测数据。这些指标包括，在miRNA19个，G+C0.2420.825之间，最小37个碱基的错配，并且没有未知碱基“N”存在。最终4318个待预测的前体miRNA序列。将以上获得的待预测前体miRNA序列输入到我们的mirPlantPreMat预测模型中，744个潜在的拟南芥成熟体miRNA序列。本章小miRNA序列的预测。提出了一个新的基于SVM的分类器，可以很好的识别出真假前体miRNA及其成熟体miRNA152个序列结构相关的特征集，并通过改进的特征选择算法B-SVM-RFE152个特征进行选择。最终，我们实现了一个集成的预测工具mirPlantPreMat，包含有两个预测工具mirPlantPre和mirPlantMat，miRNAmiRNA序列预测问题。使用几个植物物种的测试，我们分类模型能够获得大约90%的准确率，同时也证明了我们的miRNA的预测中，744miRNA，证明了我们的分类器能够很好的应用于许多研究表明，miRNA在生物的生命进程中起着至关重要的调控作用，并且很多miRNAmiRNA具有相同或相似的功能。我们已miRNA的序列和结构相关特征，并通过这些特征成功的预测出了未知miRNAmiRNAmiRNA的功能，即它miRNA功能的研究主要是依靠生物实验的方法。这种方法能够非常准miRNAmiRNA的miRNA功能的发现。所以，我们想要找到一种计算方法来预测miRNA的功能。目前，已有一些关于计算预测miRNA功能的研究，miRNA与未知功能的miRNA之间的功能相似性，进而预测出未知功能的miRNA的功能。本部分就是关于miRNA间功能相似性计算方法的研究，通过构建一个权重蛋白质相互作用网络来计算miRNA间的功能相似性，并且实现了一个公共可用的计算工具PPImiRFS。miRNA功能相似性计算的整体由于miRNA的功能是通过调控其靶向的靶抑制或降现的。所以，我们通过计算出miRNA靶向的靶集间的功能相似性来计算miRNA间的功能相似性。该miRNA功能相似性计算方法的整体框架如图所示。首先，将多个来自不同数据库的蛋白质相互作用网络数据进行集成，通过计算蛋白质间的本体轮（GeneOntology，GO）语义相似性为集成的相互作用网络，获得一个带有GO语义相似性权重的集通过两个常用的植物靶预测工具（psRNATarget和Targetfinder，参数使用它们的默认参数）预测miRNA的靶，获得每个miRNA的靶集。最后，基于构建的权重蛋白质相互作用网络及改进的广度优先搜索算法计算一对miRNA的靶集中任意两个靶间的功能相似性得到一个功能相似性矩阵进而通过平均最佳匹配方（theaveragebest-matched，ABM）及该功能相似性矩阵计算出两个miRNA的靶集间的功能相似性，即这两个miRNA间的功能相似性。权重蛋白质相互作用网络的目前，已有很多机构和发布了蛋白质相互作用网络数据，但是，这些数据从规使最终的计算结果的问题，为了解决这个问题，很多研究人员都采用了将多个的问题。在本部分研究中，我们从5个广泛被使用的数据库中拟南芥蛋白质相互作AtPI（由于每个蛋白质都具有与其功能相对应的语义注释，即GO注释，所以，通过计算任意两个蛋白质间的GO注释的语义相似性，就可以得到这两个蛋白质间的功能相似性。我们就是通过这个方法，对前一部分获得的集成蛋白质相互作用网络数据进行。本体论，即GO，是为了跨所有物种统一化表示及产物属性而元素活动；生物进程（biologicalprocess，BP），即带有特定开始和结束，与集成生命我们采用一款R语言工具包，GOSemSimGO19个物种，分别为拟南芥、人类、老鼠、酵母等。在本研究中，我们使用的是该软件包中的geneSim程序，具体算法选择其中的基于图的语义相似性计算方法。实验中所使用的GO数据集是由GOSemSim2.14.0GOCC，MFBPGO语义相似性权重，最终，构建集成的蛋白质相互作用网络。靶间功能相似性计在这个网络上计算任意靶间的功能相似性。在这部分中，我们假设两个靶在该迪杰斯特拉算法是由计算机科学家迪杰斯特拉于1956年，该算法目前存在广度优先搜索算法（Breadth-firstsearch，BFS）主要应用在有向无权图中寻找最短路径问题，该算法是在1950年由E.F.摩尔，他采用这个算法找到了走出迷宫的弗洛伊德算法是一种寻找带有正或负边权值但没有负环的图中所有点对间的1962年提出了该算法该算法的思想是由图的带权邻接矩阵开始通过一个状态转移n中任意两点间的最短距离及路径，但时间复杂度较高，不适合于大量数据的计算。但传统的广度优先搜索算法只适合于无权网络而我们的问题是针对网络的所以，靶间功能相似性计为了计算miRNA间的功能相似性，我们首先需要计算出这两个miRNA的靶

genei和genej，基于构建好的蛋白质相互作用网络及改的广度优先搜索算法获得genei和genej间的最短路径，采用最佳平均累积权重方法 Fi,jmax

weight(e) 其中，函数max(x)表示，当在蛋白质相互作用网络中genei和genej间存在不只一条最短路径时，Fi,j是其中累积权重的最大值。如果genei和genej相等，即是同一个，Fi,j1。miRNA功能相似性计给定两个miRNA，miRNAi和miRNAj，它们的靶集分别包含m和n个，一个mn维的功能相似性矩阵。基于这个靶集间的功能相似性矩阵和改进的ABM方法，计算出miRNAi和miRNAjABM方法如下所示， maxFx,y

maxFx,yFSTarSeti,

mm'nn其中，n’和m’是两个靶集中不包括在蛋白质相互作用网络中的靶数目实验结果与分我们的实验是针对拟南芥进行的，所以，需要拟南芥的成熟体miRNA序列及其mRNA序列。我们从miRBase（21版本）到全部拟南芥成熟体miRNA序列，包括427条序列，成员数不小于1的有47个，可以聚成30个簇（对于两个miRNA基10kb，则这两个miRNA被聚到一个簇中）。拟南芥mRNA自拟南芥数据库TAIR，即其中的所有转录序列（版本10）。为了验证我们所提出方法的性能优劣，需要已知功能相似的miRNA数据，这里我们选择那些对相同胁迫具有反应的miRNA作为功能相似的miRNA。由于，目前没有拟126个实验证实的拟南芥胁迫反应相关数据其中包括了12种非生物胁迫和3中生物胁，属于相同的成熟体miRNA普遍表现出序列相似性和完全一致的区域，该区域是miRNA靶识别时的区域。因此，相较于不同的miRNA，内的miRNA可能具有更高的功能相似性，目前已有很多研究支持了这种观点。为了评估由PPImiRFS计算所得功能相似性分数的可靠性首先拟南芥成熟体miRNA分为三类：内、间和随机选择的miRNA对，其中随机选择的miRNA对既不包括内的，也不包括间的miRNA对。然后，用PPImiRFS分别针对这三类miRNA计算功能相似性得分，由于WPPINsGO的三个分支构建的，所以，应该分别在这三个WPPINsBP、CCMF三个分支计算得到的功能相似性得分如图所示。我们进一步研究三类miRNA对的功能相似性得分，发现他们之间间功能相似性得分显著高于间和随机选择的miRNA组（威尔克森秩和检验，结果，许多成熟体miRNA在组上的位置是极为接近的，进而形成一个聚簇。之前已有研究表明，处于相同聚簇内的miRNA通常处于同一个多顺反子和表现出相同的表达模式，这些可以进一步表明，同一聚簇内的miRNA的功能可能是一致的或是相似的。因此，我们也采用聚簇miRNA数据测试PPImiRFS的性能，实验方法与采用数据BP、CCMF三个分支上的结果如图所示。统计分析的结果表明，miRNA间的功能相似性得分具有显著差异（克鲁斯卡尔-沃利上的和聚簇数据，获得的结果分别显示在图中，与我们的方法得到的结果相类似，结果的统计分析分别列在表中。最后，这两个方法的结果很好的验证了PPImiRFS的真在本研究中，我们假设针对一致的生物或非生物胁迫产生反应的miRNA，它们间324条成熟体miRNA，它们反应于一致的生物或非生物胁迫；另一类是负测试数324条不反应于一致的生物或非生物胁迫的成熟体miRNA。为了获得更客观50组负测试数据，然后采用PPImiRFS计算这些数据中miRNA间设，即参与一致生物或非生物胁迫反应的miRNA具有更高的功能相似性得分。PPImiRFS为了评估PPImiRFS在计算miRNA功能相似性得分上的性能，我们采用已证实的miRNA胁迫反应关系数据测试我们方法的计算性能。首先，从中整理好126个高质量的实验证实的miRNA胁迫反应关系数据，其中参与同一胁迫反应的不同miRNAmiRNA中任意两个不同miRNA形成一对，共产生90951个miRNA对。在这些miRNA对中排除掉处于同一、同一聚簇和参与同一胁迫反应的miRNA对，剩余的miRNA对作为负测试数据集。对于每一个正测99PPImiRFS计算这100个测试样本的功能相似性得分。接下来，我们排列每一个正测试样本与其负测试样100个miRNA324324个排列列表，我们分别针对不同阈值计算真正率和假正率。真正率（也叫敏感性或是受试者工作特征曲线（ROC），并计算出曲线下方面积（AUC）。AUC值作为PPImiRFSAUC=100%AUC值越高，则表示PPImiRFSBP、CCMF三个分支构建的WPPINs计算得到的AUC值分别为84.15%、79.49%和79.07%。评估结果表明，我们方法PPImiRFS能重新找回参与同一生物或非生物胁迫反应的miRNA化miRNABP分支构建的WPPIN上得到的PPImiRFS要比基于CCMF分支获得更优的性能。基于三个分支所获得的ROC曲线显示在图，最近，已经有一些计算miRNA功能相似性的方法提出，在这部分实验中，我们选（miRFunSimGOSemSim）PPImiRFSmiRFunSim是2013年由哈尔滨医学一个研究小组，它主要依靠无权的蛋白质相互作用网络和靶在网络中的最短路径数计算miRNA间的功能相似性，该方法只是利用了PPI网络的机构特征。一项研究已经发现蛋白质相互作用网络比无权的更加有效。所以，我们的方法选择了的PPI网络。因为GO数据目前还不是很完整，导致GOSemSim在计算功能相似性时会产生很多空值，对计算结果的正确性产生一定的影响。而PPImiRFS不只考虑了PPIGO语义相似性权重结合进，我们通过分析ROCAUC值来对比三个方法的性能。miRFunSimGOSemSim的ROCAUC值的计算方法与上一部分PPImiRFS所用数据也是同样的数据，miRFunSimGOSemSimAUC81.23%和73.38%，都比PPImiRFS84.15%小，ROC曲线的对比结果如图所示。基于上面提到的三个方法计算得到的miRNA功能相似性得分，我们可以使用不同的聚类算法对427条成熟体miRNA序列进行聚类并用47个作为标准聚簇对聚类PPImiRFSmiRFunSimGOSemSim427个miRNAs90951个miRNA对计算功能相似性得分。然后，基于得到的功能相似性得分构建三个miRNA功能相似性网络。通过对clusterMaker中的8个聚类算法（AffinityPropagationcluster,AutoSOMEnetworkclustering,ClusterFuzzifier,ConnectedComponentsCluster,FuzzyC-MeansCluster,MCLCluster,SCPSClusterandTransitivityClusteringClusterONE和ConnectedComponentscluster能获得更好的结果，所以，最终选择这两个聚类算法对427个miRNAs聚类。ClusterONE的基本参数中，针对PPImiRFS和miRFunSim基于PPImiRFS、miRFunSimGOSemSim计算得到的功能相似性得分和ClusterONE，57、7775。针对PPImiRFS、miRFunSimGOSemSim三个方法，ConnectedComponentscluster0.4、0.550.9，所获得50516评估，该评估矩阵由精度、率、F-measure、敏感性、阳性预测值和准确率。对ClusterONE和ConnectedComponentscluster的评估结果显示在图中。图显示使用ClusterONE聚类下，PPImiRFS与其余两个方法的比较结果，表明PPImiRFSConnectedComponentclusterGOSemSim构建的网络获得了更高的精度和敏感性393个miRNAs的不正常高的敏感性；其他聚簇中的miRNAs大多出现在相同中，这就使得精度相对较高。GOSemSim计算得到的网络不如PPImiRFS和miRFunSim得到的网在这一部分，我们采用PPImiRFS计算参与高盐胁迫反应（非生物性）和TMV-Cg胁迫反应（生物性）的miRNAs间的功能相似性。首先，参与TMV-Cg胁迫反应的miRNAs分为两个部分：miRNAs和测试miRNAs。测试miRNAs与剩余的拟南芥miRNAs结合（排除参与TMV-Cg胁迫反应后的miRNAs）作为最终的测试最后，我们根据得到的值将这些miRNA对进行排序。当阈值设为0.5时，我们重新找回了大多数的miRNAs（miR823以外）。我们也预测到了几个新的，可能参与TMV-Cg胁迫反应的miRNAsmiR165miR156miR418miR160和miR393。针对参与高盐胁迫反应的miRNAs0.5时，我们重新找回了所有的miRNAs，同时也预测到了一些可能的，参与高盐胁迫反应的miRNAmiR418、miR166、miR160、miR841和miR169。虽然还没有关于这些miRNAs参与TMV-Cg和高盐胁迫反应的但是已有文章公布了它们中的一些参与本章小miRNA间功能相似性的计算参与一致生物或非生物胁迫反应的miRNAs间的功能比参与不一致胁迫反应的miRNAs更相似。通过计算内、间和随机选取的miRNAs，以及簇内、簇间和随机选取的miRNAs间的功能相似性值，我们发现，在相同和聚簇中的miRNAs具有更高的功能相似性。这些结果也表明，我们的方法能够正确识别不同miRNAs间的相似性和差异性。在于其他相似计算方法的对比中，我们的方法获得了更加有效和可靠的性能。我们的方法，在量化miRNAs间的功能相似性是，是基于PPI网络和预测的靶集。由于植物PPI网络目前的覆盖率较低，并且通常伴随着较高的假正率和假负率同时预测得到的靶通常也具有较高的假正率因此，随着PPI网络质量的不断提高和性能更好的靶预测工具的出现，我们的方法将能获PPIGO数据可用，PPImiRFS也可以很好的应用于miRNA功能的方法复杂耗时、通量低，以及目前miRNA功能预测方法不适用于植物等问题。所以，我们基于之前有关miRNAmiRNA功能miRNA功能预测的整体miRNA间的功能相似性，这部分采用我们之前的研究成果，即提出的miRNA功能相似性计算方法PPImiRFS；然后，通过基于聚类系数的阈值选择方法构建miRNA功能相似网络；最后，在该网络上应用直推式多分类算法预测miRNA功能。基于聚类系数的miRNA功能相似网络构在网络中，节点i的聚类系数CiCi

kiki1ni表示节点i前ki个邻居间边的数目，如果ki1，则定义Ci0。最后，该网络i，C1Ni，NNN0，定义C0miRNA功能相似网络。miRNA功能相似网络的构建可以看作是通过逐步提高功能相似性阈值的方法，将针对每个阈值tmiRNA功能相似网络。在系统生物学中，一个真实的生物学网络应该是无规模的和高模块化的，因此，它的聚类系数ct应该比随机网络的聚类系数crt明显更高。定义ct和crt之间的差值为ctctcrt最大的t

ct0连续增加到t将这个过程视作离散优化问题，即在阈值t01的过程中，临界阈值应该是第一个使得ct0.01ct0的那个阈值t。数，所以，采用统计学方法计算随机网络的聚类系数。在使用阈值t构建的网络中，假NKi是节点i的度，那么随机网络的聚类系数crt能用以下公crt

k2k，kk

和k2

NNk2。最终，利用得到的阈值Tt，构建出1i1i功能相似性网络。该网络表示为GVE,W,T，其中，VmiR1miR2,miRN1i1i络中包含的节点Eeij

|FSmiRmiRimiRjT表示功能相似性值大或等于阈值T的miRNA对之间的边，其中，WFSmiRmiRimiRj表示相连两基于直推式多分类算法的miRNA功能预直推式学习是由Vapnik在1998年直推式学习将所有无数据视为测试多分注释等。本文所研究的miRNA功能预测也属于多分类的范畴。直推式多分类算通过与其他多分类算法比较分析，最终采用在2011年直推式多标签分类算法预测miRNA功能。该算法基于全体样本（包括有和无样本）无样本最优组成的公式，如下所示。 niUj

iji

jijjijijiL.其中，U表示无样本的索引集，L表示有样本的索引集，Ni表示样本xi的个最近邻的索引集，Wiz表示样本xi和xz之间的相似性权重，并且保证zWiz i , ,T表示样本 i

li在其组mm中所占比例，并且保证ij1。由于在 j组成，所以，假定被标记的类拥有相同的权重，即ij，其定义如下所示,,

ifli

iL.，

其中Yi表示样本xi的集。将公式（7）经过一系列的简化和推导变换，最终得到如 AjAj0. UL UU其中AIW，I为单位矩阵，W为样本间相似矩阵，并且A ALU。由 UULjLj2数量。因此，与公式（7）类似，可以得到如下评估无样本功能数量的公21,

iWizz s.t.iYiiL.AUUUAULL其中

L nT nTU实验结果与分实验中采用的拟南芥miRNA数据自miRNA数据库miRBase（版本21,2014年6月发布）。该版本包含427条拟南芥成熟体miRNA序列。拟南芥mRNA数据自拟南芥数据库TAIR（10），33602条拟南芥mRNA序列数据。拟南芥拟南芥mRNA的GO数据自拟南芥数据库TAIR，总共包含28397条mRNA与5322条GO间的329133对mRNA-GO数据，其中BP、CC和MF三个分支分别和83468对mRNA-GO数据。将的拟南芥mRNA数据与集成的PPIN数据进行对比，将PPIN中不存在的mRNAmiRNA功能相似矩阵和miRNA功能标0的行和列去除，同时要保证两个矩阵一致。RankingLossAveragePrecision和Coverage，假定测试集为,xn,,xn,

RankingLoss（排序损失）评估不相关类标相比于相关类标排序更高的平均比例，D1D1，Yi |{(y,y)Yi 其中Yii个样本的

向量，Yi为Yi的补集，即第i个样本没有的GO量。RankingLoss0,1RankingLoss0，则性能AveragePrecision（平均精度）AvePrecf,Duy'1y' 1coverage(f) max p

其中rankf(,)来源于真实值函数f(,)，即针对于任意的yYall，将函数f(xi,y)的输出比对到1,2, ,Q上。例如，如果f(xi,y1)f(xi,y2)，那么rankf(xi,y1)rankf(xi,y2)。这里Yall和Q分别是所有可能的GO的向量和数目。本文所研究的基于miRNAmiRNA功能的方法，本质上就是基法，即直推式多分类（TRAM、有重启的随机（RandomWalker和多K最近邻（MLKNNmiRNA功能相似网络和miRNA-GO功能网络，通过对比三种方法的各项性能指标，最终选择最适合miRNA功能预测的算法。有重启的RandomWalker算法中存在一个表示粒子每步时的重启概率，所0.050.950.05为步长连续取不同的值进行实验，最终选出性能最好的MLKNNs和最近邻个数k，实验中分别对其赋值为s1和k10105折交叉验证进行实验。由于在GO的三个分支上分别构建了miRNA-GO功能矩阵，因此，分别在这三个矩阵上进行实验。三种算法在三个miRNA-GO功能矩阵上的实验结234所示。表格中每个指标后面的符号“↑”表示该指标的值越大，算本章miRNAPPIN数据和相关图算法计算miRNA间的功能相似性并采用基于聚类系数的阈值选择算法构建miRNA功能相似性网络，最后将直推式多分类算法应用于该网络上对miRNA的功能进行预测。将该方法应用于拟南芥数据，获得了十分满意的性能。由于该方法中的miRNAPPIN数据构建的，而目前植物中只有拟南芥有相对足够的数据，miRNA功能相似网络。所以，该功能PPIN数据足够时，也可以很好用近邻聚类方法解决集成学习方法在相关的表达数据分类中遇到的选择和分类方法。针对选择方法，介绍了几种常用排序方法，详细介绍了SVM分类方法，同时还介绍了不平然后对传统的基于数据扰动的排序聚合技术进行了改进针对获得的子集存在冗余以及最终选择的子集可能忽视单次排序的部分的问题对所有单次排序的TopK个以bior系数为关联衡量标准利用近邻聚类算法进行聚类分组从各组中选择具有代表性的互不关联的作为最终的子集，并通过实验验证了方法的有效性接着在选择的基础上针对单个自己分类性能有限冗余的与样本分类相关的也具有很强区分能力的问题，借鉴分组集成选择方法的思想在基于近邻聚类的融合选择的基础上从聚类获得的各个分组中采用随机选择的方式，构建多个存在差异性的子集用于训练基分类器进行集成在7个表达数据集上的实验结果表明方法分类误差较低分类性能稳定，可扩展性好。Top_K值是今后研究的一个方向；本文第四章集成特征选择方法重点关注的是多样性基分类器的生STEWARTBW,WILDCP.WorldCancerReport2014.WorldHealthOrganization,LUY,HANJ.Cancerclassificationusinggeneexpressiondata[J].InformationSystems,2003,28(4):243-268.GOLUBTR,SLONIMDK,TAMAYOP,etal.Molecularclassificationofcancer:classdiscoveryandclasspredictionbygeneexpressionmonitoring[J].science,1999,286(5439):531-537.PANF,WANGB,HUX,etal.Comprehensiveverticalsample-basedKNN/LSVM2004,37(4):240-248.KRS.MicroarrayDataClassificationUsingSupportVectorMachine[J].InternationalJournalofBiometricsandBioinformatics(IJBB),2011,5(1):10.KELEMENA,ZHOUH,LAWHEADP,etal.NaiveBayesianclassifierformicroarraydata[C]//NeuralNetworks,2003.ProceedingsoftheInternationalJointConferenceon.IEEE,2003,3:1769-1773.HORNGJT,WULC,LIUBJ,etal.Anexpertsystemtoclassifymicroarraygeneexpressiondatausinggeneselectionbydecisiontree[J].ExpertSystemswithApplications,2009,36(5):9072-9081.CHOJH,LEED,PARKJH,etal.Geneselectionandclassificationfrommicroarraydatausingkernelmachine[J].FEBSletters,2004,571(1):93-98.TANAC,GILBERTD.Ensemblemachinelearningongeneexpressiondataforcancerclassification[J].2003.DIETTERICHTG.Ensemblemethodsinmachinelearning[M]//Multipleclassifiersystems.SpringerBerlinHeidelberg,2000:1-15.OPITZDW.Featureselectionforensembles[C]//AAAI/IAAI.1999:379-LINWJ,CHENJJ.Class-imbalancedclassifiersforhigh-dimensionaldata[J].Briefingsinbioinformatics,2013,14(1):13-26.SAEYSY,ABEELT,VANdePeerY.Robustfeatureselectionusingensemblefeatureselectiontechniques[M]//Machinelearningandknowledgediscoveryindatabases.SpringerBerlinHeidelberg,2008:313-325.BOULESTEIXAL,SLAWSKIM.Stabilityandaggregationofrankedgenelists[J].Briefingsinbioinformatics,2009,10(5):556-568.WALDR,KHOSHGOFTAARTM,DITTMAND,etal.Anextensivecomparisonoffeaturerankingaggregationtechniquesinbioinformatics[C]//InformationReuseandIntegration(IRI),2012IEEE13thInternationalConferenceon.IEEE,2012:377-DETTLINGM,BüHLMANNP.Boostingfortumorclassificationwithgeneexpressiondata[J].Bioinformatics,2003,19(9):1061-1069.DETTLINGM.BagBoostingfortumorclassificationwithgeneexpressiondata[J].Bioinformatics,2004,20(18):3583-3593.BERTONIA,FOLGIERIR,VALENTINIG.Bio-molecularcancerpredictionwithrandomsubspaceensemblesofsupportvectormachines[J]. puting,2005,63:HOTK.Therandomsubspacemethodforconstructingdecisionforests[J].PatternysisandMachineInligence,IEEETransactionson,1998,20(8):832-844.HUH,LIJ,WANGH,etal.A formicroarraydataclassification[C]//Proceedingsofthe2006workshoponInligentsystemsforbioinformatics-Volume73.AustralianComputerSociety,Inc.,2006:35-38.AHNH,MOONH,FAZZARIMJ,etal.Classificationbyensemblesfromrandompartitionsofhigh-dimensionaldata[J].ComputationalStatistics&Dataysis,2007,51(12):6166-6179.LIUH,LIUL,ZHANGH.Ensemblegeneselectionbygrouformicroarraydataclassification[J].Journalofbiomedicalinformatics,2010,43(1):81-8

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

植物mirna序列及其功能预测方法研究与实现

文档简介

温馨提示

最新文档

评论

植物mirna序列及其功能预测方法研究与实现

文档简介

温馨提示

最新文档

评论

相关文档