版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
生物医学文本挖掘及其应用2023/6/2第一页,共一百一十四页,编辑于2023年,星期日目的介绍生物信息学文本挖掘工具文本挖掘不再是信息专业的领域第二页,共一百一十四页,编辑于2023年,星期日例子:二者关系进行性多灶性白质脑病(progressivemultifocalleukoencephalopathy,PML)
抗体antibodiesMonoclonalantibodies,efalizumab(依法珠单克隆抗体)
2023/6/2第三页,共一百一十四页,编辑于2023年,星期日自然语言处理让计算机替我们看文献吧!比较难:计算机需要专门的知识才能读懂文本。自然语言处理(NaturalLanguageProcessing,NLP):专门训练计算机掌握这种知识的学科。生物医学文本挖掘(Biomedicaltextmining)是一个专门处理生物学、医学和化学文本的分支学科。也叫BioNLP有些人把NLP当做textmining的同义词。第四页,共一百一十四页,编辑于2023年,星期日Biomedicaltext生物医学文本的格式多种多样:病历科研论文序列注释公共健康指南文本的内容多样化,如习惯用语临床有临床上的行话实验室有自己对蛋白的命名方式这种差异造成了文本挖掘应用往往面向特定类型的文本。尤其是对Medline文摘记录的分析。易获取免费5第五页,共一百一十四页,编辑于2023年,星期日基本概念(1)术语(Term):专门领域里的名称。术语集(terminology):术语的集合。生物医学文本中到处是术语,是医学知识的基本构件。如各种细胞的名称,蛋白质、医学设备、疾病、基因突变、化学物质名、蛋白质域的名称。名称如此重要,需要在文本中识别之,这个工作称为生物医学文献中的命名体识别(NER,NamedEntityRecognition)。第六页,共一百一十四页,编辑于2023年,星期日基本概念(2)尽管术语的定义似乎很明确,但是很难精确定义。earlyprogressivemultifocalleukoencephalopathyRefertoearlyprogressivemultifocalleukoencephalopathyprogressivemultifocalleukoencephalopathymultifocalleukoencephalopathyLeukoencephalopathy第七页,共一百一十四页,编辑于2023年,星期日基本概念(3)Terminology:手工构建的,因此是受控的。HUGO:基因术语集ICD:国际疾病分类法。GeneOntology:基因本体。不仅仅是术语列表,还包括:术语表+同义词=thesaurus
术语表+术语之间的关系=taxonomies,ontology一旦一段文本与其中一个词表对应上,就和其他资源建立起联系了。第八页,共一百一十四页,编辑于2023年,星期日人工标引手工匹配MedlineabstractsMedicalSubjectHeadings(MeSH)Leukoencephalopathy,progressivemultifocal9第九页,共一百一十四页,编辑于2023年,星期日10第十页,共一百一十四页,编辑于2023年,星期日genenormalization自动匹配:recognizingnamesofgenesMedlineabstractsmappingthemtotheircorrespondinggeneidentifiers(e.g.,EntrezGeneID)11第十一页,共一百一十四页,编辑于2023年,星期日HGNCdatabaseofhumangenenames
HUGOGeneNomenclatureCommittee
/2023/6/2第十二页,共一百一十四页,编辑于2023年,星期日网上在线检索的基因名称信息2023/6/2第十三页,共一百一十四页,编辑于2023年,星期日14第十四页,共一百一十四页,编辑于2023年,星期日下载的基因名称信息2023/6/2第十五页,共一百一十四页,编辑于2023年,星期日NER的原理文本(PubMedAbstracts)软件名称(基因名,蛋白质名)词表2023/6/2第十六页,共一百一十四页,编辑于2023年,星期日词表之间的联系词表太多,又创建了词表,把术语集匹配起来,词表之词表,超级词表。metaBioThesaurus:多个词表中蛋白质的同义词UnifiedMedicalLanguageSystem(UMLS):一体化医学语言系统,120多个词表,4百万个术语。第十七页,共一百一十四页,编辑于2023年,星期日/pirwww/iprolink/biothesaurus.shtml
18第十八页,共一百一十四页,编辑于2023年,星期日第十九页,共一百一十四页,编辑于2023年,星期日2023/6/2第二十页,共一百一十四页,编辑于2023年,星期日2023/6/2第二十一页,共一百一十四页,编辑于2023年,星期日2023/6/2第二十二页,共一百一十四页,编辑于2023年,星期日术语识别工具Whatizit:识别多种术语,通过网页。Abner:单机版,识别5种术语:蛋白、DNA、RNA、细胞株、细胞类型。更专指的术语识别工具:PepBank:用于肽类LSAT:用于alternativetranscripts提高PubMed检索效果:semedico,novo|seekGoPubMed/GoGene第二十三页,共一百一十四页,编辑于2023年,星期日http://www.ebi.ac.uk/webservices/whatizit/info.jsf24第二十四页,共一百一十四页,编辑于2023年,星期日/~bsettles/abner/25第二十五页,共一百一十四页,编辑于2023年,星期日A(Whatizit):蛋白-蓝色,疾病-深红,基因本体-浅红,化学物质-深红,物种-红色B(ABNER):蛋白和细胞株C(BIOCreAtIvEmetaserver)第二十六页,共一百一十四页,编辑于2023年,星期日发现关系识别术语之后,下一步自然是寻找术语之间的关系。发现关系的最简单途径就是共现:在同一段文字中同时出现的两个术语可能有关联。例如,某种蛋白质与一种疾病总是在同一文摘中出现,有理由假设该蛋白与疾病的某个方面有关。共现的次数越多,越有意义。可以定量排序,通过统计处理排除偶然的关联。27第二十七页,共一百一十四页,编辑于2023年,星期日关联度假设有t1和t2两个词共现,最简单的信度指标就是含有这两个词的文章数c(t1t2),但是要标准化,去掉两个词各自出现频次对共现次数的影响。点间互信息p为文章数除以文章总数。2023/6/2第二十八页,共一百一十四页,编辑于2023年,星期日关系抽取:共现GoDisease:/输入‘‘leukoencephalopathy,progressivemultifocal’’[mh]2023/6/2第二十九页,共一百一十四页,编辑于2023年,星期日返回结果:所有提及PML的文摘中的基因。出现次数越多的基因,越可能与PML有关联。如果某基因在PML中不成比例地高于其他疾病,则该基因可能与PML有特殊关系。2023/6/2第三十页,共一百一十四页,编辑于2023年,星期日关系抽取:确切关系明确描述的关系:比共现更好的证据。例如:‘‘WedescribeaPMLina67-year-oldwomanwithadestructivepolyarthritis(多关节炎)associatedwithanti-JO1antibodiestreatedwithcorticosteroids’’PML与抗-JO1抗体有明确关系。将这种关系简化为三元体:两个名词+一个动词。PMLisassociatedwithanti-JO1antibodies识别动词:词性标注:part-of-speech(POS)tagger三元体表述因其简单而功能强大,但是忽略了文章中的重要的细节。比如有些证据是来自于临床病例报告。2023/6/2第三十一页,共一百一十四页,编辑于2023年,星期日SemanticKnowledgeRepresentationSKR:是基于UMLS进行自然语言处理、提取文献中概念的系列在线工具。2023/6/2第三十二页,共一百一十四页,编辑于2023年,星期日/其中MetaMap是SKR系统的核心组件。MMTx是完成MetaMap功能的Java工具包,它进行的分析是语义层次上的分析。2023/6/2第三十三页,共一百一十四页,编辑于2023年,星期日MetaMap工作原理/m/user_content.aspx?id=42340/m/user_content.aspx?id=42340/m/user_content.aspx?id=42340/m/user_content.aspx?id=423402023/6/2第三十四页,共一百一十四页,编辑于2023年,星期日MetaMap工作原理:切分“ocularcomplicationofmyastheniagravis”(重症肌无力的眼部并发症)“ocularcomplication”和“ofmyastheniagravis”“ocularcomplication”分为“[mod(ocular),head(complication)]2023/6/2第三十五页,共一百一十四页,编辑于2023年,星期日MetaMap工作原理:产生变形体Ocular{[adj],0=””}Eye{[noun],2=”s”}同义词Eyes{[noun],3=”si”}同义词的复数Optic{[adj],4=”ss”}同义词的同义词Ophthalmic{[adj],4=”ss”}同义词的同义词Ophthalmia{[noun],7=”ssd”}同义词的同义词的变形Oculus{[noun],3=”d”}变形Oculi{[noun],4=”di”}同义词的复数2023/6/2第三十六页,共一百一十四页,编辑于2023年,星期日2023/6/2第三十七页,共一百一十四页,编辑于2023年,星期日检索候选词及候选词的评价检索超级词表,检索到包含有至少一个变形体的候选字串集合。计算出与输入的短语词相匹配的候选词,然后用4种指标的加权平均组成的语言学评价函数,计算输入短语与候选词之间的匹配程度:中心度:即包含中心词;变形情况:距离倒数的平均值;覆盖面和内敛度:测量候选词与文本的匹配程度和有多少个片段按照匹配程度排列这些候选词。2023/6/2第三十八页,共一百一十四页,编辑于2023年,星期日2023/6/2第三十九页,共一百一十四页,编辑于2023年,星期日关系抽取:PPIprotein-proteininteractions(PPI):文本挖掘的重头戏利用三元体表达,构建PPI网络,节点是蛋白质,动词为边。分析文本挖掘出来的PPI网络时,应当注意阅读和理解支撑信息。例如,蛋白质间相互作用可以是直接的,也可以是间接的,取决于动词直接动词有tobind,tostabilize,tophosphorylate间接的动词有toinduce,totrigger,toblock。文献中描述的蛋白质相互作用的不同性质部分地反映了所采用的实验方法和相互作用本身的性质。常用的捕获文本变异的方法就是把各种表达方式辨认出来,并写下捕获这些变异的规则。捕获磷酸化的模式,应当依次含有:一种酶的名字磷酸化的动词一种基质的名字2023/6/2第四十页,共一百一十四页,编辑于2023年,星期日发现关系的工具FACTA:Medline文本中概念共现情况。MedGene和BioGene:利用共现发现基因优先级别。Endeavour和G2D利用文本和其他数据源分析基因优先级别。PolySearch利用启发式加权技术,给不同的共现不同的权重。Anni使用文本轮廓测量术语之间的关系。iHOP:挖掘PPI最流行的工具。RLIMS-P利用语言模式发现磷酸化过程中的激酶、基质和磷酸。E3Miner发现泛素化,包括上下文信息。2023/6/2第四十一页,共一百一十四页,编辑于2023年,星期日http://text0.mib.man.ac.uk/software/facta/main.html2023/6/2第四十二页,共一百一十四页,编辑于2023年,星期日GoDisease+iHOP+Cytoscape2023/6/2第四十三页,共一百一十四页,编辑于2023年,星期日发现:DiscoveryBesidesfindingrelationships,textminersarealsointerestedindiscoveringrelationshipsSwanson:undiscoveredpublicknowledge【见例子1】2023/6/2第四十四页,共一百一十四页,编辑于2023年,星期日文本挖掘的应用实例Swanson关联研究及其工具Arrowsmith的使用Bitola的使用用文献轮廓挖掘微阵列表达数据DamienChaussabelMedlineR2023/6/2第四十五页,共一百一十四页,编辑于2023年,星期日背景与意义发表文献研究深入知识分裂fragmentationofscientificknowledge文献量穷经皓首并老死不相往来2023/6/2第四十六页,共一百一十四页,编辑于2023年,星期日DonR.Swanson的研究跨学科间一定存在着潜在的未被发现的关联文献间隐性的关联如何发现隐性关联?寻找非相关互补性文献text-basedinformaticsliterature-baseddiscovery2023/6/2第四十七页,共一百一十四页,编辑于2023年,星期日DonR.Swanson的研究两种互补的文献:一类文献(AB):摄入A可能导致某种生理改变B另一类文献(BC):B作用于某种疾病C即A作用于C。两种非相关的文献:两种文献从没有或很少被共同引用并且也不相互引用。互补性和非相关性描述了在公开信息中存在着未被发现的有价值信息的模型结构。2023/6/2第四十八页,共一百一十四页,编辑于2023年,星期日Medline文献集合DonR.Swanson的研究潜在的联系雷诺氏病文献食用鱼油文献血液粘稠度红细胞脆性血液粘稠度红细胞脆性2023/6/2第四十九页,共一百一十四页,编辑于2023年,星期日闭合式的知识发现2023/6/2第五十页,共一百一十四页,编辑于2023年,星期日2023/6/2第五十一页,共一百一十四页,编辑于2023年,星期日ARROWSMITH3.02023/6/2第五十二页,共一百一十四页,编辑于2023年,星期日48222023/6/2第五十三页,共一百一十四页,编辑于2023年,星期日2023/6/2第五十四页,共一百一十四页,编辑于2023年,星期日2023/6/2第五十五页,共一百一十四页,编辑于2023年,星期日2023/6/2第五十六页,共一百一十四页,编辑于2023年,星期日Asthmafamous?2023/6/2第五十七页,共一百一十四页,编辑于2023年,星期日哮喘名人2023/6/2第五十八页,共一百一十四页,编辑于2023年,星期日SYK:脾酪氨酸激酶2023/6/2第五十九页,共一百一十四页,编辑于2023年,星期日SYK:脾酪氨酸激酶过敏性鼻炎Sykinhibitorsastreatmentforallergicrhinitis.
2008【SYK抑制剂治疗过敏性鼻炎】AnintranasalSyk-kinaseinhibitor(R112)improvesthesymptomsofseasonalallergicrhinitisinaparkenvironment.
2005【鼻内SYK抑制剂(R112)改善公园里过敏性鼻炎症状】
痛风Crystal-inducedneutrophilactivation.IX.Syk-dependentactivationofclassIaphosphatidylinositol3-kinase.
2007【晶体诱发的中性粒细胞活化:Ia类磷脂酰肌醇3激酶的SYK依赖性活化】Crystal-inducedneutrophilactivation.VII.InvolvementofSykintheresponsestomonosodiumuratecrystals.
2001【晶体诱发的中性粒细胞活化:SYK参与对尿酸钠晶体反应的程度】2023/6/2第六十页,共一百一十四页,编辑于2023年,星期日过敏性鼻炎—SYK—痛风过敏性鼻炎痛风抑制剂治疗中性粒细胞活化晶体诱发PI3KSYK2023/6/2第六十一页,共一百一十四页,编辑于2023年,星期日2023/6/2第六十二页,共一百一十四页,编辑于2023年,星期日B:基因和分子序列等语义类型2023/6/2第六十三页,共一百一十四页,编辑于2023年,星期日TOLLreceptor2023/6/2第六十四页,共一百一十四页,编辑于2023年,星期日可作为生物武器的潜在病毒能够成为生物武器:致病性,传播性。同时涉及到病毒这两个特性的文章却特别少。A:病毒毒力遗传方面(virulence-genetic)C:病毒疾病传播力病毒的昆虫媒介传播(insectvectors)空气传播(air)在空气中的稳定性(stabilityofvirusesinair)通过与A和C有共同联系B找出更多符合条件的病毒。将得到的文献经过一些系列的处理,Arrowsmith列出了三个有意义的B-LIST(病毒的集合),通过进一步的统计学分析和查阅文献,最终找出相对有意义的病毒(B)2023/6/2第六十五页,共一百一十四页,编辑于2023年,星期日发现科研机构间潜在的合作方向潜在合作方向美国斯坦福大学哥伦比亚大学医学信息学研究领域发现科研机构合作与交流的题目结果:更好地体现:相似点(可以合作之处)和不同点(可以相互交流、学习之处)内容详细、明确:能体现出研究所使用的具体方法和侧重点2023/6/2第六十六页,共一百一十四页,编辑于2023年,星期日开放式的知识发现2023/6/2第六十七页,共一百一十四页,编辑于2023年,星期日BITOLA
http://www.mf.uni-lj.si/bitola/输入单个的概念(疾病A),找到该概念的第一层相关概念并加以归类(药物B)。从第一层相关概念(药物B)出发,找到它们的相关概念,并加以归类(基因C)。检验基因和疾病是否有关联。如果没有,该基因与疾病有潜在的联系而且并没有文献报道。提示:与疾病、生理学反应或者其他表型相关的新基因、药物或者神经科学。2023/6/2第六十八页,共一百一十四页,编辑于2023年,星期日BITOLA2023/6/2第六十九页,共一百一十四页,编辑于2023年,星期日2023/6/2第七十页,共一百一十四页,编辑于2023年,星期日2023/6/2第七十一页,共一百一十四页,编辑于2023年,星期日syk2023/6/2第七十二页,共一百一十四页,编辑于2023年,星期日2023/6/2第七十三页,共一百一十四页,编辑于2023年,星期日2023/6/2第七十四页,共一百一十四页,编辑于2023年,星期日2023/6/2第七十五页,共一百一十四页,编辑于2023年,星期日2023/6/2第七十六页,共一百一十四页,编辑于2023年,星期日内容Swanson关联研究及其工具Arrowsmith的使用Bitola的使用用文献轮廓挖掘微阵列表达数据DamienChaussabelMedlineR2023/6/2第七十七页,共一百一十四页,编辑于2023年,星期日运用文献轮廓
挖掘微阵列表达数据MiningmicroarrayexpressiondatabyliteratureprofilingDamienChaussabelMedlineR2023/6/2第七十八页,共一百一十四页,编辑于2023年,星期日DamienChaussabel
AlanSherImmunobiologySection,LaboratoryofParasiticDiseases,NationalInstituteofAllergyandInfectiousDiseases,NationalInstitutesofHealth,Bethesda,MD20892,USAGenomeBiology2002,3(10):RESEARCH0055.2023/6/2第七十九页,共一百一十四页,编辑于2023年,星期日目标建立一种挖掘技术该技术以对文献轮廓literatureprofiling的分析为基础文献轮廓:对于某一个主题(如某基因)而言,有相关文献集合对于该基因的文献集合,分析某些单词在文摘中出现的频次。2023/6/2第八十页,共一百一十四页,编辑于2023年,星期日文献轮廓基因B基因C基因A相关文献主题词1频次主题词2频次主题词3频次…………主题词n频次2023/6/2第八十一页,共一百一十四页,编辑于2023年,星期日研究步骤检索文献分析文本过滤数据聚类分析2023/6/2第八十二页,共一百一十四页,编辑于2023年,星期日1.检索文献从基因开始,分别找到与各种基因相关的论文标题中含有基因名字的论文。人类基因命名委员会(HumanGeneNomenclatureCommittee,HGNC):官方名称、缩写、别名/2023/6/2第八十三页,共一百一十四页,编辑于2023年,星期日2023/6/2第八十四页,共一百一十四页,编辑于2023年,星期日1.检索文献建立数据库包括HGNC定义的10,500多种已知的人类基因用PubMed查询格式的URL,例如:proteinkinaseCeta/htbin-post/Entrez/query?db=0&form=1&term=PRKCH+%5Bti%5D+OR+PKC-L+%5Bti%5D+OR+PRKCL+%5Bti%5D+OR+protein%20kinase%20C%20eta+%5Bti%5D'PRKCH[ti]ORPKC-L[ti]ORPRKCL[ti]ORproteinkinaseCeta[ti]')上述纪录按照GenBank和LocusLink的ID排列该数据库可以作为Excel表格下载2023/6/2第八十五页,共一百一十四页,编辑于2023年,星期日1.检索文献选70种基因,每一种基因的相关文献以XML格式下载用Excel的宏命令抽取文摘,另存作为文本分析样本PapersonGene70PapersonGene3PapersonGene2PapersonGene12023/6/2第八十六页,共一百一十四页,编辑于2023年,星期日2.分析文本对于每一个基因的相关纪录的内容,分析文摘中单词出现的情况。【TF】统计文摘中含有特定单词的文献数。【DF】例如:对于GADD45B基因的相关文献,有18.7%的文摘中含有单词“Proliferation”。AbstractsonGene1单词百分比=论文数/论文总数Proliferation18.7Active15.5infected14.82023/6/2第八十七页,共一百一十四页,编辑于2023年,星期日3.过滤数据每一种基因有几万条记录。对文献中发现的每一个单词,标上其出现的频次数。这些单词大多数对发现基因信息没有用途:没有特异性:'if,'because','cell','identified'很少使用:在很少的文献中出现。第三类单词:在某一种基因的文摘中出现频率高【TF】。在所有文献中出现频率(基准率)低【DF】。可以提供基因的相关信息。2023/6/2第八十八页,共一百一十四页,编辑于2023年,星期日RANTESY轴上的点为与RANTES基因相关的单词,在25%以上的论文中出现过。随机选取基因,计算这些词的出现率,计算这些词在不同基因文献中出现的平均值。如果基因足够的话,单词的平均出现率趋于稳定。出现率低于5%的单词传递有关该基因的重要信息。如infection,secreted,chemokine等。2023/6/2第八十九页,共一百一十四页,编辑于2023年,星期日3.过滤数据基准率:在所有已知的人类基因中随机抽取基因(250种)统计单词出现频率的平均值term1term2Term3termnGene1Gene2gene250平均值2023/6/2第九十页,共一百一十四页,编辑于2023年,星期日3.数据过滤单词过滤的标准:通过设定基准率(5%),去掉在全部科技文献中经常出现的单词每一个单词在每一种基因上的出现率与基准率的差值〉25%通过两个基因过滤的单词:一个单词只有在至少2个以上的基因中共现才在确定基因关系方面有用。70个基因,25,000种单词,只保留下来101种。可以调整单词过滤的阈值:下调阈值,增加了噪音,检索到更多的单词。2023/6/2第九十一页,共一百一十四页,编辑于2023年,星期日3.数据过滤2023/6/2第九十二页,共一百一十四页,编辑于2023年,星期日4.聚类分析通过单词出现情况,给具有同样的文献分布特征的基因进行分组。经过几轮过滤之后,确定了单词表,将该表用于建立一个单词-基因矩阵。矩阵中对应的是每一种基因和单词出现值。采用基因聚类分析的软件:Cluster/TreeView2023/6/2第九十三页,共一百一十四页,编辑于2023年,星期日聚类分析term1term2term3Gene1Gene2Gene32023/6/2第九十四页,共一百一十四页,编辑于2023年,星期日4.聚类分析蓝色:nuclearfactors橙色:receptor-ligandpair绿色:interferon-related红色:chemokines紫色:MHCclassIantigen-presentationpathway黄色阴影:单词在文摘中出现的水平2023/6/2第九十五页,共一百一十四页,编辑于2023年,星期日4.聚类分析基因的功能分组明显与免疫反应有关。蓝色:控制炎症反应和细胞凋亡的转录因子,这些基因和‘TNF’(theinflammatorymediatortumornecrosisfactor),‘death’或者‘apoptosis’同时出现较多。绿色:最大的一组基因,与‘interferon’有关(也叫‘IFN’和‘IFN-alpha’,)。STATs基因是干扰素信号传导专门需要的因子。红色:专门面向趋化因子(chemokines)。紫色:基因全部是I类MHC抗体表达通路基因。这些基因专门编码把蛋白降解为肽的蛋白。根据抽取词所表示的概念可以发现有价值的信息,用于快速探索和评估复杂数据集中的生物学意义。2023/6/2第九十六页,共一百一十四页,编辑于2023年,星期日4.聚类分析2023/6/2第九十七页,共一百一十四页,编辑于2023年,星期日聚类分析2023/6/2第九十八页,共一百一十四页,编辑于2023年,星期日单词出现模式的分析2023/6/2第九十九页,共一百一十四页,编辑于2023年,星期日不同关联程度的基因组通过文献分布特征发现的关联一组基因在功能上的关联程度不同的基因组共享的单词数关联数同源基因116523协同基因101300随机基因491092023/6/2第一百页,共一百一十四页,编辑于2023年,星期日用文献轮廓挖掘鼻咽癌微阵列表达数据黄仲曦,姚开泰(第一军医大学病理教研室肿瘤研究所)目的:探索鼻咽癌异常信号通路。方法:根据鼻咽癌微阵列表达谱,采用基于文献轮廓的数据挖掘方法。从Medline文献数据库中提取与基因相关的文献并分析词的频率,再根据重复发生和共发生的过滤标准提取功能相关的词。最后根据词的发生频率对基因进行功能聚类。结果:基因表达谱的112个差异表达基因聚成16组功能类别:4组暗示EBV感染、6组显示鼻咽癌变过程、2组参与能量代谢、1组提示蛋白的异常磷酸化、2组与其它疾病相关、1组与肌肉组织活性相关。肿瘤发生发展过程中常见的P53和Rb信号通路的异常在本研究中则未发现。结论:鼻咽癌的发生发展可能由特殊的信号通路引起。2023/6/2第一百零一页,共一百一十四页,编辑于2023年,星期日用文献轮廓挖掘大肠癌转移芯片表达谱黄仲曦,孙青,丁彦青,姚开泰(第一军医大学病理教研室肿瘤研究所)目的:寻找新的大肠癌转移相关基因。方法:根据大肠癌转移芯片的表达谱,采用基于文献轮廓的数据挖掘方法,从Medline文献数据库中提取基因的相关文献并分析词的频率,再基于重复发生和共发生的过滤标准提取功能相关的词,最后基于词的发生频率对基因进行功能聚类,进一步结合文献及已有的分子生物学检测结果进行分析。结果:发现两个新的可能与大肠癌转移相关的基因TlAM1和NM23H1。2023/6/2第一百零二页,共一百一十四页,编辑于2023年,星期日GenCLIP2023/6/2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年钢卷尺配件项目可行性研究报告
- 2024年超平面高清晰度数字电视项目可行性研究报告
- 2024年测斜仪校验台项目可行性研究报告
- 2024年中国汽车美容漆市场调查研究报告
- 厂级安全培训试题附答案【研优卷】
- 企业主要负责人安全培训试题【达标题】
- 项目管理人员年度安全培训试题答案可打印
- 新冠疫情消毒工作方案
- 电气安装工程施工质量验收方法考核试卷
- 模板周转方案
- 建筑施工企业(安全管理)安全生产管理人员安全生产考试参考题及答案
- 2024-2025学年部编版初一上学期期中历史试卷与参考答案
- 职业技能大赛-鸿蒙移动应用开发赛初赛理论知识考试及答案
- 2024山东高速集团限公司招聘367人高频难、易错点500题模拟试题附带答案详解
- 【人教版】《劳动教育》二下 劳动项目一 洗头 课件
- 第三单元长方形和正方形(单元测试)-2024-2025学年三年级上册数学苏教版
- 灯展合同范本
- 【课件】城镇与乡村课件2024-2025学年人教版地理七年级上册
- 北京市历年中考语文现代文之议论文阅读30篇(含答案)(2003-2023)
- 四川省绵阳市2025届高三数学上学期第一次诊断性考试试题文含解析
- 请款单模板(范本)
评论
0/150
提交评论