版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
生物医学文本挖掘及其应用演示文稿当前1页,总共112页。(优选)生物医学文本挖掘及其应用当前2页,总共112页。例子:二者关系进行性多灶性白质脑病(progressivemultifocalleukoencephalopathy,PML)抗体antibodiesMonoclonalantibodies,efalizumab(依法珠单克隆抗体)当前3页,总共112页。自然语言处理让计算机替我们看文献吧!比较难:计算机需要专门的知识才能读懂文本。自然语言处理(NaturalLanguageProcessing,NLP):专门训练计算机掌握这种知识的学科。生物医学文本挖掘(Biomedicaltextmining)是一个专门处理生物学、医学和化学文本的分支学科。也叫BioNLP有些人把NLP当做textmining的同义词。当前4页,总共112页。Biomedicaltext生物医学文本的格式多种多样:病历科研论文序列注释公共健康指南文本的内容多样化,如习惯用语临床有临床上的行话实验室有自己对蛋白的命名方式这种差异造成了文本挖掘应用往往面向特定类型的文本。尤其是对Medline文摘记录的分析。易获取免费5当前5页,总共112页。基本概念(1)术语(Term):专门领域里的名称。术语集(terminology):术语的集合。生物医学文本中到处是术语,是医学知识的基本构件。如各种细胞的名称,蛋白质、医学设备、疾病、基因突变、化学物质名、蛋白质域的名称。名称如此重要,需要在文本中识别之,这个工作称为生物医学文献中的命名体识别(NER,NamedEntityRecognition)。当前6页,总共112页。基本概念(2)尽管术语的定义似乎很明确,但是很难精确定义。earlyprogressivemultifocalleukoencephalopathyRefertoearlyprogressivemultifocalleukoencephalopathyprogressivemultifocalleukoencephalopathymultifocalleukoencephalopathyLeukoencephalopathy当前7页,总共112页。基本概念(3)Terminology:手工构建的,因此是受控的。HUGO:基因术语集ICD:国际疾病分类法。GeneOntology:基因本体。不仅仅是术语列表,还包括:术语表+同义词=thesaurus
术语表+术语之间的关系=taxonomies,ontology一旦一段文本与其中一个词表对应上,就和其他资源建立起联系了。当前8页,总共112页。人工标引手工匹配MedlineabstractsMedicalSubjectHeadings(MeSH)Leukoencephalopathy,progressivemultifocal9当前9页,总共112页。10当前10页,总共112页。genenormalization自动匹配:recognizingnamesofgenesMedlineabstractsmappingthemtotheircorrespondinggeneidentifiers(e.g.,EntrezGeneID)11当前11页,总共112页。当前12页,总共112页。网上在线检索的基因名称信息当前13页,总共112页。14当前14页,总共112页。下载的基因名称信息当前15页,总共112页。NER的原理文本(PubMedAbstracts)软件名称(基因名,蛋白质名)词表当前16页,总共112页。词表之间的联系词表太多,又创建了词表,把术语集匹配起来,词表之词表,超级词表。metaBioThesaurus:多个词表中蛋白质的同义词UnifiedMedicalLanguageSystem(UMLS):一体化医学语言系统,120多个词表,4百万个术语。当前17页,总共112页。/pirwww/iprolink/biothesaurus.shtml
18当前18页,总共112页。当前19页,总共112页。当前20页,总共112页。当前21页,总共112页。当前22页,总共112页。术语识别工具Whatizit:识别多种术语,通过网页。Abner:单机版,识别5种术语:蛋白、DNA、RNA、细胞株、细胞类型。更专指的术语识别工具:PepBank:用于肽类LSAT:用于alternativetranscripts提高PubMed检索效果:semedico,novo|seekGoPubMed/GoGene当前23页,总共112页。24当前24页,总共112页。/~bsettles/abner/25当前25页,总共112页。A(Whatizit):蛋白-蓝色,疾病-深红,基因本体-浅红,化学物质-深红,物种-红色B(ABNER):蛋白和细胞株C(BIOCreAtIvEmetaserver)当前26页,总共112页。发现关系识别术语之后,下一步自然是寻找术语之间的关系。发现关系的最简单途径就是共现:在同一段文字中同时出现的两个术语可能有关联。例如,某种蛋白质与一种疾病总是在同一文摘中出现,有理由假设该蛋白与疾病的某个方面有关。共现的次数越多,越有意义。可以定量排序,通过统计处理排除偶然的关联。27当前27页,总共112页。关联度假设有t1和t2两个词共现,最简单的信度指标就是含有这两个词的文章数c(t1t2),但是要标准化,去掉两个词各自出现频次对共现次数的影响。点间互信息p为文章数除以文章总数。当前28页,总共112页。关系抽取:共现GoDisease:/输入‘‘leukoencephalopathy,progressive
multifocal’’[mh]当前29页,总共112页。返回结果:所有提及PML的文摘中的基因。出现次数越多的基因,越可能与PML有关联。如果某基因在PML中不成比例地高于其他疾病,则该基因可能与PML有特殊关系。当前30页,总共112页。关系抽取:确切关系明确描述的关系:比共现更好的证据。例如:‘‘WedescribeaPMLina67-year-oldwomanwithadestructivepolyarthritis(多关节炎)associatedwithanti-JO1antibodies
treatedwithcorticosteroids’’PML与抗-JO1抗体有明确关系。将这种关系简化为三元体:两个名词+一个动词。PMLisassociatedwithanti-JO1antibodies识别动词:词性标注:part-of-speech(POS)tagger三元体表述因其简单而功能强大,但是忽略了文章中的重要的细节。比如有些证据是来自于临床病例报告。当前31页,总共112页。SemanticKnowledgeRepresentationSKR:是基于UMLS进行自然语言处理、提取文献中概念的系列在线工具。当前32页,总共112页。其中MetaMap是SKR系统的核心组件。MMTx是完成MetaMap功能的Java工具包,它进行的分析是语义层次上的分析。当前33页,总共112页。MetaMap工作原理当前34页,总共112页。MetaMap工作原理:切分“ocularcomplicationofmyastheniagravis”(重症肌无力的眼部并发症)“ocularcomplication”和“ofmyastheniagravis”“ocularcomplication”分为“[mod(ocular),head(complication)]当前35页,总共112页。MetaMap工作原理:产生变形体Ocular{[adj],0=””}Eye{[noun],2=”s”}同义词Eyes{[noun],3=”si”}同义词的复数Optic{[adj],4=”ss”}同义词的同义词Ophthalmic{[adj],4=”ss”}同义词的同义词Ophthalmia{[noun],7=”ssd”}同义词的同义词的变形Oculus{[noun],3=”d”}变形Oculi{[noun],4=”di”}同义词的复数当前36页,总共112页。当前37页,总共112页。检索候选词及候选词的评价检索超级词表,检索到包含有至少一个变形体的候选字串集合。计算出与输入的短语词相匹配的候选词,然后用4种指标的加权平均组成的语言学评价函数,计算输入短语与候选词之间的匹配程度:中心度:即包含中心词;变形情况:距离倒数的平均值;覆盖面和内敛度:测量候选词与文本的匹配程度和有多少个片段按照匹配程度排列这些候选词。当前38页,总共112页。当前39页,总共112页。关系抽取:PPIprotein-proteininteractions(PPI):文本挖掘的重头戏利用三元体表达,构建PPI网络,节点是蛋白质,动词为边。分析文本挖掘出来的PPI网络时,应当注意阅读和理解支撑信息。例如,蛋白质间相互作用可以是直接的,也可以是间接的,取决于动词直接动词有tobind,tostabilize,tophosphorylate间接的动词有toinduce,totrigger,toblock。文献中描述的蛋白质相互作用的不同性质部分地反映了所采用的实验方法和相互作用本身的性质。常用的捕获文本变异的方法就是把各种表达方式辨认出来,并写下捕获这些变异的规则。捕获磷酸化的模式,应当依次含有:一种酶的名字磷酸化的动词一种基质的名字当前40页,总共112页。发现关系的工具FACTA:Medline文本中概念共现情况。MedGene和BioGene:利用共现发现基因优先级别。Endeavour和G2D利用文本和其他数据源分析基因优先级别。PolySearch利用启发式加权技术,给不同的共现不同的权重。Anni使用文本轮廓测量术语之间的关系。iHOP:挖掘PPI最流行的工具。RLIMS-P利用语言模式发现磷酸化过程中的激酶、基质和磷酸。E3Miner发现泛素化,包括上下文信息。当前41页,总共112页。当前42页,总共112页。GoDisease+iHOP+Cytoscape当前43页,总共112页。发现:DiscoveryBesidesfindingrelationships,textminersarealsointerestedindiscoveringrelationshipsSwanson:undiscoveredpublicknowledge【见例子1】当前44页,总共112页。文本挖掘的应用实例Swanson关联研究及其工具Arrowsmith的使用Bitola的使用用文献轮廓挖掘微阵列表达数据DamienChaussabelMedlineR当前45页,总共112页。背景与意义发表文献研究深入知识分裂fragmentationofscientificknowledge文献量穷经皓首并老死不相往来当前46页,总共112页。DonR.Swanson的研究跨学科间一定存在着潜在的未被发现的关联文献间隐性的关联如何发现隐性关联?寻找非相关互补性文献text-basedinformaticsliterature-baseddiscovery当前47页,总共112页。DonR.Swanson的研究两种互补的文献:一类文献(AB):摄入A可能导致某种生理改变B另一类文献(BC):B作用于某种疾病C即A作用于C。两种非相关的文献:两种文献从没有或很少被共同引用并且也不相互引用。互补性和非相关性描述了在公开信息中存在着未被发现的有价值信息的模型结构。当前48页,总共112页。Medline文献集合DonR.Swanson的研究潜在的联系雷诺氏病文献食用鱼油文献血液粘稠度红细胞脆性血液粘稠度红细胞脆性当前49页,总共112页。闭合式的知识发现当前50页,总共112页。当前51页,总共112页。ARROWSMITH3.0当前52页,总共112页。4822当前53页,总共112页。当前54页,总共112页。当前55页,总共112页。当前56页,总共112页。Asthmafamous?当前57页,总共112页。哮喘名人当前58页,总共112页。SYK:脾酪氨酸激酶当前59页,总共112页。SYK:脾酪氨酸激酶过敏性鼻炎Sykinhibitorsastreatmentforallergicrhinitis.
2008【SYK抑制剂治疗过敏性鼻炎】AnintranasalSyk-kinaseinhibitor(R112)improvesthesymptomsofseasonalallergicrhinitisinaparkenvironment.
2005【鼻内SYK抑制剂(R112)改善公园里过敏性鼻炎症状】
痛风Crystal-inducedneutrophilactivation.IX.Syk-dependentactivationofclassIaphosphatidylinositol3-kinase.
2007【晶体诱发的中性粒细胞活化:Ia类磷脂酰肌醇3激酶的SYK依赖性活化】Crystal-inducedneutrophilactivation.VII.InvolvementofSykintheresponsestomonosodiumuratecrystals.
2001【晶体诱发的中性粒细胞活化:SYK参与对尿酸钠晶体反应的程度】当前60页,总共112页。过敏性鼻炎—SYK—痛风过敏性鼻炎痛风抑制剂治疗中性粒细胞活化晶体诱发PI3KSYK当前61页,总共112页。当前62页,总共112页。B:基因和分子序列等语义类型当前63页,总共112页。TOLLreceptor当前64页,总共112页。可作为生物武器的潜在病毒能够成为生物武器:致病性,传播性。同时涉及到病毒这两个特性的文章却特别少。A:病毒毒力遗传方面(virulence-genetic)C:病毒疾病传播力病毒的昆虫媒介传播(insectvectors)空气传播(air)在空气中的稳定性(stabilityofvirusesinair)通过与A和C有共同联系B找出更多符合条件的病毒。将得到的文献经过一些系列的处理,Arrowsmith列出了三个有意义的B-LIST(病毒的集合),通过进一步的统计学分析和查阅文献,最终找出相对有意义的病毒(B)当前65页,总共112页。发现科研机构间潜在的合作方向潜在合作方向美国斯坦福大学哥伦比亚大学医学信息学研究领域发现科研机构合作与交流的题目结果:更好地体现:相似点(可以合作之处)和不同点(可以相互交流、学习之处)内容详细、明确:能体现出研究所使用的具体方法和侧重点当前66页,总共112页。开放式的知识发现当前67页,总共112页。输入单个的概念(疾病A),找到该概念的第一层相关概念并加以归类(药物B)。从第一层相关概念(药物B)出发,找到它们的相关概念,并加以归类(基因C)。检验基因和疾病是否有关联。如果没有,该基因与疾病有潜在的联系而且并没有文献报道。提示:与疾病、生理学反应或者其他表型相关的新基因、药物或者神经科学。当前68页,总共112页。BITOLA当前69页,总共112页。当前70页,总共112页。当前71页,总共112页。syk当前72页,总共112页。当前73页,总共112页。当前74页,总共112页。当前75页,总共112页。当前76页,总共112页。内容Swanson关联研究及其工具Arrowsmith的使用Bitola的使用用文献轮廓挖掘微阵列表达数据DamienChaussabelMedlineR当前77页,总共112页。运用文献轮廓
挖掘微阵列表达数据MiningmicroarrayexpressiondatabyliteratureprofilingDamienChaussabelMedlineR当前78页,总共112页。DamienChaussabel
AlanSherImmunobiologySection,LaboratoryofParasiticDiseases,NationalInstituteofAllergyandInfectiousDiseases,NationalInstitutesofHealth,Bethesda,MD20892,USAGenomeBiology2002,3(10):RESEARCH0055.当前79页,总共112页。目标建立一种挖掘技术该技术以对文献轮廓literatureprofiling的分析为基础文献轮廓:对于某一个主题(如某基因)而言,有相关文献集合对于该基因的文献集合,分析某些单词在文摘中出现的频次。当前80页,总共112页。文献轮廓基因B基因C基因A相关文献主题词1频次主题词2频次主题词3频次…………主题词n频次当前81页,总共112页。研究步骤检索文献分析文本过滤数据聚类分析当前82页,总共112页。1.检索文献从基因开始,分别找到与各种基因相关的论文标题中含有基因名字的论文。人类基因命名委员会(HumanGeneNomenclatureCommittee,HGNC):官方名称、缩写、别名当前83页,总共112页。当前84页,总共112页。1.检索文献建立数据库包括HGNC定义的10,500多种已知的人类基因用PubMed查询格式的URL,例如:proteinkinaseCeta/htbin-post/Entrez/query?db=0&form=1&term=PRKCH+%5Bti%5D+OR+PKC-L+%5Bti%5D+OR+PRKCL+%5Bti%5D+OR+protein%20kinase%20C%20eta+%5Bti%5D'PRKCH[ti]ORPKC-L[ti]ORPRKCL[ti]ORproteinkinaseCeta[ti]')上述纪录按照GenBank和LocusLink的ID排列该数据库可以作为Excel表格下载当前85页,总共112页。1.检索文献选70种基因,每一种基因的相关文献以XML格式下载用Excel的宏命令抽取文摘,另存作为文本分析样本PapersonGene70PapersonGene3PapersonGene2PapersonGene1当前86页,总共112页。2.分析文本对于每一个基因的相关纪录的内容,分析文摘中单词出现的情况。【TF】统计文摘中含有特定单词的文献数。【DF】例如:对于GADD45B基因的相关文献,有18.7%的文摘中含有单词“Proliferation”。AbstractsonGene1单词百分比=论文数/论文总数Proliferation18.7Active15.5infected14.8当前87页,总共112页。3.过滤数据每一种基因有几万条记录。对文献中发现的每一个单词,标上其出现的频次数。这些单词大多数对发现基因信息没有用途:没有特异性:'if,'because','cell','identified'很少使用:在很少的文献中出现。第三类单词:在某一种基因的文摘中出现频率高【TF】。在所有文献中出现频率(基准率)低【DF】。可以提供基因的相关信息。当前88页,总共112页。RANTESY轴上的点为与RANTES基因相关的单词,在25%以上的论文中出现过。随机选取基因,计算这些词的出现率,计算这些词在不同基因文献中出现的平均值。如果基因足够的话,单词的平均出现率趋于稳定。出现率低于5%的单词传递有关该基因的重要信息。如infection,secreted,chemokine等。当前89页,总共112页。3.过滤数据基准率:在所有已知的人类基因中随机抽取基因(250种)统计单词出现频率的平均值term1term2Term3termnGene1Gene2gene250平均值当前90页,总共112页。3.数据过滤单词过滤的标准:通过设定基准率(5%),去掉在全部科技文献中经常出现的单词每一个单词在每一种基因上的出现率与基准率的差值〉25%通过两个基因过滤的单词:一个单词只有在至少2个以上的基因中共现才在确定基因关系方面有用。70个基因,25,000种单词,只保留下来101种。可以调整单词过滤的阈值:下调阈值,增加了噪音,检索到更多的单词。当前91页,总共112页。3.数据过滤当前92页,总共112页。4.聚类分析通过单词出现情况,给具有同样的文献分布特征的基因进行分组。经过几轮过滤之后,确定了单词表,将该表用于建立一个单词-基因矩阵。矩阵中对应的是每一种基因和单词出现值。采用基因聚类分析的软件:Cluster/TreeView当前93页,总共112页。聚类分析term1term2term3Gene1Gene2Gene3当前94页,总共112页。4.聚类分析蓝色:nuclearfactors橙色:receptor-ligandpair绿色:interferon-related红色:chemokines紫色:MHCclassIantigen-presentationpathway黄色阴影:单词在文摘中出现的水平当前95页,总共112页。4.聚类分析基因的功能分组明显与免疫反应有关。蓝色:控制炎症反应和细胞凋亡的转录因子,这些基因和‘TNF’(theinflammatorymediatortumornecrosisfactor),‘death’或者‘apoptosis’同时出现较多。绿色:最大的一组基因,与‘interferon’有关(也叫‘IFN’和‘IFN-alpha’,)。STATs基因是干扰素信号传导专门需要的因子。红色:专门面向趋化因子(chemokines)。紫色:基因全部是I类MHC抗体表达通路基因。这些基因专门编码把蛋白降解为肽的蛋白。根据抽取词所表示的概念可以发现有价值的信息,用于快速探索和评估复杂数据集中的生物学意义。当前96页,总共112页。4.聚类分析当前97页,总共112页。聚类分析当前98页,总共112页。单词出现模式的分析当前99页,总共112页。不同关联程度的基因组通过文献分布特征发现的关联一组基因在功能上的关联程度不同的基因组共享的单词数关联数同源基因116523协同基因101300随机基因49109当前100页,总共112页。用文献轮廓挖掘鼻咽癌微阵列表达数据黄仲曦,姚开泰(第一军医大学病理教研室肿瘤研究所)目的:探索鼻咽癌异常信号通路。方法:根据鼻咽癌微阵列表达谱,采用基于文献轮廓的数据挖掘方法。从Medline文献数据库中提取与基因相关的文献并分析词的频率,再根据重复发生和共发生的过滤标准提取功能相关的词。最后根据词的发生频率对基因进行功能聚类。结果:基因表达谱的112个差异表达基因聚成16组功能类别:4组暗示EBV感染、6组显示鼻咽癌变过程、2组参与能量代谢、1组提示蛋白的异常磷酸化、2组与其它疾病相关、1组与肌肉组织活性相关。肿瘤发生发展过程中常见的P53和Rb信号通路的异常在本研究中则未发现。结论:鼻咽癌的发生发展可能由特殊的信号通路引起。当前101页,总共112页。用文献轮廓挖掘大肠癌转移芯片表达谱黄仲曦,孙青,丁彦青,姚开泰(第一军医大学病
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度建筑项目技术合作合同
- 2024年度大连国际会议中心会场租赁合同
- 吸汗内衣市场发展现状调查及供需格局分析预测报告
- 连接用电缆项目评价分析报告
- 2024年度个人信贷还款合同
- 2024年度智能制造系统集成与实施合同
- 电阻器市场需求与消费特点分析
- 2024年度大学会议与活动场地预定合同
- 2024年度商品购销合同(含售后服务协议)
- 条形音箱市场发展现状调查及供需格局分析预测报告
- 高考作文模拟写作:“德”与“得”导写及范文
- 意向性和と思う课件 高考日语复习
- 江苏专转本《大学语文》考纲
- 西门子g120中文说明书
- 替代燃料汽车
- 山东省消防安全管理体系
- 放射科专科护理模拟习题(含参考答案)
- 市政污水管网工程监理规划
- 康复工程详解演示文稿
- 五线谱乐谱稿纸
- 银行培训课件:安全防范案例警示教育
评论
0/150
提交评论