生物医学文本挖掘及其应用_第1页
生物医学文本挖掘及其应用_第2页
生物医学文本挖掘及其应用_第3页
生物医学文本挖掘及其应用_第4页
生物医学文本挖掘及其应用_第5页
已阅读5页,还剩107页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物医学文本挖掘及其应用例子:二者关系进行性多灶性白质脑病(progressivemultifocalleukoencephalopathy,PML)抗体antibodiesMonoclonalantibodies,efalizumab(依法珠单克隆抗体)自然语言处理让计算机替我们看文献吧!比较难:计算机需要专门得知识才能读懂文本。自然语言处理(NaturalLanguageProcessing,NLP):专门训练计算机掌握这种知识得学科。生物医学文本挖掘(Biomedicaltextmining)就是一个专门处理生物学、医学和化学文本得分支学科。也叫BioNLP有些人把NLP当做textmining得同义词。Biomedicaltext生物医学文本得格式多种多样:病历科研论文序列注释公共健康指南文本得内容多样化,如习惯用语临床有临床上得行话实验室有自己对蛋白得命名方式这种差异造成了文本挖掘应用往往面向特定类型得文本。尤其就是对Medline文摘记录得分析。易获取免费4基本概念(1)术语(Term):专门领域里得名称。术语集(terminology):术语得集合。生物医学文本中到处就是术语,就是医学知识得基本构件。如各种细胞得名称,蛋白质、医学设备、疾病、基因突变、化学物质名、蛋白质域得名称。名称如此重要,需要在文本中识别之,这个工作称为生物医学文献中得命名体识别(NER,NamedEntityRecognition)。基本概念(2)尽管术语得定义似乎很明确,但就是很难精确定义。earlyprogressivemultifocalleukoencephalopathyRefertoearlyprogressivemultifocalleukoencephalopathyprogressivemultifocalleukoencephalopathymultifocalleukoencephalopathyLeukoencephalopathy基本概念(3)Terminology:手工构建得,因此就是受控得。HUGO:基因术语集ICD:国际疾病分类法。GeneOntology:基因本体。不仅仅就是术语列表,还包括:术语表+同义词=thesaurus

术语表+术语之间得关系=taxonomies,ontology一旦一段文本与其中一个词表对应上,就和其她资源建立起联系了。人工标引手工匹配MedlineabstractsMedicalSubjectHeadings(MeSH)Leukoencephalopathy,progressivemultifocal89genenormalization自动匹配:recognizingnamesofgenesMedlineabstractsmappingthemtotheircorrespondinggeneidentifiers(e.g.,EntrezGeneID)1011大家应该也有点累了,稍作休息大家有疑问的,可以询问和交流HGNCdatabaseofhumangenenames

HUGOGeneNomenclaturemittee

网上在线检索得基因名称信息14下载得基因名称信息NER得原理文本(PubMedAbstracts)软件名称(基因名,蛋白质名)词表词表之间得联系词表太多,又创建了词表,把术语集匹配起来,词表之词表,超级词表。metaBioThesaurus:多个词表中蛋白质得同义词UnifiedMedicalLanguageSystem(UMLS):一体化医学语言系统,120多个词表,4百万个术语。

18术语识别工具Whatizit:识别多种术语,通过网页。Abner:单机版,识别5种术语:蛋白、DNA、RNA、细胞株、细胞类型。更专指得术语识别工具:PepBank:用于肽类LSAT:用于alternativetranscripts提高PubMed检索效果:semedico,novo|seekGoPubMed/GoGene2425A(Whatizit):蛋白-蓝色,疾病-深红,基因本体-浅红,化学物质-深红,物种-红色B(ABNER):蛋白和细胞株C(BIOCreAtIvEmetaserver)发现关系识别术语之后,下一步自然就是寻找术语之间得关系。发现关系得最简单途径就就是共现:在同一段文字中同时出现得两个术语可能有关联。例如,某种蛋白质与一种疾病总就是在同一文摘中出现,有理由假设该蛋白与疾病得某个方面有关。共现得次数越多,越有意义。可以定量排序,通过统计处理排除偶然得关联。27关联度假设有t1和t2两个词共现,最简单得信度指标就就是含有这两个词得文章数c(t1t2),但就是要标准化,去掉两个词各自出现频次对共现次数得影响。点间互信息p为文章数除以文章总数。关系抽取:共现GoDisease:输入‘‘leukoencephalopathy,progressive

multifocal’’[mh]返回结果:所有提及PML得文摘中得基因。出现次数越多得基因,越可能与PML有关联。如果某基因在PML中不成比例地高于其她疾病,则该基因可能与PML有特殊关系。关系抽取:确切关系明确描述得关系:比共现更好得证据。例如:‘‘WedescribeaPMLina67-year-oldwomanwithadestructivepolyarthritis(多关节炎)associatedwithanti-JO1antibodies

treatedwithcorticosteroids’’PML与抗-JO1抗体有明确关系。将这种关系简化为三元体:两个名词+一个动词。PMLisassociatedwithanti-JO1antibodies识别动词:词性标注:part-of-speech(POS)tagger三元体表述因其简单而功能强大,但就是忽略了文章中得重要得细节。比如有些证据就是来自于临床病例报告。SemanticKnowledgeRepresentationSKR:就是基于UMLS进行自然语言处理、提取文献中概念得系列在线工具。其中MetaMap就是SKR系统得核心组件。MMTx就是完成MetaMap功能得Java工具包,她进行得分析就是语义层次上得分析。MetaMap工作原理MetaMap工作原理:切分“ocularplicationofmyastheniagravis”(重症肌无力得眼部并发症)“ocularplication”和“ofmyastheniagravis”“ocularplication”分为“[mod(ocular),head(plication)]MetaMap工作原理:产生变形体Ocular{[adj],0=””}Eye{[noun],2=”s”}同义词Eyes{[noun],3=”si”}同义词得复数Optic{[adj],4=”ss”}同义词得同义词Ophthalmic{[adj],4=”ss”}同义词得同义词Ophthalmia{[noun],7=”ssd”}同义词得同义词得变形Oculus{[noun],3=”d”}变形Oculi{[noun],4=”di”}同义词得复数检索候选词及候选词得评价检索超级词表,检索到包含有至少一个变形体得候选字串集合。计算出与输入得短语词相匹配得候选词,然后用4种指标得加权平均组成得语言学评价函数,计算输入短语与候选词之间得匹配程度:中心度:即包含中心词;变形情况:距离倒数得平均值;覆盖面和内敛度:测量候选词与文本得匹配程度和有多少个片段按照匹配程度排列这些候选词。关系抽取:PPIprotein-proteininteractions(PPI):文本挖掘得重头戏利用三元体表达,构建PPI网络,节点就是蛋白质,动词为边。分析文本挖掘出来得PPI网络时,应当注意阅读和理解支撑信息。例如,蛋白质间相互作用可以就是直接得,也可以就是间接得,取决于动词直接动词有tobind,tostabilize,tophosphorylate间接得动词有toinduce,totrigger,toblock。文献中描述得蛋白质相互作用得不同性质部分地反映了所采用得实验方法和相互作用本身得性质。常用得捕获文本变异得方法就就是把各种表达方式辨认出来,并写下捕获这些变异得规则。捕获磷酸化得模式,应当依次含有:一种酶得名字磷酸化得动词一种基质得名字发现关系得工具FACTA:Medline文本中概念共现情况。MedGene和BioGene:利用共现发现基因优先级别。Endeavour和G2D利用文本和其她数据源分析基因优先级别。PolySearch利用启发式加权技术,给不同得共现不同得权重。Anni使用文本轮廓测量术语之间得关系。iHOP:挖掘PPI最流行得工具。RLIMS-P利用语言模式发现磷酸化过程中得激酶、基质和磷酸。E3Miner发现泛素化,包括上下文信息。GoDisease+iHOP+Cytoscape发现:DiscoveryBesidesfindingrelationships,textminersarealsointerestedindiscoveringrelationshipsSwanson:undiscoveredpublicknowledge【见例子1】文本挖掘得应用实例Swanson关联研究及其工具Arrowsmith得使用Bitola得使用用文献轮廓挖掘微阵列表达数据DamienChaussabelMedlineR背景与意义发表文献研究深入知识分裂fragmentationofscientificknowledge文献量穷经皓首并老死不相往来DonR、Swanson得研究跨学科间一定存在着潜在得未被发现得关联文献间隐性得关联如何发现隐性关联?寻找非相关互补性文献text-basedinformaticsliterature-baseddiscoveryDonR、Swanson得研究两种互补得文献:一类文献(AB):摄入A可能导致某种生理改变B另一类文献(BC):B作用于某种疾病C即A作用于C。两种非相关得文献:两种文献从没有或很少被共同引用并且也不相互引用。互补性和非相关性描述了在公开信息中存在着未被发现得有价值信息得模型结构。Medline文献集合DonR、Swanson得研究潜在得联系雷诺氏病文献食用鱼油文献血液粘稠度红细胞脆性血液粘稠度红细胞脆性闭合式得知识发现ARROWSMITH3、04822Asthmafamous?哮喘名人SYK:脾酪氨酸激酶SYK:脾酪氨酸激酶过敏性鼻炎Sykinhibitorsastreatmentforallergicrhinitis、

2008【SYK抑制剂治疗过敏性鼻炎】AnintranasalSyk-kinaseinhibitor(R112)improvesthesymptomsofseasonalallergicrhinitisinaparkenvironment、

2005【鼻内SYK抑制剂(R112)改善公园里过敏性鼻炎症状】

痛风Crystal-inducedneutrophilactivation、IX、Syk-dependentactivationofclassIaphosphatidylinositol3-kinase、

2007【晶体诱发得中性粒细胞活化:Ia类磷脂酰肌醇3激酶得SYK依赖性活化】Crystal-inducedneutrophilactivation、VII、InvolvementofSykintheresponsestomonosodiumuratecrystals、

2001【晶体诱发得中性粒细胞活化:SYK参与对尿酸钠晶体反应得程度】过敏性鼻炎—SYK—痛风过敏性鼻炎痛风抑制剂治疗中性粒细胞活化晶体诱发PI3KSYKB:基因和分子序列等语义类型TOLLreceptor可作为生物武器得潜在病毒能够成为生物武器:致病性,传播性。同时涉及到病毒这两个特性得文章却特别少。A:病毒毒力遗传方面(virulence-genetic)C:病毒疾病传播力病毒得昆虫媒介传播(insectvectors)空气传播(air)在空气中得稳定性(stabilityofvirusesinair)通过与A和C有共同联系B找出更多符合条件得病毒。将得到得文献经过一些系列得处理,Arrowsmith列出了三个有意义得B-LIST(病毒得集合),通过进一步得统计学分析和查阅文献,最终找出相对有意义得病毒(B)发现科研机构间潜在得合作方向潜在合作方向美国斯坦福大学哥伦比亚大学医学信息学研究领域发现科研机构合作与交流得题目结果:更好地体现:相似点(可以合作之处)和不同点(可以相互交流、学习之处)内容详细、明确:能体现出研究所使用得具体方法和侧重点开放式得知识发现BITOLA

输入单个得概念(疾病A),找到该概念得第一层相关概念并加以归类(药物B)。从第一层相关概念(药物B)出发,找到她们得相关概念,并加以归类(基因C)。检验基因和疾病就是否有关联。如果没有,该基因与疾病有潜在得联系而且并没有文献报道。提示:与疾病、生理学反应或者其她表型相关得新基因、药物或者神经科学。BITOLAsyk内容Swanson关联研究及其工具Arrowsmith得使用Bitola得使用用文献轮廓挖掘微阵列表达数据DamienChaussabelMedlineR运用文献轮廓

挖掘微阵列表达数据MiningmicroarrayexpressiondatabyliteratureprofilingDamienChaussabelMedlineRDamienChaussabel

AlanSherImmunobiologySection,LaboratoryofParasiticDiseases,NationalInstituteofAllergyandInfectiousDiseases,NationalInstitutesofHealth,Bethesda,MD20892,USAGenomeBiology2002,3(10):RESEARCH0055、目标建立一种挖掘技术该技术以对文献轮廓literatureprofiling得分析为基础文献轮廓:对于某一个主题(如某基因)而言,有相关文献集合对于该基因得文献集合,分析某些单词在文摘中出现得频次。文献轮廓基因B基因C基因A相关文献主题词1频次主题词2频次主题词3频次…………主题词n频次研究步骤检索文献分析文本过滤数据聚类分析1、检索文献从基因开始,分别找到与各种基因相关得论文标题中含有基因名字得论文。人类基因命名委员会(HumanGeneNomenclaturemittee,HGNC):官方名称、缩写、别名1、检索文献建立数据库包括HGNC定义得10,500多种已知得人类基因用PubMed查询格式得URL,例如:proteinkinaseCeta'PRKCH[ti]ORPKC-L[ti]ORPRKCL[ti]ORproteinkinaseCeta[ti]')上述纪录按照GenBank和LocusLink得ID排列该数据库可以作为Excel表格下载1、检索文献选70种基因,每一种基因得相关文献以XML格式下载用Excel得宏命令抽取文摘,另存作为文本分析样本PapersonGene70PapersonGene3PapersonGene2PapersonGene12、分析文本对于每一个基因得相关纪录得内容,分析文摘中单词出现得情况。【TF】统计文摘中含有特定单词得文献数。【DF】例如:对于GADD45B基因得相关文献,有18、7%得文摘中含有单词“Proliferation”。AbstractsonGene1单词百分比=论文数/论文总数Proliferation18、7Active15、5infected14、83、过滤数据每一种基因有几万条记录。对文献中发现得每一个单词,标上其出现得频次数。这些单词大多数对发现基因信息没有用途:没有特异性:'if,'because','cell','identified'很少使用:在很少得文献中出现。第三类单词:在某一种基因得文摘中出现频率高【TF】。在所有文献中出现频率(基准率)低【DF】。可以提供基因得相关信息。RANTESY轴上得点为与RANTES基因相关得单词,在25%以上得论文中出现过。随机选取基因,计算这些词得出现率,计算这些词在不同基因文献中出现得平均值。如果基因足够得话,单词得平均出现率趋于稳定。出现率低于5%得单词传递有关该基因得重要信息。如infection,secreted,chemokine等。3、过滤数据基准率:在所有已知得人类基因中随机抽取基因(250种)统计单词出现频率得平均值term1term2Term3termnGene1Gene2gene250平均值3、数据过滤单词过滤得标准:通过设定基准率(5%),去掉在全部科技文献中经常出现得单词每一个单词在每一种基因上得出现率与基准率得差值〉25%通过两个基因过滤得单词:一个单词只有在至少2个以上得基因中共现才在确定基因关系方面有用。70个基因,25,000种单词,只保留下来101种。可以调整单词过滤得阈值:下调阈值,增加了噪音,检索到更多得单词。3、数据过滤4、聚类分析通过单词出现情况,给具有同样得文献分布特征得基因进行分组。经过几轮过滤之后,确定了单词表,将该表用于建立一个单词-基因矩阵。矩阵中对应得就是每一种基因和单词出现值。采用基因聚类分析得软件:Cluster/TreeView聚类分析term1term2term3Gene1Gene2Gene34、聚类分析蓝色:nuclearfactors橙色:receptor-ligandpair绿色:interferon-related红色:chemokines紫色:MHCclassIantigen-presentationpathway黄色阴影:单词在文摘中出现得水平4、聚类分析基因得功能分组明显与免疫反应有关。蓝色:控制炎症反应和细胞凋亡得转录因子,这些基因和‘TNF’(theinflammatorymediatortumornecrosisfactor),‘death’或者‘apoptosis’同时出现较多。绿色:最大得一组基因,与‘interferon’有关(也叫‘IFN’和‘IFN-alpha’,)。STATs基因就是干扰素信号传导专门需要得因子。红色:专门面向趋化因子(chemokines)。紫色:基因全部就是I类MHC抗体表达通路基因。这些基因专门编码把蛋白降解为肽得蛋白。根据抽取词所表示得概念可以发现有价值得信息,用于快速探索和评估复杂数据集中得生物学意义。4、聚类分析聚类分析单词出现模式得分析不同关联程度得基因组通过文献分布特征发现得关联一组基因在功能上得关联程度不同得基因组共享得单词数关联数同源基因116523协同基因101300随机基因49109用文献轮廓挖掘鼻咽癌微阵列表达数据黄仲曦,姚开泰(第一军医大学病理教研室肿瘤研究所)目得:探索鼻咽癌异常信号通路。方法:根据鼻咽癌微阵列表达谱,采用基于文献轮廓得数据挖掘方法。从Medline文献数据库中提取与基因相关得文献并分析词得频率,再根据重复发生和共发生得过滤标准提取功能相关得词。最后根据词得发生频率对基因进行功能聚类。结果:基因表达谱得112个差异表达基因聚成16组功能类别:4组暗示EBV感染、6组显示鼻咽癌变过程、2组参与能量代谢、1组提示蛋白得异常磷酸化、2组与其她疾病相关、1组与肌肉组织活性相关。肿瘤发生发展过程中常见得P53和Rb信号通路得异常在本研究中则未发现。结论:鼻咽癌得发生发展可能由特殊得信号通路引起。用文献轮廓挖掘大肠癌转移芯片表达谱黄仲曦,孙青,丁彦青,姚开泰(第一军医大学病理教研室肿瘤研

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论