生物医学文本挖掘及其应用

上传人：s*** IP属地：上海上传时间：2021-07-08 格式：PPTX 页数：121 大小：5.05MB 积分：20 举报 版权申诉

已阅读5页，还剩116页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、目的介绍生物信息学文本挖掘工具文本挖掘不再是信息专业的领域 2021-7-8 例子：二者关系进行性多灶性白质脑病（进行性多灶性白质脑病（progressive multifocal leukoencephalopathy，PML）抗体抗体antibodies Monoclonal antibodies，efalizumab（依法珠单克隆抗体）自然语言处理让计算机替我们看文献吧！比较难：计算机需要专门的知识才能读懂文本。自然语言处理（Natural Language Processing ， NLP）：专门训练计算机掌握这种知识的学科。生物医学文本挖掘（Biomedica

2、l text mining ）是一个专门处理生物学、医学和化学文本的分支学科。也叫BioNLP 有些人把NLP当做text mining的同义词。 4 Biomedical text 生物医学文本的格式多种多样：病历科研论文序列注释公共健康指南文本的内容多样化，如习惯用语临床有临床上的行话实验室有自己对蛋白的命名方式这种差异造成了文本挖掘应用往往面向特定类型的文本特定类型的文本。尤其是对Medline文摘记录的分析。易获取免费基本概念（1）术语（术语（Term）：专门领域里的名称。术语集（术语集（terminology）：术语的集合。生物医学文本中到处是术语，

3、是医学知识的基本构件。如各种细胞的名称，蛋白质、医学设备、疾病、基因突变、化学物质名、蛋白质域的名称。名称如此重要，需要在文本中识别之，这个工作称为生物医学文献中的命名体识别命名体识别（NER,Named Entity Recognition ）。基本概念（2）尽管术语的定义似乎很明确，但是很难精确定义。 early progressive multifocal leukoencephalopathy Refer to early progressive multifocal leukoencephalopathy progressive multifocal leukoen

4、cephalopathy multifocal leukoencephalopathy Leukoencephalopathy 基本概念（3） Terminology:手工构建的，因此是受控的。 HUGO：基因术语集 ICD：国际疾病分类法。 Gene Ontology：基因本体。不仅仅是术语列表，还包括：术语表+同义词=thesaurus 术语表+术语之间的关系=taxonomies, ontology 一旦一段文本与其中一个词表对应上，就和其他资源建立起联系了。 8 人工标引手工匹配 Medline abstracts Medical Subject Headings (MeSH)

5、 Leukoencephalopathy,prog ressive multifocal 9 10 gene normalization 自动匹配： recognizing names of genes Medline abstracts mapping them to their corresponding gene identifiers (e.g., Entrez Gene ID) 2021-7-8 HGNC database of human gene names HUGO Gene Nomenclature Committee / 202

6、1-7-8 网上在线检索的基因名称信息 13 2021-7-8 下载的基因名称信息 2021-7-8 NER的原理文本（PubMed Abstracts）软件名称（基因名，蛋白质名）词表词表之间的联系词表太多，又创建了词表，把术语集匹配起来，词表之词表，超级词表。meta BioThesaurus：多个词表中蛋白质的同义词 Unified Medical Language System(UMLS)：一体化医学语言系统，120多个词表，4百万个术语。 17 /pirwww/iprolink/biothesaurus.shtml 2

7、021-7-8 2021-7-8 2021-7-8 术语识别工具 Whatizit：识别多种术语，通过网页。 Abner：单机版，识别5种术语：蛋白、DNA、 RNA、细胞株、细胞类型。更专指的术语识别工具： PepBank ：用于肽类 LSAT：用于alternative transcripts 提高 PubMed检索效果：semedico , novo|seek GoPubMed/GoGene 23 http:/www.ebi.ac.uk/webservices/whatizit/info. jsf 24 /bsettles/abner/ A

8、（Whatizit）：蛋白-蓝色，疾病-深红，基因本体 -浅红，化学物质-深红，物种-红色 B（ABNER）：蛋白和细胞株 C（BIOCreAtIvE metaserver ） 26 发现关系识别术语之后，下一步自然是寻找术语之间的关系。发现关系的最简单途径就是共现共现：在同一段文字中同时出现的两个术语可能有关联。例如，某种蛋白质与一种疾病总是在同一文摘中出现，有理由假设该蛋白与疾病的某个方面有关。共现的次数越多，越有意义。可以定量排序，通过统计处理排除偶然的关联。 2021-7-8 关联度假设有t1和t2两个词共现，最简单的信度指标就是含有这两个词的文章数c（t1t2）

9、，但是要标准化，去掉两个词各自出现频次对共现次数的影响。点间互信息 p为文章数除以文章总数。 2021-7-8 关系抽取：共现 GoDisease：/ 输入leukoencephalopathy, progressive multifocalmh 2021-7-8 返回结果：所有提及PML的文摘中的基因。出现次数越多的基因，越可能与PML有关联。如果某基因在PML中不成比例地高于其他疾病，则该基因可能与PML有特殊关系。 2021-7-8 关系抽取：确切关系明确描述的关系：比共现更好的证据。例如： We describe a PML in a

10、 67-year-old woman with a destructive polyarthritis（多关节炎） associated with anti- JO1 antibodies treated with corticosteroids PML与抗-JO1抗体有明确关系。将这种关系简化为三元体：两个名词+一个动词。 PML is associated with anti-JO1 antibodies 识别动词：词性标注：part-of-speech (POS) tagger 三元体表述因其简单而功能强大，但是忽略了文章中的重要的细节。比如有些证据是来自于临床病例报告。 2021

11、-7-8 Semantic Knowledge Representation SKR：是基于 UMLS进行自然语言处理、提取文献中概念的系列在线工具。 2021-7-8 / 其中MetaMap是SKR系统的核心组件。MMTx是完成 MetaMap功能的Java工具包，它进行的分析是语义层次上的分析。 2021-7-8 MetaMap工作原理工作原理 http:/ http:/ 2021-7-8 MetaMap工作原理：工作原理：切分 “ocular complication of myasthenia gravis” （重症肌无力的眼部并发

12、症） “ocular complication”和“of myasthenia gravis” “ocular complication”分为“mod （ocular），head（complication） 2021-7-8 MetaMap工作原理：工作原理：产生变形体 Ocularadj，0=” Eyenoun,2=”s”同义词 Eyesnoun,3=”si”同义词的复数 Opticadj,4=”ss”同义词的同义词 Ophthalmicadj,4=”ss”同义词的同义词 Ophthalmianoun,7=”ssd”同义词的同义词的变形 Oculusnoun,3=”d”变形 Oculino

13、un,4=”di”同义词的复数 2021-7-8 2021-7-8 检索候选词及候选词的评价检索超级词表，检索到包含有至少一个变形体的候选字串集合。计算出与输入的短语词相匹配的候选词，然后用4种指标的加权平均组成的语言学评价函数，计算输入短语与候选词之间的匹配程度：中心度：即包含中心词；变形情况：距离倒数的平均值；覆盖面和内敛度：测量候选词与文本的匹配程度和有多少个片段按照匹配程度排列这些候选词。 2021-7-8 2021-7-8 关系抽取：PPI protein-protein interactions (PPI)：文本挖掘的重头戏利用三元体表达，构建PPI网络，节点是

14、蛋白质，动词为边。分析文本挖掘出来的PPI网络时，应当注意阅读和理解支撑信息。例如，蛋白质间相互作用可以是直接的，也可以是间接的，取决于动词直接动词有to bind, to stabilize, to phosphorylate 间接的动词有to induce, to trigger, to block。文献中描述的蛋白质相互作用的不同性质部分地反映了所采用的实验方法和相互作用本身的性质。常用的捕获文本变异的方法就是把各种表达方式辨认出来，并写下捕获这些变异的规则规则。捕获磷酸化的模式，应当依次含有：一种酶的名字磷酸化的动词一种基质的名字 2021-7-8 发现关系的工具

15、 FACTA：Medline文本中概念共现情况。 MedGene 和BioGene：利用共现发现基因优先级别。 Endeavour 和G2D 利用文本和其他数据源分析基因优先级别。 PolySearch利用启发式加权技术，给不同的共现不同的权重。 Anni使用文本轮廓测量术语之间的关系。 iHOP：挖掘PPI最流行的工具。 RLIMS-P 利用语言模式发现磷酸化过程中的激酶、基质和磷酸。 E3Miner发现泛素化，包括上下文信息。 2021-7-8 http:/text0.mib.man.ac.uk/software/f acta/main.html 2021-7-8 GoDisease

16、+iHOP+Cytoscape 2021-7-8 发现：Discovery Besides finding relationships, text miners are also interested in discovering relationships Swanson：undiscovered public knowledge 【见例子1】 2021-7-8 文本挖掘的应用实例 Swanson关联研究及其工具 Arrowsmith 的使用 Bitola的使用用文献轮廓挖掘微阵列表达数据 Damien Chaussabel MedlineR 2021-7-8 背景与意义发表文献研究深

17、入知识分裂 fragmentation of scientific knowledge 文献量穷经皓首并老死不相往来穷经皓首并老死不相往来 2021-7-8 Don R. Swanson的研究跨学科间一定存在着潜在的未被发现的关联文献间隐性的关联如何发现隐性关联？寻找非相关互补性文献 text-based informatics literature-based discovery 2021-7-8 Don R. Swanson的研究两种互补的文献：一类文献（AB）：摄入A可能导致某种生理改变B 另一类文献（BC）：B作用于某种疾病C 即A作用于C。两种非相关的文献：两种文

18、献从没有或很少被共同引用并且也不相互引用。互补性和非相关性描述了在公开信息中存在着未被发现的有价值信息的模型结构。 2021-7-8 Medline文献集合 Don R. Swanson的研究潜在的联系雷诺氏病雷诺氏病文献文献食用鱼油食用鱼油文献文献血液粘稠度红细胞脆性血液粘稠度红细胞脆性 2021-7-8 闭合式的知识发现 2021-7-8 2021-7-8 ARROWSMITH 3.0 2021-7-8 4822 2021-7-8 2021-7-8 2021-7-8 2021-7-8 Asthma fam

19、ous？ 2021-7-8 哮喘名人 2021-7-8 SYK：脾酪氨酸激酶 2021-7-8 SYK：脾酪氨酸激酶过敏性鼻炎过敏性鼻炎 Syk inhibitors as treatment for allergic rhinitis. 2008 【SYK抑制剂治疗过敏性鼻炎】 An intranasal Syk-kinase inhibitor (R112) improves the symptoms of seasonal allergic rhinitis in a park environment. 2005 【鼻内SYK抑制剂（R112）改善公园里过敏性鼻炎症状】痛风痛风 C

20、rystal-induced neutrophil activation. IX. Syk-dependent activation of class Ia phosphatidylinositol 3-kinase. 2007 【晶体诱发的中性粒细胞活化：Ia类磷脂酰肌醇3激酶的SYK依赖性活化】 Crystal-induced neutrophil activation. VII. Involvement of Syk in the responses to monosodium urate crystals. 2001 【晶体诱发的中性粒细胞活化：SYK参与对尿酸钠晶体反应的程度】

21、2021-7-8 过敏性鼻炎SYK痛风过敏性鼻炎痛风抑制剂治疗中性粒细胞活化晶体诱发 PI3KSYK 2021-7-8 2021-7-8 B：基因和分子序列等语义类型 2021-7-8 TOLL receptor 2021-7-8 可作为生物武器的潜在病毒能够成为生物武器：致病性，传播性。同时涉及到病毒这两个特性的文章却特别少。 A：病毒毒力遗传方面（virulence- genetic） C：病毒疾病传播力病毒的昆虫媒介传播（insect vectors）空气传播（air）在空气中的稳定性（stability of viruses in air）通过与A和C有共同联系

22、B找出更多符合条件的病毒。将得到的文献经过一些系列的处理，Arrowsmith列出了三个有意义的B-LIST（病毒的集合），通过进一步的统计学分析和查阅文献，最终找出相对有意义的病毒（B） 2021-7-8 发现科研机构间潜在的合作方向潜在合作方向美国斯坦福大学哥伦比亚大学医学信息学研究领域发现科研机构合作与交流的题目结果：更好地体现：相似点（可以合作之处）和不同点（可以相互交流、学习之处）内容详细、明确：能体现出研究所使用的具体方法和侧重点 2021-7-8 开放式的知识发现 2021-7-8 BITOLA http:/www.mf.uni-lj.si/bitola

23、/ 输入单个的概念（疾病A），找到该概念的第一层相关概念并加以归类（药物B）。从第一层相关概念（药物B）出发，找到它们的相关概念，并加以归类（基因C）。检验基因和疾病是否有关联。如果没有，该基因与疾病有潜在的联系而且并没有文献报道。提示：与疾病、生理学反应或者其他表型相关的新基因、药物或者神经科学。 2021-7-8 BITOLA 2021-7-8 2021-7-8 2021-7-8 syk 2021-7-8 2021-7-8 2021-7-8 2021-7-8 2021-7-8 内容 Swanson关联研究及其工具 Arrowsmith 的使用 Bitola的使用用文献轮廓挖

24、掘微阵列表达数据 Damien Chaussabel MedlineR 2021-7-8 运用文献轮廓挖掘微阵列表达数据 Mining microarray expression data by literature profiling Damien Chaussabel MedlineR 2021-7-8 Damien Chaussabel Alan Sher Immunobiology Section, Laboratory of Parasitic Diseases, National Institute of Allergy and Infectious Diseases, Nati

25、onal Institutes of Health, Bethesda, MD 20892, USA Genome Biology 2002, 3(10):RESEARCH0055. 2021-7-8 目标建立一种挖掘技术该技术以对文献轮廓literature profiling的分析为基础文献轮廓：对于某一个主题（如某基因）而言，有相关文献集合对于该基因的文献集合，分析某些单词在文摘中出现的频次。 2021-7-8 文献轮廓基因B 基因C 基因A相关文献相关文献主题词1 频次主题词2 频次主题词3 频次主题词n 频次 2021-7-8 研究步骤 1. 检索文献 2.

26、分析文本 3. 过滤数据 4. 聚类分析 2021-7-8 1.检索文献从基因开始，分别找到与各种基因相关的论文标题中含有基因名字的论文。人类基因命名委员会(Human Gene Nomenclature Committee, HGNC)：官方名称、缩写、别名 / 2021-7-8 2021-7-8 1.检索文献建立数据库包括HGNC定义的10，500多种已知的人类基因用PubMed查询格式的URL，例如： protein kinase C eta /htbin- post/Ent

27、rez/query?db=0&form=1&term=PRKCH+%5Bti%5D+OR+PKC- L+%5Bti%5D+OR+PRKCL+%5Bti%5D+OR+protein%20kinase%20C%20eta+%5B ti%5D PRKCH ti OR PKC-L ti OR PRKCL ti OR protein kinase C eta ti) 上述纪录按照GenBank和Locus Link的ID排列该数据库可以作为Excel表格下载 2021-7-8 1.检索文献选70种基因，每一种基因的相关文献以XML格式下载用Excel的宏命令抽取文摘，另存作为文本分析样本 Pap

28、ers on Gene 70 Papers on Gene 3 Papers on Gene 2 Papers on Gene 1 2021-7-8 2.分析文本对于每一个基因的相关纪录的内容，分析文摘中单词出现的情况。【TF】统计文摘中含有特定单词的文献数。【DF】例如：对于GADD45B基因的相关文献，有18.7% 的文摘中含有单词“Proliferation”。 Abstracts on Gene 1 单词百分比=论文数/ 论文总数 Proliferation18.7 Active15.5 infected14.8 2021-7-8 3.过滤数据每一种基因有几万条记录。对文献中

29、发现的每一个单词，标上其出现的频次数。这些单词大多数对发现基因信息没有用途：没有特异性：if, because, cell, identified 很少使用：在很少的文献中出现。第三类单词：在某一种基因的文摘中出现频率高【TF】。在所有文献中出现频率（基准率）低【DF】。可以提供基因的相关信息。 2021-7-8 RANTES Y轴上的点为与RANTES基因相关的单词，在25%以上的论文中出现过。随机选取基因，计算这些词的出现率，计算这些词在不同基因文献中出现的平均值。如果基因足够的话，单词的平均出现率趋于稳定。出现率低于5%的单词传递有关该基因的重要信息。如infect

30、ion, secreted, chemokine 等。 2021-7-8 3.过滤数据基准率：在所有已知的人类基因中随机抽取基因（250种）统计单词出现频率的平均值 term1term2Term3termn Gene1 Gene2 gene250 平均值 2021-7-8 3.数据过滤单词过滤的标准：通过设定基准率（5%），去掉在全部科技文献中经常出现的单词每一个单词在每一种基因上的出现率与基准率的差值 25% 通过两个基因过滤的单词：一个单词只有在至少2个以上的基因中共现才在确定基因关系方面有用。 70个基因，25，000种单词，只保留下来101种。可以调整单词过滤的阈值：

31、下调阈值，增加了噪音，检索到更多的单词。 2021-7-8 3.数据过滤 2021-7-8 4.聚类分析通过单词出现情况，给具有同样的文献分布特征的基因进行分组。经过几轮过滤之后，确定了单词表，将该表用于建立一个单词-基因矩阵。矩阵中对应的是每一种基因和单词出现值。采用基因聚类分析的软件：Cluster/TreeView 2021-7-8 聚类分析 term1term2term3 Gene1 Gene2 Gene3 2021-7-8 4.聚类分析蓝色：nuclear factors 橙色：receptor-ligand pair 绿色：interferon-related 红色

32、：chemokines 紫色：MHC class I antigen-presentation pathway 黄色阴影：单词在文摘中出现的水平 2021-7-8 4.聚类分析基因的功能分组明显与免疫反应有关。蓝色：控制炎症反应和细胞凋亡的转录因子，这些基因和 TNF (the inflammatory mediator tumor necrosis factor), death 或者 apoptosis同时出现较多。绿色：最大的一组基因，与interferon 有关(也叫 IFN和 IFN-alpha,)。STATs基因是干扰素信号传导专门需要的因子。红色：专门面向趋化因子（ch

33、emokines）。紫色：基因全部是I类MHC抗体表达通路基因。这些基因专门编码把蛋白降解为肽的蛋白。根据抽取词所表示的概念可以发现有价值的信息，用于快速探索和评估复杂数据集中的生物学意义。 2021-7-8 4.聚类分析 2021-7-8 聚类分析 2021-7-8 单词出现模式的分析 2021-7-8 不同关联程度的基因组通过文献分布特征发现的关联一组基因在功能上的关联程度不同的基因组共享的单词数关联数同源基因116523 协同基因101300 随机基因49109 2021-7-8 用文献轮廓挖掘鼻咽癌微阵列表达数据黄仲曦，姚开泰(第一军医大学病理教研室肿瘤研究所) 目的

34、：探索鼻咽癌异常信号通路。方法：根据鼻咽癌微阵列表达谱，采用基于文献轮廓的数据挖掘方法。从Medline文献数据库中提取与基因相关的文献并分析词的频率，再根据重复发生和共发生的过滤标准提取功能相关的词。最后根据词的发生频率对基因进行功能聚类。结果：基因表达谱的112个差异表达基因聚成16组功能类别： 4组暗示EBV感染、6组显示鼻咽癌变过程、2组参与能量代谢、 1组提示蛋白的异常磷酸化、2组与其它疾病相关、1组与肌肉组织活性相关。肿瘤发生发展过程中常见的P53和Rb信号通路的异常在本研究中则未发现。结论：鼻咽癌的发生发展可能由特殊的信号通路引起。 2021-7-8 用文献轮廓挖

35、掘大肠癌转移芯片表达谱黄仲曦，孙青，丁彦青，姚开泰(第一军医大学病理教研室肿瘤研究所) 目的：寻找新的大肠癌转移相关基因。方法：根据大肠癌转移芯片的表达谱，采用基于文献轮廓的数据挖掘方法，从Medline文献数据库中提取基因的相关文献并分析词的频率，再基于重复发生和共发生的过滤标准提取功能相关的词，最后基于词的发生频率对基因进行功能聚类，进一步结合文献及已有的分子生物学检测结果进行分析。结果：发现两个新的可能与大肠癌转移相关的基因TlAM1和 NM23H1。 2021-7-8 GenCLIP 2021-7-8 2021-7-8 文本挖掘的过程命名体识别关系抽取发现知识掌

36、握原理，会用软件，你就可以探索了！欢迎你的加入！ 2021-7-8 R统计分析软件统计分析软件 SPSS简单易用，而SAS功能强大，更是被统计专业人员乐于采用，尤其是在国外广泛应用。既定的模块，不能满足需要。需要人们自己用编程来实现新的方法，R就提供了这样一个很好的平台。 R是由Ross Ihaka和Robert Gentleman所编写的一个专门用于统计分析的软件。完全免费，可以从网络上任意下载，不存在版权问题。 R的源代码公开，使得很多统计爱好者可以不断增强R的功能。在一般统计分析功能上，R并不逊于其它商业统计软件，例如SPSS、 SAS等，并且提供一个强大灵活的编程平台。

37、 2021-7-8 2021-7-8 MedlineR 用于Medline文献数据挖掘的开放式的R资源库用于医学文献数据挖掘的手写开放性R语言资源库-MedlineR。 MedlineR库包括： 1. 在NCBI Pubmed数据库查找医学文献的程序 2. 构建共现矩阵的程序 3. 检索词的网络拓扑结构的可视化程序。这个库的开放特性使得读者在R统计程序语言中免费扩展。只用10行代码来分析主题词的相关性。对于生物信息学家和统计学家来说，MedlineR是建立更加复杂的文献数据挖掘应用的基础。 2021-7-8 MedlineR 为生物医学家和统计学家建立的文献数据挖掘工具的免费资源库MedlineR的源代码可以从/pub/medlineR中获得，还提供了个性

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

生物医学文本挖掘及其应用

文档简介

温馨提示

最新文档

评论

生物医学文本挖掘及其应用

文档简介

温馨提示

最新文档

评论

相关文档