生物医学文本挖掘及其应用_第1页
生物医学文本挖掘及其应用_第2页
生物医学文本挖掘及其应用_第3页
生物医学文本挖掘及其应用_第4页
生物医学文本挖掘及其应用_第5页
已阅读5页,还剩116页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、目的 介绍生物信息学文本挖掘工具 文本挖掘不再是信息专业的领域 2021-7-8 例子:二者关系 进行性多灶性白质脑病(进行性多灶性白质脑病(progressive multifocal leukoencephalopathy,PML) 抗体抗体antibodies Monoclonal antibodies,efalizumab(依法珠单克隆 抗体) 自然语言处理 让计算机替我们看文献吧! 比较难: 计算机需要专门的知识才能读懂文本。 自然语言处理(Natural Language Processing , NLP):专门训练计算机掌握这种知识的学 科。 生物医学文本挖掘(Biomedica

2、l text mining ) 是一个专门处理生物学、医学和化学文本 的分支学科。也叫BioNLP 有些人把NLP当做text mining的同义词。 4 Biomedical text 生物医学文本的格式多种多样: 病历 科研论文 序列注释 公共健康指南 文本的内容多样化,如习惯用语 临床有临床上的行话 实验室有自己对蛋白的命名方式 这种差异造成了文本挖掘应用往往面向特定类型的文本特定类型的文本。 尤其是对Medline文摘记录的分析。 易获取 免费 基本概念(1) 术语(术语(Term):专门领域里的名称。 术语集(术语集(terminology):术语的集合。 生物医学文本中到处是术语,

3、是医学知识的基 本构件。 如各种细胞的名称,蛋白质、医学设备、疾病、 基因突变、化学物质名、蛋白质域的名称。 名称如此重要, 需要在文本中识别之,这 个工作称为生物医学文献中的命名体识别命名体识别 (NER,Named Entity Recognition )。 基本概念(2) 尽管术语的定义似乎很明确,但是很难精确定义。 early progressive multifocal leukoencephalopathy Refer to early progressive multifocal leukoencephalopathy progressive multifocal leukoen

4、cephalopathy multifocal leukoencephalopathy Leukoencephalopathy 基本概念(3) Terminology:手工构建的,因此是受控的。 HUGO:基因术语集 ICD:国际疾病分类法。 Gene Ontology:基因本体。 不仅仅是术语列表,还包括: 术语表+同义词=thesaurus 术语表+术语之间的关系=taxonomies, ontology 一旦一段文本与其中一个词表对应上,就 和其他资源建立起联系了。 8 人工标引 手工匹配 Medline abstracts Medical Subject Headings (MeSH)

5、 Leukoencephalopathy,prog ressive multifocal 9 10 gene normalization 自动匹配: recognizing names of genes Medline abstracts mapping them to their corresponding gene identifiers (e.g., Entrez Gene ID) 2021-7-8 HGNC database of human gene names HUGO Gene Nomenclature Committee / 202

6、1-7-8 网上在线检索的基因名称信息 13 2021-7-8 下载的基因名称信息 2021-7-8 NER的原理 文本(PubMed Abstracts) 软件 名称(基因名,蛋白质名) 词表 词表之间的联系 词表太多,又创建了词表,把术语集匹配 起来,词表之词表,超级词表。meta BioThesaurus:多个词表中蛋白质的同义词 Unified Medical Language System(UMLS):一 体化医学语言系统,120多个词表,4百万 个术语。 17 /pirwww/iprolink/biothesaurus.shtml 2

7、021-7-8 2021-7-8 2021-7-8 术语识别工具 Whatizit:识别多种术语,通过网页。 Abner:单机版,识别5种术语:蛋白、DNA、 RNA、细胞株、细胞类型。 更专指的术语识别工具: PepBank :用于肽类 LSAT:用于alternative transcripts 提高 PubMed检索效果:semedico , novo|seek GoPubMed/GoGene 23 http:/www.ebi.ac.uk/webservices/whatizit/info. jsf 24 /bsettles/abner/ A

8、(Whatizit):蛋白-蓝色,疾病-深红,基因本体 -浅红,化学物质-深红,物种-红色 B(ABNER):蛋白和细胞株 C(BIOCreAtIvE metaserver ) 26 发现关系 识别术语之后,下一步自然是寻找术语之 间的关系。 发现关系的最简单途径就是共现共现: 在同一段文字中同时出现的两个术语可能有关 联。 例如,某种蛋白质与一种疾病总是在同一文摘中出现, 有理由假设该蛋白与疾病的某个方面有关。 共现的次数越多,越有意义。可以定量排序,通过统 计处理排除偶然的关联。 2021-7-8 关联度 假设有t1和t2两个词共现,最简单的信度指标就 是含有这两个词的文章数c(t1t2)

9、,但是要标准 化,去掉两个词各自出现频次对共现次数的影响。 点间互信息 p为文章数除以文章总数。 2021-7-8 关系抽取:共现 GoDisease:/ 输入leukoencephalopathy, progressive multifocalmh 2021-7-8 返回结果: 所有提及PML的文摘中的基因。 出现次数越多的基因,越可能与PML有关联。如果某基因在PML中不成比例地 高于其他疾病,则该基因可能与PML有特殊关系。 2021-7-8 关系抽取:确切关系 明确描述的关系:比共现更好的证据。 例如: We describe a PML in a

10、 67-year-old woman with a destructive polyarthritis(多关节炎) associated with anti- JO1 antibodies treated with corticosteroids PML与抗-JO1抗体有明确关系。 将这种关系简化为三元体:两个名词+一个动词。 PML is associated with anti-JO1 antibodies 识别动词: 词性标注:part-of-speech (POS) tagger 三元体表述因其简单而功能强大,但是忽略了文章中的重 要的细节。比如有些证据是来自于临床病例报告。 2021

11、-7-8 Semantic Knowledge Representation SKR:是基于 UMLS进行自然 语言处理、提 取文献中概念 的系列在线工 具。 2021-7-8 / 其中MetaMap是SKR系统的核心组件。MMTx是完成 MetaMap功能的Java工具包,它进行的分析是语义层次上 的分析。 2021-7-8 MetaMap工作原理工作原理 http:/ http:/ 2021-7-8 MetaMap工作原理:工作原理:切分 “ocular complication of myasthenia gravis” (重症肌无力的眼部并发

12、症) “ocular complication”和“of myasthenia gravis” “ocular complication”分为“mod (ocular),head(complication) 2021-7-8 MetaMap工作原理:工作原理:产生变形体 Ocularadj,0=” Eyenoun,2=”s”同义词 Eyesnoun,3=”si”同义词的复数 Opticadj,4=”ss”同义词的同义词 Ophthalmicadj,4=”ss”同义词的同义词 Ophthalmianoun,7=”ssd”同义词的同义词的变 形 Oculusnoun,3=”d”变形 Oculino

13、un,4=”di”同义词的复数 2021-7-8 2021-7-8 检索候选词及候选词的评价 检索超级词表,检索到包含有至少一个变形体的候选字串 集合。 计算出与输入的短语词相匹配的候选词,然后用4种指标 的加权平均组成的语言学评价函数,计算输入短语与候选 词之间的匹配程度: 中心度:即包含中心词; 变形情况:距离倒数的平均值; 覆盖面和内敛度:测量候选词与文本的匹配程度和有多少个片段 按照匹配程度排列这些候选词。 2021-7-8 2021-7-8 关系抽取:PPI protein-protein interactions (PPI):文本挖掘的重头戏 利用三元体表达,构建PPI网络,节点是

14、蛋白质,动词为边。 分析文本挖掘出来的PPI网络时,应当注意阅读和理解支撑信息。 例如,蛋白质间相互作用可以是直接的,也可以是间接的,取决于动词 直接动词有to bind, to stabilize, to phosphorylate 间接的动词有to induce, to trigger, to block。 文献中描述的蛋白质相互作用的不同性质部分地反映了所采用的实验 方法和相互作用本身的性质。 常用的捕获文本变异的方法就是把各种表达方式辨认出来,并写下捕 获这些变异的规则规则。 捕获磷酸化的模式,应当依次含有: 一种酶的名字 磷酸化的动词 一种基质的名字 2021-7-8 发现关系的工具

15、 FACTA:Medline文本中概念共现情况。 MedGene 和BioGene:利用共现发现基因优先级别。 Endeavour 和G2D 利用文本和其他数据源分析基因优先级 别。 PolySearch利用启发式加权技术,给不同的共现不同的权 重。 Anni使用文本轮廓测量术语之间的关系。 iHOP:挖掘PPI最流行的工具。 RLIMS-P 利用语言模式发现磷酸化过程中的激酶、基质和 磷酸。 E3Miner发现泛素化,包括上下文信息。 2021-7-8 http:/text0.mib.man.ac.uk/software/f acta/main.html 2021-7-8 GoDisease

16、+iHOP+Cytoscape 2021-7-8 发现:Discovery Besides finding relationships, text miners are also interested in discovering relationships Swanson:undiscovered public knowledge 【见例子1】 2021-7-8 文本挖掘的应用实例 Swanson关联研究及其工具 Arrowsmith 的使用 Bitola的使用 用文献轮廓挖掘微阵列表达数据 Damien Chaussabel MedlineR 2021-7-8 背景与意义 发表文献 研究深

17、入 知识分裂 fragmentation of scientific knowledge 文献量 穷经皓首并老死不相往来穷经皓首并老死不相往来 2021-7-8 Don R. Swanson的研究 跨学科间一定存在着潜在的未被发现的关联 文献间隐性的关联 如何发现隐性关联? 寻找非相关互补性文献 text-based informatics literature-based discovery 2021-7-8 Don R. Swanson的研究 两种互补的文献: 一类文献(AB):摄入A可能导致某种生理改变B 另一类文献(BC):B作用于某种疾病C 即A作用于C。 两种非相关的文献: 两种文

18、献从没有或很少被共同引用并且也不相互引 用。 互补性和非相关性描述了在公开信息中存在着 未被发现的有价值信息的模型结构。 2021-7-8 Medline文献集合 Don R. Swanson的研究 潜在的联系 雷诺氏病雷诺氏病 文献文献 食用鱼油食用鱼油 文献文献 血液粘稠度 红细胞脆性 血液粘稠度 红细胞脆性 2021-7-8 闭合式的知识发现 2021-7-8 2021-7-8 ARROWSMITH 3.0 2021-7-8 4822 2021-7-8 2021-7-8 2021-7-8 2021-7-8 Asthma fam

19、ous? 2021-7-8 哮喘名人 2021-7-8 SYK:脾酪氨酸激酶 2021-7-8 SYK:脾酪氨酸激酶 过敏性鼻炎过敏性鼻炎 Syk inhibitors as treatment for allergic rhinitis. 2008 【SYK抑制剂治疗过敏性鼻炎】 An intranasal Syk-kinase inhibitor (R112) improves the symptoms of seasonal allergic rhinitis in a park environment. 2005 【鼻内SYK抑制剂(R112)改善公 园里过敏性鼻炎症状】 痛风痛风 C

20、rystal-induced neutrophil activation. IX. Syk-dependent activation of class Ia phosphatidylinositol 3-kinase. 2007 【晶体诱发的中性粒细胞活化:Ia类磷 脂酰肌醇3激酶的SYK依赖性活化】 Crystal-induced neutrophil activation. VII. Involvement of Syk in the responses to monosodium urate crystals. 2001 【晶体诱发的中性粒细胞活化:SYK参与 对尿酸钠晶体反应的程度】

21、2021-7-8 过敏性鼻炎SYK痛风 过敏性鼻炎痛风 抑制剂 治疗 中性粒细胞活化 晶体 诱发 PI3KSYK 2021-7-8 2021-7-8 B:基因和分子序列等语义类型 2021-7-8 TOLL receptor 2021-7-8 可作为生物武器的潜在病毒 能够成为生物武器:致病性,传播性。同时涉及到病毒这两 个特性的文章却特别少。 A:病毒毒力遗传方面(virulence- genetic) C:病毒疾病传播力 病毒的昆虫媒介传播(insect vectors) 空气传播(air) 在空气中的稳定性(stability of viruses in air) 通过与A和C有共同联系

22、B找出更多符合条件的病毒。 将得到的文献经过一些系列的处理,Arrowsmith列出了三个 有意义的B-LIST(病毒的集合),通过进一步的统计学分析 和查阅文献,最终找出相对有意义的病毒(B) 2021-7-8 发现科研机构间潜在的合作方向 潜在合作方向 美国斯坦福大学 哥伦比亚大学 医学信息学研究领域 发现科研机构合作与交流的题目 结果: 更好地体现:相似点(可以合作之处)和不同点(可以 相互交流、学习之处) 内容详细、明确:能体现出研究所使用的具体方法和侧 重点 2021-7-8 开放式的知识发现 2021-7-8 BITOLA http:/www.mf.uni-lj.si/bitola

23、/ 输入单个的概念(疾病A),找到该概念的第一层相 关概念并加以归类(药物B)。 从第一层相关概念(药物B)出发,找到它们的相关 概念,并加以归类(基因C)。 检验基因和疾病是否有关联。如果没有,该基因与疾 病有潜在的联系而且并没有文献报道。 提示:与疾病、生理学反应或者其他表型相关的新基 因、药物或者神经科学。 2021-7-8 BITOLA 2021-7-8 2021-7-8 2021-7-8 syk 2021-7-8 2021-7-8 2021-7-8 2021-7-8 2021-7-8 内容 Swanson关联研究及其工具 Arrowsmith 的使用 Bitola的使用 用文献轮廓挖

24、掘微阵列表达数据 Damien Chaussabel MedlineR 2021-7-8 运用文献轮廓 挖掘微阵列表达数据 Mining microarray expression data by literature profiling Damien Chaussabel MedlineR 2021-7-8 Damien Chaussabel Alan Sher Immunobiology Section, Laboratory of Parasitic Diseases, National Institute of Allergy and Infectious Diseases, Nati

25、onal Institutes of Health, Bethesda, MD 20892, USA Genome Biology 2002, 3(10):RESEARCH0055. 2021-7-8 目标 建立一种挖掘技术 该技术以对文献轮廓literature profiling的分析 为基础 文献轮廓: 对于某一个主题(如某基因)而言,有相关文献 集合 对于该基因的文献集合,分析某些单词在文摘中 出现的频次。 2021-7-8 文献轮廓 基因B 基因C 基因A相关文献相关文献 主题词1 频次 主题词2 频次 主题词3 频次 主题词n 频次 2021-7-8 研究步骤 1. 检索文献 2.

26、 分析文本 3. 过滤数据 4. 聚类分析 2021-7-8 1.检索文献 从基因开始,分别找到与各种基因相关的论文 标题中含有基因名字的论文。 人类基因命名委员会(Human Gene Nomenclature Committee, HGNC):官方名称、缩写、别名 / 2021-7-8 2021-7-8 1.检索文献 建立数据库 包括HGNC定义的10,500多种已知的人类基因 用PubMed查询格式的URL,例如: protein kinase C eta /htbin- post/Ent

27、rez/query?db=0&form=1&term=PRKCH+%5Bti%5D+OR+PKC- L+%5Bti%5D+OR+PRKCL+%5Bti%5D+OR+protein%20kinase%20C%20eta+%5B ti%5D PRKCH ti OR PKC-L ti OR PRKCL ti OR protein kinase C eta ti) 上述纪录按照GenBank和Locus Link的ID排列 该数据库可以作为Excel表格下载 2021-7-8 1.检索文献 选70种基因,每一种基因的相关文献以XML格式下 载 用Excel的宏命令抽取文摘,另存作为文本分析样本 Pap

28、ers on Gene 70 Papers on Gene 3 Papers on Gene 2 Papers on Gene 1 2021-7-8 2.分析文本 对于每一个基因的相关纪录的内容,分析文 摘中单词出现的情况。【TF】 统计文摘中含有特定单词的文献数。【DF】 例如:对于GADD45B基因的相关文献,有18.7% 的文摘中含有单词“Proliferation”。 Abstracts on Gene 1 单词百分比=论文数/ 论文总数 Proliferation18.7 Active15.5 infected14.8 2021-7-8 3.过滤数据 每一种基因有几万条记录。对文献中

29、发现的 每一个单词,标上其出现的频次数。 这些单词大多数对发现基因信息没有用途: 没有特异性:if, because, cell, identified 很少使用:在很少的文献中出现。 第三类单词: 在某一种基因的文摘中出现频率高【TF】。 在所有文献中出现频率(基准率)低【DF】。 可以提供基因的相关信息。 2021-7-8 RANTES Y轴上的点为与RANTES基因相关的单词,在25%以上的论文中出现过。 随机选取基因,计算这些词的出现率,计算这些词在不同基因文献中出现的平均 值。 如果基因足够的话,单词的平均出现率趋于稳定。 出现率低于5%的单词传递有关该基因的重要信息。如infect

30、ion, secreted, chemokine 等。 2021-7-8 3.过滤数据 基准率: 在所有已知的人类基因中随机抽取基因(250种) 统计单词出现频率的平均值 term1term2Term3termn Gene1 Gene2 gene250 平均值 2021-7-8 3.数据过滤 单词过滤的标准: 通过设定基准率(5%),去掉在全部科技文献中经常出 现的单词 每一个单词在每一种基因上的出现率与基准率的差值 25% 通过两个基因过滤的单词:一个单词只有在至少2个以上 的基因中共现才在确定基因关系方面有用。 70个基因,25,000种单词,只保留下来101种。 可以调整单词过滤的阈值:

31、下调阈值,增加了噪音, 检索到更多的单词。 2021-7-8 3.数据过滤 2021-7-8 4.聚类分析 通过单词出现情况,给具有同样的文献分布 特征的基因进行分组。 经过几轮过滤之后,确定了单词表,将该表 用于建立一个单词-基因矩阵。矩阵中对应的 是每一种基因和单词出现值。 采用基因聚类分析的软件:Cluster/TreeView 2021-7-8 聚类分析 term1term2term3 Gene1 Gene2 Gene3 2021-7-8 4.聚类分析 蓝色:nuclear factors 橙色:receptor-ligand pair 绿色:interferon-related 红色

32、:chemokines 紫色:MHC class I antigen-presentation pathway 黄色阴影:单词 在文摘中出现的 水平 2021-7-8 4.聚类分析 基因的功能分组明显与免疫反应有关。 蓝色:控制炎症反应和细胞凋亡的转录因子,这些基因和 TNF (the inflammatory mediator tumor necrosis factor), death 或者 apoptosis同时出现较多。 绿色:最大的一组基因,与interferon 有关(也叫 IFN和 IFN-alpha,)。STATs基因是干扰素信号传导专门需要的因子。 红色:专门面向趋化因子(ch

33、emokines)。 紫色:基因全部是I类MHC抗体表达通路基因。这些基因专门 编码把蛋白降解为肽的蛋白。 根据抽取词所表示的概念可以发现有价值的信息,用 于快速探索和评估复杂数据集中的生物学意义。 2021-7-8 4.聚类分析 2021-7-8 聚类分析 2021-7-8 单词出现模式的分析 2021-7-8 不同关联程度的基因组 通过文献分布特征发现的关联 一组基因在功能上的关联程度 不同的基因组共享的单词数关联数 同源基因116523 协同基因101300 随机基因49109 2021-7-8 用文献轮廓挖掘鼻咽癌微阵列表达数据 黄仲曦,姚开泰(第一军医大学病理教研室肿瘤研究所) 目的

34、:探索鼻咽癌异常信号通路。 方法:根据鼻咽癌微阵列表达谱,采用基于文献轮廓的数据 挖掘方法。从Medline文献数据库中提取与基因相关的文献 并分析词的频率,再根据重复发生和共发生的过滤标准提取 功能相关的词。最后根据词的发生频率对基因进行功能聚类。 结果:基因表达谱的112个差异表达基因聚成16组功能类别: 4组暗示EBV感染、6组显示鼻咽癌变过程、2组参与能量代谢、 1组提示蛋白的异常磷酸化、2组与其它疾病相关、1组与肌 肉组织活性相关。肿瘤发生发展过程中常见的P53和Rb信号 通路的异常在本研究中则未发现。 结论:鼻咽癌的发生发展可能由特殊的信号通路引起。 2021-7-8 用文献轮廓挖

35、掘大肠癌转移芯片表达谱 黄仲曦,孙青,丁彦青,姚开泰(第一军医大学病理教研室 肿瘤研究所) 目的:寻找新的大肠癌转移相关基因。 方法:根据大肠癌转移芯片的表达谱,采用基于文献轮廓的 数据挖掘方法,从Medline文献数据库中提取基因的相关文 献并分析词的频率,再基于重复发生和共发生的过滤标准提 取功能相关的词,最后基于词的发生频率对基因进行功能聚 类,进一步结合文献及已有的分子生物学检测结果进行分析。 结果:发现两个新的可能与大肠癌转移相关的基因TlAM1和 NM23H1。 2021-7-8 GenCLIP 2021-7-8 2021-7-8 文本挖掘的过程 命名体识别 关系抽取 发现知识 掌

36、握原理,会用软件,你就可以探索了! 欢迎你的加入! 2021-7-8 R统计分析软件统计分析软件 SPSS简单易用,而SAS功能强大,更是被统计专业人员乐于 采用,尤其是在国外广泛应用。 既定的模块,不能满足需要。 需要人们自己用编程来实现新的方法,R就提供了这样一个 很好的平台。 R是由Ross Ihaka和Robert Gentleman所编写的一个专门用于 统计分析的软件。 完全免费,可以从网络上任意下载,不存在版权问题。 R的源代码公开,使得很多统计爱好者可以不断增强R的功能。 在一般统计分析功能上,R并不逊于其它商业统计软件,例如SPSS、 SAS等,并且提供一个强大灵活的编程平台。

37、 2021-7-8 2021-7-8 MedlineR 用于Medline文献数据挖掘的开放式的R资源库 用于医学文献数据挖掘的手写开放性R语言资源库-MedlineR。 MedlineR库包括: 1. 在NCBI Pubmed数据库查找医学文献的程序 2. 构建共现矩阵的程序 3. 检索词的网络拓扑结构的可视化程序。 这个库的开放特性使得读者在R统计程序语言中免费扩展。 只用10行代码来分析主题词的相关性。对于生物信息学家 和统计学家来说,MedlineR是建立更加复杂的文献数据挖掘 应用的基础。 2021-7-8 MedlineR 为生物医学家和统计学家建立的文献数据挖 掘工具的免费资源库MedlineR的源代码可以 从/pub/medlineR中获得, 还提供了个性

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论