APPLICATION OF BIOINFORMATICS ON CANCER RESEARCH_第1页
APPLICATION OF BIOINFORMATICS ON CANCER RESEARCH_第2页
APPLICATION OF BIOINFORMATICS ON CANCER RESEARCH_第3页
APPLICATION OF BIOINFORMATICS ON CANCER RESEARCH_第4页
APPLICATION OF BIOINFORMATICS ON CANCER RESEARCH_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、生物信息学在肿瘤研究中的应用张 新 宇中国医科院肿瘤医院/肿瘤研究所中心实验室生物信息学肿瘤生物信息学平台功能简介及应用实例生物信息学的概念:A. 生物信息学是一门新兴的交叉学科,它将数学和计算机知识应用于生物学,以获取、加工、存储、分类、检索与分析生物大分子的信息,从而理解这些信息的生物学意义。B. 简言之,生物信息学就是运用计算机技术,处理、分析生物学数据,以揭示生物学数据背后蕴藏的意义。生物信息学研究的要素计算机(服务器/工作站)及操作系统专业人员专业软件Internet网络及生物学数据库生物信息学研究分类算法开发生物学研究应用BlastBlast生物信息学和肿瘤研究的关系How is

2、tumor generated ?1996, 97国际象棋人机大战被誉为“人类智力极限”的特级大师,卡斯帕罗夫 VS IBM深蓝What Can Bioinformatics Do in Cancer Research?How to Do?肿瘤生物信息学平台简介数据库平台自主开发的综合分析体系 自主开发的其他独立功能软件 其他引进并安装调试好的软件包 平台的产生及发展数据库平台:(基于Linux系统的MySQL数据库系统)1) Reference, Locus Link, Unigene, Mapview及相关GenBank数据库。2) Gene Ontology 数据库, 从细胞定位,基因功

3、能,信号通路三个角度提供对各种基因的功能及所在信号通路的注释。数据库平台(续)3) UCSC Human Genome 数据库 (Golden Path)。4) 格式化的Blast数据库 (nt, nr, human_est, htg, swissprot, yeast, mouse_est )。5) 实验室原始数据及分析结果数据库。(加密保护)Computational Velocity: Doubled after 18 months;DNA Data Quantity: Doubled after 14 months;肿瘤生物信息学平台简介数据库平台自主开发的综合分析体系 自主开发的其他

4、独立功能软件 其他引进并安装调试好的软件包 平台的产生及发展自主开发的综合分析体系 cDNA, mRNA及EST序列的高通量综合分析平台 基因芯片数据分析平台 信号通路 (Gene-gene interaction)分析平台 注:每个平台都包含几个部分,每部分又是一个可独立运行的功能体系 cDNA, mRNA及EST序列的高通量综合分析平台a) 序列格式化,包括去除载体,屏蔽简单重复序列,计算核酸组成及长度,以Fasta格式输出。b) 比对Reference mRNA序列及Unigene序列,找出已知基因,并进行聚类分析。c) 对新基因序列进一步与人类染色体比对,筛选出可靠的新基因序列,排除错

5、误序列。cDNA, mRNA及EST序列的高通量综合分析平台 (续)d) 新EST序列延伸,全长cDNA序列电子克隆及功能结构域分析。e) 点突变或者SNP分析f) 制作基因表达图谱 (PDF格式)Primary Analysis of Lung Cancer SSH cDNA Library 分析实例Definition of EST ESTs offer a rapid and inexpensive route to gene discovery, reveal expression and regulation data (Vasmatis, et al,1998), highligh

6、t gene sequence diversity and splicing (Wolfberg and Landsman, 1997), and may identify more than half of known human genes (Hillier, et al, 1996).背景知识:EST (Expressed Sequence Tag):从cDNA 库随机挑选出一个克隆来自动测序,长度一般为500bp。Mask Vector and FormatBlast to Reference mRNA DBBlast to Human EST DBScreened Known Gen

7、esHuman EST DB None-hit ESTCluster ESTs by GeneMap to Human GenomeBlast to Human GenomeNew GenesGarbage ESTsIn silico EST ElongationReference DB None-hit ESTSequencing ResultProceduresGene Expression MapPoint Mutation/SNP AnalysisOriginal sequence Database原始输入序列Cluster Result Database已知基因聚类分析结果New G

8、ene (EST) Database新基因ESTElongated ESTIDNo2_rlcrt0-000159.fas;Length=2540.AGCGGGTCCCGCCTCCCAGCGACTCTCGGCAGTGCCGGAGTCGGGTGGGTTGGCGGCTATAAAGCTGGTAGCGAAGGGGAGGCGCCGCGGACTGTCCTAGGTACACTTTTCTCATAAAGTTTAGCCTACAGAAACTATCGCCACCCAAATTAAACATCACCCAAGCTAATATTCTTTCCTCCTTCTAAAGATGAGCTAGCGAAACTTTTTATAGGTTGTCCCTTTAA

9、TGCAGCTTTTTAGAATAAACATTTTTACATTTTTTCTTAAAAGAATTATTTTTTGAAGTCTGAGGAAAAATCCGCTTGCCTAGTGAATTTGGCACACACAGAGTAACAACAAATCAAACTTTAAGCTAGCAACCAACACACAAAATAAGCATGCAAGGAATAGAATAAGTTTTATATGGATAAGGTATTTTAGCCAACTCCACTTATAAGGTATTACAAAATCTCTATATNGTTTTGAAGCTATGTGTCGCAGTTTAAAGTTACTTTTAACAATAATACGTATATTTACAATTGACTTAA

10、AAAACTATTTTCAAGGAAGTTAGAAACCTATGGCACACCAACGCATCTTCTGGAAAATGAAGACGATACAATGTCATGTGGCAAGTTTCAATATATGAAGGACTAGACCAGTG.新基因EST电子延伸结果Using Reference mRNA Database Blast Output to Search Mutation/SNPMutations Found from Blast Output Analysis点突变/SNP分析结果Deletion (ClustalX 1.82)点突变/SNP分析结果 (续)Insertion (Clusta

11、lW 1.82)点突变/SNP分析结果Here “-” means insertion点突变/SNP分析结果 (续)Further AnalysisFrom SNP to Haplotype6 SSH Libraries Gene Expresstion Map to Human Genomes(122+X)基因表达图谱Expression level of genes in SSH librariesDifferent Colors correspond to different librariesIs there a LOH?Expressed in two down-regulated

12、librariesLOH map vs. SSH mapLung Cancer Related LOHLung Cancer Related SSH基因芯片数据分析平台 a) 对raw data进行标准化处理,并确定thredshold值(低于该值表示基因不表达,没有杂交信号)b) 结合R/S+,SAS通过生物统计学手段筛选具有显著性差异表达的基因c) 进一步的芯片分析手段不一而足,可结合具体分析目标进行具体分析。已经做过的分析有:建立从array到全基因组转录图谱,基因表达图谱;聚类分析(hierarchical, SOM and K-means clustering); 结合Gene On

13、tology, Biocarta, KEGG数据库进行相关pathway分析等Normalization背景知识:PathWay Analysis背景知识:分析实例Genome-wide Gene Expression Map and Analysis of Non-Small Cell Lung Cancer Based on MicroarrayPNAS November 20, 2001 vol. 98 no. 24Original Array DataChip: Human U95A oligonucleotide probe arrays (Affymetrix, SantaClar

14、a, CA) 12,600 cDNA cloneSample: Squamous cell lung carcinomas 21Adenocarcinomas127Normal Lung 17Array data (normalized)Analysis ProceduresFinding genes from 12,600 cDNA cloneGet 7932 genesFlagging the values lower than threshold valueAbout half values keepedDoing T-test with SAS/R for each geneHiera

15、rchical ClusteringDivide into two parts: up-regulated and down-regulatedConstruction of Gene Expression Map and Transcriptome MapClustering Result肺鳞癌基因表达图谱(3号染色体)肺鳞癌转录图谱(3号染色体)High-resolution detection of differentially expressed chromosomal regions in NSCLC was obtained by using moving-median metho

16、dScreening of important NSCLC-related geneAnalysis Procedures (Cont.) Results75% (24 of 32) of our results were consistent with the previous studies. And the counterparts in other reports, normally with larger sizes, were narrowed down and many specific genes involved in these regions were identifie

17、d. 4 new aberrant regions in squamous carcinoma, 2q31-32, 12q23-24, 14q22-q24 and Xp11.4-p11.23, were discovered. 肺鳞癌基因异常表达区域分析结果 信号通路 (Gene-gene Interaction) 分析平台 a) 选择关键词,从 GO数据库中寻找相关基因,比如 extracellular表示为分泌蛋白b) 通过GO, BioCarta和Kegg信号通路数据分析给定基因所属的信号通路,功能分类等c) 比较多组基因按功能,通路分组在统计学上的差异,从而得到各组基因的功能差异d)

18、新信号通路的分析(正在开发 Gene Ontology Pathway Network特点:DAG (非循环),可用数据库表达背景知识:BioCarta Cell Cycle Pathway 特点:以调控通路为主背景知识:KEGG酮体代谢 Pathway 特点:以代谢通路为主背景知识:分析给定基因所属的信号通路GO:0003673-biological_process-physiological processes-cell growth and/or maintenance(D10S170)-cell proliferation(FTH1,AKR1C3,C20orf1)-cell cycle

19、(AHR,BUB1,STAG2)-DNA replication and chromosome cycle-chromosome segregation(STAG2)-mitotic chromosome segregation分析实例比较多组基因按功能分组在统计学上的差异,从而得到各组基因的功能差异26 N: 15 219 T: 78 429 nucleotide binding32 N: 28 396 T: 120 728 nucleic acid binding2 N: 1 31 T: 21 91 structural constituent of ribosome47 N: 0 0 T

20、: 1 7 apoptosis inhibitor activity38 N: 0 0 T: 10 50 transcription factor activity37 N: 1 13 T: 1 13 enzyme inhibitor activity46 N: 6 46 T: 6 46 metal ion binding分析实例小结 相对于手工操作,生物信息学高通量综合分析体系具有以下基本特点:1)使计算机快速、忠实地执行一些冗长、琐碎的工作,既节约时间,又避免操作失误。2)可以完成一些手工操作无法胜任的分析任务。3)对实验室进一步工作具有预见性和指示性。4)最终分析结果需要经过实验室验证。

21、肿瘤生物信息学平台简介数据库平台自主开发的综合分析体系 自主开发的其他独立功能软件 其他引进并安装调试好的软件包 平台的产生及发展自主开发的其他独立功能软件 1) 基于mRNA/cDNA序列的siRNA设计:查找符合siRNA条件的核酸片断,并自动比对 Human Genome进行特异性筛选,最后给出最佳序列及阴性对照序列。2) 从给定的一组基因名称,得到适合制作 cDNA基因芯片的cDNA克隆(image clone)序列。3) DNA芯片数据分析及cDNA文库序列分析并制作全基因组基因表达图谱和转录图谱自主开发的其他独立功能软件(续)4) 从一组给定的基因中筛选具有特定功能 (或者性质)的

22、基因,比如分泌蛋白的筛选,以Gene Ontology数据库和高通量信号肽及跨膜区domain分析双重符合为标准。5) 给定一组accession number,通过网络或者本地数据库自动快速获得序列及注释,以及各种序列格式转化。自主开发的其他独立功能软件(续)6) 全自动SAGEmap分析,可分析序列或者基因在NCBI SAGEmap中各种组织库的表达丰度。7) DNA/RNA 最长ORF分析并翻译,在大多数情况下,cDNA和EST的最长ORF为其实际阅读框架。8) 电子EST序列延伸及全长cDNA获得。自主开发的其他独立功能软件(续)9) 核酸序列自身冗余度检测,建立一个逐步扩大的数据库,

23、检测提交的一条或多条序列是否在数据库中有overlap或者相同基因,对新序列则加入到数据库中。10) 自动Blast及结果解析。11) 从染色体的巨大contig序列的任意位置截取任意长度的片断,以进行后续分析。应用Gene Ontology数据库及EMBOSS软件包预测SSH文库基因中分泌蛋白(图示:2号染色体)分析实例Screened siRNA target sites for X1blue:IDX1_blue;Nonsense=0;Length=21;GC=38%;A=8;G=5;C=3;T=5AAAGATGTGGAAAGTTACCTCsiRNASense: AGAUGUGGAAAGU

24、UACCUCUUAntisense: GAGGUAACUUUCCACAUCUUUNegative Control Sense: GGAUGUACGGCAAAUUCUAUUNegative Control Antisense: UAGAAUUUGCCGUACAUCCUU分析实例全自动SAGEmap分析分析实例从accession number通过网络或者本地数据库自动快速获得序列及注释NM_002737NM_002738X07109NM_002739NM_002740NM_006255NM_005400NM_002742NM_005813L07032NM_002744NM_006254分析实例N

25、M_005400 Homo sapiens protein kinase C, epsilon (PRKCE), mRNA.CTCCCCGCCCCGACCATGGTAGTGTTCAATGGCCTTCTTAAGATCAAAATCTGCGAGGCCGTGAGCTTGAAGCCCACAGCCTGGTCGCTGCGCCATGCGGTGGGACCCCGGCCGCAGACTTTCCTTCTCGACCCCTACATTGCCCTCAATGTGGACGACTCGCGCATCGGCCAAACGGCC.NM_005813 Homo sapiens protein kinase C, nu (PRKCN), mRNA

26、.AAAGTTCATCCCCCCAGAATGAAAATGAGGACATTTGAGAAGGTGATTTAAGGTGTGGACATTTGAGAAGGTGTCCTATCAAATTAGTAAACCAAAGGAAAAGTACTGAATAGATTAATCHSPKCB2A Human mRNA for protein kinase C (PKC) type beta II.CAGAGCCGGCGCAGGGGAAGCGCCCGGGGCCCCGGGTGCAGCAGCGCCCGCCGCCTCCCG小结功能软件大都来源于具体的需求,其特点为实用性。大型的综合分析体系是建立在若干个小的功能软件的基础上。随着独立功能软件的丰富,建立特定功能的综合分析体系的速度将越来越快。肿瘤生物信息学平台简介数据库平台自主开发的综合分析体系 自主开发的其他独立功能软件 其他引进并安装调试好的软件包 平台的产生及发展其他引进并安装调试好的软件包 EMBOSS (包含几十种不同功能的软件,相当于基于Linux系统的免费GCG软件包,且适合高通量分析 )JaMBW (Java based Molecular Biologists Workbench):分子生物综合工作台软件,全名为。是由 European Molecular Biol

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论