生物信息学陈老板实验室内部总结!!_第1页
生物信息学陈老板实验室内部总结!!_第2页
生物信息学陈老板实验室内部总结!!_第3页
生物信息学陈老板实验室内部总结!!_第4页
生物信息学陈老板实验室内部总结!!_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 bowung 2010/12/16一什么是生物信息学?Genome informatics is a scientific discipline that encompasses all aspects of genome information acquisition, processing, storage, distribution, analysis, and interpretation. ( 它是一个学科领域,包含着基因组信息的获取、处理、存储、分配 、分析和解释的所有方面。) (The U.S. Human Genome Project: The First Five Year

2、s FY 1991-1995, by NIH and DOE) 生物信息学是把基因组DNA序列信息分析作为源头,破译隐藏在DNA序列中的遗传语言,特别是非编码区的实质;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测。生物信息学的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”。它是本世纪自然科学和技术科学领域中“基因组、“信息结构”和“复杂性”这三个重大科学问题的有机结合。二、生物学研究内容(一)经典的研究内容-大规模基因组测序中的信息分析-拼接和注释大规模测序是基因组研究的最基本任务,它的每一个环节都与信息分析紧密相关。从测序仪的光密度采样与分析、碱基读出、载体标识与去除

3、、拼接与组装、填补序列间隙、到重复序列标识、读框预测和基因标注的每一步都是紧密依赖基因组信息学的软件和数据库的。 1How to find the coding regions in rude DNA sequence?By signals or By contents 基于信号或碱基组成By signals 作为参考信息Among the types of functional sites in genomic DNA that researchers have sought to recognize are splice sites, start and stop codons, bran

4、ch points, promoters and terminators of transcription, polyadenylation sites, ribosomal binding sites, topoisomerase II binding sites, topoisomerase I cleavage sites, and various transcription factor binding sites. Local sites such as these are called signals and methods for detecting them may be ca

5、lled signal sensors.第一、序列长度短,重复性大,假的比真的多百千倍,因而单独使用无法真正达到检测的目的。第二、信号模式不是唯一不变的,而是用概率来表示的。By content 更多依赖于I. Statistical method and Sequence Alignment Method eneven positional base frequence (D value)编码区是三联体,将密码子翻译与天然蛋白的氨基酸序列进行比较(天然的蛋白质有固定的氨基酸比例)。这种方法产生三种可能的氨基酸序列,若其中有一个非常像氨基酸序列,则另外两个都非常不像,则非常像的那个便是;若三个

6、都模糊像,则都不是。与数据库进行比对,这种方法发现不了新蛋白。II. Sequence Analysis Pairwise Alignment 双序列比对经典的双序列比对运用动态规划(DP)的形式,通过缓存亚问题的解决和重利用而不是重计算他们而解决一个最佳问题,运动DP的寻找两个长度为N的序列最佳排列将产生N2的亚问题。准确,但耗费计算机的资源。上述方法在序列很长时计算速度太慢,因此人们将之简化,发展处Heuristic schemes的方法。比较成熟的有FASTA和BLAST。这种方法搜寻短序列不插入间隔。(序列比对(alignment):为确定两个或多个序列之间的相似性以至于同源性,而将它

7、们按照一定的规律排列。 将两个或多个序列排列在一起,标明其相似之处。序列中可以插入间隔(通常用短横线“-”表示)。对应的相同或相似的符号(在核酸中是A, T(或U), C, G,在蛋白质中是氨基酸残基的单字母表示)排列在同一列上。)III. Neural network-神经网络-predicting the splicing sitesAGCT硬件和软件构成的神经元系统,并构建标准数据底(标准非编码序列,标准的三联体密码序列)一个个试,调节系统能准确输出序列。任意挑出一个非编码序列能输出0。神经网络包括输入层,中间层和输出层。输入层为非线性惯性,每个位置只能有五个值,四种碱基或空。输出层代表

8、输入序列是否为编码序列,对应中间的碱基像不像。IV. Fractal dimension of exons and introns 分维值转弯越多,值越大。将任一序列投影到碱基坐标,计算分维值,非编码和编码序列的分维值不同,可比较0 0.5 1 1.5 2 2.5 3 3.5 07654321Intron Seq.Exon Seq.Random Seq.End-to-end RangeMain RangeGeometric RangelnN分维小,像编码序列V. Complexity analysis-复杂度分析How many different patterns are there in

9、the area of the different DNA sequence?我们的结果发现外显子的复杂度比内含子和5以及3侧翼序列要高。什么是复杂度?任意取一个字符,花样出现多少次?若一段序列出现四种碱基就比出现三种碱基要复杂。窗口:将一段序列分成几个一组,18个一个窗口。VI. Method and Techniques in Cryptology-密码分析学的方法-Coincident Indexs,重合指数认定,将密码进行过滤,找出重合指数高的片段,再结合进行变异。Unicity Distance ,单一距离。VII. Sequence Analysis Multiple Alignm

10、ent-多序列比对双序列比对是序列比对的一种特殊形式,多序列比对能总结得到比对序列家族,估计一个新序列归属于一个已知序列的可能性,序列家族内的比对。双序列比较是不能给出两者的同源关系的,需要两个序列以上进行比较,给出这些序列代表物种间的同源序列,没有精确解,只有相似解。多种方法一起使用,看结果,但也无法知道基因的严格位置,准确报出基因的结构(从算法本质上不同的算法进行比较来确定准确性,准确性较高)。2问题与挑战1)散在重复序列:花样类似但是分散在不同的位置。Alu2) 由于RNA编辑,可变剪接,一个基因产生许多蛋白3四个例子1)理论研究:腾冲耐热菌的测序和其耐热性的研究研究代谢途径,测出未知功

11、能的基因方法,将所有FA合成的路径图全画出,将其编码的2800多个蛋白与图上所需酶进行比对,所有酶都对上就是这个途径。亲缘关系(和枯草杆菌60%的亲缘性,不耐热) 代谢(脂肪酸,核酸)有什么特殊的pathway 重复片段300bp,280次,是转录的起始位点 将耐热与不耐热的细菌基因组进行比较,得出耐热所需的蛋白 一般来说,耐热菌的G-C含量较高(其实不然),耐热菌的G-C大部分小于50%,但是不耐热菌G-C含量变化更大,多以细菌基因组G-C含量与耐热无关,但与mRNA, rRNA的G-C含量有关,G-C含量高,耐热性上升。2)疾病研究:细菌性痢疾 测序发现,引起细菌性痢疾细菌的基因组和Eco

12、liK12 , Ecoli157很近。比较引起痢疾和不引起痢疾细菌,发现了痢疾引起的细菌含有毒力岛和黑洞(痢疾没有,不痢疾的有,保护机制的丧失)。3)工业生产:维生素C生产菌株氧化葡萄酸杆菌基因组测序和组装4)SARS简介 The capped and poly-adenylated genome is the largest of the RNA viruses and has a unique method of replication. These viruses have the ability to genetically recombine with other members o

13、f the coronavirus family. The genome encodes 3 or 4 different structural proteins. Human Coronavirus-OC43 encodes for hemagglutinin-esterase (HE) whereas HCV-229E does not. This protein causes red blood cells to clump together, and can be used to determine how much virus is in a sample. HE can also

14、initiate binding. Human Torovirus also encodes for HE. All coronaviruses encode for a nucleocapsid protein (N). This protein binds to RNA and forms a helical nucleocapsid. It may be involved in the regulation of RNA synthesis. The membrane glycoprotein (M) is involved with envelope formation. The sp

15、ike protein (S) is also responsible for binding to cells. The corona cycle link to the left explains the involvement of these proteins in each step of the dynamic phase. (二)新基因和新SNPs的发现与鉴定大部分新基因是靠理论方法预测出来的。比如啤酒酵母完整基因组 (约1300万bp) 所包含的 6千多个基因,大约 60 是通过信息分析得到的。a) 、利用 EST( Expression Sequence Tag) 数据库 (

16、dbEST) 发现新基因和新SNPs 国际上现已出现了几个基于EST的基因索引如UniGene, Merck-Gene, GenExpress-index,这些基因索引数据库(即二次数据库)构建了基因框架,极大地方便了相关研究者。 超大规模计算 方法:建立实验方法,让一小段真正的编码区标签表达,企图发现整个编码序列,几百个碱基序列一个标签,其数据库集中全世界所有的标签,进行拼接和组装,得到编码序列,同样将相同片段进行比较能发现SNPs,也可以发现非编码序列b)、从基因组 DNA序列中预测新ORF两者区别:前者是利用EST数据库进行片段的拼接与组装,而后者是利用基因组数据库的基因序列进行识别、预

17、测,c基因电脑克隆基因电脑克隆的实质: 以一个序列片段为线索, 通过它和整个数据库的比较, 还原出全序列原貌。原理:当测序获得一条EST序列时,它来自哪一个基因的哪个区域是未知的(随机的),所以属于同一个基因的不同EST序列之间常有交叠的区域。根据这种“交叠”现象,就能找出属于同一个基因的所有EST序列,进而将它们拼接成和完整基因相对应的全长cDNA序列。可行性:到目前为止, 公共EST数据库(dbEST)中已经收集到约800万条的人的EST序列。估计这些序列已覆盖了人类全部基因的95%以上,平均起来每个基因有10倍以上的覆盖率。 嵌合体cDNA是指来源于不同基因的序列,由于偶然因素被组装在一

18、起形成的Contig。我们构建的神经网络能探测组装过程形成的嵌合体。d.不同的实施方案和计算量n 将数据库中的所有序列进行两两比较, 将他们分成一组组(一组内的序列都属于同个基因), 最后再拼接成一条条完整的cDNA序列。对于人的EST库(5百万条序列),需要进行的序列比对次数为: l 0.5*(5*106)2=1.25*1013。n 以一组感兴趣的(如表达于某种组织的)序列作为”种子”序列(N条),将它们和整个库比较,以找到它们所属的完整cDNA序列。这种方案需要进行的序列比对次数为:u N*5*106。4 EST 利用 EST( Expression Sequence Tag) 数据库 (

19、dbEST) 发现新基因和新SNPs EST数据库质量相对较低,就象许多文献报道,发现了许多内含子,克隆载体,多酶切点,ALU以及3、5非翻译序列(统称污染序列,也称载体序列或非insert序列)被包含在EST数据库中,这使得EST序列分析复杂化。因此在进行Contig电脑组装之前,需要探测并去除EST数据库中的污染序列。为探测并去除EST数据库中的污染序列,必须建立载体库,对种子库和人EST库中的每条序列扫描其前端和尾部检查上述非Insert序列,并去除。全长cDNA标注涉及到mRNA的5端即转录起始位点区、第一个ATG、开读框架、终止密码子和3端的确认。目前国际上各种二次数据库的建立和公布

20、,使得我们有可能利用现有的数据源,通过同源性比较来预测mRNA的5端,最常用的与转录起始位点相关的数据库是真核启动子数据库(The TRADAT Project , Eukaryotic Promoter Database, EPD. http:/www.epd.unil.ch/ )。 开读框架(Open Reading Frame: ORF)的预测常与第一个ATG和终止密码子的确定相关,但由于EST序列相对较低的测序质量,在测序过程中出现的碱基删除或插入错误(称为indel错误)将引起读框移动,甚至出现假终止密码子,所以,仅凭第一个ATG和终止密码子是不足以确定ORF的。我们结合下述几种方法

21、对Contigs进行标注,先用复合人工神经网络系统预测Contig编码蛋白的可能性,然后采用NCBI的ORF预测软件 ( ORF finder: /gorf/orfig.cgi )初步判断ORF的可能范围。第一个ATG的确定则依据Kozak规则和信号肽分析软件(SignalP http:/www.cbs.dtu.dk/services/signalP )的结果。所谓Kozak规则,即第一个ATG侧翼序列的碱基分布所满足的统计规律,若将第一个ATG中的碱基A,T,G分别标为1,2,3位,则Kozak规则可描述如下:(1)第4位的偏好碱基为G;(

22、2)ATG的5端约15bp范围的侧翼序列内不含碱基T;(3)在-3,-6和-9位置,G是偏好碱基;(4)除-3,-6和-9位,在整个侧翼序列区,C是偏好碱基。Kozak规则是基于已知数据的统计结果,为获得高可信度的结果,我们把预测过程中证实含完整mRNA 5端的Contig翻译为蛋白序列,然后用SignalP软件对前50个氨基酸序列(从第一个ATG对应的甲硫氨酸Met开始)进行评估,如果SignalP分析给出正面结果,则测试序列有可能为信号肽,假如在该测试序列的第一个Met 5端存在终止密码子,该序列为信号肽的可能性更大。3端的确认主要根据Poly(A)尾序列,若测试Contig不含Poly(

23、A)序列,则根据加尾信号序列“AATAAA”和BLAST同源性比较结果共同判断。 嵌合体cDNA是指来源于不同基因的序列,由于偶然因素被组装在一起形成的Contig。我们构建的神经网络能探测组装过程形成的嵌合体。 EST数据也可用来帮助研究基因的可变剪接和发现非编码RNA。5 完整基因组的比较研究是一个新方向研究生命是从哪里起源的?生命是如何进化的?遗传密码是如何起源的?估计最小独立生活的生物至少需要多少基因,这些基因是如何使它们活起来的?比如,鼠和人的基因组大小相似,都含有约三十亿碱基对,基因的数目也类似。可是鼠和人差异确如此之大,这是为什么?同样,有的科学家估计不同人种间基因组的差别仅为

24、0.1%;人猿间差别约为1%。但他们表型间的差异十分显著。 这又为什么?完整基因组序列的比较研究是解决这些问题的重要途径。The distribution of mouse homology genes in the human chromosome 鼠的1号染色体分布人的.8.13.18号染色体上,waston, crick第一次来中国时说肿瘤的发生也可能因为基因的换位,改变基因表达水平。所以不同编排方式使得基因表达存在很大差别。HOX基因是看家基因,脊椎动物的HOX基因是果蝇的四倍,果蝇到人基因组很可能是经过了两次的加倍。六基于序列数据的生物进化研究当前面临的问题自1859年

25、 Darwin 的物种起源 (Origin of Species) 发表以来,进化论成为对人类自然科学和自然哲学发展的最重大贡献之一。 进化论研究的核心是描述生物进化的历史(系统进化树)和探索进化过程的机制。自本世纪中叶以来,随着分子生物学的不断发展,进化论的研究也进入了分子水平。当前分子进化的研究已是进化论研究的重要手段,并建立了一套依赖于核酸、蛋白质序列信息的理论方法。2、用进化树分析序列的进化 序列相似性比较。就是将待研究序列与DNA或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什么。完成这一工作只需要使用两两序列比较算法。常用的程序包有B

26、LAST、FASTA等;序列同源性分析。是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小。这是理论分析方法中最关键的一步。完成这一工作必须使用多序列比较算法。常用的程序包有CLUSTAL等;构建系统进化树。根据序列同源性分析的结果,重建反映物种间进化关系的进化树。为完成这一工作已发展了多种软件包,象PYLIP、MEGA等;稳定性检验。为了检验构建好的进化树的可靠性,需要进行统计可靠性检验,通常构建过程要随机地进行成百上千次,只有以大概率(70以上)出现的分支点才是可靠的。通用的方法使用 Bootstrap算法,相应的软件已包括在构

27、建系统进化树所用的软件包当中。为便于使用者查找表三给出了进化分析相关软件的因特网地址。3、基因的横向迁移 生物同一状态下,出于不同进化程度的物种间的基因横向转移不是进化来的,而是在同一时代横向迁移来的,人基因中的223基因是细菌的,而线虫,果蝇和酵母中没有,说明是垂直进化来。 More and more LGT(Lateral Gene Transfer ) were discovered and reported. Some people guess 1.5%14.5% of genes in a genome are related with LGT, even rRNA molecule

28、s are involved in LGT;As more and more whole genome sequence and the related data become available, it is possible to re-consider the phylogeny and clustering properties of species in more broad measurements, even in level of whole genome.怎样在考虑LGT的基础上进行进化树分析构建数据库COG归属于genebank去掉LGT基于实验基因组的方法,利用各种完整的

29、基因组,可以不考虑LGTQ:怎么比不同SIZE的基因组(人与支原体) 用(CISA:Complete Information Set Analysis)抽提每个基因组的特殊,如一个支原体400kb,抽提特殊序列,除以400,人基因组为30亿,提取其特殊,再除以30亿,再进行比较。Phylogeny Based on Whole Genome as inferred from Complete Information Set Analysis (CISA) we present a new method based on information theory to calculate the p

30、hylogenic distance between biological sequences, including 16s Ribosomal RNA, which is used for method proof-test, 24 completely sequenced genomes, as well as all predicted ORF products of them, creating Phylogeny of genome and proteome using neighboring-joining algorithm. Scientists have already be

31、en conscious of that no other biological sequence can bring more phylogenetic information than the genome. However, previous algorithms dont have the ability to handle such megabase level nucleic acid or amino acid sequences, whose length sizes are in most cases unequal. The Composition of Proteins

32、with different functions(COG)in a Whole Proteome Reveals the Organisms Phylogeny and Clustering PropertiesWe took the 17 functional classes of COGs (Clusters of Orthologous Groups) as the basic classes of protein functions and constructed a 17-D protein_vector to describe the potential functions of

33、the protein. By summing up all protein_vectors belonging to the proteome and then normalizing it, we got a 17-D “Proteome_Vector” reflecting the composition of proteins of different functions in the proteome. By regarding this kind of 17-D Proteome_Vectors as “characteristic vectors” of the organism

34、s, we investigated the clustering properties and phylogeny relationships of the 36 species (8 Archaea、 24 Bacteria and 4 Eukarya) whose genome sequences and related annotations are available at that time七2000年基因组研究的三个突出方面1. 干细胞作为基因组研究的重要选材Celera Genomics And Geron Corporation Announce Collaboration

35、For Human Pluripotent Stem Cell (Genomics June 12, 2000) The objective of the collaboration is to identify and assign function to genes important in early human development, and to utilize the information to develop small molecule pharmaceuticals, protein therapeutics, cell and gene therapies, diagn

36、ostics, and tools for use in drug discovery and testing. 2. SNP研究的国际大协作The SNP Consortium Ltd. is a non-profit foundation organized for the purpose of providing public genomic data. Its mission is to develop up to 300,000 SNPs distributed evenly throughout the human genome and to make the informatio

37、n related to these SNPs available to the public without intellectual property restrictions. 856,666 mapped SNPs,is now available.(July 11, 2000)Human Genome Project and SNP Consortium Announce Collaboration The explanations may reside in the cumulative (累积的)effect of a small number of differences in

38、 DNA base sequence called single-nucleotide polymorphisms (SNPs), which underlie individual responses to environment, disease, and medical treatments. SNPs are the most common type of sequence variation. SNP研究是基因组领域理论成果走向应用的关键步骤。是联系基因型和表现型之间关系的桥梁。SNP研究是人类基因组计划走向应用的重要步骤。SNP研究有很多优点:首先是SNP在基因组中分布相当广泛,近

39、来的研究表明在人类基因组中每300bp就出现一次。但在已知SNP中,仅有不到1的SNP造成蛋白的变化。大量存在的SNP位点,使人们有机会发现与各种疾病,包括肿瘤相关的基因组突变;从实验操作来看通过SNP发现疾病相关基因突变要比通过家系来得容易;有些SNP并不直接导致疾病基因的表达,但由于它与某些疾病基因相邻,而成为重要的标记。这样的标记有助于发现疾病基因;SNP在基础研究中也发挥了巨大的作用,比如,近年来对Y染色体SNP的分析,使得在人类进化、人类种群的演化和迁徙领域取得了一系列重要成果。 Y染色体迁移:找人的Y染色体(演化慢,伴性)找基因与人类繁衍有关,8万个碱基,测不同人的这个基因,八大地

40、区,不同种族,挑了非洲的隔离人群(从未离开),大猩猩,黑猩猩总共100例,在基因上得到1点,可将上面分成两个部分:隔离人群,大猩猩,黑猩猩一组,其余一组。得出的结论是:I. 古老人群出现在非洲,古老人群从未离开过非洲II. 现在人从非洲走向世界III. 碱基突变需要20-30万年亚洲人为第六路大军,先迁到南方。8 大规模基因功能表达谱的分析随着人类基因组测序逐渐接近完成,人们自然会提出如下的问题:即使我们已经获得了人的完整基因图谱,那我们对人的生命活动能说明到什么程度呢?人们进一步提出了一系列由上述数据所不能说明的问题,例如:基因表达的产物是否出现与何时出现;基因表达产物的量是多少;是否存在翻

41、译后的修饰过程,若存在是如何修饰的;基因敲除(knock-out)或基因过度表达的影响是什么;多基因差异表达与表现型关系如何等等。概括这些问题,其实质应该是:知道了核酸序列和基因,我们依然不知道它们是如何发挥功能的,或者说它们是如何按照特定的时间、空间进行基因表达的,表达量有多少。 基因芯片Microarray:An arrayed series of thousands of tiny DNA oligonucleotide samples imprinted on a small chip.mRNAs can be hybridized to microarrays to asseess

42、the amount and level of gene expression.(GENES' X)通常芯片数据分析有如下的一些步骤,它们的每一步都与生物信息学相关:Scanning(扫描):读取芯片上的光密度。因为芯片上的点都是被荧光染料标记的(一般有红、绿两种颜色),荧光强度就代表了基因的表达量;Gridding(网格化):确定芯片每一个杂交点的位置。具体说来,它要做三件事情,即:发现每一个杂交点;按照信号的强弱等级分割信号和背景的边界;分别读取信号和背景的光强度。Normalization(标准化):对所有信号进行标准化,使光密度值能正确代表基因表达量。这是芯片数据分析中非常重要

43、的一步。为什么要对数据进行标准化呢?这是因为很多因素都可影响芯片上的光密度,如:载体(象玻璃)表面不干净、染料不纯、空气中的灰尘污染;背景光的照射方式;光点大小以及对不同的杂交点荧光效率不同等;Clustering(聚类):将具有相同特征(如:相同功能、相同表达趋势)的基因聚集在一起。这只是芯片分析方法的一个代表,不同的方法还有很多。常用的方法有:Clustering 方法,也称聚类方法,它是无监管的学习方法。这是芯片分析中使用最广泛的方法 30,31 ,它比较适合分析具有某种共同表达特征的数据,象,由共同细胞类型产生的芯片数据,例如:对照和样品来自同一组织; Classification方法

44、,也称分类方法,它是有监管的学习方法 32。它非常适用于基因按其生物学功能分类的情况,例如:肿瘤的分类 33 ;多变量统计也是芯片数据的常用分析方法 34 。其中单组分分析和多维标度可有效地减低系统的维数。这种方法常用于分析信号贫乏的数据集 35 来探测特定基因的表达概率 36 。尽管发展了很多方法,但基因表达模式的研究才刚刚开始,大量的问题尚未解决,例如:目前的分析还只能停留在一类基因或一组基因上,还不能有效地区分它们之间的关联,同时也很难获取非常重要也很有兴趣的若干低表达基因象,转录因子以及受体的信息。为此,将基因表达数据与序列数据、pathway数据以及生物医学实验数据结合起来共同分析可

45、能是未来的发展趋势。用于基因芯片分析的重要软件有:TIGR(The Institute for Genomic Research)芯片数据分析软件包 41 :它由三个软件组成。MultipleExperimentViewer (TMEV)是用Java语言设计的。用于对芯片数据标准化及进行聚类和距离代数的分析。本软件还有图形显示界面。但要运行此软件必须Sun JRE 和 J3D 1.2版本以上的系统; ArrayViewer是一个简化的芯片数据分析软件,用于设备条件不允许使用TMEV时;Spotfinder是用于芯片信号收集和图象处理的。它是用C和C+写成在 PC Windows NT/98环境

46、下运行的。这些软件是可以下载的。 尽管芯片技术有极为广泛的前景,但对海量芯片数据的分析依然存在很多尚未解决的问题。如:(1)芯片上光密度数据标准化的理论方法研究。 为了保证芯片上每一个杂交点的光密度值都能正确地代表基因产物的表达量,需要在整个芯片范围内同时对所有点的光密度值进行标准化。这是一个多点非线性的拟合问题,当前虽有很大进展,但仍需发展新的理论方法。(2) 含有大量无定义元的大规模矩阵数据处理的方法研究:当根据信噪比对芯片数据进行筛选时,可能有约60%杂交点的数值不可靠,要舍去,这样就导致大量矩阵元无定义。如何处理这种数据也要发展新方法。(3)大规模基因功能表达谱数据挖掘和知识发现:这是

47、表达谱研究成功与否的关键。只有找到成百上千个表达水平发生变化基因之间在实现生物功能上的关联,才能充分揭示基因功能表达谱数据蕴含的丰富信息。 功能基因组信息分析的进一步工作必然是获取基因调节网络的知识。这在肿瘤研究中尤其重要,因为肿瘤往往是多基因病,只有了解了这些基因的内在关系后,才能对其病理有根本的认识,也才能有好的诊断、治疗方案。在基因调节网络这一领域已有了一些探索。 下一步,随着多层次、多类型的海量信息的增加,功能基因组研究将朝着复杂系统的方向发展,即:探讨生物系统中各部分、各层次的相互作用,从而进入系统生物学的领域。 蛋白质芯片与蛋白质组技术 二维电泳技术与质谱测序技术?研究蛋白与蛋白以

48、及蛋白与配体(药物)的相互作用,最大困难时得到数以万计纯样品并保持天然构象,知道功能基因的表达情况,也能知道从基因到蛋白质发生了那些变化。蛋白质组学技术:二维电泳技术:粗分蛋白 测序质谱技术:细分蛋白两者联合使用,知道哪些蛋白表达。蛋白质芯片的概念虽然在上一世纪八十年代就已提出,但进展较为缓慢。它主要研究蛋白与蛋白以及蛋白与配体(药物)的相互作用。近年来有了一定进展,哈佛大学的一个研究组已实现了包括一万多个蛋白样品的玻璃载体芯片。蛋白芯片研制的最大困难是同时得到数以万记的纯样品并保持它们的天然构象。Protein Identification: HPLC-MS-MS蛋白样品用已知酶进行酶切,再

49、用HPLC将片段根据质量排好队,再进行质谱:进来的小片段加了电荷排好队,加上电压跑起来,先到的质量少,根据时间可知核质比。再将蛋白质片段打碎进行测序,然后通过恢复碎片来测序。蛋白质组学技术和基因芯片技术一样是功能基因组的研究手段,与基因芯片不同的是,它是在蛋白质水平获取基因功能表达谱。由于它使用二维凝胶电泳和测序质谱,所以在分析软件和数据库的使用上与基因芯片有所不同。按照蛋白质组的研究过程,使用的分析软件和数据库有:1.二维凝胶电泳分析,用于从胶图上鉴定蛋白位点;2.蛋白识别,用于从质谱相关数据,象,电荷数、分子量、氨基酸组分、序列标识和MS指纹图确定蛋白;3.DNA和蛋白质序列相互转换,包括

50、通过EST的序列延长;4.序列相似性比较;5.特定模式的发现,象:预测信号肽、糖基化位点、磷酸化位点、酶切位点等;6.序列物理化学性质分析,象,PI、消光系数、疏水性等;7.二级结构预测;8.空间结构预测;9.膜蛋白过膜区预测;10.蛋白质亚细胞定位;11.蛋白代谢Pathway;12.蛋白相互作用等。相关网站有:http:/www.expasy.ch/melanie/;http:/www.expasy.ch/tools/; /ucsfhtml3.4/msfit.htm; http:/psort.nibb.ac.jp/; http:/ecocy

51、; http:/www.ebi.ac.uk/proteome/; 等。用二级质谱打出的离子种类有a1,b1,c1,x2,y2,z2,但我们只需选出一种如b系列就可以测序了,知道b2,用b2-b1就能得到b1的序列。电荷相同的情况下,核质比只与质量有关。困难:需要获得完整的资料;找到第一个b。得到谱系后,把database中所有的蛋白用水解酶水解成小片段,理论上选出图谱,组成database,根据已知图谱,将待测图谱与已知database进行比较,相近的那个就是蛋白。不足:1。无用的计算太多(理论谱中大多都是无用的) 2理论谱两个参数中只有一个,算法中两个参数有一个是认为给定的带有偏差

52、 3发现不了新的蛋白(发现新的,denova)蛋白质组鸟枪法策略用不同的酶水解同一蛋白得到不同的片断用De Novo方法测出蛋白质的片断将这些片断进行拼接给出较长(甚或全长)的蛋白序列。从而做到真正的database-independed蛋白测序。蛋白质鸟枪法策略可行性:我们目前得到最大的正确片断是8个氨基酸肽段。至少也能得到4个氨基酸肽段。氨基酸有20种,在序列拼接中我们可以只利用23个氨基酸的信息。因此序列是可以延长的。9 干细胞研究进展的权威评述 "Celera's agreement with Geron is important because we will be

53、 using human pluripotent stem cells-the most basic form of human cells that contain a diverse set of genes not expressed in high abundance in other cells-as a source to better understand the human genome," said J. Craig Venter, Ph.D., Celera's president and chief scientific officer. "B

54、y combining Celera's high-throughput sequencing facility, computational power, and bioinformatics expertise with Geron's human pluripotent stem cell technology, our goal is to enable the development of new approaches to prevent, diagnose and treat some of our most devastating diseases such a

55、s heart disease, Parkinson's disease, and cancer." 干细胞是功能基因组研究的最佳选材 1. 是各种不同组织和细胞类型的共同的源; 2. 可代表个体发育的各个阶段; 3. 是人体材料但很少涉及伦理学和法律学问题; 4. 具有重要的应用价值。 干细胞:A stem cell is a cell from the embryo, fetus, or adult that has, under certain conditions, the ability to reproduce itself for long periods or

56、, in the case of adult stem cells, throughout the life of the organism. It also can give rise to specialized cells that make up the tissues and organs of the body.干细胞是具有无限期产生各种分化细胞能力的细胞。它是各种干细胞的统称。通常认为干细胞有几个主要特征:它们是未分化的,但具有分化成各种特定细胞的能力;它们可无限地分裂产生大量后裔;其子细胞有两种命运,保持为干细胞或分化为特定细胞。干细胞的种类Totipotent stem ce

57、ll: 全能干细胞, 如受精卵pluripotent stem cell: 多能干细胞,如囊胚中的内囊细胞multipotent stem cell: 专能干细胞,如造血干细胞 以上都属于天然的干细胞,还有一种诱导的干细胞-已分化的细胞也能转化为干细胞人体干细胞的研究:1998年美国有两个小组分别培养出了人多能( pluripotent )干细胞:2008年日本和美国的小组培养出人的诱导干细胞James A. Thomson在 Wisconsin大学领导一个研究小组从人胚胎组织中培养出了干细胞株。他们使用的方法是:人卵体外受精后,将胚胎培育到囊胚阶段,提取 inner cell mass细胞,建立细胞株。经测试这些细胞株的细胞表面 marker 和酶活性,证实它们就是胚胎干细胞。用这种方法,每个胚胎可取得1520个细胞用于培养。John D. Gearhart在 Johns Hopkins大学领导另一个研究小组也从人胚胎组织中建立了干细胞株。他们的方法是:从受精后59周人工流产的胚胎中提

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论