生物信息学(第二版)_第1页
生物信息学(第二版)_第2页
生物信息学(第二版)_第3页
生物信息学(第二版)_第4页
生物信息学(第二版)_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《精要速览系列-先锋版 生物信息学(第二版)》D.R.Westhead,J.H.Parish&R.M.Twyman科学出版社 2004A生物信息学概述相关学习网站 www.bios.co.uk/inbioinformaticsB数据采集DNA,RNA和蛋白质测序DNA测序原理DNA中核苷酸的顺序是通过链式终止测序【也称为脱氧测序(dideoxysequencing)或以发明人命名的Sanger方法】来确定。DNA序列的类型基因组DNA,是直接从基因组中得到,包括自然状态的基因复制DNA(copyDNA,cDNA),通过反转录mRNA得到的重组DNA,包括载体序列如质粒,修饰过的病毒和在实验室使用的其他遗传元件等基因组测序策略散弹法测序(shotgunsequence)包括随机DNA片段的生成,通过大量片段测序来覆盖整个基因组克隆重叠群测序(clonecontig)DNA片段用推理的方法亚克隆,并且进行系统的测序直到整个序列完成序列质量控制通过在DNA双链上进行多次读取完成高质量序列数据的测定可使用如Phred等程序对最初的跟踪数据(tracedata)进行碱基识别和质量判断。载体序列和重复的DNA片段被屏蔽后,使用Phred等程序将序列拼接成重叠群(contigs),剩下的不一致部分通过人工修饰解决单遍测序低质量的序列数据可以由单次读段(read)产生(单遍测序,single-passsequencing)。尽管不很准确,但单遍测序如ESTs和GSSs,可以低廉的价格快速大量的产生RNA测序因为有大量的小核苷酸(minornucleotide)(化学改变的核苷)存在于转移RNA(tRNA)和核糖体RNA(rRNA)中,所以RNA测序不能像DNA测序那样直接进行。需要用特殊的方法来识别被改变的核苷,包括生化实验,核磁共振谱(NRMspectroscopy)和质谱(MS)技术蛋白质测序蛋白质序列可以通过DNA序列推断得到,而RNA测序不能提供有关已改变残基或其他类型的翻译后蛋白质修饰(比如剪接或二硫键的形成)大部分蛋白质测序是通过质谱(MS)技术进行的基因和蛋白质表达数据全局表达分析RNA水平的分析中有效的方法是从RNA群体或cDNA文库中,甚至从序列数据库中进行序列采样。一个简单的方法是从cDNA文库中随机挑选5000个克隆进行测序。含量很多的mRNAs在采样的序列中出现的频率很高,而含量较少的mRNA出现频率则较低,通过这些数据的统计分析可以确定相对的表达水平。一个更高级的技术是基因表达的连续分析(serialanalysisofgeneexpreaaion,SAGE)该方法使每个cDNA产生很短的序列标签(通常8~15nt),并在测序前把数百个标签连接成连环分子(concatemer)。这样一个测序反应中可搜集到几百条mRNA的丰富信息。每个SAGE标签可以特异性识别一个特定基因,通过对标签计数,可以确定每个基因的相对表达水平。然而,大部分全局RNA表达数据还需从微阵列实验所测的信号强度中获取。全局蛋白质表达数据主要从双向聚丙烯酰胺凝胶电泳(two-dimensionalpolyacrylamidegelelectrophoresis,2D)分离,产生点阵的唯一模式(每个点代表一个单独的蛋白质)。在2D实验中,蛋白质表达数据可以通过每个点的信号强度得到,每个二维凝胶上的蛋白信号必须通过质谱(MS)技术来单个注释。DNA微阵列一个微阵列有一系列的DNA元件(特征),以格子形式排列在载玻片等微型支撑物上,通过与复合RNA探针杂交可同时使很多基因的表达水平可视化。若使用两个不同的荧光标签的探针,可以在同样的阵列上直接测定不同样本的不同基因的表达。微阵列中主要用到的两个技术:机械点样DNA微阵列(spottedDNAmicroarray)和寡聚核酸基因芯片(oligonucleotidegenechip)(由美国Affymetrix公司独家制造),后者在制造芯片是通过固态化学合成把寡聚核苷酸印在芯片上。双向蛋白质凝胶2D-PAG技术的原理是蛋白质可基于两个不同的特性来分离:等电点(isoelectricpoint)和分子质量(molecularmass)。该技术中,第一方向蛋白沿固相pH梯度(immobilizespHgradient)等电聚焦(isoelectricfocusing)分离;在垂直方向进行分子量的分离。在凝胶染色后,染色斑点(spot)的模式可作为样品中蛋白质的可重复使用的指纹(fringerprint)。通过样本间比较可以识别不同表达的蛋白质,或被药物诱导的蛋白质等。离体的蛋白质斑点(excisedspot)可以通过质谱技术鉴定。蛋白质互作数据蛋白质互作的重要性蛋白质-蛋白质互作导致瞬时或稳定多亚基复合物(multi-subunitcomplexes)的形成。了解这些复合物对于注释蛋白质功能是必需,也是解释信号级联和调控网络等分子途径的一个步骤。死效应反映了两个突变的蛋白质遗传方法抑制子突变体可以通过恢复被破坏的蛋白质互作来补偿有害的原始突变体。而合成致死效应反映了两个突变的蛋白质不能相互作用,显性负突变(dominantnegativemutation)显示了一种起着多聚复合体作用的蛋白质。亲和性方法可通过几种利用蛋白质亲和性(特异结合的倾向)分析的物理方法来为蛋白质之间的相互关系提供直接的证据,比如亲和性管柱层析法,免疫共沉淀。由Ciphergen公司使亲和实验格式更趋微型化,使得在蛋白质芯片的发展中达到顶峰。分子和原子的方法X射线晶体学和核磁共振谱有助于在原子水平识别蛋白质互作,其它的蛋白质互作分析的分子方法包括荧光共振能量传递(FRET),表面基元共振谱(SPR)和表面增强激光接吸附/离子化技术(SELDL),其中的很多方法可通过质谱技术直接集成到蛋白质注释中。基于文库的方法基于文库的蛋白质互作实验有两个主要优点:它是高度并行的实验格式;候选互作蛋白质及其cDNAs之间直接关联。影响最大的方法是酵母双杂交系统(yeasttwo-hybridsystem,Y2H),在这个系统中蛋白质通过识别与之连接的一个功能转录因子进行互作。C数据库--内容,结构和注释已注释的序列数据库初级序列数据库GenBank(NCBI)、核酸序列数据库(EMBL)和日本的DNA数据库(DDBJ)SWISS-PROT和TrEMBLSWISS-PROT收集了确认的蛋白质序列及与结构,功能和所属蛋白质家族有关的注释信息。相关数据库TrEMBL翻译了初级核酸数据库中的编码序列。其他数据库OMIMOMIM指人类孟德尔遗传的联机数据库,用于研究人类遗传学和人类分子生物学的强大资源。每个OMIM条目都有一个对特定基因或性状的已知信息的全文总结,并有指向初级序列数据库和其它遗传学资源的链接。Incyte和UniGeneIncyte是商业数据库,它提供了基因序列和专家注释的记录,这是专门为药物研究开发服务的数据库。UniGene是一种用来把GenBank序列聚类并与EST数据相关联的实验工具。结构数据库蛋白质数据库(PDB),核酸数据库(NDB),大分子结构数据库(MSD)E通过序列相似性标准搜索序列数据库序列相似性搜索序列联配序列联配是是相似度量化的第一步,用来区分偶然性的相似和真实的生物学关系。联配结果以变化(突变)、插入或缺失(或空位indel)来显示序列之间的差异,这些差异可以用进化术语来说明。联配算法动态规划算法可以计算两条之间的最佳联配,其中广泛使用的算法有Smith-Waterman算法(局部联配)和Needleman-Wunsch算法(全局联配)。联配分支和空位罚分用简单的联配分值来测量相同匹配残基的比例或数目。得从联配分值中扣去空位罚分,以保证联配算法能得出有生物学意义的结果而没有太多的空位。数据库搜索:FASTA和BLAST统计分值相似度记分的P值是指获得至少与两条无关序列间的偶然相似性一样高的分值的概率。低P值表明重要的匹配,这些匹配可能会有真实生物学意义。相关的E值(期望值)是至少与所识别的相似性记同样高分值的偶然事件的期望概率。两序列见相似度的低P值对应于大数据库搜索的高E值。敏感性和特异性敏感性衡量数据库中真实生物序列关系的比例,该关系表现为击中项(有意义的相似序列)。特异性指的是对应于真实生物学关系的击中项的比例。改变E和P的默认值会导致这些互补的优良度测量方法之间的平衡。F多序列联配:基因和蛋白质家族多序列联配和家族关系多序列联配多序列联配表明两条或两条以上序列之间的关系,可以解释关于蛋白质结构和功能的许多线索。当所考察的序列不同时,保守的残基往往是维持稳定结构或生物学功能的关键残基。渐进联配渐进联配方法以两序列联配来初步评价序列是如何相关的,并在这个基础上构建向导树,然后使用向导树逐步添加序列到联配中,从最密切相关的序列开始到距离最远的序列结束。蛋白质家族和模式数据库蛋白质家族把序列分配到蛋白质家族中是预测蛋白质功能是非常有价值的方法。多序列联配信息的表示方法有很多种,包括联配本身、一致序列、保守残基和残基模式、序列轮廓以及其他的序列家族的概率模型。这些根据不同的应用都有不同的用途,其中大多数已经被开发和存储在数据库中,里面含有大量不同蛋白质家族的信息,这样的数据库称为二级数据库。一致序列这些序列把多序列联配的信息压缩至单条序列,主要的缺点是除了在特定位置最常见的残基之外,它们不能表示任何概率信息。一致序列的产生说明了任何蛋白家族的表示都是有偏向的,这主要是由于来源的序列集是有偏向的。PROSITEPROSITE数据库包括与蛋白质家族成员、特定蛋白功能及翻译后修饰有关的序列模式。PROSITE模式与一致序列的不同在于,它们往往比序列全长要短得多,并且给出了一种描述多序列联配中一套可接受的残基组合的方法。PROSITE模式中已知的假阳性(或假阴性)都已经在数据库中注明。PROSITE数据库在某些条目含有序列轮廓,以尝试描述比模式更长的序列片段(通常指整个结构域)。PRINTS和BLOCKSPRINTS和BLOCKS是密切相关的,它们分别通过来自一组蛋白或蛋白家族中最高度保守区域的多序列联配无空位片段的形式来表示蛋白质家族。蛋白质结构域家族结构域家族许多蛋白质是由模式结构的结构域组建的,因此蛋白质家族的研究其实是对蛋白质结构域家族的研究。序列轮廓序列轮廓(也成权重矩阵)是一种描绘蛋白质结构与家族相关序列的方法,其优点是描述了结构域序列的全长,包括观察到每个氨基酸的可能性,以及序列每个位点插入和缺失的可能性。隐马尔科夫模型隐马尔科夫模型(HMMs)是蛋白质结构域家族序列的一种严格的统计模型,包括序列的匹配、插入和缺失状态,并根据每种状态的概率分布和状态间的相互转换来生成蛋白质序列。代表某蛋白结构域家族的模型从该家族中生成序列的概率较高,从其他家族中生成序列的概率较低。J微阵列数据分析微阵列数据:分析方法微阵列原始数据微阵列数据就是经过杂交的阵列的扫描图像,扫描图像显示每一个点的杂交信号强度。这些图像可通过单通道、双通道荧光标记、同位素标记或比色标记等方法获得,其记录方式各不相同。数据质量准确记录个点的信号强度是微阵列数据分析的基本要求,DNA阵列可包含数千个特征点,因此数据的获取和分析必须自动进行。阵列上必须包含对照点以衡量非特异杂交和不同阵列上杂交的多变性。基因表达矩阵从微阵列实验得到的原始数据首先要转换成表,即基因表达矩阵。表中的各行代表基因,各列代表不同的实验条件,表中的数据为信号强度,代表各个基因的相对表达水平。表达数据分组基因表达矩阵中的每一个基因

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论