




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
计算机在生物学中的应用第一页,共一百八十三页,编辑于2023年,星期五计算机在生命科学和生物技术中的应用计算机是生物研究的工具。为了了解计算机工具在生物研究中的应用,首先需要了解生物研究的现状。基因决定论由于DNA双螺旋结构的发现,基因决定论成为主要观点。人们尝试寻找决定生物功能的基因,但是受到挫折。第二页,共一百八十三页,编辑于2023年,星期五一是由于美国能源部用30多年研究“核辐射对人类基因突变作用”,未取得实质性突破进展,受害者已表现出明显的突变性状,但检测不出其基因突变与对照组存在显著性差异。二是美国于1975年巨额投资启动的“肿瘤十年计划”基本以失败告终。
R.Dulbecco于1986在science上发表《癌症研究的转折点:测序人类基因组》,认为要彻底阐明癌症的发生、演进、侵袭和转移的机制,必须对人体细胞的基因组进行全测序。美国政府与1990年正式启动HGP。第三页,共一百八十三页,编辑于2023年,星期五基因组学由于基因组是物种所有遗传信息的储藏库,从根本上决定着物种个体的发育和生理,因此,在研究遗传、发育、进化、功能调控等基本生物学问题方面,基因组学关注的是基因组整体的作用,而不是个别基因。功能基因组学(后基因组学)的中心任务是通过了解基因组表达与环境的关系,以及其在基本生物学方面和人类健康和疾病相关的生物医学问题方面的意义。后基因组学转录组学:关注mRNA的组成和细胞功能的关系。第四页,共一百八十三页,编辑于2023年,星期五蛋白质组学:其中心任务是通过比较不同时间或不同细胞的蛋白质组成,以揭示蛋白质变化的生物学意义。结构基因组学:了解蛋白质三维结构与蛋白质功能的关系。蛋白质相互作用网络:了解蛋白质相互作用。代谢组学:其中心任务是通过比较不同时间或不同细胞的小分子组成,揭示生物学意义。系统生物学:以一个理论模式为基础,与基因组学和蛋白质组学的表现进行比较,判断生物在分子水平上复杂的相互作用。第五页,共一百八十三页,编辑于2023年,星期五生物学发展的展望—W.Gilbert(80年诺贝尔化学奖)91年专门在“nature”撰文讨论生物学研究形式的变化:正在兴起的新的范式在于,所有的‘基因’将被知晓(在可用电子方式从数据库里读取的意义上),今后生物学研究项目的起点将是理论的。一位科学家将从理论猜测开始,然后才转向实验去继续或检验该假设。新的范式:从机理出发,推论在一定条件下细胞的表现,再用实验去验证。现代,生物学已分为两个部分:第六页,共一百八十三页,编辑于2023年,星期五试验生物学:传统的、依靠实践发现事物的性质和活动规律的学科。研究对象是组成生物体的元件。研究手段是物质分离和检测技术。当前主要在于建立高通量检测技术。理论生物学:根据事物已知性质和活动规律推导其可能性质和活动规律的学科。研究对象是生物体整体。研究手段是逻辑分析和推导。计算机作为生物研究的工具,在前期生物学研究工作中作为计算和存储工具起辅助作用。在当前生物学研究工作中作为数据处理工具。数据处理是高通量检测技术和理论生物学研究的主要方法。产生生物信息学。第七页,共一百八十三页,编辑于2023年,星期五一Excel的功能:表格处理;图表功能;数据库管理功能。1图表制作建立图表,激活和修改图表项。2计算引用:相对引用(=(a1-b1)/c1*d1)绝对引用($a$1-$b$1)/$c$1*$d$1)函数:chitest(检验相关性);slope(斜率);intercept(截距)。二化学做图:
ISISDRAW2的应用下载软件:/计算机辅助工具的运用第八页,共一百八十三页,编辑于2023年,星期五生物信息学背景:1数据分析技术的发展:1962年Zuckerkandl和Pauling将序列变异分析与其演化关系联系起来,开辟了分子演化的研究领域;1964年Davies开创了蛋白质结构预测研究;1970年Needoeman和Wunsch发表了两序列比较算法;1974年Ratner运用理论方法对分子遗传调控系统进行分析;1975年Pipas和McMahon用计算机技术预测二级结构。1976年后生物学数据分析技术大量涌现。2人类基因组计划产生了大量基因信息(图0)第九页,共一百八十三页,编辑于2023年,星期五生物信息学(bioinformatics):利用计算机技术并参照现代信息技术,对生物信息进行储存、检索和综合分析。及一是对海量数据的收集、整理与服务。二是使用数据。生物信息学是把DNA序列分析作为源头,找到基因组序列中代表蛋白质和mRNA的编码区;同时,阐明基因组中大量存在的非编码区的信息实质,破译隐藏在DNA序列中的遗传语言规律;在此基础上,归纳、整理与基因组遗传信息释放及其调控相关的转录谱和蛋白质谱的数据,从而认识代谢、发育、分化、进化的规律。第十页,共一百八十三页,编辑于2023年,星期五生物信息学基本方法:1数据库信息检索;2用序列比对(alignment,对位排列)方法进行数据库序列检索;3网络分析,计算机模拟。问题:你对生物信息学的认识第十一页,共一百八十三页,编辑于2023年,星期五第一章生物信息数据库
生物信息数据库分类保存各种生物信息,为大家提供计算机分析的基本材料。例文献数据库、序列数据库。一信息中心:维护和提供数据库服务。主要工作:在分子水平上应用数学和计算科学的方法研究基础生物、医学问题;为科学和医学界开发、维护和分享一系列的生物信息学数据库;开发和促进生物信息学数据库、数据存储、交换以及生物学命名规则的标准化。第十二页,共一百八十三页,编辑于2023年,星期五重要的生物信息中心:1美国国家生物技术信息中心(NCBI)/
(管理着包括GenBank在内的一批数据库)2欧洲生物信息学研究所(EBI)
www.ebi.ac.uk/(主网页,可链接到其他项目)
www2.ebi.ac.uk(各种数据库和分析工具)
www3.ebi.ac.uk(公众服务网页)第十三页,共一百八十三页,编辑于2023年,星期五3日本核酸数据库(DDBJ):www.ddbj.nig.ac.jp
4北京大学生物信息中心(CBI或PKUCBI,是EMBnet的中国节点,也是APBionet的中国节点)第十四页,共一百八十三页,编辑于2023年,星期五二序列数据库1一级数据库:记录实验结果和初步的解释2二级数据库:从一级数据库提取的信息构建的数据库一级核酸序列数据库:(A)GenBank:
/genband/
(B)EMBL(欧洲分子生物学实验室的DNA和RNA数据库):www.ebi.ac.uk
第十五页,共一百八十三页,编辑于2023年,星期五(C)DDBJ(日本核酸数据库):
www.ddbj.nig.ac.jp/
翻译编码的DNA序列(根据ORF,数据库中搜索)(D)GeneBuilder:125.r.it/~webgene/genebuilder.html(E)上海生命科学中心:/
一级蛋白质序列数据库:(A)PIR-PSD:序列来自于GenBank/EMBL/DDBJ的编码序列的翻译、文献中的和用户第十六页,共一百八十三页,编辑于2023年,星期五直接提交的序列。目前最大的公共蛋白质序列数据库。衍生出iProClass(描述蛋白质家族的关系及结构/功能特征),还有PIR-NREF,PIR-ASDB,IESA,PIR-NRL3D,RESID,PIR-ALN等其他辅助数据库。
/pirwww/(B)SWISS-PROT/TrEMBL:经注释的蛋白质数据库。每个条目包括蛋白质序列、引用文献、分类学信息、注释等。注释包括蛋白质功能、转录后修饰位点、特殊位点和区域、二级结构、四级结构、与其他序列的形式性、序列残缺与疾病的关系、序列变异体等信息。
/swissprot/第十七页,共一百八十三页,编辑于2023年,星期五二级核酸序列数据库CUTG:密码子使用频度表
www.dna.affrc.go.jp/~nakamura/CUTG.html
EPD:真核生物启动子数据库
www.epd.isb-sib.ch/OOTFD:转录因子和基因表达数据库
/
RepBase:真核生物DNA中重复序列数据库
www.firinst.orf/~server/repbase.html
MPDB:外显子和内含子数据库
www.biotech.ist.unige.it/interlab/mpdb.html
第十八页,共一百八十三页,编辑于2023年,星期五三专门研究的数据库HGMD(可用于预测基因疾病):www.uwcm.ac.uk/medical_genetics/research/hgmd/
PDD(人类体液中蛋白质与疾病关系):
/pdd/HIV(爱滋病分子免疫学):
/immunology/immuno-main.html
WIT(重构代谢):/wit2/
CSNDB(细胞信号网络):geo.nihs.go.jp/csndb/
第十九页,共一百八十三页,编辑于2023年,星期五AgDB(农业数据库和信息资源总清单):/agdb/
PharmGKB(药物遗传学和药物基因组学):
GBIF(全球生物多样性信息机构):/linkfram.htm
四模式生物数据库模式生物:第二十页,共一百八十三页,编辑于2023年,星期五人(Homosapiens);小鼠(Musmusculus);大肠杆菌(Escherichiacoli);酿酒酵母(Saccharomycescerevisiae);果蝇(Drosophilamelanogaster):遗传;秀丽线虫(Caenorhabitediselegans):只有约千个细胞的动物,研究RNAi的模式生物;海胆(Strongylocentrotuspurpuratus):研究发育和基因调控的模式生物;拟南芥(Arabidopsisthaliana):生活周期6周的十字花科植物,研究植物的模式生物。第二十一页,共一百八十三页,编辑于2023年,星期五1各种生物信息中心2大肠杆菌K12完全基因组序列:
/pub/3MYGD(酵母基因组\蛋白质和同源关系数据库)
www.mips.biochem.mpg.de/proj/teast/4BDGP(果蝇基因组中心):第二十二页,共一百八十三页,编辑于2023年,星期五五其他数据库1PubMed:生物医学文献数据库2OMIM(OnlineMendelianinheritanceinMan):保存所有已知的人类生物学和疾病信息的数据库3GeneCard:/
保存注释过(定性)基因的数据库4LocusLink:同3第二十三页,共一百八十三页,编辑于2023年,星期五六数据库目录1核酸研究(每年第一期是数据库专集):2NAR(核酸研究数据库总汇):www3.oup.co.uk/nar/databse/3DBcat(法国生物信息中心):biogen.fr/services/dbcat/4nature(介绍基因组测序进展的新闻):
www.nature/genomics问题:生物信息数据库的作用第二十四页,共一百八十三页,编辑于2023年,星期五第二章数据库检索一序列数据库检索1序列检索工具:Entrez:BatchEntrez(批处理),NCBI提供的集成检索工具。可以通过一次检索而查询到多个子系统中的所有信息。主页面有两个窗口1)下拉式菜单:选择14个数据库2)搜索:关键词、作者、杂志、名、物种、检索号等。3)查询结果右上角的link表示与其他数据库的超级连接。第二十五页,共一百八十三页,编辑于2023年,星期五SRS:SequenceRetrievalSystem,EBI的检索工具。有三种查询方式:1)QuickSequence:快速查询。选择数据库查关键词。2)Standard:标准查询。由用户限定查询条件。3)Extended:扩展查询。可以将输入关键词的查寻范围限定在物种、说明、作者、文献等范围内,也可以先定日期和序列长度。第二十六页,共一百八十三页,编辑于2023年,星期五二序列文件的格式1GBFF格式(GenBankflatfile,GenBank平面文件)。(图1,图2,图3)BACs(bacterialartificialchromosomes)细菌人工染色体:携带人类基因DNA片段的细菌载体YACs(yeastartificialchromosomes)酵母人工染色体:携带人类基因DNA片段的酵母载体STS(sequencetaggedsite)序列标签位点:染色体上独特的DNA序列短片段ESTs(expressedsequencetags)表达序列标签:cDNA5’端的短片段第二十七页,共一百八十三页,编辑于2023年,星期五2FASTA格式:第一行:>打头的文字说明,主要为标记序列用。
第二行开始是序列,每行不超过80个字母(核酸大小写均可,氨基酸一般大写)。
由于FASTA没有特殊的结束标志,建议最后留一空行。>gi|1293613|gb|U49845|SCU49845SaccharomycescerevisiaeTCP-betagene,partialcds;andAxl2p(AXL2)andRev7p(REV7)genes,completecdsgatcct…第二十八页,共一百八十三页,编辑于2023年,星期五3EPD格式和PDB数据格式:(图4)问题:自己设计一个检索路径。第二十九页,共一百八十三页,编辑于2023年,星期五第三章序列比对
用户提交一个核酸或蛋白质序列,同指定数据库的全部序列做比较,寻找一个得分最高(或代价最小)的比对。通过相似序列的种类和功能,确定其种类和功能。序列比对的基本思想基于一条分子生物学规则:当两个分子享有相似的序列时,由于进化关系和物理化学限制,它们将很有可能具有相似的三维结构和生物学功能。第三十页,共一百八十三页,编辑于2023年,星期五一序列比对策略:分两种(图5)1最简单的操作:提交一个核酸或蛋白质序列,同一级数据库的序列做比较,人工判断同源性。基本原则:寻找一个最佳对齐方式。2基于知识的预测:将已知样本抽象成代表序列-结构或序列-功能相关性的经验规则,由其判断同源性(如motif库)。此方法的首要任务是找出可以扩展到结构和功能性质的序列特征。第三十一页,共一百八十三页,编辑于2023年,星期五两条序列相似程度的量化表示:相似度(表示相似程度的函数);距离(表示不相似程度的函数,有海明距离和编辑距离)代价(cost)或权重(weight):
w(a,a)=0w(a,b)=1(a≠w(a,-)=w(-,b)=1得分(score):p(a,a)=1p(a,b)=0(a≠b)
p(a,-)=w(-,b)=-1第三十二页,共一百八十三页,编辑于2023年,星期五例1:两条字符串AIMS和AMOS的最佳对齐方式
AIM–SA–MOS例2:两个氨基酸序列ARRSG和ARKTVG。
ARRS–GARKTVG第三十三页,共一百八十三页,编辑于2023年,星期五二算法:1点阵分析:用两条序列为X和Y轴构建二维矩阵,用点表现两条序列的相似部分。点所包含的片段长度叫窗口,匹配长度叫相似度阈值。2动态规划算法:最优对位排列方法对两个序列a=a1a2…an和b=b1b2…bn,当S=S(a1a2…ai,b1b2…bi)时有:
Sij=max{Si-1,j-1+s(ai,
bj)},max(Si-x,j+Wx),max(Si,j-y+Wy)Sij:ij位置的分值;s(ai,
bj):
Sij的打分分值;
Wx
:长度为x的空位(间隔)罚分。第三十四页,共一百八十三页,编辑于2023年,星期五蛋白质打分矩阵:
PAM1矩阵:根据71组相似性在85%以上的蛋白质序列中的1572种变化来估计氨基酸在蛋白质进化中被替换的预期频率。设为表现每108年一个突变的替换频率(假定每一个特定位点的每一个变化都是独立的)。不同的PAM矩阵可应用于不同相似性水平序列比对。例:PAM250、PAM120、PAM80和PAM60分别用于14~27%、40%、50%、和60%相似性的序列比对。PAM250由PAM1自乘250次产生,代表25亿年中250%的预期变化水平。(PAM250的矩阵,图7)打分矩阵:第三十五页,共一百八十三页,编辑于2023年,星期五
BLOSUM矩阵:在有500个蛋白质家族的数据库(PROSITE)中针对2000个保守氨基酸模式进行替换频率鉴定。具有60%同一性的模式聚在一起构造一个矩阵就是BLOSUM60,依此类推。
PAM模型可用于寻找蛋白质的进化起源,BLOSUM模型可用于发现蛋白质的保守域。核酸打分矩阵:PAM矩阵单位矩阵:相同碱基为1,不同为0。转换-颠换矩阵:相同碱基为正1分,转换为-1分,颠换为-5分。第三十六页,共一百八十三页,编辑于2023年,星期五
在不知道序列间的相似性大小时,需用H(相对平均信息量)判断选择合适的矩阵。一般来说,若其他因素相同,H值高的合适。
20iH=∑∑qij*Siji=1j=1q:每个氨基酸对出现的频率,S:每个氨基酸对的分值(以log2为单位,称比特bit)。空位罚分:wx=g+rx或wx=g+r(
x
–1)。
g:空位窗,单个空位的罚分;r:空位扩展罚分,多个空位的追加罚分;x:空位长度。
第三十七页,共一百八十三页,编辑于2023年,星期五A
全局比对:全局比对是两条序列从头到尾的比对,有Needleman-Wunsch算法。第一步:用两条序列为X和Y轴构建二维矩阵,矩阵中只有元素S0,0=0,从S0,0开始,对每一个位点赋值。赋值由出发点的分值+打分(罚分)组成。在所有路径中选分最高的。第二步:当矩阵中所有位点的赋值完成后,从最高分值位点回溯,找出的分值最高的路径就是最优化的序列对位排列方式。(图6)第三十八页,共一百八十三页,编辑于2023年,星期五B局部比对:是一条序列的片断与一条完整序列之间的比对,有Smith-Waterman算法。对于矩阵中所有j,令D0,j=0,对于矩阵中所有i,令D0,i=0,就可能实现两条序列的局部比对。这对于在由多个区域组成的序列中发现多个匹配有用。C高分值片段对(HSP)判断:
P(S>x)=1-exp(-Kmne-λx);X:片段长度。
P(S>x)是最大片段的分大于X的概率。显著性评价:E(S)=[log(Kmn)]/λE:期望分值(序列最长匹配的期望值);K:错配数;m和n:序列长度;λ=loge(1/p)。第三十九页,共一百八十三页,编辑于2023年,星期五3散列算法:不是比较两个序列中单个的残基,而是搜索匹配序列模式或k-串。在该方法中,需要为每个序列建立一个查询表来标明每个长度为k的单词(k-串)的位置。每个单词在两个序列中的相对位置可用第二个序列中的位置减去第一个得到。k-串长度由用户指定。例:在二个序列中查找长度为3的k-串位置1234567891011序列1ncspta•••序列2•••acsprk第四十页,共一百八十三页,编辑于2023年,星期五
Positioninoffset
序列1序列2序列2-序列1a660c275k-11n1-p495r-10s385t5-快速发现一个可能的对位排列序列1ncspta序列2acspta第四十一页,共一百八十三页,编辑于2023年,星期五三序列搜寻工具及其应用:1BLAST(BasicLocalAlignmentSearchTool):基本局域联配搜寻工具,将所查询的序列打断成为许多小序列片段(叫做字“W”),然后用小序列片段逐步与数据库序列进行无空隙比对。挑出分值大于阈值T的所有相似片段。对目标序列和挑出的数据库序列进行无空隙局部比对。从字开始向两边延伸。用统计置信度检验找到HSP的组合。
E-value(expectvalue):E=mn2-Sm:目标序列的有效长度
n:数据库的有效长度(总碱基数)
S
:标准比值(bitscore)。第四十二页,共一百八十三页,编辑于2023年,星期五:前期加工分值
λR-mnK
S=
ln2
λ和K是正规化参数
R:前期加工分值(rawscore)
R=aI+bX+cO+dGa:对每个完全匹配的加分,I:完全匹配的个数b:对每个错配的加分,X:错配的核苷酸数c:每开发一个gap的罚分,O:gap的数目d:gap中每个“-”的罚分,G:总的“-”的数目第四十三页,共一百八十三页,编辑于2023年,星期五2FASTA:对角线方法,原理基于散列算法3比对步骤:比对基因:选择megaBLAST、数据库,选择滤过程序,如滤过低复杂度区域(lowcomplexityregion,LCR)即重复元件;选择相似度/字长(SCORES/ALIGN)、空位设置(GAPOPEN)、空位扩展(GAPTEXT)。设定E的阈值(S,缺省值为10)。比对蛋白质:选择BLASTp、数据库,选择滤过程序,设定E的阈值(缺省值为10)。通常先用BLAST,结果不理想时再用FASTA。应先做蛋白质,再做核酸的序列比较。第四十四页,共一百八十三页,编辑于2023年,星期五序列比对结果:最佳匹配序列描述
所使用程序的描述、版本及相关信息,所要检索的序列长度,所要检索的数据库信息,包括序列记录数和字符数图形化的检索结果
ScoreESequencesproducingsignificantalignments:(bits)Valuegi|576838|gb|L37747.1|HUMLAM11Homo…9000.0gi|18854963|AC093532.2|Homosapiens…862e-167………Query:616gag…gaannnnnnngtaata675|||||||
|
|
|
|
|Subjct:616gag…gaatttttttgtaata675第四十五页,共一百八十三页,编辑于2023年,星期五例:假肥大性肌营养不良症(DMD)基因分析
DMD是一种隐性遗传疾病(付图10.2)。前期实验工作证明该疾病是X和6号染色体重组所至。在重组部位找到引起DMD的基因/蛋白质dystrophin。Dystrophin在连接细胞骨架与外骨架上起着重要作用。通过BLAST2搜索,发现另一种蛋白utrophin,其与dystrophin有一个高度保守的序列DVQKKTFTKW,该序列参与形成α螺旋。通过免疫定位,显示utrophin位于骨骼肌中,并且聚集在神经-肌肉接点处。到目前为止,还没有发现任何一种由utrophin引起的疾病,使引入utrophin作为治疗DMD的手段被考虑。(付图10.3-10.8)第四十六页,共一百八十三页,编辑于2023年,星期五多序列比对的目标是发现多条序列的共性。应用于:(1)基因组测序;(2)提供相似区域的信息;(3)揭示结构和功能的关系;(4)预测相同或不同有机体的相似家族或同一类群的其他成员。四多序列比对第四十七页,共一百八十三页,编辑于2023年,星期五1全局比对(1)逐对加和(sum-of-pairs,SP)方法三条序列A、B、C,分别进行A-B、A-C、B-C比对,产生三个二维距阵,寻找其中的最优排列。计算SP函数(一列中所有字符对得分之和)
k-1kSP-score(c1,c2,…,ck)=∑∑p(ci,cj)i=1j=i+1
(c是列中的字符;k是序列个数;p是相似性打分函数。)加和所有列的得分。该方法比对的序列不能太多。程序:MSA()第四十八页,共一百八十三页,编辑于2023年,星期五(2)动态规划算法首先使用动态规划法获得多重排列,从最相关序列开始,逐步叠加相关性小的序列。程序:CLUSTALW(图)主要步骤:
A对所有序列进行比对;
B生成系统发生树;
C通过加权,依次排列序列。(3)其他方法:聚类方法;构树方法。第四十九页,共一百八十三页,编辑于2023年,星期五2序列中的局部比对:(1)可以鉴定排列中高度保守的部分并产生一类称为概型(profile)的记分矩阵。概型由更像小的多重比对的列构成,包括匹配、错配、插入和缺失。可用于寻找一个可能与之匹配的目标序列。程序:GCG软件包中的PILEUP(2)区块分析:区块(block)也是在多重比对中代表一个保守区域。与概形不同之处在于序列中缺乏插入和缺失的位置。(BLOCKS)(3)基序搜索:(EMOTIF)第五十页,共一百八十三页,编辑于2023年,星期五第四章在系统发生分析中的应用进化树:有一系列节点和分支组成。每个节点代表一个分类单元(物种或序列)。一般情况下,外部节点代表实际观察到的分类单元,内部节点为分支点,他代表了进化事件发生的位置,或代表分类单元进化历程中的祖先。进化树类型:二元树,无根树,有根树。直系同源:不同物种之间拥有共同的功能的基因。旁系同源:在同一生命体中,因复制过程中发生歧异而产生的功能不同的基因。蛋白质超家族:具有某种共同结构域的所有分子组成的分子集合。
第五十一页,共一百八十三页,编辑于2023年,星期五分子进化论:20世纪60年代,Zucherkandl等发现某一在不同物种间的氨基酸取代数与所研究物种间的分歧时间接近正线性关系,进而将分子水平的这种恒速变异称为“分子钟”。支持分子钟存在的证据来自免疫学的定量比较。但分子序列证据与化石证据在人类起源时间上存在差异。分子进化原则:
1)每个位点进化速率恒定;
2)进化速率=突变替换数/每位点/每年;
3)破坏小的比破坏大的突变进化频繁;
4)基因复制在基因获得新功能前发生。第五十二页,共一百八十三页,编辑于2023年,星期五建树步骤(1)分子序列或特征数据的分析;(2)进化树构造;(3)结果检验。建树算法应用的分子数据分两类:(1)距离数据。由相似度打分的比对,需转化为距离:
d(i,j)=1-(S(i,j)-Sr(i,j))/(Smax(i,j)-Sr(i,j))第五十三页,共一百八十三页,编辑于2023年,星期五S
(i,j):序列i和j各个比对位置得分的加权和;Sr(i,j):序列i和j随机化后的比对得分的加权和;Smax(i,j):序列i和j所有可能比对的最大值。
两个序列归一化距离的值处于0和1之间,当两个序列完全一致时,距离为0;当两个序列差异很大时,距离接近于1。(2)离散特征数据:能够表现序列特征的数据。分为:二态特征:即具有和不具有,常用0和1表示;多态特征:具有两种以上可能的状态。第五十四页,共一百八十三页,编辑于2023年,星期五1基于距离的方法:用距离矩阵描述。常用距离方法:(1)连锁聚类方法和非加权分组平均方法(除权配对法,UPGMA):从最近的两个树叶开始,定义一个新节点。不断重复,最终产生树根。前提是替换速度均等且一致。例:序列AACGCGTTGGGCGATGGCAACBACGCGTTGGGCGACGGTAATCACGCATTGAATGATGATAATEACACATTGAGTGATAATAAT找出一个序列变成另一个序列所需的步骤数nAB=3,nAC=7,nAD=8,nBC=6,nBD=7,nCD=3第五十五页,共一百八十三页,编辑于2023年,星期五构建距离表ABCDA-378B--67C---3D----根据序列之间的距离构建树
连锁聚类法:(A)初始化:分别用n个叶节点代表每个类(分类单元的集合);(B)执行下列循环:寻找具有最小距离dxy的两个类x,y;建立一个新的聚类z,以z为一个新的内部节点,z到x和y的分支的长度为d(x,y)/2;第五十六页,共一百八十三页,编辑于2023年,星期五按d(z,u)=(d(x,u)+d(y,u))/2计算新的分类到其他类的距离;从距离矩阵中删除与x和y相应的行和列,加入与z相应的行和列。从头循环,直到仅剩一个类为止。
UPGMA:一个新类到其他类(u)之间的距离就是简单的原距离平均值;计算:
d(x,y),u=(nx/(nx+ny))dx,u+(ny/(nx+ny))dy,un是每个类的元素个数。
21
A4CBD12第五十七页,共一百八十三页,编辑于2023年,星期五(2)距离变换法:考虑了不同家族的不同进化速率,利用外部参考种帮助确定正确的树。设D为外部参考种,其就作为变换其他物种之间距离的参考:
dij’=(dij-diD-djD)/2+dD(i,j=A,B,C)dij’是i和j之间的变换后距离,dD是利用外部参考种与全体内部物种之间的平均距离。在此,dD=(dAD-dBD-dCD)/3。(3)邻位相连法(NJ):在进行类的合并时,不仅要求待合并的类是相近的,同时,还要求待合并的类远离其他的类。第五十八页,共一百八十三页,编辑于2023年,星期五(1)简约法(MP)例:根据4个已排列序列寻找正确的无根树序列位点和性状Taxa1234567891AAGAGTGCA2AGCCGTGCG3AGATATCCA4AGAGATCCG寻找信息位点(每个特征必须在至少两个分类群中相同的位点),为5,7,9。2
基于特征数据的方法第五十九页,共一百八十三页,编辑于2023年,星期五构建信息位点可能的树位点5的树1树2树3分类群1分类群3分类群1分类群2分类群1分类群2GAGGGGG*A*AA**AA*GAAAAA分类群2分类群4分类群3分类群4分类群4分类群3树1中群1
和群2有共同祖先,群3和群4有共同祖先,变化数为1;树2和树3变化数为2。将每个树每个信息位点的变化数相加,挑出变化数最小的树为最优树。第六十页,共一百八十三页,编辑于2023年,星期五(2)最大似然法(ML):对每个可能的进化位点分配一个概率,然后找出概率最大的进化树。建树策略(图10)。确定树根(根据外组或中点)。进化树的可靠性检验(1)使用不同的建树方法(2)自举(自展)检验:替换或重组序列。(3)参数检验:对两棵树进行乘数比较。第六十一页,共一百八十三页,编辑于2023年,星期五第五章信息生物学在基因组构建中的应用人类基因组工作已完成序列图谱测定,进一步需要确定遗传图谱和基因图谱。遗传图谱:表现基因组的遗传特点。基因组内基因及其专一的多态性DNA标记相对位置的图谱。第一代标记:限制性片段长度多态性(RFLP);第二代标记:微卫星DNA(MS,同时也是物理图谱的标志);第三代标记:单核苷酸多态性(SPN)。基因图谱:表现核酸序列中的基因、调节元件、重复序列以及各种重排结构。第六十二页,共一百八十三页,编辑于2023年,星期五1从基因组序列中寻找编码蛋白质的基因(1)通过EST寻找新基因:即通过合成mRNA3’端片段的cDNA寻找EST,通过构建包含这些EST区的重叠群,再进行ORF的判定以及相关蛋白质结构域和模体的识别。另外还可以寻找与这个EST重叠群对应的基因组DNA(gDNA)序列,从而明确这个cDNA的基因结构,包括外显子和内含子的电子定位。(2)相似序列的数据库搜索:对于一个未知功能的序列,一个匹配的基因可以给出功能的线索;一个已知功能的序列也可以用于搜索具有同样功能的基因。一人类基因克隆计划和基因的识别和鉴定第六十三页,共一百八十三页,编辑于2023年,星期五原核生物的基因预测方法在一个片段中寻找一个基因:寻找较高保守性的序列(代表启动子区域,在一段未知序列上具有相同的顺序和间隔。图9-2),对其后序列进行ORF分析。对一个片段的全面预测:建立一个大肠杆菌的隐马尔可夫模型,然后扩展到包括多基因以及基因间的序列。这一模型能检查一个未知基因组成的序列并寻找基因,即一组标明氨基酸的密码子,两侧是起始和终止密码子。模型的可靠性依赖于基因起始和终止信息的准确性。第六十四页,共一百八十三页,编辑于2023年,星期五真核生物的基因预测方法
1)简单方法:用所有可能的阅读框对序列进行翻译,并应用BLASTX或FASTX程序比较翻译序列与蛋白质数据库。
ORF预测的可靠性检验:(1)密码子偏好性:同一ORF中同义密码子的第3个碱基倾向相同,既同一生物有在同义密码子中选择某些密码子的特性。
ORF的偏好性表(CUSP),bioweb.pasteir.fr/seqanal/interfaces/cusp.html
第六十五页,共一百八十三页,编辑于2023年,星期五偏好性分析(SYCO),图12-5
bioweb.pasteir.fr/seqanal/interfaces/syco.html
(2)同源比对:将ORF翻译成氨基酸序列,然后进行数据库比较,如果发现一个或多个显著相似的序列,ORF的可信度高。(3)寻找剪切位点:NetGene2,
www.cbs.dtu.dk/services/NetGene2/
SpliceView,125.r.it/~webgene/wwwspliceview.html
(4)寻找转录终止信号:Hcpolya,
125.r.it/~webgene/www.HC_polya.html
(5)确定核小体位点第六十六页,共一百八十三页,编辑于2023年,星期五
2)其他方法:
(1)寻找CpG岛:通常出现在持家基因或频繁表达的基因启动子周围。其中80%的人类基因的转录起始位点前存在CpG岛。工具1:EMBL的CpGPlot/CpGReport/Isochore
www.ebi.ac.uk/emboss/cpgplot/
CpGPlot:以图示(图9-3)形式显示分析结果;Obs/Exp、GC百分含量、CpG岛位置
CpGReport:以报表形式显示分析结果;包含CpG岛的位置、大小、C+G总量和CG百分含量(图9-4)
Isochore:以图形方式标出不同的等线体的CG含量第六十七页,共一百八十三页,编辑于2023年,星期五工具2:GpCIslandGrapher:
tiamat.kaist.ac.kr/util/cgi-web/(2)寻找启动子与转录因子结合位点:图12-1TRES,.sg/tres/
神经网络启动子预测,
/seq_tools/promoter.html
(3)寻找其他顺式元件:Cister,
/~mfrith/cister.shtml
3)基因组装:将预测出来的外显子组装成为一致的基因模型。剪切给体(donnor)位点:内含子的5’端gt
剪切受体(acceptor)位点:内含子的3’端ag第六十八页,共一百八十三页,编辑于2023年,星期五基于动态规划的组装方法组装形成的候选基因需满足下列条件:(1)所有外显子加起来的长度是3的整倍数;(2)在各个外显子内部(除最后一个外显子的最后一个密码)没有终止密码;(3)第一个内含子-外显子边界(i0,e1)是翻译起始密码,而最后一个外显子-内含子边界(en,in)是终止密码。包含完整基因的序列满足条件(1)~(3),包含不完整基因的序列不满足条件(1)或(3)。完整基因的组装:把标明候选外显子和内含子的序列构造成位点图。然后通过打分处理,寻找最优路径(图10-3)。第六十九页,共一百八十三页,编辑于2023年,星期五基于剪切比对的组装方法
首先通过分析所有可能的剪切受体位点和供体位点,构建一组候选的外显子;然后,进一步分析候选外显子,探查所有可能的外显子组合,寻找一个与已知序列(如mRNA、蛋白质)最匹配的组合。图10-4第七十页,共一百八十三页,编辑于2023年,星期五2从一个提交的未知序列中预测基因:
1)判定载体污染污染:被检测序列含有外源序列,主要有载体、接头和引物、转座子和提取纯度。主要方法:在载体数据库中做相似性搜索,限制性酶切位点搜索。工具:
VecScreen,
www.ebi.ac.uk/blastall/vectors.html
2)屏蔽重复序列:新序列自身的单位距阵比对,用于找出互补、转座、重复等结构。第七十一页,共一百八十三页,编辑于2023年,星期五
RepeatMasker:
/cgi-bin/RepeatMaskerXBLAST:
bioweb.pasteur.fr/seqanal/interfaces/
xblast.html#_data
3)寻找外显子或ORF
识别规律:核糖体结合位点可用于确定编码区的起始位点(图9-1,2)。当ORF的长度达到一定程度时,可以认定其为编码序列。
4)将编码蛋白质的DNA翻译成蛋白质,进行蛋白质数据库搜索。这是一个重要原则,因为蛋白质的复杂性是DNA的5倍。第七十二页,共一百八十三页,编辑于2023年,星期五二RNA二级结构判断(1)预测分子中最可能产生碱基配对区域的方法A条件:最可能的结构类似能量最稳定的结构;双链区中碱基对的能量只受前面碱基对影响,与较远和结构中其他碱基对无关;无结。B最简单的方法:利用RNA序列自补区的点阵比较。将序列列于横轴,互补链列于纵轴,方向5’-3’。点表示相同核苷酸片断。C最小自由能法:计算双链区中每一对碱基的堆叠能量和不稳定区域的估计能量之和。(2)考虑碱基配对保守模式的方法。协同变异(3)二级结构的模建:随机上下文无关文法。第七十三页,共一百八十三页,编辑于2023年,星期五1判断蛋白质的功能和结构域。(1)模体搜索:基序(motif)是通过对一个蛋白质家族进行多序列比对检测出来的一种高度保守元件,通常对应于一些功能域和结构域。模体搜索的对象是序列中一些关键的保守氨基酸,忽略了其他位置的氨基酸多态性。PROSITE:一个蛋白质家族和结构域数据库。包括重要的位点、序列模式和序列表谱。
www.expasy.ch/prosite/
/tools/scanprosite/三蛋白质功能的预测和鉴定第七十四页,共一百八十三页,编辑于2023年,星期五PRINTSfingerprintDatabase:指纹图谱是用来描述蛋白质家族特征的一组保守模体组合。ioinf.man.ac.uk/dbbrowser/PRINTS/printsman.html/BLOCKS:通过一些高度保守的蛋白质区域比对出来的无空位的片断。
/Pfam:www.sanger.ac.uk/Software/Pfam/index.shtmlProdom:Prodes.toulouse.inra.fr/dom.htmlSMART:www.ebi.ac.uk/interpro/第七十五页,共一百八十三页,编辑于2023年,星期五(2)通过蛋白质结构性质比较,判断蛋白质的功能性质(图11)2其他功能序列分析信号肽:通过神经网络法进行预测(图12-2,3)SignalP,www.cbs.dtu.dk/services/SignalP
C:原始剪切位点的分值;S:信号肽分值;Y:综合的剪切位点分值。跨膜结构:根据跨膜蛋白质数据库Tmbase进行预测(图12-4),Tmpred,/software/TMPRED-form.html
第七十六页,共一百八十三页,编辑于2023年,星期五卷曲螺旋:算出相似性得分,与卷曲螺旋得分分布比较,得出概率。COILS,/software/COILS-form.html
糖基化位点:(图12-7),
www.cbs.dtu.dk/services/ProtParam,
www.expasy.ch/tools/protararm.html
第七十七页,共一百八十三页,编辑于2023年,星期五氨基酸序列通常被认为携带有蛋白质分子折叠成天然三维结构的所有必需信息,即蛋白质结构的形成是由热力学决定的。所以对给定的氨基酸序列,通过计算方法搜索其稳定结构从而预测其三维结构就成为可能。即根据热力学第一定律,建立从头预测的方法。但是,在生物学中,鲜有热力学第一定律的明确表述,所以基于知识的预测成为大多数核酸和蛋白质结构预测的主要方法。四蛋白质结构预测第七十八页,共一百八十三页,编辑于2023年,星期五1基于一级结构的蛋白质性质预测:(1)预测分子量,理论pI,氨基酸组成,原子组成,消光系数,半衰期,不稳定系数和总平均亲水性。
AAComldent:
www.expasy.ch/tools/aacomp/
(2)模拟处理提交的蛋白质序列,并对结果进行分析。
PeptideMass:
www.expasy.ch/tools/peptide-mass.html
提供的主要服务有:鉴定从2-D凝胶电泳中分离的蛋白质以及相关分析,为层析及沉降等实验提供参考数据。第七十九页,共一百八十三页,编辑于2023年,星期五(3)蛋白质疏水性分析:是二级和三级结构预测的一个必要的过程。一方面为二级结构预测提供参考,还可以为结构域及功能域划分提供依据。
ProtScale,www.expasy.ch/tools/pscale2二级结构的预测基于统计的方法:第一代是基于单个氨基酸残基统计分析;第二代是基于氨基酸片段的统计分析;第三代是应用蛋白质序列的长程信息和蛋白质序列的进化信息进行的分析。第八十页,共一百八十三页,编辑于2023年,星期五(1)Chou-Fasman法:基于单个残基统计
残基倾向性因子Pi=Ai/Ti,(i=α,β,t,c)Ti:所有被统计残基处于第i种构象态的分数,Ai:第A种残基的对应分数。Pi>1,该残基倾向于形成第i种构象态;Pi<1,该残基倾向于形成其他构象态。
转角参数:f(i),f(i+1),f(i+2),f(i+3)表现残基出现在转角第一、第二、第三和第四位的频率。
α螺旋规则:相邻的6个残基中如果至少有4个的Pα>1,则认为是螺旋核。从螺旋核向两端延伸,直至4肽片段Pα的平均值小于1为止。按此方式找到的片断长度大于5,并且Pα的平均值大于Pβ的平均值时,此片段为α螺旋。第八十一页,共一百八十三页,编辑于2023年,星期五
β折叠规则:相邻的6个残基中如果至少有4个的Pβ
>1,则认为是折叠核。折叠核向两端延伸,直至4肽片段Pβ的平均值小于1为止。若延伸后片段的Pβ的平均值大于1.05,并且Pβ的平均值大于Pα的平均值,则该片段为β折叠。转角规则:如果f(i)×f(i+1)×f(i+2)×f(i+3)大于7.5×10-5,四肽片段的平均值大于1,并且Pt的平均值大于Pα和Pβ的平均值,则该四肽片段为转角。重叠规则:假如预测出的螺旋区域和折叠区域存在重叠,而Pα的均值大于Pβ的均值,则预测为α螺旋,反之为β折叠。第八十二页,共一百八十三页,编辑于2023年,星期五(2)GOR法:认为中心残基左右各8个氨基酸的侧链都会影响二级结构,针对长度为17的残基窗进行二级结构预测。该方法的数学基础为条件概率。(3)最小临近法:从已知结构但不一定同源的蛋白质中,设定一定长度的滑动窗口搜索一些最相似的片段,用它们预测片段中心残基的二级结构。其他还有:基于氨基酸疏水性的预测方法;隐马尔可夫模型;人工神经网络法。
基于理论的方法:Lim法,Cohen法。
第八十三页,共一百八十三页,编辑于2023年,星期五人工神经网络法模拟神经传导方式建立的信息科学理论。三层式前传人工神经网络示意图 输入矢量Inp
偏置点隐含层 输出值Out第八十四页,共一百八十三页,编辑于2023年,星期五(1)前传计算:节点对输入值或激活值进行处理得到输出值根据输入值计算每个隐节点的激活值 激活值=∑(Inpiωij)-ω0i:输入单元;j:隐节点单元;ωij:权重因子(反映第i个输入对第j个节点的影响);ω0:内部阈值(偏置点的值)。对激活值取函数Sigmoid函数具有特殊优点,其极限为0(当x→-∞)和1(当x→+∞)。 f(x)=1/(1+e-x)第八十五页,共一百八十三页,编辑于2023年,星期五隐节点函数 yj=f(∑(Inpiωij)+ωme0
ωme0:隐含层偏置点权重。计算输出函数 Outk=f(∑(yjωki)+ωout0 =f{ωki[f(∑(Inpiωij+ωme0))+ωout0}(2)反向调节:训练。反向传播网络算法(back-propagationnetwork,BP),一般采用最小二乘法为目标函数 E=1/2[∑(Outk-Expk)2]第八十六页,共一百八十三页,编辑于2023年,星期五梯度下降法: 对某个处理单元,如果网络有K个训练样本Xk,对应的理想输出为Tk,网络的权值为W,该处理单元的均方误差为ε,则
ε=1/K∑(WXk-Tk)2 然后可以通过梯度下降法来修改权值 ∆W=W-η▽ε
η:步长,控制了权重的修改幅度,▽ε:ε对W所求的梯度。 梯度下降法最大的问题是不能保证收敛到全局最优。第八十七页,共一百八十三页,编辑于2023年,星期五3三级结构的预测(1)同源模建方法:对蛋白质数据库PDB的分析可以得到这样的结论:任何一对蛋白质序列的等同部分超过30%(序列比对长度大于80)时,它们具有相似的三维结构,只在非螺旋和非折叠区域的细节部分有所不同。如果两个蛋白质的氨基酸序列有50%相同,那么约有90%的α碳原子的位置偏差不超过3Å。通过比较未知和已知三级结构的蛋白质。基本过程:目标序列与模板序列匹配,目标蛋白质结构保守区的主链模建,侧链的安装和优化,变异区的主链模建,对模建结构进行优化和评估。第八十八页,共一百八十三页,编辑于2023年,星期五(2)折叠识别方法(线索化):序列的等同部分小于25%,但有同源空间结构的蛋白质属于远程同源。折叠识别方法的目标是为目标蛋白质(U)寻找合适的远程同源模板(T);将U的序列与T的结构进行比对(建立线索);在此基础上利用模板结构为U建立结构模型。(3)从头预测方法:根据天然构象对应自由能最低的假设预测。有:基于原子势能,基于平均势能,基于多重序列比对,分子动力学模拟,蒙特卡洛模拟,遗传算法。例:A蛋白质折叠的网络模型:H-P模型第八十九页,共一百八十三页,编辑于2023年,星期五基于3种简化:蛋白质中各个氨基酸残基的α碳原子都位于二维或三维网格的格点上,疏水作用是蛋白质折叠中唯一的重要因素,通过计算疏水残基接触数目代替构象的能量计算。每个H和H接触对能量的贡献都设为-1分(一级结构的接触除外)。最优的构象就是所有可能的构象中具有最多H和H接触的那个构象。位置表现:绝对方向表示法,二维模型以上、下、左、右(U、D、L、R),三维模型以上、下、左、右、前、后(U、D、L、R、F、B)表现。相对方向表示法,二维模型以左、右和前(L、R、F),三维模型以上、下、左、右、前(U、D、L、R、F)表现。第九十页,共一百八十三页,编辑于2023年,星期五B能量函数和优化:通过理论方法,针对范德华力、氢键、溶剂、静电和其他力对一个折叠蛋白质总体稳定性的相对作用来建立能量函数。目标是得到一个近似的能量函数或力场。能量的优化方法很多,常用的是梯度下降法。预测方法评价:一种方法是取已知结构的蛋白质,进行模拟结构预测,并将预测结构与真实结构比较。权威评判机构:CASP
hppt:///casp4/第九十一页,共一百八十三页,编辑于2023年,星期五4蛋白质家族分析:分类模型(1)按结构簇:全α,全β
,α+β,α/β(2)CATH:不考虑二级结构,仅根据结构域形态。分:构件,拓扑结构或折叠子,同源超家族,序列家族。(3)SCOP:在簇分类后,再进行折叠子(结构相似)、超家族(可能相同的进化起源)和家族(相同的进化起源)。(4)FSSP:通过优化拓扑循环定义的抽象折叠空间。分:折叠空间归顺区,折叠类型,功能家族,序列家族www.ebi.ac.uk/dali/index.html
第九十二页,共一百八十三页,编辑于2023年,星期五蛋白质家族分析方法:空间结构比对。比较蛋白质结构实际上是比较两个蛋白质中各个原子的空间位置。基本的方法是首先针对蛋白质中各个二级结构,检查它们出现的次数、类型及相对位置是否相似,然后再详细检查Cα原子之间的距离,分析这两个结构能以多大程度重叠在一起。结构比对工具:VAST:NCBI提供。DALI:FSSP提供。SSAP:CATH提供。第九十三页,共一百八十三页,编辑于2023年,星期五大分子结构数据库PDB:主要的蛋白质结构数据库。
/pdb/CATH:www.biochem.ucl.ac.uj/bsm/cathnew/dndex.htmlSCOP:scop.mrclmb.cam.ac.uk/scop/dndex.htmlFSSP:二级结构数据库
www.ebi.ac.uk/dali/fssp/3D-PSSM:www.sbg.bio.ic.ac.uk/~3dpssm/
分析工具:nnpredict:/~nomi/nnpredict.html第九十四页,共一百八十三页,编辑于2023年,星期五PredictProtein:www.embl-heidelberg.de/
fredictprotein/predictproteim.htmSWISS-Model
/swissmod/SWISS-Model.html
用具有蛋白质相似性的已知结构蛋白质来建立
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年 安康旬阳市直教育单位教师遴选考试试题附答案
- 2025年中国影视广告市场运行态势报告
- 中国无人机航测行业调查报告
- 中国化纤原料行业市场调查报告
- 多功能料理机项目投资可行性研究分析报告(2024-2030版)
- 2025年中国藻蓝蛋白行业市场运行现状及投资战略研究报告
- 2025年中国鲜脆榨菜芯行业市场发展前景及发展趋势与投资战略研究报告
- 中国海水养殖行业市场前景预测及投资战略研究报告
- 中国福建燃气行业调查报告
- 二氯二甲海因中间体行业深度研究分析报告(2024-2030版)
- 三、油气回收设备组成
- 空调服务技术保障及人员培训方案
- 医院导医服务礼仪
- 《交流耐压试验技术》课件
- 国开80646+24219Python语言基础复习题期末复习资料
- 医药产品经理职业规划
- 郑州航空工业管理学院《企业经营统计学案例》2022-2023学年第一学期期末试卷
- 四川省成都市(2024年-2025年小学五年级语文)统编版摸底考试((上下)学期)试卷及答案
- 汽车保险与理赔课件 8.2汽车水灾事故的预防与施救
- 手术室护理不良事件的管理
- 采购磁铁物料合同模板
评论
0/150
提交评论