ILKAP基因及蛋白质的生物信息学分析_第1页
ILKAP基因及蛋白质的生物信息学分析_第2页
ILKAP基因及蛋白质的生物信息学分析_第3页
ILKAP基因及蛋白质的生物信息学分析_第4页
ILKAP基因及蛋白质的生物信息学分析_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ILKAP基因及蛋白质的生物信息学分析ILKAP基因及蛋白质的生物信息学分析ILKAP基因及蛋白质的生物信息学分析ILKAP基因及蛋白质的生物信息学分析编制仅供参考审核批准生效日期地址:电话:传真:邮编:目录摘要 -1-Abstract -2-1前言 -3-2相关知识的简介 -5-生物信息学简介 -5-数据库简介 -5-相关分析软件及网站 -6-本研究的目的与意义 -6-3方法与分析 -7-ILKAP基因及蛋白质一级结构分析 -7-ILKAP基因cDNA的成分分析 -7-开放阅读框查找分析 -8-ILKAP蛋白质一级结构分析 -10-ILKAP蛋白质二级结构分析 -10-ILKAP蛋白质二级结构 -10-跨膜结构域分析 -12-蛋白的卷曲螺旋结构预测 -12-信号肽预测 -13-蛋白质的疏水性预测分析 -14-蛋白质结构域预测分析 -15-ILKAP蛋白质三级结构预测分析 -16-序列相似性分析 -17-4结论与讨论 -20-结论 -20-讨论 -20-ILKAP基因及蛋白质的生物信息学分析摘要整合素连接激酶相关丝氨酸/苏氨酸磷酸酶(integrin-linkedkinase-associatedserine/threoninephosphatase,ILKAP)是近年来发现的一种重要的蛋白磷酸酶。本论文利用NCBI数据库,DNAman,DNASTAR-Lasergene等相关的生物信息学软件及相应的生物信息学分析网站,对大鼠进行基因和蛋白质结构的预测和分析,结果表明:ILKAP基因序列全长1318bp,包含一个46~1224bp的开放阅读框,编码一个由392个氨基酸残基组成的蛋白质,主要由α螺旋(146个)、无规则卷曲(149个)和少量的折叠(69个)构成。ILKAP在哺乳动物中高度保守,人与大鼠、小鼠以及大鼠与小鼠之间的同源性分别高达95%、95%、97%。ILKAP蛋白具有PP2C结构域,结合结构域的功能和其他物种中的ILKAP的功能,综合分析ILKAP可能与细胞凋亡的密切联系,而凋亡信号的阻断,导致了肿瘤的发生与发展。关键词:ILKAP,生物信息学,核酸和蛋白质分析,同源性AbstractIntegrin-linkedkinase-associatedserine/threoninephosphatase(ILKAP)isfoundinrecentyearsofakindofimportantproteinphosphatase.ThispaperusetheNCBIdatabase,DNAman,DNASTAR-Lasergeneandrelatedbioinformaticssoftwareandcorrespondingbioinformaticsanalysiswebsite,onRattusnorvegicusgeneandproteinstructurepredictionandanalysis,theresultsshowthat:TheILKAPgenesequenceofthefull-length1318bp,containsa46~1224bpopenreadingframe,encodingaconsistsof392aminoacidresiduesofproteins,mainlycomposedofanalphahelix(146),withouttherulesofcurling(149)andasmallamountoffolding(69).ILKAPinmammalsishighlyconserved,thehomologybetweenthemanandRattusnorvegicus,MusmusculusandRattusnorvegicusandMusmusculuswereashighas95%,95%,97%.ILKAPproteinhasaPP2Cdomain,bindingdomainofthefunctionandotherspeciesintheILKAPfunction,comprehensiveanalysisofILKAPmaybeassociatedwithapoptosisinclosecontact,andapoptoticsignalblocking,resultedintumorgenesisanddevelopment.Keywords:ILKAP,Bioinformatics,Nucleicacidandproteinanalysis,homology1前言整合素连接激酶相关丝氨酸/苏氨酸磷酸酶integrin-linkedkinase-associatedserine/threonine(ILKAP)是近年来发现的一种重要的蛋白磷酸酶。从它被发现开始就显示出其与细胞凋亡的密切联系,而凋亡信号的阻断,导致了肿瘤的发生与发展。ILKAP主要通过抑制整合素连接激1(integrin-linkedkinase-1,ILK-1)的活性负调控整合素激酶信号通路,以及通过去磷酸化凋亡信号调节激酶1(apoptosissignal-regulatingkinase1,ASK1)的Thr845正调控JNK/SAPK信号通路而发挥作用。而这两条信号通路与肿瘤的发生、发展都有非常密切的关系。ILKAP最初是在大鼠中发现的一种蛋白质,这种蛋白质与大鼠PP2Cα或PP2Cβ有30%左右的序列同源性,并且它的C端片段具有蛋白磷酸酶2C结构域,但是其N端的76个氨基酸残基是其特有的,与目前所发现的任何一种蛋白质都没有同源性。后来将其列入PP2C蛋白家族,ILKAP由392个氨基酸残基组成,相对分子量约为43kDa,包含N端特异的76个氨基酸残基以及C端的PP2C类催化结构域。ILKAP在各种组织中均有广泛的表达,尤其是在骨骼肌,肝脏,肾脏中都有高水平的表达。ILKAP在哺乳动物中高度保守,ILKAP所包含的PP2C结构域,与PP2Cα,Cβ,PP2Cγ所包含PP2C结构域的同源性分别为31%、29%、38%,而大鼠、小鼠以及大鼠与小鼠之间的同源性分别高达95%、95%、97%。ILKAP的C端大部分片段要是PP2C结构域,并包含了PP2C结构域共有的全部11个保守的活性位点,使ILKAP具备了丝氨酸/苏氨酸蛋白磷酸酶的催化活性。研究发现,东方田鼠抗日本血吸虫抗性相关基因E77.43ORF编码的产物为整合素连接激酶相关丝氨酸/苏氨酸磷酸酶,与之相互作用的蛋白为整合素连接蛋白激酶(integrin-linkedproteinkinase,ILK)。而现有研究表明,ILKAP在细胞生长与凋亡的调控过程中起重要作用。E77.43编码的产物可能为ILKAP基因在东方田鼠中的同源基因。PP2C的生理功能主要是通过去磷酸化作用负调控蛋白激酶级联信号系统,从而参与细胞周期调控、信号转导、基因转录、蛋白质翻译及翻译后修饰等细胞过程。ILKAP是PP2C的成员之一,作为一种抑癌基因,在肿瘤的发生发展中有其重要作用。它的主要生理功能是介导细胞凋亡,与肿瘤的发生、发展密切相关。了解ILKAP的基因各种信息,掌握其一级结构和高级结构对研究肿瘤发生及细胞凋亡有重要作用,研究其各种生物信息进行分析,并与其他物种的ILKAP进行对比,这将为各种抗癌的生物制药提供重要线索。本研究主要通过所学的生物学知识,在导师的带领和指导下,运用现代计算机技术,网络资源,相关的在线分析软件和图书馆等平台,完成ILKAP的生物学信息分析,掌握现代生物信息学分析技能。2相关知识的简介生物信息学简介生物信息学是一门交叉学科。它包含了生物信息的获取、管理、分析、解释和应用在内的所有方面。它综合运用生物学、计算机科学和数学等多方面知识与方法,来阐明和理解大量生物数据所包含的生物学意义,并应用于解决生命科学研究和生物技术相关产业中的各种问题。生物信息学主要有三个组成部分:建立可以存放和管理生物信息数据的数据库;研究开发科利用有效分析与挖掘生物学数据的方法、算法和软件工具;使用这些工具去分析和解释不同类型的生物学数据,包括DNA、RNA和蛋白质序列、蛋白质结构、基因表达及生化途径等。生物信息学这个术语从20世纪90年代开始使用,最初主要指的是DNA、RNA及蛋白质序列的数据管理和分析。自从20世纪60年代就有了序列分析的计算机工具,但是那时并未引起人们很大的关注,直到测序技术的发展使GenBank之类的数据库中存放的序列数量出现了迅猛的增长。现在该术语已扩展到几乎覆盖各种类型的生物学数据,如蛋白质结构、基因表达和蛋白质互作等。数据库简介据保守估计,目前世界上平均每一分钟就有一个序列增加到核酸序列数据库中,能够从飞速增长的序列数据更高效的提取信息,建立生物信息中心,通过互联网实现全球范围内的信息共享成为必然。欧美各国及日本等西方国家相继成立了生物信息资源和研究中心,如美国国家生物技术信息中心(NationalCenterforBiotechnologyInformation,NCBI)、位于英国的欧洲生物信息研究所(EuropeanBioinformaticsInstitute,EBI)、位于瑞士日内瓦的蛋白质专家分析系统(TheExpertProteinAnalysisSystem,ExPaSy)、日本国立遗传学研究院(NationalInstituteGenetics,简称NIG)等。以西欧各国为主的欧洲分子生物学网络组织(EuropeanMolecularBiologynetwork,EMBnet),成立于1988年,是目前国际上最大的分子生物信息研究、开发和服务机构。它把欧洲乃至世界各国的生物信息中心联系在一起,实现信息共享,并合作进行开发、研究、培训。相关分析软件及网站序列分离软件:GeneStudio序列翻译软件:Editseq序列拼接软件:DNASTAR-Lasergenev6开发阅读框:美国国立生物技术信息中心(NCBI):.卷曲螺旋结构预测软件:信号肽预测软件:跨膜结构预测软件:html一级结构:二级结构:三级结构:蛋白质数据库或DNA数据库中进行相似性比较的分析(BLAST):本研究的目的与意义一、课题目的(1)对ILKAP的基因及蛋白质氨基酸序列组成进行生物信息学分析。(2)通过本论文的实施,熟悉NCBI进行生物信息学检索。掌握重要生物信息学分析软件,进行生物信息学分析。二、课题意义ILKAP作为一种抑癌基因,在肿瘤的发生发展中有其重要作用,了解ILKAP的基因各种信息,掌握其一级结构和高级结构对研究肿瘤发生及细胞凋亡有重要作用。通过所学的生物学知识,在导师的带领和指导下,运用现代计算机技术,网络资源,相关的在线分析软件和图书馆等平台,掌握现代生物信息学分析技能。ILKAP是一种蛋白磷酸酶,与细胞调亡密切相关,研究其各种生物信息进行分析,并与其他物种的ILKAP进行对比,这将为各种抗癌的生物制药提供重要线索。3方法与分析ILKAP基因及蛋白质一级结构分析ILKAP基因cDNA的成分分析先在NCBI中检索出ILKAP的核酸序列,然后采用DNASTAR软件中的Editseq程序,分析cDNA的碱基组成。结果如下:(1)碱基序列>lcl|[gene=Ilkap][location=1..1318]CGCCGCCCAGGCTAGCGCGAGCCTCCGCTCCATCGCCCCGCCGCCATGGACCTATTCGGGGACTTGCCGGAGCCCGAGCGCCCGCCGCGGCCGTCTGCCGGGAAAGAAGCACAGGAAGGACCCGTGCTCTTCGAGGACCTGCCCCCGACCAGCAGTACTGACTCAGGATCTGGGGGACCTTTACTCTTTGATGGTCTTCCACCTGCTGGCAGCGGCAATTCAGGTTCTCTTGCCACATCAGGCTCCCAGGTGGTGAAGAACGAAGGAAAAGGAGCAAAGAGGAAAGCCCCTGAGGAAGAGAAGAATGGCGGTGAAGAGCTTGTGGAAAAGAAAGTTTGTAAAGCCTCTTCGGTGATCTTTGGTTTGAAAGGCTACGTGGCAGAGCGGAAGGGTGAGAGGGAGGAGATGCAGGACGCCCATGTCATCCTGAATGATATCACTCAGGAGTGTAATCCTCCATCATCTCTCATTACTCGGGTTTCATACTTTGCTGTTTTTGATGGACATGGAGGAATTCGAGCCTCGAAATTTGCTGCACAGAATTTGCACCAGAACTTAATCAGGAAATTTCCTAAAGGAGATGTAATCAGTGTGGAGAAGACTGTGAAGAGGTGCCTGCTAGATACTTTTAAGCACACCGATGAAGAGTTCCTGAAACAGGCTTCAAGCCAGAAGCCTGCCTGGAAAGACGGGTCCACTGCCACGTGTGTCCTGGCTGTGGACAACATCCTGTATATCGCCAACCTTGGAGATAGTCGGGCAATCCTGTG(2)碱基成分Totalnumberofbasesis1318%A=[323]%G=[387]%T=[293]%C=[315]%A+T=[616]%C+G=[702]BASECOUNT323a315c387g293t开放阅读框查找分析对ILKAP拼接全长cDNA序列用NCBIORFfinder(进行开放阅读框分析,输入检索号即可。见图1,大鼠ILKAP基因的开放阅读框为46~1224bp。46atggacctattcggggacttgccggagcccgagcgcccgccgcggMDLFGDLPEPERPPR91ccgtctgccgggaaagaagcacaggaaggacccgtgctcttcgagPSAGKEAQEGPVLFE136gacctgcccccgaccagcagtactgactcaggatctgggggacctDLPPTSSTDSGSGGP181ttactctttgatggtcttccacctgctggcagcggcaattcaggtLLFDGLPPAGSGNSG226tctcttgccacatcaggctcccaggtggtgaagaacgaaggaaaaSLATSGSQVVKNEGK271ggagcaaagaggaaagcccctgaggaagagaagaatggcggtgaaGAKRKAPEEEKNGGE316gagcttgtggaaaagaaagtttgtaaagcctcttcggtgatctttELVEKKVCKASSVIF361ggtttgaaaggctacgtggcagagcggaagggtgagagggaggagGLKGYVAERKGEREE406atgcaggacgcccatgtcatcctgaatgatatcactcaggagtgtMQDAHVILNDITQEC451aatcctccatcatctctcattactcgggtttcatactttgctgttNPPSSLITRVSYFAV496tttgatggacatggaggaattcgagcctcgaaatttgctgcacagFDGHGGIRASKFAAQ541aatttgcaccagaacttaatcaggaaatttcctaaaggagatgtaNLHQNLIRKFPKGDV586atcagtgtggagaagactgtgaagaggtgcctgctagatacttttISVEKTVKRCLLDTF631aagcacaccgatgaagagttcctgaaacaggcttcaagccagaagKHTDEEFLKQASSQK676cctgcctggaaagacgggtccactgccacgtgtgtcctggctgtgPAWKDGSTATCVLAV721gacaacatcctgtatatcgccaaccttggagatagtcgggcaatcDNILYIANLGDSRAI766ctgtgtcgatataacgaggaaagtcaaaagcatgcagccttaagcLCRYNEESQKHAALS811ctcagcaaagagcacaatccaactcagtatgaagagcgcatgaggLSKEHNPTQYEERMR856atacagaaggctggaggcaatgtcagagatggccgtgtcttgggtIQKAGGNVRDGRVLG901gtgctggaggtatcccgctccattggagatgggcagtacaagcgtVLEVSRSIGDGQYKR946tgcggggtcacatccgtgcctgatatcagacgctgccagttgaccCGVTSVPDIRRCQLT991cccaatgacaggttcattttgctggcttgtgatgggctcttcaagPNDRFILLACDGLFK1036gtctttaccccagaagaagctgtgaacttcatcttgtcctgccttVFTPEEAVNFILSCL1081gaggatgagaagatccagacccgagaagggaagcctgctgttgatEDEKIQTREGKPAVD1126gcccgctatgaagctgcatgcaacaggctggctaacaaggcagtgARYEAACNRLANKAV1171cagcggggctcggcagataacgtgacggtgatggtggtgaggataQRGSADNVTVMVVRI1216ggacactga1224GH*图1ILKAPORF预测图ILKAP蛋白质一级结构分析(1)氨基酸序列利用DNASTAR软件中的Editseq程序,放入基因序列,选中开放阅读框检索出氨基酸序列,结果如下:MDLFGDLPEPERPPRPSAGKEAQEGPVLFEDLPPTSSTDSGSGGPLLFDGLPPAGSGNSGSLATSGSQVVKNEGKGAKRKAPEEEKNGGEELVEKKVCKASSVIFGLKGYVAERKGEREEMQDAHVILNDITQECNPPSSLITRVSYFAVFDGHGGIRASKFAAQNLHQNLIRKFPKGDVISVEKTVKRCLLDTFKHTDEEFLKQASSQKPAWKDGSTATCVLAVDNILYIANLGDSRAILCRYNEESQKHAALSLSKEHNPTQYEERMRIQKAGGNVRDGRVLGVLEVSRSIGDGQYKRCGVTSVPDIRRCQLTPNDRFILLACDGLFKVFTPEEAVNFILSCLEDEKIQTREGKPAVDARYEAACNRLANKAVQRGSADNVTVMVVRIGH(2)基因所编码蛋白质的特征分析利用将所得的氨基酸进行分析,发现氨基酸数:392;理论PI;负电荷数:54;正电荷数:53;分子式:C1859H2992N542O585S14总原子数:5992;估计半衰期:30h;不稳定指数:;脂肪指数:;总平均亲水性:。(3)氨基酸组成见表1表1氨基酸组成成分氨基酸Ala(A)Arg(R)Asn(N)Asp(D)Cys(C)Gln(Q)Glu(E)Gly(G)His(H)Ile(I)数量3124172210153235717百分率%%%%%%%%%%氨基酸Leu(L)Lys(K)Met(M)Phe(F)Pro(P)Ser(S)Thr(T)Trp(W)Tyr(Y)Val(V)数量32284142129161729百分率%%%%%%%%%%ILKAP蛋白质二级结构分析ILKAP蛋白质二级结构进入网站输入氨基酸序列于框中,提交,结果见图2。MDLFGDLPEPERPPRPSAGKEAQEGPVLFEDLPPTSSTDSGSGGPLLFDGLPPAGSGNSGSLATSGSQVVhhhetccccccccccccccccccccceeeeccccccccccccccceeetcccccccccccccccchhhhhKNEGKGAKRKAPEEEKNGGEELVEKKVCKASSVIFGLKGYVAERKGEREEMQDAHVILNDITQECNPPSShhhcttccccchhhhhhhhhhhhhhhhhhtccheeehhhhhhhhtcchhhhhhhhhhhhhhcccccccccLITRVSYFAVFDGHGGIRASKFAAQNLHQNLIRKFPKGDVISVEKTVKRCLLDTFKHTDEEFLKQASSQKccccceeeeeectttcchhhhhhhhhhhhhhhhhcccccccchhhhhhhhhhhhhhhhhhhhhhhhhtccPAWKDGSTATCVLAVDNILYIANLGDSRAILCRYNEESQKHAALSLSKEHNPTQYEERMRIQKAGGNVRDccccttccheeeeeetteeeeecccccheeeeetccccccceeeeeeccccccchhhhhhhhhttceeetGRVLGVLEVSRSIGDGQYKRCGVTSVPDIRRCQLTPNDRFILLACDGLFKVFTPEEAVNFILSCLEDEKItceeeeeehhhhttccccccceeecccccceeeccttcheeeeetttcheeccchhhhhhhhhhhhhhhhQTREGKPAVDARYEAACNRLANKAVQRGSADNVTVMVVRIGHHccccccchhhhhhhhhhhhhhhhhhttcccceeeeeeeecc注:H代表螺旋,E代表折叠,C代表卷曲结构。Alphahelix(Hh)α螺旋:146is%Randomcoil(Cc)无规卷曲:149is%Extendedstrand(Ee)β折叠片:69is%图2ILKAP蛋白二级结构预测结果α螺旋又称螺旋,它是由氢键封闭的13元环,每圈螺旋占个氨基酸。α螺旋由于与溶剂的作用或中间有脯氨酸等也会发生弯曲。不同的残基对于α螺旋中间部位及N端或C端出现的倾向性不同。β折叠片是带状的β折叠股间形成氢键而构成的,在氨基酸序列上往往是不连续的,几乎所有的β折叠片在沿着β折叠股的方向均发生右手的扭曲,在β折叠股间形成左手的扭曲,某些残基倾向于出现β折叠中,β-转角是由第一个残基的C=O与第四个残基的N-H氢键结合而形成一个紧密的环无规卷曲泛指那些不能被归入明确的二级结构的多肽区段。预测结果显示,组成ILKAP蛋白的392个氨基酸中,146个氨基酸可能形成α螺旋结构,69个氨基酸可能形成β折叠片,149个氨基酸可能形成无规卷曲。ILKAP蛋白以三种形式存在,α螺旋,β-折叠,无规则卷曲。其中α螺旋,无规则卷曲占主要地位。跨膜结构域分析进入网站,输入氨基酸序列,提交,结果见图3,结果预测显示ILKAP蛋白质无跨膜结构域。图3ILKAP蛋白质跨膜结构域预测结果蛋白的卷曲螺旋结构预测进入网站,放氨基酸序列于框内,提交,结果见图4。结果显示,存在两个卷曲螺旋结构,区域在110~140、340~390位置,但通过跨膜结构分析知道在这些区域里并没有跨膜结构,所以,这些区域可能是其他的功能区域。图4ILKAP蛋白质卷曲螺旋结构预测图信号肽预测进入网站,放氨基酸序列于框内,提交,结果见图5。结果预测显示,没有信号肽,该蛋白质不是分泌蛋白。max.C38max.Y38max.S8meanS1-37D1-37NO图5ILKAP蛋白质信号肽预测图蛋白质的疏水性预测分析进入网站,放氨基酸序列于框内,提交,结果见图6。蛋白质的疏水性分析是蛋白质二级结构和三级结构预测中的一个必要过程,通过分析可以得到蛋白质的亲疏水区域,一方面可以为二级结构预测结果提供参考,另一方面还可以为结构域以及功能域的划分提供依据。20种氨基酸的预测图及疏水参数见下表。(高正值的氨基酸具有更大的疏水性,而低负值的氨基酸则更加亲水。)表220种氨基酸的预测图及疏水参数AlaArgAsnAspCysGlnGluGlyHisIleLeuLysMetPheProSerThrTrpTyrVal图6ILKAP蛋白质的疏水性预测图从表中及图中可以看出整个蛋白质疏水性最大值为。最小值为。在320~349区域氨基酸的疏水性最强。其次是220~230区域、390~395区域、100~110区域具有一定的疏水性。表现出整体具有一般的疏水性。蛋白质结构域预测分析结构域是在二级结构或超二级结构的基础上形成三级结构的局部折叠区,一条多肽链在这个域围内来回折叠,但相邻的域常被一个或两个多肽片段连结。通常由50~300个氨

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论