生物信息学知识点_第1页
生物信息学知识点_第2页
生物信息学知识点_第3页
生物信息学知识点_第4页
生物信息学知识点_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物信息学名词解释:遗传图谱(geneticmap)物理图谱(physicalmap)重叠群(Contig)同线性(synteny)序列图谱转录图谱进化信息ORF开放阅读框序列比对(SequenceAlignment)一致性(identity)相似性(Similarity)同源性(Homology)直系同源(Orthologous)旁系同源(Paralogous)空位罚分(GapPenalties)低复杂度区域(Low-ComplexityRegion,LCR)双序列比对(PairwiseSequenceAlignment)命中点(hit)密码子偏好性(CodonUsagebias)同义密码子目标肽(Targetpeptide)信号肽(signalpeptide)系统发生学(phylogenetics)分子系统发生学(molecularphylogenetics)系统发生树(phylogenetictree)遗传漂变(Geneticdrift)分子进化速率选择压力(Selectivepressure)异系同源物(Xenolog)密码子使用的相对频率(RelativeSynonymousCodonUsage,RSCU)密码子适应指数(Codonadaptionindex,CAI)有效密码子数(EfectiveNumberofCodon,Nc)一、知识点:英文字母简称及其代表含义:EST表达序列标签(从cDNA文库中获得的短序列)SNP单核苷酸序列多态性SRA序列读取片段,效率高错误率高RFLP限制性片段长度多态性VNTR可变串联重复STR简短串联重复HGP序列标记位点STS(单拷贝)Contig重叠群(跨叠克隆群)CDS编码区Basepair碱基对TSS转录起始ORF开放阅读框UTR非编码区RGP水稻基因组计划HGP人类基因组计划ENCODE:DNA元件百科全书计划MSP:最大片段对,maximalsegmentpair生物信息学引论1、遗传图谱、序列图谱、Contig、同线性的概念理解2、人类基因组计划的一些关键数字:1990年启动、2001年发表草图、2003年完成、2004年完成图公布,预计15年时间(1990~2005)至少投入30亿美元,完成人全部24(22+X+Y)条染色体中3.2×109个碱基对的序列测定。3、克雷格·文特尔完成第一个自由生物体流感嗜血菌全基因组测序4、HGP选择作为研究人类的四大“模式生物”5、序列图谱、重叠群Contig的概念6、1970年Needleman和Wunsch提出了序列比对算法第三章生物信息学的生物学基础1、主要模式生物拉丁文人Homosapiens、小鼠Musmusculus、水稻Oryzasativa、噬菌体Bacteriophage、酵母Saccharomycescerevisiae、大肠杆菌Escherichiacoli、非洲爪蟾Xenopuslavias秀丽线虫Caenorhabitidiselegans、斑马鱼Daniorerio、果蝇Drosophilamelanogaster、拟南芥Arabidopsisthaliana三主干六界说(有局限性,没有病毒)四大“模式生物”核酸和蛋白质至少携带三种信息:遗传信息、结构信息、进化信息5、生物信息数据库中的核苷酸代码6、FASTA格式中氨基酸表示方法7、ORF开放阅读框的概念第四章生物信息学数据库资源1、序列数据库(基因组、核酸和蛋白质)结构数据库(核酸、蛋白质)功能数据库注:课件上列举的各大数据库类型GENBANK查询检索是Entrez检索系统。EMBL查询检索可以通过网上的序列提取系统(SRS)服务完成。UniMES是专门为宏基因组学和环境数据开发了一个资料库。PubMed限制字段类别有:author[AU]Title[TI]Abstract[TIAB]date[DP]Journal[TA]GenBank检索结果的显示有哪三种格式GenBank分类码GenBank中特性关键词(Featurekey)的含义promoter转录起始区precursor_RNA前体RNAmRNA信使RNA5'UTR5’非翻译区3'UTR3’非翻译区exon外显子CDS蛋白质编码序列intron内含子polyA_siteRNA转录本的多聚腺苷酸化位点目前人类基因组拼接序列有五种,命名为hg(humangenome缩略名)后接编号,最新的数据是hg38,发布日期为2013年12月其他数据库(用途)PBL及学习视频中介绍的数据库(1)MGI(MouseGenomesInformatics)同源性、等位基因、基因表达、定位TCGA(TheCancerGenomeAtlas)肿瘤基因组图谱GEOProfiles基因表达HomoloGene:是一种用于检测真核基因集之间的同源关系的数据库。Addgene数据库:它作为一个公益性组织,负责保存和提供质粒。(6)Unigene:自动地将GenBank中的序列聚类为面向基因的非冗余的数据集。(7)ENSEMBL:用于基因树、mRNA剪接体、基因表达、启动子查找(8)Uniprot:是一个集中收录蛋白质资源并能与其它资源相互联系的数据库。(9)PDB:蛋白质晶体结构资料数据库(ProteinDataBank)。(10)GeneCard基因基本信息、基因调控信息、基因蛋白信息、蛋白质互作(11)miRBase:是储存miRNA信息最主要的数据库之一(12)ExPASy:ExpertProteinAnalysisSystem蛋白质组学分析平台(13)KEGG:大型分子数据集生成的基因组测序和其他高通量实验技术的实用程序数据库资源DNA与蛋白质序列比对1、序列比对(SequenceAlignment)、一致性(identity)、相似性(Similarity)、同源性(Homology)、直系同源(Orthologous)、旁系同源(Paralogous)、空位罚分(GapPenalties)、低复杂度区域(Low-ComplexityRegion,LCR)、双序列比对(PairwiseSequenceAlignment)、命中点(hit)的英文要认识、概念2、实际上在不同物种间也叫旁源基因,eg同是起源于珠蛋白的小鼠的α球蛋白和鸡的β球蛋白。3、转换、颠换:环数改变:颠换,不易发生。环数不变:转换,易发生。4、PAM矩阵(PointAcceptedMutation,可接受的点突变)5、BLOSUM矩阵(BlocksSubstitutionMatrix模块替换矩阵)6、如何选择合适的打分矩阵?一般来说,在局部相似性搜索上,BLOSUM矩阵较PAM要好当比较距离相近的蛋白时,应选择低的PAM或高的BLOSUM矩阵;当比较距离较远的蛋白时,应选择高的PAM或低的BLOSUM矩阵对于数据库搜索来说一般选择BLOSUM62矩阵PAM矩阵可用于寻找蛋白质的进化起源,BLOSUM用于发现蛋白质的保守域“矩阵作图法”或“对角线作图”1970年Gibbs首先提出点阵序列比较中:反向序列:反对角线出现一条线相同序列:对角线出现一条序列正向重复:重复的平行于对角线连线,表示这两条序列内部含有重复片段全局规划动态规划算法、局部规划动态规划算法最优路径求解(大题)PSI-BLAST对于发现远亲物种的相似蛋白或某个蛋白家族的新成员非常有效。Blast数据库序列的列表:HighscoreslowEvaluesBLAST搜索策略序列特征分析1、GC含量的应用:用于引物设计、杂交2、密码子偏好性(CodonUsagebias)名词解释3、分析密码子使用偏好性的方法①密码子使用的相对频率(RelativeSynonymousCodonUsage,RSCU)②密码子适应指数(Codonadaptionindex,CAI)③有效密码子数(EfectiveNumberofCodon,Nc)蛋白质磷酸化位点分析:蛋白质磷酸化位点数据库收集以用实验证实的数据RNA的二级结构元件(图记住,英文要认识)第七章分子系统发生分析1、系统发生学(phylogenetics)、分子系统发生学(molecularphylogenetics)、系统发生树(phylogenetictree)、遗传漂变(Geneticdrift)、分子进化速率、选择压力(Selectivepressure)、异系同源物(Xenolog)的概念、认识这些概念的英文2、几个重要的理解a根据各个不同对物种计算出来的同源生物大分子的分子进化速率大致相等。b不同源分子不同,因为选择压力不同。c一个大分子内部功能变化比较慢,功能越重要变化越慢d分子进化速率远比表型进化速率稳定。e一般认为,同义突变不受自然选择,而非同义突变则受到自然选择作用。f内含子上的突变频率很高3、构建系统发生树的原则(1)计算速度:距离法>最大简约法MP>最大似然法ML(2)如果模型合适,ML的效果较好。(3)近缘序列,可采用MP法,因为用的假设最少。(4)远缘序列,一般用NJ或ML。4、MEGA建树步骤习题选择:1、获得迄今最详细的人类基因组分析数据的后基因组时代的计划是(A),该计划发现大约76%的基因组DNA都会被转录为一种或另一种RNA。A、ENCODEB、人类微生物组计划C、国际千人基因组计划D、国际肿瘤基因组计划为绘制迄今为止最详尽的、最有医学应用价值的人类基因组遗传多态性图谱,启动了(B)A、ENCODEB、人类微生物组计划C、国际千人基因组计划D、国际肿瘤基因组计划3、1995年,第一个自由生物体流感嗜血菌全基因组测序完成,这位科学家是(A)克雷格·文特尔(CraigVenter)B、查尔斯·德利思(CharlesDeLisi)C、WatsonD、国际肿瘤基因组计划在(C)年Needleman和Wunsch提出了著名的序列比对算法,是生物信息学发展中最重要的贡献。A、1990B、2001C、1970D、1988进行基因调控信息分析研究的是(B)A、结构基因组学B、功能基因组学C、比较基因组学D、以上都是6、ORF是(C)编码区B、转录起始C、开放阅读框D、非编码区7、人类研究得最为详尽的模式生物(D)A、酵母B、线虫C、果蝇D、大肠杆菌8、UTR的含义是(B)A、编码区B、非编码区C、低复杂度区域D、开放阅读框9、生物分子数据库中二级数据库相比于以及数据库(D)A、数据量大,更新速度快B、数据量小,更新速度快C、数据量大,更新速度慢D、数据量小,更新速度慢10、UniProt中专门为宏基因组学和环境数据开发的一个资料库是(D)A、UniProtKBB、UniParcC、UniRefD、UniMES11、以下属于基因组数据库的是(A)A、EnsemblB、EMBLC、TrEMBLD、UniProt12、GenBank分类码中ROD是(C)A、灵长类动物序列B、植物、真菌和藻类序列C、啮齿类动物序列D、基因组测定序列13、Genbank中的145^177表示(A)A、145和177碱基之间的某个位点B、145和177碱基在内的一段连续序列C、145和177碱基D、145和177碱基之间的限制性酶切位点14、以下哪个数据库可以专门提供质粒(A)AddgeneTCGAGEOProfilesKEGG15、蛋白质晶体结构资料数据库是(B)TCGAPDBUniProtENSEMBL16、以下是研究蛋白质组学分析的平台是(A)A、ExPASyB、miRBaseC、AddgeneD、MGI17、同是起源于珠蛋白的小鼠的α珠蛋白与鸡的β珠蛋白是(B)直系同源旁系同源垂直同源18、序列比对字符编辑操作中在第二条序列相应的位置插入空白字符是以下哪种编辑形式(B)A、MatchB、DeleteC、ReplaceD、Insert19、多序列比对中,如果两个序列长度差异很大,而且其中某一段区域相似时应采用(A)局部序列比对全局序列比对C、遗传算法D、基于一致性的方法20、ClustalW是目前最流行的基于全局比对算法中(C)的软件A、基于一致性的方法B、动态规划算法C、渐进的多序列比对D、迭代法21、以下有关GC含量错误的是(B)A、GC含量是指GC百分比含量B、在原核生物不同物种含量差异不大C、GC含量可以用于引物设计D、在真核生物、原核生物中差异大22、Tmpred是分析蛋白质跨膜区的在线工具,得分大于(C)的跨膜螺旋才考虑是有意义的。A、100B、300C、500D、70023、用于分子进化分析的序列必须是(A)才能真实反映进化过程?直系同源旁系同源异系同源物填空HGP最初计划用______年时间至少投入____美元,实际上是于______年启动、______年发表草图、______年完成、______年公布完成图。人类基因组计划测定了人全部染色体中__________个碱基对如果生物之间存在很近的亲缘关系,那么它们的基因组就会表现出_______,即基因序列的部分或全部保守。4、HGP四大“模式生物”:_______、_______、_______、_______。5、写出下列主要模式生物拉丁文对应的中文名:Homosapiens_______、Musmusculus_______、Oryzasativa_______Saccharomycescerevisiae_______、Escherichiacoli_______、Xenopuslavias_______、Caenorhabitidise

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论