下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
PAGEPAGE1生物信息学资料一.什么是生物信息学?答:它是利用计算机对生命科学工作者研究的生物作息进行存储、检索和分析的科学。现代生物信息学的定义:是现代生命科学与信息科学、计算机科学、数学、统计学、物理学、化学等学科相互渗透而形成的交叉学科,是应用计算机技术和信息论方法采集、存储、传递、检索、分析和解读蛋白质及核酸序列等各种生物信息,以帮助了解生物信息学和遗传学信息的科学。真核生物基因组的结构特点:1多基因家族:指由一共同祖先基因经过重组和变异所产生的一组基因,并成簇分布,其成员成簇集中在一条染色体上,也可以散布在不同的染色体上。2多重复序列:1)高度重复序列:反向重复序列、卫星DNA、a-卫星DNA、端粒DNA2)中度重复序列3转座因子:在DNA分子内部或两个DAN分子之间移动的DNA片段4单拷贝序列:多为结构基因,两侧为间隔序列和散在分布的重复序列。5DNA多态性:1)DNA多态性:限制性片段长度的多态性、高度可变区的DNA、单个核苷酸多态性2)DNA指纹图谱:一种特殊的RFLP使用小卫星DNA作为探针,与某种限制性酶酶切后,并经电泳分离的基因组DNA进行分子杂交,在放射自显影的X光片上,每个个体都可呈现不同长度片段的杂交显影带。三.真核生物的基因结构:1.5’UTR区:1)启动子:基因DNA中一段特定的核苷酸序列,是RNA聚合酶在起始时对模板DNA的识别部位,也是转录起始时RNA聚合酶对模板DNA的结合部位,因此,是转录过程是否起始的决定部位。2)增强子:约200bp,为远距离作用,距离靶基因可几十个kb,可位上、下游或基因内部,无基因特异性,对各种基因的启动子都可以发挥作用,常和多种转录调节蛋白结合后发挥作用。2转录起始点:是模板DNA转录区中的第一个核苷酸,常标以+1,往后类推。3起始密码子:如ATG(编码甲硫氨酸)4编码区:基因通过信使RNA来进行蛋白质的合成,信使RNA包含对应蛋白质氨基酸序列的一段核苷酸序列。5终止子:终止子在3’端终止密码的下游有一个核苷酸顺序为AATAAA,这一顺序可能对mRNA的加尾有重要作用。AATAAA顺序和它下游的反向重复顺序合称终止子,是转录终止的信号。终止密码子有TGA、TAA、TAG。63’UTR区,就是结束转录过程的信息。生物信息数据库:答:1.生物信息学数据库的类型:1)一级数据库:记录实验结果和一些初步的解释。2)二级数据库:从生物大分子序列、结构、功能数据库中提取有用的信息。2.核酸序列数据库:1.)GenBank序列数据库,由国立生物技术信息中心(NCBI)维护,建立在1988.11.42.)EMBL由欧洲生物信息研究所(EBI)维护。3.)DDBJ是日本唯一的DNA数据库,建立在1949年。3.GenBank序列数据库:1.)序列文件格式:FASTS又叫peasrson(FASTS的主要作者)格式。第一行,大于号(〉)表示一个新的序列文件开始,为标记号。第二行,序列本身,DNA或蛋白质的标准符号。2.)数据库格式:GenBankflatfile格式(GBFF)是GenBank数据库的基本信息单位。第一部分为描述符,从第一行LOCUS行到ORIGIN行,包含了关于整个记录的信息;第二部分为特性表,从FEATURES行开始包含了注释这一记录的特性,是条目核心,第三部分是核苷酸序列本身。结尾都用//符号。例子:LOCUSAF486325477bpDNAlinearVRL12-AUG-2002LOCUS(locus):基因座位,某一特定的基因位于染色体或其他载体所在的位置,包含该基因的全部核苷酸序列。AF486325:该记录的LOCUS的名称。477bp:长度,从1到350000bpDNA:生物分子类型。通常DNA,RNA,也可以其他tRNA,rRNA,mRNA,uRNALinear:核苷酸的形状,linear为直线状。VRL:分类码。三个字母组成,12-AUG-2002:数据第一次公开的日期。ACCESSION(accession)行:AF486325,检索号。(不变的,只有一个)VERSIONAF486325.1GI:19744699VERSION(version)行:AF486325.1,检索号、版本号,此为第1版,每次序列变,加1.GI:19744699,gi(基因信息号),一个gi号对应一个核苷酸序列,序列改变,gi也改变。KEYWORDS(keywords):关键词SOURCE(source)行:表示序列来源的生物名称,生物的通用名或科学名称。REFERENCE(reference):参考文献,每个GenBank记录最少一篇。AUTHORS(authors):作者TITLE(title):标题JOURNAL(joural):期刊名和日期MEDLINE/PUBMED(medline/pubmed):杂志编号。4.蛋白质序列数据库:除了GenBank外,主要还有PIR和SWISS-PORT1)PIR(蛋白质信息资源):由MIPS和JIPID共同维护,包含所有序列已知的自然界中野生型蛋白质的信息。可以提供同源性和分类学组织的综合非冗余数据库。PIR的数据库的数据由NCBI翻译自GenBank的DNA序列。2)SWISS-PORT:蛋白质的序列和注释SWISS-PORT数据库包括了从EMBL翻译而来的蛋白质序列,由SIB,EBL共同维护。提供高水平的蛋白质序列数据分类和注释和最低水平的冗余以及与其他数据库的整合。注释包括蛋白质功能,翻译后加工,结构域特征,二级、三级结构,同源性,疾病相关的信息。(存在滞后性问题)。3)TrEMBL:是从EMBL库中的核酸序列翻译出来的氨基酸序列,已经完成了自动注释。(最小冗余,存在滞后性)4)PIR、SWISS-PORT、TrEMBL综合,构建成——UniProt(全球蛋白质资源数据库)5.蛋白质结构数据库:PDB,国际唯一的生物大分子结构数据档案库。6.蛋白质模型数据库:MMDB四.什么是序列比对?同源序列?同功序列?方法是什么?两种方法进行对比?答:序列比对:序列联配,其意义在从核酸、氨基酸的层次分析序列的相似性,推测其结构功能及进化上的联系,是基因识别、分子进化、生命起源研究的基础。同源序列:指某一共同祖先经趋同而来的序列。同功序列:两条序列的相似性很高,但它们可能并不是同源序列,这两条序列的相似性可能是由随机因素产生的,这在进化上称为趋同。这样一对序列则为同功序列。序列比对的基本思想:找出检测序列和目标序列的相似性。序列比对的方法:1从全局序列出发,考虑序列的整体相似性,即整体比对。2考虑序列部分区域的相似性,即局部比对。如:BLAST与FASTA数据库对比:局部相似性比对的生物学基础是蛋白质功能位点往往是由较短的序列片段组成的,这些部位的序列具有相当大的保守性,尽管在序列的其他部位可能有插入、删除或突变。此时,局部相似性比对往往比整体比对具有更高的灵敏度,其结果更具生物意义。什么是DNA序列分析?P171答:不是传统意义上的DNA测序,而是借助生物信息学的方法,以计算机或网络为载体,在已完成DNA测序并获得一级结构的目标核酸序列中寻找基因,找出基因的位置和功能位点的位置,以及标记已知的序列模式等的过程。ORF是什么意思?怎么测定?P172-173答:ORF为开放阅读框架。ORF的预测即翻译中对mRNA分子中核苷酸序列的阅读方式,从起始密码子开始,每三个相邻的核苷酸作为一个密码子。不同的阅读方式可产生不同的翻译结果。通常选择没有终止密码子(TGA、TAA或TAG)的最大读码框。通过终止密码子可判定ORF的结尾,但ORF的起始位点去不能仅根据起始密码子ATG确定,因为ATG可以是起始密码子,也可以编码蛋氨酸。因此,有必要通过其他方式找到5’的、端编码区的起始位点。要识别DNA中蛋白质编码区,可采用以下一些规律:1随机出现较长的ORF概率小,因此,当ORF长度到达一定,可以认定其为编码区。2编码序列起始部位是否有风崎片段,也可以确定编码区起始位点。3密码子的偏爱性,不同物种之间的密码子偏爱性区别较大。4许多物种密码子第3个碱基偏向使用G或C,故该位置上G/C出现的频率较高,可进一步确定ORF。5若在起始密码子上游发现核糖结合位点,则可肯定找到一个ORF。6.与已知同源蛋白进行序列比对,是基因识别最可靠的方法。按照6个阅卷框的规则将遗传密码可能的ORF识别出来。基因识别的两种途径?答:1.基因外显子识别:通过基因组DNA分析来发现和寻找基因,也就是从无名的基因组DNA序列中识别出完整的蛋白质编码序列,也就是外显子部分。2.EST策略的基因鉴定:电子克隆基因最主要的途径就是从EST(表达序列标签)即CDNA的部分序列着手直接寻找新的基因,即利用计算机进行同源性或一致性分析、寻找感兴趣的EST,通过构建包含这些EST区的重叠群,再进行ORF的判定以及相关蛋白质结构域和模体等功能结构域的识别。另外,还可以寻找与这个EST重叠群对应的基因组DNA(gDNA)序列,从而明确这个CDNA的基因组结构,包含外显子、内含子和染色体的电子定位。EST的注意事项(缺点)?和怎么判定是否新基因?答:分析EST序列时要注意以下几点:EST序列中除了AGCT外还可能出现未知碱基N。EST序列中可能出现错误的插入或缺失,导致翻译时读码框移位。某个EST序列是数据库中另一序列的一个片段。某个EST序列不在基因的编码区。如果EST在数据库寻找结果显示没有找到相似性程度较高的序列,这时并不意味着已经找到一个新基因。因为这个EST也许是一个已知基因的非编码区,而这个非编码区正好不在数据库内。如果通过数据库搜索没有找到匹配序列,那意味着两种可能。一种可能是该EST是一个CDS,而数据库内尚无它的同源序列。另一种可能则是该EST是一段数据库内没有收录的非编码序列。什么是基因组学?人类基因组计划?克隆群?答:基因组学:从整体上研究一个物种的所有基因结构和功能的新科学。他包含结构基因组学、功能基因组学、比较基因组学。人类基因组计划:测定人类基因组全部DNA序列,从而解读所有遗传密码,揭示生命的所有奥秘,是系统、全面地解读和研究人类遗传物质DNA的全球性合作计划。克隆群:也叫连续克隆系,为搞清某段DNA排列顺序而建立的一组克隆。被克隆的DNA小片段有相互邻接并部分重叠的关系,从而可能完全覆盖该片段DNA。十一.图谱P234答:1遗传图谱:又称连锁图谱或遗传连锁图谱,是指人类基因组内基因以及专一的多态性DNA标记相对位置的图谱,它通过计算机连锁的遗传标志之间的重组频率,确定它们的相对距离,一般用厘摩(cM)表示。2物理图谱:是确定各遗传标志之间物理距离(bp,kb,Mb)的图谱。1)染色体图谱:细胞遗传图谱,用原位杂交或荧光原位杂交FISH技术确定DNA片段在染色体上的区带位置。2)长片段限制性酶切:标明DNA分子上的限制位点、数目、限制片断大小及其排列顺序的图谱。3)DNA克隆片段重叠群图4)基于STS的物理图谱(整合各图谱的完整物理图谱)3.序列图谱:人类基因组的序列图。4.基因图谱:就是人类基因组中鉴别出占据2%~5%长度全部基因的位置、结构与功能。主要通过基因产物的MRNA反找到染色体的位置。意义:它能有效的反映在正常或受控条件中表达的全基因的时空图。十二.人类基因组计划测序的主要策略?答:霰弹法:一个高度计算机化的方法,先把基因组随机分成已知长度(2000个碱基对、1万个碱基对)的片段,然后用数学算法将这些片段组装成毗邻的大段并确定他们在基因组上的正确位置。克隆法:先复制更大段的人类基因序列,然后将他们绘制到基因组的适当区域。基因组——随机打断——组装——定位——基因组装——序列(逐步克隆测序法,全基因鸟枪法)十三.测序的主要方法?1链未端终止法(双脱氧法)1)单链DNA分子及引物的准备2)DNA合成原料四种dNTP还要四种双脱氧核苷酸ddNTP3)合成反应分为四组进行。每一组加入一种ddNTP及四种正常的dNTP4)电泳分离2化学降解法(裂解法):化学试剂降解DNA片段,片段未端用放谢性同位素标记,再测出序列。3自动测序:如ALFexpressTM全自动激光荧光核酸测序仪,利用电泳原理把荧光标记的DNA片段通过测序胶电泳分离。4其他新的测序技术:如DNA芯片杂交法等。十四.什么叫蛋白质组学?蛋白质组研究的理论基础和技术路线?答:蛋白质组学是以蛋白质组为研究对象的新的研究领域,它分为:1表达蛋白质组学:研究细胞、组织中的蛋白,建立蛋白定量表达图谱。2细胞图谱蛋白质组学:确定蛋白质在亚细胞结构中的位置3功能蛋白质组学:细胞内与某个功能有关或在某种条件下的一群蛋白质。P264蛋白质组研究的三大关键核心技术是:双向凝胶电泳、质谱鉴定技术、计算机图像数据处理与蛋白质组数据库。蛋白质组研究的理论基础:1从mRNA表达水平并不能预测蛋白表达水平。2蛋白质的动态修饰和加工并非必须来自基因序列。3蛋白质组是动态反映生物系统所处的状态。蛋白质组研究的技术路线:1蛋白质组研究中的样品制备:通常采用细胞或组织中的全蛋白质组分进行蛋白质组分析。也可以根据蛋白质溶解性和蛋白质在细胞中不同的细胞器定位进行分级。2双向聚丙烯酰胺凝胶电泳:根据蛋白质的等电点和分子量大小不同,进行两次电泳将之分离。第一向是等电聚焦,第二向是SDS-聚丙烯酰胺凝胶电泳。3蛋白质点的染色:常用的方法有考马斯亮染色法、银染法、同位素标记法。4凝胶图像分析:将2-DE电泳结果通过图像扫描仪、激光光密度仪等进行数字化,建立双向凝胶电泳图谱。5蛋白质特异点鉴定:1)氨基酸组成分析2)蛋白质和多肽的N端、C端氨基酸序列分析3)质谱技术6蛋白质数据库配比分析:在相关的蛋白质数据库查看相应信息。十五.重要概念:1序列示踪位点(STS):在人类基因组中只出现一次的的位置和序列已知的长约200~500bp的短DNA序列片段。2.信息学:研究计算机和统计学技术在信息处理的应用的科学。在基因组计划中,信息学的内容包括快速搜索数据库方法的开发、DNA序列信息分析方法开发。3双重序列对比:两序列间的对比分析。常用的方法为Needle-Wunsch。4生物信息学:是分子生物学,信息技术与科学,物理,教学等学科交叉、结合的产物。其研究核心是基因组信息及蛋白质组学。研究目标是揭示基因组信息的结构的复杂性及遗传语言的根本规律。5人类基因组计划(HGP):HGP目标:提供公开的,完全的,高质量的含有30亿bp的人类基因组全序列。2001.2完成并公布了准确,清晰完整的人类基因组图谱。6全基因组鸟枪法:首先把从细胞核中分离出来的DNA中每条染色体用超声波分为小片段,打每一片段自动输入一台计算机进行调整解码,完成后的结果通过电子邮件传给超级电脑,由其把一片段重新组装成人体的23对染色体。7基因作图:对DNA分子中基因的相对位置和距离进行确定的过程。8基因组学:某一物种的一套完整染色体组中的所有遗传物质。大小一般以碱基对总数表示。9.后基因组时代:揭示基因组及包含的全部基因的功能,以及对基因产物蛋白质结构和功能的研究和预测。10蛋白质组:动态的概念:1和基因不一样,不同组织和不同发育时期都不一样。2基因在转录后,还有一系列的修饰,翻译等过程都可以影响蛋白质的表达。通过对蛋白质组的研究,在此基础上更能阐明遗传、发育、进行、功能调控等及与人类健康和疾病相关问题。11.测序标签位点:(STS):一段长约200~500bp的特定DNA序列,每个STS序列位点对应于基因组一个单独
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 职业健康个人事迹(5篇)
- 给公司的一封建议书(12篇)
- 二零二五年度节能项目投资风险控制合同3篇
- 2024年适用装修施工合同范本
- 2025年度大数据分析处理劳务派遣合同2篇
- 直面挫折的课程设计
- 污泥焚烧课程设计
- 2025年度复古风木结构大门安装与复古家具配套合同6篇
- 2024版深圳二手房买卖合同(贷款事宜)
- 2024年美容院产品研发与技术合作合同
- GB∕T 41627-2022 动物源空肠弯曲菌检测方法
- 供货保障措施
- (完整版)常用乐高零件清单汇总
- 消防四个能力
- 机动车环检标准方法验证模板
- AQL标准抽样检验表
- 美国Control4智能家居设计方案解说资料
- DES算法Matlab代码
- 交通事故快速处理单(正反打印)
- 电缆热稳定校验计算书
- 2020国际大专辩论赛顺境或逆境更有利于人的成长
评论
0/150
提交评论