版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、复旦大学 实验三:基因序列分析实验三:基因序列分析基因与蛋白质组学数据分析基因与蛋白质组学数据分析2实验项目三:基因序列分析实验项目三:基因序列分析一、 实验目的和要求: 掌握基因可读框的识别;掌握启动子区域的预测掌握CpG岛的预测掌握转录终止信号的预测采用mRNA序列预测基因:Spidey的使用掌握各预测服务器结果的分析3原核生物基因结构原核生物基因结构1 1 长开放阅读框长开放阅读框2 2 高基因密度高基因密度3 3 简单的基因结构简单的基因结构4 4 基因组中基因组中GCGC含量变化非常大含量变化非常大特点:特点:4真核生物基因结构真核生物基因结构特点:特点:1 基因结构复杂基因结构复杂
2、2 具有复杂的基因转录调控方式具有复杂的基因转录调控方式3 具有丰富的可变剪接具有丰富的可变剪接4 有明显的有明显的CpG岛、密码子使用具有偏好性岛、密码子使用具有偏好性5基因组序列分析基因组序列分析6 例:What is Gene Prediction? Given an uncharacterized DNA sequence, find out: 1.Where does the gene starts and ends? 2.Which regions code for a protein? AGCATCGAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTG
3、CATGACGATGCATGACCTAGCAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACC
4、TAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGA
5、CGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAATGCgene 1gene 2gene 3exonintergenic regionintron78一一 开放读码框的识别开放读码框的识别开放读码框(open reading frame, ORF) 是一段起始密码子和终止密码子之间的碱基序列ORF 是潜在的蛋白质编码区基因预测基因预测9基因开放阅读框基因开放阅读框/ /基因结构分析识别工具基因结构分析识别工具GetorfEMBOSS通用Plotorf
6、EMBOSS通用ORF Finder NCBI通用BestORFSoftberry真核GENSCANMIT脊椎、拟南芥、玉米Gene FinderZhang lab人、小鼠、拟南芥、酵母FGENESHall.htmSoftberry真核GeneMarkGIT原核GLIMMER Maryland原核FgeneSBSoftberry细菌FgeneSVSoftberry病毒Generation ORNL原核FGENESH+all.htm Softberry原核GenomeScan MIT脊椎、拟南芥、玉米GeneWise EBI人、蠕虫101. ORF Finder的使用及结果分析的使用及结果分析1
7、11. ORF Finder的使用及结果分析的使用及结果分析121. ORF Finder的使用及结果分析的使用及结果分析131. ORF Finder的使用及结果分析的使用及结果分析141. ORF Finder的使用及结果分析的使用及结果分析151. ORF Finder的使用及结果分析的使用及结果分析Blast比对结果搜索到多个显著相似的序列,故所预测的比对结果搜索到多个显著相似的序列,故所预测的ORF的可信度较高。如果的可信度较高。如果要获取该要获取该ORF所编码的蛋白质序列,可以点击所编码的蛋白质序列,可以点击“Accept”按钮后,在按钮后,在“1GenBank”的下拉框中选择的下
8、拉框中选择“3Fasta”,并点击,并点击“view”,即可获取该,即可获取该ORF所编码的蛋白质序所编码的蛋白质序列。列。161. ORF Finder的使用及结果分析的使用及结果分析171. ORF Finder的使用及结果分析的使用及结果分析181. ORF Finder的使用及结果分析的使用及结果分析191. ORF Finder的使用及结果分析的使用及结果分析20提交序列提交序列提交序列文件提交序列文件运行运行GENSCAN选择物种选择物种显示氨基酸或显示氨基酸或CDS序列序列序列名称(可选)序列名称(可选)是否显示非最优外显子是否显示非最优外显子2. Genscan的使用及结果分析
9、的使用及结果分析21基因、基因、外显子外显子及类型及类型正链、正链、负链负链预测单元起预测单元起始、终止及始、终止及长度长度相位相位编码区编码区打分值打分值可信概率、得可信概率、得分值分值2. Genscan的结果分析的结果分析223. FGENESH的使用及结果分析的使用及结果分析输入序列的输入序列的Fasta文件文件233. FGENESH的使用及结果分析的使用及结果分析起始外显子起始外显子中间及末端外显子PolyA位点位点起始碱基起始碱基终止碱基终止碱基 打分打分长度长度243. FGENESH的使用及结果分析的使用及结果分析253. FGENESH的使用及结果分析的使用及结果分析26二
10、二. . 原核和真核生物基因转录起始位点上游区结构原核和真核生物基因转录起始位点上游区结构 原核生物原核生物真核生物真核生物TTGACATATAATAmRNA11035PyAPyTATAATGC区区 CAAT区区mRNA14025110增强子增强子上游启动子元件,上游启动子元件,UPE核心启动子元件核心启动子元件转录起始位转录起始位点点27原核生物原核生物真核生物真核生物28二二. 启动子预测启动子预测输入序列的输入序列的Fasta文件文件29启动子预测结果启动子预测结果从预测结果可知,预测的启动子区在32564至32783之间,启动子阈值系统默认为53.00,预测的启动子分值为84.69,高
11、于阈值,分值越高,说明预测的准确性大。与该启动子可能结合的转录因子如下所示30三 CpG岛预测CpG岛CpG 岛又称为HTF 岛,是DNA上的一个区域,此区域富含GC,二者以磷酸酯键相连。位于真核生物基因转录起始位点上游,GC含50% ,长度200bpCpG岛常出现在管家基因或频繁表达的基因的启动子附近,在这些部位,CpG岛具有阻止序列甲基化的作用,因此,搜索CpG岛可以为基因及其启动子的预测提供线索。CpG Island 分析分析CpG Island WebCpG finderWebCpGPlot/CpGReport/IsochoreWeb31输入序列的输入序列的Fasta文件文件32从该序
12、列的预测结果来看,找到两个从该序列的预测结果来看,找到两个CpG岛,分别位岛,分别位于于501-727,长度为,长度为227个碱基,个碱基,54380-54691,长度为,长度为31233四四 转录终止信号转录终止信号加polyA信号:AAUAAA转录终止信号:转录终止信号:GC rich二重对称区、二重对称区、UUUUUUC-GC-GG-CG-CU-AG-CG-CC-GG-CUUUUUUUUURNA53AAUAAACAAAAAAAAAAAAA成熟成熟mRNA53AAUAAACAGUmRNA前体前体533435转录终止信号预测转录终止信号预测HcpolyaWeb POLYAHWebpolyad
13、q Web36POLYAH的使用及结果分析的使用及结果分析输入序列的输入序列的Fasta文件文件37POLYAH的使用及结果分析的使用及结果分析预测的预测的POLYA位点,位点,LDF为权重为权重38内含子内含子/外显子剪切位点识别外显子剪切位点识别对基因组序列的读码框区域进行预测内含子5端供体位点(donor splice site): GT内含子3端受体位点(acceptor splice site): AG预测工具: GENSCAN,GENEMARK NetGene2, Splice View3940mRNA剪切位点识别:spideyNCBI开发的在线预测程序开发的在线预测程序用于用于m
14、RNA序列同基因组序列比对分析序列同基因组序列比对分析 4142序列在线提交形式:界面中有两个窗口: 上方窗口用于输入基因组序列(直接粘贴序列或用Genbank ID/AC号) 下方窗口用于输入cDNA/mRNA序列(直接粘贴序列或用Genbank ID/AC号)可同时输入多条cDNA/mRNA序列与同一条基因组序列进行分析Spidey序列提交页面序列提交页面输入基因组序列或序输入基因组序列或序列数据库号列数据库号AC002390.143输入相似输入相似mRNA序列序列判断用于分析的序列间的差异,判断用于分析的序列间的差异,并调整比对参数并调整比对参数不受默认内含子长度限制,不受默认内含子长度
15、限制,默认长度:内部内含子默认长度:内部内含子为为35kb, 末端内含子为末端内含子为100kb输出格式输出格式比对阈值比对阈值选择物种选择物种44第一条蓝色序列为第一条蓝色序列为基因组序列,橘黄基因组序列,橘黄色为外显子色为外显子45外显子对应于外显子对应于基因组上的基因组上的起始起始/结束位置结束位置外显子对应于外显子对应于mRNA/cDNA上的上的起始起始/结束位置结束位置供体、受体位点供体、受体位点外显子外显子序号序号外显子外显子长度长度一致性一致性百分比百分比错配和错配和gap46序列联配结果序列联配结果47使用NCBI ORF Finder 识别检索号为L03845的可读框。写下拟南芥phyA序列最长的ORF的起止区间,并粘贴此ORF编码的蛋白质序列的Fasta文件使用Genscan对检索号为D17291的序列进行基因预测,标出外显子区和PolyA位点,用FGENESH对该序列进行预测,写出预测为外显子的序列区间。并比较两个服务器预测的结果是否一致,写出二者都预测为外显子的区段。作作 业业48使用CpGPl
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 超市会员管理系统课程设计vb
- 房屋排水工程课程设计
- 剪纸课程设计评价表
- 2023年广告设计师ps理论复习试题
- 蛋品加工企业生产质量控制体系考核试卷
- 电容器在电力系统无功补偿的效益分析考核试卷
- 矿物颜料制备与色彩调控考核试卷
- 酒吧服务调酒师手部灵活性训练考核试卷
- 透镜在北师大版教材中的学习策略
- 北师大版教材中字母表示数的教学研究展望
- 自然资源调查监测技能竞赛理论考试题库大全-下(判断题)
- 手术意外险课件
- 学生食堂消防演练方案及流程
- 合并同类项公开课
- 机房设备搬迁解决方案
- 高中物理 人教版 必修三《电路及其应用》单元设计
- 《总也倒不了的老屋》 第二课时公开课一等奖创新教学设计
- 《浙江省建筑工地施工扬尘控制导则》
- 在灿烂阳光下合唱钢琴伴奏谱
- 《养老护理员》-课件:职业道德
- 工作周报WK38==谢汝君课件
评论
0/150
提交评论