8年制生物信息学ppt课件第11章

上传人：o*** IP属地：未知上传时间：2023-02-04 格式：PPT 页数：100 大小：9.53MB 积分：6 举报 版权申诉

已阅读5页，还剩95页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

汕头大学医学院许丽艳第十一章

转录调控的信息学分析BioinformaticAnalysisofTranscriptionalRegulation学习提纲

重点：

转录因子结合位点的识别及其定位的基本概念和表示方法转录因子结合位点识别的操作步骤和相关算法的使用转录因子结合位点定位预测软件的使用学习提纲

难点：

转录因子结合位点识别的操作步骤和相关算法的使用

转录调控相关数据库

熟悉：、基因转录调节的基本模式第一节引言Introduction二、基因转录调节机制的研究方法实验方法：荧光素酶报告基因（luciferasereportgene）凝胶迁移（electrophoreticmobilityshiftassays）染色质免疫沉淀（ChIP）DNase足迹法（DNasefootprinting）信息学分析第二节转录调控的高通量实验测定High-throughputTechniquesinTranscriptionalRegulationAnalysis

一、ChIP技术创立者：

20世纪80年代末

AlexanderVarshavsky等人

(Cell.1988，53(6):937-947

)甲醛交联，稳定蛋白质-DNA复合物裂解细胞，分离蛋白质-DNA复合物加入特异性抗体，沉淀蛋白质-DNA复合物去交联，纯化DNA应用PCR技术，特异性扩增目的DNA片段基本实验过程：特点：针对某一特定候选转录因子，是否特异性结合于所调节的靶基因某一预定区域内，如启动子区，进行检测。对同一DNA底物,可以运用多种不同的抗体,分别进行免疫共沉淀,以确定多种结合蛋白在同一染色质片段上的结合。二、ChIP-chip技术创立者：

2000年，RichardA.Young等人

(Science.2000,290(5500):2306-2309)ChIP和芯片技术的联合运用全基因组范围内的定位分析靶基因群的高通量分析特点：不足之处：成本较高结果分析的标准化尚待完善分辨率较低，大于200bp基因芯片是“封闭系统”,只能检测已知序列三、ChIP-seq技术创立者：

2007年，StevenJ.M.Jones等人

(Science.2000,290(5500):2306-2309)特点：染色质免疫沉淀后的DNA，直接进行高通量测序是一个“开放系统”。它可以检测更小的结合区段、未知的结合位点、结合位点内的突变情况和蛋白亲合力较低的区段成本低，周期短，省去了标记和杂交等步骤，并且无需多次重复实验，极大提高了工作效率分辨率可提高到30～50bp

第三节转录因子结合位点的信息学预测方法PredictionofTranscriptionalFactorBindingsites一、转录因子结合位点的的表示方法（一）共性序列（consensussequence）

将能与同一个转录因子结合的所有DNA片段按照对应位置进行排列，在每个位置上选择最可能出现的碱基，就组成了该转录因子结合位点的共有序列。共性序列中用A、C、G、T之外的字母来表示结合位点中各个位置上可能出现的碱基组合，这些字母称为IUPAC简并码。共性序列的表示方法简明易懂，却不能够反映每个位置上不同碱基出现的概率。

IUPAC简并码IUPACcodeNucleotideIUPACcodeNucleotideWAorTBC,GorTRAorGDA,GorTKGorTHA,CorTSCorGVA,CorGYCorTNA,C,GorTMAorC（二）位置频率矩阵（positionfrequencymatrix）

位置频率矩阵可以反映出每个位置上不同碱基出现的概率。该模型的一个前提假设是各个位置上碱基出现的概率相互独立。矩阵每一列表示模体相应位置上四种碱基出现的概率。对于长度为n的模体，碱基i(i={A,C,G,T})在模体第j

个位置上出现的频率为q

i,j，则整个模体用矩阵M表示如下：（三）序列标识图（sequencelogo）

序列标识图依次绘出模体中各个位置上出现的碱基，每个位置上所有碱基的高度和反映了该位置上碱基的一致性，每个碱基字母的大小与碱基在该位置上出现的频率成正比。这种表示方法直观地给出模体各个位置上碱基出现的倾向性和整个模体的序列的一致性。二、转录因子结合位点的识别基本概念：通过收集可能被同一转录因子调控的基因启动子序列，在其中寻找具有统计显著性的短片段，作为转录因子可能的结合位点，称之为转录因子结合位点的识别基本流程：收集可能被同一转录因子调控的多基因序列

通过多种计算方法从不同角度或不同层面去进行计算、评估和分析，尽可能地屏蔽掉冗余序列和噪音序列，寻找出具有统计显著性的短片段，作为转录因子可能的结合位点查询相关转录因子数据库，以确定转录因子基本流程（一）获得靶向序列从基因差异表达谱芯片数据出发获得启动子序列。利用NCBI上相关核酸数据库选取转录起始位点附近1000～2000bp的长度作为启动子区从差异表达蛋白质数据出发获得启动子序列。从SWISS-PROT和NCBI等数据库中获得编码基因的启动子区从ChIP-chip和ChIP-seq数据出发获得结合位点序列。（二）转录因子结合位点识别的计算方法1.单个模体预测算法2.比较基因组学基于共有序列的识别方法:MobyDick和YMF算法

基于位置频率矩阵的识别方法:

MEME和GibbsMotifSampler算法遗传系谱印记法:

PhyMe、PhyloGibbs和PhyloCon

等方法3.顺式调控模块识别方法

CisModule、GibbsModuleSampler和

EMCModule方法4.基于启动子区重要性差异的识别算法

MDScan和DME算法5.SISSRs算法（三）处理识别结果去冗余及质量控制

Motifclass法通过回归分析寻找特定条件下起作用的模体REDUCE算法：以模体出现的次数作为自变量来进行简单线性回归MatrixREDUCE算法：用位置频率矩阵的打分作为自变量进行回归MARSMotif-M算法：多变量适应回归模型

转录因子结合位点分析可利用网络资源CategoryProgramURLSinglemotifdiscoveryMobyDick/mobydick/YMF/software.htmlConsensus/software.htmlMEME/meme/intro.htmlGibbsSampler/gibbs/gibbs.htmlMDScan/~xsliu/MDscan/DME/software/index1.htmSISSRs/papers/lmi/epigenomes/sissrs/ComparativegenomicsPhyMe/cgi-bin/phyme/download.plPhyloGibbshttp://www.imsc.res.in/~rsidd/phylogibbs/Cis-moduleanalysisCisModule/~zhou/CisModule/EMCModule/~gupta/emcmodule.htmlRegressionmethodsREDUCE:8080/reduce/MatrixREDUCE/software/MatrixREDUCE/MotifRegressor/~conlon/mr.htmlMarsMotif-M/software/index1.htmMotifsearchDatabaseTRANSFAC/Jasparhttp://jaspar.cgb.ki.se/DBTBShttp://dbtbs.hgc.jp/TRED/cgi-bin/TRED/tred.cgi?process=home三、转录因子结合位点的定位基本概念：根据若干已知的转录因子结合位点的模体，在所研究基因的启动子区域内搜索相应转录因子可能的结合位点，称之为转录因子结合位点的定位对任一长度为n的已知模体位置频率矩阵M，转录因子结合位点定位就是判断某一长度为n的序列片段与M的匹配程度。考虑到DNA序列本身有可能存在碱基组成上的偏向性，通常把位置频率矩阵转换为位置权重矩阵。用位置权重矩阵的打分来衡量模体与任意给定序列的匹配程度。（一）转录因子结合位点定位的计算方法位置权重矩阵在位置权重矩阵中，引入碱基i(i={A,C,G,T})在背景序列中出现的频率（记为bi）来消除DNA序列本身碱基组成偏向性的影响。位置权重矩阵的每一项记为Si,j：则M被转换为的位置权重矩阵S为：对于长度为n的DNA序列片段，它作为模体M对应的转录因子结合位点的打分为：tj

表示相应序列第j个位置上出现的碱基。给定阈值T，如果序列片段由上式给出的打分S≥T，则认为它有可能是相应转录因子的结合位点。（二）转录因子结合位点的预测1.TRANSFACAliBabaP-MatchPatchMatrixCatch2.TESS/cgi-bin/tess/tess4.分析结果1.粘贴序列2.选择参数3.开始搜索P-Match-Public1.0Public1.粘贴序列2.选择参数3.提交序列4.分析结果1.粘贴序列3.开始分析4.分析结果2.选择参数3.开始搜索4.分析结果1.粘贴序列2.选择参数第一步：进入TESS主页，并输入感兴趣的序列；点击“Submit”提交，或点击“fullsearchform”进入参数选择界面第二步：点击”Summary“下的超链接，查看结果第三步：点击”ResultNavigation“下的超链接，输出结果第四步：分析结果；也可返回，优化参数，重新开始第四节转录调控相关数据库TranscriptionalRegulationDatabases

一、TRANSFAC数据库（

）TRANSFAC7.0数据库收集的数据TableTRANSFAC_7.0FACTOR6133其中：Homosapiens（人类）

1040Musmusculus

（小鼠）765D.melanogaster

（黑腹果蝇）233A.thaliana

（拟南芥）1751S.cerevisiae

（啤酒酵母）368SITE7915MATRIX398GENE(allentries)2397其中：H.sapiens608M.musculus417D.melanogaster145A.thaliana115S.cerevisiae195GENE(entrieswithSITElinks)1504CLASS50CELL1307二、JASPAR数据库（http://jaspar.cgb.ki.se）JASPAR数据库的特点数据库名称特点JASPARCORE高质量，非冗余的转录因子数据库，收录了460个序列模式，用于寻找特异转录因子模型或其结构类型JASPARFAM包含11种转录因子结构类型的模型。用于搜索未知基因组序列某一转录因子家族的共有模式和鉴定新模式的分类JASPARPHYLOFACTS由174种系统发育中保守的基因上游调控元件组成。用于分析启动子的组织特异性JASPARPOLII保存了13种与RNA聚合酶II核心启动子连接的DNA模型。用于分析潜在的核心启动子JASPARCNE收集了233个人类保守的非编码元件，但是其生化和生物学功能尚不清楚。用于分析潜在的增强子。JASPARSPLICE包含有6种人类高度可靠的经典和非经典剪切位点的矩阵模式。用于分析剪切位点和选择性剪切JASPARPBM保存有104种小鼠转录因子矩阵模式JASPARPBMHOMEO保存有176种小鼠同源结构域矩阵模式JASPARPBMHLH保存有19种线虫碱性螺旋环螺旋（bHLH）转录因子模型三、TRED数据库（/TRED）TRED数据库统计表相关数据人类小鼠大鼠版本hg15:UCSCHumanGoldenPathApr.03mm3:UCSCMouseGoldenPathFeb.03rn2:UCSCRatGoldenPathJan.03基因数309813168326064启动子数582295076430386转录因子有效靶点3409个基因,9085个启动子,1249个结合模体1126个基因,3089个启动子,366个结合模体461个基因,1132个启动子,150个结合模体同源组数(两种或三种)23471与肿瘤相关的36个转录因子家族成员所靶向的启动子/基因数转录因子家族人类小鼠大鼠AP1(ActivatorProtein1)432/383217/190157/143AP2(ActivatorProtein2)338/318123/12390/86AR(AndrogenReceptor)69/4919/1924/15ATF(ActivatingTranscriptionFactor)189/17359/5926/26BCL(B-cellCLL/lymphoma)21/1915/150/0BRCA(breastcancersusceptibilityprotein)20/204/40/0CEBP(CCAAT/enhancerbindingprotein335/325152/134241/179CREB(cAMPresponsiveelementbindingprotein)224/220138/13395/93E2F(E2Ftranscriptionfactor)1593/1329141/12711/11EGR(earlygrowthresponseprotein)120/11167/5533/26ELK(memberofETSoncogenefamily)47/4115/136/6ER(EstrogenReceptor)169/15240/3932/31ERG(ets-relatedgene)21/215/50/0ETS(ETS-domaintranscriptionfactor)445/412207/19651/51FLI1(friendleukemiaintegrationsite1)41/4117/160/0GLI(glioma-associatedoncogenehomolog)16/168/80/0HIF(Hypoxia-induciblefactor)119/11263/6029/29HLF(hepaticleukemiafactor)10/105/52/2HOX(homeoboxgene)65/5793/815/5LEF(lymphoidenhancingfactor)40/3326/235/5MYB(myeloblastosisoncogene)253/23940/406/6MYC(myelocytomatosisviraloncogenehomolog)2676/785108/38128/62NFI(nuclearfactorI;CCAAT-bindingtranscriptionfactor136/12775/6273/65NFKB(NuclearfactorkappaB,reticuloendotheliosisoncogene)445/396202/18187/87OCT(Octamerbindingproteins)232/195123/10834/34p53(P53family)337/313135/13032/30PAX(pairedboxgene)52/4776/6113/11PPAR(Peroxisomeproliferator-activatedreceptor)149/149125/12488/84PR(ProgesteroneReceptor)31/2714/1410/10RAR(retinoicacidreceptor)233/21871/7140/40SMAD(MothersAgainstDecapentaplegichomolog)139/13076/7517/17SP(sequence-specifictranscriptionfactor)655/515296/263235/220STAT(signaltransducerandactivatoroftranscription)245/218111/10648/46TAL1(T-cellacutelymphocyticleukemia-1protein)15/149/60/0USF(upstreamstimulatoryfactor)235/21594/9172/

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

8年制生物信息学ppt课件第11章

文档简介

温馨提示

最新文档

评论

8年制生物信息学ppt课件 第11章

文档简介

温馨提示

最新文档

评论

相关文档

8年制生物信息学ppt课件第11章