版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
(优选)基因多态性与疾病发生遗传易感性当前第1页\共有100页\编于星期三\2点5/27/20231提纲单核苷酸多态性 SingleNucleotidePolymorphism基因多态性与疾病发生遗传易感性 GenePolymorphismandGeneticSusceptibilitytoDisease基因多态性与基因转录调控 GenePolymorphismandRegulationofGeneTranscription展望 FutureProspects当前第2页\共有100页\编于星期三\2点5/27/20232DNAStructure当前第3页\共有100页\编于星期三\2点5/27/20233基因突变基因突变(mutation):由于DNA碱基对的置换、插入或缺失而引起的基因结构的变化,亦称点突变。根据基因结构的改变方式,基因突变可分为碱基置换突变和移码突变两种类型:碱基置换突变:由一个错误的碱基对替代一个正确的碱基对的突变叫碱基置换突变。碱基替换过程只改变被替换碱基的那个密码子,也就是说每一次碱基替换只改变一个密码子,不会涉及到其他的密码子。移码突变:基因中插入或者缺失一个或几个碱基对,使DNA的阅读框架(读码框)发生改变,导致插入或缺失部位之后的所有密码子都跟着发生变化,结果产生一种异常的多肽链。当前第4页\共有100页\编于星期三\2点5/27/20234基因突变根据遗传信息的改变方式,基因突变又可以分为同义突变、错义突变和无义突变三种类型:同义突变:DNA的一个碱基对的改变并不会影响它所编码的蛋白质的氨基酸序列,这是因为改变后的密码子和改变前的密码子是简并密码子,它们编码同一种氨基酸,这种基因突变称为同义突变。错义突变:由于一对或几对碱基对的改变而使决定某一氨基酸的密码子变为决定另一种氨基酸的密码子的基因突变叫错义突变。这种基因突变有可能使它所编码的蛋白质部分或完全失活。无义突变:由于一对或几对碱基对的改变而使决定某一氨基酸的密码子变成一个终止密码子的基因突变叫无义突变。当前第5页\共有100页\编于星期三\2点5/27/20235单核苷酸多态性单核苷酸多态性(singlenucleotidepolymorphism,SNPs):是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。它是人类可遗传的变异中最常见的一种,占所有已知多态性的90%以上。SNP在人类基因组中广泛存在,平均每500-1000个碱基对中就有1个,人类30亿碱基中大约有1000万个SNPs。SNP所表现的多态性可以只涉及到单个碱基的变异,这种变异可由单个碱基的转换(transition,嘌呤>嘌呤或嘧啶>嘧啶)或颠换(transversion,嘌呤<—>嘧啶)所引起,也可由碱基的插入或缺失所致。但通常所说的SNP并不包括后两种情况。当前第6页\共有100页\编于星期三\2点5/27/20236单核苷酸多态性理论上,SNPs可以分二、三和四等位基因,但人类一般为二等位基因(biallelic)。二等位基因有4种不同类型,包括1种转换C>T(G>A)和3种颠换C>A(G>T)、C>G(G>C)、T>A(A>T)。四种SNPs类型在人类中的发生频率不同,最常见的为C>T(G>A)转换,约占2/3,其它3种类型发生的频率相同。之所以转换几率高,可能是因为CpG二核苷酸上的胞嘧啶残基是人类基因组中最易发生突变的位点,其中大多数是甲基化的,可自发地脱去氨基而形成胸腺嘧啶。当前第7页\共有100页\编于星期三\2点5/27/20237单核苷酸多态性ExampleofanSNPcomprisingaG>AsubstitutionElectropherogramsproducedbyfluorescence-basedsequencingusinganABI3700showingthegenomicDNAfromanindividualhomozygousforGatthesiteoftheSNP(a)andanindividualhomozygousforA(b).Thebasesubstitutionisdenotedbyanarrow.当前第8页\共有100页\编于星期三\2点5/27/20238单核苷酸多态性人类基因组中大约估计每个基因有2个常见的错义突变在公共数据库中至少有500万个SNPs。仅有少量(可能为50,000–250,000)SNPs在一定程度上(小到中等度)能反映与疾病发生危险相关的表型。根据SNP在基因中的位置,可分为基因编码区SNPs(Coding-regionSNPs,cSNPs)、基因周边SNPs(PerigenicSNPs,pSNPs)以及基因间SNPs(IntergenicSNPs,iSNPs)等三类。SNPs在基因组中的分布十分广泛,但不同的区域出现的频率不同。人类单碱基等位基因十分稳定。人类SNPs大部分(85%)是共有的。当前第9页\共有100页\编于星期三\2点5/27/20239单核苷酸多态性63%Intronic(内含子)
24%Locusregion(基因座区)11%Untranslatedregion(非翻译区)1%Nonsynonymous(nsSNPs,错义SNPs)1%Synonymous(同义SNPs)<1%Splicesite(剪接位点)<1%Unknowncodingvariant(不明编码变异)SNPs分布区域:当前第10页\共有100页\编于星期三\2点5/27/202310单核苷酸多态性SNPs应用多基因病和复杂性疾病如人类肿瘤、糖尿病、自身免疫性疾病、老年性痴呆等的遗传连锁分析(linkageanalysis)及关联分析(associationanalysis),用于疾病易感基因定位和克隆。“药物基因组学”(pharmacogenomics)研究中用于揭示人群中不同个体对不同药物的敏感性差异的根本原因。法医研究的罪犯身份的鉴别、亲子鉴定等。在器官移植中供体和受体间的配对选择。研究人类起源、进化和群体遗传学特征。人类基因组SNPs研究所揭示的人种、人群和个体之间DNA序列的差异以及这些差异所表现的意义将对疾病的诊断、治疗和预防带来革命性的变化。
当前第11页\共有100页\编于星期三\2点5/27/202311单核苷酸多态性今后SNP的研究主要包括两个方面:SNP数据库的构建:主要目的是发现特定种类生物基因组的全部或部分SNP。大规模SNP数据库构建只是基因组序列分析中心可以胜任的工作,常规实验室是不太可能进行该工作的。SNP功能的研究:发现SNP只是SNP研究的第一步,而SNP功能的研究才是SNP研究的目的。特定DNA区域的特定SNP在特定群体的序列验证和频率分析以及SNP与特定生理/病理状态关系的研究是SNP研究的主要方面。当前第12页\共有100页\编于星期三\2点5/27/202312提纲单核苷酸多态性 SingleNucleotidePolymorphism基因多态性与疾病发生遗传易感性 GenePolymorphismandGeneticSusceptibilitytoDisease基因多态性与基因转录调控 GenePolymorphismandRegulationofGeneTranscription展望 FutureProspects当前第13页\共有100页\编于星期三\2点5/27/202313问题基因选择哪些基因和位点值得研究?相对于全基因组,候选基因研究有何优点?如何将SNP功能信息融入相关性研究中?实验室方面如何选择合适的实验室方法?如何进行质量控制?如何利用公共数据库信息?研究设计和数据分析何种研究设计和分析方法是实现研究重现性所必需?如何处理人群遗传结构上的差异,如单倍体区段、种族差异等?当前第14页\共有100页\编于星期三\2点5/27/202314基因选择各物种基因数量比较物种 基因数量小鼠(Mouse) 30,000拟南芥(Arabidopsis) 27,000人类(Human) 25,000线虫(C.elegans) 19,500当前第15页\共有100页\编于星期三\2点5/27/202315基因选择候选基因(CandidateGenes)候选基因具有对生物学合理性(biologicalplausibility)和疾病因果关系(diseasecausality)作最大化推理(maximizinginferences)的优点。候选基因可根据某一特定疾病发生过程中基因功能信息来加以限制。当前第16页\共有100页\编于星期三\2点5/27/202316基因选择生物学上的考虑:基于疾病的发病机制(生物学合理性、权威的科学假说等)易感基因(susceptivegenes)敏感基因(sensitivegenes)生物学通路(biologicalpathways)当前第17页\共有100页\编于星期三\2点5/27/202317ApoptosisPathway当前第18页\共有100页\编于星期三\2点5/27/202318BaseExcisionRepairPathway当前第19页\共有100页\编于星期三\2点5/27/202319NucleotideExcisionRepair当前第20页\共有100页\编于星期三\2点5/27/202320DoubleStrandBreakRepairPathway当前第21页\共有100页\编于星期三\2点5/27/202321TranscriptionCoupledRepairPathway当前第22页\共有100页\编于星期三\2点5/27/202322CystathionineMTHFRTS/TYMSMTHFR=methylenetetrahydrofolatereductaseTS/TYMS=thymidylatesynthaseFS=10-formylTHFsynthaseSHMT=serinehydroxymethyltransferaseMTHFD=5,10-methylenetetrahydrofolatedehydrogenaseMS/MTR=methioninesynthaseMTRR=methioninesynthasereductaseBHMT
=batainehydroxymethyltransferaseDHFR=dihydrofolatereductaseCBS=cystathionine-synthaseCBSMS/MTRDHFRMTRRSHMTBHMTFSMTHFDFolateMetabolismPathway当前第23页\共有100页\编于星期三\2点5/27/202323
DNADamage-ResponsePathwayp53ProteinAccumulation
DNADAMAGEBindingtoTranscription-Replication-RepairFactorsTFIIH(XPB,XPD)andp62bindstop53PCNA(p21WAF1andGADD45)AlteredExpressionBAXandFasBcl2IncreasedExpressionp21WAF1,MDM2,cyclinG,andGADD45CellCycleArrestDNARepairCancerApoptosisTranscriptionDependentApoptosisTranscriptionIndependentApoptosisModifiedfromHarris,1994当前第24页\共有100页\编于星期三\2点5/27/202324基因选择药物治疗反应(treatmentresponse)基因表达改变(geneexpressionchanges)病人的存活状况(survivalstatus)药物的毒副反应(sideeffectsortoxicities)这些因素与某一特定药物、后续事件的时序以及剂量等有关。如在药物遗传学和药物基因组学研究领域,在选择候选基因时可考虑下列因素:当前第25页\共有100页\编于星期三\2点5/27/202325多态性位点选择复杂疾病的易感性往往是由稀少的变异(rarevariants)所决定。牛津大学统计学系的Pritchard在美国人类遗传学杂志上发表了“Arerarevariantsresponsibleforsusceptibilitytocomplexdiseases?”综述阐述了这一观点。nsSNPs或调控SNPs(rSNPs,指可导致基因转录调控改变的SNPs)是人类个体间差异的重要分子基础。未来研究的重要挑战是对rSNPs的识别和功能揭示。当前第26页\共有100页\编于星期三\2点5/27/202326多态性位点选择选择次序编码区SNPs:外显子(exon)非编码区SNPs启动子区(promoterregion)5’非翻译区(5’-UTR)剪接位点(splicesite)3’非翻译区(3’-UTR)内含子(intron)当前第27页\共有100页\编于星期三\2点5/27/202327多态性位点选择全基因组和基于单倍体型的研究合适的流行病学设计和足够的统计学功效(statisticalpower)是必需的。尽管全基因组研究不易重复,但仍可识别基因组中与疾病发生存在因果关系的区域(causativeregions)。连锁不平衡区段(linkagedisequilibriumblocks)存在于整个基因组中,但其长度可因人群遗传学结构上的差异而不同。采用单倍体区段(haplotypeblock)的信息较单纯基于SNP的分析可提高15–50%的功效。当前第28页\共有100页\编于星期三\2点5/27/202328总结全基因组研究方法在今后的研究中是可行的,但在高通量、数据库以及统计分析方面将面临巨大挑战。候选基因方法在确定特定疾病因果关系上仍然具有重要的意义。单核苷酸多态性的功能学意义是理解和认识流行病学相关性研究生物学基础的关键。在相关性研究的基础上,应该深入探讨SNPs的功能,包括对基因翻译和转录调控等的作用。当前第29页\共有100页\编于星期三\2点5/27/202329实验室研究高并联(highparallel):小样本多位点高通量(highthroughput):大样本少位点理想的基因分型方法应包括5-10%重复样本优化实验通量和质量控制,两种方案:当前第30页\共有100页\编于星期三\2点5/27/202330实验室研究实验室研究的主要问题是质量控制基因型的错误分类(misclassification)可导致偏倚(bias)常见的实验室问题包括DNA污染、DNA质量或数量不合适、样本/板方向标错、检测误差等。基因分型时应包括盲样重复、阳性对照和空白对照。对于病例—对照研究,病例和对照样本不应分开检测以减少潜在的错误。当前第31页\共有100页\编于星期三\2点5/27/202331实验室研究基因多态性的检测方法
PCR-RFLP(restrictionfragmentlengthpolymorphism):限制性片段长度多态性PCR-SSCP(singlestrandconformationpolymorphism):单链构像多态性分析PCR-SSP(SequenceSpecificPrimers):序列特异引物聚合酶链反应DNASequencing:DNA测序PCR-ASO(allelespecificoligonucleotide):等位基因特异性寡核苷酸探针法PCR-SSO(sequencespecificoligonucleotide):顺序特异寡核苷酸法PCR-荧光法PCR-fingerprints:PCR指纹图法DNAMicroarray:DNA微探针阵列,又称基因芯片法AFLP(amplicationfragmentlengthpolymorphism):扩增基因组DNA限制性片段法DGGE(denaturinggradinentelectrophoresis):变性梯度凝胶电泳法RAPD(randomamplifiedpolymorphicDNA):随机扩增的多态性DNA法当前第32页\共有100页\编于星期三\2点5/27/202332基因组数据库资源公共数据库和资源,常用的网址如下:http:///SNP(NationalCenterforBiotechnologyInformation)http:///(NIEHSSNPsProgram)/home_1.cfm?CFID=264728&CFTOKEN=86045010(SNP500Cancer)http://(Pubmed)(SNPsdatabasefromJapan)http:///nomenclature/(HUGOGeneNomenclatureCommittee)http://(Blastsearch)……当前第33页\共有100页\编于星期三\2点5/27/202333基因组数据库资源存在的问题数据库中存在许多错误:所报告的编码区5-16%的SNPs因复制片段(复制子,duplicon)而成为共生同源变异(paralogousvariants),因此并非真正的SNPs。有15–30%的SNPs没有经过验证(verified),因此可能是不存在的。数据库往往是基于少量的信息因为SNP频率存在种族差异,因此SNP频率如果没有种族类型报告,该数据可能是不可用的。当前第34页\共有100页\编于星期三\2点5/27/202334研究设计和统计分析疾病遗传易感性的分子流行病学研究:利用生物化学、分子生物学、免疫学、分子遗传学等基础学科的技术和手段,在疾病发病机制方面开展的基因多态性、基因与环境交互作用等相关的研究。常见的研究方法包括病例—对照研究、前瞻性队列研究、病例—病例研究等。当前第35页\共有100页\编于星期三\2点5/27/202335研究设计和统计分析以现在确诊的患有某特定疾病的病人作为病例,以不患有该病但具有可比性的个体作为对照,通过询问,实验室检查或复查病史,搜集既往各种可能的危险因素的暴露史,测量并比较病例组与对照组中各因素的暴露比例,经统计学检验,若两组差别有意义,则可认为因素与疾病之间存在着统计学上的关联。一种回顾性的,由结果探索病因的研究方法,是在疾病发生之后去追溯假定的病因因素的方法。分为病例与对照不匹配(unmatching)和病例与对照匹配(matching)两种类型。匹配要求对照在某些因素或特征上与病例保持一致,目的是对两组进行比较时排除匹配因素的干扰:分为频数匹配(frequency-matching)和个体匹配(1:1,1:2…1:R,一般不超过1:4,否则统计效率下降)。病例—对照研究(Case-ControlStudy)当前第36页\共有100页\编于星期三\2点5/27/202336研究设计和统计分析病例与对照的基本来源有两个:一个来源是医院的现患病人、医院、门诊的病案,及出院记录,称为以医院为基础的(hospital-based);另一个来源是社区、社区的监测资料或普查、抽查的人群资料,称为以社区为基础的(community-based)。病例的选择主要是确定判断病人的标准和怎样获得这些符合判断标准的病人;对照最好是全人群的一个无偏样本,或是产生病例的人群中全体非患该病的人的一个随机样本,而且也经过相同诊断确认为不患所研究的疾病。病例—对照研究(Case-ControlStudy)当前第37页\共有100页\编于星期三\2点5/27/202337研究设计和统计分析影响样本大小的因素:
病例对照研究样本大小取决于四个参数
1.研究因素在对照人群中的暴露率(P0)
2.预期暴露于该研究因素造成的相对危险度(RR)或比值比(OR)
3.希望达到的检验性水平,即假设检验第I类错误,即假设检验所允许的假阳性错误的概率。
4.希望达到的检验把握度(1-),为假设检验第II类错误,即假设检验所允许的假阴性错误的概率。 病例—对照研究(Case-ControlStudy)当前第38页\共有100页\编于星期三\2点5/27/202338研究设计和统计分析样本量估计方法:不同配比方式的样本大小计算方法不同,可用公式计算或从样本量表中查得。需要注意的是:所估计的样本含量并非绝对精确的数值,因为样本含量的估计是有条件的,而这些条件并非是一成不变的。应当纠正样本量越大越好的错误看法。样本量过大,常会影响调查工作的质量,增加负担、费用。病例组和对照组样本含量相等时效率最高。病例—对照研究(Case-ControlStudy)当前第39页\共有100页\编于星期三\2点5/27/202339研究设计和统计分析如频率匹配的病例对照研究样本量估计N=2×A×(1-A)×(Z+Z)2/(p1-p0)2式中:N为病例组和对照组人数,Z、Z分别为及值相对应的标准正态分布分位数,可查表求得,p0和p1分别为对照组和病例组某因素的估计暴露率。
q0=1-p0,
q1=1-p1,A=(p0+p1)/2其中p1也可由计算公式求得:p1=(OR×p0)/(1-p0+OR×p0),也可简化成p1=(OR×p0)/[1+p0(OR-1)]。当前第40页\共有100页\编于星期三\2点5/27/202340研究设计和统计分析
标准正态分布的分位数表
或Z(单侧检验)Z(双侧检验)
Z(单侧和双侧检验)
0.0013.0903.290
0.0022.8783.090
0.0052.5762.807
0.0102.3262.576
0.0202.0582.326
0.0251.9602.242
0.0501.6451.960
0.1001.2821.645
0.2000.8421.282
当前第41页\共有100页\编于星期三\2点5/27/202341研究设计和统计分析样本量大小估计举例拟进行一项病例对照研究,研究吸烟和肺癌的关系。一般人群吸烟率约为20%,吸烟和肺癌的比值比为2.0,要求=0.05(双侧),=0.10,估计样本大小N。
求p1:p1=(2×0.2)/(1-0.2+2×0.2)=0.333
q0=1-0.2=0.8
q1=1-0.333=0.667
A=(0.2+0.333)/2=0.267
查标准正态分布的分位数表得Z=1.960,
Z=1.282
N=2×0.267×(1-0.267)×(1.960+1.282)2/(0.333-0.2)2=232即每组需要232人。当前第42页\共有100页\编于星期三\2点5/27/202342CancerCancer-freeCase-ControlStudySusceptibility:Diet,Metabolism,DNAdamage&Repair…Carcinogenes
Oddsratio(OR)toestimate
relativerisk–probabilityofdevelopingcancerOR=1,noriskOR>1,increasedriskOR<1,protectiveeffectQuestionnairedataBiomarkerassays当前第43页\共有100页\编于星期三\2点5/27/202343研究设计和统计分析以基于医院的肿瘤病例—对照研究为例病例:病人应为新诊断、病理学确诊;未经放疗或化疗;无肿瘤病史;无输血史…对照:无肿瘤者,可从医疗或保健机构中招募的,与病例无生物学上相关的医疗求助者或病人陪伴着。病例应与对照在年龄、性别、种族和吸烟状况上在频率上相匹配或采用个体匹配。正式的知情同意书、流行病学调查表和血液采集。统计分析:采用t检验、方差检验和多因素logistic回归分析等。当前第44页\共有100页\编于星期三\2点5/27/202344研究设计和统计分析选定暴露于及未暴露于某因素的两组人群,随访观察一定的期间,比较两组人群某种疾病的结局,从而判断该因素与发病或死亡有无关联及关联大小的研究方法。特点属于观察法,需设立对照组。由“因”及“果”,时序合理,检验暴露因素与疾病的因果联系科学性强。最大优点是可以获取相对真实而可靠的资料。但是如果需要观察大量人群,则花费太大。如果疾病的潜伏期很长,则需要观察的时间很长。这些都会影响其可行性。用途检验病因假设:验证某种暴露因素对某种疾病发病率或死亡率的影响,也可同时观察某种暴露因素对人群健康的系统影响。描述疾病的自然史:疾病的自然发展过程,包括疾病的起病(病理发生期)、潜伏期(隐伏期)、临床前期、临床期到结局的全过程。前瞻性队列(或群组)研究(CohortStudy)当前第45页\共有100页\编于星期三\2点5/27/202345Susceptibility:Diet,Metabolism,DNAdamage&Repair…Carcinogenes
CancerCancer-freeGeneticpredisposition?(遗传易患体质?)Biomarkersforpreventionandearlydetection?CohortStudy当前第46页\共有100页\编于星期三\2点5/27/202346研究设计和统计分析又称为单纯病例研究(caseonlystudy)或病例系列研究(caseseriesstudy)。病例-病例研究是近年来被广泛应用于疾病病因研究中评价基因与环境交互作用的一种方法,该方法仅通过某一疾病患者群体来评价基因型与环境暴露的交互作用,但不能评价二者各自的主效应。有时在一般病例对照研究中不易选择合适的对照,特别是在分子流行病学研究中,从无疾病的对照中去获取某种生物标本也受到医学伦理方面的制约。如果对一种疾病的两个亚型进行对比研究,例如出血型脑卒中与缺血型脑卒中、p53突变阳性基因型的食管癌与p53突变阴性基因型的食管癌或者食管癌的鳞癌与腺癌的比较研究,可以不另外设对照组,而采取两个亚组的直接比较。这种设计可以免除从无病的对照组收集资料特别是生物标本的麻烦,适用于研究两组病因的差异部分,而其相同或近似的危险因素则将被掩盖或低估。病例-病例研究(Case-CaseStudy)当前第47页\共有100页\编于星期三\2点5/27/202347研究设计和统计分析应用的前提条件:在正常人群中基因型与环境暴露各自独立发生,而且所研究的疾病为罕见病(此时可用OR来估计RR值)。基本步骤:确定某一患者群体作为研究对象收集病人的一般情况、协变量、环境暴露资料,以及生物标本。采用分子生物学技术检测基因型根据某一基因型的有无将研究对象分为类病例组和类对照组统计分析,计算OR值、P值。判断有无相乘模型的交互作用及显著性意义。若有,进一步判断为正相乘作用还是负相乘作用。病例-病例研究(Case-CaseStudy)当前第48页\共有100页\编于星期三\2点5/27/202348BloodSampleProcessingandBiomarkerAssayFlowChartPHAPHASpinWholebloodshort-termculture1ml1ml1mlMutagensensitivityassayBPDE
ControlBPDEGamma1mlBPDE-InduceDNAadductsassayDNAextraction1mlRT-PCRforgeneexpressionLong-termstoragecDNADNA1mlRNAextractionGenotypingLymphocyteisolation(frozen)CAT/LucassaysDNArepaircapacity2mleachTransfectionHeparinized,10-30mlSamplecollection(casesandcontrols)1mlPlasmaSerum当前第49页\共有100页\编于星期三\2点5/27/202349研究设计和统计分析相关性研究结果可重复吗?
遗憾的是,大多数结果不能重复。假阳性报告(false-positivereports):伪相关(spuriousassociations)假阴性报告(false-negativereports):该研究无足够的效能来识别该相关性人群之间存在的差异(populationdifferences)当前第50页\共有100页\编于星期三\2点5/27/202350研究设计和统计分析在相关性研究结果缺乏一致性时,应采用何种可信度水平?大样本(largesamplesize)避免出版偏差(avoidpublicationbias)种族分层(ethnicstratification) …当前第51页\共有100页\编于星期三\2点5/27/202351研究设计和统计分析影响相关性研究结果的因素:病因学上的复杂性(etiologicalcomplexity)统计效能和采样设计(statisticalpowerandsamplingdesign)人群结构(populationstructure)数据解释(datainterpretation)当前第52页\共有100页\编于星期三\2点5/27/202352研究设计和统计分析数据解释(DataInterpretation)
有几种情况:显著关联、无重要关联、无法决定。假阳性报告概率(falsepositivereportprobability,FPRP)有助于作出判断FPRP取决于先验概率(priorprobability)、统计效能(statisticalpower)和效能指数(effectsize)。统计效能:指当H0为错时你正确地拒绝H0的概率(significanceoftherelationshipundertest)效能指数:是指被检验的两变量之间关系的强度(strengthoftherelationshipundertest)。两者均与样本大小有关。当前第53页\共有100页\编于星期三\2点5/27/202353研究设计和统计分析数据解释(DataInterpretation)当先验概率较高时,那么假阳性报告概率将较低,其关联性将更趋正确。研究者必须选择一个临床或病因学上有意义的效能指数,如相对危险度(relativerisk,RR)或比值比(oddsratio,OR)以及先验范围。通常我们计算并比较OR值及其95%可信限(95%confidenceinterval,95%CI)。当前第54页\共有100页\编于星期三\2点5/27/202354提纲单核苷酸多态性 SingleNucleotidePolymorphism基因多态性与疾病发生遗传易感性 GenePolymorphismandGeneticSusceptibilitytoDisease基因多态性与基因转录调控 GenePolymorphismandRegulationofGeneTranscription展望 FutureProspects当前第55页\共有100页\编于星期三\2点5/27/202355启动子与基因转录当前第56页\共有100页\编于星期三\2点5/27/202356PromoterRegion当前第57页\共有100页\编于星期三\2点5/27/202357ControlsitesinDNAprovidebindingsitesforproteins;codingregionsareexpressedviathesynthesisofRNA当前第58页\共有100页\编于星期三\2点5/27/202358基本概念启动子(promoter):位于结构基因5’端上游的一段DNA序列指导全酶(holoenzyme)同模板正确结合活化RNA聚合酶启动基因转录启动子区(promoterregion):RNA聚合酶(RNApolymerases)同启动子结合的区域RNA聚合酶:利用DNA模板合成RNA的酶当前第59页\共有100页\编于星期三\2点5/27/202359RNA聚合酶的活性形式(全酶)为15S,由5种不同的多肽链构成,按分子量大小排列分别为β‘(155000),β(151000),σ(7000),α(36500)和ω(11000)。每分子RNA聚合酶除有两个α亚基外,其余亚基均只有一个,故全酶为β’βα2σω(450000)。全酶是指酶蛋白及其辅酶构成的有功能的复合物。当前第60页\共有100页\编于星期三\2点5/27/202360ThefunctionofRNApolymeraseistocopyonestrandofduplexDNAintoRNA当前第61页\共有100页\编于星期三\2点5/27/202361基本概念共有序列(consensussequence)是指与真实序列相比,启动子每个位置最常出现的理想化碱基序列。即将所有已知启动子排列起来以求其最大相似性。一个序列如果为共有,则每一个特定碱基都理应在相应位置上有分布优势。大多数共有序列间的碱基差异不能超过1-2个。当前第62页\共有100页\编于星期三\2点5/27/202362启动子结构
有多种元件:TATA框、GC框、CATT框、OCT等。结构不恒定:有的有多种框盒如组蛋白H2B;有的只有TATA框和GC框,如SV40早期转录蛋白。它们的位置、序列、距离和方向都不完全相同。有的存在远距离的调控元件,如增强子。这些元件常起到控制转录效率和选择起始位点的作用。不直接和RNA聚合酶结合。转录时先和其它转录激活因子相结合,再和聚合酶结合。真核生物中有三种不同的RNA聚合酶,因此也有三种不同的启动子,其中以启动子Ⅱ最为复杂,它和原核的启动子有很多不同:当前第63页\共有100页\编于星期三\2点5/27/202363RNA聚合酶的核心酶虽可合成RNA,但不能找到模板DNA上的转录起始位点,只有带σ因子的全酶才能专一地同启动子结合。RNA聚合酶沿着模板前进,直到终止子,转录产生一条RNA链。通常把基因转录起点前面即5’端的序列称为上游(upstream),起点后面即3’端的序列称为下游(downstream)。并把起点的位置记为+1,下游的核苷酸依次记为+2,+3,……,上游方向依次记为-1,-2,-3,……启动子结构
当前第64页\共有100页\编于星期三\2点5/27/202364启动子结构在真核基因中,有少数基因没有TATA框。没有TATA框的真核基因启动子序列中,有的富集GC,即有GC框;有的则没有GC框。GC框位于-80~-110bp处的GCCACACCC或GGGCGGG序列。TATA框的主要作用是使转录精确地起始;CAAT框和GC框则主要是控制转录起始的频率,特别是CAAT框对转录起始频率的作用更大。在真核生物中,在转录起始位点上游70-80bp处有CAAT顺序,也称为CAAT盒,是比较保守的共有序列:GCCTCAATCT。当前第65页\共有100页\编于星期三\2点5/27/202365DNA-蛋白质结合
研究策略当前第66页\共有100页\编于星期三\2点5/27/202366背景基因转录实际上是RNA聚合酶、转录调控因子和启动子区各种调控元件相互作用的结果。在基因表达的调控中,转录的起始是关键。常常某个基因是否应当表达决定于在特定的启动子起始过程。启动子区DNA结合蛋白作为转录调控因子,通过与启动子DNA结合以调节基因转录。犹如抗原-抗体特异性结合一样,蛋白质与DNA的结合也是特异的,这是研究启动子区DNA结合蛋白的前提。当前第67页\共有100页\编于星期三\2点5/27/202367DNA-bindingandactivatingfunctionsinatranscriptionfactormaycompriseindependentdomainsoftheprotein当前第68页\共有100页\编于星期三\2点5/27/202368研究方案细胞内法(invivo):以已知启动子DNA序列筛选出与其相结合的蛋白编码基因,通过生物信息分析来确定该蛋白质的名称。优点:更符合生理状态,操作简便,适合大通量筛选,用于寻找未知基因及蛋白质。缺点:一是只能筛选可与启动子DNA特异性结合的蛋白质,但不能检查出精确的蛋白质结合位点;二是特异性略差。常用的有酵母单杂交(Yeastonehybrid)技术、噬菌体表面展示(Phagedisplay)技术等。当前第69页\共有100页\编于星期三\2点5/27/202369研究方案细胞外法(invitro):即在体外用重组的已知蛋白质与启动子DNA结合。优点:特异性好,且能够在启动子DNA序列上找到精确的蛋白质结合位点。缺点:效率低,操作复杂,一般不用于寻找未知基因及蛋白质。常用的有EMSA(electrophoreticmobility-shiftassay)、DNaseIfoot-printingassay等。当前第70页\共有100页\编于星期三\2点5/27/202370凝胶迁移率变动试验(EMSA)基本原理为:在凝胶电泳中,由于电场的作用,小分子DNA片段比其结合了蛋白质的DNA片段向阳极移动的速度快。若目的DNA与特异性蛋白质结合,则其向阳极移动的速度受到阻滞,在凝胶放射性自显影上或生物素标记,就可找到DNA结合蛋白。当前第71页\共有100页\编于星期三\2点5/27/202371超级EMSA超级EMSA,即Super-shiftassay,是EMSA试验的改进,将DNA与更多的蛋白结合,这样,与特异性蛋白结合的目的DNA移动速度进一步减慢。由于凝胶迁移率变动试验的特异性好,常用来鉴定其它方法筛选出的结果。显而易见,克隆启动子DNA片段并标记,用该实验就可找到相应的结合蛋白。当前第72页\共有100页\编于星期三\2点5/27/202372EMSA优缺点优点:简单、快速、敏感缺点:需已知目标DNA序列DNA序列较短,一般为20-30个核苷酸。体外(非体内)检测方法当前第73页\共有100页\编于星期三\2点5/27/202373EMSA原理(a)ThebindingsiteofinterestissynthesizedasashortradiolabelledDNAprobewhichcanbeusedtoidentifybothknownandnovelfactorsbindingtothecandidateregion.OnceboundtoDNA,aprotein–DNAcomplexisstabilizedwhensubjectedtonon-denaturingPAGE,allowingresolutionofprotein–DNAcomplexesasdiscretebands.(b)Thespecificityoftheinteractionmaybeinvestigatedbycompetitionexperimentsinwhichtypically10-or100-foldexcessunlabelledprobeisadded,which,inthecaseofaspecificcompetitorprobe,resultsinprogressivelylessradiolabelledprobeboundbythetranscriptionfactorprotein.当前第74页\共有100页\编于星期三\2点5/27/202374DNaseI足迹试验足迹试验(foot-printingassay)不仅能找到与特异性DNA结合的目标蛋白,而且能告知目标蛋白结合的碱基部位。足迹试验的方法较多,常用的有DNaseI足迹试验、硫酸二甲酯(dimethylsulfate,DMS)足迹试验,二者原理基本相同。基本原理:蛋白结合在DNA片段上,保护结合部位不被DNaseI破坏,这样,蛋白质在DNA片段上留下了“足迹”,在电泳凝胶的放射性自显影图片上,相应于蛋白质结合的部位没有放射性标记条带。当前第75页\共有100页\编于星期三\2点5/27/202375PrincipleoftheDNaseIfoot-printingassay(含乳糖操纵子DNA)(乳糖阻遏物)当前第76页\共有100页\编于星期三\2点5/27/202376PrincipleoftheDNaseIfoot-printingassay当前第77页\共有100页\编于星期三\2点5/27/202377DNaseI足迹试验技术流程:1.标记探针:待检双链DNA分子用32P作末端标记,通常只标记一端。2.结合和消化:蛋白质与DNA混合,待二者结合后,加入适量的DNaseI以消化DNA分子,控制酶的用量,使之达到每个DNA分子只发生一次磷酸二酯键断裂,同时设未加蛋白质的对照。3.电泳和显影:从DNA上除去蛋白质,将变性的DNA加样在测序凝胶中作电泳和放射性自显影,与对照组相比后解读出足迹部位的核苷酸序列。当前第78页\共有100页\编于星期三\2点5/27/202378启动子区SNPs
的功能研究当前第79页\共有100页\编于星期三\2点5/27/202379背景编码DNA(CodingDNA):外显子(exons)
氨基酸改变或转录mRNA非编码DNA(Non-codingDNA):启动子(promoter)、内含子(introns)、5’-非翻译区(5’-UTR)、3’-非翻译区(3’-UTR)
基因表达(假定的调控区,putativeregulatoryregions) 转录(启动子区)当前第80页\共有100页\编于星期三\2点5/27/202380背景如果SNPs发生在DNA编码区,可引起翻译蛋白质的氨基酸发生改变,即使是同义突变(synonymousmutation),该SNPs的功能效应也可在mRNA水平检出。如果SNPs发生在非编码区,特别是基因上游的启动子区,则可能影响基因的转录过程。如果SNPs位于某转录因子的共有序列中,将可能改变该转录因子与DNA结合的亲和性(affinity),或引入一个新的因子与DNA结合,从而可能改变该基因转录过程的特异性和动力学特征。发生在非编码区的SNPs的功能效应难以直接检出,必须通过诸如转录活性试验等手段间接检测。当前第81页\共有100页\编于星期三\2点5/27/202381转录起始位点基因的启动子区域中含有许多重要的调控基因转录的DNA序列(顺式元件),若要阐明基因在转录水平上的调控机制(包括启动子区SNPs功能研究),克隆启动子序列是必不可缺的关键一环。到目前为止,已阐明启动子序列以及它们的调控机制的基因数量非常有限。标准的真核生物有关的启动子数据库EukaryoticPromoterDatabase中登录的基因启动子也不过数百个,其中一个重要原因之一是许多基因未能确切的确定转录起始位点。当前第82页\共有100页\编于星期三\2点5/27/202382转录起始位点理想的克隆cDNA应包含模板mRNA的5‘帽的结构以及3’多聚A尾的全长序列。传统的方法克隆的cDNA,多数情况下其5‘末端为部分缺失状态。究其原因有二:一是在以mRNA模板进行逆转录过程中,逆转录酶在从模板mRNA中脱落,只能得到部分拷贝的cDNA产物。二是在进行逆转录过程中,用了部分5‘末端被降解的mRNA为模板合成cDNA。因此,在构建cDNA文库中得到的多数是5‘末端部分缺失状态的cDNA。换言之,在构建cDNA文库的过程中,应用逆转录酶以及应用极易受降解的mRNA是不可避免的,因此5’末端部分缺失就不足为奇了。当前第83页\共有100页\编于星期三\2点5/27/202383转录起始位点S1核酸酶作图法、引物延伸法(RT)、5‘-RACE(rapidamplificationofcDNAends)法等传统的转录位点的确定方法,技术要求比较高,且有时由于种种原因,难以确定确切的转录起始位点。随着生物信息学(Bioinformatics)的发展,网上的相关数据库逐渐丰富,这为转录起始位点的研究提供了一个新的思路。最近,由日本铃木等开发的寡核苷酸帽法(Oligocapingmethod)构建的cDNA文库中,随机的克隆全长的cDNA,适合于大规模、精确的获得基因转录起始位点的信息(SuzukiY,2002)。当前第84页\共有100页\编于星期三\2点5/27/202384生物信息学方法大体步骤获取基因转录本信息:寻找尽可能长的5‘端cDNA基因CpG岛分析:采用网络在线软件,综合评价有关CpG岛、转录起始位点以及预计起始位点下游的信息,对基因转录起始作出预测。启动子区域预测当前第85页\共有100页\编于星期三\2点5/27/202385生物信息学方法常见的网上在线生物信息学软件:http://http://=Human&db=hg17&hgsid=41271104http:///……当前第86页\共有100页\编于星期三\2点5/27/202386生物信息学方法实验流程构建质粒:根据生物信息学分析结果,构建5‘和3’缺失片段作为候选启动子区域,设计引物。以正常人基因组DNA为模板,用PCR法扩增各片段,酶切后连入基本载体中。转染细胞:分别设立阴性、阳性和内对照。测定转录活性确定其转录起始位点当前第87页\共有100页\编于星期三\2点5/27/202387寡核苷酸帽法(OligoCapingApproach)
传统的cDNA克隆化技术的缺点
当前第88页\共有100页\编于星期三\2点5/27/202388寡核苷酸帽法(OligoCapingApproach)全長cDNA的克隆
当前第89页\共有100页\编于星期三\2点5/27/202389寡核苷酸帽法(OligoCapingApproach)全長cDNA文库的构建
当前第90页\共有100页\编于星期三\2点5/27/202390启动子区SNPs功能研究方法DNA-蛋白结合体外检测(Invitro)凝胶迁移率变动试验(EMSA)DNaseI足迹试验瞬时转染(Transienttransfection)
CATassayLuciferaseassay体内测定其功能(Invivo)采用具有不同基因型和与表型相关的细胞基因组足迹试验:硫酸二甲酯(dimethylsulfate,DMS)、哌啶裂解(piperidinecleavage)染色质免疫沉淀(c
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 物业部年终总结
- 护士心得体会范文大全(15篇)
- 物流安全生产责任书
- 高考地理二轮复习考前抢分专题识图技能专练图像四统计图表含答案
- 新教材高考地理二轮复习三10个长效热点综合专项训练热点10生活情境中的地理含答案
- 天津市河西区2024-2025学年高二上学期期中质量调查英语试卷(无答案)
- 2024年下学期城南区八年级地理期中试卷
- 欧姆定律(一)基础强化(强化训练)(解析版)-2022年中考物理一轮复习讲义+强化训练
- 音乐常识知识考试题及答案
- 上海地区高考语文五年高考真题汇编-古诗词赏析
- 2024至2030年中国高岭土产业园区市场深度调查与投资前景咨询报告
- 六年级上册道德与法治认识居民身份证人教部编版
- 音乐治疗导论智慧树知到答案2024年湖南科技大学
- 中学英语八年级《How often do you exercise》说课稿
- 汽车行业新能源汽车动力系统技术创新方案
- 2024至2030年中国双碳产业园(零碳园区)规划建设与投资战略分析报告
- 2024江苏扬州市邗江区邗粮农业发展限公司招聘总账会计1人(高频重点提升专题训练)共500题附带答案详解
- 2024年江苏省镇江市中考英语试卷(附答案)
- 执行力课件(完美版)
- 《直播运营实务》 课件 1.3直播电商相关法律规定与监管
- 视频会议系统保障应急预案
评论
0/150
提交评论