计算机应用生物信息学作业_第1页
计算机应用生物信息学作业_第2页
计算机应用生物信息学作业_第3页
计算机应用生物信息学作业_第4页
计算机应用生物信息学作业_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、计算机应用生物信息学作业姓名:李元元 学号:021402129 年级:2002级 专业:生物技术系GenMapDB:一个已作图的人类细菌人工染色体克隆的数据库文摘:GenMapDB(1)/genmapdb是已作图的锚定到STS(序列标签位点)标记上的细菌人工染色体克隆的存储库。目前,GenMapDB包含已作图的分布于共19条染色体上的300多个克隆,包括2、4、5号染色体,9-22,X和Y染色体。该DB提供了有关来自RPCI-11男性细菌人工染色体文库的人类细菌人工染色体克隆的位置信息。该DB还包括限制性片断分析数据即克隆的末端序列。公众

2、可免费获得GenMapDB。GenMapDB的主要目的在于规划整合作图数据,以方便研究人员从中寻找可用于基因测序研究和染色体突变分析的细菌人工染色体克隆。前言:物理图谱无论对基因作图还是基因测序都十分重要,我们实验室正在对一组细菌人工染色体克隆进行作图和定性分析,每个克隆包含有1Mb大小的人类基因组。为便于管理此项作图课题中所得数据,GenMapDB应运而生。GenMapDB要实现的两个主要目标是:(1)整合实验室数据库资源,(2)便于公众获得分享我们的数据库资源。不同于其他数据库资源,我们对所有的细菌人工染色体克隆进行了作图和定性分析,并且所有的条目都有专业人员监管。GenMapDB基于细菌

3、人工染色体克隆在染色体上的分布情况来对全部克隆组织分类。针对每条染色体,我们列出用于作图的STS(表达序列标签)标记基因和与它们相关的细菌人工染色体克隆。另外,我们还可以通过限制性酶切型克隆,细菌人工染色体末端序列(插入末端的DNA序列)和细胞遗传学定位。同时还可链接到其他基因组数据库,比如放射性杂交数据库(2)RHdb,HTTP/www.ebi.ac.uk/RHdbGeneMap99(3)/genemapqq,以便于同这些数据库中的数据整合。GenMapDB允许用户可以从均匀分布于其中的长约1Mb的人类的基因组细菌人工染色体克隆中获取大量信

4、息,也能满足对特定基因组区段的BAC克隆的作图感兴趣的人们的要求。同样地,研究肿瘤细胞基因重组的科学家可以获得有关含有与在肿瘤细胞发生重组区段相应的区域的克隆。数据库结构:支持Access,服务界面由Apcache网站服务器支持,包括Perl CGI script程序编写语言和Perl 数据库向导手册。用户可以利用Perl scripts程序设计语言输入不同来源的数据。有些输入的数据可采用html格式和CGI scripts,而像指纹和细菌人工染色体末端序列数据则是由图片分析软件产生。这样的话,我们可通过从语法上分析输入结果的纯文本文件来获得相关数据。ABI TracesMapping Dat

5、a excel sheetsGeneMapFootprints99 Auto PHREDGenMapDBBand sizeimageInterpolated RH MarkersAccession numberGenebankFasta sequenceFISH Mapping ResultsFramwork RH Markers physical distanceGeneMap99  Figure 1. GenMapDB结构流程图. 已作图的细菌人工染色体克隆:GenMapDB收集并展示我们实验室已作图的人类细菌人工染色体克隆,核心依据在于细菌人工染色体克隆的基因组定位与GeneB

6、ridge4(GB4) RH图谱中的STS标记基因有关(每一个STS在全基因组中都是唯一的)。利用NCBI上的Greg schuler选取一些STS标记基因作为细菌人工染色体克隆作图的锚定位点,然后利用标记基因制作放射性标记的探针,以便于通过杂交,结合到RPCI-11人类男性细菌人工染色体文库的高密度滤膜上。被证实含有STS标记的细菌人工染色体克隆将被从基因文库中钓出来,并进行单克隆培养,然后利用这些单克隆培养物,通过二次杂交和PCR(聚合酶链式反应),进一步验证此细菌人工染色体克隆中所携带的STS的具体信息。STS一经证实,与STS标记基因匹配的细菌人工染色体克隆就将被提交至GenMapDB

7、。另外,还可进行很多分子特征的分析,包括Hind指纹分析和细菌人工染色体末端序列分析,以便于将我们基于STS作图的图谱同细胞遗传学图谱进行整合。GenMapDB还可以提供细菌人工染色体克隆经荧光原位杂交绘图后得到的细胞遗传学地址。内容:该数据库可分为:已作图的细菌人工染色体克隆,Hind 指纹图谱,细菌人工染色体末端分序列和细胞遗传学图谱定位。已作图的细菌人工染色体克隆按照每个细菌人工染色体克隆在染色体上的分布,依次排列各个染色体,然后逐一显示其上的克隆。每一个条目包括该克隆在CR500上的物理位置和其距染色体p端的距离(以Mb表示)。另外还包括其STS信息。以表示的物理距离是根据来自RH图谱

8、中以差值发求的值来计算的距离框架标记的距离。其精确性取决于RH图谱的精确性,并因克隆在基因组中的位置的不同而异。基于对14号染色体和16号染色体上的120个克隆的FISH(荧光原位杂交)分析结果的初步预测显示,其中有7个克隆(4个位于14号染色上,3个位于16号染色体上)与RH图谱上显示的染色体不相匹配。大部分克隆所在的染色体是与RH图谱和细胞遗传学图谱一致的,而位于14号染色体上的这4个克隆,RH图谱却显示其位于不同的染色体位置上。 Figure 2. 输出主页面的一个例子。这里显示l6号染色体克隆的搜索结果。数据包括STS标记、物理位置和与之相对应的细菌人工染色体克隆。我们给出每个标记的两

9、个名称:RH数据库中的识别号和每个标记在GeneMap99中的名称,可据此建立与RH数据库和GeneMap99的链接。同时在内部建立每一个克隆的名字与显示该克隆详细分子信息的页面的链接。Hind 指纹分析我们绘制出每个克隆的Hind的限制酶切位点以提供其唯一的分子识别标识。获得的Hind指纹用Sanger中心(4)开发的免费软件IMAGE来进行分析。片段的大小以表格形式和电泳迁移重组图来显示出来。  Figure 3.已作图的克隆图谱主页面。这里显示了来自16号染色体上的细菌人工染色体RP11315L9克隆的相关信息。包括在染色体上的定位,物理地址和细胞遗传学地址,Hind限制性酶切

10、类型,经Hind酶切后的片段大小和末端序列在Genebank中的获取号。 细菌人工染色体末端序列我们通过对插入每个克隆的DNA片段末端序列进行测序,根据重叠的片段排序,并同人类基因组图谱进行比对(5)。细菌人工染色体末端序列通过利用Big-Dye末端化学转移法(PE Biosystems,CA)循环测序,借助Auto PHRED软件(6),这是一个由Perl script语言编写的碱基报告程序,来输入代测序列。如果一段序列中包含的碱基的PHRED值大于20,表明碱基的错误率小于1/100,结果就可以提交给Genebank。用户可以通过GenMapDB上与Genebank的超链接获取相关测序数据

11、。细胞遗传学分析结果通过荧光原位杂交(FISH)技术作图克隆,进一步验证其序列的准确性及其在染色体上分布情况是否符合实际情况。美国国立癌症研究所(NCI)肿瘤基因组解剖计划(CGAP)(7)中的一个子项目肿瘤染色体畸变计划(CCAP)(8)/CCAP参与此项工作的进行。肿瘤基因组测序的结果可从CCAP网站和GenMapDB中获取。在Figure. 3中,我们显示了经荧光原位杂交后所得的细胞遗传学图谱条带的文本形式的结果和图形标识。更多链接:同时建立与RHdb,GenMap99和Unigene(9)的超链接以便于用户获取更多信息,同时将我们的图

12、谱与其他基因组图谱进行资源整合。用户可以从中获取更多关于作为图谱绘制中锚定位点的STS标记的信息,还有引物序列,PCR反应条件和有关RH图谱中 LOD值表达的标记定位的定量检测数据集合。与Unigene建立超链接,是我们注释图谱的第一步。与包含序列和图谱信息的数据库进行资源整合至关重要。我们的目标就是要提供一整套可被用于作为平均分布于人类基因组上的标识的克隆。获取途径:我们的数据库对所有用户免费开放。您可以通过检索染色体和某一特定基因组区域来进入相关数据库。GenMapDB中的数据每月更新。为便于用户快速检索,我们采用450MHZ的奔腾型计算机,其拥有128M RAM和6.4GB的存储空间来存

13、储数据。未来发展动向:我们计划在如下方面进行改进,包括GenMapDB数据的整合,注释和运行处理的速度。目前,该数据库共包括位于2,4,5,9-22,X和Y共19条染色体上的基因的克隆。到2001年初,我们将克隆下一步扩大到覆盖整个人类基因组。随着人类基因组测序的完成,我们发展的目标就是将我们已绘制的图谱同其他公共资源,如TIGR(美国基因组研究所)细菌人工染色体末端序列数据库(10) /tdb/humgen/bac_end_search/bac_end_intro.html,华盛顿大学的细菌人工染色体指纹数据库资源(11)

14、/gsc/human/human_database.shtml,NCI CCAP(12)/CCAP/bac.cgi,Roswell Park 癌症细菌人工染色体资源资源库(/human/overview.html)和华盛顿大学的资源库资源(/bacresource/index.shtml)整合。另外包括一些专门的已建立克隆图谱的研究小组。这些资源库提供了大量基于通过Hind指纹分析,细菌人工染色体末端序列分析和细胞遗传学分析

15、来研究克隆特征的信息,我们的工作是定性并提供有关每个克隆体的Hind指纹分析,细菌人工染色体末端序列分析和细胞遗传学分析数据,彼此的工作是互补的。GenMapDB还建立了与其他资源的链接,用户可根据不同需要从中获取不同的信息。为了便于更好地解读克隆所蕴含的生物学意义,我们将通过定性其所包含的序列特征并同人类基因组进行比对,来注释我们获得的细菌人工染色体末端序列。同时利用基因预测和比对软件提高运行处理速度,扩展存储空间。届时,我们还可以将数据库运行于其他数据库服务器上,比如Oracle或与目前的Perl scripts 没有很大差别的UNIX平台。致谢:我们的工作得到Merck基因组研究中心,国

16、家健康中心和HG01880的大力支持,特此表示感谢。脚注:与我们联系,您可以通过以下方式:Tel: +1 215 590 4950; Fax: +1 215 590 3709; Email: .原文参考文献:1 Morley,M. and Bruzel,A. (1999) A resource of mapped human bacterial artificial chromosome clones. Genome Res., 9, 989993. 2 Rodriguez-Tomé,P. and Lijnzaad,P. (2000)

17、 RHdb: the Radiation Hybrid database. Nucleic Acids Res., 28, 146147. Updated article in this issue: Nucleic Acids Res. (2001), 29, 165166. 3 Deloukas,P., Schuler,G.D., Gyapay,G., Beasley,E.M., Soderlund,C., Rodriguez-Tomé,P., Hui,L., Matise,T.C., MuKusick,K.B., Beckmann,J.S. et al. (1998) A ph

18、ysical map of 30 000 human genes. Science, 282, 744746. 4 Gyapay,G., Schmitt,K., Fizames,C., Jones,H., Vega-Czarny,N., Spillett,D., Muselet,D., PrudHomme,J.F., Dib,C., Auffray,C., Morissette,J., Weissenbach,J. and Goodfellow,P.N. (1996) A radiation hybrid map of the human genome. Hum. Mol. Genet., 5

19、, 339346. 5 Osoegawa,K., Woon,P.Y., Zhao,B., Frengen,E., Tateno,M., Catanese,J.J. and de Jong,P.J. (1998) An improved approach for construction of bacterial artificial chromosome libraries. Genomics, 52, 18. 6 Sulston,J., Mallet,F., Durbin,R. and Horsnell,T. (1989) Image analysis of restriction enzy

20、me fingerprint autoradiograms. Comput. Applic. Biosci., 5, 101106. 7 Ewing,B. and Green,P. (1998) Base-calling of automated sequencer traces using phred. II. Error probabilities. Genome Res., 8, 186194. 8 Ewing,B., Hillier,L., Wendl,M.C. and Green,P. (1998) Base-calling of automated sequencer traces

21、 using phred. I. Accuracy assessment. Genome Res., 8, 175185. 9 Kirsch,I.R., Green,E.D., Yonescu,R., Strausberg,R., Carter,N., Bentley,D., Leversha,M.A., Dunham,I., Braden,V.V., Hilgenfeld,E. et al. (2000) A systematic, high-resolution linkage of the cytogenetic and physical maps of the human g

22、enome. Nature Genet., 24, 339340. 10 Zhao,Z. (2000) Human BAC ends. Nucleic Acids Res., 28, 129132. Updated article in this issue: Nucleic Acids Res. (2001), 29, 141143. 11 Marra,M.A., Kucaba,T.A., Dietrich,N.L., Green,E.D., Brownstein,B., Wilson,R.K., McDonald,K.M., Hillier,L.W., McPherson,J.D. and

23、 Waterston,R.H. (1997) High throughput fingerprint analysis of large-insert clones. Genome Res., 7, 10721084. 附:翻译相关说明1 英文原文来源:Nucleic Acids Research, 2001, Vol. 29, No. 1 144-147 核酸研究© 2001 Oxford University Press 牛津大学出版社GenMapDB: a database of mapped human BAC clones Michael Morley, Melissa A

24、rcaro, Joshua Burdick, Raluca Yonescu1, Thomas Reid1, Ilan R. Kirsch1 and Vivian G. Cheung* Department of Pediatrics, University of Pennsylvania, The Childrens Hospital of Philadelphia, 3516 Civic Center Boulevard, ARC 516, Philadelphia, PA 19104, USA and 1Genetics Department, Medicine Branch, Natio

25、nal Cancer Institute, NIH, Bethesda, MD 20889, USA 2 本文系作者个人独立翻译完成,绝大部分是自己组织的语言,难免有不足之处,请老师指正。在基本翻译完后,参考了一些书查阅相关专业术语的解释,说明如下:2.1相关背景知识和名词解释(1)GenMapDB V.CheungR-783实验室维护的一个人类BAC图谱数据库 它包含一群已作图的BAC克隆的信息。它以1Mb 的间距覆盖了人类第2、4、5 、9-22、X和Y共19条染色体上的BAC克隆,在1999年初总长度达到1156Mbp。他们利用来自RPCI-11男性BAC文库的人类BAC克隆作为原材料,

26、通过滤膜杂交和STS-content PCR(Cheung et al, 1999)技术作图。BAC克隆锚定到来自GeneBridge4 RH map或染色体特异YAC图谱中的STS上,该图谱中STS的间距大约为1Mb。(2)放射性杂交数据库(RHdb)RHdb是收录用于构建放射性杂交图谱的原始数据的数据库,包括STS数据、分值、实验条件和多方面的交叉参考数据。2001年1月公布的RHdb Release19.0版本包含约229个实验条件、92个图谱的三个物种(包括人、小鼠和大鼠)的106,574个STSs。 放射性杂交图谱是根据放射性杂交矢量分值算后构建的染色体图谱,是另一种遗传图谱。由于放

27、射性杂交图谱可以包括非多态性标记,对于遗传图谱的完善是不可缺少的补充,且可以对为澄清的多态性STS簇排序简单地说,两个标记的矢量越相似,他们在染色体上的位置就越近。国际上的合作研究计划产生了大量的人、小鼠和大鼠杂交数据,这样就可以构建较准确的STS图谱。它对于研究人类多因素遗传疾病有重要价值。(3)GeneMap99GeneMap98提供了基因的位点,位点由STS标记并且每一个在全基因组中都是唯一的。由于当时只有一小部分人类基因组测序完成,只有3%的STSs序列对应实际的基因。后来,就从来源于ESTS中的STS序列中得到。提供了每条染色体基因大致的分布情况。在ESTS水平上比较了预期的基因密度

28、和检测到的基因密度,所以可从中获得关于基因的活性和基因计量效应的相关信息。(4)Sanger中心Sanger中心是世界上最大的DNA测序中心之一。它承担着人类基因组计划的1/3,即10亿碱基对的测序任务,以及一些其它物种的测序。人类基因组测序集中在以下染色体:1、6、9、10、13、20、22和X。(5)把长DNA打断,用BAC增殖。以不同BAC的为对象,这个测定其两端序列,确定之间的覆盖关系,再把每个BAC打碎测序进行拼接。这样便于许多单位分工合作,平行作业。大量测序后用计算机组装拼接。人类基因组计划就是按这种“分而治之”的策略进行的。(6)Auto PHRED软件PHRED测序程序,它实现

29、碱基识别和错误率估算。(7)美国国立癌症研究所肿瘤基因组解剖计划(NCI-CGAP),包括其中一个子项目肿瘤染色体畸变计划(CCAP)NCBI与CGAP紧密合作。CGAP旨在得到用于解码肿瘤细胞分子解剖的信息和工具。其目的在于研究正常细胞、癌变前病变细胞和肿瘤细胞的基因表达图谱,以便最终能够促进肿瘤病人的检测、诊断和治疗。CGAP目前正在制作跨度为1-2Mb的人染色体BAC克隆,这些克隆都是通过荧光原位杂交的方法定位的,这些已经定位的克隆可以提供给其他研究组织。(8)Unigene 人类基因序列集合EST称表达序列标签,是从cDNA克隆中随机挑选出来进行一次性测序的结果。一般长约200-500

30、bp,通常作为基因的标志。由于cDNA文库的复杂性和测序的随机性,有时多个代表同一基因或基因组。通过对EST的分析将其归类而形成EST簇,每一个EST簇代表着一个特定的基因,即Unigene。而Unigene数据库收集了大量的EST簇,并与相关信息链接,如:表达的组织类型、染色体作图、表达的蛋白等。目前,用超过150万的构建了83000个EST簇,代表了大部分的人类基因。(9)cytogenetic map 细胞遗传学图在染色及显微镜的检视下,染色体所呈现的形式。重要的地方在于称为亮带和暗带的区域,使得每条染色体独一无二有別于其他条。这项特征在人类的染色体临床检测上特別受到重视,称为核型(ka

31、ryotype),使科学家得以寻找染色体的变化。2.2参考书目:1 王哲 生物信息学概论 第四军医大学出版社 2002年4月 第一版2 郝柏林 张淑誉 生物信息学手册 上海科技出版社 2000年10月 第一版3 加S.米塞诺 美S.A.克拉维茨 著 欧阳红生 阮承迈 李慎涛 等译生物信息学方法指南(生命科学实验指南系列) 2005年2月 第一版3 统计信息正文页数 5正文中文字数 3303全文页数 8全文字数 6178还差700多字,我便又另外翻译了一篇的两小段。RefSeq和LocusLink:NCBI 基因核心资源摘要:目前,基因组测序的进行使得大量基因的功能已经得到确认。大规模cDNA和基因组测序项目依据来自mRNA和比较基因组的信息和组建模型进行更多基因的功能推测工作。这些,伴随着科技文献的大量涌现,使得拥有一个全面综合的基因和参考序列的向导变得尤为必要。NCBI提供的LocusLink和RefSeq两个资源数据库可以满足这些要求。LocusLink提供基因存储中心组织人类、小鼠、大鼠和斑马鱼基因的相关信息。RefSeq提供基因组,转录产物和蛋白质的代表性参考序列。本文侧重讨论人类、小鼠和大鼠及其对应的蛋白质数据信息。LocusLink和RefSeq共同提供非冗余的基因和其它位

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论