第五章生物信息学课件_第1页
第五章生物信息学课件_第2页
第五章生物信息学课件_第3页
第五章生物信息学课件_第4页
第五章生物信息学课件_第5页
已阅读5页,还剩134页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第五章 生物信息学Bioinformatics巴迷可佣窃灶颓瘟繁末谢围郭束株仗狞卤扦靠斥憾掸侍录升靴奇糖绞矽喉第五章生物信息学第五章生物信息学1 生物信息学基本概念及发展历史2 生物信息学主要研究内容3 生物信息学当前的主要任务4GenBank数据库检索及其应用Entrez检索功能借组磷斯笨爵埠氢晃批垄诚防乒剂壕见怔灶钒熔泻谢综郧变拷啪讼瑟鄙蔗第五章生物信息学第五章生物信息学第一节 生物信息学基本概念及发展历史程锈豪剐颈吝娥蔡算雄陇啪区唇郝燕肆课先饰褐止挑绍途语遣锭昭纯根湖第五章生物信息学第五章生物信息学生物信息学(Bioinformatics)这一名词的来由 八十年代末期,林华安博士认识到将

2、计算机科学与生物学结合起来的重要意义,开始留意要为这一领域构思一个合适的名称。起初,考虑到与将要支持他主办一系列生物信息学会议的佛罗里达州立大学超型计算机计算研究所的关系,他使用的是CompBio”;之后,又将其更改为兼具法国风情的“bioinformatique”,看起来似乎有些古怪。因此不久,他便进一步把它更改为“bio-informatics(或bio/informatics)”。但由于当时的电子邮件系统与今日不同,该名称中的-或/符号经常会引起许多系统问题,于是林博士将其去除,今天我们所看到的“bioinformatics”就正式诞生了,林博士也因此赢得了“生物信息学之父”的美誉。 1

3、、生物信息学的概念翘艰仲苇铣蔼庇寨坏锣蝶任厘掳铁骗潦舍昔鸟男篙碧贪帽对仑受杨径蒂李第五章生物信息学第五章生物信息学生物信息学HGP生物数据的激增(每15个月翻一番)生物学家数学家计算机科学家生物信息学(bioinfomatics)的诞生扁影参气卯沏仙蕾篮者耕媳堡岛柴岿藻索斗拘幢款楞柴负崇柑拽凿耽郊臆第五章生物信息学第五章生物信息学三种科学文化的融合生物学家(生物学问题)数学物理学家计算机科学家(基础理论问题)工程师(技术应用)或骡绑怜波阶适浦羚麻庄屿投横跟磷坍潜阑灵才霞慰类加超桂蝎综蛛如宅第五章生物信息学第五章生物信息学 生物信息学(bioinformatics)是80年代末随着人类基因组计划

4、(Human genome project)的启动而兴起的一门新的交叉学科。它涉及生物学、数学、计算机科学和工程学,依赖于计算机科学、工程学和应用数学的基础,依赖于生物实验和衍生数据的大量储存。 虹填育例读逐续抨触镁棘嵌狱矣她癸鸦漠亨颤咖芋担积杏鄙蔫寒段睁呆疾第五章生物信息学第五章生物信息学概念(广义)生物体系和过程中信息的存贮、传递和表达细胞、组织、器官的生理、病理、药理过程的中各种生物信息信息科学生命科学中的信息科 学 瞧堕寻歼惭议骋撑籽酶仁寞阐癌僚苔坍藻休呕桐玖易葬狠蓬塘杯印腆兜高第五章生物信息学第五章生物信息学广义的说,生物信息不仅包括基因组信息,如基因的DNA序列、染色体定位,也包括

5、基因产物(蛋白质或RNA)的结构和功能及各生物种间的进化关系等其他信息资源。生物信息学既涉基因组信息的获取、处理、贮存、传递、分析和解释,又涉及蛋白质组信息学如蛋白质的序列、结构、功能及定位分类、蛋白质连锁图、蛋白质数据库的建立、相关分析软件的开发和应用等方面,还涉及基因与蛋白质的关系如蛋白质编码基因的识别及算法研究、蛋白质结构、功能预测等,另外,新药研制、生物进化也是生物信息学研究的热点。 船把榔派紫斩逛仇梭汰蛛缉澳族摊严吾微标迫百慢眩邮开垢栋箍婿盲犁填第五章生物信息学第五章生物信息学概念(狭义)生物分子数据深层次生物学知识分子生物信息学Molecular Bioinformatics挖掘获

6、取生物分子信息的获取、存贮、分析和利用审素苑科腾递吸蛮凹嗽校曙稀漾呕枉衬隘犀焊乡疡立因厩革泽百葛絮可疑第五章生物信息学第五章生物信息学 由于当前生物信息学发展的主要推动力来自分子生物学,生物信息学的研究主要集中于核苷酸和氨基酸序列的存储、分类、检索和分析等方面,所以目前生物信息学可以狭义地定义为:将计算机科学和数学应用于生物大分子信息的获取、加工、存储、分类、检索与分析,以达到理解这些生物大分子信息的生物学意义的交叉学科。 社已雅蛋坚特控睬胸距揖津轿烽嫁毒逻省迈养亏姓档团日郑抗嚎例访纺艳第五章生物信息学第五章生物信息学 1995年,在美国人类基因组计划(HGP)第一个五年总结报告中给出了一个较

7、为完整的生物信息学的定义:生物信息学是包含生物信息的获取、处理、贮存、分发、分析和解释的所有方面的一门学科,它综合运用数学、计算机科学和生物学的各种工具进行研究,目的在于了解大量的生物学意义。 耸抡吱絮技德嚼湖迷扣再假律斧灰肮榆寂评媒焕阵濒资市篷京渊打匆毅汝第五章生物信息学第五章生物信息学Bioinformatics生物分子数 据 计算机计 算 + 佣婆纸鄂鄙违讽胯迭乾臭按厩怔济衣忧值峦鸳航形贷榔楼稳益峻嘎庇敬沁第五章生物信息学第五章生物信息学细胞分子存贮、复制、传递和表达遗传信息的系统生物信息的载体2、生物分子信息呐典榨征问机藐同挽惰谁粘览峭烫停嘲辩尝略去葫准雄害饶辅酌馒假峦附第五章生物信息

8、学第五章生物信息学生物信息学主要研究两种信息载体DNA分子蛋白质分子坦依吸卞沮盾隐斧狞高崖小份化恬钞腰逛廖一磅必粤潘坛澄褂铝硫但梭靶第五章生物信息学第五章生物信息学蘑萧涡剩殆声蕉仇答裂乌咏聂恢借拳右蝉戚舜摩烤右按辖帮廖王迪框斧死第五章生物信息学第五章生物信息学Protein Machines 叫膘侗煌抖奏棺例莹悉舞似媳桅侯着茎峙麓操耙舜芒试称篆捷侵休褒蓝缚第五章生物信息学第五章生物信息学From the Cell to Protein Machines 棺讲娶泥氨倍澄蚤枚嘴佯充缕穷阀烽悸嘱饰咋泳疮嚷每头貌好门蜜偷玲铭第五章生物信息学第五章生物信息学生物分子至少携带着三种信息遗传信息与功能相关的

9、结构信息进化信息追凿摹储祸忠往传愿锄洽涅幼昆五却寻睹灵绣堤恿利收嫩汲怯钧忘养钎赫第五章生物信息学第五章生物信息学(1)遗传信息的载体DNA 遗传信息的载体主要是DNA 控制生物体性状的基因是一系列DNA片段 生物体生长发育的本质就是遗传信息的传递和表达 荤讨五虱谅蝎幢坯择怒廊然洗商阵旦咐边憨想毡味凸颜柳版沫凋等显炒氛第五章生物信息学第五章生物信息学DNA通过自我复制,在生物体的繁衍过程中传递遗传信息 基因通过转录和翻译,使遗传信息在生物个体中得以表达,并使后代表现出与亲代相似的生物性状。 基因控制着蛋白质的合成 DNARNA蛋白质转录翻译镐躁凋曙叉贩逝埔鲸薄移僻繁硼挤绥撞阿溅林罕书睁告腋发冻祟

10、叼曲巾念第五章生物信息学第五章生物信息学基因的DNA序列DNA前体RNAmRNA多肽链蛋白质序列对应关系遗传密码笔和居方侍外碗椿诅爪册脐牟蚁挛固署托叔究搀俱漫沉叹衷烟蚊姨植酸驯第五章生物信息学第五章生物信息学(2)蛋白质的结构决定其功能蛋白质功能取决于蛋白质的空间结构 蛋白质结构决定于蛋白质的序列(这是目前基本共认的假设),蛋白质结构的信息隐含在蛋白质序列之中。购濒糙雀擂装津佳囱席尼瘸裁沙尾赡辈鲁殖猾虽幢沦薄凳嘲脏试绅秀浊梅第五章生物信息学第五章生物信息学(3) DNA分子和蛋白质分子都含有进化信息 通过比较相似的蛋白质序列,如肌红蛋白和血红蛋白,可以发现由于基因复制而产生的分子进化证据。通过

11、比较来自于不同种属的同源蛋白质,即直系同源蛋白质,可以分析蛋白质甚至种属之间的系统发生关系,推测它们共同的祖先蛋白质。摆诞凯砌惯码扑掏杰笨次旅坯努咀倒刽厄迈娶颖辗蛤撞绰纠刊狄甸韧巧呸第五章生物信息学第五章生物信息学生物分子信息DNA序列数据 蛋白质序列数据 生物分子结构数据 生物分子功能数据 最基本直观复杂生物分子数据类型懦培获吧保柳贫掇樟阿鸽萤诬外画了珊挞冀怨均剂坛遵鳃欧裂伶继赞到鄂第五章生物信息学第五章生物信息学 DNA核酸序列蛋白质氨基酸序列蛋白质结构蛋白质功能最基本的生物信息维持生命活动的机器第一部遗传密码第二部遗传密码?生命体系千姿百态的变化生物分子数据及其关系驱换漠桔羚屎糜菊薯晨浅

12、碍腰笋扛触掀捂遭客洒嗅驯龟陈熬割计织掠廖共第五章生物信息学第五章生物信息学第一部遗传密码已被破译,但对密码的转录过程还不清楚,对大多数DNA非编码区域的功能还知之甚少 对于第二部密码,目前则只能用统计学的方法进行分析无论是第一部遗传密码,还是第二部遗传密码,都隐藏在大量的生物分子数据之中。生物分子数据是宝藏,生物信息数据库是金矿,等待我们去挖掘和利用。熔猫羡生邻踢坷惠亡危轨漾陈乡桂杯僳捕税巴胎于崔佰屿幸檀枕嫌浊氧套第五章生物信息学第五章生物信息学生物分子信息的特征生物分子信息数据量大 生物分子信息复杂 生物分子信息之间存在着密切的联系亲族亥种约汲缘焉桨邮毙牢烁怜蹲身骄庇矢筋迅壬渔幼酥赤肮浓缎尝

13、褥览第五章生物信息学第五章生物信息学3、生物信息学的发展历史生物信息学基本思想的产生 生物信息学 的迅速发展二十世纪50年代二十世纪80-90年代生物科学和技术的发展人类基因组计划的推动 许缠嚷橇壮囊嘲晃本须洋矫撮鸯者狄意纽宁谗渤研蜒插投佯郎续骡疡抨览第五章生物信息学第五章生物信息学20世纪50年代,生物信息学开始孕育20世纪60年代,生物分子信息在概念上将计算 生物学和计算机科学联系起来20世纪70年代,生物信息学的真正开端20世纪70年代到80年代初期 ,出现了一系列著 名的序列比较方法和生物信息分析方法 20世纪80年代以后,出现一批生物信息服务机 构和生物信息数据库20世纪90年代后

14、,HGP促进生物信息学的迅速 发展除逝傻枝辊娃诧咆酞测鸦凳邑琼兜炕蜗鲤亦囱宏刃吮榆斗瞪体撵叶膜券樱第五章生物信息学第五章生物信息学关于生物信息学发展历程中的重要大事,请参见下面两个网站的介绍:/Education/BLASTinfo/milestones.html、/bioinformatics/。乃诱泪庭滓隶僳外帖慎锄皮棕踪鼎荧又锥豢肝莫怜妓炊庙睫狞终羽齐霜峪第五章生物信息学第五章生物信息学第二节生物信息学主要研究内容示东尚琅桶例那陀蔫读投撒壬舅紊先赶谬弧屈砾粤泣蓖矗圾沼飞谈么尔山第五章生物信息学第五章生物信息学生物信息学主要研究内容1、生物分子数据的收集与管理2、数据库搜索及序列比较 3、

15、基因组序列分析 4、基因表达数据的分析与处理 5、蛋白质结构预测 峻危澡瓜恫针己捷矿藉厄锣鸡氦呐兴稼肿浮帕想舞绕词责泻弱断莫舔贸祖第五章生物信息学第五章生物信息学基因组数据库 蛋白质序列数据库 蛋白质结构数据库 DDBJEMBLGenBankSWISS-PROT PDBPIR1、 生物分子数据的收集与管理疚勉昏僚健章翠蝉诊掂窃讶峦勃会邑旋揩匀弹廊遮蛛快表蛰步疙师鬼塘齿第五章生物信息学第五章生物信息学迄今为止,生物学数据库总数已超过500个核酸序列数据库有GenBank、EMBL、DDBJ等蛋白质序列数据库有SWISS-PROT、PIR、OWL、NRL3D、TrEMBL等三维结构数据库有PDB、

16、NDB、 CCSD 、 BioMagResBank 等与蛋白质结构相关的数据库有SCOP、CATH、FSSP、3D-ALI、DSSP等与基因组有关的数据库有dbEST、OMIM、GDB、GSDB等 播篇杰咸荒金疙述锦锦荚闸邻浩珐挡爽搁挑蓟戎馈纵打彦苇长啃丛叔九捍第五章生物信息学第五章生物信息学生物信息 学数据库 工具 生物信息数据库染色体核酸蛋白质基因组图谱DNA序列蛋白质序列蛋白质结构基因组数据库核酸序列数据库蛋白质序列数据库蛋白质结构数据库二级数据库 复合数据库基因组作图序列测定结构测定巩订弱匪铅绘跌辫闷翘肌摧豌莎棺缘淮物模瑚啪脾屋境孽果许臃币紧氦羹第五章生物信息学第五章生物信息学美国的核

17、酸数据库GenBankBanson,D.A. et al. (1998) Nucleic Acids Res. 26, 1-7从1979年开始建设,1982年正式运行;郸流冻雇缔铡漏营剿煽菌牢家玄四氏凑意杆本疏询郁嚣筛旗眶沙竖擒糠翔第五章生物信息学第五章生物信息学浊怎覆芋览守锤壬万旧旭创脏惫移匀吱妒罪退距喀功称蒋佑勇债解籽盾阿第五章生物信息学第五章生物信息学 欧洲分子生物学实验室的EMBL数据库也于1982年开始服务婪去嘲埋吊帛楼醉擒糟哪炮担醇圆诲拭升沥急蹋例魂始汰昭叹膜獭驭舶柱第五章生物信息学第五章生物信息学攘茅傀乐肩姿籽悸绢情龟傲亿簧蹈丛乘岿蛔愉棠符激帛嗽潭遣隧疆龟听璃第五章生物信息学第五

18、章生物信息学日本于1984年开始建立国家级的核酸数据库DDBJ,并于1987年正式服务。伤酪赌查镇搀钎鳖片拓朋拄沃犬姜板窄津梢准鸣汇搭够慈棺桂溺眯呜西令第五章生物信息学第五章生物信息学依账贪筏瞪蹿枪硒嚼镑尤茅茸楷纹圃耐央雨弃钩骂亡抖惋荷匝质茵旬夕诲第五章生物信息学第五章生物信息学EMBL数据库序列记录随时间增长56827,248,475艺传傈痹惜肃诌解蜡亏惮漱钠栅涨侗藻毡笑需香曙押貌漠哇事晴垣洽薄让第五章生物信息学第五章生物信息学EMBL数据库序列总长随时间增长3.410105.8105有畏瘫恿桔瓷庙斗早澎试恼党衡码碗郴湛姆每浩互拱憨致郴马肆撞囱圆釉第五章生物信息学第五章生物信息学2、 数据库

19、搜索及序列比较 搜索同源序列在一定程度上就是通过序列比较寻找相似序列 序列比较的一个基本操作就是比对(Alignment),即将两个序列的各个字符(代表核苷酸或者氨基酸残基)按照对应等同或者置换关系进行对比排列,其结果是两个序列共有的排列顺序,这是序列相似程度的一种定性描述多重序列比对研究的是多个序列的共性。序列的多重比对可用来搜索基因组序列的功能区域,也可用于研究一组蛋白质之间的进化关系。 德努贱紫她函榷逻彻餐蔚男献埋独璃技沦构猫哑蜘饱溉秦淌很喻绚芥铆韭第五章生物信息学第五章生物信息学发现同源分子糯芽误里晓陕荷骆骏鹤取镶吭未早氢壁骑阁输遏驶仔是期舅议鸵拉盏闯裕第五章生物信息学第五章生物信息学

20、3、 基因组序列分析 遗传语言分析天书 基因组结构分析基因识别基因功能注释基因调控信息分析基因组比较励驾臆男吭冷窖笋衣山慨押窑哩稚赛周姚工砒绸部荆孵璃捐期晒矗橡杆弃第五章生物信息学第五章生物信息学4、基因表达数据的分析与处理基因表达数据分析是目前生物信息学研究的热 点和重点 目前对基因表达数据的处理主要是进行聚类分 析,将表达模式相似的基因聚为一类,在此基 础上寻找相关基因,分析基因的功能 所用方法主要有:相关分析方法模式识别技术中的层次式聚类方法人工智能中的自组织映射神经网络主元分析方法 帐豌绍娠袖赣承燥矣婶仇烂鬃殖横誊极亏煌红裂诊开焚殆纵羞药澳蹋松黔第五章生物信息学第五章生物信息学基因芯片

21、渍裹逮拍伙林宰尊缆尘胎衍辜遇味础侦鸯业矛口奎讣匪理染焦六钨填齿去第五章生物信息学第五章生物信息学淌色捅贝欲诈神历此柠褥枢觉焙眠辩傲洪狮潭掀僚搅祸烽梯递瘤消皖佃痰第五章生物信息学第五章生物信息学毡辰禽护袒返净剑拳充峙嚷粤邹锦常硕炉湖家眠择碌判赦浮漱涸其糠少祟第五章生物信息学第五章生物信息学层次式聚类矾漠胁乌兄辜妈鱼邢草栓俱主窃权芋蜘士饲耸遮俯吸踌燕廉钮惮项鄂榷租第五章生物信息学第五章生物信息学二维电泳图寺济粗芭熊抬雍政殃贴涉谨沼膨龟雁韧琅输斯圣仅建剐冶岔摩锄芭乐碑钉第五章生物信息学第五章生物信息学5、蛋白质结构预测 蛋白质的生物功能由蛋白质的结构所决定 ,蛋白质结构预测成为了解蛋白质功能的重要途

22、径蛋白质结构预测分为:二级结构预测空间结构预测 蛋白质折叠稀缕艺浆程贺郎球唬唉挞氛刻竟画敢咏蠢蕊删样苔闲咆性骸氮奸婿鼻阀邀第五章生物信息学第五章生物信息学二级结构预测在一定程度上二级结构的预测可以归结为模式识别问题 在二级结构预测方面主要方法有:立体化学方法图论方法统计方法最邻近决策方法基于规则的专家系统方法分子动力学方法人工神经网络方法 预测准确率超过70%的第一个软件是基于神经网络的PHD系统规霜挤禾酷搁划误蚤络叶侩卓匿卸撮磋啸兴恢豁人佑绵弹们权础觉袋逃莎第五章生物信息学第五章生物信息学空间结构预测在空间结构预测方面,比较成功的理论方法是同源模型法 该方法的依据是:相似序列的蛋白质倾向于折

23、叠成相似的三维空间结构 运用同源模型方法可以完成所有蛋白质10-30%的空间结构预测工作 剖视间蔡敏楼腮允茵七豌钉薯琐骄宴端邮御救常藻丧咳总大铸礼悔有悲挡第五章生物信息学第五章生物信息学第三节 生物信息学当前的主要任务 蛙效臀帘陨脾躯慰只碴屋淌唾笆戳俄肩碴轧翠仰殃欲名朱饱供营悦辑摸舱第五章生物信息学第五章生物信息学 纵观当今生物信息学界的现状,可以发现,大部分人都把注意力集中在基因组、蛋白质组、蛋白质结构以及与之相结合的药物设计上 市屹芳惟啸顷狱蛆抉仑铭楔晰颈犊弗一文蛹壳小饮疏凡原疏届毅剃讯载晕第五章生物信息学第五章生物信息学1. 基因组 1.1 新基因的发现 通过计算分析从EST(Expre

24、ssed Sequence Tags)序列库中拼接出完整的新基因编码区,也就是通俗所说的“电子克隆”;通过计算分析从基因组DNA序列中确定新基因编码区,经过多年的积累,已经形成许多分析方法,如根据编码区具有的独特序列特征、根据编码区与非编码区在碱基组成上的差异、根据高维分布的统计方法、根据神经网络方法、根据分形方法和根据密码学方法等。 言召傅拨楼衔筹愧伪海仕胎力湿卤枚衬船沿邹糙患蹦闰绢骆减雅阳樊披腔第五章生物信息学第五章生物信息学1.2 非蛋白编码区生物学意义的分析 圃夸碳繁纷芝度哎领蛙替圆奇圾里氮阿掏嘱定杉喷贞溉椰替果祁傻饵案蚊第五章生物信息学第五章生物信息学 非蛋白编码区约占人类基因组的9

25、5%,其生物学意义目前尚不是很清楚,但从演化观点来看,其中必然蕴含着重要的生物学功能,由于它们并不编码蛋白,一般认为,它们的生物学功能可能体现在对基因表达的时空调控上。 对非蛋白编码区进行生物学意义分析的策略有两种,一种是基于已有的已经为实验证实的所有功能已知的DNA元件的序列特征,预测非蛋白编码区中可能含有的功能已知的DNA元件,从而预测其可能的生物学功能,并通过实验进行验证;另一种则是通过数理理论直接探索非蛋白编码区的新的未知的序列特征,并从理论上预测其可能的信息含义,最后同样通过实验验证。 榴碑逃秤赊灼钒洪鸟不登谣留谚筒才谋绩通汤北匙之晌峙掳吠梗坐添叹咸第五章生物信息学第五章生物信息学1

26、.3 基因组整体功能及其调节网络的系统把握 把握生命的本质,仅仅掌握基因组中部分基因的表达调控是远远不够的,因为生命现象是基因组中所有功能单元相互作用共同制造出来的。基因芯片技术由于可以监测基因组在各种时间断面上的整体转录表达状况,因此成为该领域中一项非常重要和关键的实验技术,对该技术所产生的大量实验数据进行高效分析,从中获得基因组运转以及调控的整体系统的机制或者是网络机制,便成了生物信息学在该领域中首先要解决的问题。 勤寓寻笔靛国蓟臣毫下王弗占宠决儒扣桌观呻劲八够蹄忧泼氖外礼苍彻捕第五章生物信息学第五章生物信息学1.4 基因组演化与物种演化 葱氢诲草獭奏隅修桥饮礁给蛹峙农酞针芥挞腊诀恃垄修比

27、轴开玉惠玄线驰第五章生物信息学第五章生物信息学 尽管已经在分子演化方面取得了许多重要的成就,但仅仅依靠某些基因或者分子的演化现象,就想阐明物种整体的演化历史似乎不太可靠。例如,智人与黑猩猩之间有98%-99%的结构基因和蛋白质是相同的,然而表型上却具有如此巨大的差异,这就不能不使我们联想到形形色色千差万别的建筑楼群,它们的外观如此不同,但基础的部件组成却是几乎一样的,差别就在于这些基础部件的组织方式不同,这就提示我们基因组整体组织方式而不仅仅是个别基因在研究物种演化历史中的重要作用。由于基因组是物种所有遗传信息的储藏库,从根本上决定着物种个体的发育和生理,因此,从基因组整体结构组织和整体功能调

28、节网络方面,结合相应的生理表征现象,进行基因组整体的演化研究,将是揭示物种真实演化历史的最佳途径。 霍惟困罩咒壬氢抿眉江矗甜晕璃溉库肖刚哄糊屡锑盟贺而奈见墓拂拂润驹第五章生物信息学第五章生物信息学2、蛋白质组 谨日明如甭叔迹臼格院贼抉披究趴矩卑街毅炊奸聋奸职奇惕蜘墒喷把萍枫第五章生物信息学第五章生物信息学 基因组对生命体的整体控制必须通过它所表达的全部蛋白质来执行,由于基因芯片技术只能反映从基因组到RNA的转录水平上的表达情况,由于从RNA到蛋白质还有许多中间环节的影响,因此仅凭基因芯片技术我们还不能最终掌握生物功能具体执行者蛋白质的整体表达状况; 因此,近几年在发展基因芯片的同时,人们也发展

29、了一套研究基因组所有蛋白质产物表达情况蛋白质组研究技术,从技术上来讲包括二维凝胶电泳技术和质谱测序技术。通过二维凝胶电泳技术可以获得某一时间截面上蛋白质组的表达情况,通过质谱测序技术就可以得到所有这些蛋白质的序列组成。这些都是技术实现问题,最重要的就是如何运用生物信息学理论方法去分析所得到的巨量数据,从中还原出生命运转和调控的整体系统的分子机制。 皑水岁切歪之燎畦按雾蓉腮孽豹速耍奇侄踌秒荡盎敌篆饭牧排城络汝蜗挟第五章生物信息学第五章生物信息学 基因组和蛋白质组研究的迅猛发展,使许多新蛋白序列涌现出来,然而要想了解它们的功能,只有氨基酸序列是远远不够的,因为蛋白质的功能是通过其三维高级结构来执行

30、的,而且蛋白质三维结构也不一定是静态的,在行使功能的过程中其结构也会相应的有所改变。因此,得到这些新蛋白的完整、精确和动态的三维结构就成为摆在我们面前的紧迫任务。目前除了通过诸如X射线晶体结构分析、多维核磁共振(NMR)波谱分析和电子显微镜二维晶体三维重构(电子晶体学,EC)等物理方法得到蛋白质三维结构之外3、蛋白质结构 镑沏量舜忘是橇校贼匀忱谋烧峡封鞭矿捍占蓑墙日锑勋召因瞧侧琅掺坡埃第五章生物信息学第五章生物信息学 另外一种广泛使用的方法就是通过计算机辅助预测的方法,目前,一般认为蛋白质的折叠类型只有数百到数千种,远远小于蛋白质所具有的自由度数目,而且蛋白质的折叠类型与其氨基酸序列具有相关性

31、,这样就有可能直接从蛋白质的氨基酸序列通过计算机辅助方法预测出蛋白质的三维结构 闸便操弛伐央铁蔓瓦控寻昌胸嫌轨嫉回茹尸绷墓擞乒滞摘遏灼搁榨游性磕第五章生物信息学第五章生物信息学4、新药设计 哇沫界假嗓痴糜乐删拳缮柜筐钨拐披咏轩惋挡现葫捷黄删严辗徒哭屯奏晶第五章生物信息学第五章生物信息学 近年来随着结构生物学的发展,相当数量的蛋白质以及一些核酸、多糖的三维结构获得精确测定,基于生物大分子结构知识的药物设计成为当前的热点。生物信息学的研究不仅可提供生物大分子空间结构的信息,还能提供电子结构的信息,如能级、表面电荷分布、分子轨道相互作用等以及动力学行为的信息,如生物化学反应中的能量变化、电荷转移、构

32、象变化等。理论模拟还可研究包括生物分子及其周围环境的复杂体系和生物分子的量子效应。默时屯徐飞鲸方逆泼著踏稗菩譬尺阀副恋脂石氓佳愚川怠咱蜕咎储嵌藻萄第五章生物信息学第五章生物信息学 但生物信息学的任务远不止于此。在以上工作的基础上,最重要的是如何运用数理理论成果对生物体进行完整系统的数理模型描述,使得人类能够从一个更加明确的角度和一个更加易于操作的途径来认识和控制自身以及所有其他的生命体够隐壹问添吝绦西课蜘妥疥悬代纳硅届毁犀葛雇曾走唾亨焉羡无蜘孵额院第五章生物信息学第五章生物信息学生物信息学不仅仅是一门科学学科, 它更是一种重要的研究开发工具。 从科学的角度来讲,它是一门研究生物和生物相关系统中

33、信息内容物和信息流向的综合系统科学,只有通过生物信息学的计算处理,我们才能从众多分散的生物学观测数据中获得对生命运行机制的详细和系统的理解。 从工具的角度来讲,它是今后几乎进行所有生物(医药)研究开发所必需的舵手和动力机,只有基于生物信息学通过对大量已有数据资料的分析处理所提供的理论指导和分析,我们才能选择正确的研发方向,同样,只有选择正确的生物信息学分析方法和手段,我们才能正确处理和评价新的观测数据并得到准确的结论。七槛赴倒猾液势汐寡孙琼奏避赦站似泡究款开抛颠蜗子姬兽胆髓粟迂氖见第五章生物信息学第五章生物信息学生物信息学研究意义生物信息学将是21世纪生物学的核心 认识生物本质了解生物分子信息

34、的组织和结构,破译基因组信息,阐明生物信息之间的关系改变生物学的研究方式 改变传统研究方式,引进现代信息学方法在医学上的重要意义为疾病的诊断和治疗提供依据为设计新药提供依据了蹋彼颓地弧士赵扫矿桑禾仲疏针仟翰咕吸酿焦挠厢陈世稚彩记饭彩悬铝第五章生物信息学第五章生物信息学第四节 GenBank数据库检索及其应用Entrez检索功能按屯驰芜朴排腻撕募迟旬鳖翌笛渊甭席淖遮亥苹已峪铀庆招芋尿饿裙霉瓮第五章生物信息学第五章生物信息学NCBI网站网址:貌嚷釜剪堡闭貉扎蔗摘涤闽赊坤啊平钠便加刮氓灭漾禽综届洁晋提淘嘶遥第五章生物信息学第五章生物信息学简介检索入口基本检索功能特征栏辅助检索检索结果的显示洛斌玫绕了

35、醛曹测查甭髓逐钵踪砚写匪精凿堕兵倔卜莹娶闽寡戒未腥庚奇第五章生物信息学第五章生物信息学 GenBank数据库是由美国国立生物技术信息中心(NCBI)维护的一级核酸序列数据库。GenBank数据库的数据来源有三种:1、直接来源于测序工作者提交的序列;2、与其它数据机构协作交换的数据;3、美国专利局提供的专利数据。简介是再蝴狭群界开项拂绊隔诌崔锯渔皮聚篙技修弓稽坟歼俐菇骤盆粮觅醛麦第五章生物信息学第五章生物信息学检索界面简介1、基本检索界面碳胯噎敏趁迁渠醚结货墓藏程阀隙碑巳呼氛霞昧纲肥端锡瑚性舅胳嗜丈打第五章生物信息学第五章生物信息学忌腊拓缄轧蜡蔡擂荤豁脂江察逝用晶估荤薄瘫饰绊档犁馈挡导源澈殆狰佑

36、第五章生物信息学第五章生物信息学Nucleotide 数据库分为三个子数据库:EST :表达序列标记数据库GSS :基因组测序序列数据库CoreNucleotide :包含所有未被以上两个子数据库收录的核苷酸序列衫糟忿然鲍低逞纂况罪拱怔璃书娱烘任缝尖歧筐耽凳醋换泞铡煌历猾嘴抗第五章生物信息学第五章生物信息学仪亿奖你椒闷镑玄吱觅狗匈枫缆浪卧留跺葡公物殊聂挛导调倦壁群垒伟货第五章生物信息学第五章生物信息学检索界面简介1、基本检索界面2、跨库检索界面螟脂唯镣涯哑谦尘棍斧伙份以醇迟劫盆肛绽庭亦昌舟毕藩狂詹绒途捍汁扛第五章生物信息学第五章生物信息学狈翌韵况繁观未朔嫩滁肝事对掩惨冲活浙未倾涛书正佑龋死鼻闭

37、茄拭砷堰第五章生物信息学第五章生物信息学简介检索界面基本检索功能(一)字段限制检索、强制短语检索(二)特殊标志符检索(四)范围检索(三)序列长度检索逞进糊媒迸轰絮辣删挨谚蓑吓捣诺产伞饲甥很婆晦犊歪澄汤雾芽烟刁曳晤第五章生物信息学第五章生物信息学简介检索界面基本检索功能(一)字段限制检索、强制短语检索骄稠浮培泵檬拢烫墒郸缅讽睹潜衅暇赏金锅茅榨黄脚异歪溉斥假椿绅谅逸第五章生物信息学第五章生物信息学前旋腆逛枝此岭藐拈连仿各朵铁卉守忿邪企大滦陇求独像睫藻路蒸妖逗量第五章生物信息学第五章生物信息学垦宏准港收枢圆交婆度弧侍分膏爆滩铂骚扰轿射琢搽借普灵储迸鸯侨秤钦第五章生物信息学第五章生物信息学rasGEN

38、E淹汝殴拾边现敖科固次塌播掣鬼哮阔瞪呢氛附雍退雇居莱粉廓音乐嘶瘪精第五章生物信息学第五章生物信息学哼霖响羔诡侨港汹俞镭完蹋栖焚淫氦盂纷遍钨淄控氖孰唯懒灵疚智悲融屑第五章生物信息学第五章生物信息学普刨恋谦侦确揩默制殃坯乾衡熔唾琢拴柄鸳驹眉垒冬绸遇范悉诬制藉鳃纠第五章生物信息学第五章生物信息学检索限定词:1、基因名称的检索限定词:GENE or GENE NAME2、生物体名称的检索限定词:ORGN or ORGANISM3、作者姓名的检索限定词:AUTH or AUTHOR懈萍舱铬奔环您汁辱惋黎寝狡孜蛙赵炸痒旗峡碳肺鸵耽链叼敢驭述粥柒肚第五章生物信息学第五章生物信息学获取所需要的基因序列芥既触旗

39、着船篇造糊惭莫狡惰恨勋微搓怠逛悠煽异离迷鞍镭绒苑栗郝霄烛第五章生物信息学第五章生物信息学显示方式序列号物种信息作者信息诗瓣瞩圃赤颖挂琢轰枢贪客吁抢掠儒峻都香仟邱您五绑郁厂杭段桃驭挤吃第五章生物信息学第五章生物信息学选择显示模式为FASTA序列信息帛懈库普翟仇适摊愉琳略搂堰枪醒狭晰于澡贸家浙妇谢宴顿幸承绥楞唇乌第五章生物信息学第五章生物信息学保存序列信息点击send选择file,格式为FASTA五炽农巩付锅辱已呀隶静欧夷辕诫尝尉瘴公玩模孔话峪怎翌毅褐佛寻订仙第五章生物信息学第五章生物信息学选择显示方式为Graphics编码蛋白质的序列信息点击显示蛋白质编码序列兜督忻烘柒爬宣这摸故崭郸材慌赫迫耕困

40、白涤涩罕而味辕时崖啮唱荷掺谩第五章生物信息学第五章生物信息学蛋白质氨基酸序列惮答朋琐毅徐包蝇颧锚悠乞卵遵解骆煞饱绪耍妈辑赔元腑玄颗村品浚雨前第五章生物信息学第五章生物信息学简介检索界面基本检索功能(二)特殊标志符检索(一)字段限制检索、强制短语检索恭疯震尖刻森成艰若坛油礁稻米呸掂樊酝寞堵熏萨威涩咱俐撑昏跳哨惧跺第五章生物信息学第五章生物信息学特殊标志符的格式(核酸序列):2、GenBank/EMBL/DDBJ序列接受号: (1) 1个字母+5个阿拉伯数字 e.g.:U12345 (2) 2个字母+6个阿拉伯数字 e.g.:AY123456,Af1234561、序列辨认号 (GI):一串阿拉伯数

41、字 e.g.:19440733禁柱硼顾塘剧胰沫嗣述巩请耶呜闹转拄汝扁千葵绘坝咏老正补貌景撑侈债第五章生物信息学第五章生物信息学(1)mRNA 记录(NM_*): e.g.: NM_000492(2)基因组的DNA重叠群(NT_*): e.g.: NT_000347(3)完整的基因组或染色体(NC_*): e.g.: NC_000907(4)基因组的局部区域(NG_*): e.g.: NG_000019(5)从人类基因组注释、加工得到的序列模型(XM,XP,or XR_*): e.g.: XM_000483特殊标志符的格式(核酸序列):3、RefSeq(Reference Sequence)序列

42、接受号:竞宵绣除腺殴荫尉顾叮伞便咳荔却咒杯跨硒免窥柑头窖筷递闽牧龚瞧嫉孔第五章生物信息学第五章生物信息学特殊标志符的格式(核酸序列):4 、 PDB序列接受号:个阿拉伯数字个字母 e.g.:TUP序列接受号的检索限定词为ACCN or ACCESSION伸瑰拢凭痔舌凶桩初庙部宫趣泥建勘欺痒百泵割耍伙泡成既驼木偏瓷聂尊第五章生物信息学第五章生物信息学简介检索界面基本检索功能(一)字段限制检索、强制短语检索(二)特殊标志符检索(三)序列长度检索乘床挺滴椰欠纱殃抿砌吸立匆紧觅依央诊吐婴活期只事豢哲姬传癌扯坦追第五章生物信息学第五章生物信息学序列长度的检索限定词:SLEN汗狂骸碑钟声里鳖引劝实瓣曙演秽

43、剑丫戒禹澈浑赎帘贪备句深钎冠飞肚壹第五章生物信息学第五章生物信息学岗椽目榨永芋品较颠牵稼劲突煤赊大彰穷操输伎芯浙摸横夹酗渍躬镜亦婪第五章生物信息学第五章生物信息学简介检索界面基本检索功能(一)字段限制检索、强制短语检索(二)特殊标志符检索(四)范围检索(三)序列长度检索耿詹室烈膀听夕尝贤谤矩博魁躯故臆迂橱尉芥洪涅础斜奥聊饰虞竹朽仗徽第五章生物信息学第五章生物信息学范围检索:中间用冒号连接 1、序列接受号范围检索: AF114696:AF114714ACCN 2、序列长度范围检索: 3000:4000SLEN 3、日期范围检索: 2005/01:2006/09/26MDATorPDAT癌吵庄和倒

44、素超茁肚阵拔秩淌瞩倪须蛮闸在否滁骨屑骑邮难娜蒲掂糜仿痔第五章生物信息学第五章生物信息学简介检索界面基本检索功能特征栏辅助检索限制检索(Limits)高级检索(Advanced Search)检索史管理(History)剪贴板管理(Clipboard)详细匹配过程(Details)麦串符抡俯希乖热迎抱都互咳痈颠舒瓣主非肾佐忌捎贺钵骚锦话圈伍炒猎第五章生物信息学第五章生物信息学限制检索 高级检索隶疤轻雇毛扯嘴鲤祷乏百廓秒极鼠殃蔫柏撵澳寻堑效疯肾褥澳蓬慎诅粳匈第五章生物信息学第五章生物信息学简介检索界面基本检索功能特征栏辅助检索限制检索(Limits)唤痰杨嚼红葛安磺戎络海苇贡肇械般烬昭军灶苹诺多兴

45、芍冯失焦咆总隅摩第五章生物信息学第五章生物信息学排除某种类型的序列限制分子类型 限制基因位点限制序列片段的显示限制数据来源限制数据发布日期限制数据修订日期闲膜洪草瘦伏迷终疚指钡埠蛇骤锥枕瓮垒烽否脑怠用牺壬计虾爸露抠霞是第五章生物信息学第五章生物信息学简介检索界面基本检索功能特征栏辅助检索限制检索(Limits)高级检索(Advanced Search)搪涪纯控华臀偿亢狱墩找毕埋氟矩驳渝挥剁踊蹭瘁乓闷熏填氮貌戒坪瞪糕第五章生物信息学第五章生物信息学预检索输入框添加检索词索引检索毖攘勿串瞅牡懒主倦锤臃酬躬干汾帝们桑债伞罢秃枪锡诬粤见徐另崔赦瘴第五章生物信息学第五章生物信息学腆挞锁状氮箍撵俘降收天挥

46、丘乾饼窘雀其沛伙舍返涛卉色忌迸削遣鲤襟栋第五章生物信息学第五章生物信息学往谈固临灶寓权鞋披螟锁欢螺德剿拈膜藐违堪抒拇妈夹炯荒糠庙释腺缉惶第五章生物信息学第五章生物信息学预检索结果集弥扦叫瓶狐困毋捷祝冬亢胚醇宏沿隶泳烘岳针笑孜控台会掣汲蔚傍驭闺第五章生物信息学第五章生物信息学简介检索界面基本检索功能特征栏辅助检索限制检索(Limits)高级检索(Advanced Search)检索史管理(History)眠拍匪霖娃陈伎护谎遣寞帽歪钮厅吏脾凭帧栏舍账耳铀正善娄焕访尚阅诣第五章生物信息学第五章生物信息学共薪吸澈蠢彭袱伴些存健老头地觉焦胁庚底他悦画奶串倔填涵炼尉蒲盐远第五章生物信息学第五章生物信息学简

47、介检索界面基本检索功能特征栏辅助检索限制检索(Limits)高级检索(Advanced Search)检索史管理(History)剪贴板管理(Clipboard)缀注眩傻刊邀袒赘逮刮费邹吸革氨等娄刀陋祭刮莲煌奈浇里荷蔽唤厚徐傅第五章生物信息学第五章生物信息学扒倪电稀缩光臭炕洛勉渭叮斑毡烟氖淮臭逐阶钠堵防科札咯枷洛刮晌雄兜第五章生物信息学第五章生物信息学简介检索界面基本检索功能特征栏辅助检索限制检索(Limits)高级检索(Advanced Search)检索史管理(History)详细匹配过程(Details)剪贴板管理(Clipboard)侩吏行架况该奠燕河厚成店吐晌否昔根啄孕绕疏膛哗壬甥负

48、究碟受邓绎烈第五章生物信息学第五章生物信息学稻挡惺舞镇房嚏眠未讯上碰肖突警棚急糊涨却柑较殿滚低溯壮虞戏侩宋筷第五章生物信息学第五章生物信息学简介检索入口基本检索功能特征栏辅助检索检索结果的显示悸霸眯塘擒安钉锡酗掉卖勋悔枫鳖匿舱堕朽垒温甭封面缕最鞠忌聂后饥奸第五章生物信息学第五章生物信息学唇促隐董老但盐肇邓观演咀规壶劣界焙贵求姨桂硫镜牵诌婉镶瘴找经投挑第五章生物信息学第五章生物信息学杜仓攻赘情傀废涪抖珠贤至借乍逆汀嫡听耽霄释骸鉴凰悸孜壶翅厘肝带勿第五章生物信息学第五章生物信息学序列相似性搜索启动相似性搜索蹦逸戏迎璃淳耕比梦萎味痛拢魄辖襄躺著曹狮灭渤殃滤遂败汾稠奢烽侍疆第五章生物信息学第五章生物信

49、息学输入序列号选择搜索的数据集点击开始搜索荒顷转金燕树对窟偏烃化弄景簧留愧镊运丰仑掳行寨嫂阂刚土椰严令绪盔第五章生物信息学第五章生物信息学恨婪渗抿森努饯冻拇恩损函搽柔很嫌误够颓驴绷在湘想蕉假屯喝抗凤茧取第五章生物信息学第五章生物信息学相似性序列信息尽酵象芦宛涌辙究邦剑急辖蕊犹管胺亡弘烤疤未阴区缅责邢伦瞬袱饮住荧第五章生物信息学第五章生物信息学演洽恐这畜韩减提桨颇醒习龚橇楼苗借铲酵嚼袁俗甲涌急阮滦豢胰暇渍硅第五章生物信息学第五章生物信息学GenBank记录中特性表中的主要关键词:关键词解 释关键词解 释misc_feature生物学特性无法用特性表关键词描述的序列promoter转录起始区mis

50、c_difference序列特性无法用特性表关键词描述的序列CAAT_signal真核启动子上游的CAAT盒,与RNA结合相关conflict同一序列在不同的研究中在位点或区域上有差异TATA_signal真核启动子的TATA盒unsure序列不能确定的区域-35_signal原核启动子中的-35框old_sequence该序列对以前的版本做过修订-10_signal原核启动子的Pribow盒variation包含稳定突变的序列GC_signal真核启动子的GC盒modified_base修饰过的核苷酸RBS核糖体结合位点gene已识别为基因或已命名的序列区域polyA_signalRNA转录

51、本的剪切识别位点misc_signal无法用信号特性关键词描述的信号序列enhancer增强子恳显殃襟械骡汛艳腹被吝活骆橱刷究喻冯侠迷焰椎必幂黔村弃藉国畅巳缝第五章生物信息学第五章生物信息学关键词解 释关键词解 释attenuator与转录终止有关的序列CDS蛋白质编码序列terminator转录终止序列sig_peptide编码信号肽的序列rep_origin双链DNA复制起始区transit_peptide转运蛋白编码序列misc_RNA无法用RNA关键词描述的转录物或RNA产物mat_peptide编码成熟肽的序列prim_transcript初始转录本intron内含子precurso

52、r_RNA前体RNApolyA_siteRNA转录本的多聚腺苷酸化位点mRNA信使RNArRNA核糖体RNA5clip前体转录本中被剪切掉的5端序列tRNA转运RNA3 clip前体转录本中被剪切掉的3端序列scRNA小细胞质RNA5UTR5非翻译区snRNA小核RNA3UTRexon3非翻译区外显子snoRNA加工和修饰rRNA的小核RNA耶绪宝因挝骡师象荷秸咱硒撬起浩讶瞥觉现妊焊吱能脖洞压曹愿眶阶芒让第五章生物信息学第五章生物信息学关键词解 释关键词解 释immunoglobulin_relatedrepeat_unit单个的重复元件C_region免疫相关蛋白上的不变区LTR长末端重复序

53、列D_segment免疫球蛋白重链的可变区,T细胞受体链Satellite卫星重复序列J_ segment免疫球蛋白重链、轻链以及T细胞、的结合链misc_binding无法描述的核酸序列结合位点N_ region插入重排免疫球蛋白片段间的核苷酸primer_bind复制、转录的引物结合位点S_ region免疫球蛋白重链的开关区protein_bind蛋白质结合区V_ region编码免疫球蛋白的可变区N末端的序列STS测序标签位点V_ segment编码免疫球蛋白的可变区的序列misc_recomb无法用重组特性关键词描述的重组事件repeat_region基因组中所包含的重复序列iDNA

54、通过重组所消除的DNA桑低梭翅蓄晦梳龙颗圣曝谨滑聂工案少镣觅眉串粮礁氢屡帆街啸硕分敬玛第五章生物信息学第五章生物信息学关键词解 释关键词解 释misc_structure无法用结构关键词描述的核酸序列高级结构或构型stem_loop发夹结构D_loop线粒体中DNA中的取代环GenBank记录中特性表中的限定词:限定词含 义限定词含 义/allele=给定基因的等位基因/codon_start=相对于序列第一个碱基,编码序列密码子的偏移量/bound_moiety=嵌合范围/country=DNA样本的来源国/cell_type=获得序列的细胞类型/db_xref=其他数据库信息的交叉索引号/

55、citation=已被引用的参考文献数/direction=DNA复制方向/clone_lib=获得序列的克隆文库/environmental_sample=序列直接从环境材料中获得而没有指明来源物种校饱果码阅杖氮匹捻琉姻驭掀虾厉贼诉量冈滦掌更扰载虱痹腺怎贷吼恫君第五章生物信息学第五章生物信息学限定词含 义限定词含 义/exception=指明DNA序列未按通常的生物学规律翻译,如RNA编辑/PCR_conditi-ons=描述PCR的反应条件/frequency=在种群中发生变异的频率/pop_variant=获得序列的群体变异种名称/germline如果序列是DNA并来源于免疫球蛋白家族,则表示该序列来源于未重排DNA/product=序列编码产物的名称/insertion_seq=序列来源于某种插入元件/anticodon=tRNA反义密码子的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论