




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、关于后基因组时代的生物信息第一张,PPT共六十三页,创作于2022年6月HGP人类基因组计划 这张解剖图将包括4张小图,包括了人类基因组计划的全部主要内容,它们分别是遗传图(连锁图)、物理图、序列图和转录图。 第二张,PPT共六十三页,创作于2022年6月后基因组时代的生物信息学2003年HGP测序工作全部完成后,生命科学进入后基因组时代。 后基因组时代的工作重点是:在整体水平上对基因组的功能进行研究。由此诞生了功结构基因组学能基因学,结构是功能的基础,又产生了。 在功能基因组学的基础上又产生了蛋白组学和RNA组学。第三张,PPT共六十三页,创作于2022年6月前基因组时代的“钓鱼”和后基因组
2、时代的“捞鱼”第四张,PPT共六十三页,创作于2022年6月第一节基因组表达及调控的研究第五张,PPT共六十三页,创作于2022年6月基因组表达及调控在全细胞的水平,识别所有基因组表达产物: mRNA: cDNA 阵列 蛋白质:二维电泳 质谱研究生物大分子相互作用:阐明基因组表达在发育过程中的时、空的整体调控网络。蛋白质组学:高通量解析蛋白质的高级结构,是连接基因组功能研究和新药开发的桥梁。第六张,PPT共六十三页,创作于2022年6月基因组学、生物信息学与新药研制未来的药物研究过程将是基于生物信息知识挖掘的过程数据处理和关联分析发现药物作用对象确定靶目标分子针对靶目标进行合理的药物设计第七张
3、,PPT共六十三页,创作于2022年6月CDNA 微阵列 基因表达数据的网络资源 GEO ( /geo ) ArrayExpress( http:/www.ebi.ac.uk/arrayexpress/ ) SMD ( / )除了以上 3 个综合性的基因表达数据仓库外,还有一些专门的基因表达数据库,例如 YMD (Yale Microarray Database , / microarray/) ArrayDB ( /arraydb/ ) BodyMap ( http:/bodymap.ims.u-tokyo.ac.jp/ ) ExpressDB( /ExpressDB/ ) HuGE Ind
4、ex(Human Gene Expression Index ,/welcome/index.html) 第八张,PPT共六十三页,创作于2022年6月差异表达基因的选择筛选差异基因包括: 表达数据的获取和标准化 标记物的差异、荧光标记检测效能的差异以及样品RNA的原始浓度的差异。 基因表达矩阵的构建 mn的基因表达矩阵,用以记录基因在不同的实验条件下的表达谱。通常m为基因的数目,n为实验的次数或芯片的数目。 差异表达基因的筛选:t-检验和方差分析第九张,PPT共六十三页,创作于2022年6月基因表达数据的聚类分析 聚类分析可将具有相似表达模式的基因聚在一起,分析同类基因的功能,并对未知基因的
5、功能和生物学特性进行推测。 第十张,PPT共六十三页,创作于2022年6月几种常用的聚类方法 分层聚类(hierarchical clustering,HCL) K-均值聚类(K-mean clustering,KMC) SOM聚类(self-organizing map clustering,SOM)第十一张,PPT共六十三页,创作于2022年6月分层聚类分裂或凝聚算法运行到某一阶段,类别划分结果达到聚类标准时即可停止分裂或凝聚;第十二张,PPT共六十三页,创作于2022年6月层次聚类优缺点优点:所得结果可方便地进行可视化观察。缺点:选取某一水平( 即某一类间距离)的类数作最终结果,此一步较
6、为主观,很难确定哪个水平可给出最好的结果。此方法的复杂度与所分析表达谱数目的平方呈正比,对于现在数据集的大小而言是一大问题。第十三张,PPT共六十三页,创作于2022年6月K-均值聚类第十四张,PPT共六十三页,创作于2022年6月 优点:思想简单易行,时间复杂性接近线性,对大规模数据的挖掘具有高效性和可伸缩性。 缺点:该算法要求预指定类数,而实际应用中很难预测类数,因此需要通过试误,即使用多套不同的参数设定,比较其结果,并且从生物学角度对结果进行验证。K-均值聚类第十五张,PPT共六十三页,创作于2022年6月SOM聚类SOM(自组织映射)的由来: 1991,Kohonen提出,模拟人脑中的
7、神经元层;人脑中不同的神经元区域负责不同的功能;一旦有外部刺激,与刺激相关的神经元会被激励,并且其附近神经元也会受到激励;第十六张,PPT共六十三页,创作于2022年6月 SOM聚类(一) 输入数据 获胜神经元 临近神经元 1 2第十七张,PPT共六十三页,创作于2022年6月 SOM聚类(二) 输入数据 获胜神经元 临近神经元不同的神经元区域代表不同的输入数据模式 3 4第十八张,PPT共六十三页,创作于2022年6月 SOM聚类的优缺点优点:可以实现实时学习,网络具有自稳定性,无须外界给出评价函数,能够识别向量空间中最有意义的特征,抗噪音能力强。缺点:与K-均值聚类相似,它也需要预先指定参
8、数( 结点群的拓扑构形),因而遇到与之相似的困难第十九张,PPT共六十三页,创作于2022年6月基因网络研究的前提假定和基本原理什么是基因调控网络?细胞、DNA、蛋白质、基因、基因网络为什么要研究基因调控网络?从分子水平认识细胞组织的功能。我完全不懂生物学;我为什么要讲这个?了解基因调控网络,对我们有什么启发?第二十张,PPT共六十三页,创作于2022年6月基因和蛋白质基因网络研究的前提假定和基本原理第二十一张,PPT共六十三页,创作于2022年6月基因表达的调控:不同层次基因网络研究的前提假定和基本原理第二十二张,PPT共六十三页,创作于2022年6月 基因调控网络是指一组调控因子如何调控一
9、套基因表达的过程.机体的功能发展来缘于遗传网络间的互作。基因网络研究的前提假定和基本原理第二十三张,PPT共六十三页,创作于2022年6月基因调控网络研究的目的 识别和推断基因网络的结构、特性和调控关系 认识复杂的分子调控过程 理解支配基因表达和功能的基本规则 揭示基因表达过程中的信息传输规律 整体的框架下研究基因的功能第二十四张,PPT共六十三页,创作于2022年6月基因调控网络构建的方法布尔网络模型:线性组合模型:加权矩阵模型:第二十五张,PPT共六十三页,创作于2022年6月近年来发表的基于微阵列数据进行基因调控网络构建和分析的软件包第二十六张,PPT共六十三页,创作于2022年6月第二
10、十七张,PPT共六十三页,创作于2022年6月基因调控网络整合分析 基因表达数据 DNA 序列 转录因子与顺式调控元件相互作用 蛋白蛋白相互作用 蛋白在细胞中的定位等 再结合生物学实验验证,可以完善基因调控网络。经过若干次的建模模拟实验循环可以逼近真实的生物学基因调控网络。 第二十八张,PPT共六十三页,创作于2022年6月第二节功能基因与蛋白质信息的文本挖掘第二十九张,PPT共六十三页,创作于2022年6月文本挖掘的提出雷诺氏病:是一种治疗方法和病因学都未知的血液系统疾病,表现为血液循环紊乱,血液黏度升高。其他文献中发现食用鱼油可以降低血液黏度。 Swanson把这两种知识联系起来提出食用鱼
11、油应该对雷诺氏病病人有帮助的假设。 3年后有人通过临床实验证实了这一点 从文献中可以发现或者挖掘到以前未知的知识第三十张,PPT共六十三页,创作于2022年6月文本挖掘的方法 基于文献的生物信息分析最重要一点就是如何找出隐含的、具有语义关联的生物概念进行下一步的推理,这也是最为复杂的步骤。主要有以下方法: 基于统计的方法 基于自然语言处理的方法 基于关联规则挖掘的方法 于模式识别的方法第三十一张,PPT共六十三页,创作于2022年6月基于统计方法的文本挖掘 基于统计的方法是通过词的共现对已知基因或者其他生物信息关系进行聚类分析,得到新的基因或生物功能相互作用关系,或通过查找彼此间经常同时出现但
12、不是随机出现的实体,进而鉴别出关系。第三十二张,PPT共六十三页,创作于2022年6月CHAUSSABEL等提出了一种用文献轮廓挖掘微阵列表达数据技术第三十三张,PPT共六十三页,创作于2022年6月PUBGENE(HTTP:/WWW.PUBGENE.ORG/)第三十四张,PPT共六十三页,创作于2022年6月基于自然语言处理的方法 基于自然语言处理的系统:通过分析语法结构进行关系抽取,对句子从词法、句法和语义上进行解析,把自然语言分解为可以从中提取出关系的结构。 例子: Medstract EngCG第三十五张,PPT共六十三页,创作于2022年6月基于关联规则挖掘的方法 关联规则相对于其他
13、在基因芯片数据分析中使用的数据挖掘技术(例如聚类分析、主成份分析、因子分析等)而言,能够推测基因之间表达关联关系。 关联规则一般形式是LHSRHS。 例子: geneA geneB ,geneC 第三十六张,PPT共六十三页,创作于2022年6月基于模式识别的方法 基于模式识别的方法是对与已知有关系的实体相邻近的文本进行模式的抽象,再利用生成的模式对测试语料集文本进行模式匹配,最终得到基因或蛋白质关系结果。 例子: RLIMSP第三十七张,PPT共六十三页,创作于2022年6月第三节分子进化和系统发育分析第三十八张,PPT共六十三页,创作于2022年6月分子进化和系统发育分析我们学医,又不研究
14、物种,学进化有什么用?广西地区动物HEV基因型及亚型分布第三十九张,PPT共六十三页,创作于2022年6月过度繁殖有限的生活条件+导致生存斗争+变异导致适者生存+有利性状遗传导致生物新类型出现达尔文把这种在生存斗争中,适者生存、不适者被淘汰的过程,叫做自然选择。过度繁殖生存斗争遗传变异适者生存 达尔文的“自然选择”学说第四十张,PPT共六十三页,创作于2022年6月基因突变1、核苷酸替代、插入/缺失、重组2、基因转换固定在生物个体以及物种内遗传漂变自然选择传递给后代产生新的形态、性状分子系统学是研究进化机制的一个重要工具。生物进化的分子机制第四十一张,PPT共六十三页,创作于2022年6月ab
15、cdabcd拓扑结构:有根树:反映时间顺序无根树:反映距离 理论上,一个DNA序列在物种形成或基因复制时,分裂成两个子序列,因此系统发育树一般是二歧的。 一般考虑二歧的树结构:二歧树分支:内部分支外部分支节点:内部节点外部节点系统发育树的种类有根树、无根树第四十二张,PPT共六十三页,创作于2022年6月构建系统发育树的数据1、特征数据(character data): 提供了基因、个体、群体或物种的信息2、距离数据(distance data)或相似性数据(similarity data): 涉及的则是成对基因、个体、群体或物种的信息。 距离矩阵距离数据可以由特征数据计算得到。反之?系统发育
16、树的构建第四十三张,PPT共六十三页,创作于2022年6月构建系统发育树的数据1、特征数据(character data): 提供了基因、个体、群体或物种的信息2、距离数据(distance data)或相似性数据(similarity data): 涉及的则是成对基因、个体、群体或物种的信息。 距离矩阵距离数据可以由特征数据计算得到。反之?系统发育树的构建第四十四张,PPT共六十三页,创作于2022年6月paralogsorthologs第四十五张,PPT共六十三页,创作于2022年6月分子进化与系统发育分析软件第四十六张,PPT共六十三页,创作于2022年6月第四节单核苷酸多态性与连锁不平
17、衡第四十七张,PPT共六十三页,创作于2022年6月人类基因组多态性第四十八张,PPT共六十三页,创作于2022年6月遗传信息检验 风险估计第四十九张,PPT共六十三页,创作于2022年6月研究 临床医学转换第五十张,PPT共六十三页,创作于2022年6月分子遗传流行病学Is there afamilialaggregation ?Is itgenetic ?Which geneticmodel ?Whichgenes ?Contributionin generalpopulation Clinical observation Case-control study Twin study Ado
18、ption study Migration study Segregation study Linkage study Association study Gene-gene Gene-environment第五十一张,PPT共六十三页,创作于2022年6月基因分型分析DNA序列的变异性人类DNA序列99.9%都是一样的3000 000 核酸存在差异通常定义为多态性SNP其较低等位位点频率 1%遗传变异研究的目的挖掘遗传性疾病的病因以及预防预测进行个性化医疗通过位点确定疾病基因第五十二张,PPT共六十三页,创作于2022年6月一般术语第五十三张,PPT共六十三页,创作于2022年6月连锁不平衡
19、( LD) 在某一群体中,不同座位上某两个等位基因出现在同一条单元型上的频率与预期的随机频率之间存在明显差异的现象。第五十四张,PPT共六十三页,创作于2022年6月微卫星标记2-4个核苷酸重复GAACGTACTCACACACACACACATTTGACTTCGATGATAGATAGATAGATAGATACGT重复数( 30)具有高度多态性均匀分布在整个基因组 通过PCR就可以鉴别出来第五十五张,PPT共六十三页,创作于2022年6月A C G T G T C G G T C T T A A A Maternal chromosomeA C G T G T C C G T C T T A A A Paternal chromosomeA C G T G T C G G T C T T A A A Maternal chromosome A C G T G T C G G T C T T A A A Paternal chromosomeA C G T G T C C G T C T T A A A Maternal chromosomeA C G T G T C C T A C T T A A A Paternal chromosomeIndividual 1Individual 2Individual 3SNP单核苷多态(SNP)第五十六张,PPT共六十三页,创作于202
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 孩子的自信心建立与情感教育
- 孩子的情绪管理与团队合作
- 会展数字化管理平台的维护与升级
- 学生心理危机干预与支持系统建设
- 如何组织高效的在线轮岗培训课程
- 基于风险的实训室安全管理策略研究
- 2025年中国子弹头粉彩笔芯市场调查研究报告
- 学校体育教育中的安全保障措施
- 学生艺术特长与兴趣爱好的培养
- 国际市场拓展策略与案例分析
- NGS与感染性疾病医学课件
- 中煤陕西能源化工集团有限公司招聘笔试题库2024
- 数据资产化实践指南2024年
- 有限空间作业气体检测记录表
- DB3305-T 118-2019内河限制性航道电子航道图制作规范
- 《第2课 搜索技巧及信息筛选》参考课件
- 拖车协议合同范本(2024版)
- 统编版《道德与法治》六年级下册第6课《探访古代文明》精美课件(第1课时)
- 安徽省2024年中考数学试卷【附真题答案】
- 《我的阿勒泰》作品简介课件
- 仓库消防应急演练方案及流程
评论
0/150
提交评论