生物信息学 考试答案_第1页
生物信息学 考试答案_第2页
生物信息学 考试答案_第3页
生物信息学 考试答案_第4页
生物信息学 考试答案_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Bioinformatics (包括陈老师6道题和师兄的四道题)1. 什么是生物信息学?你怎么理解它的含义?(或者问什么是生物信息学,为什么生物信息学研究是重要的)答:生物信息学含义主要答3点:(1)它是一个学科领域,包含着基因组信息的获取、处理、存储、分配 、分析和解释的所有方面。(2)生物信息学是把基因组DNA序列信息分析作为源头,破译隐藏在DNA序列中的遗传语言,特别是非编码区的实质;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测。(3) 生物信息学的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”。它是本世纪自然科学和技术科学领域中“基因组”、“信息结构”和“复杂性

2、”这三个重大科学问题的有机结合。第二问:2. 发现新基因的两种方法是什么?算法的本质是?(或者问通过DB如何发现新基因,通过何种途径)3. 研究生物进化的步骤有哪些,当前面临的困难是什么?如何解决?答:步骤:  (1)序列相似性比较。就是将待研究序列与DNA或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什么。完成这一工作只需要使用两两序列比较算法。常用的程序包有BLAST、FASTA等;(2)序列同源性分析。是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小。这是理论分析方法

3、中最关键的一步。完成这一工作必须使用多序列比较算法。常用的程序包有CLUSTAL等;(3) 构建系统进化树。根据序列同源性分析的结果,重建反映物种间进化关系的进化树。为完成这一工作已发展了多种软件包,象PYLIP、MEGA等;(4)稳定性检验。为了检验构建好的进化树的可靠性,需要进行统计可靠性检验,通常构建过程要随机地进行成百上千次,只有以大概率(70以上)出现的分支点才是可靠的。通用的方法使用 Bootstrap算法,相应的软件已包括在构建系统进化树所用的软件包当中。为便于使用者查找表三给出了进化分析相关软件的因特网地址。第二问:当前面临的困难:物种间基因的横向迁移问题如何解决:1、只考虑垂

4、直进化的序列进行比较,去除所有的横向迁移基因2、完整基因组做比对具体方法可以写下面什么是基因芯片,Pro芯片以及蛋白质组学技术,这些彼此之间有哪些相似之处又有哪些不同之处?(不考了)4什么是SNP,为什么研究SNP如此重要?请写出23个SNP相关的website。答:SNP: single-nucleotide polymorphisms,单核苷酸多态,是指存在于DNA碱基序列上的微小差异。这些差异往往表现在一个核苷酸水平,但是随着研究的发展,短小序列的缺失插入也看作SNP.它是个体对于环境,疾病以及医药治疗的响应,是最常见的一种序列变异类型。第二问:SNP研究是基因组领域理论成果走向应用的关

5、键步骤。是联系基因型和表现型之间关系的桥梁。第三问:选两到三个就行1;SNP Consortium's database /index.html2;NCBI SNP database (/SNP/overview.html3;The Human Genic Bi-Allelic Sequences Database(HGBASE) http:/hgbase.cgr.ki.se/4;The Human Gene Mutation Database(HGMD)/5什么

6、是系统生物学?它对生物功能实现的理解的本质变化是什么?(或者问什么是系统生物学,以及系统生物学在概念上有哪些发展?)答:系统生物学是从系统的概念上来刻画生命活动的,它包含三个要素1;信息整合:整合在不同生物水平说得到的生命活动信息2;建模:建立刻画系统活动的模型3;预测:用模型预测系统未来的发展以及外界干扰后的破环第二问:1、看待生命活动的本质不同系统生物学是研究生物分子及相互作用作为基础的,看待生命是二维的,即研究功能元件还包括功能元件的相互作用,而原来研究的内容是一维的,系统生物学基本功能元件是一个一个特定的生物网络。2、研究思路的变化6. 什么是非编码序列、非编码RNA和非编码基因?请以

7、人类为例,回答以下问题: 1) 非编码序列占人类基因组的比例是多少?(98%)2) 有多少非编码序列被转录?(50%?)3) 请举两个例子,说明非编码序列的重要性。(xist, SINE)什么是非编码序列,基因以及RNAHuman genome 有多少非编码序列至少举出lncRNA的五个作用?答:非编码序列是基因组中不编码蛋白质和多肽的那些序列非编码基因是指功能型的非编码RNA在基因组中非编码序列中的定位非编码RNA是指基因组中非编码序列的转录产物或转录本非编码序列在人类基因组中的比例为大于97%LncRNA的重要性例子:1、PCGEM1-它的高表达和高风险的前列腺癌病人相关,是一个具有细胞生

8、长促进功能的前列腺癌特定基因。2、His-1-通过控制细胞周期的进程来参与癌症形成通路,在老鼠白血病中发现3、MALAT-1-其可以和胸腺素b4在早期非小细胞肺癌中预测其转移情况与生存情况4、H19-癌症抑制基因类似于P535、Xist参与剂量补偿效应中 Xchr 的失活计算题7聚类问题(参考11年题)-基本和下题一样,会做下面的题就会做考试的题 给出5个序列:AAGT, ATGA, TTAT, TAGA, TTAG1) 用层次分类法将它们进行分类;2) 用k means算法将它们分为两类,用一个代表序列来代表每一类序列。初始给出随机序列AAAA和TTTT分别代表这两类序列。用汉明距离表示给出

9、的序列与代表序列之间的距离(即它们之间的碱基差异数, 如AAGT与AAAA有两个碱基在相应位置相同,有两个不同,它们的距离为2)。写出如何对代表序列进行更新,并最终用一个代表序列分别表示这两类。层次聚类和k means方法参考下面,不过距离计算方法不一样例如,有5个基因,它们的表达可以用坐标上的点标示(有可能横坐标代表某个时间的表达量,纵坐标代表另一个时间的表达量),将这五个基因聚类。(1) 层次聚类法:算出各点之间的距离,列出距离矩阵:首先找出最短的距离,即A和C之间的距离为1,先将A和C聚类:再找最短距离,D和E之间1.4的距离最短:亦即:然后是AC和B之间的距离最短:亦即:最终:(2)k-means法:在坐标上任取两个(或更多,视聚类需要而定)点作为中心点,如本例取(5,6)和(8,7)。(下面的图写错了)分别计算A-E各点离以上两点的距离,离哪个更近就归于哪个。经计算,A、C归于绿点,B、E、D归于红点:然后抛开我们所任取的两个点,分别算出A和C的、B和E和D的重心(即平均数):再分别以两个重心为中心点,从新计算A-E

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论