中国地方鸡种核酸数据库建设与功能设计.ppt_第1页
中国地方鸡种核酸数据库建设与功能设计.ppt_第2页
中国地方鸡种核酸数据库建设与功能设计.ppt_第3页
中国地方鸡种核酸数据库建设与功能设计.ppt_第4页
中国地方鸡种核酸数据库建设与功能设计.ppt_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、中国地方鸡种核酸数据库建设与功能设计,汇报人:白云峰 副研究员 单 位:江苏省农业科学院,汇 报 内 容,研究意义与目的 中国地方鸡种核酸序列数据库初步建设 数据获取 数据库构成 数据分析 系统功能设计 核酸序列特征一般分析 核酸序列相似性搜索 系统发生分析 系统演示 未来展望,研 究 意 义,中国是世界上生物多样性最丰富国家之一,地方鸡种是我国具有战略意义的独特资源。亟需构建该领域拥有自身特色和自主知识产权的,与国际主流生物信息数据库接轨的专业二级数据库。 当前,农业生物信息数据库主要集中在英、美、日等发达国家。我国大多生物学数据库只能提供镜像和索引服务,无自主知识产权,独立开发并能提供丰富

2、资源和工具的生物信息数据库平台仍很缺乏。 目前国内关于医疗和制药领域的生物信息数据库较多,而高质量的农业生物信息数据库数量较少,尚无我国专门化的地方鸡种生物信息数据库系统。 生物信息数据库分布分散且格式不统一,将独立的、分散的农业生物信息数据库信息整合,使农业生物信息数据库集成化和标准化,中国地方鸡种核酸序列数据库初步建设,数据获取方面 基于Agent智能代理本地化数据获取程序; 863合作单位数据提供与数据校验; 数据分析 数据完整性分析 数据特征特征值扫描 地方鸡种数据筛选,中国地方鸡种核酸序列数据库初步建设,数据标准化 基于XML中国地方鸡种核酸序列元数据模型; 自定义中国地方鸡种数据结

3、构; 数据转导 与国际主流数据文件格式的兼容 完成中国地方鸡种核酸序列数据库结构设计,系 统 功 能 设 计,目标序列分析(以白银耳鸡1条序列AF128321作为本系统分析处理结果示例) 功能设计3个层次: 序列组成统计特征分析; 本地化序列相似性搜索 系统发生分析,核酸序列组成统计特征分析,密码子计数 核苷酸统计 转换成互补序列 互补统计 核苷酸组成统计作图 二聚体统计 密码子使用偏性 CpG岛 短序列匹配 绘制热红外分布图 识别开发阅读框ORFs 翻译成对应氨基酸序列,待分析序列,ttgttctcaactacgggaacaattttattttttaacctaactcccctactaagtg

4、taccccccctttcccccccagggggggtatactatgcataatcgtgcatacatttatataccacatatattatggtaccggtaatatatactatatatgtactaaacccattatatgtatacgggcattaatctatattccacatttctcccaatgtccattctatgcatgatccaagacatactcattcaccctccccatagacagttctaaaccactatcaagccacctaactatgaatggttacaggacataaatctcactctcatgctctccccctaacaagtcacctaactatga

5、atggttacaggacatacatttaactaccatgttctaacccatttggttatgctcgccgtatcagatggatttattgatcgtccacctcacgagagatcagcaacccctgcctgtaatgtacttcatgaccagtctcaggcccattctttccccctacacccctcgccctacttgccttccaccg,密码子计数结果,AAA: 1 AAC: 5 AAG: 0 AAT: 2 ACA: 7 ACC: 3 ACG: 1 ACT: 6 AGA: 2 AGC: 1 AGG: 1 AGT: 2 ATA: 4 ATC: 2 ATG: 4 AT

6、T: 5 CAA: 1 CAC: 5 CAG: 0 CAT: 8 CCA: 8 CCC: 10 CCG: 1 CCT: 1 CGA: 1 CGC: 1 CGG: 0 CGT: 1 CTA: 10 CTC: 2 CTG: 1 CTT: 2 GAA: 0 GAC: 0 GAG: 1 GAT: 1 GCA: 1 GCC: 3 GCG: 0 GCT: 2 GGA: 2 GGC: 1 GGG: 3 GGT: 2 GTA: 6 GTC: 2 GTG: 0 GTT: 2 TAA: 5 TAC: 4 TAG: 1 TAT: 9 TCA: 5 TCC: 3 TCG: 2 TCT: 6 TGA: 3 TGC: 2

7、 TGG: 1 TGT: 2 TTA: 3 TTC: 4 TTG: 1 TTT: 4,密码子使用偏性,由于密码子的简并性,每个氨基酸至少对应1种密码子,最多有6种对应的密码子。 不同物种、不同生物体的基因密码子使用存在着很大的差异。各种生物体似乎更偏爱使用某些同义三联密码子(即编码相同氨基酸的密码子)。 高表达的基因密码子的使用偏性一般比较大。这些偏好可能与两个原因有关:一是避免使用类似终止密码子的密码子;二是这些偏好能够有效地翻译密码子,因为这些密码子对应于生物体中非常丰富的tRNA。 真实的外显子一般能反映出这些偏好,而随机选择的三联体序列却不能,密码子使用偏性,研究结果表明,基因密码子的

8、使用也与基因编码的蛋白的结构和功能有关。mRNA中的稀有密码子的使用与蛋白质结构域的连接区和规则二级结构单元的连接区有关,翻译速率在连接区会降低,说明蛋白质折叠方式与mRNA序列之间存在一定的相关性。 研究结果还表明,蛋白质的三级结构与密码子使用概率有密切的关系,通过对密码子的聚类分析,可以将具有不同三级结构蛋白质的编码基因分成不同的类,而具有相似三级结构蛋白的编码基因则大致聚在同一类中。进一步的研究发现,在不同物种中,类型相同的基因具有相近的同义密码子使用偏性,对于同一类型的基因由物种引起的同义密码子使用偏性的差异较小,绘制热红外分布图,CpG岛分析,在人类基因组中有一半左右的CpG isl

9、and 与已知管家基因(housekeeping gene)有关联; CpG island很少出现在不含基因的区域和那些发生多次突变的基因中; CpG与一种重要的化学修饰甲基化密切相关,短序列匹配,在待分析序列中查找特征短片段,如TATA Box TATA Box,CAAT Box,终止子等,识别开放阅读框ORFs,开放阅读框(Open Reading Frame: ORF)是基因序列的一部分,包含一段可以编码蛋白的碱基序列,不能被终止子打断。 开读框架的预测常与第一个ATG和终止密码子的确定相关。 系统以原核生物和真核生物两种模式识别待分析序列的ORFs,中国地方鸡种基因序列比对与相似性搜索

10、,意义与目的: 通过搜索序列数据库,找到与新序列同源的已知序列,并根据同源性推测未知序列的生物学功能; 对于DNA序列,同源搜索还有助于确定编码区域,确定基因; 实现方法: 中国地方鸡种核酸序列库+家禽基因组序列库的比对搜索; 设定全局最优比对算法+局部最优比对算法2种策略,中国地方鸡种系统发生分析(开发中,由于国内学者对国内地方鸡种mtDNA研究较多,数据库收集到数据较丰富特点。构建地方鸡种mtDNA系统发生专门化分析组件。 线粒体DNA非常适合于系统发生分析,因为线粒体DNA从母体完全传到子代,不与父代DNA重组。线粒体DNA具有易分离、进化速度快、母系遗传、缺乏重组和无内含子等特点。使线

11、粒体DNA成为分子系统发育学研究的一类重要的分子标记。 mtDNA的控制区即D-loop区为非编码区,不编码蛋白质线粒体DNA中,受到选择压力较小,因此积累了较多的突变,如碱基替换、插入、缺失,以及众多的串联重复序列等。 系统采用非加权分组平均法(UPGMA,unweighted pair group method with arithmetic means)构建进化树,系统功能实现的关键技术,Matlab Bioinformatic Toolbox 引用 Imports System Imports System.Reflection Imports MathWorks.MATLAB.NET

12、.Utility Imports MathWorks.MATLAB.NET.Arrays Imports ComponentName M文件编写与调试 MATLAB与.NET数据类型转换,M文件编程示例,function HeatMap(mitochondria) for frame = 1:3 figure(color,1 1 1) subplot(2,1,1); codoncount(mitochondria,frame,frame,figure,true); title(sprintf(阅读框%d密码子,frame); subplot(2,1,2); codoncount(mitocho

13、ndria,reverse,true,frame,frame,figure,true); title(sprintf(阅读框%d反义密码子, frame); end,调用MATLAB生物信息学函数,Matlab与.NET数据类型转换,引自苏金明等Matlab高级编程北京,电子工业出版社,2008,数据类型转换实例,利用MatLab构建不同地方鸡种亲缘关系进化树; %定义数组二维data,存储鸡种名称和mtDNA序列; function phylogenyanalysis(data,m) %data = 白银耳鸡 AF128320; 灵昆鸡 AF128330; 寿光鸡 AF512058; 丝羽乌

14、骨鸡 AF512060; 茶花鸡 AF512078; %for ind = 1:5 % seqs(ind).Header = dataind,1; % seqs(ind).Sequence = getgenbank(dataind,2, sequenceonly, true); %end %进化距离运算;UPGMA,非加权分组平均法(unweighted pair group method with arithmetic means)Jukes-Cantor, for ind = 1:m seqs(ind).Header = dataind,1; seqs(ind).Sequence = dataind,2; end distances = seqpdist(seqs,Method,Jukes-Cantor,Alphabet,DNA); tree = seqlinkage(distances,UPGMA,seqs); %画出进化树; h = plot(tree,orient,bottom); set(findobj(gca,Type,line,Color,0 10 1),Color,red,LineWidth,2); ylabel(进化距

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论