基因家族分析套路_第1页
基因家族分析套路_第2页
基因家族分析套路_第3页
基因家族分析套路_第4页
基因家族分析套路_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、近年来,测序价格的下降,导致越来越多的基因组完成了测序, 在数据库中 形成了大量的可用资源。如何利用这些资源呢?今天小编带你认识一下不测序也 能发文章的思路-全基因组基因家族成员鉴定与分析(现在这一领域可是很热 奥);一、基本分析内容数据库检索与成员鉴定进化树构建保守domain和motif分析.基因结构分析转录组或荧光定量表达分析.二、数据库检索与成员鉴定1、数据库检索1)首先了解数据库用法,学会下载你要分析物种的基因组相关数据。一般也就 是下面这些数据库了Brachypodiumdb Genome Anno tati onProjectNCBI基因组数据库:)已鉴定的家族成员获取。如何获得

2、其他物种已发表某个基因家族的所有成员呢,最简单的就是下载该物种蛋白序列文件(可以从上述数据库中下载),然后按照文章中的ID,找到对应成员。对于没有全基因组鉴定的,可以下列数据库中找:a. NCBI: nu cleotideand prote in db.b. EBI:c.Un iProtKB、比对工具。一般使用 blast和hmme,具体使用命令如下:Local BLASTformatdb i p F/T ;blastall p blastp(orelse) i d m 8 b 2(or else) e 1e-5- o .-b:output two differentmembers in su

3、bjectsequences (db).Hmmer (hidden Markov Model) search. Thesame as PSI-BLAST in fun cti on. It has a highersen sitivity, but the speedislower.Comma nd:、过滤。Identity:至少 50%.Cover region:也要超过50%或者蛋白结构域的长度.domai n:必须要有完整的该蛋白家族的。工具pfamdb 和NCBI Batch CD- search. 支持Blast and Hmme同时检测到4、通过上述操作获得某家族的所有成员基因家族

4、分析套路(二)本次主要讲解在基因家族分析类文章中,进化部分分析的内容。主要是进化树的 构建与分析。一、构建进化树的基本步骤1、多序列比对.Muscle program.2、Model选择.分别针对蛋白序列和核酸序列的模型选择程序ProtTest program forproteinandModelTestor JmodetlestforDNA算法选择。三种.NJ, ML andBI.4、软件选择。 MEGA (bootstrapleast1000replicates),phyML andMrbayes 、进化树修饰. MEGA: view->options and subtree- dr

5、aw options. Also can be decorated in word 二、具体步骤多序列比对。一般采用 muscle。因为 MUSCLEisone of thebest-perform ingmultiplealig nmentprograms accordi ngto publishedben chmarktests, with accuracyand speed thatarecon siste ntlybettertha n CLUSTALW.模型选择对于用蛋白序列构建进化树的可以采用下面命令:java -Xmx250m -classpathpath/运行结果如下图1) “

6、.Phy” format. Only allow ten charaters.注意名字不能重复相同。2) AIC: AkaikeInformationCriterionframework.3) Gamma distribution parameter (G): gamma shape.3)proportionof invariablesites:I.构建进化树意义:a聚类分析。如亚家族分类。像 MAPKK基因家族通过进化树可以清楚分为 MEKK, Raf and ZIK三个亚家族.b亲缘关系鉴定。在进化树上位于同一支的往往暗示这亲缘关系很近,两种70%Datc基因家族复制分析。研究基因家族复制

7、事件(duplicationevents)复制事件类型常采用的标准:Tan dem duplicati on:Ide ntityand cover regi on more tha nand tightly lin ked (Holub, 2001).Chromosomal segme nt duplicati on:Pla nt Genome Duplicati onabase (PGDD:进化树。一般ML树比较准确,但应结合方法,如NJ树,相互验证。进化部分分析:KaKs计算简单的方法.可以使用下面的网页PAL2NAL标准方法:.a. ParaAT:-n -a -p proc f axt

8、k -o outputb. KaKs_Calculator - m NG(or else) -i -o 分歧时间计算:Diverge nttime (T)calculati on.T=Ks/2 入.入:meand. Ka/Ks 意义:Ka/Ks=1.中性进化。.Ka/Ks<>Ka/Ks>1.正选择。Positively selected genes and produce fitnessadvantagemutations to evolve new functions.基因家族分析套路(三)本节主要讲基因结构分析套路1、Motif 分析使用软件MEM,命令如下:meme -

9、dna -revcomp -nmotifs10 -mod zoops -minw 6-maxw 50>2、基因结构分布图可以使用在线网站:website用法如下:结果展示3、基因结构常见统计信息:自己 excel或写程序统计a. The number of intronandexon.b. The splici ngintron patter nin culd ing0,1,2 phase.c. The marked region.Forexample kinase domain.d. seque nee len gth.e. UTR.4、启动子分析。网站:主要做植物的:注意事项:a.I

10、Ebrower.b.Onlyone sequeneeforon cesearchandthelen gthwaslimitedin1000 bp.c.DNAseque nee origi n:1000 or1500bpupstream ofATGofonegene.分析结果:基因家族分析套路(四)、转录组及芯片原始数据下载网站1、 GEO datesets/profile ).。用法见下图。GEO数据ID命名规则:GPL->GSE->GSM.GPL: platformGSE:multipleseries.GSM:multiplesamples.GDSGSE.Thediffere n

11、eeconcen tratedon the data labeledGDSThe data in the sameGPL can be used to compare in experime nt下面是在线分析转录组数据的用法:2、EBI ArrayExpress该数据库下载数据用法如下:3、PLEXdb该数据库下载数据用法如下,注意用户名和密码!4、SRA db、DRA db()二、数据处理拿到原始数据,要进行处理,才能进行后续数据分析。1、芯片数据。原始数据格式“ .cel ”格式。以AffyMicroarray数据处理为例讲述主要的命令如下:> library(affy);>

12、library(makecdfe nv);>library > barleyGe nome =")>mydata <- ReadAffy()#choose “ .cel“ filean alyzed.>eset <- rma(mydata);>(eset,file=”)>desig n <-(-1+factor(c(1,1,2,2,3,3)# Createsappropriatedesig nmatrix.>co In ames(desig n)<-c("group1", "group2&

13、quot;, "group3") # Assig nscolumn n ames.>fit <- lmFit(eset,desig n)# Fits a lin ear model for each gene basedon thegive nseries of arrays.> <-makeC on trasts(group2-group1,group3-group2,group3-group1, levels=desig n) # Creates appropriate con trast matrix toperform all pairwis

14、e comparis ons.>fit2 <- (fit, # Computes estimatedcoefficie ntsand sta ndard errors for a give nset ofcon trasts.>fit2 <- eBayes(fit2) # Computes moderated t-statistics and log-o ddsofdiffere ntialexpressi on by empirical Bayes>topTable(fit2, coef=1,adjust="fdr",="B&quo

15、t;, number=10) # Gen erates list of top 10 ('nu mber=10')differe ntiallyexpressed genes sorted byB-values ('=B') for firstcomparis on group.>(topTable(fit2,coef=1,adjust="fdr",="B",nu mber=500),file="",=F,sep="t")# Exports complete limma sta

16、tistics table forfirst comparison group.>results <- decideTests(fit2,=;venn Diagram(results)2、转录组数据处理。原始数据格式为sra或fastq格式。Sra可以转换为fastq然后运用下面的命令进行处理。1) 获得 cleandata ;fastx clipper:clipadapter.fastq quality filter:base qualitycon trol.fastq quality trimmer:trim5'low quality bases.2) 计算 RPKM.bowtie2-buildpath/path/dbtopha

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论