基因家族分析套路(四).doc_第1页
基因家族分析套路(四).doc_第2页
基因家族分析套路(四).doc_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基因家族分析套路(四) 广告:大家有基因组家族分析的需求,麻烦留言哦,小编会第一时间回复的。今天是基因家族分析类文章最后的一部分,也是一个文章亮点所在的部分,小伙伴们仔细阅读学习吧! 一、转录组及芯片原始数据下载网站 1、 GEO datesets/profile(/gds ).。用法见下图。GEO数据ID命名规则:GPL->GSE->GSM.GPL: platformGSE: multiple series.GSM: multiple samples.GDS GSE. Thedifference concentrated on the data labeled GDS can be analyzed for one geneonline. It is simple and easily.The data in the sameGPL can be used to compare inexperiment.下面是在线分析转录组数据的用法:2、EBI ArrayExpress(http:/www.ebi.ac.uk/arrayexpress/) 该数据库下载数据用法如下:3、PLEXdb(/).该数据库下载数据用法如下,注意用户名和密码!4、SRA db(/sra/)5、DRA db(http:/trace.ddbj.nig.ac.jp/DRASearch/) 二、数据处理 拿到原始数据,要进行处理,才能进行后续数据分析。1、芯片数据。原始数据格式“.cel”格式。以AffyMicroarray数据处理为例讲述主要的命令如下:> library(affy); >library(makecdfenv); >library> barleyGenome = make.cdf.env(“barleyGenome.cdf)>mydata <- ReadAffy() #choose “.cel “ file analyzed.>eset <- rma(mydata);>write.exprs(eset,file=mydata.txt)>design <- model.matrix(-1 factor(c(1,1,2,2,3,3) # Createsappropriate design matrix. >colnames(design) <-c(group1, group2, group3) # Assigns column names.>fit <- lmFit(eset, design) # Fits a linear model for each gene based onthe given series of arrays.>contrast.matrix <- makeContrasts(group2-group1,group3-group2, group3-group1, levels=design) # Creates appropriate contrast matrix toperform all pairwise comparisons.>fit2 <- contrasts.fit(fit, contrast.matrix)# Computes estimatedcoefficients and standard errors for a given set of contrasts.>fit2 <- eBayes(fit2) # Computes moderated t-statistics and log-oddsof differential expression by empirical Bayes >topTable(fit2, coef=1,adjust=fdr, sort.by=B, number=10) # Generates list of top 10 (number=10)differentially expressed genes sorted by B-values (sort.by=B) for firstcomparison group.>write.table(topTable(fit2, coef=1,adjust=fdr, sort.by=B, number=500),file=limma_complete.xls, s=F, sep=t) # Exports complete limma statistics table forfirst comparison group.>results <- decideTests(fit2,p.value=0.05); vennDiagram(results) 2、转录组数据处理。原始数据格式为sra或fastq格式。Sra可以转换为fastq然后运用下面的命令进行处理。1)获得cleandata; fastx_clipper :clip adapter. fastq_quality_filter: base quality control. fastq_quality_trimmer: trim 5 low quality bases.2)计算RPKM. bowtie2-buildpath/db.seq path/db tophat db read.fastq bam_filter path/accepted_hits.bam samtools view -h -o output-uniq.sam output_uniq.bamexcel for calculation(low frequencyreads 5 were omitted ).3)差异表达的基因。 寻找存在差异表达的家族成员,推测其可能的功能。有下面两种分析策略,均可采用。a.倍数法。对于基因家族分析,可以采

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论