




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
TCGA突变数据的下载、整理和可视化今天是生信星球陪你的第520天大神一句话,菜鸟跑半年。我不是大神,但我可以缩短你走弯路的半年~就像歌儿唱的那样,如果你不知道该往哪儿走,就留在这学点生信好不好~这里有豆豆和花花的学习历程,从新手到进阶,生信路上有你有我!花花写于2020-01-17小年快乐呀大家!今天上班最后一天,接下来开启长达半个月的年假(距离下一场讲课还有20天,期待)。我今年第一年在广东过年,不回家了,我父母会从山东老家过来和我一起过年,后天就到咯。。。你呢思维导图走起啦1.数据下载1.1突变数据TCGA的突变数据有4个软件得到的不同版本:这个可以在gdc的官网上找到,case选择KIRC,文件类型选择maf即可获得。选择mutect,就一个文件,直接点进去,download就行,下载下来只有一个tar.gz文件,解压放在工作目录下。tar-xzvffile.tar.gz解压,即可得到一个maf.gz文件。同样的筛选条件,参考/p/559d9604fcdf下载临床信息数据并整理。1mkdir
kirc-clinical2
./gdc-client.exe
download
-m
gdc_manifest.2020-01-17\
\(1\).txt
-d
kirc-clinical2.数据读取2.1突变数据使用maftools读取。1rm(list=ls())2options(stringsAsFactors
=
F)
3require(maftools)
4require(dplyr)5project='TCGA_KIRC'6laml
=
read.maf(maf
=
'TCGA.KIRC.mutect.somatic.maf.gz')7#>
-Reading8#>
-Validating9#>
-Silent
variants:
8383
10#>
-Summarizing11#>
--Mutiple
centers
found12#>
BCM;BI--Possible
FLAGS
among
top
ten
genes:13#>
TTN14#>
MUC1615#>
HMCN116#>
-Processing
clinical
data17#>
--Missing
clinical
data18#>
-Finished
in
3.750s
elapsed
(3.430s
cpu)19laml
20#>
An
object
of
class
MAF
21#>
ID
summary
Mean
Median22#>
1:
NCBI_Build
GRCh38
NA
NA23#>
2:
Center
BCM;BI
NA
NA24#>
3:
Samples
336
NA
NA25#>
4:
nGenes
9444
NA
NA26#>
5:
Frame_Shift_Del
1732
5.155
427#>
6:
Frame_Shift_Ins
1201
3.574
128#>
7:
In_Frame_Del
238
0.708
029#>
8:
In_Frame_Ins
350
1.042
030#>
9:
Missense_Mutation
12997
38.682
3631#>
10:
Nonsense_Mutation
1259
3.747
232#>
11:
Nonstop_Mutation
18
0.054
033#>
12:
Splice_Site
490
1.458
134#>
13:
Translation_Start_Site
25
0.074
035#>
14:
total
18310
54.494
4736maf_df
=
laml@data37save(laml,maf_df,file
=
'maf.Rdata')38length(unique(maf_df$Tumor_Sample_Barcode))39#>
[1]
33640length(unique(maf_df$Hugo_Symbol))41#>
[1]
9444因此,有336个病人,9444个突变基因信息。了解maf还可以用下面的几个函数:1getSampleSummary(laml)
2getGeneSummary(laml)
3getFields(laml)
2.2.临床信息将下载好的临床信息xml文件整理成一个数据框。1xmls
=
dir('kirc-clinical/',pattern
=
'*.xml$',recursive
=
T)2library(XML)3td
=
function(x){4
result
<-
xmlParse(file.path('kirc-clinical/',x))5
rootnode
<-
xmlRoot(result)6
xmldataframe
<-
xmlToDataFrame(rootnode[2])7
return(t(xmldataframe))8}910cl
=
lapply(xmls,td)11cl_df
<-
as.data.frame(t(do.call(cbind,cl)))12cl_df[1:3,1:3]13#>
additional_studies
tumor_tissue_site
histological_type14#>
1
Kidney
Kidney
Clear
Cell
Renal
Carcinoma15#>
2
Kidney
Kidney
Clear
Cell
Renal
Carcinoma16#>
3
Kidney
Kidney
Clear
Cell
Renal
Carcinoma17save(cl_df,file
=
'clinical.Rdata')3.突变数据的可视化3.1plotmafSummarymaftools自带可视化函数plotmafSummary,可以比较直观的统计maf文件的数据。1dev.off()2#>
null
device
3#>
14plotmafSummary(maf
=
laml,
rmOutlier
=
TRUE,showBarcodes
=
FALSE,5
addStat
=
'median',
dashboard
=
TRUE,
titvRaw
=
FALSE)就是将maf_df数据框做了统计,用barplot和boxplot做了可视化。3.2突变频谱图代码其实就一句!1oncoplot(maf
=
laml,
top
=
30,
fontSize
=
1)下面展开一下这个图的解读主体热图一行是一个基因,总共是9444个基因,从中截取了top30;一列是一个样本,总共是336个样本。不同颜色代表不同类型的突变。右侧条形图右侧的条形图是每个基因的突变样本数、突变类型和比例验证一下突变样本数1count(maf_df,Hugo_Symbol,sort
=
T)2#>
#
A
tibble:
9,444
x
23#>
Hugo_Symbol
n4#>
<chr>
<int>5#>
1
VHL
1696#>
2
PBRM1
1487#>
3
TTN
778#>
4
SETD2
469#>
5
BAP1
3710#>
6
MUC16
2811#>
7
MTOR
2312#>
8
KDM5C
2113#>
9
HMCN1
2014#>
10
ATM
1915#>
#
…
with
9,434
more
rows结果显示VHL在169样本中突变,样本总数336,所以是49%,以此类推条形图的颜色是突变类型,以VHL基因为例,他的突变类型分别是:1maf_df
%>%
filter(Hugo_Symbol=='VHL')
%>%2
count(Variant_Classification,sort
=
T)3#>
#
A
tibble:
7
x
24#>
Variant_Classification
n5#>
<fct>
<int>6#>
1
Missense_Mutation
607#>
2
Frame_Shift_Del
418#>
3
Nonsense_Mutation
279#>
4
Frame_Shift_Ins
2210#>
5
Splice_Site
1611#>
6
In_Frame_Del
212#>
7
Nonstop_Mutation
1顶部条形图显示每个样本里突变的基因个数,可以看到最高的是那个一枝独秀的1600多。1laml@variants.per.sample
%>%
head()2#>
Tumor_Sample_Barcode
Variants3#>
1:
TCGA-B8-4143-01A-01D-1806-10
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年基础医学知识考点回顾与总结试题及答案
- 企业人力资源管理师考试复习教材试题及答案
- Module7 Unit1 My father goes to work at eight o'clock every morning.(教学设计)-2023-2024学年外研版(三起)英语五年级下册
- 第21课 蝉(教学设计)八年级语文上册同步高效课堂(统编版)
- 严重疫病对母猪护理的影响试题及答案
- 2024年信息系统项目管理师考试形式讲解试题及答案
- Module 3 Unit 9 A friend in Australia Period 2(教学设计)-2023-2024学年沪教牛津版(深圳用)英语四年级下册
- 2024药剂类考试内容创新试题及答案
- 六年级英语下册 Unit 3 Where did you go(The first period)第一课时教学设计 人教PEP
- 《森吉德玛》(教学设计)-2024-2025学年三年级上册人音版(2012)音乐
- 幼儿园环境卫生检查通报制度
- 普惠托育服务体系建设方案
- 2025年新高考历史预测模拟试卷浙江卷(含答案解析)
- 【初中地理】七年级地理下册全册期末总复习(课件)-2024-2025学年七年级地理课件(人教版2024年)
- 1.第3届中国播音主持“金声奖”优广播电视播音员主持人推表
- 2025年管道工(高级)职业技能鉴定参考试题(附答案)
- 成品油柴油汽油运输合同5篇
- 2025年无锡南洋职业技术学院单招职业技能测试题库含答案
- 2025年东北三省三校高三一模高考英语试卷试题(含答案详解)
- T-HHES 010-2024 生产建设项目水土流失危害评估编制导则
- 《DVT深静脉血栓》
评论
0/150
提交评论