生物信息学实验指导 实验二 Ensemble 使用_第1页
生物信息学实验指导 实验二 Ensemble 使用_第2页
生物信息学实验指导 实验二 Ensemble 使用_第3页
生物信息学实验指导 实验二 Ensemble 使用_第4页
生物信息学实验指导 实验二 Ensemble 使用_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、实验二Ensemble 使用1.1在Ensemble页面All genomes的下拉菜单中选择human,查看这个物种的具体信息,人的染色体和基因数量如图所示,基因数量主要看Alternative sequence的图示。genetic variation有Short Variants (329,179,721)和Structural variants (5,955,877)。1.2 在 Ensemble 首页进行human for MAPK4搜索,在结果页面追加Restrict category to 为gene,筛选到117条序列,打开登录号为ENSG00000141639的目标序列,查看

2、Gene-based displays。1.2.1这个基因有6个可变剪接,他们之间序列长度不同,其中4个可以编码蛋白,所编码蛋白的氨基酸数量也不同。1.2.2 在 HYPERLINK /Homo_sapiens/Gene/Compara?align=1087;db=core;g=ENSG00000141639;r=18:50560078-50731824 o Comparative Genomics Comparative Genomics项 HYPERLINK /Homo_sapiens/Gene/Compara_Alignments?align=1087;db=core;g=ENSG000

3、00141639;r=18:50560078-50731824 o Genomic alignments Genomic alignments中,选择multiple,然后选择27种amniota vertebrates Pecan进行比对,在configure this page中勾选Show conservation regions,在 HYPERLINK /Help/View?id=202 Alignments (text)部分,可以看到蓝色高亮显示的保守区域了。1.2.3 MAPK4基因位于 HYPERLINK /Homo_sapiens/Location/View?db=core;g

4、=ENSG00000141639;r=18:50560078-50731824 Chromosome 18: 50,560,078-50,731,824。有10个外显子,9内含子。从sequence项可以看到core exons的数量,从基因结构图示也可以看到内含子和外显子的数量。1.2.4 MAPK4 属于 HYPERLINK /Multi/Family/Details?fm=PTHR24055_SF25 PTHR24055_SF25( HYPERLINK /Homo_sapiens/Gene/Family/Genes?cdb=compara;db=core;family=PTHR24055

5、_SF25;g=ENSG00000141639;r=18:48018125-48189873;t=ENST00000400384 2 genes)蛋白家族。家族其他成员还有MAPK4-001,MAPK4-002,MAPK4-003,MAPK4-005。1.2.5从GO注释中,我们了解到MAPK4基因可编码蛋白的四个转录本,分别在分子功能、生物学进程和细胞组分方面的信息。1.26这个基因的 HYPERLINK /Homo_sapiens/Gene/StructuralVariation_Gene?db=core;g=ENSG00000141639;r=18:48018125-48189873;t

6、=ENST00000400384 l sv_table Structural variants的genetic variation有SNP、deletion、insertion、CNV(拷贝数变异)和short tandem repeat variation。1.2.7在gene expression项,可以看到32 experiments中MAPK基因的表达情况,下载Table content,为TSV文件,用Excel表打开查看具体表达情况。可知MAPK4在人体的144个组织(附下载文件)中不同程度的表达,这些组织分别为:cerebellumspinal corddiencephalonm

7、idbrainhindbrainbrain fragmentadrenal glandforebrainbasal gangliontemporal lobemedulla oblongatacerebral cortexchoroid plexustelencephalonheartkidney testisovarylungcaudate nucleusbronchuscervix, uterineheart musclenasopharynxparathyroid glandlocus ceruleusnucleus accumbens umbilical corddiencephalo

8、n and midbrainoral mucosatelencephalic ventricle globus pallidusmuscle of armprefrontal cortexputamenponsbrain eyehindbrain without cerebellumfrontal lobeesophaguspituitary and diencephaloncerebellar hemisphereright renal cortexright renal pelvis hippocampusrectumleft kidneyleft renal cortexrenal pe

9、lvishippocampal formationendometriumsaliva-secreting glandtonsilthyroid gland Brodmann (1909) area 9duodenumleft renal pelvisforebrain fragmentdorsal thalamus Brodmann (1909) area 24skeletal muscle of trunkhindbrain fragmentsmall intestineoccipital lobebrain meninxhypothalamus throatthymusforebrain

10、and midbrainplacentaadipose tissueprostate glandamygdalagall bladder parietal lobesmooth muscle tissue trachea muscle of legcolonseminal vesicle liver fallopian tubeurinary bladderskeletal muscle tissuediaphragmlarge intestine sigmoid colon epididymistibial arterystomachlymph nodeolfactory apparatus

11、 substantia nigrahippocampus propervermiform appendixcortex of kidney occipital cortexatrium auricular regionzone of skinbone marrowmiddle frontal gyrusmiddle temporal gyrusC1 segment of cervical spinal cord pancreas breastspleenvaginacoronary arterypituitary glandheart left ventricle mitral valveva

12、s deferensesophagogastric junctiontongue esophagus muscularis mucosa pineal bodypulmonary valveaortatibial nerveuterusectocervixendocervix transverse colonleft cardiac atrium tricuspid valvelower leg skinminor salivary glandsuprapubic skindura materesophagus mucosasubcutaneous adipose tissuearterypa

13、rotid gland penissmall intestine Peyers patchuterine cervix submandibular gland soft tissueleukocyteEBV-transformed lymphocyteblood greater omentumtransformed skin fibroblast 1.2.8在regulation项中的图示中,我们可以看到regulatory build,分析基因的motif feature,enhancer,promotor和transcription factor binding site。且图示下方有各调

14、控区域的功能,序列,序列长度和精确位点。1.2.9下载你研究的生物分子的 rtf 格式的序列文件,用 word 打开浏览。附下载文件及部分序列。50559478 CGGAATCCCAGGCCGGCTGGGGACCGGTGCACTTGGGCTCCGCGCCCCCTCGACCCTCGG 5055953750559538 CCCAGTGCCCCTTCCCGCGCGCGCGGGTCTCCCCGGTTCCAGAGCCCACCGGTCCCCGCC 5055959750559598 GGCTCCTTCTCCCCACCCACCCTCCCACCGGGCCCCCGGCGGCTGCAGCCGCGCGGGGCT 50

15、55965750559658 GGCGGGGCGGCGACCGGGCTCAGGCAGATCCCCGCTTCCCGCCTTCTCGGCGCCCCCTCC 5055971750559718 CTCCCGGACGGAGCCCGAGGATCCCCCACCCACGGCGGGCGTGAGGAAGGGCTTCTGAGT 5055977750559778 GACTGGAGCTCTACCGCGTGTGCCCCGGGAAGGCCAGGCTACCCGGGACGGGGCTCGGCT 5055983750559838 CCCCAGGTGAGCTCGTCTCCGCGGGACTGGGTCCGGGAAGGCCCCAGGACC

16、GCGCGGCTG 5055989750559898 AGCGGCCTGGAGGCTGCGGGAGGGCAGAGCAGGGCGCGCGGGAGACTGCCGCCCCCGGGC 5055995750559958 GCCCAGGGCCCGGCTCCCCAGCGCCACCGCCGCAGCAGGTGGGGGCCCAGTGGGCGGGGG 5056001750560018 CGGGGCCCGGCTCTGGGCGGAGCCGAGGCGGCGGCGGCGCAGGCTGGGGCCGGGGCCGGG 5056007750560078 GCGGGAGCCGGAGCCCGAGCTGGAGCAGCGAGCCGGGCT

17、GTCGGGGCGACCGCGGGAGCT 5056013750560138 CGCCGTGCGCCGTGGCTGGGACCGGCCTGGCCGAGCGCGCCGGCGCCGCGGCCGCAGACA 5056019750560198 AAGGGCGGCTCGCGCCCGGGCCGCCACGCTCTCGGGCTCTGCCTCGGTAAGTGGCTCCCC 5056025750560258 TCCGCTGGCTTTCTCCTCCCGCCGCCTGCGCCTCTCGGAGTTCGGCGGGCTCCGGAGAAG 5056031750560318 CGGGGAAGAGATGAGACTTCCCCGCCC

18、GCACTGCCTCCCCACCTTACCCTAACAATAAGC 5056037750560378 CCCCCAGGCCAAGCCACTGCCAAACTAGCGAGTTTCCGAGCGGCGGGGGTCTCCCGCGGG 5056043750560438 ACCCGCCCGGCTGCCCTGGGTGAGCTCCTCGCCTGCAGACCGCGCGCCGGTGCTGTCCTG 5056049750560498 GACCCGTTTGGGATGGGAGGTTGCCGCTGGGCTCCTCGCGTTGTGTTTAGGGGAGGAGGA 5056055750560558 CGCAGGGGCCGGGCG

19、CCGCTAGGGGACCCCACCCCCGGGGACAGTCCGGAGCGCTTGGGG 5056061750560618 TCGCCGAGGGGCAGTTCACACTGCGAGTTCAGATTCGGATCGCAGTCCCGATTATCCTCC 5056067750560678 CCTCCAGCCTCTCCCTTTCTCGTTGAAGGGTTAATACAGCGTCCTCTCCCCTCGCCACCC 5056073750560738 GACAGAGGCGCCTACACTGGCGGTAGGTAGCCCCTGGGAGAGGGGGAGTGGGGGGACCCC 5056079750560798 GCC

20、GCTTTCGCCGCTGGGCGACCCAGAGCCCCAGCCTGCCGGAGAGGGCAGCGGCTCGGG 5056085750560858 TTTGACATCCCAGCTGGGTCCCGGGCCGGCTCCCTGAGCCTCCTCCCGGGTTGCTCTCTA 5056091750560918 TCAGGAAAGCAATCGGAAGTCAGGCCGGCTTTTGCTTTTGTTCTGCCAGCTACTCTACGG 5056097750560978 AATCGTAGGTGAAGCCGGGGTGGGCGGATGCCCCGGGAGGGGGCTGTGGCGGGAGTTCCA 50561037

21、50561038 GGTGCGTCCCCGAAATGACCATTGGAGGCGGCGGCTGTTTCCCGCCCCTGGGTGGGGAAT 5056109750561098 GGATTCCGATCGCTAATCGATACCCTGGAGCCAGCAGTGGGTCAGCAGCGTCCCGACAGA 50561157.2. 在Filters的GENE中输入MAPK4的登录号,Attributes中选择输出六个物种的旁系同源序列与人类的直系同源序列的蛋白和基因的ID号。将输出的基因和蛋白ID保存,用于同源序列下载。序列下载时,先选择对应的Dataset,同源基因Attributes选择序列(未剪切基因),Filters的GENE设为Gene stable ID,同源蛋白下载时,Attributes选择序列(peptide),将Filters的GENE设为Protein stable ID,将序列导出为fasta格式。(附下载序列)Biomart下载的同源序列登录号同源序列目标基因ID HYPERLINK /homo_sapiens/Gene/Summary?db=core;g=ENSG00000141639 ENSG00000141639同源基因ID同源蛋白ID直系同源序列ENSMPUG00000008813ENSMPUP00000008743ENSF

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论