基因表达数据分析实验指导_第1页
基因表达数据分析实验指导_第2页
基因表达数据分析实验指导_第3页
基因表达数据分析实验指导_第4页
基因表达数据分析实验指导_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基因表达数据分析实验指导1. 实验基本情况2. 实验方法:2.1 表达谱数据的下载2.2 将表达谱数据导入matlab软件2.3 补缺失值2.4 数据标准化2.5 差异表达基因筛选2.6 选择差异表达的基因2.7对差异表达基因送入功能注释附 - matlab的microarray data analysis 1. 实验基本情况实验目的:掌握和了解常用的基因表达分析过程,包括数据下载、数据预处理、差异表达分析和基因功能注释。了解geo、smd、matlab软件和webgestalt数据库

2、的使用。实验方法:详见下面的描述。实验作业:每位同学从geo或smd数据库上下载一套表达谱数据,进行数据预处理,差异表达基因分析或聚类分析等数据分析过程(依据具体问题操作,arraytool或matlab或其他软件均可),基因功能注释(webgestalt、go、kegg等数据库)。实验实例分析=2. 实验方法:2.1 表达谱数据的下载2.1.1 从geo数据库上下载表达谱数据1) 网址及数据库概述geo主页:/geo/geo数据库中包含四种类型的条目,分别以gplxxxx(检测平台),gsmxxxx(

3、生物样本),gsexxxx(基因表达系列),gdsxxxx(基因表达数据集)表示。其中gplxxxx有sage、mpss、单色芯片(affymetrix)、双色芯片(spotcdna/dna)几种;gsexxxx与gdsxxxx的区别在于:gse是实验者一次一起提交的数据集,包含原始的数据文件,而gds是geo数据库的维护者根据样本和实验平台的特性进行整理的,与原有的gse数据可能有样本量上的差异;一般gds都有对应的gse数据;gds不包含单独的原始数据,如果想获得其原始数据,需要链接到他的gse网页上下载;gds样本间的可比性更强,如果有gds就先分析gds。2)数据下载geo可提供两种数

4、据的下载,一种是整理好的soft格式数据,是一个数据矩阵,包含多个基因在多个条件下的表达值,如gds2220.soft;另一种是单独的数据文件,每张芯片一个数据表格,如gse3519_family.xml文件夹里的文件,就是对应gds2220这次实验的原始数据。另外还有一个gds2220.annot数据是提供基因描述的。具体的下载方式如下:在geo主页上(图1),可以通过浏览(browse)或query中输入疾病名字,如风湿性关节炎(rheumatoid arthritis)在datasets后,点击go进行搜索,结果如图2。图1. geo的主页图2.geo的搜索结果之后点击你感兴趣

5、的gds集合,如gds2220,就进入每套数据的页面了(图3)。图3.gds2220数据的浏览界面在图3中,点击下拉菜单中的dataset soft file,就能下载gds2220.soft文件;点击annotation soft file就可以下载gds2220.annot文件;点击seriers family miniml file就可以下载gse3519_family.xml文件夹,但这个速度较慢,这里有个小窍门,大家可以在迅雷中新建一个下载任务,粘贴地址: /pub/geo/data/mini

6、ml/by_series/gse139/gse139_family.xml.tgz ,这里gse139是可以替换的,比如要下载gds2220配套的数据,就直接把两个gse139都替换成gse3519就可以直接下载了;点击series family soft file下载的文件与gds2220.soft类似,只是样本是gse3519的数据,可能和gds2220的样本不同,这里是相同的。也可以通过以下方式寻找特殊平台的数据。3) 文件描述(a)gds22.soft该文件从上到下分为三个部分:第一部分,数据集合基本描述,文字形式,以!或#开头;第二部分,表格的表头,如“id_re

7、f                  identifier      gsm80309         gsm80310         gsm80311  &

8、#160;      gsm80312         gsm80313         gsm80314         gsm80315        gsm80316 

9、60;       gsm80317”,以tab键分割,表示下面的数据部分每一列的含义;第三部分,数据,如gds2220.soft中第一列为每一个基因的编号,第二列是基因名字,第三列是gsm80309      样本中个基因的表达值。从图3中我们可以看出,这个表达值是“log2ratio”;(b)gse3519_family.xml从文件夹中可以看到,每个文件的名字很有规律,包含三类文件:第一个是gpl2715-tbl-1.txt,表示的是该实验检测平台的信息,第一

10、列为基因的编号(与gds2220.soft文件的第一列编号相同),第二列是基因的名字,最后三列分别对应每个基因在芯片上的block,row和column号。详情可参见:/geo/query/acc.cgi?acc=gpl27152.1.2 从smd数据库上下载基因芯片数据主页:/, 如图4图4. smd数据库主页smd数据库也提供两种类型的数据:一种是与gdssoft格式类似的整合后的表格,如7742.pcl,另外一种是单独的数据原始文件,与gse3519_fam

11、ily.xml类似,文件如exptsetno_3977.tar.gz。1)数据下载流程:点击smd主页(图4)上的publication,进入数据浏览页面(图5),可进行适量的物种或发表年限筛选,选中你要下载的数据后,点击对应行的最后一列的smd图标,进入图6的下载页面,点击view可以看见每个样本的描述,点击rawdata可以下载原始的数据文件如exptsetno_3977.tar.gz,由于数据量太大,这里不建议下载。点击data retrievel and analysis,可以进行重复数据合并、缺失数据处理等过程,不用更改直接默认选项就可以了,最后网站会给你一个数据

12、下载的链接,你点击就可以下载7742.pcl文件了(图7).图5. smd的数据下载页面图6. 具体数据的下载页面图7. 合并后的数据下载,点击download preclustering file2)例子文件共包含39729个唯一的基因的表达数据,50个样本,其中35个为ra患者,15个为正常对照组。下载地址:/cgi-bin/publication/viewpublication.pl?pub_no=664对应的文件分别为7742.pcl和exptsetno_3977.tar.gz。3)文件描述7742.p

13、cl,第一行是表头,第二行是每一列的权重(这一列不是基因表达值,分析时要去除),第三行开始是数据。每行数据的第一列是芯片上的编号,第二列式基因的名字,这里包含多个数据库中的名字和id,用|分隔开,第三列是基因的权重,也不是表达值,第四列开始是表达值了对应于shfm212样本,这里每个值是log2normorlizedmeanvalue,这个在数据整合时看见了。2.2 将表达谱数据导入matlab软件matlab中数据有三种储存格式,包括结构型数据(如mastruct.mat),cell型数据(如yeastdata.mat 中的genes文件,储存的就是基因名字)和数值型数据

14、(如yeastdata.mat 中的yeastvalues文件,储存的就是基因的表达值)。所有matlab文件都可以用 “load 文件名”的形式导入matlab文件,但首先要把我们下载的文本或excel表格文件转换成matlab可以识别的文件。2.2.1 gds2220.soft文件的导入1)更新geosoftread.m程序由于matlab对soft格式文件导入的程序有一点小bug,我们首先要将matlab文件更新。关闭matlab,打开c:program filesmatlab71toolboxbioinfomicroarray,将geosoftread.m文件粘贴至

15、此文件夹,将原有文件替换。打开matlab程序,在命令行上输入:rehash toolbox后,新的geosoftread程序就导入了。2)将matlab的当前目录转换为gds2220.soft文件储存的目录在命令行中输入:gdsdata = geosoftread('gds2220.soft')就将gds2220.soft文件导入为matlab可识别的gdsdata结构文件了,该文件是一个树形文件,还包含8个子文件,想获取任何一个子文件,只需在gdsdata后加.加子文件名字即可,如你想对基因表达矩阵分析,就用gdsdata.data,就是一个1

16、6515*20的数值矩阵,代表gds2220.soft文件中的表达值部分。七个子文件描述如下:(%后为我添加的描述信息)gdsdata =scope: 'dataset'   %数据类型,是数据集(gds)、样本(gsm)、系列(gse)accession: 'gds2220' % geo中的编号header: 1x1 structcolumndescriptions: 20x1 cell %每一列的描述,其实就是每个样本的描述columnnames: 20x1 cell 

17、    %每一列的名字,其实就是每个样本的名字idref: 16512x1 cell %每一行的编号,其实就是每个基因的编号,对应.soft文件的第一列identifier: 16512x1 cell%每一行的描述,基因的名字data: 16512x20 double % 基因表达矩阵,数值型数据最后将你导入的文件保存成matlab文件,以后就可以直接打开matlab文件分析了。存储文件的命令:save gdsdata gdsdata2.2.2 对gpr格式的数据输入mastruct&

18、#160;= gprread('mouse_a1wt.gpr');mouse_a1wt.gpr是matlab自带的一套数据,单张芯片包含原始的红光和绿光值,与我们从geo上下载的原始数据类似,但是我们的geo数据不可以直接用gprread命令导入。我们可以参照mastructure的结构,生成geo导入的数据。mastructure的结构如下:mastruct =header: 1x1 structdata: 9504x38 double  %每一行代表一个基因在一次芯片检测中的各种值,cy3,cy5等。blocks: 9504

19、x1 double  %每个基因所在的区域columns: 9504x1 double %每个基因所在的列rows: 9504x1 double  %每个基因所在的行names: 9504x1 cell % 基因标识ids: 9504x1 cell % 基因编号columnnames: 38x1 cell %每一列的含义,对应data的38列indices: 132x72 double % 每个基因在芯片上的坐标shape: 1x1 struct %每个b

20、lock在芯片上的起始坐标提示:若想将geo的family数据导入,则需将单独的数据样本和单独的gpl平台文件同时导入,才可生成上述的mastruct结构文件。此部分本实验不做要求,同学可自行尝试编写程序。smd的rawdata导入时也需要编写程序2.2.3 smd的整合好的数据导入(7742.pcl)右键单击7742.pcl文件,选择用excel程序打开;删除第二列(基因名字那列),因为这列太长了,导入matlab时容易产生错误;存储为7742.xls打开matlab,点击file下拉菜单,选择import,选取7742.xls就可以导入了。生成三个文件a)  

21、data,对应原始的数据表,但要注意第一行和第一列不是表达值可以通过命令去除:data(:,1)=;data(1,:)=;b) textdata, cell型文件,对应基因的id和表头c)colheaders, 无用2.3 补缺失值使用k均值法补缺失值原始命令:imputedata=knnimpute(data, k);这里data的是我们的表达谱,k为k近邻的k值,默认的距离测度是欧式距离。如对gdsdata进行15近邻补缺失值:imputedata=knnimpute(gdsdata.data, 15);可将补后的数据并入原来的gdsdata中gdsdata.

22、imputedata=imputedata;2.4 数据标准化2.4.1 对soft格式文件的标准化1)导入gdsdataload gdsdata2)显示各张芯片间的变异(如图8)maboxplot(gdsdata. imputedata,gdsdata.columnnames);xlabel('samples');图8.各芯片间的变异3)标准化a)使用manorm命令可以对每张芯片的几种趋势进行标准化xnorm = manorm(data)默认是对均值进行标准化b)使用quantilenorm直接对集中趋势和离散趋势

23、进行标准化,并用图示显示:默认为均值标准化,如改为中值标准化:normdata = quantilenorm(gdsdata.imputedata,'median',1) ;显示标准化后的结果(图9)normdata = quantilenorm(gdsdata.imputedata,'display',1);图9. 标注化后的数据将normdata并入gdsdata中gdsdata.normdata=normdata;2.4.2 其他类型数据的标准化详见bioinformatics toolbox 中的microarray

24、0;data analysis,在文档最后。2.5 差异表达基因筛选t检验筛选h,significance,ci = ttest2(x,y,alpha);这里x是一个基因在正常样本中的表达值,y是该基因在另一类样本中的表达值,alpha是显著性水平,通常取0.05. h是0或者1,表示h0假设(无差别)还是h1假设(有差别),这是依据计算出的p-value和你的alpha比较来判断的。significance是p-value。ci是置信区间。这里不要求两个向量长度相等,每次只对一个基因计算。如果我们相对gdsdata中的16512个基因计算p-value,就要编写循环,如for

25、60;i=1:size(gdsdata.normdata,1)   h,significance,ci = ttest2(gdsdata.normdata(i,1:10), gdsdata.normdata(i,11:20),0.05);sigtotal(i)=significance;endsigtotal文件对应的就是每个基因的显著性水平了。2.6 选择差异表达的基因根据你的判断,如p小于0.05的基因取出来,作为差异表达基因。siggene= gdsdata.identifier(sigtotal<=0.05);

26、2.7对差异表达基因进行功能注释可以先使用我的帐号,但分析完请把你输入的数据集删除your username is your email address:starmyselfyour new password is:vari7esiwe recommend you save this email for future reference.the webgestalt web site is /webgestalt/附 - matlab的microarray data analys

27、isbioinformatics toolbox   microarray data analysis  matlab is widely used for microarray data analysis. however, the standard normalization and visualization tools that scientists use can be difficult to implement. the bioinformatics toolbox includes these st

28、andard functions. microarray data read affymetrix genechip files (affyread) and plot data (probesetplot), imagene results files (imageneread), and spot files (sptread). read genepix gpr files (gprread) and gal files (galread). get gene expression omnibus

29、(geo) data from the web (getgeodata) and read geo data from files (geosoftread). microarray normalization and filtering  the toolbox provides a number of methods for normalizing microarray data, such as lowess normalization (malowess) and mean normalization (m

30、anorm). you can use filtering functions to clean raw data before analysis (geneentropyfilter, genelowvalfilter, generangefilter, genevarfilter), and calculate the range and variance of values (exprprofrange, exprprofvar). microarray visualization  the toolbox

31、contains routines for visualizing microarray data. these routines include spatial plots of microarray data (maimage, redgreencmap), box plots (maboxplot), loglog plots (maloglog), and intensity-ratio plots (mairplot). you can also view clustered expression profiles

32、 (clustergram, redgreencmap). you can create 2d scatter plots of principal components from the microarray data (mapcaplot). microarray utility functions use the following functions to work with affymetrix and genechip data sets. get library information fo

33、r a probe (probelibraryinfo), gene information from a probe set (probesetlookup), and probe set values from cel and cdf information (probesetvalues). show probe set information from netaffx (probesetlink) and plot probe set values (probesetplot). the toolbox accesses statistical routi

34、nes to perform cluster analysis and to visualize the results, and you can view your data through statistical visualizations such as dendrograms, classification, and regression trees.  蛋白质分析实验指导实验一:进入pfam数据库的主页:http:/pfam.sanger.ac.uk/。关于pfam基本信息,请参考我提供的word文档。选择keyword search,输入lipoca

35、lin,得到结果如下:为了研究的方便,我们没有选择lipocalin family,而是采用pf08212为例进行讲解,请同学们按照同样的流程以pf00061为例重新做一次。打开pf08212,得到如下内容:从左侧可以看到该项目有summary、domain organization等几项组成。请根据网页说明,弄清分别代表什么含义,并弄清上方方框内各个数字的含义,比如“4 architecture”代表什么。然后打开alignments 并选择view:得到种子序列的多重比对形式:这里的结果显示gxw模式非常保守。在applet窗口中查看序列比对并进行分析和保存(calcu

36、lat)这个applet还能显示比对家族的主成分分析结果:这里,根据一种距离标度将多序列比对中的每一个蛋白质表示为空间中的一个点,因此很容易鉴别不属于同一类的蛋白质。可以用鼠标控制坐标轴的旋转。很明显有两个载脂蛋白离群很远,选定任一蛋白,在jalview中的多重比对中的相应序列会高亮显示。类似的信息也可以用树的形式子在applet中表示出来:可以看出,最上面有两个序列与其他序列是分离的。三个applet窗口是相联系的,同样的颜色可以分别在三个applet窗口中表示同一条序列,比如下图:两条绿色的蛋白质离其他序列最远,在平均距离树中也是绿色,同时多重比对中的绿色显示了这两个蛋白质的序列信息。请多

37、动手操作,熟悉pfam数据库的这些功能和其他信息。 实验二:打开第二张图左侧的structures,得到下图:可以看到,大部分物种的蛋白质都对应一个pdb id,这意味着该结构域或蛋白质在pdb数据库具有结构信息。为了进一步了解结构域、蛋白质结构信息以及与蛋白质序列之间的联系,大家需要了解一下pdb数据库。关于蛋白质结构和蛋白质组学的相关内容请参看我提供的word文档。      打开/pdb/home/home.do 进入pdb。pdb获取码由一个数字和3个字母组成,同时pdb

38、也支持关键词搜索。搜索牛增味剂结合蛋白(bovine odorant binding protein)或获取码1pbo,请观察返回的页面主要包括哪些信息:注意网页下部有,pfam数据库和gene ontology的信息:pdb数据库在结构生物学中占有中心地位,在ncbi中也可以获得蛋白质结构数据,即可以在ncbi中访问pdb记录。打开/sites/entrez?db=structure:通过关键词或pdb获取码获得增味剂结合蛋白1pbo,点击domains中的3ddomains可以得到同一个蛋白质不同链的记录,而点击1pbo则显示mmdb中关

39、于这个蛋白质的记录:下载cn3d,并点击structure view in cn3d下载视图信息,然后用cn3d打开。会打开两个窗口,一个是cn3d viewer,一个是oned-viewer:cn3d viewer可以用其中格式来显示氨基酸序列,同时可以对结构进行旋转。相应的oned-viewer则显示此蛋白质的氨基酸序列。在cn3d viewer和oned-viewer中高亮显示某个或某一组氨基酸,在另一个查看器中的相应部分会自动高亮显示。下面是各种形式的增味剂结合蛋白质:(worms-螺纹状模型, tubes-管状模型, wire-线状模型, ball and stick-球棍模型, s

40、pace fill-填充模型)  在窗口中点击保守模体gxw的序列,蛋白质结构中的相应部分将会高亮显示,除此之外还有很多可视化选项,如显示结合位点的配体分子图像。请同学们多多发挥“主观能动性”,去探索这个软件,并通过它认识蛋白质组成。回到mmdb的“structure summary”页面中找到“related structure”,点击后面的vast,得到: 再点击entire chain得到:这个列表实际上是蛋白质矢量比对搜索工具(vast)返回结果的一部分。除了当前的增味剂结合蛋白外,再在这个列表中选择其他蛋白,比如视黄醇结合蛋白和乳球蛋白,然后点击”vie

41、w 3d alignment”获得视图文件,利用cn3d打开,就可以看到3个蛋白质的结构了,同时相应的多序列比对会显示在二维查看器中。如下图:除了这个,还有其他很多基于网络的结构可视化工具,如:swiss-pdb viewerchimerasmolmicevrml 这些资源,大家如果将来做蛋白质结构研究,可以多了解一下。  计算表观遗传学实验指导实验内容:人类组蛋白修饰数据库(hhmd),网址:实验目的:         学习hhmd的搜索方式  

42、0;      学习hhmd的可视化方式         按照实际需要挖掘组蛋白修饰模式实验方法:         熟悉hhmd的网站结构。         参考网站的帮助页面1/hhmd/help.jsp,利用该数据库提供的五种搜索

43、组蛋白修饰的方式,即组蛋白修饰类型、基因id、功能注释、染色体定位、癌症类型,搜索相应的基因组区域中的组蛋白修饰。         参考网站的帮助页面1/hhmd/help.jsp,利用该数据库提供的三种可视化组蛋白修饰的方式,即染色体图谱、基因id、染色体定位,对相应的基因组区域中的组蛋白修饰进行可视化。作业(5选4):1、  下载1p36.33的h3k9me3和h3k27me3的数据,且组织为淋巴(lymph)。提交的内容为提取数据的步骤(可辅以

44、图说明)、结果截图(如跨越一屏,可用snagit软件等辅助)。及最终的数据行数(可用ultraedit等编辑器数行数)。2、  下载nm_153254的tss上游1k及下游1k范围内的所有chip-seq测定的各组织组蛋白修饰数据。提交的内容为提取数据的步骤(可辅以图说明)及最终的数据行数。3、  对1p36.32的所有淋巴组织(lymph)的数据进行可视化。提交的内容为操作步骤(可辅以图说明)及结果截图。4、  对nm_153254的tss上游1k及下游1k范围内的chip-seq测定的h3k27me3进行可视化。提交的内容为提取数

45、据的步骤(可辅以图说明)及结果截图。5、  对基因组区域:chr1:6300000-6400000的淋巴组织所有组蛋白修饰进行可视化,并在可视化界面中下载数据。提交的内容为操作步骤(可辅以图说明)、结果截图及下载的数据的行数。 作业示例:1、首先通过search下的“search by histone modification”配置搜索选项,如下图所示。点击“submit”,可得下图。点击保存按钮后,可下载相应数据文件:共计3081行。2、首先通过search下的“search by gene id”配置搜索选项,如下图所示。 点击“

46、submit”,可得下图。 点击保存按钮后,可下载相应数据文件:共计212行。 3、首先通过hismodview下的“start by cytogenetic map”,点击1号染色体上的36.32区域(注意任务栏地址),配置搜索选项,如下图所示。点击“submit”,可得下图。 4、首先通过hismodview下的“start by refseq gene id”,配置搜索选项,如下图所示。点击“submit”,可得下图。 5、3、首先通过hismodview下的“start by chromosome loca

47、tion”,配置搜索选项,如下图所示。点击“submit”,可得下图。 点击保存按钮,可下载到组蛋白修饰。经查,有224行数据。生物学网络分析实验指导内容一:gene ontology(go)/关于数据库的介绍,请参考提供的幻灯,其中部分为讲课中的内容。鼓励大家先用十分钟浏览一下数据库的大致资源,然后进行下面的内容。1.amigo是进入这个数据库的基本工具。打开amigo做简单的了解。打开amigo后再点击上方的search,会出现高级搜索选项,了解一下这些选项的内容代表什么。2.上面的内容是针对单个蛋白质或少数几个蛋白质查询的,如

48、果批量处理比如整个基因组的注释信息,需要了解下面的内容。打开go主页右侧中的downloads中的annotations(下图),从中可以看出go是个外部数据库,依靠很多数据库到go的注释。下载sgd数据库对应的酵母物种的go注释:注释信息在annotations文件中,借助readme文本了解annotations注释文件的结构,所有的go注释都采用了类似的结构。这是功能注释的核心文件。注意上图中出现了“iea”,打开/go.evidence.shtml了解各个证据的具体含义,重点是了解iea。在downloads中的annotations

49、的下方,有mapping to go,打开看看是什么含义,可以下载里面对应的pfam domains的信息,了解具体情况: 3.为了能够本地处理go数据库的文件,比如本地查找属于某个功能的所有酵母基因,除了需要下载注释文件,还要下载go的ontology文件,即了解go的构成。go的ontology文件有很多类型,其中我们最了解的莫过于mysql格式。打开downloads中的ontology,寻找下图:打开godatabase archives,寻找并下载其中的文件名类似“go_yyyymm-termdb.tables.tar.gz”的文件。这个文件可以帮助你建

50、立本地数据库(下图)。本地化数据库实验课上不要求实现,我们的目的是了解其中的两个文件,这对于理解go至关重要,一个是term,一个是graph_path,请下载后打开观看详情。表graph_path中的中间两列使用数字表示的,每一个数字对应term表中的第一列,因此对应的是一个go term,或ontology树状图中的一个节点。graph_path描述了任意两个存在一条路径的节点之间的关系,第四列表示第三列节点到第二列节点之间的距离。试想一下,怎么利用sql语句和这两个文件实现广义的注释?比如,一个蛋白质注释到了叶绿体膜,它同时也具有叶绿体的功能,因此,怎么利用这两个文件确定一个蛋白质注释的

51、所有功能呢?这是一个数学中的传递闭包的概念,请参看go的帮助/go.database.shtml中的“traversing graphs”了解具体情况。方便的话可以再了解一下“term2term”这个表格的含义。因为所有的注释都只提供目前已知的最详细的功能,而通过网页来进行的研究又受到网速和网页服务的限制,所以为了快速和批量的处理功能注释,了解以上的几个ontology文件是必要的。 内容二、互作网络1. 下载数据研究互作网络当然需要了解数据源,我们这次看一下dip(database of interacting prot

52、eins):这个数据库里包含了目前已知最全面的酵母的蛋白质互作网络。注册后下载酵母的互作网络,然后在cytoscape中观察网络的性质。上图为下载数据的列表,这个网页出现的过程相信大家很快就能找到。注意上面的数据分成两类,一类是full、一类是core。请浏览网络找出这两种数据的区别,并思考为什么构建core数据集。2. 在dip上了解数据中每一列代表什么,然后处理数据。把互作数据简化处理成两列,位于同一行的两列表示两个蛋白质互作,然后把自环去掉。即a-a这种类型的互作去除。最好采用uniprotkb,比如用类似“p32561”的格

53、式表示蛋白质。这是为什么呢? 打开go主页右侧中的downloads中的annotations,找到位于网页最下方的下图:打开后下载酵母的gp2protein文件,并对比sgd到go的注释文件。然后你会发现,使用uniprotkb可以更方便寻找蛋白质的功能注释。为了处理的数据量考虑,请选择core文件进行简化处理。3. 进一步的分析之前,我们先对cytoscape进行处理。首先,安装插件,把bingo.jar和networkanalyzer.zip的文件解压缩到cytoscape的安装目录plugins下。利用help文件熟悉bingo.jar和networkanalyze

54、r两个插件:bingo:http:/www.psb.ugent.be/cbd/papers/bingo/networkanalyzer:networkanalyzer-2.6.1-help.zip(见附件)这两个文件在我提供的附件里都有,如果版本跟你的不兼容,请自行到cytoscape的网站下载对应文件并安装。把处理后的数据输入cytoscape中并显示。如果不会处理和简化数据,请打开附件中提供的“yeast20071202.txt”,该文件为dip以前提供的文件,格式非常标准,挑选第三列和第六列就达到了简化的目的。这个文件以orf表示蛋白质,打开sgd到go的注释文件,就可以明白orf也可以

55、直接进行功能注释。上图是利用orf表示的蛋白质互作在cytoscape中显示的局部。利用插件中的network analysis可以对蛋白质网络进行性质分析。在help文件的帮助下,通过这个插件了解蛋白质网络的各个基本性质。同样,还可以进行网络的功能富集分析,比如打开:然后选择你感兴趣的节点进行分析,比如下面的高亮的节点:下表反应的是高亮的这些节点显著富集的go中的生物学过程(也可以选择其他分支或都选择):选择一个功能后,属于这个功能的网络中的节点就会显示出来。比如选择上表中的第二个功能后,网络显示:这些功能在go中的组织关系也会显示出来:节点的颜色表示功能富集的显著性。好了,关于cytosc

56、ape我们就说到这里,我没有对细节做太多介绍。因为听说你们学过cytoscape,那么理论上对细节可能比我掌握的更好,有欠缺的可以到课下在做补充。有时间的话还可以看看下面两个内容。4.遗传互作。biogrid: /从这个数据库下载遗传互作的数据通过同样的方式,也可以对遗传互作数据做分析。5. 下载致死性数据:/group/yeast_deletion_project/deletions3.html 利用cytoscape这个可视化软件,我们可以做很多事情。

57、比如,把遗传互做中的hub节点以其他醒目颜色在物理互作网络中显示出来,观看它们的联系;把致死基因找出来,在物理互作中显示出来,观看它们的联系。  序列比对与blast实验指导进入ncbi网站:/ 实验一:腔棘鱼类latimeria chalumnae被称为“活化石”。人们很早就认为它们灭绝于至少9000万年以前,现在在海洋中发现了几个标本。令人惊讶的是,对线粒体序列的分析表明腔棘鱼类比鲱鱼更接近与人类。在人类、腔棘鱼类和鲱鱼的线粒体中找一些dna序列,并得到它们的accession number,然后执

58、行双序列比对,看看结果是否如此。提示:1.利用entrez搜索物种的线粒体,比如鲱鱼可选择genome然后搜索 clapea harengus mitochondrion:2. 进入下面的界面后找出一段dna序列以做比对分析:3.由ncbi主页进入blast(点击blast):然后选择blastn:点击align two or more sequences:最后界面为:4.可以输入整个线粒体的基因组编号,比如clupea harengus mitochondrion 为nc_009577(如第二步图中所示),然后利用输入框右

59、侧的范围限制你要比对的dna序列。也可以直接输入从第二步中找到的某个基因的编号。当然,这里有两个输入框,分别输入人类线粒体编号和clupea harengus的线粒体编号才能进行比较。试着看看,腔棘鱼类的线粒体序列是不是并不比鲱鱼关系更远。选择线粒体中的一个蛋白质进行比较,看看有什么分别。是不是蛋白质序列差异更小,效果不太明显。做完上述工作之后,你已经对资源有了基本的了解,下面可以做个更有意思的事情(看时间选做,它们的序列可能不太容易找到):非洲的白氏斑马已经灭绝,这是一种既像马又像斑马的动物。在1972年,人们拍到了一张白氏斑马的照片(不是下面这张)。从博物馆的白氏斑马的标本里人们

60、得到了它的线粒体的dna并进行了测序。将白氏斑马(equus quagga boehmi)、马(equuscaballus)和斑马(equus burchelli)的线粒体dna进行比对,看看白氏斑马与谁更为接近? 实验二、利用人类rbp蛋白质为例子了解psi-blast和blastp的流程,该蛋白质编号为np_006735。看看第一次的psi-blast的循环所返回的结果和blastp是不是相同。注意每次blast的结果都可以保存,其中psi-blast循环所产生的pssm矩阵也可以保存。了解基本流程后,可以做下面实验:寄生虫plasmodium

61、60;vivax有一个多基因家族vir为其所特有。这些基因有6001000个拷贝,他们可能会通过抗原变异导致慢性感染。选择vir1在非冗余数据库中blastp搜索,然后用同样的输入进行psi-blast搜索。a、 在最初的搜索中,大约有多少个蛋白质的e值小于0.002,多少大于0.002?b、 psi-blast搜索第一轮和第二轮循环之间增加的最好的新序列的分值是多少? 实验三、以人类视黄醇结合蛋白为例学习phi-blast搜索。请选择phi-blast,输入np_006735进行搜索,第一次先不要输入phi模式。然后再做第二次phi-blast搜索,这次在输入框

62、中加入下列模式:gxwyfeaivlm。仔细观擦两次返回的结果有什么不同。phi-blast的返回结果能不能作为psi-blast的输入?这样做有什么好处?    尝试去prosite数据库中寻找一个感兴趣的家族,找出这个家族的信号序列,然后进行phi-blast和psi-blast搜索,看看能不能找到这个家族的新的成员。 实验四、1. 创造一个人工蛋白质序列,包含两个不同的结构域。将这个联合序列进行blast搜索和psi-blast搜索。自然界存在同时含有你选择的两个结构域的蛋白质吗? psi-blast能够在搜索多结构域

63、蛋白质时,表现如何?2. 挑选一个多结构域蛋白质,如hiv-1 pol(np_057849),利用它来做blast和利用它的某一个结构域做blast有什么不同?psi-blast搜索中又有什么不同?  序列信息资源实验指导第一部分:课堂知识复习形式:题目问答,请同学单独回答以下问题,并陈述答题理由。1  判断对错:两条序列的同源程度为60%。2  判断对错:两条序列的相似性很高,所以它们一定是同源序列。3  计算下面两条序列的海明距离:agcaaacacactaacataagcacaca4

64、60; 通过字符编辑操作将序列s转换成ts:ag-cat:acac-5  分析两条序列的关系时,()方法可以通过观察矩阵对角线迅速发现可能的序列比对。a dot-plot  b pairwise-alignment  c blast  d fasta  e score matrix6  下列哪些是核酸序列数据库()。a genbank  b pdb  c entrez  d embl-bank  e ddbj7  下列哪些是蛋白质序列数据库()。a pir  b

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论