和单细胞可视化2瑞客_第1页
和单细胞可视化2瑞客_第2页
和单细胞可视化2瑞客_第3页
和单细胞可视化2瑞客_第4页
和单细胞可视化2瑞客_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

PCA和单细胞分析简介易生信(/Training)——最懂你的生信培训,学习生信更容易学习方式提前预习仔细听讲先运行再理解紧跟步伐,跟不上的及时在课堂提出或寻找助教老师解决课后复习,基础知识学习靠背和反复练书读百变,其义自见码敲十遍,不会也难2样本聚类PCA分析主成分分析

(PCA,

principal

component

analysis)是一种数学降维方法,

利用正交变换把一系列可能线性相关的变量转换为一组线性不相关的新变量,也称为主成分,从而利用新变量在更小的维度下展示数据的特征。主成分是原有变量的线性组合,其数目不多于原始变量。组合之后,相当于获得了一批新的观测数据,这些数据的含义不同于原有数据,但包含了之前数据的大部分特征,并且有着较低的维度,便于进一步的分析。在空间上,PCA可以理解为把原始数据投射到一个新的坐标系统,第一主成分为第一坐标轴,它的含义代表了原始数据中多个变量经过某种变换得到的新变量的变化区间;第二成分为第二坐标轴,代表了原始数据中多个变量经过某种变换得到的第二个新变量的变化区间。这样我们把利用原始数据解释样品的差异转变为利用新变量解释样品的差异。

3主成分分析的意义简化运算,降低冗余去除数据噪音,变化幅度小的噪音变化方便实现数据可视化

在表达谱分析中,假如有1个基因,可以在线性层面对样本分类;如果有2个基因,可以在一个平面对样本分类;如果有3个基因,可以在一个立体空间对样本分类;如果有更多的基因,比如说n个,那么每个样品就是n维空间的一个点,则很难在图形上展示样品的分类关系。利用PCA分析,我们可以选取贡献最大的2个或3个主成分作为数据代表用以可视化。这比直接选取三个表达变化最大的基因更能反映样品之间的差异。发现隐性相关变量4PCA实现原理PCA分析不是简单地选取2个或3个变化最大的基因,而是先把原始的变量做一个评估,计算各个变量各自的变异度(方差)和两两变量的相关度(协方差),得到一个协方差矩阵。在这个协方差矩阵中,对角线的值为每一个变量的方差,其它值为每两个变量的协方差。随后对原变量的协方差矩阵对角化处理,即求解其特征值和特征向量。原变量与特征向量的乘积(对原始变量的线性组合)即为新变量(回顾下线性代数中的矩阵乘法);新变量的协方差矩阵为对角协方差矩阵且对角线上的方差由大到小排列;然后从新变量中选择信息最丰富也就是方差最大的的前2个或前3个新变量也就是主成分用以可视化。5/2016/10/PCA/为什么要进行中心化6更详细解释见

/2016/10/PCA/主成分分析类比示例7PCA结果展示8不同预处理对PCA结果的影响不同标准化的本质在于研究者认为是数值的量度本身重要还是数值的变化重要。数值的量度重要则选择原始数据或log转换。数值的变化重要则选择scale。

9PCA结果展示

碎石图,每个主成分的贡献度10PCA结果展示

样品分组加置信区间11PCA结果展示

展示部分变量与主成分的相关性12PCA结果展示

biplot同时展示样品分组和关键基因13PCA绘制的输入和输出14标准化后的OTU丰度表,样品分组信息/ImageGP/index.php/Home/Index/PCAplot.htmltSNE聚类结果t-Distributed

stochastic

neighborembedding

(t-SNE)

analysis

of60,000

single

cells

sampled

frommouse

cell

atlas

data.

Ninety-eightmaincelltypeclustersare

labeled

in

the

t-SNE

map.15Mapping

the

Mouse

Cell

Atlas

by

Microwell-Seqt-SNE展示特定基因表达图谱t-Distributedstochasticneighborembedding(t-SNE)analysisof60,000

single

cells

sampled

frommouse

cell

atlas

data.

Ninety-eightmaincelltypeclustersarelabeledinthet-SNEmap.16Mapping

the

Mouse

Cell

Atlas

by

Microwell-SeqBeta多样性

样品或组间差异Beta多样性是生态学概念,专指不同组或生态位间物种组成的差异在宏基因组领域,常用降维映射散点图展示样品组间的Beta多样性。常用的分析方法有主成分分析

(PCA),主坐标轴分析

(PCoA/MDS)和限制条件的主坐标轴分析

(CCA/RDA)。PCA

PCoA

NMDS

CCA

RDA

LDA

序(ordination)分析。排序的过程就是在一个可视化的低维空间(通常是二维)重新排列这些样品,使得样方之间的距离最大程度地反映出平面散点图内样品间的关系信息。Constrained和Unconstrained区别:分组

vs

样品。

17Beta多样性PcOA分析

用于样品聚类18不同颜色代表不同的取样部位,不同形状代表不同的生长城市。横轴代表第一主坐标轴,可以解释样品总差异的46.3%,纵轴代表第二主坐标轴,可以解释样品差异的11.5%。从图可以看出,横轴上展示的是不同取样部分的差异,纵轴是产地的差异。Edwards,

J.,

et

al.

(2015).

PNASBeta多样性计算Beta多样性表示样品之间的物种差异度,

默认有5种计算方式:bray_curtis,

euclidean,

jaccard,manhatten,

unifrac。在usearch中,beta多样性是差异度量,而不是相似度度量,也就是说数值越大,样品之间差别越大。具

见/usearch/manual/beta_metrics.html。19Beta多样性距离矩阵样式——Bray-Curtis20Beta多样性结果PcoA展示21/ImageGP/index.php/Home/Index/PCoAplot.htmlBeta多样性结果——Constrained

PcoA展示PCA,

PCoA是无监督的聚类分析,不依赖于外部样品分组信息。CPCoA,CCA是有监督的聚类分析,用以解释在给定条件下,各组差

异最大的映射平面。获得的结果,样品之间的分组更明显,但解释时

一定注明,这只解释了原差异的一部分。

左边图以取样部位为限制条件,右

边图以基因型

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论