简化你数据约减与分类技术_第1页
简化你数据约减与分类技术_第2页
简化你数据约减与分类技术_第3页
简化你数据约减与分类技术_第4页
简化你数据约减与分类技术_第5页
免费预览已结束,剩余93页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

现实中的一些多元数据问一批汽车的样本数据,既有以“千米/每小时”度量的最大速度特征,也有“英里 在或知识的文本分类中,有两个词项为“learn”和“study”,在传统的向量空间 统计先是思维方式,而后才是数学高维生物数Caseone:人的癌组织 分子生物学中,这种样本数远小于变量数的高维生物数据研究是很普遍的5统计先是思维方式,而后才是数学简单ReduceBig大数据本分析责任团

提炼主化繁为6统计先是思维方式,而后才是数学7数据约简——主成分分 8统计先是思维方式,而后才是数学数据约简——主成分分9统计先是思维方式,而后才是数学PCA的计算过Principal 假设我们得到的2统计先是思维方式,而后才是数学PCA的计算过Step1中心化统计先是思维方式,而后才是数学Step2求协方差矩

PCA的计算过对角线上分别是x和0表示和统计先是思维方式,而后才是数学PCA的计算过Step3求协方差矩阵的特征值与特征上面是两个特征值,下面是对应的特征向量,特征值0.0490833989对应征向量为,这里的特征向量都统计先是思维方式,而后才是数学Step4选取主成

PCA的计算过将特征值按照从大到小的顺序排序,选择其中最大的k个,然后将其对应k个特征向量分别作为这里特征值只有两个,我们选择其中最大的那个,这里是1.28402771应的特征向量统计先是思维方式,而后才是数学Step5求数据的主成分

PCA的计算过得到结果统计先是思维方式,而后才是数学PCA的计算过图示PCA计算过对称的,因此其特征向量正统计先是思维方式,而后才是数学PCA的计算过统计先是思维方式,而后才是数学PCA的计算过归纳说消除(可选有没有觉得很神奇,为什么求协方差的特征向量就是最理想的k统计先是思维方式,而后才是数学PCA的图三维数据的统计先是思维方式,而后才是数学PCA的图统计先是思维方式,而后才是数学PCA的图统计先是思维方式,而后才是数学Scores

PCA的图统计先是思维方式,而后才是数学PCA原理与解三种解释最大方差最小平坐标轴统计先是思维方式,而后才是数学PCA原理与解最大方差统计先是思维方式,而后才是数学PCA原理与解(前处理的过程实质是将原点移到样本点的中心点)统计先是思维方式,而后才是数学PCA原理与解最小平方误差理最小二统计先是思维方式,而后才是数学PCA原理与解坐标轴相关度这时候点 在新的坐标轴周围统计先是思维方式,而后才是数学PCA统PCA统PCA统计先是思PCA的理论意

PCA的意义和应统计先是思维方式,而后才是数学PCA的进一步

PCA的意义和应 统计先是思维方式,而后才是数学PCA的进一步应

PCA的意义和应看起来是成簇的No为此还需要做统计先是思维方式,而后才是数学聚类Canopy预处统计先是思维方式,而后才是数学聚类分析简什么是聚类分旨在理解的聚为了理解和分 旨在实用的聚为了进一步的数据分析、数据处理技术数据压缩、数据汇统计先是思维方式,而后才是数学聚类分析简什么不是聚类分监督式分 如根 的起始字母将学生分成不同的统计先是思维方式,而后才是数学聚类分析简聚类的类)样品聚类(Q型):(动小组)(R型找出彼此独立且有表性的自变而又不丢失大部分信息。在生产活动中不乏有变量聚类衣服号、 围鞋的号码。变量聚类使批量生产成为可能。统计先是思维方式,而后才是数学聚类分析简聚类的系统性聚类:嵌套簇的集划分性聚类:将所有对象划分到 的子集中统计先是思维方式,而后才是数学聚类分析的一般聚类分析的步骤或收集描从数据样本中提取特征或对要素的样本由样本的要素(向量)定义相似性根据相似性度量采用一种算法计算聚类统计先是思维方式,而后才是数学聚类分析的一般数据标为消除 间的不同计量单位对聚类结果的影响,需要过标准化消除量纲的影响。常用标准化总和标准标准差标准化(最常用,简称标准化极大值标准极差标准统计先是思维方式,而后才是数学相似性 点与点距

统计先是思维方式,而后才是数学

离差平均 法相似性 d(q)=[(x ) k当q=1,2,时,得到以下三种Ndij(1)|xik xjk k (2)=[( )2 k dij()max|xikx 1k 统计先是思维方式,而后才是数学相似性2、马氏(Mahalanobis)距d (M)( xj

( xj

1(1

xi)(xkj xj

n1k x

分别为第i号样品和第j号样品各指标的均缺点统计先是思维方式,而后才是数学相似性R型聚类的相似性

Cij(1)

xijxjkN(kN(k 2)(Nij2ikk

(xijx

x (xx) (x (xx) (xx) 22ij

统计先是思维方式,而后才是数学系统性凝聚式(自底向上)层次聚类N()(0) (n),n(n)G(n)G(n)(n)和G(n) 第三步:计算合并后新类别之间的距离,得D(n+1)。计算与其它没发生合并的之间的距离,可采用多种不同的距离计算准则进行计算第四步:返回第二步,重复计算及合并,直到得到满意的分类结(如:达到所需的聚类数目,或D(n)中的最小分量超过给定阈值D等。统计先是思维方式,而后才是数学系统性层次凝聚的代表是AGNES算法,层次统计先是思维方式,而后才是数学系统性统计先是思维方式,而后才是数学K-means聚类方

K-means

划分性基于原型划分,试图发现用户指定个数统计先是思维方式,而后才是数学划分性其他划分性聚类和簇的DBSCAN是一种代表性的基于密度的空间聚类法,应用于带噪音的数明显分离的 基于原型(中心点)的基于图的 基于密度的 概念统计先是思维方式,而后才是数学CanopyCanopy思想简Canopy通常用于传统聚类方法的预处理,以快速准确找到类中心。其思想Stage1.用最的对象分在同一子集(称为canopy)中,子 又分成部分 独占区 区Stage2.在每个 传统聚类方法其优点在数即作为K。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论