数据分析分析方法_第1页
数据分析分析方法_第2页
数据分析分析方法_第3页
数据分析分析方法_第4页
数据分析分析方法_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多种分析措施逻辑回归分析什么是逻辑回归?Logistic回归与多重线性回归实际上有诸多相似之处,最大的区别就在于它们的因变量不一样,其他的基本都差不多。正是由于如此,这两种回归可以归于同一种家族,即广义线性模型(generalizedlinearmodel)。这一家族中的模型形式基本上都差不多,不一样的就是因变量不一样。假如是持续的,就是多重线性回归;假如是二项分布,就是Logistic回归;假如是Poisson分布,就是Poisson回归;假如是负二项分布,就是负二项回归。Logistic回归的因变量可以是二分类的,也可以是多分类的,不过二分类的更为常用,也愈加轻易解释。因此实际中最常用的就是二分类的Logistic回归。Logistic回归的重要用途:寻找危险原因:寻找某一疾病的危险原因等;预测:根据模型,预测在不一样的自变量状况下,发生某病或某种状况的概率有多大;鉴别:实际上跟预测有些类似,也是根据模型,判断某人属于某病或属于某种状况的概率有多大,也就是看一下这个人有多大的也许性是属于某病。Logistic回归重要在流行病学中应用较多,比较常用的情形是探索某疾病的危险原因,根据危险原因预测某疾病发生的概率,等等。例如,想探讨胃癌发生的危险原因,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群肯定有不一样的体征和生活方式等。这里的因变量就是与否胃癌,即“是”或“否”,自变量就可以包括诸多了,例如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是持续的,也可以是分类的。LogisticRegression的详细过程,包括:选用预测函数,求解Cost函数和J(θ),梯度下降法求J(θ)的最小值,以及递归下降过程的向量化(vectorization)。基本原理LogisticRegression和LinearRegression的原理是相似的,按照我自己的理解,可以简朴的描述为这样的过程:(1)找一种合适的预测函数(AndrewNg的公开课中称为hypothesis(假设)),一般表达为h函数,该函数就是我们需要找的分类函数,它用来预测输入数据的判断成果。这个过程时非常关键的,需要对数据有一定的理解或分析,懂得或者猜测预测函数的“大概”形式,例如是线性函数还是非线性函数。(2)构造一种Cost函数(损失函数),该函数表达预测的输出(h)与训练数据类别(y)之间的偏差,可以是两者之间的差(h-y)或者是其他的形式。综合考虑所有训练数据的“损失”,将Cost求和或者求平均,记为J(θ)函数,表达所有训练数据预测值与实际类别的偏差。(3)显然,J(θ)函数的值越小表达预测函数越精确(即h函数越精确),因此这一步需要做的是找到J(θ)函数的最小值。找函数的最小值有不一样的措施,LogisticRegression实现时有的是梯度下降法(GradientDescent)。详细过程(1)构造预测函数Logistic回归虽然名字里带“回归”,不过它实际上是一种分类措施,重要用于两分类问题(即输出只有两种,分别代表两个类别),因此运用了Logistic函数(或称为Sigmoid函数),函数形式为:Sigmoid函数是一种取值在0和1之间的S型曲线,如下图所示:

下面左图是一种线性的决策边界,右图是非线性的决策边界。对于线性边界的状况,边界形式如下:构造预测函数为:函数的值有特殊的含义,它表到达果取1的概率,因此对于输入x分类成果为类别1和类别0的概率分别为:(2)构造Cost函数Cost函数和J函数如下,它们是基于最大似然估计推导得到的。(3)梯度下降法求J(θ)的最小值求J(θ)的最小值可以使用梯度下降法,根据梯度下降法可得θ的更新过程:

实际上,采用梯度上升法和梯度下降法是完全同样的,这也是《机器学习实战》中采用梯度上升法的原因。(4)梯度下降过程向量化《机器学习实战》中给出的实现代码确是实现了vectorization的,图所示代码的32行中weights(也就是θ)的更新只用了一行代码,直接通过矩阵或者向量计算更新,没有用for循环,阐明确实实现了vectorization。约定训练数据的矩阵形式如下,x的每一行为一条训练样本,而每一列为不一样的特称取值:约定待求的参数θ的矩阵形式为:

θ更新过程可以改为:综上所述,Vectorization后θ更新的环节如下:(1)求;(2)求;(3)求

。图中是《机器学习实战》中给出的部分实现代码。sigmoid函数就是前文中的g(z)函数,参数inX可以是向量,由于程序中使用了\o"Python知识库"Python的numpy。gradAscent函数是梯度上升的实现函数,参数dataMatin和classLabels为训练数据,23和24行对训练数据做了处理,转换成numpy的矩阵类型,同步将横向量的classlabels转换成列向量labelMat,此时的dataMatrix和labelMat就是(18)式中的x和y。alpha为学习步长,maxCycles为迭代次数。weights为n维(等于x的列数)列向量,就是(19)式中的θ。29行的for循环将更新θ的过程迭代maxCycles次,每循环一次更新一次。对比3.4节最终总结的向量化的θ更新环节,30行相称于求了A=x.θ和g(A),31行相称于求了E=g(A)-y,32行相称于求θ:=θ-α.x'.E。因此这三行代码实际上与向量化的θ更新环节是完全一致的。决策树从信息论知识中我们直到,期望信息越小,信息增益越大,从而纯度越高。因此ID3算法的关键思想就是以信息增益度量属性选择,选择分裂后信息增益最大的属性进行分裂。时间序列分析时间序列分析是根据系统观测得到的时间序列数据,通过曲线拟合和参数估计来建立数学模型的理论和措施。它一般采用曲线拟合和参数估计措施(如非线性最小二乘法)进行。时间序列分析常用在国民经济宏观控制、区域综合发展规划、企业经营管理、市场潜量预测、气象预报、水文预报、地震前兆预报、农作物病虫灾害预报、环境污染控制、生态平衡、天文学和海洋学等方面。种类(1)ARMA模型ARMA模型的全称是自回归移动平均(autoregressionmovingaverage)模型,它是目前最常用的拟合平稳序列的模型,它又可细分为AR模型(autoregressionmodel自回归模型)、MA模型(movingaveragemodel移动平均模型)和ARMA模型(autoregressionmovingaveragemodel自回归移动平均模型)三大类。一般用ARMA模型拟合时间序列,预测该时间序列未来值。限制条件条件一:这个限制条件保证了模型的最高阶数。条件二:这个限制条件实际上是规定随机干扰序列为零均值白噪声序列。条件三:这个限制条件阐明当期的随机干扰与过去的序列值无关。(2)ARIMA模型ARIMA模型又称自回归求和移动平均模型(自回归积分滑动平均模型),当时间序列自身不是平稳的时候,假如它的增量,即的一次差分,稳定在零点附近,可以将当作是平稳序列。在实际的问题中,所碰到的多数非平稳序列可以通过一次或多次差分后成为平稳时间序列,则可以建立模型:ARIMA(p,d,q),称为差分自回归移动平均模型,AR是自回归,p为自回归项;MA为移动平均,q为移动平均项数,d为时间序列成为平稳时所做的差分次数。所谓ARIMA模型,是指将非平稳时间序列转化为平稳时间序列,然后将因变量仅对它的滞后值以及随机误差项的现值和滞后值进行回归所建立的模型。这阐明任何非平稳序列只要通过合适阶数的差分运算实现差分后平稳,就可以对差分后序列进行ARIMA模型拟合了。AR模型、MA模型、ARMA模型的区别AR模型是建立目前值和历史值之间的联络,MA模型是计算AR部分的误差的合计,ARMA是两者的和。GARCH模型概述自从Engle(1982)提出ARCH模型分析时间序列的异方差性后来,波勒斯列夫T.Bollerslev(1986)又提出了GARCH模型,GARCH模型是一种专门针对金融数据所量体订做的回归模型,除去和一般回归模型相似的之处,GARCH对误差的方差进行了深入的建模。尤其合用于波动性的分析和预测,这样的分析对投资者的决策能起到非常重要的指导性作用,其意义诸多时候超过了对数值自身的分析和预测。LASSO回归分析LASSO由1996年RobertTibshirani初次提出,全称Leastabsoluteshrinkageandselectionoperator(最小化的绝对收缩和选择算子)。该措施是一种压缩估计。它通过构造一种罚函数得到一种较为精炼的模型,使得它压缩某些系数,同步设定某些系数为零。因此保留了子集收缩的长处,是一种处理具有复共线性数据的有偏估计。LASSO回归的特点是在拟合广义线性模型的同步进行变量筛选(VariableSelection)和复杂度调整(Regularization)。因此,不管目的因变量(dependent/responsevaraible)是持续的(continuous),还是二元或者多元离散的(discrete),都可以用LASSO回归建模然后预测。这里的变量筛选是指不把所有的变量都放入模型中进行拟合,而是有选择的把变量放入模型从而得到更好的性能参数。复杂度调整是指通过一系列参数控制模型的复杂度,从而防止过度拟合(Overfitting)。对于线性模型来说,复杂度与模型的变量数有直接关系,变量数越多,模型复杂度就越高。更多的变量在拟合时往往可以给出一种看似更好的模型,不过同步也面临过度拟合的危险。此时假如用全新的数据去验证模型(Validation),一般效果很差。一般来说,变量数不小于数据点数量诸多,或者某一种离散变量有太多独特值时,均有也许过度拟合。高维模型,可以用来参数估计的同步做特性选择。(1)有关分析和回归分析。有关分析重要分析变量之间联络的亲密程度;回归分析重要基于观测数据与建立变量之间合适的依赖关系。有关分析与回归分析均反应的是数据变量之间的有价值的关联或有关联络,因此两者又可统称为关联分析。(2)时间序列分析。时间序列分析与关联分析相似,其目的也是为了挖掘数据之间的内在联络,但不一样之处在于时间序列分析侧重于数据在时间先后上的因果关系,这点与关联分析中的平行关系分析有所不一样。(3)分类与预测分析。分类与预测用于提取描述重要数据类的模型,并运用该模型判断分类新的观测值或者预测未来的数据趋势。(4)聚类分析。聚类分析就是将数据对象按照一定的特性构成多种类或者簇,在同一种簇的对象之间有较高的相似度,而不一样的簇之间差异则要大诸多。在过程上看,聚类分析一定程度上是分类与预测的逆过程。1)子集选择,这是老式的措施,包括逐渐回归和最优子集法等,对也许的部分子集拟合线性模型,运用鉴别准则(如AIC,BIC,Cp,调整R2等)决定最优的模型。2)收缩措施(shrinkagemethod),收缩措施又称为正则化(regularization)。重要是岭回归(ridgeregression)和LASSO回归。通过对最小二乘估计加入罚约束,使某些系数的估计为0。(岭回归:消除共线性;模的平方处理;LASSO回归:压缩变量,起降维作用;模处理)。(3)维数缩减,主成分回归(PCR)和偏最小二乘回归(PLS)的措施。把p个预测变量投影到m维空间(m<p),运用投影得到的不有关的组合建立线性模型。全概率公式与贝叶斯公式全概率公式P贝叶斯公式P机器学习降维措施概括维度,其目的是用来进行特性选择和特性提取,注意特性选择和特性提取这两者的不一样之处:特性选择:选择重要特性子集,删除其他特性。特性提取:由原始特性形成较少的新特性。降维的作用:减少时间复杂度和空间复杂度节省了提取不必要特性的开销去掉数据集中夹杂的噪声项较简朴的模型在小数据集上有更强的鲁棒性当数据能有较少的特性进行解释,我们可以更好的解释数据,使得我们可以提取知识。实现数据可视化特性降维措施包括:LASSO,主成分分析PCA(尚有基于核措施的主成分分析),小波分析,线性鉴别式分析LDA,奇异值分解SVD,拉普拉斯特性映射,深度学习稀疏自编码SparseAutoEncoder,局部线性嵌入LLE,等距映射Isomap,因子分析,多维标度法(MultidimensionalScaling)(MDS)。1.LASSO通过参数缩减到达降维的目的。LASSO(Leastabsoluteshrinkageandselectionoperator,Tibshirani(1996))

(最小化的绝对收缩和选择算子)该措施是一种压缩估计,通过构造一种罚函数得到一种较为精炼的模型,使得压缩某些系数,同步设定某些系数为零。因此保留了子集收缩的长处,是一种处理具有复共线性数据的有偏估计。Lasso的基本思想是在回归系数的绝对值之和不不小于一种常数的约束条件下,使残差平方和最小化,从而可以产生某些严格等于0的回归系数,得到可以解释的模型。2.主成分分析PCAPCA(PrincipalComponentAnalysis)是一种常用的数据分析措施。PCA通过线性变换将原始数据变换为一组各维度线性无关的表达,可用于提取数据的重要特性分量,常用于高维数据的降维。

设有m条n维数据。1)将原始数据按列构成n行m列矩阵X

2)将X的每一行(代表一种属性字段)进行零均值化,即减去这一行的均值

3)求出协方差矩阵C=\frac{1}{m}XX^\mathsf{T}

4)求出协方差矩阵的特性值及对应的特性向量

5)将特性向量按对应特性值大小从上到下按行排列成矩阵,取前k行构成矩阵P

6)Y=PX即为降维到k维后的数据3.小波分析小波分析有某些变换的操作减少其他干扰可以看做是降维。4.线性鉴别分析LDA线性鉴别式分析(LinearDiscriminantAnalysis),简称为LDA。也称为Fisher线性鉴别(FisherLinearDiscriminant,FLD),是模式识别的经典算法,在1996年由Belhumeur引入模式识别和人工智能领域。基本思想是将高维的模式样本投影到最佳鉴别矢量空间,以到达抽取分类信息和压缩特性空间维数的效果,投影后保证模式样本在新的子空间有最大的类间距离和最小的类内距离,即模式在该空间中有最佳的可分离性。LDA与前面简介过的PCA都是常用的降维技术。PCA重要是从特性的协方差角度,去找到比很好的投影方式。LDA更多的是考虑了标注,即但愿投影后不一样类别之间数据点的距离更大,同一类别的数据点更紧凑。5.拉普拉斯特性映射拉普拉斯特性映射将处在流形上的数据,在尽量保留原数据间相似度的状况下,映射到低维下表达。6.深度学习SparseAutoEncoder稀疏自编码SparseAutoEncoder就是用少于输入层神经元数量的隐含层神经元去学习表征输入层的特性,相称于把输入层的特性压缩了,因此是特性降维。7.矩阵奇异值分解SVD在PCA算法中,用到了SVD,类似PCA,可以当作一类。8.LLE局部线性嵌入Locallylinearembedding(LLE)是一种非线性降维算法,它可以使降维后的数据很好地保持原有流形构造。LLE可以说是流形学习措施最经典的工作之一。诸多后续的流形学习、降维措施都与LLE有亲密联络。9.Isomap等距映射Isomap是一种非迭代的全局优化算法,通过一种原本试用于欧式空间的算法MDS,到达降维的目的。10.因子分析的基本思想:根据有关性的大小把原始变量分组,使得同组内的变量有关性高,不一样组的变量有关性低。11.多维标度法(MultidimensionalScaling)(MDS)MDS是一种降维措施,它在降维时使得降维之后的两点间的欧氏距离尽量保持不变(用欧氏距离矩阵来表达高维向量的两两之间的相似度,寻找同样数量的映射维度的向量,使得映射维度下两两间距离约等于原高维下两两间距离,变为了优化问题)。pearson有关系数和spearman有关系数Pearson有关系数是用来衡量两个数据集合与否在一条线上面,它用来衡量定距变量间的线性关系。spearman有关系数用来描述两个变量之间的关联程度与方向。因子分析和主成分分析的区别和联络(1)因子分析把展示在我们面前的诸多变量当作由对每一种变量均有作用的,某些公共因子和某些仅对某一种变量有作用的特殊因子线性组合而成。因此,我们的目的就是要从数据中探查能对变量起解释作用的公共因子和特殊因子,以及公共因子和特殊因子组合系数。主成分分析则简朴某些,它只是从空间生成的角度寻找能解释诸多变量变异绝大部分的几组彼此不有关的新变量(主成分)。(2)因子分析中是把变量表到达各因子的线性组合,而主成分分析中则是把主成分表到达各变量的线性组合。(3)主成分分析中不需要有假设,因子分析则需要某些假设。因子分析的假设包括:各个公共因子之间不有关,特殊因子之间不有关,公共因子和特殊因子之间不有关。(4)求解措施不一样。求解主成分的措施:从协方差阵出发(协方差阵已知),从有关阵出发(有关阵R已知),采用的措施只有主成分法。求解因子载荷的措施:主成分法,主轴因子法,极大似然法,最小二乘法,a因子提取法。(5)主成分分析中,当给定的协方差矩阵或者有关矩阵的特性值唯一时,主成分一般是固定的;而因子分析中因子不是固定的,可以旋转得到不一样的因子。(6)因子数量和主成分的数量不一样。在因子分析中,因子个数需要分析者指定(SPSS根据一定的条件自动设定,只要是特性值不小于1的因子进入分析),指定的因子数量不一样而成果不一样。在主成分分析中,成分的数量是一定的,一般有几种变量就有几种主成分。(7)和主成分分析相比,由于因子分析可以使用旋转技术协助解释因子,在解释方面愈加有优势。而假如想把既有的变量变成少数几种新的变量(新的变量几乎带有本来所有变量的信息)来进入后续的分析,则可以使用主成分分析。当然,这种状况也可以使用因子得分做到,因此这种辨别不是绝对的。(8)原理不一样。主成分分析基本原理:运用降维(线性变换)的思想,在损失很少信息的前提下把多种指标转化为几种不有关的综合指标(主成分),即每个主成分都是原始变量的线性组合,且各个主成分之间互不有关,使得主成分比原始变量具有某些更优越的性能(主成分必须保留原始变量90%以上的信息),从而到达简化系统构造,抓住问题实质的目的。因子分析基本原理:运用降维的思想,由研究原始变量有关矩阵内部的依赖关系出发,把某些具有错综复杂关系的变量表到达少数的公共因子和仅对某一种变量有作用的特殊因子线性组合而成。就是要从数据中提取对变量起解释作用的少数公共因子(因子分析是主成分的推广,相对于主成分分析,更倾向于描述原始变量之间的有关关系)(9)解释重点不一样。主成分分析:重点在于解释个变量的总方差;因子分析:则把重点放在解释各变量之间的协方差。因子分析和对应分析的区别和联络(1)在因子分析中,因子个数需要分析者指定(SPSS根据一定的条件自动设定,只要是特性值不小于1的因子进入分析),指定的因子数量不一样而成果不一样。对应分析也类似,维数由研究者自定。(2)因子分析,把重点放在解释各变量之间的协方差。对应分析则是揭示行变量类间与列变量类间的联络。(3)因子分析需要假设,其包括:各个公共因子之间不有关,特殊因子之间不有关,公共因子和特殊因子之间不有关。而对应分析不能用于有关关系的假设检查。(4)因子分析把展示在我们面前的诸多变量当作由对每一种变量均有作用的,某些公共因子和某些仅对某一种变量有作用的特殊因子线性组合而成。而对应分析的成果会受极端值的影响。(5)对于对应分析,定性变量划分的类别越多,这种措施的优越性越明显。(6)a.主成分分析基本原理:运用降维(线性变换)的思想,在损失很少信息的前提下把多种指标转化为几种不有关的综合指标(主成分),即每个主成分都是原始变量的线性组合,且各个主成分之间互不有关,使得主成分比原始变量具有某些更优越的性能(主成分必须保留原始变量90%以上的信息),从而到达简化系统构造,抓住问题实质的目的。b.对应分析的基本思想是将一种联列表的行和列中各元素的比例构造以点的形式在较低维的空间中表达出来。它最大特点是能把众多的样品和众多的变量同步作到同一张图解上,将样品的大类及其属性在图上直观而又明了地表达出来,具有直观性。此外,它还省去了因子选择和因子轴旋转等复杂的数学运算及中间过程,可以从因子载荷图上对样品进行直观的分类,并且可以指示分类的重要参数(主因子)以及分类的根据,是一种直观、简朴、以便的多元记录措施。朴素贝叶斯分类整个朴素贝叶斯分类分为三个阶段:第一阶段——准备工作阶段,这个阶段的任务是为朴素贝叶斯分类做必要的准备,重要工作是根据详细状况确定特性属性,并对每个特性属性进行合适划分,然后由人工对一部分待分类项进行分类,形成训练样本集合。这一阶段的输入是所有待分类数据,输出是特性属性和训练样本。这一阶段是整个朴素贝叶斯分类中唯一需要人工完毕的阶段,其质量对整个过程将有重要影响,分类器的质量很大程度上由特性属性、特性属性划分及训练样本质量决定。第二阶段——分类器训练阶段,这个阶段的任务就是生成分类器,重要工作是计算每个类别在训练样本中的出现频率及每个特性属性划分对每个类别的条件概率估计,并将成果记录。其输入是特性属性和训练样本,输出是分类器。这一阶段是机械性阶段,根据前面讨论的公式可以由程序自动计算完毕。第三阶段——应用阶段。这个阶段的任务是使用分类器看待分类项进行分类,其输入是分类器和待分类项,输出是待分类项与类别的映射关系。这一阶段也是机械性阶段,由程序完毕。当特性属性充足多时,朴素贝叶斯分类对个别属性的抗干扰性。分类器的对的率指分类器对的分类的项目占所有被分类项目的比率。一般使用回归测试来评估分类器的精确率,最简朴的措施是用构造完毕的分类器对训练数据进行分类,然后根据成果给出对的率评估。但这不是一种好措施,由于使用训练数据作为检测数据有也许由于过度拟合而导致成果过于乐观,因此一种更好的措施是在构造初期将训练数据一分为二,用一部分构造分类器,然后用另一部分检测分类器的精确率。朴素贝叶斯分类和一般的贝叶斯分类的区别? 朴素贝叶斯(naiveBayes)法是是基于贝叶斯定理和特性条件独立假设的分类措施,对于给定的训练数据集,首先基于特性条件独立假设学习输入/输出的联合分布概率;然后基于此模型,对给定的输入x,再运用贝叶斯定理求出其后验概率最大的输出y。生存分析生存分析(SurvivalAnalysis)是指根据试验或调查得到的数据对生物或人的生存时间进行分析和推断,硕士存时间和结局与众多影响原因间关系及其程度大小的措施,也称生存率分析或存活率分析。生存分析重要用于对波及一定期间发生和持续长度的时间数据的分析,目前在医学、社会科学、金融学、人口记录、保险等应用广泛。生存函数——寿命表研究两个事件间的时间分布如:雇用时长、白血病患者生存时间等合用:大样本生存函数——Kaplan-Meier分析Kaplan-Meier分析,又称为极限估计、PL法或最大似然估计法。合用:小样本简要扼要地讲,生存分析的目的无外乎六个字:描述、比较、关系。1.描述:是指对研究群体生存时间的分布状况进行描述、刻画。类似的,描述特定人群的身高状况时,需要采用均数和原则差来分别衡量数据分布的集中程度和离散程度,在做生存分析时,描述生存时间的分布状况也是十分有必要的和故意义的。不过生存时间的数据资料和身高、体重等常规数据资料不一样样,由于具有“截尾”数据,因此就需要变换思绪来描述此类数据,经典的也是被大家所接受的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论