机器学习-2-线性模型_第1页
机器学习-2-线性模型_第2页
机器学习-2-线性模型_第3页
机器学习-2-线性模型_第4页
机器学习-2-线性模型_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

智能科学与技术系刘冀伟锚索寿命演化模型研究及预测机器学习基础第二章线性模型1目录CONTENT123基本形式线性回归线性判别分析45多分类学习对数几率回归6最大熵模型>>>基本形式2.1邮箱:jqxxbkd@Pass:jqxxbkd20174给定由d个属性描述的对象x=(x1,x2,…,xd)及我们感兴趣的对象输出属性y假设y与x相关,求y与x的关系:即:y=f(x)例:转炉炼钢,已知:铁水x1=23t废钢x2=5t吹氧量x3=235l吹氧时间x4=595s出钢温度T?T=f(x1,x2,x3,x4)

线性模型:5只要求得参数W,b,就可以完成有数据(经验)获得预测模型的工作如何求W,b线性模型:1、成分的组合;2、预测变量与属性变量之间有相关关系;3、线性回归是基本形式,由此可以获得许多其他有用的学习算法。线性模型:>>>线性回归2.27已知-数据集合(D):假设空间(H):求:W和b一、单变量线性回归性能评价-均方误差8由:参数估计-最小二乘法得:其中:9二、多元线性回归此时:为了方便引入符号:均方误差:问题描述:10讨论的情况:存在不存在11三、广义线性模型g:Y→Y’↓↓yy’联系函数>>>对数几率回归2.313线性回归完成的任务是预测,能否使用回归的方法完成分类的任务?问题:已知D={(x1,y1),(x2,y2),…,(xm,ym)},其中求y=f(x);其中f的值域为{01}判别函数模型14事件的几率:事件发生的概率与事件不发生的概率之比。概率模型:求条件分布P(Y|X)取:用极大似然法估计参数W,b。15取如多元回归。对数似然函数为:求解优化问题,得到解:概率模型:梯度下降法、牛顿法等数值算法求解16梯度下降法(gradientdescent):是一种求解无约束优化问题的常用方法,其基本思想是对于最小化问题,沿目标函数下降最快的方向,逐步搜索直到最小值点。问题:f是Rn上具有一阶连续偏导数的函数。当目标函数是凸函数时,梯度下降法的解是全局最优解,一般情况不能保证全局最优。梯度下降法:输入:目标函数f(x),梯度函数g(x),精度ε;输出:f(x)的极小值点x*;(1)取初始值x(0),置k=0;(2)计算f(x(k));(3)计算梯度gk=g(x(k)),当|gk|<

ε时,停止迭代x*=x(k);否则令pk=-g(x(k))求λk使:(4)置x(k+1)=x(k)+

λkpk,计算f(x(k+1))|f(x(k+1))-f(x(k))|<

ε

或|

x(k+1)-x(k)

|<ε

停止迭代,令x*=x(k+1);(5)否则置k=k+1,转(3)17牛顿法:问题:f是Rn上具有二阶连续偏导数的函数。牛顿法:输入:目标函数f(x),梯度函数g(x),汉森矩阵H(x),精度ε;输出:f(x)的极小值点x*;(1)取初始值x(0),置k=0;(2)计算梯度gk=g(x(k));(3)当|gk|<

ε时,停止迭代,近似解x*=x(k);(4)计算Hk=H(x(k)),解方程Hkpk=-gk(5)置x(k+1)=x(k)

+

pk(6)置k=k+1,转(2)18牛顿法:19多项Logistic回归:前面介绍的是二项分类模型,用于二分类问题。我们可以将其推广到用于多分类问题的多项对数几率回归。问题的概率模型为:>>>线性判别分析2.4一、基本思路把X空间各点投影到X空间的一直线上(Z),维数降为一维。若适当选择w的方向,可以使二类分开。下面我们从数学上寻找最好的投影方向,即寻找最好的变换向量w的问题。图中w1方向之所以比w2方向优越,可以归纳出这样一个准则,即向量w的方向选择应能使两类样本投影的均值之差尽可能大些,而使类内样本的离散程度尽可能小。这就是Fisher准则函数的基本思路。Fisher准则的基本原理,就是要找到一个最合适的投影轴,使两类样本在该轴上投影的交迭部分最少,从而使分类效果为最佳。22二、问题的形式化已知-数据集合(D):假设空间(H):H={f(x)=wTx+b}求判别函数:f(x)=wTx+b

(2)问题分解

Step1:确定投影方向Z=wTxStep2:确定判别函数

Z=wTx+b1、数据整理和问题分解

(1)样本集合分类

23(2)样本类内离散度矩阵Si与总类内离散度矩阵Sw

(3)样本类间离散度矩阵Sb:

2、样本在d维特征空间的一些描述量。(1)各类样本均值向量μi

3、在一维Z

空间(1)各类样本均值

(2)样本类内离散度、总类内离散度和类间离散度24这个函数称为Fisher准则函数。应该寻找使分子尽可能大,分母尽可能小的w作为投影向量。3、确定w:评价投影方向w的函数为:得最终表达式:最佳w值的确定实际上就是对Fisher准则函数求取其达极大值时的w*。对于这个问题可以采用拉格朗日乘子算法解决,保持分母为一非零常数c的条件下,求其分子项的极大值。25对拉格朗日函数分别对w求偏导并置为0来求w的解。

令:,定义Lagrange函数:令:这是一个求矩阵的特征值问题。数值R实际上我们关心的只是向量w*的方向,其数值大小对分类器没有影响。因此在忽略了数值因子R/λ后,可得:上式就是使用Fisher准则求最佳法线向量的解。向量w*就是使Fisher准则函数JF(w)达极大值的解,也就是按Fisher准则将d维X空间投影到一维Z空间的最佳投影方向,该向量w*的各分量值是对原d维特征向量求加权和的权值。26最佳投影方向的理解(μ1-μ2)是一向量,显然从两类均值在变换后距离最远这一点看,对与(μ1-μ2)平行的向量投影可使两均值点的距离最远。但是如从使类间分得较开,同时又使类内密集程度较高这样一个综合指标来看,则需根据两类样本的分布离散程度对投影方向作相应的调整,这就体现在对向量按

作一线性变换,从而使Fisher准则函数达到极值点。(1)当维数d与样本数m都很大时,可采用贝叶斯决策规则,获得一种在一维空间的“最优”分类器。(2)当上述条件不满足时,一般可采用以下几种方法确定分界阈值点b:(1)式中只考虑采用均值连线中点作为阈值点,相当于贝叶斯决策中先验概率相等的情况。而(2)

考虑P(ω1)与P(ω2)不等的影响,以减小先验概率不等时的错误率。4、分类器设计-确定b判别函数f(x)=wTx+b。27当b确定之后,则可按以下规则分类:使用Fisher准则方法确定最佳线性分界面的方法是一个著名的方法,尽管提出该方法的时间比较早,仍见有人使用,如人脸识别中用于特征提取。例:设两类样本的类内离散矩阵分别如下,试用Fisher准则求其决策面方程。

解:由于两类样本分布形状是相同的(只是方向不同),因此b应为两类均值的中点决策规则28例.已知两类数据,其先验概率相等,样本分别为:

根据Fisher准则求取最佳投影方向w,并对样本进行分类。解:第一类样本均值第二类均值待分类样本:所以该样本属于第ω1类。>>>多分类学习2.530前面我们在讨论分类问题时大多讨论的是两类问题,但多数实际问题是多类的。即:输出空间:Y={C1,

C2,…,

CN}特征空间:数据集:D={(x1,y1),(x2,y2),…,(xm,ym)}={D1,

D2,

…,DN}解决此问题的方法是拆分,将多分类问题拆分为若干个二分类问题:一、一对一与一对多拆分-(OvO,OvR)OvO:将N类问题分解为N(N-1)/2个二分类问题,训练N(N-1)/2个分类器,使用时,将样本同时提交给所有分类器,然后对N(N-1)/2个分类结果投票产生最终结果;OvR:选择一类作为正类,其余皆为负类,训练N个二分类器,使用时,将样本同时提交给所有分类器,若结果只有一个是正类,则最终结果即为此类,若有多个分类器的结果是正类,最终结果需要其他方法确定。3132二、多对多-(MvM)纠错输出编码(Error-CorrectingOutputCodes,ECOC)为一种多类分解框架,一般将多类分类问题分解为编码、训练、解码三个阶段:1、编码:对N个类做M次划分,每次划分将一部分类划为正类,另一部分划为负类,从而形成一个二分类训练集。这样一共有M个训练集,可以训练出M个分类。一般采用二元码或三元码的方式编码。-11-1111-1-11-1-111-11-1-111-1C1C2C3C4二元ECOC码-11-1-1-1011-100-11-1-11011-11-1-11011-1C1C2C3C4三元ECOC码编码策略:事前编码(predefinedcoding)、基于样本数据编码(datadependedcoding)和基于基分类器编码(baseddichotomizescoding)33-11-1111-1-11-1-111-11-1-111-1C4-1-11-11C1C2C3f1f2f3f4f5测试样本23412.83.442汉明距离欧氏距离2、学习:对M个训练集,训练出M个分类器:f1,

f2,…,

fM。3、解码策略:M个分类器分别对测试样本进行预测,预测结果组成一个预测编码,将预测编码与每个类的编码进行比较,返回距离最小的类作为最终预测结果。汉明距离:从二进制方面来看,就是两个等长字符串的二进制对应bit不相同的位个数。欧氏距离:3435类别不平衡-是指分类任务中不同类别的训练样例数目差别很大的情况。设训练数据集D中,正类样例数m+,反类样例数是m-。正常正类和反类出现的频率应分别为:正类出现的几率:判别阈值一般选择为正类出现的几率:则样例预测为正类此时判别阈值应为:三、类别不平衡问题再缩放策略欠采样-过采样策略>>>最大熵模型2.637一、最大熵原理离散随机变量X的样本空间Ω={ω1,

ω2,…,ωn}概率分布是P(X=ωi)=pi,随机变量X的熵为:其满足不等式:0≤H(X)≤logn;最大熵原理:在满足约束的概率模型中选择熵最大的模型。例:随机变量X(骰子的点数)的样本空间为:

Ω={1,2,3,4,5,6}估计p(X=1)=

p1

,…,p(X=6)=

p6解:1、在没有任何信息的条件下,我们只知道:

p1

+p2

+p3

+p4

+p5

+p6=1

依据最大熵原理应有:p1

=p2

=p3

=p4

=p5

=p6=1/62、假设我们知道p6=1/3

-约束就有:

p1

+p2

+p3

+p4

+p5

=2/3p1

=p2

=p3

=p4

=p5

=2/15;p6=1/33、假设我们知道:p6=1/3

-约束1p1

+p2

+=1/3-约束2就有:

p3

+p4

+p5

=1/3p1

=p2

=1/6;p3

=p4

=p5

=1/9;p6=1/338二、最大熵模型已知-数据集合(D):假设空间(H):H={满足问题约束的所有条件概率分布}求:P(y=ωi|X=x)

i=1,2,┄,k)

约束的描述:特征函数39模型P(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论