版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基于K近邻的支持向量机多模型建模主讲人:刘振主讲人:刘振 15721534 15721534基于K近邻的支持向量机的多模型建模支持向量机多模型建模支持向量机多模型建模支持向量机多模型建模支持向量机多模型建模 支持向量机(Support Vector Machine,SVM)作为一种新兴的基于统计学理论的学习机,相对于神经网络的启发式学习方式和实现中带有很大的经验成分相比,SVM具有更严格的理论和数学基础,可以克服局部最小问题 , 解决小样本学习的泛化能力 , 不过分依赖样本的数量和质量 ,所以它特别适用于解决小样本、非线性、高维数、局部极小点等问题。鉴于化工领域中大部分过程建模数据属于小样本、
2、不适定问题,因此,支持向量机在化工过程建模中得到了广泛的应用。K K近邻分类算法近邻分类算法 K近邻法(KNN,k-Nearest Neighbor)是由 C o v e r 和 Ha r t 于 1968年提出的 ,其核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 kNN方法在类别决策时,只与极少量的相邻样本有关。K K近邻分类算法近邻分类算法实现步骤1. 准备数据,对数据进行预处理2. 选用合适的数据结构存储训练数据和测试元
3、组 3. 设定参数,如k 4. 维护一个大小为k的的按距离由大到小的优先级队列,用于存储最近邻训练元组。随机从训练元组中选取k个元组作为初始的最近邻元组,分别计算测试元组到这k个元组的距离,将训练元组标号和距离存入优先级队列 5. 遍历训练元组集,计算当前训练元组与测试元组的距离,将所得距离L 与优先级队列中的最大距离Lmax 6. 进行比较。若L=Lmax,则舍弃该元组,遍历下一个元组。若L =0,回归估计问题转化为:支持向量机支持向量机优化目标式变为最小化miiiCwJ1221常数C0标准不敏感支持向量回归机miiiCw12*21min0*,. .*iiiiiiiiybxwbxwyts采用
4、对偶原理转化为二次规划问题,建立拉格朗日方程miiiiimiiiiimiiiiimiiiiibxwybxwyCwwl11112*21,支持向量机支持向量机根据Karush-Kuhn-Tucker(KKT)条件可以得出 ,位于不敏感区内的样本点相对应的 i和 i 都等于零 ,外部的点对应有 i =C或 i =C , 而在边界上 , i和 i 均为零 ,因而 i , i ( 0, C ) , 从而有CxwybCxwybiiiiii, 0, 0,*与 i 0和 i 0相对应的样本 x i,即在不灵敏区边界上或外面的样本 , 称为支持向量 。进一步得到 bxxxfiSVii*f ( x )可表示成iS
5、Vsiiiimiiixxw*1支持向量机支持向量机 对于非线性情况对于非线性情况, SVM的基本思路是通过引入核函数(Kernel Function),将输入空间的数据通过非线性映射(x),映射到高维的特征空间(Hilbert空间)中,然后在特征空间中进行线性地处理。设核函数K(x,x)满足 根据核函数的定义,引入核函数K(x,x)就可以实现某一非线性变换后的线性变换,假设非线性模型为 ,xxxxK回归方程为 bxxKbxwxfiSVii* bxwwxf, imiiixw1)(*支持向量机支持向量机SVM的优点: 可以解决小样本情况下的机器学习问题。可以提高泛化性能。可以解决高维问题。可以解决
6、非线性问题。 可以避免神经网络结构选择和局部极小点问题。缺点极其解决方法: (1) SVM算法对大规模训练样本难以实施 其主要改进有SMO、PCGC、CSVM以及SOR算法(2) 用SVM解决多分类问题存在困难 可以通过多个二类支持向量机的组合来解决。主要有一对多组合模式、一对一组合模式和SVM决策树;再就是通过构造多个分类器的组合来解决。主要原理是克服SVM固有的缺点,结合其他算法的优势,解决多类问题的分类精度。如:与粗集理论结合,形成一种优势互补的多类问题的组合分类器。基于基于k k近邻的支持向量机多模型近邻的支持向量机多模型 K近邻算法将样本认为是对应于多维空间中的各个点 ,一个新的样本
7、所属的类别是根据 K个与其最接近的训练样本的分类情况估计得到 。我们这里使用 K近邻算法 ,不是用于确定测试样本所属的类别 ,而是将其作为支持向量机子模型输出结果的组合参数 。由 K近邻算法计算得到测试样本属于各类别的比例系数 , 将该比例系数作为各类别支持向量机子模型的输出权重 , 经加权组合后得到软测量模型的总输出 。基于基于k k近邻的支持向量机多模型近邻的支持向量机多模型设样本集为 其中xi为n维输入,yi为1维输出。liyxiii,.,2 , 1,p具体的算法步骤如下具体的算法步骤如下 :1. 根据主元分析的结果 ,采用简单距离分类方法将所有训练样本数据分为 c 类 ,并对训练样本标
8、记对应类标签 。2. 将测试样本与所有训练样本进行比较 ( 比较指计算测试样本与训练样本之间的距离 ) , 得到最近邻的 K个距离 。 利用欧式距离 但当核函数为高斯核或指数核时, 可更简单地采用距离公式: 21,2,jjjiiijijixxKxxKxxKxxxxD jiTjijijixxxxxxxxd,基于基于k k近邻的支持向量机多模型近邻的支持向量机多模型3. 根据得到的K个距离Dj(j=1,2,K)中各类标签的数目ns,计算测试样本属于各类别的权重系数为 s=1,2,cKnWss其中n1+n2+nj+ns=K 。4. 测试样本经过所有子模型,将上式表示的权重系数作为各子模型输出Yi的组
9、合系数,从而得到最终的测试样本输出SiWYY这种改进方法的优点是考虑了所有训练样本对测试样本的影响 , 最大程度地保留了样本类别信息 ,可以有效地利用支持向量机所有子模型的有效信息。基于基于k k近邻的支持向量机多模型近邻的支持向量机多模型其模型为其模型为输入向量xKNN分类器类别1子模型类别2子模型类别c子模型+YY2Y1YcWcW2W1实例仿真实例仿真 利用此方法对双酚A生产过程中的融化罐苯酚含量进行在线估计。苯酚和丙酮在酸性介质下可生成双酚A,为使丙酮充分转化成BPA,因此必须用过量苯酚参与反应,以减少生成三苯酚(杂质)。丙酮含量比重过高,就会生成大量的副产物如丙酮的缩合物(异丙叉丙酮、
10、双异丙叉丙酮)等。由于苯酚、丙酮的价格较贵,所以BPA生产的经济性很大程度上取决于副产物的数量及其合理利用,所以需要对融化罐苯酚含量进行预估。实例仿真实例仿真将现场采集的数据经数据预处理后得到 245组样本 , 选择 163 组数据作为训练样本 , 82组数据作为测试样本。根据主元分析方法 , 计算输入数据的各个属性对输出数据的影响度 , 按照影响度的大小将属性排序 ,如图所示:对输出数据主元贡献率较大的属性为第三属性和第二属性 , 将所有训练样本按第三属性的均值为界限分为两类 ; 在分好的两类中再以第二属性的均值为界限各分两类 ,即将整个训练样本分为 4类 , 对这 4个类别的数据分别建立
11、SVM子模型 。实例仿真实例仿真利用KNN方法计算测试样本属于各类别的权重 , 取 K =80。 为比较各种不同方法的建模效果 , 文中分别采用单一 SVM模型 、基于 K近邻分类的多模型和文中提出的基于 K近邻的SVM多模型方法进行比较 。 3种模型建立方法得到的测试误差如下表所示 :结论:基于结论:基于 K N K N NN分类方法的支持向量机多模型可以有分类方法的支持向量机多模型可以有效地改进模型性能,对效地改进模型性能,对泛化性能也有一定改善泛化性能也有一定改善 。 参考文献1 王永吉.基于K近邻的支持向量机多模型建模J.江南大学学报,2010,9(1):7-102和文全.基于K近邻的支持向量机分类方法J.计算机仿真,2008,25(11):161-1633张国英.基于粒
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 上半年教师资格考试《中学综合素质》真题及答案
- 2024-2030年中国婚庆策划市场竞争力分析发展策略研究报告
- 2024-2030年中国地板抹布融资商业计划书
- 2024-2030年中国四连体无尘服商业计划书
- 2024年版施工劳务非材料供应承包合同版
- 2024年版零售商垫资协议样式版B版
- 2024年三旧改造建设项目合作协议书范本-智慧城市配套3篇
- 2024年小学二年级数学(北京版)-万以内数的加减法(二)-1教案
- 洛阳职业技术学院《视频编辑》2023-2024学年第一学期期末试卷
- 2025年德州货运从业资格模拟考试题
- 大学校园交通规划以南京林业大学为例
- 山东2023泰安银行春季校园招聘25人上岸提分题库3套【500题带答案含详解】
- GB/T 11446.9-2013电子级水中微粒的仪器测试方法
- GB 8537-2018食品安全国家标准饮用天然矿泉水
- GB 31247-2014电缆及光缆燃烧性能分级
- 斯伦贝谢智能完井工具介绍
- 百词斩-定语从句课件-(;)
- 珍惜时间主题班会-做时间的主人课件
- 市政工程施工总体部署
- 护士准入申请表
- 三年级上册英语课件-Unit3 Look at me-人教(PEP) (6)(共30张PPT)
评论
0/150
提交评论