




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于SVM的半监督迁移学习的算法研究摘要在数据挖掘中,合理的采用相关数据域去帮助新的数据域分类已经成了一项重要课题。半监督学习已经广泛应用于数据挖掘、机器学习的分类等研究中,但结合迁移学习方式的方法却较少见。SVM在处理大数据方面也越受到关注,不同学习方式结合SVM的算法也陆续提出。本文结合半监督SVM(Semi-supervisedSVM)算法与迁移学习的方法,给出了一种半监督迁移SVM分类方法,通过对辅助数据域的局部与目标域的全局一致学习(LLGC)得到目标方程,并以半监督的方式对目标方程进行迭代,收敛得到最终的SVM分类器,对目标任务中未标记样本得到最终标签。应用该方法得到分类器具有较高的精确度。关键词数据挖掘;半监督学习;迁移学习;一致学习1引言在传统分类方法中,大部分都是有监督的,即用带标签的数据来训练分类模型,并且只局限于目标数据域。然而,收集带标签的实例是非常困难且要耗费巨大的[1],不带标签的数据却是相当巨大,很容易获取。如果只有少量的带标签的数据和大量未标记的数据可用,那么半监督学习在一定程度上便能弥补因训练数据不足而导致过拟化的分类误区。很多机器学习的方法,无论是传统的机器学习还是半监督学习问题,都是建立在一个共同假设:测试数据与训练数据属于统一数据分布与同一特征空间。一旦数据分布有差异,很多学习方法便无法表现的很好。于是又要重新标记大量数据去训练模型来适应新的数据分布,这样的代价是昂贵的。基于这个局限,便引入了迁移学习[3],目的是从其他相关辅助数据域中迁移知识去帮助目标域中解决学习任务。例如,在网页分类中,我们能利用迁移学习从大学网页迁移知识来帮助F分类任务训练一个分类器[4]。虽然大学网页与社交网络的数据分布十分不同,但是始终存在一些共同的分类知识来构建知识迁移的桥梁帮助提高分类器性能。近年来,随着研究的深入,半监督、迁移学习等方法也逐渐应用于数据分类、社交网络分析和图像处理等方面。如QiangYang等人迁移学习对于文本挖掘的应用[5]。目前,在解决实际的文本分类问题中,人们提出了不同类型文本分类方法,很多针对文本像基于贝叶斯的文本分类方法[6]、基于SVM的文本分类方法[7][8]以及基于KNN的文本分类方法[9]等。随后基于这些基本方法的迁移学习也成为了当今热点,如跨域SVM方法[10][11]。而迁移学习在各领域的应用也是层出不穷,如在社交网络的推荐系统中便提出了跨域推荐(CDR)[20]和社交网络中的异构迁移对于图像聚类的方法[21],在图像处理和信号处理方面也有应用[22][23][24]。在这篇文章,我们提出了一种基于SVM的半监督迁移学习方法,我们的贡献有:(1)我们合理的利用了目标域中未标记的数据与少量带标签的数据,并采用局部化SVM(LSVM)进行局部和全局一致学习(LLGC),采用半监督的学习方式来加强分类器精度[12][18]。并给出了这种方法的目标方程;(2)为了给分类器得到更好的泛化误差,我们引入了迁移学习的方法对目标方程进行迭代,给出了迭代终止目标函数,产生更为精确的分类器并得到数据标签[13]。本文的组织结构如下。在第二节,我们将简要介绍一下基于SVM的半监督学习和基于SVM的迁移学习方法(TLSVM)。在第三节,我们提出基于SVM的半监督迁移学习方法。实验部分的内容则在第四节。最后,第五节是我们对以后工作的总结。2相关工作由于我们关注的是基于SVM的半监督(4)s.t.类似A-SVM[19],我们也想要保证这个新的决策边界在旧的辅助数据的判别属性,但是这个技术有个特别的优点:就是没有强迫这个正规项限制新决策边界相似于旧的。代替这个,基于本地化的主意,这个判别属性仅在与目标数据有相似分布的重要辅助数据样本中被处理。特别地,采用了高斯函数的形式:(5)控制来自的重要支持向量的退化速度。越大,支持向量的影响就越小同时也就远离。当非常大,一个新的决策边界单独基于新的训练数据学习得到。相反,当非常小,来自的支持向量和目标数据集同等对待并且算法相当于运用共同训练一个SVM分类器。通过这样控制,与传统方法对比,这个算法更一般化和灵活。控制参数实际上能通过系统验证试验来优化。对于上面所产生的一个初始弱SVM分类器,我们得到了目标域中未标记数据的一组初始标签,接着把加入训练集中一起训练,就形成了我们所提出的半监督迁移的方法。其基于SVM的半监督迁移学习算法的分类器对于两类问题的定义如下:(6)s.t.3.2半监督迁移算法的描述对于目标域数据,假设是包含个样本且给定标签的训练集,是包含个样本且未带标签。本文提出的基于SVM的半监督迁移算法的步骤如下:利用目标域中少量带标签的数据集和辅助数据集中经过预处理得到一组支持向量作为原始训练集,训练出一个弱分类器SVM1。利用SVM1标记目标数据域中未标记的数据,获得初始一组标签。将目标域中未标记数据集加入训练集中,共同训练出分类器SVM2,并得到其各参数和。此时的标签为。迭代下去,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 铁路旅客运输服务出站服务80课件
- 活动演出保证金协议
- 搜救雷达应答器SARTGMDSS综合业务课件
- 铁路班组管理班组安全管理课件
- 特种货物运输车辆运用与管理课件
- 铁路路基与轨道64课件
- 《GB 14891.7-1997辐照冷冻包装畜禽肉类卫生标准》(2025版)深度解析
- 中华文化课件下载
- 大学生职业规划大赛《社会体育指导与管理专业》生涯发展展示
- 中专传统文化课件
- 2023年四川省遂宁市经开区社区工作人员(综合考点共100题)模拟测试练习题含答案
- 测绘高级工程师答辩题库
- 化工原理天大版5.1蒸发
- 《冷链物流管理》教学大纲
- 事故隐患内部举报奖励制度
- 矿山地质环境监测信息平台
- GB/T 44562-2024航空用钛合金100°沉头大底脚螺纹抽芯铆钉
- 2024年浙江省初中学业水平考试社会试题
- 建筑智能化配管-隐蔽工程检查验收记录
- 在建工程评估报告
- 铁路工程管理平台-EBS分解子系统用户手册
评论
0/150
提交评论