版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
论文题目:基于SVM的半监督迁移学习的算法研究
姓名:***年级:专业:指导教师:硕士研究生开题报告开题内容1算法的提出及研究意义2国内外同类技术研究现状3研究内容与研究方法4技术路线5算法简易描述硕士研究生开题报告
我们生活在大量数据日积月累的年代。每天,来自网络、商业、社会、科学和工程、医学以及我们日常生活的方方面面的数兆兆字节或数千兆兆字节的数据注入我们的计算机网络、万维网和各种数据存储设备。世界范围的商业活动产生了巨大的数据集,包括销售事务、股票交易记录、产品描述、促销、公司利润和业绩以及顾客反馈。科学和工程实践持续不断地从遥感、过程测量、科学实验、系统实施、工程观测和环境监测中产生多达数千兆兆字节的数据。数据的爆炸式增长、广泛可用和巨大数量使得我们的时代成为真正的数据时代。而将数据转换成有价值的信息的其中一个重要的步骤是分类。分类可以从内容丰富、蕴含大量信息的数据库中提取描述重要信息的数据类,从而作出智能的商务决策,其应用非常广泛。然而针对不同类型的数据,分类的方法却有很多,如贝叶斯分类,支持向量机(SVM)分类,C4.5等。
SVM是机器学习中的重要算法,近年来也得到了广阔的发展,特别是在生物信息、文本分类等领域中。而基本的SVM算法是有监督的的学习算法,它是基于统计学习理论的原理性方法。其主要思想是:建立一个最优决策超平面,使得该平面两侧距平面最近的两类样本之间的距离最大化。从而
1算法的提出及研究意义硕士研究生开题报告1.1算法的提出
对分类问题提供良好的泛化能力,所采用的数据往往都需要满足一定条件。
然而在传统的SVM分类方法中,大部分都是有监督的,即用带标签的数据来训练分类模型,并且只局限于目标数据域。然而,收集带标签的实例是非常困难且要耗费巨大的,不带标签的数据却是相当巨大,很容易获取。如果只有少量的带标签的数据和大量未标记的数据可用,那么半监督学习在一定程度上便能弥补因训练数据不足而导致过拟化的分类误区。很多机器学习的方法,无论是传统的机器学习还是半监督学习问题,都是建立在一个共同假设:测试数据与训练数据属于统一数据分布与同一特征空间。一旦数据分布有差异,很多学习方法便无法表现的很好。重新标记大量数据,这样的代价是昂贵的。基于这个局限,我们便引入了迁移学习,目的是从其他相关辅助数据域中迁移知识去帮助目标域中解决学习任务。因此,迁移学习的出现使的这些问题可以迎刃而解。迁移学习(TransferLearning)的目标是将从一个环境中学习的知识用来帮助新环境中的学习任务。如QiangYang等人迁移学习对于文本挖掘的应用。迁移学习不但解决了训练数据匮乏的问题,而且在某种程度上可能充分的利用了数据的价值。于是我们提出了基于SVM的半监督迁移学习的算法。硕士研究生开题报告首先,相对于传统SVM算法,基于SVM的半监督迁移学习算法很好的利用相关领域数据大量带标签的数据来帮助我们目标领域数据的分类万挖掘,在某种程度上既提高了SVM分类器的准确率,又节约了大量的人力物力去标记样本来满足分类器训练的要求。在Web领域方面,还能充分利用过时的数据来帮助新形成的领域进行分析。避免了数据的浪费。其次,结合半监督学习与迁移学习的算法是现今比较缺乏的研究方向,迁移学习方法理论上可以使得很多传统的分类器的准确率得到进一步的提升,因而迁移学习的研究可以扩展到其他比较经典的数据挖掘算法中,来提高数据分析的准确率。
硕士研究生开题报告1.2研究意义2国内外研究现状及分析硕士研究生开题报告
近几年来,基于SVM分类算法的扩展越来越受到研究者的关注,随着相关研究的不断深入,与其他学习方法结合的SVM算法应运而生。目前,人们在基于SVM算法与各种学习技术相结合,提出了不同类型的基于SVM分类方法,以解决不同的实际问题。其方法也陆续被提了出来,像自训练半监督SVM算法、局部化SVM优化方法以及跨域SVM算法方法等。目前迁移学习技术的发展势头强劲,不乏大量迁移学习分类的算法,如TrAdaboost、CDSVM已证实了这一点。究其原因主要是迁移学习在现实中有着广泛的应用前景,如文本分类、Web挖掘、社交网络分析、生物信息学等。SVM算法的难点在于优化SVM分类器目标函数找到支持向量来构建最优超平面。V.Vapnik提出了基本的SVM分类网络,利用带标签数据进行有监督的训练分类器,最终得到最优分类超平面。由于训练数据与测试数据的分布不一致,训练得到的分类器可能效果不怎么好。硕士研究生开题报告
传统的SVM是有监督的学习方法。由于半监督学习方法的流行,于是半监督SVM的研究也被提出。如C.G.YuanqingLi、HuiqiLi和ZhengyangChin提出了半监督SVM算法,便很好的利用了测试集的未标记数据与带标签的训练数据结合一起训练分类器,不仅在一定程度上解决了训练数据匮乏的问题,而且使分类器对测试数据分类更加准确。同时,YongMa和LiZhao[在此基础上提出了一种改进的半监督SVM算法,它就是在SVM分类器目标函数优化时引入了类散度矩阵,使分类平面更加精确,但是计算量大大增大了。半监督SVM的简易原理图如下:带标签训练集SVM分类器未标记测试集硕士研究生开题报告
迁移学习的出现,使的各类分类算法对于所面临的数据匮乏问题得到了一种很好解决方案,由于半监督学习也只是在稍微缓解了带标签训练数据不足的问题。迁移学习可以从其他相关数据域迁移大量带标签数据来帮助目标任务训练分类器。迁移学习的出现吸引了越来越多研究人员的目光,也相继在相关领域提出了基于传统算法的迁移学习方法。对于传统的SVM算法,出现了基于SVM的迁移学习方法。也相继提出了有关基于SVM的迁移学习的相关理论与方法。目前,基于SVM的迁移学习已经被广泛应用于文本分类、图像识别和视频识别等应用领域,这些应用领域都存在一个共同点:就是存在大量的未标签数据或者很容易收集到海量的无标签数据集,但标签数据样本却往往异常匮乏,而且这些数据都是不断自增的。基于SVM的迁移学习的研究有很多,像QiangYang等人迁移学习对于文本挖掘的应用,利用以前的文本数据对现在不断出现的新的文本域数据进行分类。Jain.A等人提出的迁移学习利用合适的支持向量对图像进行分类。近几年,半监督学习方法和迁移学习方法也不断被提出。像基于SVM的半监督学习方法提出了一种自训练方式,这种方式使未标记的测试数据带上初始标签,可以与训练集一起迭代训练。使分类器的泛化误差最小。而迁移学习也在不同的算法上都有应用,但是半监督与迁移学习结合在一起的方法较少,YuanShi等人提出了一种在半监督学习中扩展共同训练的方法(COITL),COITL很好的将半监督学习扩展到直导式迁移学习中。
硕士研究生开题报告下面对比一下传统机器学习与迁移学习不同的学习过程,如下图所示:
3研究内容与研究方法硕士研究生开题报告基于SVM的半监督迁移学习的算法,我们研究的内容及方法分为以下几点:通过局部和全局的一致性学习(LLGC)方法完成对SVM分类器的构造;对辅助数据域进行预处理,选取能代表其数据域分类信息的一组支持向量;对传统的SVM方法结合迁移过来的一组支持向量,利用近邻影响权重构成基于SVM的迁移学习分类器;然后对此迁移分类器进行半监督迭代处理,形成我们提出的基于SVM的半监督迁移学习方法的分类器。硕士研究生开题报告再优化获取构建最优分类超平面的支持向量;构建最终的分类决策函数,对测试数据进行预测,得到最终的预测准确率;硕士研究生开题报告4技术路线我们提出的基于SVM的半监督迁移学习算法的原理图如下:
硕士研究生开题报告对于所提出的方法的目标优化函数定义如下:
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024至2030年中国面板屏蔽罩数据监测研究报告
- 2024至2030年中国煮蛋器控制芯片数据监测研究报告
- 2024至2030年中国活大闸蟹数据监测研究报告
- 2024至2030年中国果露酒数据监测研究报告
- 2024至2030年中国开关电容电压转换器数据监测研究报告
- 两性知识培训
- 医疗服务收费价格自查
- 太阳能发电项目施工合同
- 港口物流车辆调度指南
- 招投标企业信用评级报告
- 《2 我向国旗敬个礼》教学设计-2024-2025学年道德与法治一年级上册统编版
- 医院感染管理基础知识培训
- 2024年四川省泸州市中考生物真题(含解析)
- 2024届陕西省西安市西安交大附中中考四模数学试题含解析
- 2024年军队文职人员统一招聘考试管理学真题
- SLT 478-2021 水利数据库表结构及标识符编制总则
- 五年级上册数学说课稿 《《解决问题-去尾法和进一法》》人教版
- GB/T 23132-2024电动剃须刀
- DL∕T 2553-2022 电力接地系统土壤电阻率、接地阻抗和地表电位测量技术导则
- 03D201-4 10kV及以下变压器室布置及变配电所常用设备构件安装
- 《民用爆炸物品企业安全生产标准化实施细则》解读
评论
0/150
提交评论