毕业设计(论文):机器学习之逻辑斯蒂回归模型及应用研究_第1页
毕业设计(论文):机器学习之逻辑斯蒂回归模型及应用研究_第2页
毕业设计(论文):机器学习之逻辑斯蒂回归模型及应用研究_第3页
毕业设计(论文):机器学习之逻辑斯蒂回归模型及应用研究_第4页
毕业设计(论文):机器学习之逻辑斯蒂回归模型及应用研究_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

机器学习之逻辑斯蒂回归模型及应用研究LogisticRegressionModelandItsApplicationinMachineLearning指导老师:答辩人:班级信息:绪论及学习内容01研究背景及意义国内外现状机器学习基本知识PARTONE

机器学习是人工智能的中心,也是让计算机系统拥有智能的唯一路径,目前机器学习已经应用在生活中的各个领域,机器学习这些发展迅速,前景很好,机器学习之逻辑斯蒂回归模型主要解决弱二分类问题,现实的社会,我们会面临许许多多的分类,划分到正确的类别至关重要。本课题主要研究机器学习之逻辑斯蒂回归模型以及应用研究,掌握机器学习基本知识,理解逻辑斯蒂回归模型的实现思路,并且能够深入应用,研究它,并充分的利用它,对于机器学习的发展有很大的意义。研究背景及意义研究背景及意义绪论及理论知识实验内容研究思路与方法总结和展望完

机器学习在我国已经得到广泛的关注,并且也取得了优秀的成果,但是主要集中在数据挖掘层次,纯粹的机器学习研究者相对较少,主要的理论知识,学习方法等基础部分没有得到充分的重视,不过就目前来说,国内已经有北京大学,复旦大学等依靠雄厚的统计学实力,都已经建立起数据科学专业和大数据研究院,以及一些知名的互联网公司以及研究机构,也纷纷投入到机器学习的研究中,代表的有百度的BML和MSRA(微软亚洲研究院)。对于国外来说,首先国外机器学习起步早,而且众所周知国外的研究氛围是明显优于国内的,所以在机器学习这块的研究也是大大的领先国内,国外机器学习主要包括研究算法,用数据建立模型,然后再进行数据驱动的决策或者预测,像Google,Facebook,雅虎,亚马逊等一些非常优秀的技术公司,利用机器学习让他们的研究产品和应用程序更加智能。国内外现状国内外现状绪论及理论知识实验内容研究思路与方法总结和展望完机器学习定义学习策略

机器学习中的“机器”一般指计算机系统。“学习”通常指的是一种学习过程。由此“机器学习”就是指机器自己学习的过程[1]。兰利认为“机器学习是一门人工智能的科学,主要研究对象就是人工智能,尤其是机器如何通过经验学习中改善具体算法的性能”[2]。米切尔认为机器学习就是计算机程序随着经验积累自动提高系统自身的性能[3]。。0102

研究机器学习的人们都很清楚机械学习、类比学习、通过事例学习以及通过传授学习这四个类别是机器学习常采用的机器学习策略[4]。机器学习基本知识绪论及学习情况实验内容研究思路与方法总结和展望完基本机构机器学习分类

机器学习的学习部分会利用环境提供的一些信息来修改和完善自己的知识库。环境是影响机器学习系统的第一因素。知识库是影响机器学习系统的另一个因素。机器学习系统的核心部分就是执行部分,整个学习系统最核心的就是在学习,即在执行的同时能将自身的不足点改进和完善,所以执行部分的动作是一切的核心所在。

0304

监督学习,指的是对机器学习的过程提供错误提示。做法是将最终结果以0,1形式添加到数组局中。然后通过一些算法让机器自我缩减误差。非监督学习又称归纳性学习,利用K方式,建立中心,通过循环和递减运算来减小误差,来达到分类的目的。机器学习基本知识绪论及学习情况实验内容研究思路与方法总结和展望完研究思路与方法02研究思路研究方法PARTTWO绪论及学习情况实验内容研究思路与方法总结和展望完研究思路1.从机器学习整个流程开始Age40yearsGenderMaleBloodpressure130/85Cholesterollevel240Weight70

通过表1和图1,我们有一个不知道的目标函数P(y|x),它包含了f(x)和noise,环境提供的数据信息,我们设计一个hypothesis,加入到learningalgorithm(学习算法),当然还包括errormeasure(错误测量),最后找到一个好的hypothesis,直到结束,由于我们需要的结果是病人是否发病,这是一个二分类问题,所以y的值只有两种1或者0,所以目标函数:图1Learnfloor表1病人数据绪论及学习情况实验内容研究思路与方法总结和展望完研究方法2.然后结合逻辑斯蒂回归求hypothesis(上面是logisticsfunction)

第一步:对于每个病人,我们都有一系列的features参数,每个病人都不一样的,即(),然后通过公式,参数w加权之后,我们来算出一个分数s,然而我们需要的不仅仅是这个分数,这是linearregression处理问题需要做的事件。第二步:我们的目标是把s通过逻辑回归算法变成0到1之间的值,一个方法是用一个像下面这样的一个s型的函数(图2中的线形图,也就是我们研究的逻辑斯蒂回归函数),每一个分数s的值,都有一个对应的在0~1之间的值,就是我们需要知道的概率值,我们把它叫做logisticfunction,然后这个function配合W,以及,得到logistichypothesis:图2θ(s)公式绪论及学习情况实验内容研究思路与方法总结和展望完研究方法3.逻辑斯蒂回归的errorfunction由于P(x)和f(x)之间的关系密不可分,所以有

logisticregression的目标是f(x)=P(+1|x):当y=+1时,P(y|x)=f(x);当y=-1时,P(y|x)=1-f(x).接着,这里我们新增一个变量likelihood,它表示的是我们假装的h会产生和f产生的资料一模一样的可能性大小。然而我们是不知道f(x),我们只是想要知道h,那么我们可以假装h就是f,则结果为:图3.1logisticregressionmodles绪论及学习情况实验内容研究思路与方法总结和展望完研究方法3.逻辑斯蒂回归的errorfunction我们简化上市,h是正比于下式右部分带入

带入以下公式:因为我们把h换成w,得出:这里是练乘,从算法上改成连加好点,取个log,加个负号,然后取min得到:我们需要做的的事情就是从所有的h中找一个h,使得这个可能性likelihood是最高的。就是找一个maxlikelihood(logistich)即:最后我们得到logisticregressionerrorfunction:绪论及学习计划实验内容研究思路与方法总结和展望完研究方法4.梯度下降法求解最后直到,返回最后一个做为我们机器学习的g.这里用梯度下降法求解这个值,梯度下降法简单说就从一个开始至是一步一步纠错,直到最后到去到一个接近理想的值,下面的v和η是主要参数值表示的是纠错的单位向量,η表示的纠错的步度,我们要的是:图4.1IterativeOptimization曲线图图4.2选择η求解实验内容03建立LogisticRegression模型LogisticRegression模型测试交叉验证实验PARTTHREE通过训练数据对不同模型算法进行交叉验证,对比验证结果,得出结论实验三使用训练数据和LogisticRegression,设置好数据的输出项与格式,建立逻辑斯蒂回归模型实验一导入训练数据和测试数据导入数据使用测试数据来验证模型是否能够正常使用,观察结果实验二绪论及学习情况实验内容研究思路与方法总结和展望完实验综述

首先导入训练数据,然后设置好输出项和格式,连接好各个模块,运行生成模型。实验设计实验结果最后就是对整个研究结果的整合和优化是一大难点。结果分析绪论及学习情况实验内容研究思路与方法总结和展望完建立LogisticRehression模型AttributeCoefficientAge-0.119Marital_Status-1.278Gender-0.215Weight_Category-4.056Cholesterol-0.009Stress_Management0.071Trait_Anxiety0.054表1LogisticRegression数据

表中的数据是我们建立的模型分析得出输入的环境因素(age,Marital_Status,Gender,Weight_Category,Cholesterol,Stress_Management,Trait_Anxiety,Intercept)对输出项的影响权重值。简单分析下,Marital_Status,Weight_Category即病人的婚姻状态和人员的体重对心脏病的二次发作影响比较大,然后病人的年龄,性别,是否参与压力控制课程,及自然压力水平和应压能力即Age,Gender,Stress_Management和Trait_Anxiety的值比较小,说明它们对于心脏病二次发作的可能性影响比较低,权重的值有正负之分,意思是对结果的影响有起到正作用和负作用

在实验一的基础上,我们导入测试数据,连接上LogisticRegression,运行得出结果。

第二例,淡绿色的那一列就是输出项生成的目标结果,表示的是心脏病是否会再次发作,后面的两列黄色的是通过模型的出的发病的概率。通过用训练数据来建立模型,并且用测试数据来测试我们建立的模型来看,我们的模型准确性很高[14],我们可以直接看到测试数据产生的结果,我们可以观察这些数据,一般婚姻状态差(3表示丧偶),体重超标,胆固醇值比较高的,一般结果都为yes(可能发生心脏病二次发作),这使得我们对这个测试结果是表示信服的。实验设计实验结果结果分析绪论及学习情况实验内容研究思路与方法总结和展望完LogisticRegression模型

测试表1数据测试结果

首先导入测试数据,设置好输出项和格式,然后链接CrossValidation,第二部分,左侧导入我们需要交叉验证的算法,右侧应用模块,然后链接Performance,运行得出结果。实验设计

表2是各个算法的结果对比,通过数据的对比,可以很明显的看出来LogisticRegression的准确率要明显高于Linearregression和SupperVectorMachine,所以对于分类的问题,LogisticRegression的优势还是明显大于LogisticRegression(SVM),LinearRegression和SupperVectorMachine,这就说明对于解决分类这块的问题,逻辑斯蒂回归模型模型的算法设计是明显优于逻辑斯蒂回归模型(SVM),线性回归和SupperVectorMachine的。实验结果结果分析绪论及学习情况实验内容研究思路与方法总结和展望完交叉验证实验算法交叉验证结果LogisticRegression94.23%+/-4.35%(mikro:94.20%)LogisticRegression(SVM)89.12%+/-4.80%(mikro:89.13%)LinearRegression89.84%+/-5.50%(mikro:89.50%)SupperVectorMachine85.98%+/-2.82%(mikro:85.95%)表2多种算法交叉验证结果总结和展望04总结展望PARTFOUR总结一总结二总结

对于实验的理论知识部分,本文分析逻辑斯蒂回归的特性,再加上机器学习的学习力流程设计出LogisticHypothesis,再结合逻辑斯蒂回归模型分析出逻辑回归误差函数,然后我们通过梯度下降法求解逻辑回归误差函数,最后得出g。

通过整个机器学习及逻辑斯蒂回归模型及应用研究的学习和研究过程,本文实验部分得出的结果展示出,逻辑斯蒂回归对于解决二分类问题准确率的确要高于类似的解决分类的算法,例如线性回归等,并且相比较其他的算法,逻辑斯蒂回归算法的求解思路也是误差较小的。绪论及学习情况实验内容研究思路与方法总结和展

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论