




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1什么是监督学习和无监督学习?监督学习和无监督学习监督学习:通俗来讲就是分类,就是把训练样本,在某种评价下得到最佳的模型,然后再利用这个模型将输入映射为相应的输出,对输出进行简单的判断从而实现分类的目的。
例:在人对事物的认识中,我们从孩时就被大人们教授这是鸟,那是房子等等。我们所见到的景物就是输入数据,而大人们对这些事物的判断结果就是相应的输出。当我们见识多了以后,脑子就慢慢地得到了一些泛化的模型,这就是训练得到的那个函数,从而没有大人在旁边指点的时候,我们就可自己分辨哪些是房子,哪些是鸟。2监督学习和无监督学习无监督学习:无监督学习与监督学习的不同之处,在于我们事先没有任何训练样本,而直接对数据进行建模。
例:比如我们去参观一个画展,我们完全对艺术一无所知,但是欣赏完多幅作品之后,我们也能把它们分成不同的派别。比如哪些更朦胧一点,哪些更写实一些,即使我们不知道什么叫做朦胧派,什么叫做写实派,但是至少我们能把他们分成两个类。
无监督学习的里典型的例子就是聚类。聚类的目的在于把相似的东西聚在一起,而我们并不关心这一类是什么。因此,一个聚类算法只需要知道如何计算相似度就可以开始工作了。3监督学习和无监督学习两种方式的主要对比关系:
1、有标签vs无标签有监督学习是“有老师的学习”,所谓的老师就是标签;无监督学习是“没有老师的学习”,没有训练过程,而是直接拿数据进行建模分析,意味着需要通过机器自行探索完成。2、分类vs聚类有监督学习的核心是分类,无监督学习的核心是聚类。有监督的工作是选择分类器和确定权值。无监督的工作时密度估计,意味着无监督算法只要知道如何计算相似度就可以开始工作。
问题:人类识别猫狗的过程是有监督还是无监督学习??分类分类(Classification)是解决“这是什么?”的问题,分类所承担的角色就如同回答小孩子的问题“这是一只船”,“这是一棵树”等。把每个数据点分配到合适的类别中,即所谓的“分类”。分类算法邮件正常邮件垃圾邮件例如,邮件系统接收到一封陌生邮件时,算法能识别出该邮件是否垃圾邮件。聚类能将一堆邮件分成两组,但不知道哪组是垃圾邮件。数值预测数值预测(numericprediction)是预测一个连续值或有序值,而不是类标号。例如预测某同学在期末考试中的成绩为95分,95是一个数值,而不是“树”、“船”这样的类标号。分类和数值预测是“预测问题”的两种主要类型,简单起见,在不产生混淆时,使用较短术语“预测”表示“数值预测”。相关应用垃圾邮件识别信用卡用户分级,低风险优质客户给予较高的额度手写字体识别、语音输入、图像识别...相关应用9月26日,石家庄市建华大街和裕华路交叉口西南角的行人闯红灯自动识别抓拍系统开始试用。如果行人指示信号灯为红灯时,仍有行人在斑马线上过马路,这套系统会自动将其中一个人的图像拍摄下来并形成照片。分类输入数据是记录的集合。每条记录也称为样本或样例,用元组(x,y)表示。x是属性集合,y是类标号(分类属性或目标属性)。类标号是离散的。(回归的目标属性y是连续的)。分类:通过学习得到一个目标函数(分类函数)f,把每个属性集x映射到一个预先定义的类标号y。分类任务:确定对象属于哪个预定义的目标类。
脊椎动物的数据表名字体温冬眠有腿胎生类标号人类恒温否是是哺乳类蝙蝠恒温是是是哺乳类青蛙冷血是是否两栖类蟒蛇冷血是否否爬行类分类的两个步骤训练模型:对一个类别已经确定的训练集创建模型用于创建模型的数据集叫做训练集每一条记录都属于一个确定的类别或类标号模型使用:用创建的模型预测未来或者类别未知的记录分类分类分类性能预测的类类=1类=0实际的类类=1f11f10类=0f01f00使用性能度量来衡量分类模型性能的信息,如准确率和错误率。准确率=正确预测数/预测总数=
(f11+f00
)/(f11+f10+f01+f00
)错误率=错误预测数/预测总数=
(f10+f01
)/(f11+f10+f01+f00
)表1二类问题的混淆矩阵分类的两个步骤训练模型:对一个类别已经确定的训练集创建模型。用于创建模型的数据集叫做训练集每一条记录都属于一个确定的类别或类标号测试模型:对于训练好的模型,进行测试。类似于考试。分类过程:训练模型训练集分类算法模型IF气温低THEN不适合运动分类过程:测试模型分类算法模型预测结果:不适合运动真实结果:不适合运动测试集分类过程:训练集和测试集的划分N-fold交叉验证留一法过拟合分类过程:使用模型未分类数据(天气晴,温度高,湿度中等)分类算法模型不适合运动数值预测过程数值预测也是一个两步过程,和分类过程类似,只不过没有“类标号属性”,因为要预测的属性值是连续值,而不是分类的(离散值)例如预测某同学的期末考试成绩得分,如果转换成预测某同学的期末考试成绩“是否合格”,该数据挖掘任务就由数值预测变成了分类。模型可将模型看成一个映射或函数y=f(X),其中X是特征向量给定未知实例的特征向量X,算法即可得出其关联的y的值分类和预测算法的训练过程即是为了从训练数据中“学习”得到这个函数,进而用于未知数据分类算法的评价预测的准确率正确地预测新的或先前未见过的数据的类标号的能力速度构造模型的速度、利用模型进行分类的速度强壮性给定噪声数据或具有空缺值的数据,模型正确预测的能力可伸缩性当给定大量数据时,有效地构造模型的能力可解释性涉及学习模型提供的理解和洞察的层次分类算法预测准确率的指标两类错误查全率查准率精度主要内容分类和预测知识的表达基于距离的分类基于决策树的表达母亲:闺女,给你介绍个对象女儿:多大年纪了?母亲:26。女儿:长的帅不帅?母亲:挺帅的。女儿:收入高不?母亲:不算很高,中等情况。女儿:是公务员不?母亲:是,在税务局上班呢。女儿:那好,我去见见。示例来源于July博客:/v_july_v/article/details/7577684你见或不见,我都在那里基于决策树的表达天气刮大风温度晴小雨去玩多云不要去玩不要去玩去玩去玩<=35度>35度是否基于规则的表达IF天气=多云THEN去玩IF天气=晴AND温度<=35THEN去玩IF天气=晴AND温度>35THEN不要去玩IF天气=小雨AND刮大风THEN不要去玩IF天气=小雨AND没有刮大风THEN去玩基于实例的表达直接将训练样本保存下来,使用实例本身来表达所学到的(知识),而不是推断出一个规则集或决策树,并保存它直接在样本上进行工作,而不是建立规则的学习称为基于实例的学习(instance-basedlearning)基于实例的学习也称为死记硬背式学习(rotelearning),一旦“记住”了一个训练实例集,在遇到一个新的实例时,就会在“记忆”中找出与之最相似的一个训练实例基于实例的表达在基于实例的学习中,对一个新的实例进行分类时,才进行实质性的工作,而不是处理训练集时进行和其它机器学习方法的区别在于“学习”发生的时间不同基于实例的学习是“懒惰”的,尽可能延缓实质性的工作,而其它学习方法是“急切”的,在训练样本时就进行学习并得到一个泛化的表达,例如生成决策树或规则主要内容分类和预测知识的表达基于距离的分类基于距离的分类与一个类中的成员和另一个类中的成员之间的相似性相比,同一个类中的成员彼此之间被认为是更加相似的相似性(距离)度量可以用来识别数据库中不同成员之间的“相似程度”基于距离的分类方法的直观解释(1)类定义(2)待分类样本(3)分类结果k-最近邻算法,kNN,k-NearestNeighbor十大数据挖掘算法之一C4.5k-MeansSVMAprioriEMPageRankAdaBoostkNNNaïveBayesCART应用示例:手写数字识别将训练样本中的每张图划分成5x5的网格,计算每个格子
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年综合类-安全生产法及相关法律知识-高级管工考试历年真题摘选带答案(5卷100道集锦-单选题)
- 金桥五年级期末数学试卷
- 湖南小学中考数学试卷
- 桥梁施工中的技术人员培训
- 农业数字化转型推动机制与策略分析
- 临床思维培养与诊断学教学改革研究
- 具身智能机器人生产线项目申请报告(参考模板)
- 2025大型设备运输合同范本
- 直销牌照管理办法
- 电子垃圾管理办法
- 绿化技师考试试题及答案
- 2025雷电防护装置检测部位及检测点确认技术规范
- 指挥、司索工安全交底
- 2025年血液透析室培训试题(附答案)
- 广西河池市环江毛南族自治县2024-2025学年七年级下学期期末考试英语试卷(含答案及听力原文无听力音频)
- 道路安全生产操作规程
- 税务稽查程序培训
- 地理●甘肃卷丨2024年甘肃省普通高中学业水平等级性考试高考地理真题试卷及答案
- 全国公开课一等奖七年级历史统编版上册《第4课夏商西周王朝的更替》课件(内嵌视频)
- 精神疾病患者坚持服药管理要点
- T/SHEPEA 003-202435 kV架空导线绝缘护套技术规范
评论
0/150
提交评论