![人工智能_kNN和Kmeans_第1页](http://file3.renrendoc.com/fileroot_temp3/2022-2/21/deba350f-ee71-447a-ba6b-de3c29331528/deba350f-ee71-447a-ba6b-de3c293315281.gif)
![人工智能_kNN和Kmeans_第2页](http://file3.renrendoc.com/fileroot_temp3/2022-2/21/deba350f-ee71-447a-ba6b-de3c29331528/deba350f-ee71-447a-ba6b-de3c293315282.gif)
![人工智能_kNN和Kmeans_第3页](http://file3.renrendoc.com/fileroot_temp3/2022-2/21/deba350f-ee71-447a-ba6b-de3c29331528/deba350f-ee71-447a-ba6b-de3c293315283.gif)
![人工智能_kNN和Kmeans_第4页](http://file3.renrendoc.com/fileroot_temp3/2022-2/21/deba350f-ee71-447a-ba6b-de3c29331528/deba350f-ee71-447a-ba6b-de3c293315284.gif)
![人工智能_kNN和Kmeans_第5页](http://file3.renrendoc.com/fileroot_temp3/2022-2/21/deba350f-ee71-447a-ba6b-de3c29331528/deba350f-ee71-447a-ba6b-de3c293315285.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、A QUICK LOOK AT MACHINE LEARNING1234PART ONEPART TWOPART THREEPART FOUR机器学习及其重要性特征向量监督学习非监督学习机器学习是人工智能的核心研究领域之一任何一个没有学习能力的系统都很难被认为是一个真正的智能系统经典定义:利用经验改善系统自身的性能随着该领域的发展,主要做智能数据分析并已成为智能数据分析技术的源泉之一典型任务:预测(例如:天气预报)生物信息学计算金融学分子生物学行星地质学工业过程控制机器人遥感信息处理信息安全机机 器器 学学 习习生物信息学计算金融学分子生物学行星地质学工业过程控制机器人遥感信息处理信息安全机机
2、 器器 学学 习习通常来说,机器学习会观察一组实例,它们会包含某些统计信息的不完整信息,然后试着推测生成这些实例的过程,这组实例通常被称为训练数据。举例来说,假设下面有两组人:举例来说,假设下面有两组人信噪比(signal-to-noise ratio,SNR)这个概念经常出现在工程学和科学中。准确的定义根据应用场景不同而不同,但是核心思想非常简单,可以把它看成有用输入和无用输入的比例。如果我想要预测哪些学生会在编程中表现突出,那之前的编程经验和数学天分就是信号的一部分,但是性别是噪声。想要从噪声中分离信号并不是一件简单的事情,如果做不好的话,噪声就会掩盖住信号的内容。特征提取的目的是从现有数
3、据的噪声中提取出和信号有关的特征。如果做不好的话会出现两类问题:1.无关特征会影响模型质量,当数据维度(不同特征的数量)和实例数量高度相关时,影响尤其严重。2.无关特征会影响学习速度。机器学习算法通常时学习密集型的,复杂度会随着实例数量和特征数量的增加而增加。特征提取的就是要减少实例中需要归纳的信息量,找出有用的特征,进而提高算法模型的准确性。在上表中,使用4个二元特征和1个整数特征来描述动物。假如说用这些特征评估两个动物的相似度,比如说判断巨蚺更新响尾蛇还是箭毒蛙,应该如何做?首先把每个动物的特征转换成一个数字序列。如果把True看成1,把False看作0,就可得到下面的特征向量:响尾蛇:1
4、, 1, 1, 1, 0巨蚺:0, 1, 0, 1, 0箭毒蛙:1, 0, 1, 0, 4比较数字向量的相似度有许多中不同的方法,最常用的是一种基于闵可夫斯基距离。图1 闵可夫斯基距离示例图2 闵可夫斯基距离的一种实现运行下面的代码生成一张表格响尾蛇响尾蛇巨蚺巨蚺箭毒蛙箭毒蛙响尾蛇-1.4144.243巨蚺1.414-4.472箭毒蛙4.2434.472-响尾蛇响尾蛇巨蚺巨蚺箭毒蛙箭毒蛙短吻鳄短吻鳄响尾蛇-1.4144.2434.123巨蚺1.414-4.4724.123箭毒蛙4.2434.472-1.732短吻鳄4.1234.1231.732-在末尾添加下面的代码生成一张表格问题的根源是:不
5、同的特征有不同的取值范围。腿的取值范围是0至4,但是其他的数值是0或1。这意味着计算欧式距离时,腿的权重数量更大。响尾蛇响尾蛇巨蚺巨蚺箭毒蛙箭毒蛙短吻鳄短吻鳄响尾蛇-1.4141.7321.414巨蚺1.414-2.2361.414箭毒蛙1.7322.236-1.732短吻鳄1.4141.4141.732-现实时间中有很多种机器学习的方法,但是它门的目的都是找到一个可以归纳所有实例的模型,这些方法通常有三个部分组成:n模型的具体描述n对模型评估的目标函数n一种优化方法,可以最小话或者最大化目标函数的值。机器学习算法可以分为有监督学习和无监督学习。监督学习(supervised learning
6、)的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做一个好的预测。输出的结果可以是一个连续的值(称为回归),或是预测一个分类标签(称为分类)。监督学习的特点是输入的数据有标签(label),就是已知要预测的结果。形式化描述KNN是通过测量不同特征值之间的距离进行分类。它的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别,其中K通常是不大于20的整数。KNN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。下面通过一个简单的例子说明一下
7、:如下图,绿色圆要被决定赋予哪个类,是红色三角形还是蓝色四方形?如果K=3,由于红色三角形所占比例为2/3,绿色圆将被赋予红色三角形那个类,如果K=5,由于蓝色四方形比例为3/5,因此绿色圆被赋予蓝色四方形类。接下来对KNN算法的思想总结一下:就是在训练集中数据和标签已知的情况下,输入测试数据,将测试数据的特征与训练集中对应的特征进行相互比较,找到训练集中与之最为相似的前K个数据,则该测试数据对应的类别就是K个数据中出现次数最多的那个分类,其算法的描述为:1)计算测试数据与各个训练数据之间的距离;2)按照距离的递增关系进行排序;3)选取距离最小的K个点;4)确定前K个点所在类别的出现频率;5)返回前K个点中出现频率最高的类别作为测试数据的预测分类。项目案例1: 优化约会网站的配对效果完成代码地址:https:/ 手写数字识别系统完成代码地址:https:/ (1)事先选定K个聚类中心
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电瓶车撞车调解协议书(2篇)
- 电力售后服务合同(2篇)
- 2024-2025学年高中政治第一单元生活与消费课题能力提升三含解析新人教版必修1
- 二年级教师下学期工作总结
- 一学期教学工作总结
- 公司设计师工作总结
- 老师教研年度工作总结
- 入团申请书模板
- 公司员工培训计划方案
- 出租车租车协议书范本
- 固废运输方案
- 医疗美容门诊病历
- 停车场管理外包服务合同
- 医疗健康-泌尿生殖系统外科疾病主要症状医学课件
- 中国节能协会团体标准草案模板
- 招投标现场项目经理答辩(完整版)资料
- 大学开学第一课班会PPT
- 企业新春茶话会PPT模板
- 重大事故隐患整改台账
- DB15T 2058-2021 分梳绵羊毛标准
- (高职)银行基本技能ppt课件(完整版)
评论
0/150
提交评论