人工智能算法k邻近算法_第1页
人工智能算法k邻近算法_第2页
人工智能算法k邻近算法_第3页
人工智能算法k邻近算法_第4页
人工智能算法k邻近算法_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

人工主讲教师:智能KNN算法(一)目录KNN的原理工程中的数据处理问题以及程序代码人工智能算法中的常用概念123KNN的原理1KNN的原理1分类是根据已知类别的数据确定预测数据的类别KNN(K邻算法)是分类方法同一类别的事物通常聚集在一起“物以类聚”说的就是这个原理?“近”“邻”KKNN的原理1B?A?推测A粉色圆点B绿色方块观察这张图,推断A、B两点的颜色和形状?KNN的原理1B?A?原因01以A为圆心的区域:粉色圆点02以B为圆心的区域:绿色方块KNN的原理1C?按简单多数原则大圈区域

4:5,粉色圆点小圈区域4:1,绿色方块如何确定C的类别(K

Nearest

Node)就是:以K个最近邻点推断类别KNNK个近邻?KNN的原理1KNN如何理解“最近”dABX2X1Y2Y1

最直观的距离就是“欧氏”距离两个点间距离的计算:用距离量化

“近”

品牌型号长(mm)宽(mm)高(mm)用户行为BAOJ310403216801450略过XW-M1433015351885浏览POL405317401449略过BW5508718681500浏览BDe6456018221645浏览Wuling379715101820略过KNN的原理1dABXYZKNN如何理解“最近”三维距离的计算:

用这个方法考察实际问题的数据,就能解决诸如“推荐”和“预测”这类人工智能领域的分类问题标志型号长(mm)宽(mm)高(mm)略过CrV405317401449浏览BW5508718681500略过POL403216801450浏览BDe6433015351885

推荐?X008456018221645KNN的原理1KNN的实际应用广告案例假设某网站发现用户对某些车型的浏览行为如绿色数据所示,那么现在向用户推送X008车型的广告是否会引发用户兴趣?KNN的原理1KNN算法步骤KNN算法的一般过程需要对未知类别属性的数据集中的每个点依次执行以下操作:01逐一计算样本集的点与预测点之间的距离。02按距离递增排序。03选取与待预测点距离最小的k个点。04统计k个点的类别频率,按规则确定预测结果。利用“电子表格”体验过程操作过程录像KNN的原理1KNN的原理1010203选取与被测车辆距离最小的k个点(一般k为奇数,本例k=3)的分类,作为判断的依据;观察图中的黄色部分,即离被测最近距离的3种车中,2种为用户感兴趣的车型,1种为用户无兴趣车型;按简单的少数服从多数原则,可确定被测车辆也是用户感兴趣车型。KNN的原理1KNN算法的几个思考算法观察与自己距离最近的k个点(k一般为奇数)的分类,并可以用简单多数的原则确定自身的分类。如果考虑减小KNN算法中k的取值k取1待预测点的分类只依赖于与之最近的点,分类结果随机性太大;k太大如极端情况,与数据集的样本数一样大,那么算法的分类结果没有意义。就一般经验,k的取值一般低于已知类别的样本数的平方根。other还可以不使用简单投票规则,而对距离加权,比如可以使距离近的点更有影响力。可以降低k值变化对结果的影响。C?小结1KNN用已知的最近距离的K个邻接点确定带预测点类别的算法01KNN的算法步骤0203取K(奇数)个最近点04递增排序计算距离通过简单多数或其他规则确定分类C?本小节结束!人工智能KNN算法(二)目录Knn的原理工程中的数据处理问题以及程序代码人工智能中的常用概念123工程中的数据处理问题以及程序代码01数据的归一化处理02利用程序完成算法03训练模型与测试应用车型长(mm)宽

(mm)高

(mm)油耗

(L/100km)售价

(万元)BAOJ3104032168014505.35.6XW-M14330153518857.814.5POL4053174014496.210.8BW55087186815008.525.6BDe64560182216457.815.8Wuling3797151018205.59.6型号长(mm)宽(mm)高(mm)CrV405317401449BW5508718681500POL403216801450BDe6433015351885VS.工程中的数据处理问题以及程序代码可以想像此类不同数量级的数据将给预测带来较大误差数据的归一化处理车型长(mm)宽

(mm)高

(mm)油耗

(L/100km)售价

(万元)BAOJ3104032168014505.35.6XW-M14330153518857.814.5POL4053174014496.210.8BW55087186815008.525.6BDe64560182216457.815.8Wuling3797151018205.59.6数据归一化由多种方法,其中最直观的方法是,对每个属性都找出最大数值和最小数值,然后对某一属性数据集中的每个数据都按下面公式整理。

工程中的数据处理问题以及程序代码数据的归一化处理本页是Excel操作录象工程中的数据处理问题以及程序代码数据的归一化处理工程中的数据处理问题以及程序代码数据的归一化处理品牌型号长(mm)宽(mm)高(mm)用户行为BAOJ310403216801450略过XW-M1433015351885浏览POL405317401449略过BW5508718681500浏览BDe6456018221645浏览Wuling379715101820略过工程中的数据处理问题以及程序代码数据的多维度扩展工程中的数据处理问题以及程序代码归一化后多维数据的KNN本页是Excel操作录象

1#引入工具包2importnumpyasnp3fromsklearn.neighborsimportKNeighborsClassifierasknn工程中的数据处理问题以及程序代码4#定义数据5ar_x=[[4032,1680,1450,5.3,5.6],6[4330,1535,1885,7.8,14.5],7[4053,1740,1449,6.2,10.8],8[5087,1868,1500,8.5,25.6],9[4560,1822,1645,7.8,15.8],10[3797,1510,1820,5.5,9.6]]11ar_y=[0,1,0,1]KNN算法的程序实现16#建立模型并预测17model=knn(n_neighbors=3)18model.fit(nor_ar[:4],ar_y)19pre=model.predict(nor_ar[4:6])20print(pre)工程中的数据处理问题以及程序代码

12#利用归一化处理数据13ar_min=np.min(ar_x,0)14ar_mn=np.max(ar_x,0)-ar_min15nor_ar=np.around((ar_x-ar_min)/ar_mn,4)KNN算法的程序实现测试工程中的数据处理问题以及程序代码训练清洗处理原始数据训练集测试集模型合格?F泛化T模型:f()XY训练模型与测试应用“测试集”“训练集”工程中的数据处理问题以及程序代码训练模型与测试应用本小节结束!人工智能KNN算法(三)目录人工智能中的常用概念工程中的数据处理问题以及程序代码KNN的原理123人工智能算法的常用概念训练清洗处理原始数据训练集测试集模型合格?F泛化T模型:f()XY测试常用术语预测现实预测需谨慎常用术语数据集维数=8属性术语训练、测试、数据集、训练集、样本、维数、属性、测试集“训练集”每条数据:样本求模型-----“训练”“测试集”验证模型正确性----“测试”品牌型号长(mm)宽(mm)高(mm)用户行为BAOJ310403216801450略过XW-M1433015351885浏览POL405317401449略过BW5508718681500浏览BDe6456018221645浏览Wuling379715101820略过回归分类常用术语术语标记、监督学习、分类、回归、无监督学习标记数据集监督学习“无标记”:无监督学习常用术语训练泛化测试的性能不好,比如正确率不高:欠拟合测试很好,泛化能力不好:过拟合测试训练清洗处理原始数据训练集

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论