机器学习的基本流程_第1页
机器学习的基本流程_第2页
机器学习的基本流程_第3页
机器学习的基本流程_第4页
机器学习的基本流程_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1机器学习的基本流程主讲人:许正阳2CONTENTS目录1一般流程2数据采集3数据预处理4建模与训练5评估与优化机器学习的一般流程3机器学习的流程图(1)收集数据利用开放数据集或网络爬虫获取数据(2)数据预处理数据降噪,去除无用特征(3)建模与训练选择、设计模型,训练模型参数(4)评估训练效果精确度、准确度、召回率、f值数据采集4数据来源“数据决定了机器学习的上界,而模型和算法只是逼近这个上界。”网络爬虫:优势:数据接近真实数据,工程可用性高,无人力成本劣势:数据、标签噪声大,预处理复杂众包标注:优势:数据准确度高,模型拟合效果好劣势:人力成本过高现有数据集:优势:数据准确度高,模型拟合效果好,无人力成本劣势:工程性不强数据采集5数据获取方式网络爬虫:分布式scrapy+mongodb现有数据集:Kaggle数据集:http:///datasets亚马逊数据集:https://registry.opendata.awsUCI机器学习库:https:///ml/datasets.html谷歌的数据集搜索引擎:https:///datasetsearch计算机视觉数据集:https://www.visualdata.io数据预处理6数据预处理基本方法:去除唯一属性唯一属性通常是一些id属性,这些属性并不能刻画样本自身的分布规律,所以简单地删除这些属性即可数据标准化某些算法要求样本具有零均值和单位方差;归一化后求优过程范围变小,寻优过程变得平缓,更容易正确收敛到最优解特征选择(降维)从给定的特征集合中选出相关特征子集的过程称为特征选择。进行特征选择的两个主要原因是:

减轻维数灾难问题;降低学习任务的难度。建模与训练7案例(1)波士顿房价预测模型回归预测模型,一般采用神经网络或逻辑回归模型,计算预测值与真实值均方差,使用梯度下降法最优化loss(2)鸢尾花分类分类模型,预测采用softmax使y符合概率分布,真实值采用one-hot编码(如[0,1,0]),计算与预测值的均方差作为损失函数,使用梯度下降法求最优解评估与优化8分类模型评估方法(1)准确率(2)对数损失函数(3)精确率-召回率(4)混淆矩阵评估与优化9回归模型评估方法(1)平方根误差特点:使用平均误差进行评估缺点:平均

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论