《机器学习-Python实战(微课版)》课件 第一章 机器学习入门基础_第1页
《机器学习-Python实战(微课版)》课件 第一章 机器学习入门基础_第2页
《机器学习-Python实战(微课版)》课件 第一章 机器学习入门基础_第3页
《机器学习-Python实战(微课版)》课件 第一章 机器学习入门基础_第4页
《机器学习-Python实战(微课版)》课件 第一章 机器学习入门基础_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章机器学习入门基础本章主要讲述机器学习相关的概念、基本框架、实施流程以及应用领域等。通过本章学习可以:熟悉机器学习的相关概念理解机器学习的原理熟悉机器学习的四种类型掌握机器学习的实施流程了解机器学习的应用领域了解机器学习的开发工具学习目标机器学习的概念人工智能、机器学习、深度学习的关系机器学习的概念机器学习的原理机器学习的四种类型机器学习的实施流程机器学习的应用领域机器学习的开发工具Python人工智能、机器学习、深度学习的关系1、机器学习和深度学习都属于AI的范畴2、机器学习是AI的一个分支技术3、深度学习是机器学习里的特定分支技术总结:三者是包含关系,不冲突也不并列机器学习的概念人工智能、机器学习、深度学习的关系机器学习的概念机器学习的原理机器学习的四种类型机器学习的实施流程机器学习的应用领域机器学习的开发工具Python机器学习的概念美国作家PeterHarrington在他的《机器学习实战》一书中是这么说的:“机器学习就是把无数的数据转换成有用的信息。”机器学习的概念英国作家PeterFlach在他的《机器学习》一书中,把机器学习的概念概括为:“使用正确的特征来构建正确的模型,以完成指定任务”。机器学习的概念人工智能、机器学习、深度学习的关系机器学习的概念机器学习的原理机器学习的四种类型机器学习的实施流程机器学习的应用领域机器学习的开发工具Python经验规律归纳预测输入新的问题未来机器学习的原理机器学习,顾名思义就是让机器进行学习,学习的目的是实现对世界上的人事物进行预测或者判断,这就是机器学习的主要作用。机器学习的原理小孩子通过不断地试错,学会哪些东西能吃,哪些东西不能吃。机器学习的原理机器学习过程机器学习的原理机器学习并不是任何情况下都能预测或者判断的,也不是每次都能够判断准确的,这与数据的特性和准确性有非常大的关系。搜索推荐机器学习的原理医疗机器学习的原理机器学习本质上是一个提高效率的工具。机器学习的本质上是什么?机器学习的概念人工智能、机器学习、深度学习的关系机器学习的概念机器学习的原理机器学习的四种类型机器学习的实施流程机器学习的应用领域机器学习的开发工具Python机器学习的四种类型机器学习可分为四大类:监督学习、无监督学习、半监督学习和增强学习。监督学习:通过学习已有的标记数据样本构建模型,再利用模型对新的数据进行预测。无监督学习(非监督学习):通过学习没有标记的数据样本,发掘未知数据间的隐藏结构关系,从而实现预测。半监督学习:它是一种在预测时,既使用已标记的样本数据,也使用未标记的样本数据的方法。增强学习,指通过与环境的交互,以推测和优化实际的动作,从而实现决策。机器学习的四种类型监督学习监督学习是通过学习已有的标记数据样本构建模型,再利用模型对新的数据进行预测。例如,为了预测某位患者在一年内是否会心脏病发作,监督学习可以利用以前就医患者的相关数据(包括年龄、体重、身高和血压)生成一个模型,用来预测心脏病发作的概率。常见的监督学习主要分为回归和分类两种形式,回归可用于预测连续值的结果(如预测未来房价走势),分类可用于预测离散值的结果(如判断图片上的动物是猫还是狗)。机器学习的四种类型无监督学习无监督学习也可称为非监督学习,通过学习没有标记的数据样本,发掘未知数据间的隐藏结构关系,从而实现预测。聚类学习就是一种比较常用的无监督学习,聚类的目的是把相似的对象聚在一起,构成不同的集合,例如基因序列分析等应用。机器学习的四种类型半监督学习半监督学习,它是一种在预测时,既使用已标记的样本数据,也使用未标记的样本数据的方法,通常情况下,无标记样本的数量远超过有标记样本,因为有时候获得有标记数据的成本很高,所以在训练分类器模型时,先使用部分已经标记的数据,在学习了数据的内在结构联系以后,再使用大量无标记的数据进一步学得更好的模型,从而实现对数据的有效预测。机器学习的四种类型增强学习所谓增强学习,是通过与环境的交互,以推测和优化实际的动作,从而实现决策。和上述学习类型相比,增强学习法输入的数据,将直接反馈到模型,与此同时,模型作出相应调整并依据状态的变化来获得强化后的信号,从而完成和环境的交互。例如自动驾驶汽车通过不断与环境交互来学习。在此,我们只需要知道机器学习整体框架的基本概念即可,实际应用场景中,使用最多的主要是监督学习和无监督学习两大类。机器学习的概念人工智能、机器学习、深度学习的关系机器学习的概念机器学习的原理机器学习的四种类型机器学习的实施流程机器学习的应用领域机器学习的开发工具Python机器学习的实施流程机器学习的一般实施流程,包括数据收集、数据清洗、特征提取与选择、模型训练、模型评估测试、模型部署应用等步骤。机器学习的实施流程第一步:数据收集应用机器学习解决问题,在明确目标任务(即明确要解决的问题和业务需求)之后,首先需要进行数据收集。收集数据有多种不同的方式,如制作网络爬虫从网站上抽取数据、服务器中存储的应用数据、设备发送过来的测试数据等,在机器学习任务中使用的数据称为数据集。典型的数据集类似于一个二维的电子表格或数据库表,每一行称为一个数据样本,每一列的属性称为特征(如身高、体重等)序号姓名性别身高(cm)体重(kg)喜欢的颜色1001张三男17560蓝色1002李四女16048红色1003王五男18065黑色1004赵六女16550黑色机器学习的实施流程第二步:数据清洗大部分情况下,收集得到的数据需要经过清洗后才能够为算法所使用,真实的数据中通常会出现一些数据质量问题,比如:①不完整:数据中缺少属性或者包含一些缺失的值。②多噪音:数据包含错误的记录或者异常点。③不一致:数据中存在矛盾的、有差异的记录。序号姓名性别身高(cm)体重(kg)喜欢的颜色1001张三男17560蓝色1002李四女160Null红色1003王五男25065黑色1004赵六女16550赵六机器学习的实施流程第三步:特征提取与选择对数据进行初步的清洗后,需要将其转换为一种适合机器学习模型的表示形式,并且转换后一样准确地表示数据。例如通过人的身高、体重、喜欢的颜色这些特征属性来预测性别,我们不会把“蓝色”、“红色”、“黑色”直接输入给模型,因为机器学习的模型算法均要求输入的数据必须是数值型的,在此分类问题中,需要将类别数据编码成为对应的数值表示,可以采用哑编码,它是一种常用的将特征数字化的方式。序号姓名性别身高(cm)体重(kg)蓝色红色黑色1001张三男175601001002李四女160480101003王五男180650011004赵六女16550001机器学习的实施流程特征选择的必要性主要在于以下几点:①减少训练的时间,能使用较少的特征更快地生成模型。②简化模型,使模型更容易被使用者所解释。③使模型的泛化能力更好,避免过拟合。特征选择的方法有:过滤法(filter)、包裹法(wapper)、嵌入法(Embedded)等。机器学习的实施流程第四步:模型训练数据经过预处理之后,就可以用来训练模型,一般会把数据集分为训练集和测试集,或对训练集再细分为训练集和验证集,训练模型是在训练数据集上进行的。在模型训练过程中,需要对模型超参进行调优,如果不了解算法原理,往往无法快速定位能决定模型优劣的模型参数,所以在训练过程中,对机器学习算法原理的要求较高,理解越深入,就越容易发现问题的原因,从而快速找到合理的调优方法。机器学习的实施流程第五步:模型评估测试利用训练数据生成模型后,使用验证集来验证模型的有效性,使用测试集来评估模型在真实环境中的泛化能力。如果测试结果不理想,则分析原因并进行模型优化。过拟合、欠拟合是模型诊断中常见的问题,如果出现过拟合(指所训练的模型在训练集上表现得非常优秀,可以有效地区分每一个样本,但在测试集上表现得很差),可以通过增加数据量和降低模型复杂度来优化,如果出现欠拟合(指所训练的模型在训练集中就已经表现得很差,准确度很低),可以通过提高特征数量和质量,增加模型复杂度来优化。模型评估针对分类、回归等不同类型的机器学习问题,评估指标的选择也有所不同。所以,需要熟悉每种评估指标的精确定义,有针对性地选择合适的评估指标,并根据评估指标的反馈进行模型调整。一般情况下,模型调整后,需要重新训练和评估,所以机器学习的模型建立过程就是不断地尝试,并最终达到最优状态。机器学习的实施流程第六步:模型部署应用通过在测试集上完成评估的模型,就可以用来预测新数据的值。这时,需要将该模型部署到实际的生产场景中,并根据业务场景的真实数据对模型进行不断的微调。机器学习的概念人工智能、机器学习、深度学习的关系机器学习的概念机器学习的原理机器学习的四种类型机器学习的实施流程机器学习的应用领域机器学习的开发工具Python机器学习的应用领域智能汽车智能汽车通过机器学习技术整合物联网资源,智能了解车主及周边的环境,自动根据司机的需求灵活调整车内设置,比如座椅位置、温度、音响,等等;甚至还可以报告故障和智能修复故障。在自动驾驶方面,可以为驾驶者提供交通和道路状况方面的实时建议及事故预警。机器学习的应用领域气象预测气象预报主要分为短时预测和长期预测。短时预测指未来几小时到几天不等的天气预测,长期预测指的是厄尔尼诺(ElNino)、拉尼娜(LaNina)等气候现象。短期预测通常基于地区内的气象站所提供的多种实时数据进行分析,如当地的气温、湿度、气压、风速、雷达图等,以复杂的物理模型综合运算得出结果。传统方法通常需要为模型设定大气物理的先验知识,而机器学习方法选择避开物理因素,尝试利用大量数据驱动机器从算法训练中“习得”大气物理学的原理。目前机器学习在气象的短期预测领域已有较为成熟的应用,在长期的气象预测上科学家也正在开发相应的模型来做各种尝试。机器学习的应用领域个性化营销推广商家对顾客越了解,就越能够为顾客提供更好的服务,因而卖出的东西也就会越多,这是个性化营销的基础。我们曾碰到过这样的情况:在网上商店上浏览某件产品,但没有买,而过了几天后,再去浏览各个不同的网站时都会看到那款产品的数字广告。这种个性化营销其实只是冰山一角,企业能够进行全方位的个性化营销,如具体给顾客发送什么样的电子邮件,给他们提供什么样的优惠券,还有给他们推荐什么产品等等,这一切都是为了提高交易达成的可能性。机器学习的应用领域自然语言处理(NLP)自然语言处理正被用于各个领域的很多项应用当中。有自然语言的机器学习算法能够替代客户服务人员,快速地给客户提供他们所需的信息。它正被用于将合同中艰深晦涩的法律措辞转变成简单易懂的普通语言,也被用于帮助律师整理大量的信息,提高案件准备效率。机器学习的应用领域数据安全性恶意软件是一个越来越严峻的问题。2014年,卡巴斯基实验室称,它每天检测到的新恶意软件文件数量达到32.5万。不过,以色列深度学习技术公司DeepInstinct公司指出,各个新恶意软件通常都有跟旧版本一样的代码——只有2%到10%的恶意软件文件出现迭代变化。他们的学习模型能够辨别那2%到10%的变异恶意软件,在预测哪些文件是恶意软件上有着很高的准确率。在其他情况下,机器学习算法能够发现云端数据如何被访问方面的模式,能够报告或可预测安全问题的异常情况。机器学习的概念人工智能、机器学习、深度学习的关系机器学习的概念机器学习的原理机器学习的四种类型机器学习的实施流程机器学习的应用领域机器学习的开发工具Python机器学习的开发工具PythonPython开发环境的搭建使用的工具/环境工具/环境说明Windows1064bit操作系统此项实训所使用的计算机操作系统Google、火狐等此项实训所使用的浏览器一站式开发环境AnacondaAnaconda是一个基于Python的数据处理和科学计算平台,它已经内置了许多非常有用的第三方库,装上Anaconda,就相当于把Python和一些如Numpy、Pandas、Matplotlib等常用的库自动安装好了,使得安装比常规python安装要容易。因而建议直接安装Anaconda。集成开发环境PyCharmPyCharm是一种PythonIDE(IntegratedDevelopmentEnvironment,集成开发环境),带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具,比如调试、语法高亮、Project管理、代码跳转、智能提示、自动完成、单元测试、版本控制。JupyterNotebookJupyterNotebook的本质是一个Web应用程序,便于创建和共享文学化程序文档,支持实时代码,数学方程,可视化和markdown。用途包括:数据清理和转换,数值模拟,统计建模,机器学习等等。SpyderSpyder是Python(x,y)的作者为它开发的一个简单的集成开发环境。和其他的Python开发环境相比,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论