《Python机器学习:原理与实践(第2版)》课件 薛薇 - 第1-3章 机器学习概述-数据预测与预测建模_第1页
《Python机器学习:原理与实践(第2版)》课件 薛薇 - 第1-3章 机器学习概述-数据预测与预测建模_第2页
《Python机器学习:原理与实践(第2版)》课件 薛薇 - 第1-3章 机器学习概述-数据预测与预测建模_第3页
《Python机器学习:原理与实践(第2版)》课件 薛薇 - 第1-3章 机器学习概述-数据预测与预测建模_第4页
《Python机器学习:原理与实践(第2版)》课件 薛薇 - 第1-3章 机器学习概述-数据预测与预测建模_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第1章机器学习概述机器学习的发展:人工智能中的机器学习

机器学习的核心:数据和数据建模符号主义人工智能:基于“一切都可规则化编码”的基本信念:通过硬编码,依指定规则自动完成相应的处理任务例:依据BMI判断肥胖棋类对弈程序专家系统(没有常识的专家系统是没有意义的)符号主义人工智能(弱人工智能)很难解决没有明确规则定义的问题(诸如语言翻译、语音识别、图像分类等)不能仅依据BMI对肥胖进行判断机器学习的发展:人工智能中的机器学习

诞生于20世纪50年代的人工智能(ArtificialIntelligence,AI),因旨在实现人脑部分思维的计算机模拟,完成人类智力任务的自动化实现强人工智能:会听(语音识别和机器翻译等)、会看(文字识别和图像识别等)、会说(语音合成和人机对话等)、会学习(知识表示和机器学习等)、会思考(逻辑推理和人机对弈)和会行动(机器人和自动驾驶等)的能力人工智能的研究经历了从符号主义人工智能(symbolicAI)、机器学习(MachineLearning)、深度学习(DeepLearning)的不同发展阶段第1章机器学习概述机器学习的发展:人工智能中的机器学习

第1章机器学习概述人工智能的研究经历了从符号主义人工智能(symbolicAI),到机器学习(MachineLearning)到深度学习(DeepLearning)的不同发展阶段。符号主义人工智能:基于“一切都可规则化编码”的基本信念机器学习概念的提出源于“人工智能之父”阿兰·图灵的图灵测试:“思考的机器”是可能的机器学习目的:教计算机借助某些算法完成任务相对于经典的程序设计范式,机器学习是一种新的编程范式机器学习的核心:数据和数据建模

实现新的编程范式的核心任务发现隐藏在“数据”和“答案”中的“规则”理论可行性:1783年贝叶斯提出的贝叶斯定理存在一种能够从历史经验,即数据集中的“数据”和“答案”中,学习两者之间关联性“规则”的数学方法将“数据”和“答案”视为一种广义数据,借助数学方法学习“规则”的本质是基于数据的建模从机器学习到深度学习:2006年提出的深度学习从数据中学习“数据表示”强调基于训练数据,通过众多连续的神经网络层,过滤和提取数据中的服务于预测的重要特征相对于拥有众多层的深度学习,机器学习有时也被称为浅层学习(ShallowLearning)第1章机器学习概述机器学习的核心:数据和数据建模

机器学习的对象:数据集合,简称数据集(也称样本集)例如:结构化数据:数据集中的一行通常称为一个样本观测数据集中的一列通常称为一个变量(特征)依各变量的取值类型可将变量细分为:数值型、顺序型和类别型三类,后两类统称为分类型不同视角下的数据集合经典统计中的样本;基于样本对总体特征或关系进行推断机器学习中的数据集,一般不具有随机样本的典型特征第1章机器学习概述机器学习的核心:数据和数据建模

半结构化数据:结构不固定的数据例:员工简历数据JSON(JavaScriptObjectNotation)格式:非结构化数据:文本、图像、音频和视频数据数据的数字化和结构化处理数字的数字化二进制,比特位文本的数字化ASCII编码、国家汉字编码标准GBK、万国码图形的数字化:位图和矢量图类似于计算机字形码第1章机器学习概述机器学习的核心:数据和数据建模

机器学习的任务:数据建模,完成两大主要任务:数据预测;数据聚类数据预测:基于已有数据集,归纳出输入变量和输出变量之间的数量关系回归预测和分类预测(二分类预测和多分类预测)目的:在数量关系具有普适性和未来不变的假设下,可用于对新数据输出变量取值的预测发现对输出变量产生重要影响的输入变量例如:空气质量数据的分析方法特点:经典统计一般为验证式分析;机器学习的归纳式分析特点(从统计的模型驱动到机器学习的数据驱动)统计方法有严格的数理支撑;机器学习探索式的试验发现第1章机器学习概述机器学习的核心:数据和数据建模

机器学习的任务:数据聚类发现数据中可能存在的小类,并通过小类刻画和揭示数据的内在组织结构聚类结果:给每个样本观测指派一个属于哪个小类的标签,称为聚类解。聚类解将保存在一个新生成的分类型变量中例如:数据聚类和数据预测中的分类有联系更有区别:有监督学习和无监督学习第1章机器学习概述机器学习的核心:数据和数据建模

机器学习的任务:数据建模其他方面:关联分析:寻找到事物之间的联系规律,发现它们之间的关联性模式诊断:模式(Pattern)是一个数据集合,由分散于数据集中的极少量的零星数据组成。模式通常具有其他众多数据所没有的某种局部的、非随机的、非常规的特殊结构或相关性。模式诊断就是要从不同角度采用不同方法发现数据中可能存在的模式第1章机器学习概述第2章机器学习中的Python基础Python:机器学习的首选工具Python的集成开发环境:AnacondaPython第三方包的引用NumPy使用示例Pandas使用示例NumPy和Pandas的综合应用Matplotlib的综合应用Python:机器学习的首选工具

Python是一款面向对象的解释型计算机语言。开源、代码可读性强,可实现高效开发等是Python的重要特征面向对象的程序设计(ObjectOrientedProgramming,OOP)是相对面向过程的程序设计而言的OOP采用“封装”的思想,将具有一定独立性和通用性的处理过程和变量(数据),封装在“对象”中变量称为对象的“属性”,变量值对应属性值(有具体变量值的对象称为“对象实例”)处理过程称为对象的“方法”多个具有内在联系的对象可进一步封装在“类”中Python在机器学习领域获得广泛使用的原因:简明易用,严谨专业良好的开发社区生态丰富的第三方程序包NumPyPandasSciPyMatplotlibScikit-learn(skLearn)第2章Python机器学习基础Python的集成开发环境:Anaconda

Anaconda:兼容Linux、Windows和MacOSX.环境,支持Python2.X和Python3.X,且可方便快捷完成机器学习和数据科学任务的开源IDE通常将Anaconda可视为Python的发行版Anaconda®Anaconda的官方下载地址为:/AnacondaPrompt的使用第2章Python机器学习基础Python的集成开发环境:Anaconda

Spyder的使用:

Python程序的扩展名为.py第2章Python机器学习基础JupyterNotebook的使用:

1984年提出的文字表达化编程形式的具体体现是一个基于网页的交互式笔记本;扩展名为.ipynb的JSON格式文件第2章Python机器学习基础Python第三方包的引用第三方包以模块(Moduel,文件扩展名为.py)方式,将可实现各种功能的程序代码(变量、函数)“打包”在一起包由多个相关模块组成,一般以文件目录的形式组织(目录名为包名)引用第三方包中的模块的基本函数:import函数import

包名或模块名:导入指定包或模块import

包名.模块名:导入指定包中的指定模块from

模块名

import函数名:导入指定模块中的指定函数from

模块名

import

函数名1,函数名2,…:导入指定模块中的若干个指定函数from

模块名

import*:导入指定模块中的所有函数可增加:as别名importnumpyasnp,表示导入numpy并指定别名为np指定别名可以有效避免不同模块有相同函数名的问题之后可在自己编写的Python程序直接调用已导入模块中的函数,通过代码重用(重复使用)的方式快速实现某种特定功能第2章Python机器学习基础

列表:Python重要的数据组织形式,NumPy数组数据的重要来源NumPy数组中元素应有相同的数据类型,列表可以不同Chapter2_1.ipynb第2章Python机器学习基础NumPy(NumericalPython)使用示例:最常用的

Python

包。特点:第二,拥有丰富的数学运算和统计函数指定种子的目的是确保每次运行代码时生成的随机数可以再现。否则,每次运行代码生成的随机数会不相同random.randn()生成服从均值为0标准差为1的标准正态分布的随机数Chapter2_1.ipynb第2章Python机器学习基础NumPy(NumericalPython)使用示例:最常用的

Python

包。特点:第二,拥有丰富的数学运算和统计函数random.normal()函数生成2行5列的2维数组,数组元素服从均值为5标准差为1的正态分布利用floor函数得到距各数组元素最近的最大整数eye(5)函数生成5行5列的单位阵YChapter2_1.ipynb第2章Python机器学习基础Pandas(Pythondataanalysis)使用示例:提供了快速便捷组织和处理结构化数据的数据结构和大量功能丰富的函数。特点:基于NumPy构建:序列(Series):对应1维数组数据框(DataFrame):对应2维表格型数据结构,也称数据框为序列的容器Pandas数据框是存储机器学习数据集的常用形式Pandas的索引Chapter2_2.ipynb第2章Python机器学习基础Pandas的数据框Chapter2_2.ipynb第2章Python机器学习基础Pandas的数据加工处理Chapter2_2.ipynb第2章Python机器学习基础NumPy和Pandas的综合应用:空气质量监测数据的预处理和基本分析数据预处理Chapter2_3.ipynb第2章Python机器学习基础基本分析NumPy和Pandas的综合应用:空气质量监测数据的预处理和基本分析Chapter2_3.ipynb第2章Python机器学习基础派生虚拟自变量NumPy和Pandas的综合应用:空气质量监测数据的预处理和基本分析Chapter2_3.ipynb第2章Python机器学习基础抽取数据子集NumPy和Pandas的综合应用:空气质量监测数据的预处理和基本分析Chapter2_3.ipynb第2章Python机器学习基础AQI的时序变化特点Matplotlib的综合应用:空气质量监测数据的图形化展示Chapter2_4.ipynb第2章Python机器学习基础第3章数据预测与预测建模从线性回归预测模型说起认识线性分类预测模型从线性预测模型到非线性预测模型预测模型的参数估计预测模型的选择导言

数据预测,简而言之就是基于已有数据集,归纳出输入变量和输出变量之间的数量关系。基于这种数量关系:一方面,可发现对输出变量产生重要影响的输入变量;另一方面,在数量关系具有普适性和未来不变的假设下,可用于对新数据输出变量取值的预测。对数值型输出变量的预测称为回归。对分类型输出变量的预测称为分类数据预测涉及的问题第一,预测模型基础第二,参数估计策略第三,模型选择第3章数据预测与预测建模从线性回归预测模型说起

预测模型一般以数学形式展现,以精确刻画和表述输入变量和输出变量取值之间的数量关系。可细分为回归预测模型和分类预测模型,分别适用于回归问题和分类问题线性回归预测模型的含义线性回归预测模型用于预测的回归方程应明确模型系数的实际含义应明确预测模型和回归方程的联系第3章数据预测与预测建模

从线性回归预测模型说起

线性回归模型的几何理解可将数据集中的N个样本观测数据,视为m维实数空间中的N

个点几何上与2维平面中的一条直线相对应,该直线称为回归直线与3维平面中的一个平面相对应,该平面称为回归平面线性回归预测模型的评价均方误差:越小越好拟合优度:R方,越接近1越好第3章数据预测与预测建模

从线性回归预测模型说起

Python应用实践:PM2.5浓度预测建立一元线性回归模型第3章数据预测与预测建模Chapter3_1.ipynb从线性回归预测模型说起

Python应用实践:PM2.5浓度预测建立多元线性回归模型第3章数据预测与预测建模Chapter3_1.ipynbPython模拟:可通过增加模型的复杂度减少模型的预测误差第3章数据预测与预测建模

增加模型复杂度可以有效降低模型的预测误差,但当复杂度达到一定程度后再继续增加就不再有意义了Chapter3_2.ipynbLogistic回归预测模型:分类预测模型仅讨论二分类预测模型,多分类预测可通过多个二分类预测实现再看一般线性回归模型对响应概率建模,称为:一般线性概率模型一般线性概率模型的不足:无法保证模型给出的概率值限制在0-1范围内线性概率模型反映了概率与自变量取值之间的线性而非一般经验上的非线性关系例:收入和购买某奢侈品的概率认识线性分类预测模型

第3章数据预测与预测建模Logistic回归预测模型:二分类预测模型

认识线性分类预测模型

第3章数据预测与预测建模Logistic回归预测模型:二分类预测模型β的实际意义仍不明显例:有x1,x2两个输入变量;当x1从0变化到1时:优势(odds)优势比(OddsRatio)Logistic回归模型中:于是:输入变量变化一个单位引起的优势比为exp(β)输入变量变化一个单位引起响应概率比(相对风险)近似为exp(β)接近0时

第3章数据预测与预测建模认识线性分类预测模型

线性分类模型的几何理解二分类预测建模的目的,就是找到一条能够将不同形状或颜色的样本观测点有效分开的分类线,即分类边界分类直线分类平面第3章数据预测与预测建模Python应用实践:空气质量等级预测建立简单二分类预测模型数据预处理建立二项Logistic回归模型绘制二项Logistic回归模型的分类边界计算分类模型的评价指标

(chapter3-3.ipynb)

第3章数据预测与预测建模Python应用实践:空气质量等级预测建立简单二分类预测模型模型的评价(chapter3-3.ipynb)第3章数据预测与预测建模认识线性分类预测模型

二分类预测模型中的误差评价指标混淆矩阵注意:总错判率会受数据不平衡性的影响TPR(真正率)TNR1-TNR=FPR(假正率)第3章数据预测与预测建模

查全率也称召回率(Recall)第3章数据预测与预测建模Python应用实践:空气质量等级预测建立较复杂的二分类预测模型建立二项Logistic回归模型计算模型的混淆矩阵,总正确率,F1得分评价模型:采用二分类模型评价的图形化方式ROC曲线和PR曲线评价模型预测精度优于前模型(chapter3-3.ipynb)第3章数据预测与预测建模预测模型的评价---模型的图形化评价工具

ROC曲线按预测概率降序排序取分位点上的概率值作为判断1/0的阈值计算TPR和FPR,点连线AUC值第3章数据预测与预测建模Python应用实践:空气质量等级预测ROC曲线和AUC值;PR曲线chapter3-3.ipynb第3章数据预测与预测建模

第3章数据预测与预测建模提高预测精度从直线到曲线,从平面到曲面

从线性预测模型到非线性预测模型

解决非线性回归和非线性分类问题:从直线到曲线,从平面到曲面第3章数据预测与预测建模

预测模型的参数估计

总损失:第3章数据预测与预测建模

预测模型的参数估计

其中:第3章数据预测与预测建模

预测模型的参数估计

第3章数据预测与预测建模参数解空间和搜索策略参数的最小二乘估计损失函数L是模型参数的非负二次函数

第3章数据预测与预测建模参数解空间和搜索策略在预测模型参数解空间中,采用一定的搜索策略估计参数梯度下降法预测模型的参数估计第3章数据预测与预测建模预测模型的选择

预测模型的选择涉及两个问题:如何估计预测模型未来的预测性能?若仅倾向选择复杂模型会导致哪些问题,应如何解决?两个重要概念训练误差:指预测模型对训练集中各样本观测输出变量的实际值与预测值不一致程度的数值化度量。泛化误差:是预测模型对新数据集进行预测时,给出的预测值和实际值不一致程度的数值化度量。预测误差测度模型在未来新数据集上的预测性能。泛化误差值较低,说明模型具有一般预测场景下的普适性和推广性,认为模型有较高的泛化能力训练误差和泛化误差的不同预测建模时可直接计算出预测模型的训练误差泛化误差是未知的,无法直接计算得到,只能给出泛化误差的估计值第3章数据预测与预测建模预测模型的选择

泛化误差的估计训练误差,即为用于估计预测模型参数(也称训练预测模型)的数据集,其中的样本观测称为“袋内观测”在恰当的训练样本量下,增加模型的复杂度会带来训练误差的降低模型复杂度确定的条件下,训练误差会随样本量增加而下降第3章数据预测与预测建模预测模型的选择

第3章数据预测与预

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论