人工智能基础与应用(第2版)(微课版)课件 模块3 线性回归:预测未来趋势_第1页
人工智能基础与应用(第2版)(微课版)课件 模块3 线性回归:预测未来趋势_第2页
人工智能基础与应用(第2版)(微课版)课件 模块3 线性回归:预测未来趋势_第3页
人工智能基础与应用(第2版)(微课版)课件 模块3 线性回归:预测未来趋势_第4页
人工智能基础与应用(第2版)(微课版)课件 模块3 线性回归:预测未来趋势_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

3-1认识机器学习模块❸线性回归:预测未来趋势目录CONTENTS机器如何学习01机器学习算法02一.机器如何学习1.机器学习的一般流程机器通过学习,就具备了可以自主获得事物规律或解决问题的能力一.机器如何学习2.机器学习的三要素经验数据从哪学?算法怎么学?模型学到什么?以算力作为支撑二.机器学习算法1.监督学习所谓监督学习:是指机器在有已知输入值xi和输出值y的经验数据(样本)的情况下开展的学习。学习方法特点:(1)训练的数据有标签(label)。(2)样本的特征和标签已知。(3)学习的目的就是建立一个将输入准确映射到输出的模型。基于动物特征的猫鼠分类的监督学习二.机器学习算法2.无监督学习无监督学习:就是指机器在学习过程中不受监督,学习模型不断提高自我认知和不断巩固,最后进行自我归纳来达到学习目的。学习方法特点:(1)无需大量的标注数据。(2)以更接近人类的学习方式不断自我发现、学习和调整。不同分类结果的无监督学习人工智能基础与应用Thankyouverymuch!3-2认识线性回归模块❸线性回归:预测未来趋势目录CONTENTS线性回归的数学表达式01梯度下降法03线性回归的几个概念02一.线性回归的数学表达式定义及表达式线性回归(linearregression)是一种通过拟合自变量xi与因变量y之间的最佳线性关系,来预测目标变量的方法。如果上式中只包括一个自变量x和一个因变量y,且二者的关系可用一条直线近似表示,则这种回归分析被称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量xi,且因变量y和自变量xi之间是线性关系,则称其为多元线性回归分析。二.线性回归的几个概念1.方差衡量误差真实值:预测值:y二.线性回归的几个概念2.总平方和SST:衡量了所有观测值相对于整体均值的离散程度。其值越大,说明原始的样本本身具有越大的波动,这种波动反映了因变量的整体偏差。如何评价上述直线对真实值拟合的好坏程度二.线性回归的几个概念3.拟合优度R2:称为判断系数或拟合优度。由右式可知,线性回归方程以外的其他因素引起的误差SSE越小,R2就越接近1,表示此线性回归方程可以很好地解释因变量的变化;反之,如果SSE越大,接近总体偏差SST,R2就越接近0,说明此问题可能不适合采用线性回归模型解决。尽可能最小y=+三.梯度下降法1.定义‌梯度下降法:‌是一种用于求解函数最小值的优化算法。其基本思想是通过迭代的方式,沿着函数的负梯度方向逐步减小函数值,直到达到局部最小值。梯度下降法适用于求解无约束优化问题,常用于机器学习中的参数优化。损失函数L可以理解为系数b和w的函数,记为寻找损失函数L(b,w)的最小值的过程,实际就是按照某种方向,不断去微调b和w的值,一步一步尝试找到这个最小值。Min()三.梯度下降法2.求解过程三.梯度下降法3.线性回归解决问题一般步骤01根据问题构建一个线性回归模型,即构建一个函数。02用样本训练模型,使用梯度下降法调整模型参数,目标使损失函数最小。03重复步骤(2),直至找到损失函数的最小值。04用验证集测试模型的精度,评价指标常为均方误差MSE。05如预测结果不满意,则需要改进模型(如加大训练集、改变学习率等)。06回到步骤(2),重新训练模型,直至获得满意的模型。07利用自变量xi和满意的模型去计算预测值y,从而解决预测问题。人工智能基础与应用Thankyouverymuch!3-3项目1—预测二手车价格模块❸线性回归:预测未来趋势目录CONTENTS提出问题01预备知识03解决方案02任务1—准备训练集和测试集04任务3—模型的测试及评估06任务2—模型的构建与训练05一.提出问题问题描述

市面上二手车种类繁多,又涉及到汽车的诸多专业知识,对于多数人而言,购买一辆与实际价格相符、车型适中的二手车,并不是一件轻松的事情。如果能从二手车交易的历史记录中发现某种规律,如何合理评估一台二手车的预交易价格呢?让机器帮你找到这个问题的答案二.解决方案1.问题本质二手车价格预测问题,其实是寻找二手车的基本特征(如汽车品牌、变速箱类型、已使用年限等)与价格之间的关系多元线性回归的机器学习问题二.解决方案2.解决方案三.预备知识1.数据归一化(1)min-max标准化(2)零均值标准化三.预备知识2.线性回归模型如何训练1)定义模型:假设有9个自变量x(品牌、车身类型等)影响二手车的价格,模型的输出值是价格y。因此,模型的假设函数表达式如下。2)构造损失函数:

3)开始训练:初始化参数,包括参数φ、学习率和迭代次数n。将样本数据输入模型,计算损失函数。利用学习算法如梯度下降法寻找损失函数的最小值,并依次更新模型的参数。不断重复步骤(2)、(3),直到模型收敛于或训练迭代次数达到设定阈值n即停止。四.任务1——准备训练集和测试集1.样本数据结构四.任务1——准备训练集和测试集2.数据集归一化处理切分数据切分数据四.任务1——准备训练集和测试集2.数据集归一化处理归一化后的样本数据四.任务1——准备训练集和测试集3.数据集分成训练集和测试集训练集测试集五.任务2——模型的构建与训练1.了解模型参数五.任务2——模型的构建与训练2.代码实现构建模型五.任务2——模型的构建与训练2.代码实现模型训练后的结果为啥模型得分不高?六.任务3——模型的测试及评估1.计算均方误差代码执行后的结果六.任务3——模型的测试及评估2.绘制预测效果图实现代码六.任务3——模型的测试及评估2.绘制预测效果图运行结果六.任务3——模型的测试及评估3.误差原因分析01异常值对预测结果的影响。02样本集特征值个数过少对预测结果的影响。03样本的规模对预测结果的影响。04其它,如模型类型等。人工智能基础与应用Thankyouverymuch!3-4项目2—预测投保人医疗费用模块❸线性回归:预测未来趋势目录CONTENTS提出问题01预备知识03解决方案02任务1—加载数据并进行数据预处理04任务3—进一步改善模型性能06任务2—训练和测试医疗费用预测模型05一.提出问题问题描述我国农村医疗保险和全民医保制度的全面实施,缓解了广大人民群众“看病贵”的问题,提高了人民群众的生活质量,也改变了人们对保险的认识,越来越多人的接受和认可商业保险。与此同时,医疗保险公司作为一种商业经营实体,对投保人在未来可能发生的医疗费用进行预测,这是医疗保险公司回避风险、提高经营利润的一种保障措施。如何能得到一个较为精准的医疗费用预测模型呢机器如何去学习预测?二.解决方案1.问题本质医疗费用预测问题,就是试图从投保人的特征变量入手,通过机器学习提供的某种模型,如线性回归等,来寻找一个医疗费用与投保人特征相关的函数表达式。仍然采用多元线性回归来求解问题二.解决方案2.解决方案三.预备知识1.DataFrame数据的检索用途:从数据集中切分出需要的数据loc方法使用名称检索iloc方法使用索引号检索三.预备知识1.DataFrame数据的检索示例:运行结果三.预备知识2.DataFrame数据的更改1)按索引条件直接更改:结果三.预备知识2.DataFrame数据的更改2)用apply方法更改:结果四.任务1——加载数据并进行数据预处理1.导入相关库并加载数据读取的数据四.任务1——加载数据并进行数据预处理2.数据清洗和转换对数据进行转换,以方便机器学习四.任务1——加载数据并进行数据预处理3.数据的归一化处理归一化后的样本数据五.任务2——训练和测试医疗费用预测模型1.构建线性回归模型构建线性回归模型五.任务2——训练和测试医疗费用预测模型2.准备训练集和测试集按7∶3的比例分为训练集和测试集五.任务2——训练和测试医疗费用预测模型3.模型训练和测试运行结果五.任务2——训练和测试医疗费用预测模型4.预测结果可视化可视化结果六.任务3——进一步改善模型性能1.改进方向01分析样本特征的相关性。Age与bmi强相关六.任务3——进一步改善模型性能1.改进方向02考虑模型中是否存在非线性变量。处理办法六.任务3——进一步改善模型性能1.改进方向03评估连续性变量的影响是否也是连续的。处理办法六.任务3——进一步改

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论