图说图解机器学习第2版全套教学课件

上传人：b*** IP属地：浙江上传时间：2025-03-21 格式：PPTX 页数：45 大小：11.28MB 积分：35 举报 版权申诉

已阅读5页，还剩40页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

图说图解机器学习（第2版）汇报人：CONTENTS01人工智能与机器学习基础02线性回归：从原理到实战03分类算法实战解析04决策树与集成学习05模型优化方法论06深度学习入门实践CONTENTS07自然语言处理实战08课程思政融合设计人工智能与机器学习基础章节副标题01人工智能发展脉络人工智能的概念最早可以追溯到20世纪50年代。在这个时期，科学家们开始尝试让计算机模拟人类的智能。例如，1956年达特茅斯会议正式确立了“人工智能”这一术语，标志着人工智能作为一门学科的诞生。这一阶段为后续的发展奠定了理论基础。早期探索阶段1随着计算机技术的进步，人工智能在20世纪60-70年代迎来快速发展。专家系统等技术崭露头角，能够利用领域专家的知识进行推理和决策。同时，我国在语音识别技术方面也开始积极探索，为后续国产语音识别技术的发展埋下种子。快速发展时期2人工智能发展脉络由于计算能力的限制和理论研究的瓶颈，人工智能在发展过程中经历了低谷。但随着算法的改进和硬件性能的提升，到20世纪80-90年代，人工智能逐渐复苏。机器学习等领域取得重要进展，为人工智能的进一步发展提供了新的动力。低谷与复苏人工智能发展脉络进入21世纪，尤其是近年来，人工智能迎来了繁荣发展。深度学习技术取得重大突破，在图像识别、自然语言处理等众多领域取得优异成果。我国的语音识别技术也达到国际先进水平，广泛应用于智能语音助手等产品，展现了国产AI的强大实力。现代繁荣阶段机器学习核心框架利用KNIME工作流截图展示模型训练阶段。选择合适的机器学习算法，如线性回归、逻辑回归等，将预处理后的数据输入模型进行训练。在这个过程中，模型不断学习数据中的模式和规律，调整自身参数以提高预测准确性。模型训练过程在机器学习中，数据预处理是关键的第一步。通过KNIME工作流截图可以看到，我们对原始数据进行清洗、转换等操作。例如，去除缺失值、对数据进行标准化处理等，以提高数据质量，为后续模型训练提供良好的数据基础。数据预处理环节机器学习核心框架模型训练完成后，需要对其进行评价。借助KNIME工作流截图，我们可以看到使用多种评价指标，如混淆矩阵、F1分数、ROC曲线和AUC等。这些指标从不同角度评估模型的性能，帮助我们判断模型是否满足需求，是否需要进一步优化。模型评价要点线性回归：从原理到实战章节副标题02简单线性回归建模在KNIME中进行简单线性回归建模，需要配置相应节点参数。如在“LinearRegressionLearner”节点中，要指定自变量和因变量的列。通过合理配置这些参数，就能利用KNIME完成简单线性回归模型的构建。KNIME节点参数配置简单线性回归的数学公式为y=ax+b，其中y是因变量，x是自变量，a是斜率，b是截距。通过这个公式，我们可以描述两个变量之间的线性关系。例如，在研究身高与体重的关系时，就可能用到这样的公式来进行初步建模。数学公式解析简单线性回归建模最小二乘法可视化标注最小二乘法是简单线性回归中用于确定最佳拟合直线的方法。在可视化中，我们可以标注出每个数据点到拟合直线的垂直距离，这些距离的平方和就是最小二乘法要最小化的目标。通过可视化标注，能直观看到最小二乘法如何找到最适合数据的直线。多元回归特征工程在KNIME中，通过动态演示ForwardFeatureSelection节点的筛选过程，可以清晰看到每一步添加的特征以及模型性能的变化。比如在预测房价的多元回归模型中，该节点会逐步从众多特征（如房屋面积、房间数量等）中挑选出最关键的特征。ForwardFeatureSelection节点是一种逐步选择特征的方法。它从没有特征开始，每次添加一个能使模型性能提升最大的特征，直到无法提升性能为止。这种方法能有效筛选出对模型有重要影响的特征。KNIME中动态演示筛选过程ForwardFeatureSelection节点原理多元回归特征工程经过ForwardFeatureSelection节点筛选后，得到的特征子集是对模型贡献较大的特征。对这些筛选结果进行分析，可以了解哪些因素对因变量的影响最为显著，从而更好地理解数据和构建更有效的多元回归模型。筛选结果分析分类算法实战解析章节副标题03逻辑回归与泰坦尼克号预测在泰坦尼克号预测项目中，数据预处理至关重要。首先对原始数据进行清理，去除缺失值较多的列。接着对分类数据进行编码，例如将性别等特征转化为数值形式。通过这样的流程，为后续模型训练准备高质量数据。利用逻辑回归模型对泰坦尼克号乘客生存情况进行预测后，得到混淆矩阵。矩阵直观展示了模型预测的正确与错误情况，如真正例、假正例等。通过分析混淆矩阵，可评估模型性能。数据预处理流程混淆矩阵结果分析乘客生还率与社会公平探讨研究泰坦尼克号乘客生还率发现，不同阶层、性别等因素对生还率有显著影响。这引发了关于社会公平的讨论，反映出当时社会结构对个体命运的作用，也体现机器学习在分析此类社会现象中的价值。逻辑回归与泰坦尼克号预测SVM核函数对比实验线性核在KNIME中的参数调优相对简洁。主要调整惩罚参数C，C值影响模型对误分类的惩罚程度，不同C值下线性核模型表现出不同的分类性能。线性核参数调优这里展示高斯核与线性核在KNIME中的参数调优截屏对比。从截屏中可清晰看到不同核函数在不同参数设置下的模型表现差异，为选择合适核函数提供直观依据。对比截屏展示在KNIME中对高斯核进行参数调优，通过调整如γ等参数，观察模型性能变化。不同的γ值会使高斯核函数对数据的映射不同，进而影响模型的分类效果。高斯核参数调优01、02、03、决策树与集成学习章节副标题04决策树构建原理ID3算法在构建决策树时，以信息增益为准则选择特征。通过动画可以清晰看到，它从根节点开始，计算每个特征的信息增益，选择信息增益最大的特征作为当前节点的分裂特征。例如在一个天气分类问题中，通过计算天气状况、温度等特征的信息增益，决定以天气状况作为根节点的分裂特征，逐步向下构建决策树。CART算法即分类与回归树算法，它采用基尼指数选择特征进行分裂。动画展示中，在处理数据集时，计算每个特征的基尼指数，选择基尼指数最小的特征进行分裂。如在客户购买行为预测数据集中，CART算法通过比较不同特征的基尼指数，确定最佳分裂特征，从而构建二叉决策树。ID3算法动画分解CART算法动画分解决策树构建原理奥卡姆剃刀原则的哲学启示奥卡姆剃刀原则倡导“如无必要，勿增实体”。在决策树构建中，这一原则启示我们选择简单有效的模型。避免构建过于复杂的决策树，防止过拟合。例如在面对多个特征时，优先选择对分类或预测有显著影响的特征，而不是引入过多不必要的特征，以提高模型的泛化能力。随机森林实战演示KNIME中Bagging节点配置截图在KNIME中进行随机森林实战，Bagging节点的配置至关重要。截图展示Bagging节点的参数设置，如样本采样比例、特征采样比例等。通过合理设置这些参数，能够控制随机森林中每棵树的构建方式。例如设置样本采样比例为0.8，意味着每棵树将从原始数据集中随机抽取80%的样本进行训练。随机森林实战演示对比单棵决策树和随机森林的AUC（曲线下面积）值，能直观看到随机森林的优势。单棵决策树可能因数据的局部特征而导致过拟合，AUC值相对较低。而随机森林通过集成多棵决策树，综合了不同树的预测结果，降低了方差，提高了模型的稳定性和泛化能力，AUC值通常会有明显提升。如在某疾病预测项目中，单棵决策树AUC为0.65，随机森林的AUC提升到了0.8。单树与森林的AUC对比模型优化方法论章节副标题05正则化技术图解在KNIME中，设置L1正则项需进入相关模型节点的参数设置界面。比如线性回归模型节点，在正则化参数设置区域，可选择L1正则化方式，并设置相应的正则化系数。通过调整该系数，可以控制模型对特征的稀疏性要求，从而避免过拟合。过拟合时，模型在训练数据上表现极佳，但在测试数据上表现很差，曲线呈现训练误差极低，而测试误差很高的情况。欠拟合则相反，模型在训练和测试数据上表现都不佳，曲线显示训练误差和测试误差都较高。例如在房价预测模型中，过拟合的模型可能记住了训练数据中的所有噪声，导致无法准确预测新数据；欠拟合的模型则未能捕捉到房价的关键特征。L1正则项在KNIME中的设置路径过拟合与欠拟合曲线对比正则化技术图解对于L2正则项在KNIME中的设置，同样在模型节点参数设置处操作。以逻辑回归模型为例，在正则化参数选项中选择L2正则化，然后设置正则化强度参数。L2正则化通过对参数的平方和进行约束，使模型参数更加平滑，提高模型的泛化能力。L2正则项在KNIME中的设置路径数据不平衡解决方案在KNIME中，使用过采样节点解决数据不平衡问题。以某客户流失预测数据集为例，流失客户为少数类。将数据集导入KNIME后，添加过采样节点，选择合适的过采样方法（如SMOTE）。设置相关参数，如近邻数等。经过处理后，少数类样本数量增加，数据分布更加均衡，有助于提升模型对少数类样本的预测能力。SMOTE算法即合成少数类过采样技术。其流程首先是确定少数类样本，然后计算少数类样本的K近邻。接着从K近邻中随机选择一个邻居，在样本与邻居之间生成新的合成样本。通过这样的方式增加少数类样本数量，改善数据不平衡问题。例如在医疗诊断数据中，患病样本往往是少数类，可利用SMOTE算法进行过采样。KNIME过采样节点应用实例SMOTE算法流程图深度学习入门实践章节副标题06卷积神经网络架构AlexNet在2012年ImageNet竞赛中脱颖而出，推动了深度学习在计算机视觉领域的广泛应用。它相比LeNet-5更加复杂，具有更深的网络结构，使用了ReLU激活函数、Dropout等技术，大大提高了图像分类的准确率，开启了深度学习在图像领域的新纪元。AlexNet架构LeNet-5是早期经典的卷积神经网络架构，由YannLeCun等人提出。它首次将卷积层、池化层和全连接层结合，用于手写数字识别，在MNIST数据集上取得了很好的效果。其结构简单，包含多个卷积层和池化层的交替，为后续卷积神经网络的发展奠定了基础。LeNet-5架构卷积神经网络架构VggNet由牛津大学的视觉几何组（VGG）提出，其特点是采用了更小的卷积核（3x3）和更深的网络结构。通过堆叠多个小卷积核的卷积层来替代大卷积核的卷积层，在减少参数数量的同时提高了模型的表达能力，在图像分类任务中表现出色。VggNet架构卷积神经网络架构GoogLeNet引入了Inception模块，该模块能够并行地处理不同尺度的特征，大大提高了网络的计算效率和特征提取能力。它还使用了辅助分类器来解决梯度消失问题，在2014年的ImageNet竞赛中取得了优异成绩。GoogLeNet架构1ResNet提出了残差网络结构，解决了深度神经网络训练中的梯度消失和梯度爆炸问题。通过引入跳跃连接，让网络可以学习残差映射，使得网络能够训练得更深，在各种图像任务中都取得了非常好的效果，是卷积神经网络发展中的一个重要里程碑。ResNet架构2卷积神经网络架构国产AI芯片适配说明随着国产AI芯片的发展，许多芯片都在积极适配经典的卷积神经网络架构。例如，寒武纪的部分芯片对ResNet等架构进行了优化适配，通过硬件加速技术，能够显著提高模型的运行效率和处理速度，为深度学习在国内的应用提供了有力支持。KNIME实现图像分类在KNIME中，首先要读取MNIST数据集。通过特定的节点将数据导入，然后进行预处理操作，如归一化处理，将像素值从0-255映射到0-1之间，以加快模型训练速度并提高准确性。同时，可能还需要对数据进行格式转换等操作，使其符合卷积神经网络的输入要求。数据集读取与预处理MNIST数据集是由手写数字的图像组成，包含60,000个训练样本和10,000个测试样本。这些图像是28x28像素的灰度图，涵盖了数字0到9。它是图像分类领域常用的基准数据集，用于评估和比较不同模型的性能。MNIST数据集介绍KNIME实现图像分类卷积层是卷积神经网络的核心部分。在KNIME中配置卷积层参数时，需要确定卷积核的大小、数量、步长等。例如，常见的卷积核大小有3x3或5x5，卷积核数量根据网络复杂度和任务需求调整。步长决定了卷积核在图像上滑动的距离，合理的参数配置能够有效提取图像特征。卷积层参数配置KNIME实现图像分类池化层用于减少数据维度，降低计算量。在KNIME中，有最大池化和平均池化等方式可供选择。最大池化通常能更好地保留图像的重要特征，通过设置池化窗口大小和步长，对卷积层输出的特征图进行下采样，为后续全连接层做准备。经过卷积层和池化层处理后的数据，需要通过全连接层进行特征整合。在KNIME中构建全连接层时，要确定神经元的数量。最后是输出层，其神经元数量通常与分类类别数相同，在MNIST数据集中为10个，通过softmax函数输出每个数字的预测概率。池化层设置全连接层与输出层构建KNIME实现图像分类完成网络结构搭建后，在KNIME中设置训练参数，如学习率、迭代次数等，开始训练模型。训练完成后，使用测试数据集对模型进行评估，通过准确率等指标来衡量模型在MNIST数据集上的图像分类性能。模型训练与评估自然语言处理实战章节副标题07文本特征工程Word2Vec是将词映射为向量的模型。在KNIME里，其对应节点可把文本中的每个词转换为低维向量表示。以情感分析任务为例，借助此节点能让模型更好地理解词与词之间的语义关系，提升模型性能。TF-IDF（词频-逆文档频率）是一种用于信息检索与文本挖掘的常用加权技术。在KNIME中，通过特定节点可轻松实现TF-IDF计算。例如在文本分类项目里，利用该节点能将文本数据转化为数值特征，突出重要词汇，为后续模型训练提供有效输入。Word2Vec在KNIME中的节点应用TF-IDF在KNIME中的节点应用文本特征工程TF-IDF侧重于统计词在文档中的重要性，计算简单且能快速反映文本特征；而Word2Vec更关注词的语义信息，生成的向量能捕捉词的上下文关系。在实际应用中，需根据具体任务需求，如文本主题分析可能TF-IDF更合适，而语义理解任务Word2Vec效果可能更佳。两者应用对比大语言模型初探首先，打开KNIME软件，进入插件管理界面。在插件仓库中搜索“KNIMEAI助手插件”，选择对应的插件版本进行下载安装。安装过程中需确保网络连接稳定，安装完成后重启KNIME使插件生效。KNIMEAI助手插件安装流程1安装好插件后，在工作流中可找到AI助手相关节点。将数据输入节点，设置相应参数，如生成文本的长度、风格等，即可利用大语言模

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

图说图解机器学习第2版全套教学课件

文档简介

温馨提示

最新文档

评论

图说图解机器学习第2版全套教学课件

文档简介

温馨提示

最新文档

评论

相关文档