数据挖掘 课件 第五章 分类与回归预测算法_第1页
数据挖掘 课件 第五章 分类与回归预测算法_第2页
数据挖掘 课件 第五章 分类与回归预测算法_第3页
数据挖掘 课件 第五章 分类与回归预测算法_第4页
数据挖掘 课件 第五章 分类与回归预测算法_第5页
已阅读5页,还剩65页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

分类与回归预测算法ArtificialIntelligence,2024关于分类现实生活中我们常常需要给不同的对象贴上一定的标签,以区别于其他数据对象数据标签:颜色、地域、性别、语言等静态标签:数据对象的固有属性决定的(人的肤色、年龄)v.s.动态标签关于分类关于回归预测的例子气象预测二手车价格预测关于分类与回归预测的几个问题在分类和预测之前都有标签吗?分类任务和回归预测任务的区别是什么?分类和预测模型要如何设计,如何选择最合适的算法?如何评估分类和回归预测的效果?Contents0102030405060708基本概念决策树贝叶斯分类支持向量机神经网络和文本分类算法线性回归和非线性回归逻辑回归性能评估指标08模型调优分类vs.回归预测分类使用离散的类标号来表示分类结果,类标号之间无固有的序列关系经典应用:信贷审批、目标营销、图形目标识别回归预测使用连续的数值来表示回归结果经典应用:价格预测、气象预测、股市预测分类模型—两步过程:建立模型和训练:对一组预先确定类别的数据进行监督学习假设每个元组/样本都属于一个预定义的类,由类标签(y)确定用于模型构建的元组集是训练集(X)分类模型可以表示一种映射关系y=f(X),即将训练集属性X映射到具体的类标签y上使用模型:用于对未知对象进行分类评估准确率将测试样本的标签与模型的分类结果进行比较准确率是指测试集中的样本被模型正确分类的百分比测试集独立于训练集,否则会出现过度拟合如果准确率可以接受,则使用该模型对类标签未知的数据元组进行分类分类模型

监督vs.无监督学习监督学习(分类)监督:类标签已知根据训练集对新数据进行分类无监督学习(聚类)类标签未知给定一组测量、观测等,目的是确定数据中是否存在类或簇Contents0102030405060708基本概念决策树贝叶斯分类支持向量机神经网络和文本分类算法线性回归和非线性回归逻辑回归性能评估指标08模型调优决策树进化信用卡申请审批案例输入:训练集用户基本信息表用户id年龄教育层次是否有房收入类标号1青年本科无房153153通过2中年博士无房121934通过3老年本科无房107237未通过4中年高中无房85735未通过5老年博士有房206037通过6中年高中有房27976未通过7老年专科无房195792未通过8青年本科有房127709通过………………输出:关于“信用卡申请审批”的决策树决策树提供模拟决策过程来预测数据的分类结果决策树由一个根节点和一系列内部节点分支及若干叶节点构成决策树容易转化为分类规则决策树归纳基本算法(贪心法)开始,所有的训练样本都在根部生成内部子节点,并在当前结点选择“局部最优”特征进行属性划分重复第二步,不断生成分支节点,直至生成整棵决策树停止划分的条件给定节点的所有样本都属于同一类没有剩余的属性可供进一步划分没有剩余样本以自顶向下递归的分治方法来构造树“局部最优”特征通过属性选择度量算法选取基于属性类型的属性选择度量属性选择度量是一种分裂准则,是将给定类别的训练元组数据集D“最佳”地划分成个体类的启发式方法,是构造决策树分类器的关键选择的标准是要使每个非叶节点进行属性测试时,使被测元组的类别信息最大化,保证非叶结点到达各后代叶节点平均路径最短、速度最快属性有离散值和连续值两种表示形式,这两种属性使用不同的度量标准来评估其作为分割标准的有效性。离散值属性度量方法:信息增益、增益率连续值属性度量方法:基尼(Gini)指数属性选择度量:信息增益(ID3)动机:选择具有最高信息增益的属性首先,计算整个训练数据D的熵,即总体熵最后,计算原始数据总体熵与分割后期望信息之差,来得到信息增益指标

信息增益越大,说明它在分类过程中越有效,分割后的子集“纯度”也越高属性选择度量:增益率(C4.5)分裂信息值增益率衡量了每单位分裂信息所获得的信息增益动机:以规范化方式解决信息增益对具有多个值属性(用户id)的偏好问题Gini指标(CART,IBMIntelligentMiner)基尼指数:衡量在没有任何属性划分的情况下,数据集D的不纯度有多大

动机:在决策树算法中,处理连续数值属性通常涉及选择一个或多个合适的阈值来将数据集分割成两部分

通过计算初始数据集的基尼指数与分割后基尼指数的差来评估每个分割点的效果,最后选取不纯度变化量最大的属性:决策树构建算法的应用过程使用机器学习库scikit-learn中的DecisionTreeClassifier类来构建决策树,配合matplotlib对构建好的决策树进行绘制importnumpyasnpfromsklearn.treeimportDecisionTreeClassifierfromsklearnimporttreeimportmatplotlib.pyplotaspltdata=np.array([[1,3,30000,0],#有房,高教育,高收入,通过[1,1,15000,0],#有房,低教育,低收入,未通过[0,2,18000,1],#无房,中教育,中收入,未通过[0,3,24000,0],#无房,高教育,高收入,通过[0,1,12000,1],#无房,低教育,低收入,未通过])X=data[:,:3]#特征:有房,教育,收入y=data[:,3]#标签:通过与否clf=DecisionTreeClassifier(max_depth=3)#创建决策树模型,限制树的深度为3clf.fit(X,y)#使用matplotlib绘制决策树plt.figure(figsize=(12,8))tree.plot_tree(clf,eature_names=["house","education","income"],class_names=["notapproved","approved"],filled=True,rounded=True)

plt.show()Contents0102030405060708基本概念决策树贝叶斯分类支持向量机神经网络和文本分类算法线性回归和非线性回归逻辑回归性能评估指标08模型调优贝叶斯定理设X是类标签未知的数据元组设Y是某种假设,例如数据元组X属于特定类Y条件X下Y的后验概率:P(Y|X),对于给定元组X,假设Y成立的概率。Y的先验概率

:P(Y)(根据以往经验和分析得到的概率,反映了背景知识)边缘概率:P(X),元组X被观测到的概率。似然概率:P(X|Y),假设Y成立的条件下,样本X被观测到的概率。给定训练数据X,假设Y的后验概率P(Y|X)服从贝叶斯定理,计算公式:P(Y|X)朴素贝叶斯分类前提假设:属性之间相互独立

在处理离散型属性时,朴素贝叶斯分类器通过计算每个属性值在特定类别下的条件概率来进行分类对于数值型属性,朴素贝叶斯通常采用一种分布假设来估计条件概率,其中常见的假设是属性遵循高斯分布训练集类别:Y1:‘通过’;Y2:‘未通过’数据样本:X=(年龄=中年,教育层次=本科,是否有房=有房,收入=27976)朴素贝叶斯分类:一个例子

朴素贝叶斯分类器:评论优势易于实现

在大多数情况下能都获得较好的分类准确率劣势类条件独立性假设实际上,变量之间存在依赖关系,例如,医院:患者;档案:年龄、家族史;症状:发热、咳嗽等;疾病:肺癌、癌症、糖尿病等这些之间的依赖关系不能用朴素贝叶斯分类器建模如何处理属性之间的依赖关系呢?贝叶斯信念网络贝叶斯信念网络贝叶斯信念网络允许在变量子集之间定义类条件独立性一种提供因果关系的图模型表示变量之间的依赖关系确定联合概率分布YZPX结点:随机变量边:依赖关系X,Y是Z的双亲,且Y是P的双亲Z和P之间没有依赖关系无环Contents0102030405060708基本概念决策树贝叶斯分类支持向量机神经网络和文本分类算法线性回归和非线性回归逻辑回归性能评估指标08模型调优2025/3/20SVM—支持向量机描述:支持向量机(SVM)是一种卓越的二分类监督学习模型,其主要目标是在特征空间中寻找一个最优超平面,以此超平面最大化不同类别数据之间的间隔,从而实现优越的分类效果和泛化能力一种新的针对线性和非线性数据的分类方法2025/3/20数据线性可分的情况数据集D表示(X1,y1),…,(X|D|,y|D|),其中

Xi

对应类标签yi有无限条线(超平面)将这两个类分开,但想找到最好的一个(最大限度地减少看不见数据的分类误差的一个)2025/3/20线性支持向量机二维空间中的线性可分数据:

几何间隔一个样本点到决策边界的距离支持向量几何间隔最大时的两个异类样本间隔这些支持向量到超平面的距离之和2025/3/20线性支持向量机支持向量小间隔大间隔2025/3/20线性支持向量机求解分离超平面H分离超平面“侧面”的超平面

联立两个不等式,得到:

接下来需要使用拉格朗日乘子进行候选求解2025/3/20非线性支持向量机动机:在实际应用中,经常遇到的数据集特征关系复杂,远超过简单线性关系所能描述的范围,可以将线性SVM扩展为非线性SVM实现步骤:1.通过非线性映射原始数据转换到一个更高维的特征空间2.在这个新的空间中数据变成线性可分,使用线性支持向量机进行分类2025/3/20一个例子2025/3/20核技巧及常见核函数

Contents0102030405060708基本概念决策树贝叶斯分类支持向量机神经网络和文本分类算法线性回归和非线性回归逻辑回归性能评估指标08模型调优神经网络人工神经网络的设计灵感源自于对生物神经系统的深入模拟当神经元接受到外界刺激时,会沿着轴突传导电信号,实现从一个神经元到另一个神经元的信号转移。神经元的细胞体通过树突与其他神经元的轴突相连,而这些连接点被称为神经突触。1959年,FrankRosenblatt首次提出感知器,感知器学习规则通过逐步改变权重以学习产生目标输出,为具有固定输入的单个神经元训练目标输出值单层感知机单层感知机数学表达式:

原理:通过输入和权重的标量乘积,并结合一个非线性函数映射,目标是将n维输入向量x映射到输出到1维变量y上单层感知机参数更新算法反向传播技术:迭代调整权重w和偏置项t以最小化分类错误数学表达式:

终止条件:1.到达预设的迭代次数上限;2.满足误差阈值;3.在连续几轮迭代中误差变化极小或者达到一个非常低的特定值更新算法的最终目标

得到一组权重w和偏置项t,使得训练集中的元组分类误差尽可能小训练过程随机初始化权重和偏置项将训练集中的元组逐个输入给感知机模型中,对于每个输入元祖计算预测结果和分类误差基于参数更新公式更新权重和偏置项多层感知机单个感知器仅能表示线性决策面,多层感知机能够表示种类繁多的非线性曲面来作为非线性决策面多层感知机引入更多种类激活函数,使得模型可以逼近任何非线性函数输入层隐藏层输出层…………………激活函数a)ReLU激活函数b)tanh激活函数激活函数需要具备以下几点性质:连续并可导(允许少数点上不可导)的非线性函数激活函数的导数值域应适中,避免过大或过小,以免影响训练的效率和稳定性激活函数及其导数应尽可能简单,以提高网络的计算效率文本分类算法文本分类是数据挖掘和自然语言处理领域的一项基本任务,它涉及将文本文档分类到一个或多个预定义的类别中。文本表示方法One-Hot编码:假设词汇表为{"cat","dog","bird","fish"},则每个词可以表示为一个4维向量:"cat"为[1,0,0,0],"dog"为[0,1,0,0]TF-IDF方法:TF-IDF方法通过结合词频(TF)和逆文档频率(IDF)来加权词汇的重要性。词频衡量一个词在单个文档中的出现频率,而逆文档频率则反映一个词在整个文档集中的独特性,用来降低常见词的权重并提升罕见词的影响力。最终,TF-IDF分数通过将TF与IDF相乘得到。词嵌入:词嵌入是一种先进的文本表示方法,它将每个词映射到一个连续的向量空间中,以捕捉词语间的语义和语法关系。基于深度学习的模型介绍基于深度学习的先进分类模型,这些模型特别适用于捕获文本中的长距离依赖关系和复杂的语义信息。循环神经网络(RNN)是一类用于处理序列数据的神经网络。优点:RNN通过内部状态的循环传递来处理输入序列中的时间动态特征缺点:传统的RNN在处理长序列时常常面临梯度消失或梯度爆炸的问题,这限制了其在某些应用场景中的效能基于深度学习的模型长短期记忆网络(LSTM):设计独特的门控机制有效地解决了长期记忆的挑战,该机制涉及三个核心组件:输入门、遗忘门和输出门。输入门决定新输入的信息中哪些需要更新到单元状态遗忘门判断单元中的哪些信息应当被舍弃,以避免信息过载和模型的过拟合输出门控制从单元状态到输出状态的信息流,决定哪些信息是重要的,应当被用于预测或影响下一个隐藏状态基于深度学习的模型门控循环单元(GRU):GRU通过合并LSTM中的输入门和遗忘门为一个统一的更新门,并添加了一个重置门来简化模型结构。更新门在GRU中的功能是决定在每个时间步骤中,应该保留多少之前的状态信息,以此帮助模型抓取长期依赖关系。重置门的作用则是在计算当前的候选状态时,决定应该忽略多少过去的状态信息,从而使模型能够根据新的输入灵活调整响应。基于LSMT的情感分析案例数据集选择和导入:使用IMDb电影评论数据集作为案例数据集,通过torchtext库下载该数据集.LSTM模型定义:定义一个情感分析的LSTM模型类SentimentAnalysisLSTM,该类继承自nn.Module,包含嵌入层、一个或多个LSTM层、一个全连接层、以及一个Sigmoid激活函数。模型实例化和损失函数定义:设置好LSTM模型参数后创建模型实例(model),并定义二元交叉熵损失函数(nn.BCELoss)和Adam优化器模型训练过程:通过10个训练周期迭代训练数据。在每个周期内,模型对每个样本进行预测,计算损失,并通过反向传播更新权重,优化器在每次迭代后重置梯度。模型评估:在测试集上评估模型性能,计算模型的准确率。通过比较模型的预测和真实标签来统计正确预测的数量,最终计算出整体的准确率。Contents0102030405060708基本概念决策树贝叶斯分类支持向量机神经网络和文本分类算法线性回归和非线性回归逻辑回归性能评估指标08模型调优回归分析的基本概念

回归预测算法类别(根据具体的数据分析需求):线性回归非线性回归线性回归线性回归通过最佳拟合直线(也称为回归线)来描述自变量和因变量之间的线性关系。线性回归模型假设条件:线性关系:假定二手车的价格主要由车龄决定,并预设这种影响呈现线性关系。独立性:独立性假设要求数据中每一项(如每辆车的价格和车龄)必须是彼此独立的,意味着任何一辆车的价格都不应受到其他车辆的影响。简单的线性回归模型表达式(假设单个自变量x和因变量y之间存在线性依赖关系):

线性回归模型拟合

线性回归模型拟合

多元线性回归模型拟合

多元线性回归模型的表达式:

使用最小二乘法估计回归系数β,最终回归系数β的解为:

多元线性回归模型拟合-一个例子实际应用中,通常不会对回归系数β进行手动运算,而是直接使用集成了最小二乘法的现有工具来直接求解β,以下是使用sklearn库求解二手车价格的具体例子#简单二手车价格预测案例fromsklearn.linear_modelimportLinearRegressionX=np.array([[2104,5,1,45],#面积,卧室数量,楼层数,房龄[1416,3,2,40],[1534,3,2,30],[852,2,1,36]])Y=np.array([460,232,315,178])#价格model=LinearRegression()#创建线性回归模型model.fit(X,Y)#使用观测样本拟合模型print('截距:',ercept_)#输出训练得到的截距非线性回归非线性回归模型适用情况:自变量与因变量之间的关系可能遵循一些已知的非线性函数非线性回归模型的一般表达式:非线性回归模型因变量y的期望函数表达为:非线性回归模型的另一个显著特点是,期望函数关于回归系数β的导数至少会有一个导数要取决于至少一个回归系数。

非线性回归模型拟合

非线性回归模型拟合常见的非线性函数导线性函的变换关系Contents0102030405060708基本概念决策树贝叶斯分类支持向量机神经网络和文本分类算法线性回归和非线性回归逻辑回归性能评估指标08模型调优逻辑回归逻辑回归模型可以被认为就是一个被Sigmoid函数所归一化后的线性回归模型,逻辑回归实际上是一种分类技术Sigmoid函数:将线性回归模型的输出值转换为介于0和1之间的概率值逻辑回归和线性/非线性回归的不同线性/非线性回归模型的因变量是连续变量逻辑回归模型则是二元分类变量二分类任务的逻辑回归模型

Contents0102030405060708基本概念决策树贝叶斯分类支持向量机神经网络和文本分类算法线性回归和非线性回归逻辑回归性能评估指标08模型调优Accuracy(准确率),Precision(精确率)andRecall(召回率)Accuracy(准确率,针对所有类别而言,平均分类效果)Precision(精确率,针对某个类别而言)Recall(召回率,针对某个类别而言)F1Score(精确率与召回率的调和平均)分类准确度:估计误差率分类准确度:ROC曲线和AUC值ROC曲线:一种通过描绘不同阈值下的真正例率(TPR)与假正例率(FPR)之间关系的图形工具。AUC值:ROC曲线下的面积,用以度量分类模型区分正负样本能力的统计指标例子:案例:假设有一个数据集,包括患者是否患有某种疾病的实际情况及模型预测的概率。数据情况:分类准确度:ROC曲线和AUC值案例分析:以有疾病类为感兴趣正元组,可以计算在不同阈值下的真正类率(TPR)和假正类率(FPR)的值。通过连接每个阈值下(FPR,TPR)的点来绘制ROC曲线,通过计算ROC曲线与FPR坐标的面积得到AUC的值。实践:使用sklearn库中的roc_curve和roc_auc_score辅助matplotlib库绘制ROC曲线和计算AUC的值。Python代码和绘制结果如下所示:importnumpyasnpfromsklearn.metricsimportroc_curve,roc_auc_scoreimportmatplotlib.pyplotasplty_true=np.array([1,0,0,1,1,0,1,0,1,0])#数据准备y_scores=np.array([0.90,0.85,0.78,0.65,0.60,0.55,0.52,0.40,0.38,0.30])#模型预测概率#使用roc_curve函数计算ROC曲线的各个点fpr,tpr,thresholds=roc_curve(y_true,y_scores)auc=roc_auc_score(y_true,y_scores)#计算AUC值#使用matplotlib绘制ROC曲线……回

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论