《数据挖掘与机器学习》 课件6.2 优化运输车辆安全驾驶行为分析模型_第1页
《数据挖掘与机器学习》 课件6.2 优化运输车辆安全驾驶行为分析模型_第2页
《数据挖掘与机器学习》 课件6.2 优化运输车辆安全驾驶行为分析模型_第3页
《数据挖掘与机器学习》 课件6.2 优化运输车辆安全驾驶行为分析模型_第4页
《数据挖掘与机器学习》 课件6.2 优化运输车辆安全驾驶行为分析模型_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

优化运输车辆安全驾驶行为分析模型运输车辆安全驾驶行为分析——朴素贝叶斯、K近邻任务描述创新思维和探索精神可以帮助个人更好地适应和应对不断变化的环境和挑战,创新才能把握时代、引领时代。通过不断地探索和尝试,个人可以更好地发现自己的优势和潜力,从而实现自我价值的最大化。在本任务中将使用K近邻构建运输车辆安全驾驶模型,并与朴素贝叶斯分类进行对比分析。优化运输车辆安全驾驶行为分析模型任务要求使用sklearn库建立K近邻分类模型。利用Matplotlib库实现结果的可视化。使用准确率、精确率、召回率、F1得分评估K近邻分类模型。对比分析朴素贝叶斯分类模型和K近邻分类模型。优化运输车辆安全驾驶行为分析模型K近邻对比分析法K近邻什么是K近邻算法?优化运输车辆安全驾驶行为分析模型K近邻(K-NearestNeighbor,KNN)算法是一种常用的监督学习方法。其原理非常简单:对于给定测试样本,基于指定的距离度量找出训练集中与其最近的k个样本,然后基于这k个“邻居”的信息来进行预测。通常,在分类任务中用的是“投票法”,即选择k个“邻居”中出现最多的类别标记作为预测结果;在回归任务中使用“平均法”,即取k个邻居的实值,输出标记的平均值作为预测结果;还可根据距离远近进行加权投票或加权平均,距离越近的样本权重越大。K近邻优化运输车辆安全驾驶行为分析模型与其他学习算法相比,K近邻分类有一个明显的不同之处:接收训练集之后没有显式的训练过程。实际上,它是“懒惰学习”(lazylearning)的著名代表,此类学习算法在训练阶段只是将样本保存起来,训练时间为零,待接收到测试样本后再进行处理。K近邻优化运输车辆安全驾驶行为分析模型K近邻算法的示意图如下所示。等距线样本类别为负样本类别为正当k=1时,“+”样本的个数为1,“-”样本的个数为0。“+”样本在范围内的样本中占比高于“-”样本,因此会将测试样本判给占比最高的“+”类别.测试样本K近邻优化运输车辆安全驾驶行为分析模型K近邻算法的示意图如下所示。测试样本当k=3时,“+”样本在范围中的样本所占的比例为1/3,“-”样本所占的比例为2/3。此时,“-”样本的占比高于“+”样本比例,因此会将测试样本判给占比最大的“-”类别。K近邻优化运输车辆安全驾驶行为分析模型K近邻算法的示意图如下所示。测试样本当k=5时,“+”样本在范围中的样本所占的比例为3/5,“-”样本所占的比例为2/5。此时,“+”样本占比高于“-”样本,因此会将测试样本判给占比最高的“+”类别。K近邻优化运输车辆安全驾驶行为分析模型K近邻算法的示意图如下所示。测试样本显然k是一个重要参数,当k取不同值时,分类结果会显著不同。在实际的学习环境中要取不同的k值进行多次测试,选择误差最小的k值。K近邻使用sklearn库中neighbors模块的KNeighborsClassifier类可以实现K近邻算法对数据进行分类。KNeighborsClassifier类的基本使用格式如下。优化运输车辆安全驾驶行为分析模型classsklearn.neighbors.KNeighborsClassifier(n_neighbors=5,*,weights='uniform',algorithm='auto',leaf_size=30,p=2,metric='minkowski',metric_params=None,n_jobs=None,**kwargs)K近邻优化运输车辆安全驾驶行为分析模型参数名称说明n_neighbors接收int。表示“邻居”数。默认为5weights接收str。表示分类判断时最近邻的权重,可选参数为uniform和distance,uniform表示权重相等,distance表示按距离的倒数赋予权重。默认为uniformalgorithm接收str。表示分类时采取的算法,可选参数为auto、ball_tree、kd_tree和brute,一般选择auto自动选择最优的算法。默认为autoKNeighborsClassifier类常用的参数及其说明如下。K近邻KNeighborsClassifier类常用的参数及其说明如下。优化运输车辆安全驾驶行为分析模型参数名称说明p接收int。表示Minkowski指标的功率参数,p=1表示曼哈顿距离,p=2表示欧式距离。默认为2metric接收str。表示距离度量。默认为minkowskin_jobs接收int。表示计算时使用的核数。默认为NoneK近邻为了响应共同富裕的主题,以帮助当地居民提高收入水平,某地基层组织决定进行人口普查,以便更好地了解当地居民的收入情况。现有某地的人口普查收入数据,数据描述如下。优化运输车辆安全驾驶行为分析模型特征名称特征说明性别当地居民性别,取值为0、1。其中,0代表女性,1代表男性年龄当地居民年龄,取值为其自身年龄婚姻情况当地居民婚姻情况,取值为0-3。其中,0代表已婚,1代表离异,2代表未婚,3代表丧偶家庭角色当地居民在家庭中所扮演的角色,取值为0-5。其中,0代表妻子,1代表丈夫,2代表未婚,3代表离家,4代表孩子,5代表其他关系K近邻为了响应共同富裕的主题,以帮助当地居民提高收入水平,某地基层组织决定进行人口普查,以便更好地了解当地居民的收入情况。现有某地的人口普查收入数据,数据描述如下。优化运输车辆安全驾驶行为分析模型特征名称特征说明受教育程度当地居民所接受的教育程度,取值为0-8。其中,0代表初中,1代表中专,2代表高中,3代表职业学校,4代表大专,5代表大学未毕业,6代表学士,7代表硕士,8代表博士工作类型当地居民的工作类型,取值为0-5。其中,0代表私人,1代表自由职业非公司,2代表自由职业公司,3代表政府,4代表无薪,5代表无工作经验K近邻为了响应共同富裕的主题,以帮助当地居民提高收入水平,某地基层组织决定进行人口普查,以便更好地了解当地居民的收入情况。现有某地的人口普查收入数据,数据描述如下。优化运输车辆安全驾驶行为分析模型特征名称特征说明每周工作时长(h)当地居民的每周工作时长,取值为其每周工作的小时数职业当地居民的职业,取值为0-13。其中,0代表技术支持,1代表手工艺维修,2代表销售,3代表执行主管,4代表专业技术,5代表劳工保洁,6代表机械操作,7代表管理文书,8代表农业捕捞,9代表运输,10代表家政服务,11代表保安,12代表军人,13代表其他职业收入等级当地居民所属收入等级类别,取值为0、1。其中,0代表收入小于等于5万每年,1代表收入大于5万每年K近邻优化运输车辆安全驾驶行为分析模型导入库读取csv文件选择特征集和标签集划分训练集和测试集对特征集进行标准化处理创建K近邻分类模型,使用5个邻居训练模型预测测试集的标签输出使用K近邻构建人口普查收入分类模型主要由以下9个步骤实现。对比分析法什么是对比分析法?对比分析法是指将两个或两个以上的数据进行比较,分析它们的差异,从而揭示这些数据所代表的事物发展变化的情况和规律性。对比分析法的特点就是可以非常直观地看出事物某方面地变化或差距,并且可以准确、量化地表示出这种变化或差距是多少,这就是对比分析法的定义。对比分析法可以分为静态比较和动态比较两类。动态比较和静态比较这两种办法既可单独使用,也可结合使用。优化运输车辆安全驾驶行为分析模型对比分析法对比分析法的实践运用与目标对比,具体就是实际分类效果与预期目标进行对比,属于横比。与不同时期对比,具体就是选择不同时期的模型训练结果作为对比标准,属于纵比。对同类算法对比,具体就是例如本项目中,朴素贝叶斯分类效果与K近邻分类效果之间的对比,属于横比。对机器学习领域内对比,具体就是与机器学习中的经典算法、最新算法或平均水平进行对比,属于横比。与数据处理效果进行对比,具体就是对数据预处理、特征提取、特征选择等步骤前后进行对比,属于纵比。同时,还可以对数据集的划分方式进行分组对比,这属于横比。优化运输车辆安全驾驶行为分析模型在使用对比分析法的时候需要注意的是指标的口径范围、计算方法、计量单位必须一致构建K近邻模型对比朴素贝叶斯和K近邻模型构建K近邻模型优化运输车辆安全驾驶行为分析模型构建K近邻模型主要通过以下3个步骤实现。使用KNeighborsClassifier类构建K近邻模型判定车辆驾驶行为。构建模型在对数据进行PCA降维后,使用scatter函数对预测结果进行可视化。对预测结果进行可视化为了评估K近邻模型的分类效果,需要分别使用accuracy_score、recall_score、f1_score、precision_score类计算准确率、精确率、召回率以及F1得分。评估K近邻模型对比朴素贝叶斯和K近邻模型优化运输车辆安全驾驶行为分析模型精益求精的精神也是创新思维和探索精神的重要组成部分。通过对比分析已构建的多项式分布朴素贝叶斯、高斯朴素贝叶斯、K近邻模型的准确率、精确率、召回率、F1得分,能够更好地践行精益求精的精神。朴素贝叶斯模型和K近邻模型相应的评估指标如下表所示。指标高斯朴素贝叶斯多项式分布朴素贝叶斯K近邻准确率0.84126984126984130.46031746031746030.9206349206349206精确率0.83609598709417210.15343915343915340.9063492063492063召回率0.87006496751624180.33333333333333330.9147244559538413F1得分0.8436276367310850.21014492753623190.9092695562850316对比朴素贝叶斯和K近邻模型优化运输车辆安全驾驶行为分析模型指标高斯朴素贝叶斯多项式分布朴素贝叶斯K近邻准确率0.84126984126984130.46031746031746030.9206349206349206精确率0.83609598709417210.15343915343915340.9063492063492063召回率0.87006496751624180.33333333333333330.9147244559538413F1得分0.8436276367310850.21014492753623190.9092695562850316多项式分布朴素贝叶斯分类方法在四个评价指标上都表现得较差。这说明多项式分布朴素贝叶斯分类方法可能不适合处理这种类型的数据集,因为它假设特征之间是条件独立的,而实际上可能存在一定的相关性。对比朴素贝叶斯和K近邻模型优化运输车辆安全驾驶行为分析模型指标高斯朴素贝叶斯多项式分布朴素贝叶斯K近邻准确率0.84126984126984130.46031746031746030.9206349206349206精确率0.83609598709417210.15343915343915340.9063492063492063召回率0.87006496751624180.33333333333333330.9147244559538413F1得分0.8436276367310850.21014492753623190.9092695562850316高斯朴素贝叶斯分类方法会比多项式分布朴素贝叶斯分类方法好一些。高斯朴素贝叶斯分类方法虽然也有同样的假设,但是它能够更好地适应数据集中特征的分布情况,因为它假设特征服从正态分布,而多项式分布朴素贝叶斯分类方法假设特征服从多项式分布。对比朴素贝叶斯和K近邻模型优化运输车辆安全驾驶行为分析模型指标高斯朴素贝叶斯多项式分布朴素贝叶斯K近邻准确率0.84126984126984130.46031746031746030.92063492063

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论