版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
评估与优化电商平台运输行为预测电商平台用户购买预测——逻辑回归任务描述电商平台运输预测模型已经建立,通过各种指标(例如准确率、召回率、精确率等)来评价模型的性能,并找出模型存在的不足之处。在了解模型不足的地方之后,可以采用类不平衡问题处理等方法改进模型,以优化模型,提高模型预测效果,贯彻高质量发展精神。不断地优化模型,使其在预测电商客户运输行为方面的准确率和效果不断提高。任务要求使用sklearn.metrics模块对逻辑回归模型进行评价。使用imblearn库解决类不平衡问题。混淆矩阵、准确率与召回率ROC曲线样本平衡混淆矩阵(ConfusionMatrix)是模式识别领域中一种常用的表达形式,描绘样本数据的真实属性与识别结果类型之间的关系,是评价分类器性能的一种常用方法,并且可以将分类问题的结果进行可视化。以一个二分类任务为例,可将样本根据真实类别与预测的分类结果的组合划分为真正例(TruePositive,TP)、假正例(FalsePositive,FP)、真反例(TrueNegative,TN)和假反例(FalseNegative,FN)共4种情形,并对应其样本数,则有总样本数=TP+FP+FN+TN。混淆矩阵分类结束后的混淆矩阵如表所示。混淆矩阵真实结果预测结果正类反类正类TPFN反类FPTNTP:正确地将正样本预测为正样本的分类数FN:错误地将正样本预测为负样本的分类数FP:错误地将负样本预测为正样本的分类数TN:正确地将负样本预测为负样本的分类数准确率(Accuracy)是指分类器正确分类的样本数与总样本数之比,它可以展示分类器的整体分类效果。准确率定义如式所示。
准确率取值范围为[0,1],取值越高表示分类模型效果越好,完美分类的准确率为1,完全随机猜测的准确率为分类的类别数的倒数。准确率召回率(Recall),是指分类器正确分类的正样本数与实际正样本数之比,它可以展示分类器对于正样本的分类效果,用于评估模型对正类的识别能力。计算公式如公式所示。召回率的取值范围为[0,1],取值越大表示模型在预测正样本方面的能力越强,即能够更准确地将正样本识别出来。当召回率为1时,表示模型能够将所有正样本都识别出来,没有遗漏,这是理想的情况。召回率classification_report是一个用于生成分类报告的类,用于评估分类模型的性能。它计算并打印出准确率、召回率、F1-score和support等指标。分类报告ROC曲线接收者操作特征曲线(ReceiverOperatingCharacteristiccurve,ROC曲线)是一种非常有效的模型评价方法,可为选定临界值给出定量提示。正确地将正例预测为正例的比率为纵坐标错误地将负例预测为正例的比率为横坐标该曲线下的面积(AUC)为0.93,而面积的大小与每种方法的优劣密切相关,可反映分类器正确分类的统计概率,因此,其值越接近1说明该算法效果越好。在Python中,使用sklearn.metrics模块中的roc_curve类中的roc_curve函数可以计算ROC曲线,其基本使用格式如下。ROC曲线fpr,tpr,thresholds=roc_curve(y_true,y_score,pos_label=None,sample_weight=None,drop_intermediate=True)ROC曲线roc_curve函数常用参数及其说明如下。参数名称说明y_true接收数组。表示样本真实的标签,必须为0或1。无默认值y_score接收数组。表示分类器预测的样本得分,可以是概率值、决策函数的值等。无默认值pos_label接收int或str。表示正类的标签。默认为Nonesample_weight接收数组。表示样本的权重,可以用于不平衡样本的处理。默认为Nonedrop_intermediate接收bool。表示是否删除不必要的阈值点,如果为True,则只返回fpr和tpr值中有效的部分。默认为True对逻辑回归模型进行评价对考生录取预测模型进行评价主要通过以下4个步骤实现。计算考生录取情况预测模型的混淆矩阵计算考生录取情况预测模型的准确率与召回率计算考生录取情况预测模型的分类报告绘制考生录取情况预测模型的ROC曲线在现实分类模型中,常存在类别不平衡问题,即指在数据集中,不同类别的样本数量差别很大,其中一个类别的样本数量远远少于另一个类别的样本数量。这种情况在机器学习任务中很常见,如欺诈检测、罕见病预测等。如果不处理类别不平衡问题,那么训练得到的模型可能会偏向于样本数量多的类别,对样本数量少的类别预测效果较差。样本平衡什么是类别不平衡?解决类别不平衡问题的方法有欠采样、过采样等。欠采样是一种处理类不平衡问题的方法,它通过减少多数类样本的数量来达到平衡样本分布的目的。欠采样的主要思想是从多数类中随机选择一部分样本作为训练集,使得多数类样本数量和少数类样本数量相近。在Python中,可以使用imblearn库中under_sampling模块的RandomUnderSampler类实现欠采样。样本平衡如何解决类别不平衡问题?SMOTE(SyntheticMinorityOver-samplingTechnique)是一种常见的过采样方法,它通过生成新的合成样本来增加少数类别的样本数量,从而平衡数据集中各个类别的样本数量。它主要是通过生成一些与小类样本相似的样本来达到平衡数据的目的。该算法不是简单复地制小类样本,而是增加新的并不存在的样本,因此在一定程度上可以避免过拟合的问题。样本平衡SMOTE过采样SMOTE算法的实现过程如下
样本平衡对于少数类样本中的每一个样本,计算其与所有少数类样本的欧氏距离。选取距离该样本最近的k个少数类样本,对其进行随机采样。对于每个选中的少数类样本,按照公式生成一个新的合成样本。新样本=原样本+随机因子(选中样本-原样本)其中,选中样本为为样本空间中随机选择的一个样本,随机因子为[0,1]之间的随机数。在Python中,可以使用imblearn库中over_sampling模块的SMOTE类实现过采样,其基本使用格式如下。样本平衡SMOTE=SMOTE(sampling_strategy='auto',k_neighbors=5,random_state=42)样本平衡SMOTE类常用参数及其说明如下。参数名称说明sampling_strategy接收str或float。表示用于设置合成样本的数量,默认为autok_neighbors接收int。表示用于设置用于合成样本的k个最近邻居的数量,默认为5random_state接收int。表示用于设置随机数生成器的种子,默认为42信用评分模型是银行和其他金融机构用于评估申请贷款的个人或企业信用风险的工具。这个模型可以通过对借款人的个人信息、财务状况、借贷历史等多个因素进行评估,生成一个数值评分来表示该借款人的信用水平。下表是部分借款人的个人信息及财务状况记录。样本平衡编号年龄/岁性别工作住房情况储蓄账户等级支票账户等级贷款金额/元贷款期限/月信用评分等级067男2有房无少116906好122女2有房少中等5951048坏249男1有房少无2096012好345男2无房少少7882042好453男2无房少少4870024坏535男1无房无无9055036好在信用评分模型中,通常会出现类别不平衡的问题,即其中一种类别的样本数量远远大于另一种类别。例如,在银行信用评分模型中,大部分的客户可能会被认定为“好客户”,只有极少数客户会被认定为“坏客户”。这种类别不平衡问题可能会导致模型的精度和召回率存在偏差,因为模型倾向于预测数量较大的类别。样本平衡样本平衡对考生录取情况数据进行过采样处理主要通过以下4个步骤实现。利用LogisticRegression类建立信用评分模型并对其结果进行评价使用SMOTE类过采样法对训练集进行处理利用LogisticRegression类训练逻辑回归模型在测试集上进行预测并评估模型性能评估电商平台运输行为预测利用样本平衡进行模型优化过采样后的模型效果评估电商平台运输行为预测在机器学习中,通常需要评估训练出来的模型的性能,以便对其进行改进或选择最佳模型。而准确率、召回率、ROC曲线是逻辑回归模型中用于评估分类模型性能的常见指标。评估电商平台运输行为预测使用roc_curve类计算ROC曲线相关系数,并使用plot函数绘制出ROC曲线。使用sklearn.metrics模块的accuracy_score类计算模型的准确率。使用sklearn.metrics模块的recall_score类计算模型的召回率。使用sklearn.metrics模块的recall_score类计算模型的召回率。评估电商平台运输行为主要分为以下4个步骤。利用样本平衡进行模型优化在实际应用中,电商平台更希望提高对“未按时到达”的预测率,以便能及时采取应对措施,提高物流服务。因此,为提高模型对负类样本的预测率,使用过采样法,提高负类样本的个数。使用imblearn库中的SMOTE类对电子商务运输数据进行过采样处理。使用sklearn库中的LogisticRegression类建立过采样后的逻辑回归模型。过采样后的模型效果使用roc_
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 一年级数学计算题专项练习集锦
- 2024年电梯安装工程分包合同(含劳务分包协调程序)
- 2024年电梯技术咨询与服务合同
- 2025深圳市民办学校教师聘用合同书模板
- 2024年环境污染治理合作协议
- 2024医疗器械企业风险管理与控制咨询合同3篇
- 2024年度高等教育机构外聘教师劳务合作协议范本2篇
- 2024年甲乙双方关于门面租赁的合同协议书
- 2024年消防工程设计与施工一体化服务合同9篇
- 2025买卖农村宅基地合同范本
- 求是文章《开创我国高质量发展新局面》专题课件
- ISO∕TR 56004-2019创新管理评估-指南(雷泽佳译-2024)
- 车祸私了赔偿协议书范本
- DB5334-T 12.1-2024 地理标志证明商标 香格里拉藏香猪 第1部分:品种要求
- 光伏项目施工总进度计划表(含三级)
- 2.1中国古代音乐(1)教学设计高中音乐必修音乐鉴赏
- 医院卒中中心建设各种制度、流程汇编
- 危急值影像科课件
- 专题08:课外文言文阅读(解析版)-2022-2023学年八年级语文下学期期中专题复习(江苏专用)
- 知道网课智慧树《城市地理学(华中师范大学)》章节测试答案
- 2024年满分学习与科目一考试题(带答案)
评论
0/150
提交评论