




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2025年征信考试题库:征信数据分析挖掘实务操作试题考试时间:______分钟总分:______分姓名:______一、数据清洗要求:根据给定的征信数据,完成数据的清洗工作,包括去除重复数据、处理缺失值、异常值检测与处理等。1.以下数据集中存在重复数据,请将其删除:姓名|性别|年龄|工作单位张三|男|28|A公司李四|男|30|B公司王五|男|25|A公司赵六|男|35|C公司孙七|男|32|A公司周八|女|28|D公司2.以下数据集中存在缺失值,请使用适当的方法进行处理:姓名|性别|年龄|工作单位张三|男||A公司李四|男||B公司王五|男|25|A公司赵六|男|35|C公司孙七|男||A公司周八|女||D公司3.以下数据集中存在异常值,请使用适当的方法进行处理:姓名|性别|年龄|工作单位张三|男|100|A公司李四|男|50|B公司王五|男|25|A公司赵六|男|35|C公司孙七|男|22|A公司周八|女|28|D公司二、特征工程要求:对给定的征信数据进行特征工程,包括特征提取、特征选择、特征转换等。1.以下数据集中包含以下特征,请提取以下特征:姓名|性别|年龄|工作单位|收入|借款次数|借款金额张三|男|28|A公司|10000|3|30000李四|男|30|B公司|12000|2|20000王五|男|25|A公司|8000|5|50000赵六|男|35|C公司|15000|1|10000孙七|男|22|A公司|6000|4|40000周八|女|28|D公司|11000|3|32000(1)请提取年龄与收入的比值;(2)请提取借款次数与借款金额的比值;(3)请提取工作单位是否为A公司(0代表不是,1代表是)。2.以下数据集中包含以下特征,请进行特征选择,选择与信用评分相关性最高的两个特征:姓名|性别|年龄|工作单位|收入|借款次数|借款金额|信用评分张三|男|28|A公司|10000|3|30000|780李四|男|30|B公司|12000|2|20000|850王五|男|25|A公司|8000|5|50000|680赵六|男|35|C公司|15000|1|10000|910孙七|男|22|A公司|6000|4|40000|660周八|女|28|D公司|11000|3|32000|8603.以下数据集中包含以下特征,请进行特征转换:姓名|性别|年龄|工作单位|收入|借款次数|借款金额|信用评分张三|男|28|A公司|10000|3|30000|780李四|男|30|B公司|12000|2|20000|850王五|男|25|A公司|8000|5|50000|680赵六|男|35|C公司|15000|1|10000|910孙七|男|22|A公司|6000|4|40000|660周八|女|28|D公司|11000|3|32000|860(1)将性别转换为数值类型(0代表男性,1代表女性);(2)将工作单位转换为数值类型(A公司为1,B公司为2,C公司为3,D公司为4);(3)将收入、借款次数、借款金额转换为对数类型。四、模型训练要求:基于处理好的征信数据,选择合适的机器学习算法进行模型训练,并对模型进行评估。1.以下数据集包含征信数据,请使用逻辑回归算法进行模型训练,并输出模型参数:姓名|性别|年龄|工作单位|收入|借款次数|借款金额|信用评分张三|男|28|A公司|10000|3|30000|780李四|男|30|B公司|12000|2|20000|850王五|男|25|A公司|8000|5|50000|680赵六|男|35|C公司|15000|1|10000|910孙七|男|22|A公司|6000|4|40000|660周八|女|28|D公司|11000|3|32000|8602.使用训练好的逻辑回归模型对以下新数据进行预测,并输出预测结果:姓名|性别|年龄|工作单位|收入|借款次数|借款金额张三|男|26|B公司|10500|4|45000李四|女|29|C公司|16000|1|12000王五|男|24|A公司|9500|3|35000赵六|男|34|D公司|16500|2|21000孙七|女|23|A公司|7000|5|50000五、模型评估要求:对训练好的逻辑回归模型进行评估,包括准确率、召回率、F1值等指标。1.计算训练集上的准确率、召回率、F1值,并输出结果:姓名|性别|年龄|工作单位|收入|借款次数|借款金额|信用评分张三|男|28|A公司|10000|3|30000|780李四|男|30|B公司|12000|2|20000|850王五|男|25|A公司|8000|5|50000|680赵六|男|35|C公司|15000|1|10000|910孙七|男|22|A公司|6000|4|40000|660周八|女|28|D公司|11000|3|32000|8602.使用混淆矩阵对以下预测结果进行评估,并输出混淆矩阵:姓名|性别|年龄|工作单位|收入|借款次数|借款金额|信用评分|预测结果张三|男|28|A公司|10000|3|30000|780|正常李四|男|30|B公司|12000|2|20000|850|正常王五|男|25|A公司|8000|5|50000|680|逾期赵六|男|35|C公司|15000|1|10000|910|逾期孙七|男|22|A公司|6000|4|40000|660|逾期周八|女|28|D公司|11000|3|32000|860|逾期六、模型优化要求:针对训练好的逻辑回归模型进行优化,包括调整参数、尝试不同的算法等。1.使用网格搜索(GridSearch)方法,对以下参数进行优化,并输出最佳参数组合:(1)正则化项C;(2)惩罚项L1(L1Regularization);(3)惩罚项L2(L2Regularization)。2.使用决策树算法对以下数据进行模型训练,并输出模型参数:姓名|性别|年龄|工作单位|收入|借款次数|借款金额|信用评分张三|男|28|A公司|10000|3|30000|780李四|男|30|B公司|12000|2|20000|850王五|男|25|A公司|8000|5|50000|680赵六|男|35|C公司|15000|1|10000|910孙七|男|22|A公司|6000|4|40000|660周八|女|28|D公司|11000|3|32000|8603.对比逻辑回归模型和决策树模型的性能,包括准确率、召回率、F1值等指标,并输出结果。本次试卷答案如下:一、数据清洗1.删除重复数据的答案:姓名|性别|年龄|工作单位张三|男|28|A公司李四|男|30|B公司王五|男|25|A公司赵六|男|35|C公司孙七|男|32|A公司周八|女|28|D公司解析思路:观察数据集,发现王五和周八的记录是重复的,将其删除。2.处理缺失值的答案:姓名|性别|年龄|工作单位|收入|借款次数|借款金额张三|男|28|A公司|10000|3|30000李四|男|30|B公司|12000|2|20000王五|男|25|A公司|8000|5|50000赵六|男|35|C公司|15000|1|10000孙七|男|22|A公司|6000|4|40000周八|女|28|D公司|11000|3|32000解析思路:观察数据集,发现张三、李四、孙七的年龄字段缺失,可以填充平均值或使用最频繁的值。3.异常值检测与处理的答案:姓名|性别|年龄|工作单位|收入|借款次数|借款金额张三|男|28|A公司|10000|3|30000李四|男|30|B公司|12000|2|20000王五|男|25|A公司|8000|5|50000赵六|男|35|C公司|15000|1|10000孙七|男|22|A公司|6000|4|40000周八|女|28|D公司|11000|3|32000解析思路:观察数据集,发现张三的年龄为100岁,属于异常值,将其替换为合理值(如28岁)。二、特征工程1.特征提取的答案:(1)年龄与收入的比值:0.28(2)借款次数与借款金额的比值:0.1(3)工作单位是否为A公司:1解析思路:计算年龄与收入的比值、借款次数与借款金额的比值,根据工作单位是否为A公司进行编码。2.特征选择的答案:与信用评分相关性最高的两个特征:收入、借款次数解析思路:观察特征与信用评分的相关性,选择相关性最高的两个特征。3.特征转换的答案:(1)性别:0(男性)(2)工作单位:1(A公司)(3)收入、借款次数、借款金额:对数类型解析思路:将性别和单位进行编码,将收入、借款次数、借款金额转换为对数类型。三、模型训练1.逻辑回归模型参数的答案:(1)正则化项C:0.01(2)惩罚项L1:1(3)惩罚项L2:1解析思路:使用逻辑回归算法进行模型训练,输出模型参数。2.模型预测结果的答案:姓名|性别|年龄|工作单位|收入|借款次数|借款金额|信用评分|预测结果张三|男|26|B公司|10500|4|45000||正常李四|女|29|C公司|16000|1|12000||正常王五|男|24|A公司|9500|3|35000||逾期赵六|男|34|D公司|16500|2|21000||逾期孙七|女|23|A公司|7000|5|50000||逾期解析思路:使用训练好的逻辑回归模型对新数据进行预测,输出预测结果。四、模型评估1.训练集评估指标的答案:准确率:0.8召回率:0.8F1值:0.8解析思路:计算训练集上的准确率、召回率、F1值,并输出结果。2.混淆矩阵的答案:||预测正常|预测逾期||-------|----------|----------||正常|4|0||逾期|0|1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年医用高能射线设备合作协议书
- 2025年脲醛塑料项目合作计划书
- 心理健康课件素材
- 2025年医用电子直线加速器项目发展计划
- 空气知识课件
- 2025年注射用骨肽合作协议书
- 二零二五年度房地产预售包销合作协议
- 二零二五年度创新型农业用地租赁合同示范文本
- 二零二五年度高端移民定居全程辅导服务合同范本
- 二零二五年个人心理咨询分期购买合同范本
- 《船舶建造核心流程》课件
- 远程手术机器人操作延迟优化方案
- 2025成都市辅警考试试卷真题
- 肿瘤介入手术试题及答案
- 露营烧烤营地管理制度
- 2025年高考数学必刷题分类:第1讲、集合(教师版)
- 评判性思维在护理管理的应用
- 2025年山东济南市青少年宫培训中心(长清中心)招聘6人历年自考难、易点模拟试卷(共500题附带答案详解)
- 结肠癌根治手术配合创意
- 消杀消毒培训课件
- 基于大语言模型和事件融合的电信诈骗事件风险分析
评论
0/150
提交评论