版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
课程负责人:陈清华【数据挖掘应用】课程观影数据回归分析归一化处理任务实施掌握数据归一化处理的方法了解要进行数据归一化处理的情况会使用sklearn对数据进行归一化处理能力目标对票房等数据进行归一化处理主要内容任务工单引导问题任务评价标准任务解决方案代码解析任务工单教学难点使用sklearn中的数据预处理模块对放映天数、日均票房做归一化处理。在数据标准化的基础上,重新训练一元线性回归模型,并对电影日均票房进行预测。任务概述
任务描述:010010011001101010100100110110100101110101000100001011011101001010101101010011010010film.txt(1)为什么需要对数据进行归一化处理?(2)什么情况下要对数据进行归一化处理?(3)归一化处理方法有哪些?sklearn已经封装哪几种?(4)写出归一化后的一元线性回归方程,比较与前一任务的结果有何不同?”
问题引导:任务概述
任务评价:任务概述评价内容评价要点分值分数评定自我评价1.任务实施数据归一化处理2分数据正确处理得2分,每1项得1分
模型再训练1分代码正确且顺利执行得1分
模型可视化1分展现结果清晰得1分2.效果评估对比不同模型得指标,并得出评估报告4分能正确展现评估结果得1分,模型指标有提升得3分
3.任务总结依据任务实施情况总结结论2分总结内容切中本任务的重点要点得2分
合计10分
第1行:导入minmax_scale第2行:归一化fromsklearn.preprocessingimportminmax_scaledf['日均票房/万元']=minmax_scale(df['日均票房/万元'])df['放映天数']=minmax_scale(df['放映天数'])df.head()第3行:显示数据任务解决方案步骤一:归一化处理。步骤二:查看日均票房与放映天数范围(最后两列)缩放后的数据步骤三:范围缩放后的一元线性回归分析结果任务解决方案为什么要归一化评判依据:身体指数=3*身高+2*体重0.310例如:
身高
体重1.51.6110115结论:体重变化的影响
>>身高变化的影响身高(米)体重(斤)1.2951.31001.41051.51101.61151.7120以身体指数评判为例为什么要归一化评判依据:身体指数=3*身高+2*体重体重110身高1.51.6体重110115身高(米)体重(斤)1.2951.31001.41051.51101.61151.7120以某身体指数评判为例为什么要归一化身高(米)体重(斤)1.2951.31001.41051.51101.61151.7120以某身体指数评判为例评判依据:身体指数=3*身高+2*体重原因:两个特征值的单位不同解决办法:归一化,让特征值处在同一个数量级上归一化的作用
在机器学习领域中,不同评价指标(即特征向量中的不同特征就是所述的不同评价指标)往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据归一化处理,以解决数据指标之间的可比性问题。
归一化是将有量纲的表达式,经过变换,化为无量纲的表达式,成为标量。
如果不对数据进行归一化处理,则会导致梯度下降,复杂度增加或损失函数(lossfunction)只能选择线性,从而导致模型效果不佳。归一化:Normalization归一化的方法:
1)最大最小标准化(Min-MaxNormalization)2)Z-score标准化方法3)非线性归一化归一化:归一化的好处:1)归一化后加快了梯度下降求最优解的速度;2)归一化有可能提高精度(如KNN)。注:没有一种数据标准化的方法放在每一个问题、每一个模型,都能提高算法精度和加速收敛。归一化是将有量纲的表达式,经过变换,化为无量纲的表达式,成为标量。sklearn中的归一化处理sklearn中的preprocessing用于数据预处理minmax_scale()函数通过将每个特征缩放到给定范围来转换特征,官方定义如下:minmax_scale(X,feature_range=(0,1),*,axis=0,copy=True)参数:X:形状类似数组(n_samples,n_features),指定要变换的数据feature_range:元组(最小值,最大值),默认=(0,1),指定所需的转换数据范围axis:整数,默认=0。指定用于缩放的轴。如果为0,则独立缩放每个特征,否则(如果为1)缩放每个样本copy:布尔,默认=真。设置为False以执行就地缩放并避免复制(如果输入已经是一个numpy数组)返回:X_tr:ndarray形状(n_samples,n_features),为转换后的数据minmax_scale()规模化特征到一定的范围内,使得特征的分布在一个给定最小值和最大值的范围内。一般情况下是在[0,1]之间,或者是特征中绝对值最大的那个数为1,其他数以此标准分布在[-1,1]之间。minmax_scale()给定了一个明确的最大值与最小值。示例:df['放映天数']=minmax_scale(df['放映天数'])minmax_scale()使用方法
给定的票房数据中不同特征的数值范围变化大,如放映天数和票房。因此,将特征缩放到合理的范围是非常重要的。范围缩放
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中国航空城行业发展状况及投资规划分析研究报告(2024-2030版)
- 中国胶粘剂行业竞争格局及投资潜力分析研究报告(2024-2030版)
- 中国聚乙烯树脂行业现状动态及供需形势分析研究报告(2024-2030版)
- 2024年中国杠杆式钢材秤市场调查研究报告
- 中国经济型轿车投资前景建议与客户策略分析研究报告(2024-2030版)
- 中国狗狗香波浴液行业市场现状分析及竞争格局与投资发展研究报告(2024-2030版)
- 2024年中国卧式自吸离心泵市场调查研究报告
- 中国海带粉行业市场现状分析及竞争格局与投资发展研究报告(2024-2030版)
- 课程设计垃圾处理工艺
- 水利网络课程设计
- 危险货物道路运输安全卡4
- 船舶电气安装理论图纸相结合PPT课件
- 道路交通标志与标线PPT课件
- 幕墙打胶工艺
- 违约损失率(LGD)研究
- 新冀教版九年级英语上册第26课课件
- 编写标准必备文件 国家标准 地方标准 行业标准 企业标准 格式模板大全
- 《钻木取火》PPT
- 2021-2025乡村5年规划三篇
- 无线电遥控帆船讲解
- 压力与情绪管理(完整版)
评论
0/150
提交评论