Python与机器学习(第2版)(微课版) 课件 3-02-一元回归预测任务实施_第1页
Python与机器学习(第2版)(微课版) 课件 3-02-一元回归预测任务实施_第2页
Python与机器学习(第2版)(微课版) 课件 3-02-一元回归预测任务实施_第3页
Python与机器学习(第2版)(微课版) 课件 3-02-一元回归预测任务实施_第4页
Python与机器学习(第2版)(微课版) 课件 3-02-一元回归预测任务实施_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

课程负责人:陈清华【数据挖掘应用】课程观影数据回归分析票房线性回归预测任务实施会熟练从CSV文件中读取数据;会使用sklearn对观影数据进行数据预处理;会使用sklearn实现一元线性回归分析应用;会对回归模型进行评估。能力目标主要内容任务工单引导问题任务评价标准任务解决方案代码解析使用一元线性回归对票房进行预测film.txt教学难点任务工单使用一元线性回归对两项数据进行简要的相关性分析,探讨是否可以通过放映天数来预测电影的票房。任务概述

任务描述:使用read_csv()从文件中读取数据后,在数据转换、数据清洗和筛选的基础上,准备好放映天数及日均票房数据。将数据放入构建一元线性回归模型进行训练,最后用来预测电影日均票房。010010011001101010100100110110100101110101000100001011011101001010101101010011010010(1)查阅相关资料,明确本任务数据读取应该选用什么样的工具包?(2)获取的数据后,应该使用什么样的数据类型存储?每条记录不同字段的数据类型分别是什么?(3)如何根据已有的字段获取其他特征,比如从“上映时间”和“闭映时间”来获得“放映天数”?(4)线性回归模型初始化时,哪些参数需要设置,默认参数值分别是什么?(5)sklearn中如何训练得到相应的模型参数值?(6)如何获取训练好的模型中的参数?参数的取值有何物理意义?(7)如何评估训练所得的模型准确性?”

问题引导:任务概述

任务评价:任务概述评价内容评价要点分值分数评定自我评价1.任务实施数据读取与展现2分数据正确显示得2分

模型训练1分代码正确且顺利执行得1分

模型展现3分可展现得1分,展现完整得1分,展现结果清晰得1分2.效果评估分析模型得准确性,并得出评估结论3分能正确展现评估结果得1分,准确率效果评估结果90%以上得2分

3.任务总结依据任务实施情况总结结论1分总结内容切中本任务的重点要点得1分

合计10分

第1行:导入pandas包,并给出别名pd。第2行:读取film.txt中的数据importpandas

aspddf=pd.read_csv('film.txt',delimiter=';')df=df[['上映时间','闭映时间','票房/万元']]第3行:筛选指定内容列任务解决方案步骤一:数据读取与整理。df=df.dropna()第4行:去除带有空值得行任务解决方案第7行:计算电影放映天数df['放映天数']=(df['闭映时间']-df['上映时间']).dt.days+1第5、6行:将上映时间和闭映时间换为时间类型df['上映时间']=pd.to_datetime(df['上映时间’])df['闭映时间']=pd.to_datetime(df['闭映时间'])第8行:将票房数据转换为浮点型df['票房/万元']=df['票房/万元'].astype(float)第9行:计算日均票房df['日均票房/万元']=df['票房/万元']/df['放映天数']步骤一:读取与数据整理。任务解决方案df=df.reset_index(drop=True)df.head()数据显示第10、11行:重置索引列,不添加新的列步骤一:读取与数据整理。第12行:导入linear_model包。第13、14行:设置x和y的值。from

sklearn

import

linear_modelx=df[['放映天数']]y=df[['日均票房/万元']]regr=linear_model.LinearRegression()任务解决方案第16行:拟合regr.fit(x,y)步骤二:使用一元线性回归进行分析第15行:初始化线性回归模型任务解决方案import

matplotlib.pyplotaspltplt.rcParams['font.sans-serif']=['SimHei']plt.rcParams['axes.unicode_minus']=False第14、15、16行:导入绘图包,重命名为plt;设置字体等参数。第17、18、19、20行:设置图表标题、轴标签。步骤三:可视化展现plt.title('放映天数与票房关系图(一元线性回归)')plt.xlabel('放映天数’)plt.ylabel('日均票房/万元')plt.scatter(x,y,color='black')第21行:画出预测点,预测点颜色为红色。plt.scatter(x,regr.predict(x),color='red',linewidth=1,marker='*’)plt.legend(['原始值','预测值'],loc=

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论