Python与机器学习(第2版)(微课版) 课件 3-06-多元线性回归任务实施_第1页
Python与机器学习(第2版)(微课版) 课件 3-06-多元线性回归任务实施_第2页
Python与机器学习(第2版)(微课版) 课件 3-06-多元线性回归任务实施_第3页
Python与机器学习(第2版)(微课版) 课件 3-06-多元线性回归任务实施_第4页
Python与机器学习(第2版)(微课版) 课件 3-06-多元线性回归任务实施_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

课程负责人:陈清华影评数据多元线性回归任务实施【数据挖掘应用】课程观影数据回归分析能力目标会熟练从CSV文件中读取数据;会使用sklearn对影评数据进行数据预处理;会使用sklearn实现多元回归分析应用;会使用matplotlib对测试结果进行可视化展现。使用多元线性回归对影评数据进行预测主要内容任务工单引导问题任务评价标准任务解决方案代码解析教学难点分析不同因素对评分的影响,将多个元素输入线性回归模型进行训练,并使用模型对评分进行预测。根据电影日均票房、放映天数、电影类型(是否为爱情片),使用多元线性回归模型来预测电影评分。任务概述

任务描述:任务工单010010011001101010100100110110100101110101000100001011011101001010101101010011010010film.txt(1)多元线性回归与一元线性回归的本质区别在哪里?(2)多元线性回归与一元线性回归的具体实现上有何异同?(3)在电影分析数据中各个自变量的单位显然是不同的,因此自变量前系数的大小并不能说明该因素的重要程度。简单来说,同样为票房,如果用元作单位就比用万元作单位所得的回归系数要小,但是票房水平对评分的影响程度并没有变。一般地,会将各个自变量进行归一化处理。那么,自变量数值的单位大小对结果是否有影响?(4)如何解释各个因素权重取值的不同?(5)如何提升预测精确率?从先验知识入手,试想可否从其他维度预测评分?(6)当自变量较多时,使用什么样的可视化手段展现并比较不同模型间的优劣?(7)回归模型适用于哪些应用情境?

问题引导:任务概述

任务评价:任务概述评价内容评价要点分值分数评定自我评价1.任务实施数据读取与预处理4分数据读入得1分,数据类型正确得1分,正确处理影片类型得1分,数据集正确切分得1分。

模型训练1分代码正确且顺利执行得1分

模型展现3分正确展示模型参数得1分2.效果评估展现模型结果,并得出结论3分能展现预测结果得1分,正确展现评估结果得1分,不存在预测结果相关较大得情况得1分

3.任务总结依据任务实施情况总结结论1分总结内容切中本任务的重点要点得1分

合计10分

第1行:读取film.txt中的数据df=pd.read_csv('film.txt',delimiter=';')任务解决方案步骤一:数据准备,从文件中读入数据,并整理所需要的数据源第2、3行:将上映时间和闭映时间换为时间类型df['上映时间']=pd.to_datetime(df['上映时间’])df['闭映时间']=pd.to_datetime(df['闭映时间'])第4行:计算电影放映天数df['放映天数']=(df['闭映时间']-df['上映时间']).dt.days+1任务解决方案第5行:将票房数据转换为浮点型df['票房/万元']=df['票房/万元'].astype(float64)第6行:计算日均票房df['日均票房/万元']=df['票房/万元']/df['放映天数']第7、8行:将票房数据转换为浮点型,添加一列“是否为爱情片”df['评分']=df['评分'].astype(float64)df['是否为爱情片']=df['影片类型'].str.contains('爱情').astype(str)步骤一:数据准备,从文件中读入数据,并整理所需要的数据源任务解决方案name_to_type={'True':'1','False':'0'};df['影片类型(爱情)']=df['是否为爱情片'].map(name_to_type);df.head()第9、10行:标明是否是爱情片数据显示步骤一:数据准备,从文件中读入数据,并整理所需要的数据源第12行:拆分训练集和测试集。第15、16行:获取系数,截距。x_train,x_test,y_train,y_test=train_test_split(df[['影片类型(爱情)','放映天数','日均票房/万元']],df[['评分']],train_size=0.8,test_size=0.2)regr=linear_model.LinearRegression()任务解决方案第14行:拟合regr.fit(x_train,y_train)步骤二:使用多元线性回归进行分析第13行:初始化线性回归模型print('系数:',regr.coef_)print('截距:',ercept_)系数:[[-1.93644687e+00-1.29725765e-024.03645528e-04]]截距:[6.50362603]第22行:显示预测值与测试值曲线任务解决方案y_pred=regr.predict(x_test)plt.plot(range(len(y_pred)),y_pred,'red',linewidth=2.5,

label=u"预测值",linestyle='--')plt.plot(range(len(y_test)),y_test,‘green’,label=u“测试值”)plt.legend(loc=2)plt.ylabel('评分')第17、18、19、20、21行:用regr对x_test数据集进

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论