




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
课程负责人:陈清华影评数据多元线性回归任务实施【数据挖掘应用】课程观影数据回归分析能力目标会熟练从CSV文件中读取数据;会使用sklearn对影评数据进行数据预处理;会使用sklearn实现多元回归分析应用;会使用matplotlib对测试结果进行可视化展现。使用多元线性回归对影评数据进行预测主要内容任务工单引导问题任务评价标准任务解决方案代码解析教学难点分析不同因素对评分的影响,将多个元素输入线性回归模型进行训练,并使用模型对评分进行预测。根据电影日均票房、放映天数、电影类型(是否为爱情片),使用多元线性回归模型来预测电影评分。任务概述
任务描述:任务工单010010011001101010100100110110100101110101000100001011011101001010101101010011010010film.txt(1)多元线性回归与一元线性回归的本质区别在哪里?(2)多元线性回归与一元线性回归的具体实现上有何异同?(3)在电影分析数据中各个自变量的单位显然是不同的,因此自变量前系数的大小并不能说明该因素的重要程度。简单来说,同样为票房,如果用元作单位就比用万元作单位所得的回归系数要小,但是票房水平对评分的影响程度并没有变。一般地,会将各个自变量进行归一化处理。那么,自变量数值的单位大小对结果是否有影响?(4)如何解释各个因素权重取值的不同?(5)如何提升预测精确率?从先验知识入手,试想可否从其他维度预测评分?(6)当自变量较多时,使用什么样的可视化手段展现并比较不同模型间的优劣?(7)回归模型适用于哪些应用情境?
问题引导:任务概述
任务评价:任务概述评价内容评价要点分值分数评定自我评价1.任务实施数据读取与预处理4分数据读入得1分,数据类型正确得1分,正确处理影片类型得1分,数据集正确切分得1分。
模型训练1分代码正确且顺利执行得1分
模型展现3分正确展示模型参数得1分2.效果评估展现模型结果,并得出结论3分能展现预测结果得1分,正确展现评估结果得1分,不存在预测结果相关较大得情况得1分
3.任务总结依据任务实施情况总结结论1分总结内容切中本任务的重点要点得1分
合计10分
第1行:读取film.txt中的数据df=pd.read_csv('film.txt',delimiter=';')任务解决方案步骤一:数据准备,从文件中读入数据,并整理所需要的数据源第2、3行:将上映时间和闭映时间换为时间类型df['上映时间']=pd.to_datetime(df['上映时间’])df['闭映时间']=pd.to_datetime(df['闭映时间'])第4行:计算电影放映天数df['放映天数']=(df['闭映时间']-df['上映时间']).dt.days+1任务解决方案第5行:将票房数据转换为浮点型df['票房/万元']=df['票房/万元'].astype(float64)第6行:计算日均票房df['日均票房/万元']=df['票房/万元']/df['放映天数']第7、8行:将票房数据转换为浮点型,添加一列“是否为爱情片”df['评分']=df['评分'].astype(float64)df['是否为爱情片']=df['影片类型'].str.contains('爱情').astype(str)步骤一:数据准备,从文件中读入数据,并整理所需要的数据源任务解决方案name_to_type={'True':'1','False':'0'};df['影片类型(爱情)']=df['是否为爱情片'].map(name_to_type);df.head()第9、10行:标明是否是爱情片数据显示步骤一:数据准备,从文件中读入数据,并整理所需要的数据源第12行:拆分训练集和测试集。第15、16行:获取系数,截距。x_train,x_test,y_train,y_test=train_test_split(df[['影片类型(爱情)','放映天数','日均票房/万元']],df[['评分']],train_size=0.8,test_size=0.2)regr=linear_model.LinearRegression()任务解决方案第14行:拟合regr.fit(x_train,y_train)步骤二:使用多元线性回归进行分析第13行:初始化线性回归模型print('系数:',regr.coef_)print('截距:',ercept_)系数:[[-1.93644687e+00-1.29725765e-024.03645528e-04]]截距:[6.50362603]第22行:显示预测值与测试值曲线任务解决方案y_pred=regr.predict(x_test)plt.plot(range(len(y_pred)),y_pred,'red',linewidth=2.5,
label=u"预测值",linestyle='--')plt.plot(range(len(y_test)),y_test,‘green’,label=u“测试值”)plt.legend(loc=2)plt.ylabel('评分')第17、18、19、20、21行:用regr对x_test数据集进
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 试题及答案包含美容师考试心理学内容
- 2025年绝缘材料:绝缘套管合作协议书
- 美容师职业形象与礼仪考察试题及答案
- 2024年汽车美容行业竞争策略分析试题及答案
- 湖北省黄冈市黄梅县育才高级中学2023-2024学年高二下学期4月期中考试化学试题(原卷版)
- 理解药理学的复杂试题及答案
- 美容师考试的团队合作与学习探讨试题及答案
- 考前冲刺美容师必练题型及试题及答案
- 云课堂探索教育新模式
- 高速公路笔试试题及答案
- 校长在中考复习备考研讨会上讲话:聚焦中考命题核心!靶向突破薄弱环节
- 基本公共卫生服务项目培训
- 可下载打印的公司章程
- 关于对领导班子的意见和建议
- 火警火灾处理标准流程
- TCCIAT 0043-2022 建筑工程渗漏治理技术规程
- 初中美术七年级下册《第4课扮靓生活的花卉纹样》课件
- 土建、装饰、维修改造等零星工程施工组织方案设计技术标范文
- 宫颈癌病历书写模板
- 芭蕾基训课程课时教案
- 科室急救备用药品领用补充工作流程
评论
0/150
提交评论