Python数据可视化(微课版) 课件 第9章 医疗花费预测案例分析_第1页
Python数据可视化(微课版) 课件 第9章 医疗花费预测案例分析_第2页
Python数据可视化(微课版) 课件 第9章 医疗花费预测案例分析_第3页
Python数据可视化(微课版) 课件 第9章 医疗花费预测案例分析_第4页
Python数据可视化(微课版) 课件 第9章 医疗花费预测案例分析_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

主讲人:AiPPT时间:20XX.XXPOWERPOINTDESIGN202XPowerPointDesign------------------医疗花费预测案例分析数据读取与初步观察数据分析方法线性回归模型构建结果预测与分析目录CONTENTS--------------PowerPointDesign数据读取与初步观察01PARTPOWERPOINTDESIGN01.本案例数据来源于DataFountain,数据以csv文件形式提供。使用Python的Pandas库读取csv文件,得到Dataframe类型的对象,便于后续的数据观察与处理。示例代码:train=pd.read_csv("train.csv"),通过调用train.head(5)可查看文件中最前面的几条数据。02.数据类型观察在提供的数据中,age和children是整数类型,bmi和charges是浮点类型,sex、smoker和region是字符串类型。这些信息对于后续的数据预处理至关重要。数据集来源与格式数据集介绍与读取字符串类型转换为了便于分析,需将无法参与计算的字符串类型变为整数类型。Scikit-learn包提供了OrdinalEncoder,用于将sex、smoker和region进行序数编码。示例代码:encoder=OrdinalEncoder(dtype=),通过encoder.fit_transform(train[['sex','smoker','region']])实现编码转换。01数据分布与映射观察数据发现age、bmi和charges为连续数据,children为离散数据。使用Seaborn库对连续数据的分布进行可视化,发现charges近似符合对数正态分布,故对其取对数后再进行可视化。对age使用最大最小标准化映射到[0,1]区间,对charges的对数和bmi使用Z-score标准化映射到标准正态分布。02数据预处理--------------PowerPointDesign数据分析方法02PARTPOWERPOINTDESIGN通过观察样本的协方差矩阵,初步了解属性和预测目标charges的关系。使用Seaborn库的heatmap函数绘制热度图,颜色越浅表示数值越高,颜色越深表示数值越低。从图中可粗略观察出,charges和age、smoker的关系较为明显,而其他属性与charges的相关性不明显。协方差矩阵观察协方差矩阵与热度图使用Matplotlib观察样本根据age、bmi和charges绘制的图像,发现数据大致分布于三个曲面,适合使用DBSCAN聚类方法进行分类。DBSCAN算法通过指定半径和数量,将空间中的点分为核心点、边界点和噪声。在本案例中,调整参数以将样本分为3类。空间分布观察与聚类聚类结果使用Matplotlib进行观察,通过不同颜色标记不同类别的样本,直观展示聚类效果。聚类结果可视化DBSCAN聚类算法应用分类标准建立DBSCAN得到聚类标签后,使用支持向量机(SVM)建立分类标准。观察样本分布发现age、bmi、smoker与样本分类有明显关系,适合使用SVM进行分类。使用Scikit-learn库的SVM工具,对非噪声样本进行训练,并将预测结果与DBSCAN聚类标签比较,得到分类准确率约为83%。支持向量机分类算法--------------PowerPointDesign线性回归模型构建03PARTPOWERPOINTDESIGN01在DBSCAN算法得到样本类别后,对每一类样本分别进行线性回归,得到三个不同的线性模型。由于charges和age并非简单的线性关系,构造新属性age2表示age的平方,使用age、age2和bmi进行拟合。02模型构建与属性选择使用均方误差初步观察拟合性能。Scikit-learn提供mean_squared_error函数用于计算,结果显示模型具有较好的拟合效果。模型性能评估线性回归模型拟合--------------PowerPointDesign结果预测与分析04PARTPOWERPOINTDESIGN预测流程与代码实现对结果进行预测的代码读取test.csv文件,并将预测结果写入submission.csv中。包括对测试数据的预处理、类型预测、属性构造、模型预测和结果反标准化等步骤。结果预测实现结果可视化与评估使用Seaborn库的lineplot方法绘制折线图,对比预测结果和真实取值。图示结果表明,本案例的预测结果和真实取值基本一致,验证了模型的有效性。预测结

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论