项目5 处理缺失值_第1页
项目5 处理缺失值_第2页
项目5 处理缺失值_第3页
项目5 处理缺失值_第4页
项目5 处理缺失值_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

处理缺失值07-2月-25项目背景与目标针对【学生信息(原始)】和【消费记录(清洗完数据)】工作表,需要对数据进行缺失值检查。如果学生信息中存在大量的缺失值,那么可能会造成分析结果的偏差。因此需要对【学生信息(清洗完数据)】工作表进行缺失值的统计,并对存在缺失值的列进行处理。对于缺失值较大的列,且在实际的数据分析中无意义时,予以删除处理。2022/9/191删除缺失值目录统计每一列的缺失值2COUNTIFS函数可以将条件应用于跨多个区域的单元格,然后统计满足所有条件的次数。

COUNTFS(Critera_Range1,Criteria1,[Critera_Range2,Criteria2],….)COUNTIFS函数2022/9/19参数参数解释criteria_range1必需。表示为第一个需要计算其中满足某个条件的单元格数目的单元格区域(简称条件区域)criteria1必需。表示查找的条件,可以是数字、表达值或文本[Critera_Range2,Criteria2],….可选。表示附加的区域及其关联条件,最多允许127个区域/条件对新建一个名为“消费行为分析表-处理缺失值”的工作簿,将【消费行为分析表-获取文本数据】工作簿的【学生信息(原始)】工作表复制至【消费行为分析表-处理缺失值】工作簿中的【Sheet1】工作表中;将【Sheet1】重命名为“学生信息(清洗完数据)”;在【消费行为分析表-处理缺失值】工作簿中,新建一个名为“消费记录(清洗完数据)”的工作表;将【消费行为分析表-处理异常值】工作簿的【消费记录(清洗完数据)】工作表复制至该工作表中。新建工作表2022/9/19复制单元格区域A1:E1至单元格区域G1:K1中,选中单元格G2,输入“=COUNTIFS(A:A,"NULL")”。按下【Enter】键,即可使用COUNTIFS函数统计出“序号”列的缺失值数量。统计学生信息表的缺失值:选择单元格G2并将鼠标指针放至单元格G2的右下角,当指标变为黑色加粗的“+”时,按住鼠标左键向右拉至单元格K2,结果如图。统计含有NULL的缺失值2022/9/19统计含有NULL的缺失值对统计学生信息表的缺失值的结果进行倒置:复制单元格区域G1:K2,选中单元格G3,在【开始】选项卡的【剪贴板】命令组中,单击【粘贴】图标,选择【选择性粘贴】命令;在弹出的【选择性粘贴】对话框中,选择【数值】选项和【转置】选项;单击【确定】按钮,选中单元格区域G1:K2,按【Delete】键对数据进行清除,然后合并单元格区域G1:H2,输入“学生信息表的缺失值统计结果”;设置单元格区域G1:H7为“垂直居中”,G列的列宽设为15,H列的列宽设为10,得到的效果如图。统计含有NULL的缺失值采用相同的方法,在【消费记录(清洗完数据)】工作表中,对每一列进行缺失值检查。由表可知,“消费项目的序列号”列和“消费操作的编码”列存在较多的缺失值,缺失值都达到22764。2022/9/191删除缺失值目录统计每一列的缺失值2选择需删除的列:选择“消费项目的序列号”列,按住【Ctrl】键的同时,选择“消费操作的编码”列;右键单击这两列,在快捷菜单中选择【删除】命令。删除缺失值对于缺失值较大的列,在实际的数据分析中无意义,所以需要删除【消费记录(清洗完数据)】工作表中的“

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论