《数据挖掘与机器学习》 课件2.2.5 分组聚合、处理农产品基本信息数据_第1页
《数据挖掘与机器学习》 课件2.2.5 分组聚合、处理农产品基本信息数据_第2页
《数据挖掘与机器学习》 课件2.2.5 分组聚合、处理农产品基本信息数据_第3页
《数据挖掘与机器学习》 课件2.2.5 分组聚合、处理农产品基本信息数据_第4页
《数据挖掘与机器学习》 课件2.2.5 分组聚合、处理农产品基本信息数据_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

处理农产品基本信息数据农产品信息可视化分析——NumPy、pandas与Matplotlib库任务描述水稻是全球最重要的粮食作物之一,水稻审定数据可以为农业科技创新提供重要的参考和依据,可以帮助选择高产、优质、抗逆性强的水稻品种,促进绿色、可持续的农业生产方式,有助于推动农业的可持续发展。处理农产品基本信息数据本任务先了解水稻信息数据的情况,根据数据检测的内容可知数据存在缺失值、重复值、异常值的情况,并对数据中的缺失值、重复值、异常值进行处理,增强后续数据分析的效果。对数据进行仔细的处理和清洗,确保数据的质量可靠,为后续的数据分析和决策提供更可信的基础,也展现了劳动精神的价值和应用。任务要求读取农产品基本信息数据。检测数据缺失值的情况,并进行缺失值处理。检测数据异常值的情况,并进行异常值处理。检测数据重复值的情况,并进行重复值处理。处理农产品基本信息数据数据读取与写入pandas数据结构pandas数据处理pandas数据处理处理农产品基本信息数据pandas数据处理数据清洗数据合并分组聚合分组聚合处理农产品基本信息数据依据某个或某几个特征对数据集进行分组,并对各组应用一个函数,无论是聚合还是转换,都是数据分析的常用操作。分组聚合处理农产品基本信息数据pandas提供了一个灵活高效的groupby()方法,配合agg()方法能够实现分组聚合的操作。groupby()方法提供的是分组聚合步骤中的拆分功能,能够根据索引或特征对数据进行分组,其基本使用格式如下。DataFrame.groupby(by=None,axis=0,level=None,as_index=True,sort=True,group_keys=True,squeeze=<no_default>,observed=False,dropna=True)分组聚合处理农产品基本信息数据groupby()方法常用参数及其说明如下。参数名称参数说明by接收list、str、mapping、function或generator。表示用于确定进行分组的依据,若传入的是一个函数,则对索引进行计算并分组;若传入的是一个字典或Series,则字典或Series的值用于作为分组依据;若传入一个NumPy数组,则数据的元素作为分组依据;若传入的是字符串或字符串列表,则使用这些字符串所代表的特征作为分组依据。默认为Noneaxis接收0或1。表示操作的轴向。默认为0分组聚合处理农产品基本信息数据groupby()方法常用参数及其说明如下。参数名称参数说明level接收int或索引名。表示标签所在级别。默认为Noneas_index接收bool。表示聚合后的聚合标签是否以DataFrame索引形式输出。默认为Truesort接收bool。表示是否对分组依据、分组标签进行排序。默认为Truegroup_keys接收bool。表示是否显示分组标签的名称。默认为True分组聚合处理农产品基本信息数据分组后的结果并不能直接查看,而是被存在内存中,输出的是内存地址。实际上,分组后的数据对象GroupBy类似于Series与DataFrame,是pandas提供的一种对象。GroupBy对象常用的描述性统计方法及说明如右表所示。方法名称方法说明count返回各组的计数值,不包括缺失值head返回每组的前n个值max返回每组最大值mean返回每组的均值median返回每组的中位数分组聚合处理农产品基本信息数据分组后的结果并不能直接查看,而是被存在内存中,输出的是内存地址。实际上,分组后的数据对象GroupBy类似于Series与DataFrame,是pandas提供的一种对象。GroupBy对象常用的描述性统计方法及说明如右表所示。方法名称方法说明cumcount对每个分组中的组员进行标记,0~n-1size返回每组的大小min返回每组最小值std返回每组的标准差sum返回每组的和分组聚合处理农产品基本信息数据agg()方法和aggregate()方法都支持对每个分组应用某函数,包括Python内置函数或自定义函数。同时,这两个方法也能够直接对DataFrame进行函数应用操作。针对DataFrame的agg()方法与aggregate()方法的基本使用格式如下。DataFrame.agg(func,axis=0,*args,**kwargs)DataFrame.aggregate(func,axis=0,*args,**kwargs)agg()方法与aggregate()方法分组聚合处理农产品基本信息数据agg()方法与aggregate()方法常用参数及其说明如下。参数名称参数说明func接收list、dict、function或str。表示用于聚合数据的函数。无默认值axis接收0或1。代表操作的轴向。默认为0在正常使用过程中,agg()方法和aggregate()方法对DataFrame对象操作时的功能几乎完全相同,因此只需要掌握其中一个方法即可。分组聚合处理农产品基本信息数据对应届生招聘数据进行分组聚合的流程如下。使用groupby()方法根据学历要求对招聘数据进行分组结合agg()方法,计算应届生招聘数据中不同学历要求的工资平均值读取农产品基本信息数据缺失值检测与处理异常值检测与处理重复值检测与处理存储数据处理农产品基本信息数据处理农产品基本信息数据使用pandas库中pd.read_csv函数读取农产品基本信息数据查看农产品基本信息数据的基本属性,大致了解水稻信息数据的情况使用isnull()方法和sum()方法对农产品基本信息数据中缺失值进行检测使用dropna()方法对缺失值进行删除处理处理农产品基本信息数据的具体流程如下。处理农产品基本信息数据处理农产品基本信息数据处理农产品基本信息数据的具体流程如下。水稻数据中可能存在“?”和“/”两类异常值,使用isin()方法和sum()方法对其进行检测使用“!=”运算符剔除包含异常字符的行数据使用duplicated()方法和sum()方法对农产品基本信息数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论