




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
dropna函数的作用一.apply函数作用:对DataFrame的某行/列应用函数之后,Apply返回一些值。函数既可以使用默认的,也可以自定义。注意:在第二个输出中应用head()函数,因为它包含了很多行。#创建一个新函数defnum_missing(x):returnsum(x.isnull())#应用每一列print"Missingvaluespercolumn:"printdata.apply(num_missing,axis=0)#axis=0definesthatfunctionistobeappliedoneachcolumn#应用每一行print"\nMissingvaluesperrow:"printdata.apply(num_missing,axis=1).head()#axis=1definesthatfunctionistobeappliedoneachrow二.loc函数作用:选择属性子集subSalesDf=salesDf.loc[0:4,'购药时间':'销售数量']三.rename函数作用:列重命名colNameDict={'购药时间':'销售时间'}#将‘购药时间’改为‘销售时间’salesDf.rename(columns=colNameDict,inplace=True)四.dropna函数作用:删除缺失值,how='any'意为在给定的任何一列中有缺失值就删除salesDf=salesDf.dropna(subset=['销售时间','社保卡号'],how='any')#删除列(销售时间,社保卡号)中为空的行五.pd.to_datetime函数作用:字符串类型的数据转换成日期格式。传入的格式是原始数据的日期格式——format='%Y-%m-%d'固定写法:Y表示年、m表示月、d表示日。salesDf.loc[:,'销售时间']=pd.to_datetime(salesDf.loc[:,'销售时间'],format='%Y-%m-%d',errors='coerce')errors='coerce':如果原始数据不符合日期的格式,转换后的值为空值NaT。所以转换之后我们还要运行一次删除空值的代码,因为不符合格式的日期被转变为了空值需要删除。salesDf=salesDf.dropna(subset=['销售时间','社保卡号'],how='any')六.pd.sort_values作用:对数据进行排序,by表示按那几列进行排序,ascending=True表示升序排列,ascending=False表示降序排列salesDf=salesDf.sort_values(by='销售时间',#按销售日期进行升序排列ascending=True)七.reset_index函数作用:生成从0到N按顺序的索引值salesDf=salesDf.reset_index(drop=True)八.describe函数作用:查看数据框中所有数据每列的描述统计信息:(count:总数,mean:平均数,std:标准差,min:最小值,25%:下四分位数,50%:中位数,75%:上四分位数,max:最大值)salesDf.describe()九.删除异常值作用:假设最小值出现了小于0的情况,分析应该是记录过程中出现错误所致。第一步:设置查询条件,这一步返回True和falsequerySer=salesDf.loc[:,'销售数量']>0第二步:应用查询条件salesDf=salesDf.loc[querySer,:]十.drop_duplicates函数作用:将重复的数据删除,同一个人发生的所有消费算作一次消费,根据列名(销售时间,社区卡号),如果这两个列值同时相同,只保留1条kpi1_Df=salesDf.drop_duplicates(subset=['销售时间','社保卡号'])十一.groupby作用:根据某一列分组gb=groupDf.groupby(groupDf.index.month)对分组后的数据应用函数mounthDf=gb.sum()十二.不适=使用for循环的列表生成器作用:当一个列表中的元素是由另外一个列表中对应元素经过运算得到时,可以省去for循环,适用一行代码生成模型x=[2,3,4,5]out=[item*2foriteminx]print(out)十三.Lambda表达式作用:不使用def关键字,也没有return。Lambda表达式创造的函数和普通的def构建的函数没什么不同,只不过函数体只有单独一个表达式而已。double=lambdax:x*2#double是函数名,x是参数print(double(3))十四.map和filter函数1.map作用:可以与Lambda表达式同时使用,map()函数接收一个列表,和一个函数(可以是Lambda表达式),它对列表里的每个元素调用一个函数进行处理,再将结果放进一个新列表里。result=list(map(double,x))print(result)2.filter作用:它接收一个列表,和一个规则函数,在对列表里的每个元素调用这个规则函数之后,它把所有返回值为假的元素从列表中剔除,然后返回这个过滤后的子列表。result2=list(filter(lambdaa:a>4,x))十五.arrange函数作用:arange()函数按照指定的步长返回一个等差数列。除开始和结束值之外,你还可以自定义步长和数据类型。请注意,给定的结束值参数是不会被包含在结果内的。result=np.arange(start,stop,step)十六.linspace函数作用:将给定区间进行若干等分以后的等分点组成的数列。所以你传入的参数包括开始值、结束值,以及具体多少等分。linspace()将这个区间进行等分后,把开始值、结束值和每个等分点都放进一个NumPy数组里。这在做数据可视化以及绘制坐标轴的时候都很有用。result4=np.linspace(2.0,3.0,num=5)十七.矩阵合并函数1.Concat作用:把一个或多个数据表按行(或列)的方向简单堆叠起来(看你传入的axis参数是0还是1咯)。2.me
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 昆明城市学院《形体与训练(一)》2023-2024学年第二学期期末试卷
- 南师附中政治题目及答案
- 模仿句式的题目及答案
- 护士职业素养岗前培训
- 风荷载实时监测-洞察及研究
- 南阳师范学院《品牌与形象》2023-2024学年第二学期期末试卷
- 郑州城市职业学院《人力资源管理技能开发实训》2023-2024学年第二学期期末试卷
- 兰州信息科技学院《国际发展与国际组织概况》2023-2024学年第二学期期末试卷
- 吉林工程职业学院《基础英语F4》2023-2024学年第二学期期末试卷
- 苏州科技大学天平学院《中药药理学》2023-2024学年第二学期期末试卷
- 玉石国际贸易买卖合同8篇
- GB 45549-2025石墨和萤石单位产品能源消耗限额
- 建筑合同变更补充协议
- SL631水利水电工程单元工程施工质量验收标准第4部分:堤防与河道整治工程
- 2025年山东省淄博市高新区中考一模历史试题(原卷版+解析版)
- 机场航站楼行李输送带维护
- 2024年1月四川省普通高中学业水平合格性考试物理试题(含答案)
- 银行保安笔试题及答案
- 早期食管癌的内镜下治疗主题课件
- 饲料厂粉尘防爆培训课件
- 中级消防员技能鉴定理论知识考试题(附答案)
评论
0/150
提交评论