数据预处理(excel加载对于数值类数据进行异常值和缺失值的识别与处理)_第1页
数据预处理(excel加载对于数值类数据进行异常值和缺失值的识别与处理)_第2页
数据预处理(excel加载对于数值类数据进行异常值和缺失值的识别与处理)_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据预处理(excel加载对于数值类数据进行异常值和缺失值的识别与处理)importpandasaspdimportnumpyasnpfromscipyimportstatsfromsklearnimportdatasetsdataframe=pd.read_excel(rC:UsersShinelonDesktoppopulation.xls,sheet_name=O,header=O)#使用sklearn.datasets中的make_blobs创建仿真数据集feature,_=datasets.make_blobs(n_samples=10,neatures=2,centers=1,ra

2、ndom_state=1)print(查看仿真数据集feature:n)print(feature)print(n*2)#设置索引#dataframe=dataframe.set_index(dataframe姓名)print(dataframe)#print(n*2)#查看有多少行数据#print(有多少行数据(0表示行):,dataframe.shapeO,end=n)print(有几列(1表示列):,dataframe.shape1,end=n)print(n*2)#按字符索引查询#print(dataframe.loc小王)#多条件查询#print(多条件查找:n,(dataframe

3、年龄23)&(dataframe爱好=足球)print(n*2)#自动计算数值型的列#print(自动计算数值型的列:n,dataframe.describe()print(n*2)#查看缺失值#print(查看缺失值isnulln)print(对年龄列查看缺失值:,dataframe年龄.isnull().sum()#print(处理缺失值(过滤)notnull:n)print(dataframedataframe年龄.notnull()print(n*2)print(处理缺失值取众数平均数中位数:n)print(fillna.(data.mode()data.mean()data.medi

4、an()n)zongshu=dataframe年龄.mode()#多个众数时采用第一个zongshu=zongshu0dataframe=dataframe.fillna(zongshu,axis=1)print(dataframe)print(n*2)print(处理缺失值插值法:n)print(fillna.(method,limit),method方法limit前向或后向填充时最大的填充范Hn)print(dataframe.fillna(method=ffill)print(n*2)print(*3)print(识别异常值:n)featureO,O=1e5feature0,1=1e5#

5、print(feature)print(四分位法:n)defindicies_of_outerliers(x):q1,q3=np.percentile(x,25,75)iqr=q3-q1lower_bound=q1-1.5*iqrupper_bound=q3+1.5*iqrreturnnp.where(xupper_bound)|(xlower_bound)outelier=indicies_of_outerliers(feature)num_outelier=0foriteminenumerate(outelier):print(item)num_outelier+=1print(共:,nu

6、m_outelier,个异常值)print(n*2)print(异常值处理)print(1.丢弃)foriteminenumerate(outelier):drop_row=item1print(drop_row)after_drop_feature=np.delete(feature,drop_row0,axis=0)print(afterdrop:)print(after_drop_feature)print(2.置空)NaN_outlier_feature=featureforiteminenumerate(outelier):index_outlier=item1print(index_outlier)NaN_outlier_featurein

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论