


下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据预处理(excel加载对于数值类数据进行异常值和缺失值的识别与处理)importpandasaspdimportnumpyasnpfromscipyimportstatsfromsklearnimportdatasetsdataframe=pd.read_excel(rC:UsersShinelonDesktoppopulation.xls,sheet_name=O,header=O)#使用sklearn.datasets中的make_blobs创建仿真数据集feature,_=datasets.make_blobs(n_samples=10,neatures=2,centers=1,ra
2、ndom_state=1)print(查看仿真数据集feature:n)print(feature)print(n*2)#设置索引#dataframe=dataframe.set_index(dataframe姓名)print(dataframe)#print(n*2)#查看有多少行数据#print(有多少行数据(0表示行):,dataframe.shapeO,end=n)print(有几列(1表示列):,dataframe.shape1,end=n)print(n*2)#按字符索引查询#print(dataframe.loc小王)#多条件查询#print(多条件查找:n,(dataframe
3、年龄23)&(dataframe爱好=足球)print(n*2)#自动计算数值型的列#print(自动计算数值型的列:n,dataframe.describe()print(n*2)#查看缺失值#print(查看缺失值isnulln)print(对年龄列查看缺失值:,dataframe年龄.isnull().sum()#print(处理缺失值(过滤)notnull:n)print(dataframedataframe年龄.notnull()print(n*2)print(处理缺失值取众数平均数中位数:n)print(fillna.(data.mode()data.mean()data.medi
4、an()n)zongshu=dataframe年龄.mode()#多个众数时采用第一个zongshu=zongshu0dataframe=dataframe.fillna(zongshu,axis=1)print(dataframe)print(n*2)print(处理缺失值插值法:n)print(fillna.(method,limit),method方法limit前向或后向填充时最大的填充范Hn)print(dataframe.fillna(method=ffill)print(n*2)print(*3)print(识别异常值:n)featureO,O=1e5feature0,1=1e5#
5、print(feature)print(四分位法:n)defindicies_of_outerliers(x):q1,q3=np.percentile(x,25,75)iqr=q3-q1lower_bound=q1-1.5*iqrupper_bound=q3+1.5*iqrreturnnp.where(xupper_bound)|(xlower_bound)outelier=indicies_of_outerliers(feature)num_outelier=0foriteminenumerate(outelier):print(item)num_outelier+=1print(共:,nu
6、m_outelier,个异常值)print(n*2)print(异常值处理)print(1.丢弃)foriteminenumerate(outelier):drop_row=item1print(drop_row)after_drop_feature=np.delete(feature,drop_row0,axis=0)print(afterdrop:)print(after_drop_feature)print(2.置空)NaN_outlier_feature=featureforiteminenumerate(outelier):index_outlier=item1print(index_outlier)NaN_outlier_featurein
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年中国压电喷墨打印头行业市场前景预测及投资价值评估分析报告
- 徐州市中小学教学研究室高一数学苏教版《正弦定理》教案
- 安全微党课课件
- 东南亚试题片及答案
- 安全操作工程试题及答案
- 2025年铁氧磁性材料项目市场调查研究报告
- 医疗行业数字化转型中的跨部门协作文化
- 探索在线教育平台在教育均衡中的角色
- 2025年金属铠装移开式真空接触器柜项目市场调查研究报告
- 2025年金丝柚实木地板项目市场调查研究报告
- 大学生新材料项目创业计划书
- 2025年中级银行从业资格考试《银行业法律法规与综合能力》新版真题卷(附答案)
- 2025年苏教版科学小学四年级下册期末检测题附答案(二)
- 汽车定点洗车协议书
- 内蒙古鑫元硅材料科技有限公司年产10万吨颗粒硅绿色升级项报告书
- 2025年青海西宁事业单位(行测)考试笔试试题(含答案)
- 2025央国企CIO选型指南-ERP产品
- 2025内蒙古工程咨询监理有限责任公司招聘监理项目储备库人员400人笔试参考题库附带答案详解
- 技师选拔政治试题及答案
- 零星维修框架合同协议模板
- 2025年全国保密教育线上培训考试试题库及答案(真题汇编)带答案详解
评论
0/150
提交评论