大数据治理(高级) 课件 西财 实训项目3、4:人力资源数据预处理、鸢尾花数据预处理_第1页
大数据治理(高级) 课件 西财 实训项目3、4:人力资源数据预处理、鸢尾花数据预处理_第2页
大数据治理(高级) 课件 西财 实训项目3、4:人力资源数据预处理、鸢尾花数据预处理_第3页
大数据治理(高级) 课件 西财 实训项目3、4:人力资源数据预处理、鸢尾花数据预处理_第4页
大数据治理(高级) 课件 西财 实训项目3、4:人力资源数据预处理、鸢尾花数据预处理_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

实训3人力资源数据预处理1知识点层级索引数据重塑标准化处理离散化处理哑变量处理2实训目标理解层级索引的概念与表示;掌握数据重塑的分类与方法;掌握数据离散化处理的方法;掌握数据标准化处理的方法;掌握数据哑变量处理的方法;3知识点层级索引数据重塑标准化处理离散化处理哑变量处理4层级索引在处理高维度数据时,可以考虑采用层级索引。使用层级索引可以在较低维度的数据结构(Series和DataFrame)中存储和操作任意维数的数据,MultiIndex在常规索引的基础上提供了分层功能。Series(1D)DataFrame(2D)MultiIndexMultiIndexSeries(2D)DataFrame(3D)5层级索引层级索引对象(MultiIndex)

的创建方式有三种:元组列表创建,数组列表创建,交叉迭代器创建。层级索引对象MultiIndexfrom_tuples()from_arrays()from_product()6010203政府需求岷山集团需求同盟商家群众arrays=[['bar','bar','baz','baz','foo','foo','qux','qux'],['one','two','one','two','one','two','one','two']]tuples=[('bar','one'),('bar','two'),('baz','one'),('baz','two’),('foo','one'),('foo','two'),('qux','one'),('qux','two’)]层级索引层级索引对象iterables=[['bar','baz','foo','qux'],['one','two']]75MIN0102政府需求岷山集团需求群众pd.MultiIndex.from_tuples(tuples,names=['first','second'])pd.MultiIndex.from_arrays(arrays,names=['first','second'])层级索引层级索引对象创建pd.MultiIndex.from_product(iterables,names=['first','second'])83MIN0102政府需求岷山集团需求群众df_obj=pd.DataFrame(np.random.randn(8,4),index=arrays)层级索引层级索引对象使用92MIN0102政府需求层级索引层级索引数据选取df_obj.loc['baz']df_obj[0]df_obj.loc['foo','two']df_obj[2]['foo']['one']106MIN知识点层级索引数据重塑标准化处理离散化处理哑变量处理11数据重塑数据重塑即对数据表当前的行列结构进行重设,以满足观察和操作的需要。Pandas中用于重塑操作的有:行列索引重塑、多层索引重塑数据重塑行列索引重塑多层索引重塑120102政府需求岷山集团需求同盟商家群众数据重塑行列索引重塑Pivot()方法可根据给定的行或列索引重新组织一个DataFrame对象。pivot(index=None,columns=None,values=None)index:用于创建新DataFrame对象的行索引。columns:用于创建新DataFrame对象的列索引。values:用于填充新DataFrame对象中的值。13010203政府需求岷山集团需求df_obj=pd.DataFrame({'date':pd.date_range('20210801',periods=9,freq='D'),'var':list(str('ABC')*3),'value':np.random.random(9)})数据重塑行列索引重塑143MIN010203政府需求岷山集团需求df_obj1=df_obj.pivot(index='date',columns='var',values='value’)数据重塑行列索引重塑154MIN01政府需求岷山集团需求群众数据重塑多层索引重塑stack()方法可以将数据的列索引转换为行索引。unstack()可执行相反操作。DataFrame.stack(level=-1,dropna=True)level:索引层次。-1表示内层(默认),0表示外层索引。dropna:是否将缺失值删除,若设为True,则表示自动过滤缺失值,设置为False则相反。fill_value:空缺填充值。DataFrame.unstack(level=-1,fill_value=None)16政府需求岷山集团需求群众df_obj2=df_obj1.resample('3D',label='right').sum()数据重塑多层索引重塑df_obj3=df_obj2.stack()df_obj3.unstack()174MIN知识点层级索引数据重塑标准化处理离散化处理哑变量处理18标准化处理不同量纲造成的数值差异可能会影响后续的数据处理及分析,为了消除特征之间量纲和取值差异造成的影响,可以选择标准化处理。标准化处理离差标准化标准差标准化小数定标标准化19标准化处理离差标准化,通过最大值和最小值将原始数据映射到[0,1]内。

标准差标准化,通过均值和标准差将原始数据进行处理。小数定标标准化,通过移动数据的小数位数,将原始数据映射到区间[-1,1]内,小数位数(k)取决于数据绝对值的最大值。20标准化处理离差标准化。标准差标准化小数定标标准化F_MinMax=lambdax:(x-np.min(x))/(np.max(x)-np.min(x))F_Standard=lambdax:(x-np.mean(x))/(np.std(x))F_Decimal=lambdax:x/10**np.ceil(np.log10(np.abs(x).max()))注意:以上匿名函数作用于DataFrame对象须使用apply函数,或导入sklearn库相关函数216MIN标准化处理离差标准化。df=pd.DataFrame([10,-5,108,46,88,31,74,22])df.apply(F_MinMax)df.apply(F_Standard)df.apply(F_Decimal)注意:以上匿名函数作用于DataFrame对象须使用apply函数,或导入sklearn库相关函数223MIN知识点层级索引数据重塑标准化处理离散化处理哑变量处理23离散化处理由于连续数据在一些情况下不适用于特定的算法,因此有必要将连续性特征(数值型)变换为离散型特征(类别型)。离散化处理分箱离散化聚类分析离散化24离散化处理Pandas的

cut

()函数能够实现分箱离散化操作。分箱离散化pandas.cut(x,bins,right=True,labels=None,retbins=False,precision=3,include_lowest=False,duplicates='raise')x:表示要分箱的数据,必须是一维的。bins:表示分箱的边界,接收int和序列类型的数据。right:是否包含右端点,决定区间的开闭,默认为True25离散化处理聚类分析是一种流行的离散化方法。通过将属性的值划分成簇或组,聚类算法可以用来离散化数值属性。聚类考虑数据的分布以及数据点的邻近性,因此可以产生高质量的离散化结果。聚类分析离散化26离散化处理defKmeansCut(data,k):KM_model=KMeans(k)KM_model.fit(data.values.reshape((len(data),1)))center=pd.DataFrame(KM_model.cluster_centers_).sort_values(0)border=center.rolling(2).mean().iloc[1:]border=[0]+list(border[0])+[data.max()]returnpd.cut(data,border)聚类分析离散化27参考代码:PPT配套练习-实训3-3.5知识点层级索引数据重塑标准化处理离散化处理哑变量处理28哑变量处理许多模型要求输入的特征为数值,但在工作中我们为了减少无效数据的产生一般用类别来表示这类数据,哑变量处理即将类别变量转为哑变量指标矩阵。索引类别0A1B2C3D类别索引ABCD0100010100200103000129在Pandas中,可以使用get_dummies()函数对类别特征进行哑变量处理。pandas.get_dummies(data,prefix=None,prefix_sep='_',dummy_na=False,columns=None,sparse=False,drop_first=False,dtype=None)data:表示哑变量处理的数据。prefix:表示列名的前缀,默认为None。prefix_sep:用于附加前缀作为分隔符使用,默认为“_”。哑变量处理30010203政府需求岷山集团需求df_obj=pd.DataFrame(['A','B','C','D'],columns=['category’])pd.get_dummies(df_obj)哑变量处理31感谢聆听3233实训4鸢尾花数据预处理34知识点数据归约概念维度规约数量规约数据压缩35实训目标了解数据归约的概念与分类;理解维度规约概念及方法;理解数量规约概念及方法;了解数据压缩概念及方法;36知识点数据归约概念维度规约数量规约数据压缩37数据归约概念数据归约(datareduction)是指通过维度的减少或者数据量的减少,来达到降低数据规模的目的。数据规约维度规约数量规约数据压缩38知识点数据归约概念维度规约数量规约数据压缩39维度规约维度规约(dimensionlity)即:减少所考虑的随机变量或属性的个数。维度规约把原始数据变换或投影到较小的空间,其中不相关、弱相关或冗余的属性或维被检测和删除。FA(FactorAnalysis)SVD(SingularValueDecomposition)PCA(PrincipalComponentAnalysis)40维度规约维度降维41数据过载维度灾难因子分析(FA)FA(FactorAnalysis)是指研究从变量群中提取共性因子的统计技术。因子分析可在许多变量中找出隐藏的具有代表性的因子。将相同本质的变量归入一个因子,可减少变量的数目,还可检验变量间关系的假设。

参考代码:PPT配套案例-实训4-4.142奇异值分解(SVD)

SVD(SingularValueDecomposition)作为一种常见的矩阵分解方法广泛用于数据的降维与去噪。其基本原理为通过矩阵变换将一个比较复杂的矩阵用更小的3个矩阵的相乘来表示。参考代码:PPT配套案例-实训4-4.243奇异值分解(SVD)

44主成分分析(PCA)

参考代码:PPT配套案例-实训4-1.345主成分分析(PCA)

参考代码:PPT配套案例-实训4-4.346知识点数据归约概念维度规约数量规约数据压缩47数量规约数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论