版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第5章机器学习与实现缺失值处理数据规范化主成分分析缺失值处理第5章
在数据处理过程中,缺失值是常见的,需要对其进行处理。Pandas包中的fillna()函数并没有充分利用数据集中的信息。这里介绍scikit-learn包中能充分利用数据信息的3种常用填充方法,即均值填充、中位数填充和最频繁值填充。注意填充方式主要是按列填充均值填充:对某列中的所有缺失值用该列中非缺失部分的值的平均值来表示;中位数填充:取某列中非缺失部分的值的中位数来表示缺失值。最频繁值填充:取某列中非缺失部分的值出现频次最多的值来表示缺失值。(常用于分类型或离散型变量)缺失值处理第5章
(1)导入数据预处理中的填充模块SimpleImputer
fromsklearn.imputeimportSimpleImputer(2)利用SimpleImputer创建填充对象impimp=SimpleImputer(missing_values=np.nan,strategy='mean')参数说明如下:strategy:均值(mean)、中位数(median)、最频繁值(most_frequent)(3)调用填充对象imp中的fit()拟合方法,对待填充数据进行拟合训练。
imp.fit(Data)#Data为待填充数据集变量(4)调用填充对象imp中的transform()方法,返回填充后的数据集。
FData=imp.transform(Data)#返回填充后的数据集FData需要注意的是填充的数据集结构要求为数组或数据框,类型为数值类型缺失值处理第5章
fromsklearn.imputeimportSimpleImputerfC=Cimp=SimpleImputer(missing_values=np.nan,strategy='mean')imp.fit(fC)fC=imp.transform(fC)数据规范化第5章
变量或指标的单位不同,导致有些指标数据值非常大,而有些指标数据值非常小,在模型运算过程中大的数据会把小的数据覆盖,导致模型失真。因此,需要对这些数据规范化处理,或者说去量纲化。所谓均值-方差规范化,是指变量或指标数据减去其均值再除以标准差得到新的数据。新的数据均值为0,方差为1,其公式如下:极差规范化是指变量或指标数据减去其最小值,再除以最大值与最小值之差,得到新的数据。新的数据取值范围在[0,1],其公式如下:数据规范化第5章
对数据集X(数组)做均值-方差规范化处理,基本步骤如下:(1)导入均值-方差规范化模块StandardScaler。
fromsklearn.preprocessingimportStandardScaler(2)利用StandardScaler创建均值-方差规范化对象scaler。
scaler=StandardScaler()(3)调用scaler对象中的fit()拟合方法,对待处理的数据X进行拟合训练。
scaler.fit(X)(4)调用scaler对象中的transform()方法,返回规范化后的数据集X(覆盖原未规范化的X)。
X=scaler.transform(X)数据规范化第5章
fromsklearn.preprocessingimportStandardScalerX=datascaler=StandardScaler()scaler.fit(X)X=scaler.transform(X)数据规范化第5章
对数据集X1(数组)做极差规范化处理,基本步骤如下:(1)导入极差规范化模块MinMaxScaler。
fromsklearn.preprocessingimportMinMaxScaler(2)利用MinMaxScaler创建极差规范化对象min_max_scaler。
min_max_scaler=MinMaxScaler()(3)调用min_max_scaler中的fit()拟合方法,对处理的数据X1进行拟合训练。
min_max_scaler.fit(X1)(4)调用min_max_scaler中的transform()方法,返回处理后的数据集X1(覆盖原未处理的X1)。
X1=min_max_scaler.transform(X1)数据规范化第5章
fromsklearn.preprocessingimportMinMaxScalerX1=datamin_max_scaler=MinMaxScaler()min_max_scaler.fit(X1)x1=min_max_scaler.transform(X1)主成分分析第5章
在数据分析与挖掘中,通常会遇到众多变量,这些变量之间往往具有一定的相关性。例如,身高、体重这两个指标,身高较高,其体重也相对较大;经营收入、净利润这两个指标,经营收入越高,其净利润也相对较高,这就是指标之间相关性的一种体现。如果众多指标之间具有较强的相关性,不仅会增加计算复杂度,也会影响模型的分析结果。一种思路就是把众多的变量转换为少数几个互不相关的综合变量,同时又不影响原来变量所反映的信息。这种方法在数学上称为主成分分析我们通常看到各种各样的排行榜,如综合国力排名、省市经济发展水平排名、大学综合排名等——综合评价问题,就是主成分分析应用的一种体现。主成分分析第5章
怎样对各地区2016年农村居民人均可支配收入情况进行排名呢
地区工资性收入(X1)经营净收入(X2)财产净收入(X3)转移净收入(X4)北京16637.52061.91350.12260天津12048.15309.4893.71824.4河北6263.23970257.51428.6山西5204.42729.91491999.1内蒙古2448.96215.7452.62491.7…………………………我们需要一个综合指标来衡量,但是这个综合指标该如何定义和计算呢?指标加权是一个通常的思路,例如: Y1=a11×X1+a12×X2+a13×X3+a14×X4Xi反映了地区农村居民人均可支配收入某个方面的指标,仅代表某方面的信息,它在综合指标Y1中,其重要程度可以通过对应的a1j来反映,可以称a1j为信息系数。注意综合变量Y1尽量不丢失原来变量反映的信息,如果一个综合变量不够,就继续构造新的综合变量Y2,……,同时要求综合变量之间互不相关主成分分析第5章
Y1=a11×X1+a12×X2+a13×X3+a14×X4不丢失原来变量反映的信息(方差),其数学表达式为:
Var(X1)+…+Var(X4)=Var(Y1)如果Y1还不足以保留原来的信息,则再构造一个Y2:
Y2=a21×X1+a22×X2+a23×X3+a24×X4使得Y1和Y2不相关,同时:
Var(X1)+…+Var(X4)=Var(Y1)+Var(Y2)如果还不足以保留原来的信息,则继续构造Y3。总之最多构造到Y4一定能满足条件。一般地,前k个变换后的变量Y1…Yk,其方差之和与原变量总方差之比为:
(Var(Y1)+Var(Y2)+Var(Yk))/(Var(X1)+…+Var(X4))称其为k个变换后变量的信息占比。在实际应用中只需取少数几个变换后的变量。例如,它们的
信息占比为90%,就可以说采用变换后的变量反映了原来变量90%的信息。以上仅是方便理解,系数如何限制?系数向量如何计算?这些分析严格吗?为了解决这些问题,需要给出严格的主成分分析数学模型(具体见课本)。主成分分析第5章
主成分分析的一般步骤(1)对原始数据进行标准化处理。(2)计算样本相关系数矩阵。(3)求相关系数矩阵的特征值和相应的特征向量。(4)选择重要的主成分,并写出主成分表达式。(5)计算主成分得分。(6)依据主成分得分的数据,进一步从事统计分析。主成分分析(应用举例)第5章
#数据获取importpandasaspdData=pd.read_excel('农村居民人均可支配收入来源2016.xlsx')X=Data.iloc[:,1:]#数据规范化处理fromsklearn.preprocessingimportStandardScalerscaler=StandardScaler()scaler.fit(X)X=scaler.transform(X)(1)数据获取及数据规范化处理主成分分析(应用举例)第5章
①导入主成分分析模块PCA。
fromsklearn.decompositionimportPCA②利用PCA创建主成分分析对象pca。
pca=PCA(n_components=0.95)③调用pca对象中的fit()方法,进行拟合训练。
pca.fit(X)④调用pca对象中的transform()方法,返回提取的主成分。
Y=pca.transform(X)⑤通过pca对象中的相关属性,返回相关结果。
tzxl=ponents_#返回特征向量
tz=pca.explained_variance_#返回特征值
#返回主成分方差百分比(贡献率)
gxl=pca.explained_variance_ratio_(2)对标准化后的数据X做主成分分析,基本步骤如下:主成分分析(应用举例)第5章
⑥主成分表达式及验证。由前面分析,我们知道第i个主成分表示为:代表第i个主成分对应的特征向量。例如,可以通过程序验证第1个主成分前面的4个分量的值。Y00=sum(X[0,:]*tzxl[0,:])Y01=sum(X[1,:]*tzxl[0,:])Y02=sum(X[2,:]*tzxl[0,:])Y03=sum(X[3,:]*tzxl[0,:])。主成分分析(应用举
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度高新技术企业研发项目成果转化与技术支持协议下载2篇
- 2025年度内部控制合同管理内部控制手册3篇
- 二零二五版罗丝与吴磊的离婚协议及子女抚养权转让协议4篇
- 二零二五年度厨师技能竞赛与评选活动合同4篇
- 二零二五版特色小镇物业合同财务管理与文化旅游融合协议3篇
- 二零二五版汽车维修店面使用权转让合同模板3篇
- 2025年度新能源产业合作推广战略框架协议书
- 二零二五年度LED灯具音响设备研发生产合作协议4篇
- 二零二五年度建筑施工场地安全保证书3篇
- 二零二五年度天津存量房买卖合同交易安全保障措施
- 华为HCIA-Storage H13-629考试练习题
- Q∕GDW 516-2010 500kV~1000kV 输电线路劣化悬式绝缘子检测规程
- 辽宁省抚顺五十中学2024届中考化学全真模拟试卷含解析
- 2024年湖南汽车工程职业学院单招职业技能测试题库及答案解析
- 家长心理健康教育知识讲座
- GB/T 292-2023滚动轴承角接触球轴承外形尺寸
- 2024年九省联考高考数学卷试题真题答案详解(精校打印)
- 军人结婚函调报告表
- 民用无人驾驶航空器实名制登记管理规定
- 北京地铁6号线
- 航空油料计量统计员(初级)理论考试复习题库大全-上(单选题汇总)
评论
0/150
提交评论