Python金融数据分析与挖掘（微课版）课件 5-1.数据预处理

上传人：h*** IP属地：山东上传时间：2024-12-17 格式：PPTX 页数：17 大小：660.79KB 积分：9.6 举报 版权申诉

已阅读5页，还剩12页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第5章机器学习与实现缺失值处理数据规范化主成分分析缺失值处理第5章

在数据处理过程中，缺失值是常见的，需要对其进行处理。Pandas包中的fillna()函数并没有充分利用数据集中的信息。这里介绍scikit-learn包中能充分利用数据信息的3种常用填充方法，即均值填充、中位数填充和最频繁值填充。注意填充方式主要是按列填充均值填充：对某列中的所有缺失值用该列中非缺失部分的值的平均值来表示；中位数填充：取某列中非缺失部分的值的中位数来表示缺失值。最频繁值填充：取某列中非缺失部分的值出现频次最多的值来表示缺失值。（常用于分类型或离散型变量）缺失值处理第5章

（1）导入数据预处理中的填充模块SimpleImputer

fromsklearn.imputeimportSimpleImputer（2）利用SimpleImputer创建填充对象impimp=SimpleImputer(missing_values=np.nan,strategy='mean')参数说明如下：strategy：均值（mean）、中位数（median）、最频繁值（most_frequent）（3）调用填充对象imp中的fit()拟合方法，对待填充数据进行拟合训练。

imp.fit(Data)#Data为待填充数据集变量（4）调用填充对象imp中的transform()方法，返回填充后的数据集。

FData=imp.transform(Data)#返回填充后的数据集FData需要注意的是填充的数据集结构要求为数组或数据框，类型为数值类型缺失值处理第5章

fromsklearn.imputeimportSimpleImputerfC=Cimp=SimpleImputer(missing_values=np.nan,strategy='mean')imp.fit(fC)fC=imp.transform(fC)数据规范化第5章

变量或指标的单位不同，导致有些指标数据值非常大，而有些指标数据值非常小，在模型运算过程中大的数据会把小的数据覆盖，导致模型失真。因此，需要对这些数据规范化处理，或者说去量纲化。所谓均值-方差规范化，是指变量或指标数据减去其均值再除以标准差得到新的数据。新的数据均值为0，方差为1，其公式如下：极差规范化是指变量或指标数据减去其最小值，再除以最大值与最小值之差，得到新的数据。新的数据取值范围在[0,1]，其公式如下：数据规范化第5章

对数据集X（数组）做均值-方差规范化处理，基本步骤如下：（1）导入均值-方差规范化模块StandardScaler。

fromsklearn.preprocessingimportStandardScaler（2）利用StandardScaler创建均值-方差规范化对象scaler。

scaler=StandardScaler()（3）调用scaler对象中的fit()拟合方法，对待处理的数据X进行拟合训练。

scaler.fit(X)（4）调用scaler对象中的transform()方法，返回规范化后的数据集X（覆盖原未规范化的X）。

X=scaler.transform(X)数据规范化第5章

fromsklearn.preprocessingimportStandardScalerX=datascaler=StandardScaler()scaler.fit(X)X=scaler.transform(X)数据规范化第5章

对数据集X1（数组）做极差规范化处理，基本步骤如下：（1）导入极差规范化模块MinMaxScaler。

fromsklearn.preprocessingimportMinMaxScaler（2）利用MinMaxScaler创建极差规范化对象min_max_scaler。

min_max_scaler=MinMaxScaler()（3）调用min_max_scaler中的fit()拟合方法，对处理的数据X1进行拟合训练。

min_max_scaler.fit(X1)（4）调用min_max_scaler中的transform()方法，返回处理后的数据集X1（覆盖原未处理的X1）。

X1=min_max_scaler.transform(X1)数据规范化第5章

fromsklearn.preprocessingimportMinMaxScalerX1=datamin_max_scaler=MinMaxScaler()min_max_scaler.fit(X1)x1=min_max_scaler.transform(X1)主成分分析第5章

在数据分析与挖掘中，通常会遇到众多变量，这些变量之间往往具有一定的相关性。例如，身高、体重这两个指标，身高较高，其体重也相对较大；经营收入、净利润这两个指标，经营收入越高，其净利润也相对较高，这就是指标之间相关性的一种体现。如果众多指标之间具有较强的相关性，不仅会增加计算复杂度，也会影响模型的分析结果。一种思路就是把众多的变量转换为少数几个互不相关的综合变量，同时又不影响原来变量所反映的信息。这种方法在数学上称为主成分分析我们通常看到各种各样的排行榜，如综合国力排名、省市经济发展水平排名、大学综合排名等——综合评价问题，就是主成分分析应用的一种体现。主成分分析第5章

怎样对各地区2016年农村居民人均可支配收入情况进行排名呢

地区工资性收入（X1）经营净收入（X2）财产净收入（X3）转移净收入（X4）北京16637.52061.91350.12260天津12048.15309.4893.71824.4河北6263.23970257.51428.6山西5204.42729.91491999.1内蒙古2448.96215.7452.62491.7…………………………我们需要一个综合指标来衡量，但是这个综合指标该如何定义和计算呢？指标加权是一个通常的思路，例如： Y1=a11×X1+a12×X2+a13×X3+a14×X4Xi反映了地区农村居民人均可支配收入某个方面的指标，仅代表某方面的信息，它在综合指标Y1中，其重要程度可以通过对应的a1j来反映，可以称a1j为信息系数。注意综合变量Y1尽量不丢失原来变量反映的信息，如果一个综合变量不够，就继续构造新的综合变量Y2，……，同时要求综合变量之间互不相关主成分分析第5章

Y1=a11×X1+a12×X2+a13×X3+a14×X4不丢失原来变量反映的信息（方差），其数学表达式为：

Var(X1)+…+Var(X4)=Var(Y1)如果Y1还不足以保留原来的信息，则再构造一个Y2：

Y2=a21×X1+a22×X2+a23×X3+a24×X4使得Y1和Y2不相关，同时：

Var(X1)+…+Var(X4)=Var(Y1)+Var(Y2)如果还不足以保留原来的信息，则继续构造Y3。总之最多构造到Y4一定能满足条件。一般地，前k个变换后的变量Y1…Yk，其方差之和与原变量总方差之比为：

(Var(Y1)+Var(Y2)+Var(Yk))/(Var(X1)+…+Var(X4))称其为k个变换后变量的信息占比。在实际应用中只需取少数几个变换后的变量。例如，它们的

信息占比为90%，就可以说采用变换后的变量反映了原来变量90%的信息。以上仅是方便理解，系数如何限制？系数向量如何计算？这些分析严格吗？为了解决这些问题，需要给出严格的主成分分析数学模型（具体见课本）。主成分分析第5章

主成分分析的一般步骤（1）对原始数据进行标准化处理。（2）计算样本相关系数矩阵。（3）求相关系数矩阵的特征值和相应的特征向量。（4）选择重要的主成分，并写出主成分表达式。（5）计算主成分得分。（6）依据主成分得分的数据，进一步从事统计分析。主成分分析（应用举例）第5章

#数据获取importpandasaspdData=pd.read_excel('农村居民人均可支配收入来源2016.xlsx')X=Data.iloc[:,1:]#数据规范化处理fromsklearn.preprocessingimportStandardScalerscaler=StandardScaler()scaler.fit(X)X=scaler.transform(X)（1）数据获取及数据规范化处理主成分分析（应用举例）第5章

①导入主成分分析模块PCA。

fromsklearn.decompositionimportPCA②利用PCA创建主成分分析对象pca。

pca=PCA(n_components=0.95)③调用pca对象中的fit()方法，进行拟合训练。

pca.fit(X)④调用pca对象中的transform()方法，返回提取的主成分。

Y=pca.transform(X)⑤通过pca对象中的相关属性，返回相关结果。

tzxl=ponents_#返回特征向量

tz=pca.explained_variance_#返回特征值

#返回主成分方差百分比（贡献率）

gxl=pca.explained_variance_ratio_（2）对标准化后的数据X做主成分分析，基本步骤如下：主成分分析（应用举例）第5章

⑥主成分表达式及验证。由前面分析，我们知道第i个主成分表示为：代表第i个主成分对应的特征向量。例如，可以通过程序验证第1个主成分前面的4个分量的值。Y00=sum(X[0,:]*tzxl[0,:])Y01=sum(X[1,:]*tzxl[0,:])Y02=sum(X[2,:]*tzxl[0,:])Y03=sum(X[3,:]*tzxl[0,:])。主成分分析（应用举

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

Python金融数据分析与挖掘（微课版）课件 5-1.数据预处理

文档简介

温馨提示

最新文档

评论

Python金融数据分析与挖掘（微课版） 课件 5-1.数据预处理

文档简介

温馨提示

最新文档

评论

相关文档

Python金融数据分析与挖掘（微课版）课件 5-1.数据预处理