金融数据分析-以Python为工具 课件 七、特征工程_第1页
金融数据分析-以Python为工具 课件 七、特征工程_第2页
金融数据分析-以Python为工具 课件 七、特征工程_第3页
金融数据分析-以Python为工具 课件 七、特征工程_第4页
金融数据分析-以Python为工具 课件 七、特征工程_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

胡文彬Python金融数据分析特征工程Chapter07特征工程特征工程(featureengineering)是对原始数据进行表示的过程,目的是通过一系列的特征操作使数据适合后续的建模分析,提高数据分析的效果和模型的预测精度。数据和特征决定了机器学习的上限,而模型和算法只是在逼近这个上限。7.2特征与特征处理好的特征具有以下三个特点:可解释性从业务逻辑的角度该特征与所分析的问题或者预测的信息相关,并且从定性的角度很容易解释该特征对预测结果的影响。可获得性良好的特征应该使得绝大多数样本都有数据,缺失值越少越好。7.2特征与特征处理预测能力指从模型结果看,该特征对结果的预测精度有重要的影响,特征的预测能力越强越好。然而,预测能力和可解释性有可能是矛盾的。金融数据常见的属性种类类型说明例子操作数值型也称为连续型股票价格、财务指标、信用额度、GDP等归一化、标准化、函数变换、离散化、异常值处理、计算皮尔逊相关系数等无序类别型也称为标称性别、国籍、股票所属行业等分箱、编码、计算众数、列联相关系数、熵等有序类别型也称为序数学历、等级制成绩、年龄段计算中值、百分位数、秩相关系数等日期时间型日期和时间2021-01-01、202101012021-01-0109:00:00格式转换、计算时间差文本型文档或字符串股票研报、电子邮件等分词、关键词提取等文本处理特征处理数据清洗一致性检查重复值处理

重复行,相同数值列异常值处理异常值(outlier)也称为极端值(简称极值)或离群点,指连续属性中取值显著不同于整体数据的数值。异常值对于均值计算的结果影响很大,也可能会极大影响模型的结果数据清洗异常值处理标准差法、中位数法、分位数法、箱线图法缺失值处理样本存在缺失值(missingvalue)是一种比较常见的现象,可以分为逻辑缺失和物理缺失。数据物理缺失的机制又可以分为完全随机缺失、随机缺失和非随机缺失。特征变换不同的数值型属性往往具备不同的量纲,实际中往往需要对数据进行规范化。类别属性无法直接作为一些模型(例如回归模型)的变量,在建模前需要进行编码处理。此外,为了提高模型的性能,有时需要对连续属性进行离散化,以及对离散属性进行重新合并归类,统称为分箱(binning)处理。规范化

特征变换离散化属性离散化(discretization)通常指通过在数据的分布范围中加入切分点,将连续属性转化为有序类别型属性的过程。另一种形式为合并类别属性的一些取值,减少取值的种类。这两种形式离散化的共同特点为减少了属性的取值,相当于对属性进行了模糊化处理。等距分箱、等频分箱、数字特征分箱、聚类分箱特征变换编码尽管某些模型(例如决策树)可以直接处理类别属性,但类别属性通常无法直接用于大部分(例如回归、支持向量机、主成分分析等)模型。无论类别属性是原生的,还是经过离散化后得到的,通常需要进一步的编码(encoding)处理才能用于建模。序数编码、哑变量编码、One-hot编码哑变量编码示例行业银行100软件服务010酒店餐饮001医疗保健000编码与模型One-hot编码与哑变量编码的区别在于有多少种取值就引入多少个虚拟变量,即多了一个虚拟变量。为避免多重共线性问题,如果回归模型有截距项,则用哑变量编码;如果没有截距项,则用One-hot编码。特殊函数变换

特征选择特征选择(featureselection)是特征工程中的核心问题,指的是从原始数据中选出好的特征、过滤掉不好的或者冗余特征的过程。特征选择的目的是构建更加精简、准确、可解释性强的模型,从而避免过拟合并提高模型的泛化能力。经典的特征选择方法可以分为三大类:过滤法、封装法和嵌入法特征选择——过滤法过滤法(filterapproach)用方差、相关性、互信息、卡方检验等指标过滤掉不达标的属性。过滤法通常对应的是单属性分析,即每次只分析一个属性自身或者对标记属性的影响。方差法最简单,但使用过程中需要特别注意一些细节。相关性过滤指通过计算属性和标记属性之间的相关系数(见6.2.2节),舍弃掉相关系数低于阈值的属性。相关系数包括皮尔逊相关系数、秩相关系数、φ相关系数和V相关系数等。特征选择——过滤法互信息(mutualinformation)是一种衡量随机变量之间相互依赖程度的度量。互信息过滤指通过计算属性和标记属性之间的互信息,并舍弃掉互信息值低于阈值的属性。互信息的基本含义为:已知一个随机变量的信息后,给另一个随机变量带来的不确定性(即信息量)的减少量。

特征选择——过滤法

特征选择——过滤法

属性X标记属性Y1101111000特征选择——过滤法卡方检验法的基本思想是假设属性与标记属性之间相互独立,然后构建卡方指标对假设进行检验。如果拒绝原假设,则说明属性是有意义的,这与6.2.2节中考察变量间的列联相关系数的思想一致。方差分析法(ANOVA,analysisofvariance)适用于X为离散属性,标记属性Y为连续属性的情形。将Y根据X的取值进行分组,然后用F检验考察Y的不同分组间的均值和方差是否有显著差异。

特征选择——过滤法

连续属性离散属性连续标记属性离散标记属性方差法√

√√皮尔逊相关系数√

V相关系数

√√√√√互信息法√√√√卡方检验法

√方差分析法

√√

特征选择——封装法封装法(wrapperapproach)的基本思想是通过模型的最终效果指导特征的选择。简单来说,就是每次选取不同的特征子集构建模型,比较各种模型在测试集上的性能。封装法的难点在于如何搜索特征子集,通常采用的都是一些启发式算法,例如递归特征消除法。封装法以模型性能为导向,能够保证特征选择的效果。同时该方法与具体的模型独立,是一个普遍适用的方法。封装法的缺点是计算开销大,仅适用于属性较少的数据集。

特征选择——嵌入法

基于Python的特征工程Pandas

数据清洗、特征变换sklearn

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论