金融数据分析-以Python为工具 课件 4-7 基础数据包-Pandas、金融数据获取、特征工程_第1页
金融数据分析-以Python为工具 课件 4-7 基础数据包-Pandas、金融数据获取、特征工程_第2页
金融数据分析-以Python为工具 课件 4-7 基础数据包-Pandas、金融数据获取、特征工程_第3页
金融数据分析-以Python为工具 课件 4-7 基础数据包-Pandas、金融数据获取、特征工程_第4页
金融数据分析-以Python为工具 课件 4-7 基础数据包-Pandas、金融数据获取、特征工程_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Python金融数据分析基础数据包—PandasChapter04Pandas简介Pandas(官网:/)是Python的核心数据分析库,其名称来自于PanelDataAnalysis(面板数据分析)。Pandas提供了序列型Series和二维标签数据DataFrame这两种主要的数据结构类型。这两种类型都是基于NumPy数组扩展而来,因此Pandas天生具备NumPy的计算优势。Pandas简介Pandas的强大体现在其丰富的二维数据操作支持,可以将Pandas类比为编程语言中的Excel。Pandas提供了数据存取、清洗和规范化、分组聚合、数据统计、重构透视、可视化等一系列的功能支持。DataFrame基本操作其他IO操作DataFrame.to_csv(path_or_buf=None,sep=',',columns=None,header=True,index=True,encoding=None)path_or_buf设置包括文件名的文件路径;sep指定文件的分隔符,默认为逗号;columns指定需要存储的列;header设定是否将列名存为表头;index设置是否存储索引;encoding指定文件编码格式,当文件中含有中文时建议显式指定编码格式(例如utf-8或GBK),读取文件时用相同的编码格式读取。DataFrame数据操作(1)关于axis的理解。

轴代表数据的某一维度,例如DataFrame有两个维度,有0和1两个轴,其中0轴代表最高维度。

在DataFrame或二维数组中,axis=0代表跨行操作,axis=1代表跨列操作。(2)df[‘some_col’]返回的是Series,df[[‘some_col’]]返回的是DataFrame,根据需要选择。(3)对列进行索引的标准形式是df[‘some_col’](方括号索引),简化形式是df.some_col(属性索引),两者通常等价。Python金融数据分析基础数据包—MatplotlibChapter04Matplotlib简介Matplotlib(官网:/)是一个Python的常用绘图库,其绘图的操作风格非常类似于Matlab。通过Matplotlib可以快速地绘制折线图、散点图、柱状图、饼图、直方图、等高线图、条形图、极坐标图、箱线图、雷达图、热力图等二维平面图,还可以绘制三维图形,甚至是图形动画等。总结Python金融数据分析基础数据包—NumPyChapter04Python金融数据分析包在金融数据分析中,NumPy提供数据运算功能、Pandas提供数据分析功能、Matplotlib提供可视化功能,三者配合可以覆盖分析流程中的绝大部分操作。Python金融数据分析包NumPy简介NumPy中的基本对象是多维数组(ndarray)和矩阵(matrix),提供类似于Matlab的矩阵运算。用NumPy可以高效地进行包括数值、逻辑、排序、I/O、线性代数、统计、随机模拟等运算。NumPy中的数组运算有类似于Matlab的向量化机制,因此其运算效率非常高。NumPy数组的基本操作有创建、访问、修改、变形、复制、数组运算等。基本操作说明数组创建可分为用构造函数直接创建和利用zeros()等特殊函数创建数组访问访问方式包括单下标索引、数组多下标索引、切片索引、条件索引等数组及元素修改可以对数组进行变形、复制等操作。元素修改在数组访问的基础上通过重新赋值进行数组运算包括标量和数组、数组和数组的逐点运算、函数对数组的逐点运算、数组和数组的广播运算以及数组和数组的矩阵运算等矩阵运算针对matrix类型,有矩阵的加、减、乘、求逆等运算NumPy简介课后作业网络教学平台Python金融数据分析金融数据获取Chapter05金融数据获取国家统计局TushareSuperMindKaggleTushare数据获取流程注册帐号,得到Token码。查看注意事项、平台接口说明。调用相应接口获取数据(DataFrame),有积分等级限制,但可以在本地运行。存储数据。SuperMind数据获取流程注册帐号。查看帮助–API文档–通用数据接口。调用相应接口获取数据(DataFrame),没有积分等级限制,但只能在平台环境中运行。操作或存储数据。Python金融数据分析特征工程Chapter07特征工程特征工程(featureengineering)是对原始数据进行表示的过程,目的是通过一系列的特征操作使数据适合后续的建模分析,提高数据分析的效果和模型的预测精度。数据和特征决定了机器学习的上限,而模型和算法只是在逼近这个上限。7.2特征与特征处理好的特征具有以下三个特点:可解释性从业务逻辑的角度该特征与所分析的问题或者预测的信息相关,并且从定性的角度很容易解释该特征对预测结果的影响。可获得性良好的特征应该使得绝大多数样本都有数据,缺失值越少越好。7.2特征与特征处理预测能力指从模型结果看,该特征对结果的预测精度有重要的影响,特征的预测能力越强越好。然而,预测能力和可解释性有可能是矛盾的。金融数据常见的属性种类类型说明例子操作数值型也称为连续型股票价格、财务指标、信用额度、GDP等归一化、标准化、函数变换、离散化、异常值处理、计算皮尔逊相关系数等无序类别型也称为标称性别、国籍、股票所属行业等分箱、编码、计算众数、列联相关系数、熵等有序类别型也称为序数学历、等级制成绩、年龄段计算中值、百分位数、秩相关系数等日期时间型日期和时间2021-01-01、202101012021-01-0109:00:00格式转换、计算时间差文本型文档或字符串股票研报、电子邮件等分词、关键词提取等文本处理特征处理数据清洗一致性检查重复值处理

重复行,相同数值列异常值处理异常值(outlier)也称为极端值(简称极值)或离群点,指连续属性中取值显著不同于整体数据的数值。异常值对于均值计算的结果影响很大,也可能会极大影响模型的结果数据清洗异常值处理标准差法、中位数法、分位数法、箱线图法缺失值处理样本存在缺失值(missingvalue)是一种比较常见的现象,可以分为逻辑缺失和物理缺失。数据物理缺失的机制又可以分为完全随机缺失、随机缺失和非随机缺失。特征变换不同的数值型属性往往具备不同的量纲,实际中往往需要对数据进行规范化。类别属性无法直接作为一些模型(例如回归模型)的变量,在建模前需要进行编码处理。此外,为了提高模型的性能,有时需要对连续属性进行离散化,以及对离散属性进行重新合并归类,统称为分箱(binning)处理。规范化

特征变换离散化属性离散化(discretization)通常指通过在数据的分布范围中加入切分点,将连续属性转化为有序类别型属性的过程。另一种形式为合并类别属性的一些取值,减少取值的种类。这两种形式离散化的共同特点为减少了属性的取值,相当于对属性进行了模糊化处理。等距分箱、等频分箱、数字特征分箱、聚类分箱特征变换编码尽管某些模型(例如决策树)可以直接处理类别属性,但类别属性通常无法直接用于大部分(例如回归、支持向量机、主成分分析等)模型。无论类别属性是原生的,还是经过离散化后得到的,通常需要进一步的编码(encoding)处理才能用于建模。序数编码、哑变量编码、One-hot编码哑变量编码示例行业银行100软件服务010酒店餐饮001医疗保健000编码与模型One-hot编码与哑变量编码的区别在于有多少种取值就引入多少个虚拟变量,即多了一个虚拟变量。为避免多重共线性问题,如果回归模型有截距项,则用哑变量编码;如果没有截距项,则用One-hot编码。特殊函数变换

特征选择特征选择(featureselection)是特征工程中的核心问题,指的是从原始数据中选出好的特征、过滤掉不好的或者冗余特征的过程。特征选择的目的是构建更加精简、准确、可解释性强的模型,从而避免过拟合并提高模型的泛化能力。经典的特征选择方法可以分为三大类:过滤法、封装法和嵌入法特征选择——过滤法过滤法(filterapproach)用方差、相关性、互信息、卡方检验等指标过滤掉不达标的属性。过滤法通常对应的是单属性分析,即每次只分析一个属性自身或者对标记属性的影响。方差法最简单,但使用过程中需要特别注意一些细节。相关性过滤指通过计算属性和标记属性之间的相关系数(见6.2.2节),舍弃掉相关系数低于阈值的属性。相关系数包括皮尔逊相关系数、秩相关系数、φ相关系数和V相关系数等。特征选择——过滤法互信息(mutualinformation)是一种衡量随机变量之间相互依赖程度的度量。互信息过滤指通过计算属性和标记属性之间的互信息,并舍弃掉互信息值低于阈值的属性。互信息的基本含义为:已知一个随机变量的信息后,给另一个随机变量带来的不确定性(即信息量)的减少量。

特征选择——过滤法

特征选择——过滤法

属性X标记属性Y1101111000特征选择——过滤法卡方检验法的基本思想是假设属性与标记属性之间相互独立,然后构建卡方指标对假设进行检验。如果拒绝原假设,则说明属性是有意义的,这与6.2.2节中考察变量间的列联相关系数的思想一致。方差分析法(ANOVA,analysisofvariance)适用于X为离散属性,标记属性Y为连续属性的情形。将Y根据X的取值进行分组,然后用F检验考察Y的不同分组间的均值和方差是否有显著差异。

特征选择——过滤法

连续属性离散属性连续标记属性离散标记属性方差法√

√√皮尔逊相关系数√

V相关系数

√√√√√互信息法√√√√卡方检验法

√方差分析法

√√

特征选择——封装法封装法(wrapperapproach)的基本思想是通过模型的最终效果指导特征的选择。简单来说,就是每次选取不同的特征子集构建模型,比较各种模型在测试集上的性能。封装法的难点在于如何搜索特征子集,通常采用的都是一些启发式算法,例如递归特征消除法。封装法以模型性能为导向,能够保证特征选择的效果。同时该方法与具体的模型独立,是一个普遍适用的方法。封装法

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论