财经大数据分析-以Python为工具 课件第8、9章 分析一般公司债的票面利率影响因素-应用统计分析、使用ARIMA模型预测股票价格-时间序列_第1页
财经大数据分析-以Python为工具 课件第8、9章 分析一般公司债的票面利率影响因素-应用统计分析、使用ARIMA模型预测股票价格-时间序列_第2页
财经大数据分析-以Python为工具 课件第8、9章 分析一般公司债的票面利率影响因素-应用统计分析、使用ARIMA模型预测股票价格-时间序列_第3页
财经大数据分析-以Python为工具 课件第8、9章 分析一般公司债的票面利率影响因素-应用统计分析、使用ARIMA模型预测股票价格-时间序列_第4页
财经大数据分析-以Python为工具 课件第8、9章 分析一般公司债的票面利率影响因素-应用统计分析、使用ARIMA模型预测股票价格-时间序列_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Python与财经大数据分析基础第8章分析一般公司债的票面利率影响因素——应用统计分析CONTENTS目录04回归分析05应用实践01描述性统计02随机变量及其概率分布03推断统计01描述性统计描述性统计是指综合运用计算指标、分类等方式来描述一组数据的特征,帮助读者了解数据。描述性统计的基本指标主要包括数据的位置以及数据的离散程度。8.1描述性统计(一)概述在获取数据之后,我们通常需要了解数据的位置分布特征,例如最小值、最大值、平均数、中位数、众数、分位数等指标。Python中可以使用Pandas模块完成数据位置指标的获取。8.1描述性统计(二)数据的位置分布函数函数说明DataFrame.min()/DataFrame.max()最小值/最大值DataFrame.mean()平均数DataFrame.median()中位数DataFrame.mode()众数DataFrame.quantile()分位数数据位置指标能帮助读者分析一组数据的平均水平或中间位置,但是要了解数据集中和分散程度,则需要用到极差、偏差、方差以及标准差,在Python中主要通过Pandas模块完成数据离散度指标的获取。8.1描述性统计(三)数据的离散程度函数函数说明DataFrame.max()-DataFrame.min()极差DataFrame.mad()平均绝对偏差DataFrame.var()方差DataFrame.std()标准差

Pandas库提供descibe()函数,可以直接得到描述性统计的主要指标,例如样本量、均值、方差、最值、分位数等统计特征。8.1描述性统计(三)describe函数02随机变量及其概率分布随机变量是随机试验各种结果的实值单值函数,随机事件的数量表现。随机变量分为离散型随机变量和连续型随机变量。一般而言,随机数并不是真正的“随机”,而是服从于某种概率分布,根据随机变量的分类,有离散型概率分布和连续型概率分布。财会金融领域经常使用的概率分布如下所示。8.2随机变量及其概率分布(一)概述

8.2随机变量及其概率分布(二)正态分布在Numpy库中使用normal()函数生成正态分布。8.2随机变量及其概率分布(二)正态分布假设X服从标准正态分布N(0,,1),Y服从自由度为n的卡方分布,那么变量Z服从自由度为n的t分布,记作Z~t(n)。随着自由度n逐渐增大,t分布将逐渐接近标准正态分布。8.2随机变量及其概率分布(三)t分布假设两个随机变量x1和x2相互独立,且分别服从自由度是n1和n2的卡方分布,则称统计量F服从自由度n1和n2的F分布,记作F~F(n1,n2)。8.2随机变量及其概率分布(四)F分布03推断统计推断统计是研究如何利用样本数据来推断总体特征的统计方法。推断统计包括两方面的内容:参数估计和假设检验。8.3推断统计(一)概述

8.3推断统计(二)参数估计假设检验是用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的推断统计方法。

进行假设检验主要经历四个步骤。第一,提出原假设H0和备择假设H1。第二,构造检验的统计量及其分布。第三,确定显著性水平α,以及确定检验规则。第四,根据检验规则作出决策。8.3推断统计(三)假设检验

不拒绝H0拒绝H0H0为真1-α(正确)α(拒真错误)H1为假

(取伪错误)1-

(正确)t检验主要用于样本含量较小(例如样本量小于30),总体标准差σ未知的正态分布。常见的t检验主要有单样本t检验、配对样本t检验和独立样本t检验。8.3推断统计(二)假设检验04回归分析协方差表示的是两个变量总体误差的期望。如果两个变量的变化趋势一致,那么两个变量之间的协方差就是正值;如果两个变量的变化趋势相反,那么两个变量之间的协方差就是负值;如果两个变量是统计独立的,那么二者之间的协方差就是0。8.4

回归分析(一)协方差cov()函数相关系数是用以反映变量之间相关关系密切程度的统计指标。与协方差不同,相关系数排除了变量之间量纲的差异。常见的相关系数计算方法包括pearson相关系数、spearman相关系数等。8.4

回归分析(二)相关系数corr()函数8.4

回归分析(三)线性回归线性回归是找到多维空间中的一条直线(线性回归方程),使得其尽可能地去拟合变量之间的“隐式关系”。普通最小二乘法(OrdinaryLeastSquare,OLS),是线性回归模型中最基本的估计方法,原理就是使残差的平方和达到最小。statsmodel库是Python一个强大的统计分析库。我们使用statsmodels.api库的OLS()进行线性回归。需要特别注意的是,进行线性回归的变量不能有缺失值,否则会报错。8.4

回归分析(三)线性回归05应用实践“指数信息.xlsx”为2008年至2021年发行的一般公司债数据,票面利率为发行时票面利率,总资产报酬率、资产负债率、流动比率为债券2020年的财务比率,对其做描述性统计。分析一般公司债的票面利率在2021年与2022年是否存在显著差异。分析一般公司债的票面利率影响因素,因变量为票面利率,自变量分别为发行时信用评级、总资产报酬率、资产负债率、流动比率。8.5应用实践Python与财经大数据分析基础第9章使用ARIMA模型预测股票价格——时间序列CONTENTS目录04应用实践01时间序列简介02时间序列处理03时间序列基本性质01时间序列简介时间序列是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列,其实质是反映某个或者某些随机变量随时间不断变化的趋势。常见的时间序列如按秒或分钟更新的股价数据、按天更新的利率数据、按月更新的征信数据以及按年更新的宏观经济数据等。9.1时间序列简介(一)时间序列基本概念datetime模块是Python处理日期和时间的标准库,提供多种处理日期、时间相关的类。不仅支持日期和时间的算法,也能实现有效的属性提取和格式输出,本部分将介绍使用datetime创建时间对象、查看时间对象属性和转换时间格式等方法。9.1时间序列简介(二)datetime模块类名功能说明date日期对象,常用属性有year,month,daytime时间对象,常用属性有hour,minute,seconddatetime日期时间对象,是date和time的结合timedelta时间间隔,即两个时间点之间的长度tzinfo时区信息对象在日常数据分析中,最为常用的是datetime模块的datetime类,因此我们主要介绍datetime类。9.1时间序列简介(三)datetime类02时间序列处理时间序列的缺失值处理一般采用插值方法,使用缺失值周围的两个已知数据点估计丢失的数据点。较为常见的插值方法有基于时间的插值、样条插值和线性插值,一般通过pandas模块的interpolate()函数来实现。9.2时间序列处理(一)时间序列缺失值处理移动是指沿着时间轴将数据前移或后移,在财经金融数据处理中,时常会用到时间滞后。时间滞后是将t期的数据转换为(t-n)期的数据,可以通过shift()函数实现。9.2时间序列处理(二)时间序列数据移动和滞后计算第九章数据分组介绍了groupby()函数,其主要作用是进行数据的分组以及分组后的组内运算,常与agg()和apply()函数搭配使用。这一函数在时间序列数据中也十分常用,同样对时间序列进行分组,之后再进行组内运算,从而获取所需的数据或观察不同组别间的差异。9.2时间序列处理(三)时间序列数据分组时间序列通常由趋势、周期性、季节性、误差构成,其中最经常被分析的是趋势和季节性。时间序列可以被看作是趋势、季节性和误差项的整合,其各个观测值可以是以上成分相加或相乘得到的。9.2时间序列处理(四)时间序列的分解时间序列的分解可以通过statsmodels模块的seasonal_decompose来实现。9.2时间序列处理(四)时间序列的分解

9.2时间序列处理(五)时间序列的平滑在了解时间序列数据之后,我们可以对其进行简单的分析,比如进行描述性统计。这里我们沿用上节数据,基于前序章节内容,可以直接使用describe()函数查看数据的均值方差等。9.2时间序列处理(六)时间序列数据描述性统计03时间序列基本性质研究不同变量之间的相关性,是为了揭示变量之间的因果关系,以更好地预测目标变量,而时间序列的自相关性同样也是研究和利用时间序列的重要性质。所谓“历史可以重演”,即希望找到时间序列所具有的可延续性特征,以帮助我们更好地预测未来。时间序列的自相关性可以通过自协方差、自相关系数等统计量来体现。9.3时间序列基本性质(一)自相关性

Python中statsmodels模块包含的acf()函数可以便捷计算自相关系数。9.3时间序列基本性质(一)自相关性时间序列的平稳性是时间序列研究的基本前提,通过前一节的介绍,我们希望通过自相关性找到时间序列的可延续性特征,并在预测未来时利用该特征,而时间序列的平稳性则是决定该特征能否延续到未来的重要性质。9.3时间序列基本性质(二)平稳性增广迪基·富勒检验(ADF检验)是最常用的单位根检验方法,Python中的arch模块提供了ADF()函数帮助我们便捷地进行ADF检验。9.3时间序列基本性质(二)平稳性KPSS检验可以用于趋势平稳性检验,Python中的statsmodels模块提供了kpss()函数帮助我们便捷地进行KPSS检验。9.3时间序列基本性质(二)平稳性白噪声序列是指序列中任意两个时间点的变量均不相关,序列均值为0、方差为常数,这使得白噪声序列符合平稳时间序列的条件。白噪声序列中没有任何规律,不能用于预测和推断,所以发现一个时间序列为白噪声序列时,说明该时间序列已经失去了继续研究的意义。9.3时间序列基本性质(三)白噪声序列可以通过Ljung-Box检验该序列是否为白噪声序列,Python中statsmodels模块提供了q_stat()完成该检验。9.3时间序列基本性质(三)白噪声序列

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论