智能金融 课件全套 张宁 第1-12章 交叉的目的是融合:导论 - 源源不断的新思想_第1页
智能金融 课件全套 张宁 第1-12章 交叉的目的是融合:导论 - 源源不断的新思想_第2页
智能金融 课件全套 张宁 第1-12章 交叉的目的是融合:导论 - 源源不断的新思想_第3页
智能金融 课件全套 张宁 第1-12章 交叉的目的是融合:导论 - 源源不断的新思想_第4页
智能金融 课件全套 张宁 第1-12章 交叉的目的是融合:导论 - 源源不断的新思想_第5页
已阅读5页,还剩509页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

机器学习与智能金融第一章

融合创造价值导论本讲主要内容基础概念的理解一人工智能的历史与发展二中国人工智能的发展三人工智能与金融的结合:智能金融场景与价值四课程实践环境五机器学习的概念人工智能的概念模式识别的概念概念辨析1.1

概念辨析对于某类任务T和性能度量P,如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善,那么我们称这个计算机程序在从经验E中学习。<P,T,E>机器学习的含义与理解人工智能(Artificial

Intelligence):它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。1956年由约翰.麦卡锡首次提出,当时的定义为“制造智能机器的科学与工程”。人工智能目的就是让机器能够像人一样思考,让机器拥有智能。Artificialintelligence(AI)istheabilityofthemachineorprogramtothink,learn,andmakedecisionsfromsimulatinghumanbehaviorand

experience.人工智能的含义与理解模式识别是人类的一项基本智能。模式识别以图像处理与计算机视觉、语音语言信息处理、脑网络组、类脑智能等为主要研究方向,研究人类模式识别的机理以及有效的计算方法。所谓模式识别的问题就是用计算的方法根据样本的特征将样本划分到一定的类别中去。模式识别的含义与理解人工智能是制造“智能”的“机器”。模式识别的目的是能够最大程度实现“人类智能”中的“模式识别”,把对应“事务”划分到特定“分类中”,目前,它使用的主要手段是机器学习。机器学习是程序实现人类智能中的学习能力,借助经验(数据)不断提升自己的“性能”。010203总结数据集、Data

set训练样本(trainingdata),

测试样本(testing

data),验证样本(verifyingdata)样本(sample)属性/特征(attributes,feature),标记(label)样本空间、属性空间、标记空间任务(task)分类(classification),回归(regression)评价,预测评估泛化,稳健,效率1.2

机器学习基本概念课后练习:查找、学习并理解如下概念精度,accuracy误差,(模型输出与样本输出差距),error训练误差,trainingerror,empiricalerror泛化误差,generalizationerror测试误差,testing

error过拟合,overfitting欠拟合,underfitting查准率,precision查全率

召回率,recall1.3

人工智能路径和分类给出了人工智能的定义:“人工智能是利用数字计算机或者由数字计算机控制的机器,模拟、延伸和扩展人类的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术和应用系统。”一书中将已有的人工智能分为了四类:像人一样思考的系统、像人一样行动的系统、理性思考的系统、理性行动的系统;在达特矛斯会议(DARTMOUTHCONFERENCE)上提出:人工智能就是要让机器的行为看起来就像是人所表现出的智能行为一样;1956年,人工智能先驱约翰·麦卡锡(JOHNMCCARTHY)我国《人工智能标准化白皮书(2018年)》著名的人工智能教材《人工智能——一种现代方法》本课程定义英文缩写为AI,它是将智能以及依靠人的能力实现智能作为研究对象,是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统等的一门学科。人工智能(ArtificialIntelligence)总的说来人工智能研究的一个主要目标是使机器能够胜任一些通常需要人类智能才能完成的复杂工作。当然,在不同的时代不同的人对这种“复杂工作”的理解是不同的。弱人工智能 强人工智能 超人工智能不同实现途径(派系)结构主义符号主义(Symbolism)统计主义行为主义仿真主义人工智能方法的分类数据类型视角数据标注视角方法构建逻辑的视角方法可解释性视角本讲主要内容基础概念的理解一人工智能的历史与发展二中国人工智能的发展三人工智能与金融的结合:智能金融场景与价值四课程实践环境五故事:古代西周的偶人《列子·汤问》偃师以假乱真、能歌善舞、千变万化、善挑逗人偃师造人唯难于心唐代机器僧

杨务廉

杭州工匠《朝野佥载》唐张鷟故事:近代EnigmaBombe1950年,阿兰·图灵在那篇名垂青史的论文《计算机械与智力》的开篇说:“我建议大家考虑这个问题:‘机器能思考吗?’”故事:现代,诞生与狂热,达特茅斯会议1958年,H.

A.

Simon,Allen

Newell:“十年之内,数字计算机将成为国际象棋世界冠军。”、“十年之内,数字计算机将发现并证明一个重要的数学定理。”1965年,H.

A.

Simon:“二十年内,机器将能完成人能做到的一切工作。”1967年,Marvin

Minsky:“一代之内……创造‘人工智能’的问题将获得实质上的解决。”1970年,Marvin

Minsky:“在三到八年的时间里我们将得到一台具有人类平均智能的机器。”1956,新罕布什尔州,达特茅斯(Dartmouth)会议“首次”提出人工智能发展说明:三者关系人工智能机器学习深度学习本讲主要内容基础概念的理解一人工智能的历史与发展二中国人工智能的发展三人工智能与金融的结合:智能金融场景与价值四课程实践环境五起步1978年3月1980年20世纪50年代-70年代全国科学大会在北京召开。吴文俊院士提出的利用机器证明与发现几何定理的新方法——几何定理机器证明也获得全国科学大会重大科技成果奖。中国电子学会计算机学会(中国计算机学会的前身)在吉林大学组织召开“计算机科学暑期讨论会”,王湘浩院士负责组织,在此次会议中,人工智能成为主要讨论方向。全体会议中报告的4名演讲者分别是吴文俊、陆汝钤、吴允增、张鸣华。起步1981年9月1982年1980年王湘浩在中国计算机学会下建立了人工智能学组并担任组长。中国人工智能学会(CAAI)在长沙成立,秦元勋当选第一任理事长。中国人工智能学会刊物《人工智能学报》在长沙创刊,成为国内首份人工智能学术刊物。发展1985年1986年起1984年下半年全国智能计算机及其系统学术讨论会,重点研讨人工智能相关主题。召开了全国首届第五代计算机学术研讨会。把智能计算机系统、智能机器人和智能信息处理等重大项目列入国家高技术研究发展计划,即著名的863计划。1987年新的人工智能期刊《模式识别与人工智能》杂志创刊。1989年我国首次召开了中国人工智能联合会议(CJCAI)。发展2009年2022年9月13日2006年8月中国人工智能学会联合其他学会和有关部门,在北京举办了“庆祝人工智能学科诞生50周年”大型庆祝活动。中国人工智能学会牵头组织,向国家学位委员会和国家教育部提出设置“智能科学与技术”学位授权一级学科的建议。教育部发布《研究生教育学科专业目录(2022年)》,智能科学与技术正式成为交叉学科门类中的一级学科。人工智能最高奖2011年1月6日,由中国人工智能学会发起,以吴文俊先生命名、依托社会力量捐资的“吴文俊人工智能科学技术奖”

经国家科学技术部核准、国家科学技术奖励工作办公室(国科奖社证字第0218号)公告正式设立。被誉为“中国智能科学技术最高奖”,代表人工智能领域的最高荣誉象征。政策中共中央政治局就人工智能发展现状和趋势举行第九次集体学习。中共中央总书记习近平在主持学习时强调,人工智能是新一轮科技革命和产业变革的重要驱动力量。为抢抓人工智能发展的重大战略机遇,构筑我国人工智能发展的先发优势,加快建设创新型国家和世界科技强国,国务院印发了《新一代人工智能发展规划》。2017年7月2018年10月31日下午位置与对比本讲主要内容基础概念的理解一人工智能的历史与发展二中国人工智能的发展三人工智能与金融的结合:智能金融场景与价值四课程实践环境五技术视角人工智能技术机器学习计算机视觉/图像智能自然语言处理(NLP)/自然语言理解(NLU)知识图谱与图数据分析语音与时间序列因果智能强化学习AIGC等例子:AIGC例子:AIGC例子:AIGC例子:AIGC银行业预测性分析业务自然语言理解计算机视觉保险业智能核保理赔与反欺诈智能定损智能客服精准定价信托业智能金融有助于加快形成个人画像、企业画像和产业画像的数据基础和建模能力,推动依托“数据+科技”的大类资产选择、投融资、前中后台的智能化管理能力建设。智能金融有助于精准营销、精准人群营销和服务生态圈建设,加快推动资金端由产品销售向财富管理转型。资金端的财富管理智能化资产端覆盖范围证券业智能财报核验、信息提取智能文档审核、验证以及比对运营管理自动化智能投研基金业细分用户和预测模型估值业务流水化预警金融突发事件分析新闻与舆情案例与场景:投资分类人类量化投资程序人工智能平均收益8.9%7.6%16.3%风险控制能力8510051极端风险次数6/1003最大损失-13.7%-7.2%-18.1%偏好周期短期-中期短期中期-长期大局观8060100案例与场景:欺诈识别案例与场景:财务与管理团队案例案例与场景:健康及金融风险偏好领域:

医学,健康,运动等例如:

精准推测客户的需求智能金融价值智能金融是金融科技的一个阶段,而金融科技是金融业的知识经济,其价值路径以及价值作用方式与知识经济相同。智能金融所产生的价值体现在数据的作用、信用的作用以及风险的作用上,通过这些要素的智能化,智能金融将在宏观、中观以及微观层面产生价值。按照知识经济框架根据定义提升金融行业效率加速普惠金融发展促进金融体系健康提升个人金融服务幸福感助力监管本讲主要内容基础概念的理解一人工智能的历史与发展二中国人工智能的发展三人工智能与金融的结合:智能金融场景与价值四课程实践环境五实践建议环境案例及示范代码的编程语言:Python常用的机器学习库:Scikit-learn(sk-learn)常用的人工智能库:Tensorflow(keras)

pyTorch使用的算力:CPU或者GPU使用的数据说明:框架与标准化说明:移动端深度学习推理框架TF-Lite(Google)TensorRT(Nvidia)CoreML(Apple)OpenVINO(Intel)MNN(Alibaba)NCNN(Tencent)THANKS谢 谢 聆 听机器学习与智能金融第二讲

经典而永恒线性方法主讲人:张欣然学校:中央财经大学回归类分析方法及其运用场景概述一本讲内容回归模型的选择、正则化与降维二多元定性响应变量的回归模型三回归类分析方法在金融领域的运用四回归类分析方法及其运用场景概述01回归分析(Regression

Analysis):确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。回归模型的一般形式:回归分析的定义y𝑖=𝑓𝑥𝑖,

𝜖𝑖;

𝛽 (1)脚标𝑖∈𝑁={1,2,…,𝑛}表示第i个个体或观测响应变量y𝑖特征变量𝑥𝑖′=(1,𝑥𝑖,2,…,𝑥𝑖,𝐾)参数向量𝛽=(𝛽1,𝛽2,…,𝛽𝐾)误差项𝜖𝑖回归模型依赖于函数的形式𝑓(∙)和参数𝛽的大小回归分析的分类分类标准类别特征变量的个数一元回归模型、多元回归模型特征变量与响应变量的关系线性回归模型、非线性回归模型回归方程的个数单方程回归模型、联立方程回归模型数据类型的特点横截面模型、时间序列模型、面板模型多元线性回归模型(Multiple

Linear

Regression

Model)多元线性回归模型回顾𝑦𝑖=𝛽1𝑥𝑖1+𝛽2𝑥𝑖2+⋯+𝛽𝑝𝑥𝑖𝑝+𝜖𝑖,(𝑖=1,…

,

𝑛) (2)𝛽=(𝛽1,𝛽2,…,𝛽𝑝)′为待估计的未知参数,回归系数如果方程(2)中有常数项(即截距项),则通常令第

1

个变量恒等于

1,即𝑥𝑖1=1,

∀𝑖该回归模型也可表示为矩阵形式(更常用)′ ′其中𝑌=(𝑦1,𝑦2,…,𝑦𝑛)′,X=(𝑥1′,𝑥2′,…,𝑥𝑛 )′,

𝜖=(𝜖1,𝜖2,…,𝜖𝑛)Y=X𝛽

+𝜖 (3)多元线性回归模型回顾𝜷𝑖=1最小二乘法(OLS)估计多元线性回归的参数向量𝛽OLS原理:找到使得模型残差平方和最小的参数向量𝛽𝑁𝑖𝜷෡𝑂𝐿𝑆

=

𝑎𝑟𝑔

𝑚𝑖𝑛

𝑦𝑖

𝒙′𝜷

2

(4)估计量的性质小样本:在经典线性回归假设下,

𝜷෡𝑂𝐿𝑆具有无偏性和有效性大样本:在大数定律和中心极限定理保证下,

𝜷෡𝑂𝐿𝑆还具有一致性和渐进正态性拟合优度𝑅2

或者调整𝑅2为比较所含解释变量个数不同的多元回归模型的拟合优度,还可使用赤池信息准则(AIC)、贝叶斯信息准则(BIC)和施瓦茨准则(SC)多元线性回归模型回顾最小二乘法(OLS)估计多元线性回归的参数向量𝛽一元线性回归残差:e𝑖

𝑦𝑖

−𝛼ො

𝛽෠𝑥𝑖残差平方和:σ𝑛 𝑒2

=

σ𝑛 (𝑦𝑖−𝛼ො

𝛽෠𝑥𝑖)2i=1 𝑖 𝑖=1最小二乘法就是选择𝛼ො,

𝛽෠,使得残差平方和最小化𝛼ෝ,𝛽෡i=1𝑛𝑖min෍

𝑒2=෍𝑖=1𝑛(𝑦𝑖−𝛼ො

−𝛽෠𝑥𝑖)2多元线性回归模型回顾最小二乘法(OLS)估计多元线性回归的参数向量𝛽二元线性回归最小化问题的一阶条件:如果(𝑋′

𝑋)可逆(数据矩阵X满列秩,rank(X)=p),则:𝜷෡

≡𝑿′𝑿

−𝟏𝑿′𝒚𝛽෩𝑖=1𝑖𝑛min

෍ 𝑒2=𝑒′𝑒=(𝑦−𝑋𝛽෨)′(𝑦−𝑋𝛽෨)=𝑦′𝑦−2𝑦′𝑋𝛽෨+𝛽෨′𝑋′𝑋𝛽෨෨𝜕(𝑦′𝑦−2𝑦′𝑋𝛽෨+𝛽෨′𝑋′𝑋𝛽෨)𝜕𝛽=−2𝑋′𝑦+2𝑋′𝑋𝛽෨=

0𝑋′𝑋𝛽෠

=𝑋′𝑦多元线性回归模型回顾最小二乘法(OLS)估计多元线性回归的参数向量𝛽如果数据矩阵X不满列秩,则存在严格多重共线性

,𝑟𝑎𝑛𝑘(𝑋)≤𝑛<𝑝

(矩阵X的秩小于或等于其行数n),此时不存在(𝑋′

𝑋)−1,OLS没有唯一解OLS一般不适用高维数据,其变量个数大于样本容量,即𝑝>𝑛。须进行“正则化”处理,即在损失函数中加入“惩罚项”,进行“惩罚回归”回归分析:计量经济学

vs 机器学习领域计量经济学重视统计推断(包括参数的点估计、区间估计以及假设检验)尤其重视如何借助回归模型推断变量之间的因果关系机器学习更重视模型的预测准确率(accuracy)和解释力(interpretation)预测准确率指在训练集上得到的回归模型在测试集上的预测表现模型解释力指回归系数能否直观简洁描绘特征变量对响应变量的影响回归分析在金融领域的应用场景实现对不同类型客户的精准营销用户画像与精准营销多分类Logistic回归模型量化投资,预测未来资产价格和收益率价格与收益率预测采用系数压缩、变量筛选等方法对回归模型改进信用风险,市场风险、操作风险、流动性风险、管理风险等风险评估与识别二分类Logistic

/

Probit回归模型,Cox比例风险回归模型回归模型的选择、正则化与降维02选择回归模型的动机1、多重共线性完全多重共线性导致OLS方法的失效,无法得到唯一的参数估计不完全的多重共线性虽然不会对参数估计的无偏性产生影响,但其有效性会大大减弱,即参数估计的方差会变得很大选择回归模型的动机1、多重共线性检验多重共线性简单方法是看特征变量的相关系数矩阵:如果该矩阵中有绝对值较大的数字,说明该对特征变量之间存在较强的线性相关性更严格的检测方法为方差膨胀因子(variance

inflation

factor)检验,也称VIF检验。依照经验而言,当VIF值超过5或者10时就表明模型有比较严重的共线性问题当模型具有这类问题时,我们有必要对特征变量进行筛选和剔除选择回归模型的动机2、过拟合问题过拟合:模型对训练集的拟合程度比对真实总体的拟合程度更好,导致该模型在预测集上表现较差选择回归模型的动机2、过拟合问题过拟合体现在两个方面:引入过多无关特征变量引入过多特征变量的高次项(因而模型高度非线性化)因此,为了避免过拟合问题所导致的预测能力降低,模型形式的设定(线性/非线性)和特征变量的选择就显得尤其重要选择回归模型的动机尤其是当特征变量的个数大于观测数时(p>n),回归分析将得不到唯一的参数估计即使p<n时,特征变量具有过高的维数也会导致多重共线性与过拟合问题的出现,进而大大削弱回归系数的解释力与模型的预测能力3、维数灾难交叉检验法为了解决上述问题带来的困扰,必须对回归模型进行选择或约束(也即对特征变量进行选择或约束),然后在不同模型之间进行比较,进而选出最优的模型。虽然这些指标均可用于最优模型的选择,但它们都对训练集和预测集的变化比较敏感。一旦换一组训练集样本,可能会得到完全不同的模型调整R2、AIC准则、BIC准则等以及ROC曲线、AUC指标等,还有模型在预测集上的均方误差(即Mean-Square

Error,MSE)模型评价指标问题交叉检验法k折交叉检验法(k-fold

cross-validation,简记CV)选择最优模型对训练集进行(同一)回归模型的拟合,然后用该模型对测试集进行预测,并计算测试集上的均方误差。将总观测集随机地分为k个样本数量基本一致的折(fold),找其中一折作为预测集,剩下的作为训练集。第一步第二步选择另一折作为测试集,重复第一步和第二步,直到所有折都曾作过测试集(即重复k次)。第三步交叉检验法k折交叉检验法(k-fold

cross-validation,简记CV)选择最优模型k折交叉检验法的平均均方误差:𝑘𝑘 𝑖=1𝐶𝑉 =1

σ𝑘𝑀𝑆𝐸𝑖(20)当折数k等于观测样本总数量n时,为留一交叉检验法(leave-one-out CV)在如何选择折数k的问题上,需要考虑“偏差—方差”的权衡。一般而言,留一交叉检验法的方差要比k折交叉检验法(k<N)的方差更大。从经验上讲,选择k=5或是k=10比较合适的(N>>10)交叉检验法k折交叉检验法(k-fold

cross-validation,简记CV)选择最优模型对不同回归模型进行交叉检验后,我们会得到关于不同模型的CV值,这些值可以构成测试误差估计值曲线例子:假设现在我们考虑回归模型中特征变量个数的选择问题(也即“不同回归模型”是指“包含特征变量数不同的回归模型”)方法1:子集选择的回归模型回归模型选择中一个直观的想法是对特征变量的集合进行筛选,筛选出合适的特征变量子集来构建回归模型。这类模型统称为子集选择的回归模型(subsetselectionregression

model)最优子集选择模型向前逐步选择模型向后逐步选择模型方法1:子集选择的回归模型① 这种方法简单直观,但计算效率低需检索模型数量随特征变量个数的增加而迅速增加② 该方法也只适用于样本量N>K的情况一旦特征变量个数超过样本量,方法失效1、最优子集选择模型最优子集选择模型是对个特征变量的所有可能组合分别进行回归拟合,其算法步骤如下表:这种方法需要检索的回归模型的总个数为:方法1:子集选择的回归模型优势在于计算量要远小于最优子集选择模型② 但是仍需要保证特征变量个数小于样本量(即N>K),否则模型将无法进行参数估计2、向后逐步选择模型原理:以包含全部特征变量的回归模型(又称全模型𝑀𝐾)作为起点,逐次叠代,每次都剔除一个对模型结果最不利的变量,最后得到最优回归模型。其算法步骤见下表:① 这种方法需要检索的回归模型的总个数为:方法1:子集选择的回归模型3、向前逐步选择模型原理:以不包含任何特征变量的回归模型(又称零模型𝑀0)作为起点,逐次往模型中添加特征变量,直至所有的变量均被纳入回归模型。其算法步骤见下表:①

这种方法需要检索的模型个数与向后逐步选择模型相同因此其计算量也要远远小于最优子集选择模型② 这种方法也适用于样本量小于特征变量数的情况,即N<K,因此它要优于向后逐步选择模型。具体而言,当出现N<K的情况时,该算法会在回归模型特征变量数等于N的时候停止,然后从备选模型中进行挑选。方法2:回归模型的正则化岭回归(ridge

regression)套索回归(lasso

regression)弹性网络回归(elastic-net

regression)另一类解决维数灾难(以及可能衍生的多重共线性和过拟合问题)的回归方法统称为正则化回归(regression

with

regularization)或者压缩估计方法(shrinkagemethod)这类方法的原理是在回归分析的RSS目标函数基础上增加惩罚项方法2:回归模型的正则化矩阵𝑋′𝑋几乎不可逆,导致(𝑋′𝑋)−1变得很大,使得OLS的估计量𝛽෠𝑂𝐿𝑆≡ 𝑋′𝑋

−1𝑋′𝑦的方差也很大在矩阵𝑋′𝑋的主对角线上都加上某个常数𝜆>0,以缓解多重共线性,使得所有矩阵(𝑋′𝑋

+

𝜆𝐼)变得“正常”岭回归的估计量为:岭回归是在OLS表达式中加入“山岭”𝜆𝐼而得名𝛽መ𝑟𝑖𝑑𝑔𝑒≡ 𝑋′𝑋+

𝜆𝐼−1𝑋′𝑦1、岭回归岭回归(Ridge

Regression)出发点正是为了解决多重共线性方法2:回归模型的正则化其中,约束条件还可以写为𝜷22≤𝑡,

𝜷2表示向量𝜷的L2范数(L2-norm)𝑖=1𝑁𝑚𝑖𝑛

෍ 𝑦𝑖−𝛼0−

෍𝜷𝑗=1𝐾−1𝑥𝑖,𝑗𝛽𝑗2(19)𝑠.

𝑡. ෍𝑗=1𝐾−1𝑗𝛽2≤

𝑡(20)1、岭回归岭回归方法是将OLS无约束最优化问题转化为如下有约束的最优化问题:方法2:回归模型的正则化𝜷𝑖=1𝑁𝑚𝑖𝑛

෍𝐾−1𝑦𝑖−𝛼0−

෍𝑗=1𝑥𝑖,𝑗𝛽𝑗2+

𝜆 𝜷22(21)该式的第一项是RSS,第二项是𝐿2惩罚项(penalty

term),调节参数𝜆被称为压缩参数(shrinkageparameter)由于岭回归的目标函数会对过大的参数施以很大的惩罚,所以岭回归的参数估计也被称作压缩估计量。1、岭回归如果将上述问题的拉格朗日方程列出,岭回归的目标函数还可以等价地写成:方法2:回归模型的正则化岭回归的几何意义:在岭回归中,RSS函数的等高线会与惩罚约束所代表的球形等高线相切(大概率情况下二者不会切于坐标轴),进而使得OLS估计量收缩至岭回归估计量。1、岭回归方法2:回归模型的正则化𝛽መ𝑟𝑖𝑑𝑔𝑒= 𝑋′𝑋

𝜆𝐼

−1𝑋′𝑦 (22)岭回归估计量在小样本下是有偏估计量(因为OLS估计量在一定假设下是无偏估计量),但是它使得参数估计的方差大大缩小。然而,由于岭回归中很难将参数估计严格限制到0,因此这个方法并不能起到筛选变量的目的。在高维问题中,岭回归仍不是最优选择。1、岭回归岭回归的参数估计性质通过目标函数的一阶条件可以求解岭回归的参数估计满足下式:方法2:回归模型的正则化2、套索回归在进行高维回归时,希望从大量的特征变量中,筛选出真正对y有影响的少数变量。例如,从2万个基因中,找到真正影响疾病的少数基因。希望真实模型(true

model),或数据生成过程(data

generating

process),为稀疏模型(sparse

model):即需要一个估计量,能挑选出那些真正有影响的(基因)变量,而使其他无影响或影响微弱的(基因)变量的回归系数变为0。方法2:回归模型的正则化其中,约束条件还可以写为

𝜷1≤𝑡

,𝜷

1表示向量的L1范数(L1-norm)𝜷𝑖=1𝑁𝑚𝑖𝑛

෍𝐾−1𝑦𝑖−𝛼0−

෍𝑗=1𝑥𝑖,𝑗𝛽𝑗2(23)𝑠.

𝑡. ෍𝑗=1𝐾−1𝛽𝑗 ≤

𝑡(24)2、套索回归与岭回归类似,套索回归下的约束最优化问题为:方法2:回归模型的正则化同样,套索回归的目标函数还可以写成:该式的第一项仍是RSS,第二项是L1惩罚项𝑚𝑖𝑛

෍𝜷𝑖=1𝑁𝑦𝑖−𝛼0−

෍𝑗=1𝐾−1𝑥𝑖,𝑗𝛽𝑗2+

𝜆 𝜷1(25)2、套索回归方法2:回归模型的正则化套索回归几何意义:套索回归中RSS的等高线与约束条件的八面体等高线很容易相切于坐标轴。这样一来,某一个特征变量的参数就会完全变成0,进而达到筛选变量的目的。2、套索回归方法2:回归模型的正则化2、套索回归由于Lasso的约束集为带尖角的菱形(而菱形的顶点恰好在坐标轴上),故等值线较易与约束集相切于坐标轴的位置,导致

Lasso

估计量的某些回归系数严格等于0,从而得到“稀疏解”(sparse

solution)Lasso的这种独特性质,使得它具备“筛选变量”(variable

selection)的功能由于Lasso为“绝对值收缩”

(absolute

shrinkage),故合称为“最小绝对值收缩与筛选算子”

(least

absolute

shrinkage

and

selection

operator),简记LASSO。在英文中,Lasso一词的原意为“套索”方法2:回归模型的正则化2、套索回归Lasso与岭回归孰优孰劣?从预测的角度,如果真实模型(或数据生成过程)确实是稀疏的,则Lasso一般更优。但如果真实模型并不稀疏,则岭回归的预测效果可能优于

Lasso。在实践中,

一般并不知道模型是否稀疏,

可用“交叉验证”(cross-validation)进行选择。从模型易于解释(interpretability)的角度,则Lasso显然是赢家,因为岭回归一般只是收缩回归系数,并不具备变量筛选的功能方法2:回归模型的正则化′min

𝑦

𝑋𝛽 𝑦

𝑋𝛽 +

𝜆1

𝛽

1

+

𝜆2

𝛽𝛽22其中,𝜆1≥

0与𝜆2

0都是调节参数3、弹性网络回归Lasso虽然具有筛选变量的功能,但此功能并不完美几个变量高度相关,Lasso可能随意选择其中一个弹性网(Elastic

Net)估计量将Lasso与岭回归相结合,同时包含𝐿1与𝐿2惩罚项方法2:回归模型的正则化𝛽′min

𝑦

𝑋𝛽 𝑦

𝑋𝛽 +

𝜆[𝛼

𝛽

1

+ 1

𝛼 𝛽22]其中,𝜆≥0与0≤𝛼≤1为调节参数由于调节参数𝛼的取值局限于区间[0,1],故便于通过交叉验证选择其最优值如果𝛼=0,则弹性网退化为岭回归如果𝛼=1,则弹性网退化为Lasso如果0<𝛼<1,则弹性网为岭回归与Lasso之间折衷3、弹性网络回归由于𝜆1与𝜆𝟐的取值范围均为无穷,不便于使用交叉验证选择其最优值。定义𝜆≡𝜆1+𝜆2,𝛼≡𝜆1/𝜆,可以将损失函数写为:方法2:回归模型的正则化′min𝑦

𝑋𝛽 𝑦−

𝑋𝛽𝛽2𝑠.

𝑡.

𝛼 𝛽

1

+ 1

𝛼 𝛽 2≤

𝑡其中,𝑡≥0为调节参数仍以二元回归为例,展示几何解释

𝛽=(𝛽1,𝛽2)′则弹性网估计量的约束集为:𝛼 𝛽1 +

𝛽2 + 1

𝛼 𝛽2

+

𝛽2 ≤

𝑡1 23、弹性网络回归可等价写为以下约束极值问题方法2:回归模型的正则化弹性网(𝛼=0.5),Lasso及岭回归的约束集3、弹性网络回归方法2:回归模型的正则化3、弹性网络回归弹性网的约束集介于Lasso与岭回归约束集之间与Lasso类似,弹性网的约束集也在坐标轴上有四个尖角,故弹性网也具有筛选变量的功能与岭回归的圆形约束集类似,弹性网的约束集在四个象限也呈弧形,故弹性网具有类似于岭回归的收缩参数之功能优势:当若干特征变量之间高度相关时,弹性网倾向于将这些高度相关的变量都选上弹性网可通过交叉验证选择最优的调节参数𝜆,其预测能力不差于前二者方法3:降维回归方法在处理高维问题时,我们还可以对特征变量进行降维在回归分析中,主成分分析的思想仍可以得到应用本小节介绍两种常见方法:主成分回归(principal

component

regression,简称PCR)与偏最小二乘法(partial

least

square,简称PLS)注意:虽然这两种方法可能会在某种程度上提高模型在预测集上的预测准确度(缓解过拟合问题),但在对模型进行解释时,维数的压缩可能会导致每个主成分的经济含义变得更加模糊,模型的解释力减弱方法3:降维回归方法𝑦=

𝑍𝛾ො

+

𝜇Ƹ (28)Z是𝑁×𝑀的主成分矩阵𝜸ෝ是𝑀×1的参数向量𝝁ෝ是𝑁×1的回归残差向量与普通OLS回归方法相比,特征向量的维数从P降到了M1、主成分回归主成分回归利用特征变量X的信息构造前M个主成分𝒁=(𝒛1,…,𝒛𝑀),然后以这些主成分作为新特征变量,对响应变量y进行回归:方法3:降维回归方法1、主成分回归优点:可处理样本量N<P的情况缺点:在主成分的选择过程中,选出“能够最大程度代表特征变量X”的线性组合(或方向)但是,这些方向是通过无监督学习方法得到的,响应变量y在主成分选择时没有起到任何作用弊端是:我们无法保证那些很好地代表特征变量X的主成分同样可以很好地预测响应变量y方法3:降维回归方法2、偏最小二乘回归偏最小二乘法是一种有监督学习方法在提取每一个成分(如𝒛𝑚)时,都应该满足以下两点要求:主成分𝒛𝑚应携带特征变量中尽可能多的变异信息𝒛𝑚与响应变量𝑦𝑖的相关系数取得最大这两点要求说明:主成分不仅要能很好地反映特征变量的信息,而且对响应变量的解释力还必须很强方法3:降维回归方法2、偏最小二乘回归当成分𝒛1提取出来之后,分别将特征X和响应变量𝑦𝑖关于𝒛1作OLS回归,并记录两个回归的残余信息。倘若回归方程实现了所要求的精度,则成分提取完毕;若未实现精度要求,则继续用两组残余信息进行新一轮的成分提取。依此类推,直到实现了所要求的精度为止。多元定性响应变量的回归模型03多元定性响应变量的回归模型在很多金融场景下,人们并不太关心响应变量的绝对数值大小,而更在乎某些定性特征在银行或互联网信贷领域,机构会通过一系列算法来评估是否为个体发放贷款(“贷款”vs“不贷款”)在投资决策中,人们往往会关心是否买入或卖出相应资产(

“买入”vs“不买入”

)债券评级、借款人信用评分等(响应变量取值也可大于两种)多元线性回归模型的缺陷假设响应变量具有二值离散的分布特征(即𝑦𝑖=0或者𝑦𝑖=1),那么普通的多元线性回归模型对参数的估计将不满足有效性当定性响应变量有m个种类时(m>2),通常会给各个种类进行编号排序,但这些种类仅在逻辑上仅具有平行关系,并不具有顺序关系。但是编号本身则天然代表了某种大小关系或顺序关系,不同的排序方式会产生完全不同的线性模型及参数估计,给人们带来混淆。变量的无意义排序参数估计的有效性不再满足多元线性回归模型的缺陷预测值的经济含义模糊在响应变量为二元离散取值的情况下,如果我们使用普通的多元线性回归模型进行建模,预测的结果则可能大于1或小于0,这样的结果与现实相悖。需要找到一种把预测概率控制在【0,1】区间内的建模方法。二分类多元

Logistic

/

Probit

回归广义线性模型(generalized

linear

model)为使y的预测值总是介于【0,1】之间,在给定x的情况下,考虑y的两点分布概率:P𝑦=

1

𝑥 =𝑔(𝑥,𝛽)ቊ𝑃𝑦=

0

𝑥 =1−𝑔(𝑥,

𝛽)g(𝑥,𝛽)称为连接函数,将特征向量x与响应变量y连接起来,选择合适的连接函数g(𝑥,𝛽),可保证0

𝑦ො

1在给定x的情况下,y的条件期望为:𝐸

𝑦

𝑥 =1∙𝑃𝑦=

1

𝑥 +0∙𝑃𝑦=

0

𝑥 =𝑃𝑦=1

𝑥将模型的拟合值(预测值)理解为事件“y=1”的发生概率二分类多元

Logistic

/

Probit

回归广义线性模型(generalized

linear

model)随机部分、系统部分(或线性部分)以及联系函数随机部分是指响应变量与其概率分布(例如正态分布、二项分布或逆高斯分布)假定响应变量在各个观测之间相互独立,其条件期望𝔼(𝑦𝑖|𝑿)i系统部分是指以线性形式进入模型的特征变量,记为𝑧𝑖

=

𝒙′𝜷联系函数将模型的随机部分与系统部分联接起来,用函数𝑔(∙)来表示𝑔𝔼

𝑦𝑖

𝑿 =

𝒙′𝜷 (𝟓)𝑖当联系函数为𝑔(𝑎)=𝑎时,广义线性回归模型退化为普通线性回归模型。普通线性模型可以看作广义线性模型的一个特例二分类多元

Logistic

/

Probit

回归二分类响应变量的多元

Logistic/Probit

模型在利用广义线性模型做二分类建模时,这两类函数可以将系统部分给出𝑧𝑖的转化为在0到1之间的变量𝔼

𝑦𝑖

𝑿

,使得模型可以更好地拟合二项分布的数据对于Logistic函数(即Sigmoid函数),此转换过程可表示为:对于Probit函数(即标准正态分布的累积分布函数),则有:𝛲𝑦𝑖=

1

𝑿 =𝔼

𝑦𝑖

𝑿 =𝑆𝑖𝑔𝑚𝑜𝑖𝑑

𝑧𝑖𝑒−𝑧𝑖=1+𝑒−𝑧𝑖

∈0,1 (6)𝑃𝑦𝑖=

1

𝑿 =𝔼

𝑦𝑖

𝑿 =

𝛷𝑧𝑖 =

න0𝑧𝑖12𝜋𝑠2𝑒−

2

𝑑𝑠

∈ 0,1 (7)二分类多元

Logistic

/

Probit

回归Logistic函数与Probit函数图像Logistic函数和Probit

函数都是具有阶跃函数(step

function)性质的非线性函数,能够将变量约束在范围内二分类多元

Logistic

/

Probit

回归经济学含义二分类多元Logistic回归模型:𝑙𝑛𝛲𝑦𝑖=1

𝑿𝛲𝑦𝑖=0

𝑿′𝒊=𝒙

𝜷(8)等式左边称为对数几率(log

odds),几率为𝑦_𝑖=1与𝑦_𝑖=0的条件概率的比值,表示给定特征变量,响应变量𝑦_𝑖=1的相对可能性回归系数𝜷𝒌的经济含义:在其他特征变量不变的情况下,变量𝒙_𝒌的一单位变化所引发的对数几率的平均变化。或者解释为:在其他特征变量不变的情况下,变量𝒙_𝒌对对数几率的边际影响(marginal

effect)同理,二分类多元Probit回归模型可以写为:𝛷−1

𝛲

𝑦𝑖

=

1

𝑿 =

𝒙′𝜷 (9)𝒊二分类多元

Logistic

/

Probit

回归数值优化算法来求得数值解,如梯度下降法和牛顿法𝜷𝑖=1参数估计非线性最小二乘法(nonlinear

least

square)使离差平方和最小化以Probit模型为例,参数估计量:𝑁𝒊𝜷෡𝑁𝐿𝐿𝑆=𝑎𝑟𝑔

𝑚𝑖𝑛

෍ 𝑦𝑖−𝛷

𝒙′𝜷2(10)极大似然估计法(maximum

likelihood

estimation)Logistic模型为例,参数估计量:𝜷෡𝑀𝐿𝐸=𝑎𝑟𝑔𝑚𝑎𝑥

෍𝜷𝑖=1𝑁𝑖 𝒊′𝑦𝒙𝜷−𝑙𝑛1+

𝑒𝒊′𝒙

𝜷(11)二分类多元

Logistic

/

Probit

回归分类模型的模型评估特征变量的显著性检验与拟合优度评估模型单个特征变量系数的显著性可构建统计量进行双侧检验(大样本下)预测准确度评估机器学习中的分类问题通常用混淆矩阵来表示分类结果真实值𝒚𝒊=

𝟏𝒚𝒊=

𝟎预测值𝑦ො𝑖

=

1真阳性(TP)假阳性(FP)𝑦ො𝑖

=

0假阴性(FN)真阴性(TN)二分类多元

Logistic

/

Probit

回归模型评估根据混淆矩阵,可计算相应指标来评估分类结果(或预测结果)的准确性预测结果的灵敏度(sensitivity)或真阳率(true

positive

rate):𝑇𝑃𝑇𝑃𝑅=𝑇𝑃+

𝐹𝑁(12)𝐹𝑃𝑅=1

−=𝑇𝑁 𝐹𝑃𝐹𝑃+𝑇𝑁

𝐹𝑃+𝑇𝑁(13)预测结果的假阳率(false

positive

rate):二分类多元

Logistic

/

Probit

回归模型评估接收器工作特征曲线(Receiveroperatingcharacteristic

curve

,ROC曲线),该曲线越靠近坐标系的左上角则说明该模型的预测准确率越高。ROC曲线下方的面积被定义为AUC(area

under

the

curve),该面积越大,模型的预测能力越强。多类别Logistic模型如果响应变量的取值大于两类时,可以使用多类别Logistic模型多类别的响应变量分为两种:名义响应变量(nominal

response)和定序响应变量(ordinal

response)定序响应变量则代表了种类之间的某种大小顺序名义响应变量的种类之间在逻辑上具有平行关系基线Logistic模型定序Logistic模型多类别Logistic模型𝜋1𝑙𝑛

𝜋𝑚=𝛽1,1+𝛽2,1𝑥2+𝛽3,1𝑥3+⋯+

𝛽𝐾,1𝑥𝐾𝜋2𝑙𝑛

𝜋𝑚=𝛽1,2+𝛽2,2𝑥2+𝛽3,2𝑥3+⋯+

𝛽𝐾,2𝑥𝐾𝑙𝑛𝜋𝑚−1𝜋𝑚⋮=𝛽1,𝑚−1+𝛽2,𝑚−1𝑥2+⋯+

𝛽𝐾,𝑚−1𝑥𝐾(14)基线Logistic模型名义响应变量采用基线(baseline-category)Logistic回归模型假设响应变量的种类空间为𝐽

=

{𝑗1,

,

𝑗𝑚}

,且服从概率空间为Π

=

{𝜋1,

,

𝜋𝑚}的多项分布,其中𝜋1

+𝜋2

+⋯

+

𝜋𝑚=1不失一般性,选定最后一个种类𝑗𝑚作为基准(或参照类别)回归模型由下列𝑚−1个方程表示多类别Logistic模型𝛽𝑘,1

𝛽𝑘,2表示在其他特征变量不变的情况下,𝑥𝑘变化一单位对关于𝑗1和𝑗2的对数几率(或理解为对数相对风险)的边际影响𝜋2𝑙𝑛

𝜋1

= 𝛽1,1−

𝛽1,2+

+ 𝛽𝐾,1−

𝛽 𝑥𝐾,2

𝐾(15)基线Logistic模型名义响应变量采用基线(baseline-category)Logistic回归模型多类别Logistic模型定序Logistic模型定序响应变量在金融领域中十分常见穆迪投资服务有限公司通常把长期债券的风险分为Aaa、Aa、A、Baa、Ba、B、Caa、Ca和C九个等级美国P2P借贷平台Lending

Club将借款人的信用分为A1~A5、B1~B5……和E1~E5共25个级别响应变量种类之间存在某种逻辑上的大小关系或顺序关系定序Logistic模型(累积比数模型)多类别Logistic模型𝑙𝑛=𝛽1,1+𝛽2𝑥2+𝛽3𝑥3+⋯+

𝛽𝐾𝑥𝐾𝑙𝑛𝜋11−

𝜋1𝜋21−

𝜋2=𝛽1,2+𝛽2𝑥2+𝛽3𝑥3+⋯+

𝛽𝐾𝑥𝐾⋮𝑙𝑛𝜋𝑚−11−

𝜋𝑚−1=𝛽1,𝑚−1+𝛽2𝑥2+𝛽3𝑥3+⋯+

𝛽𝐾𝑥𝐾(16)定序Logistic模型假设响变量的种类可以按某种顺序排列,取值空间记为𝐽

=

{𝑗1,

,

𝑗𝑚}且满足𝑗1

<

𝑗2<⋯<

𝑗𝑚定义响应变量的概率空间为Π

=

{𝜋1,

,

𝜋𝑚}

,其中𝜋ℎ

P

𝑦𝑖

𝑗ℎ

𝑿回归模型由下列𝑚−1个方程表示多类别Logistic模型定序Logistic模型定序Logistic回归模型依赖于一个很强的“均等斜率”假设在现实问题中,该假设不一定满足,使用应尽量谨慎,或使用其他替代方法对定序响应变量进行建模第一类替代方法有:单独估计每一个二分类的Logistic回归模型;或者直接忽略响应变量的定序特征,采取基线Logistic回归模型第二类较为前沿的替代方法有:偏比例几率模型、连续比例模型和相邻类别模型等回归类分析方法在金融领域的运用04案例1:个人违约风险评估不论传统商业银行业还是现代互联网金融企业,借款人违约行为作为一种信用风险被受关注。多年来,学界和业界都在为准确预测这种风险而努力,试图减小其带来的巨大损失。基于此背景,案例一希望通过借款人的某些特征变量,来预测他们的违约行为,进而对其违约风险进行评估。案例1:个人违约风险评估1、数据简介与描述性统计数据来源:美国网络借贷平台Lending

Club,横截面数据,样本量39万余响应变量y为借款人的违约情况(“ChargedOff”

表示已违约,“Fully

Paid”表示未违约)案例1:个人违约风险评估1、数据简介与描述性统计9个特征变量变量名称内容单位gradeLending

Club平台给出的信用评级(分为A~G七个等级),A表示信用极好,G表示信用极差。—loan_amnt借款人申请的借款数量美元term贷款期限(分为36个月和60个月)—home_ownership借款人住房情况(分为3类)—annual_inc借款人年收入美元dti债务收入比

=

月债务总额/月收入%delinq_2yrs借款人过去两年内的违约次数次inq_last_6mths借款人过去六个月被信用调查的次数次total_acc借款人总账户数个案例1:个人违约风险评估1、数据简介与描述性统计已违约(观测数:66510)未违约(观测数:325237)均值标准差均值标准差loan_amnt15731.78374.00114397.448247.615annual_inc68735.3550832.3575911.3954839.61dti19.067.8817.157.75delinq_2yrs0.320.860.290.81inq_last_6mths0.911.100.761.02total_acc25.2811.6725.4211.55已违约的借款人个体往往会申请更多借款具有更低的年收入、更高的债务收入比他们两年内违约的次数要比未违约的借款人更多六个月内接受信用调查的次数也要更多案例1:个人违约风险评估1、数据简介与描述性统计信用评级指标分组分布图(左:已违约样本;右:未违约样本)案例1:个人违约风险评估变量名称模型1:Logistic模型2:Probitdti-0.0164***-0.0095***(0.001)(0.000)delinq_2yrs-0.0278***-0.0159***(0.006)(0.003)inq_last_6mths-0.0652***-0.037***(0.005)(0.003)total_acc0.0016***0.001***(0.000)(0.000)伪R20.077200.07699对数似然值-131570-1316002、基于训练集的回归模型结果由于本案例中的响应变量为定性二分类变量,首先应考虑采用二分类多元

Logistic/

Probit

回归模型进行建模训练该模型中,已违约样本的响应变量为0未违约样本的响应变量为1因此从回归结果中可以看出负债收入比越高两年内违约次数越多六个月内接受信用调查越多账户数量越少的个体其违约的可能性越大案例1:个人违约风险评估3、样本外预测能力评估与样本分类非平衡问题ROC曲线几乎紧贴45度线,说明之前构造的Logistic回归模型并不具有很好的预测能力现这种情况的原因主要在于响应变量具有非平衡的分类。描述性统计显示,已违约样本有6万多个,未违约的样本量超过了30万即使模型把预测集上的样本全部预测为未违约样本其平均预测准确率也约等于30/36

=

5/6而Logistic模型本身的预测能力可能无法达到该数值案例1:个人违约风险评估3、样本外预测能力评估与样本分类非平衡问题为了解决这个问题,本案例将删除部分未违约样本,使得分类变得较为平衡调整后的样本中,已违约和未违约的个体均大约有2700个左右再次将该样本分为训练集和预测集,并在训练集上进行建模在预测集上进行样本外预测ROC曲线如左图(AUC=0.57)案例2:原油价格预测原油价格是影响国际宏观经济运行的重要指标之一。对原油价格的预测也逐渐成为了众多经济学家和政策制定者所关注的对象。案例二希望通过找到合适的特征变量,构建相应的回归模型以预测原油价格。1.数据简介与描述性统计数据:时间序列数据(月度数据),样本量从1987年1月至2021年10月(共418个观测样本)响应变量为美国西德克萨斯中质原油(WTI)的时点价格,取自美国能源信息部门(EIA),时间趋势图如下:案例2:原油价格预测1.数据简介与描述性统计案例2:原油价格预测1.数据简介与描述性统计变量名称内容单位TBR美国三个月国库券当期利率%LTY美国十年期政府债券当期利率%IF美国通货膨胀率(由城市居民CPI计算得到)%EPU美国经济政策不确定性指数—KI全球实体经济活动Kilian指数—GOP美国原油生产增长率%GOS美国原油储蓄增长率%GOI美国原油进口增长率%MS美国货币供应量M2十亿美元UR美国失业率%CU美国产能利用率%MA移动平均策略指标布尔值MOM动量策略指标布尔值特征变量X共包含45个,其中宏观经济指标33个,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论