CFA考试:投资分析的数量方法(投资工具)_第1页
CFA考试:投资分析的数量方法(投资工具)_第2页
CFA考试:投资分析的数量方法(投资工具)_第3页
CFA考试:投资分析的数量方法(投资工具)_第4页
CFA考试:投资分析的数量方法(投资工具)_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、. 学时 投资分析的数量方法Quantitative Methods for Investment Analysis 投资工具PAGE :.;PAGE 63第五章:正态概率分布Chapter Common Probability Distributions本章简介IntroductionP226本章的内容,是四种概率分布及它们的运用,即: the uniform; the binomial; the normal; the lognormal。本章的其他数量工具: Hypothesis testing; regression analysis;time-series analysis。不延续的

2、随机变量Discrete Random VariablesP227 定义和解释概率分布Probability Distributions概率分布Probability Distributions,即将随机变量能够结果的概率予以特定。每个随机变量都有描画它的概率分布,概率分布的方式有两种: 概率函数probability functions。 累积分布函数cumulative distribution functionsdistribution functionscdf 区别:延续的随机变量和不延续discrete的随机变量随机变量,是一个未来结果不确定的数。随即变量有两种类型:不延续的随机变量

3、discrete random variable、延续的随机变量continuous random variable。变量的结果能予以历数个数有限的随机变量,为不延续的随机变量。 描画某特定变量能够结果的集合 定义一个概率函数Probability function并阐明它的关键特征概率函数的表示方法是:PX x,它表示随机变量的值为x的概率。不延续随机变量的概率函数,可以缩写为px;延续随机变量的概率函数用fx表示,称之为概率密度函数Probability density functionsdensitypdf。概率函数有两个关键特征: 0px1; 随机变量X一切值的概率的总和等于1。 定义

4、概率密度函数Probability density function 定义累积分布函数cumulative distribution function并根据累积分布函数计算随机变量的概率累积分布函数cumulative distribution functionsdistribution functionscdf,表示随机变量的结果位于某一范围的概率。cdf函数的功能相当于累积相对频率。延续的或不延续的随机变量的结果的累积概率分布,可以记作FX PXx,或FX Px1Xx 2,或FXPXx。累积概率函数cdf函数的特征: 0Fx1; 随着x的添加,cdf函数或添加或坚持不变。不延续的单项分布T

5、he Discrete Uniform DistributionP228 给定不延续的单项分布a discrete uniform distribution,定义不延续的单一随机变量并计算概率单项分布Uniform Distribution,即随机变量一切能够结果的概率都相等。单项分布的运用: 它是为其它概率分布产生随机数以作为随机察看对象random observation的根底; 它可以用来描画结果概率相等的随机变量。贝诺里分布The binomial DistributionP230 给定贝诺里概率分布binomial Probability Distributions,定义贝氏随机变量

6、Bernoulli Random variable并计算概率 贝诺里Binomial分布的功能贝诺里Binomial分布的功能:描画有两项能够结果的随机变量的每一项结果的概率分布。其模型是:两项选择的价钱模型the binomial Option Pricing Model,BOPM,即价钱的上升或价钱的下降。 贝氏随机变量Bernoulli Random variable贝诺里分布的建构元素是贝氏随机变量Bernoulli Random variable。假定某个能反复进展的实验有两个能够的结果,每次实验产生的结果必为其一,这样的实验称为贝诺里实验Bernoulli trial。在结果为胜利

7、时,那么Y1;在结果为失败时,那么Y0,那么贝氏随机变量Y的概率函数为:p1 pY1 pp0 pY0 1 p 贝诺里随机变量binomial Random variable对n个贝诺里实验,有0n个“胜利。假设单个贝诺里实验的结果是随机的,那么n个贝诺里实验的结果为“胜利的总数也是随机的。定义贝诺里随机变量X为n个贝诺里实验中结果为胜利的总数。用“Yi表示第i个贝诺里实验的结果为“1或“0i 1,2,n,那么:X Y 1Y 2 Y n 。贝诺里随机变量由参数p和n定义。p即每次实验结果为“胜利的概率;n贝诺里实验的次数。对贝诺里分布,可作有如下假设: 对一切贝诺里实验,结果为“胜利的概率是一个

8、常数; 贝诺里实验相互独立。因此,贝诺里随机变量X可以完全用两个参数描画,即X Bn,p。贝氏随机变量Y是n 1的贝诺里随机变量的值,即:Y B1,p。 贝诺里随机变量X Bn,p的概率函数PX = x的表示公式:px PXxnC xp x1 pn x nC x n!x!nx! X是贝诺里随机变量,表示n个贝诺里实验中的“胜利的总数;Xx,是这n个贝诺里实验中胜利的总数等于x。 px和PX x,表示n个贝诺里实验中,胜利的总数等于x的概率。 nC x是在n个贝诺里实验中有x个胜利的陈列方式的数目。 p,是单个贝诺里实验的结果为胜利的概率;1p,是单个贝诺里实验的结果为不胜利的概率。 p x1

9、pn x,是每一个陈列都具有的概率。 贝诺里随机变量概率函数的外形当单个贝诺里实验的结果为胜利的概率p50%时,贝诺里分布式对称的。假设p50%,那么贝诺里随机变量概率函数的图像就具有偏向性。 当p 50% 时,概率函数的会向右偏right-skewed,即图像的右部有较长的尾巴; 当p 50% 时,概率函数的会向左偏left-skewed。对同一贝诺里随机变量有p1、p2,假设p1p2 1,那么它们的图像呈镜像对称。 贝诺里随机变量bernoulli Random variable的预期值和方差贝诺里随机变量bernoulli Random variable的预期值和方差Meanweight

10、ed averageVarianceBinomial,B1,ppp1pBinomial,Bn,pnpnp1pBinomial,B5,0.52.5即5p1.25即5p1pBinomial,B5,0.10.5即5p0.45即5p1p延续的随机变量分布Continuous Random VariablesP240 给定延续的单项分布a continuous uniform distribution,定义延续的单项随机变量并计算概率延续的单一分布Continuous Uniform Distribution 延续的单项随机变量的概率密度函数pdf: 1ba axbfx 0 其他值 延续的单项随机变量的

11、累积概率函数cdf: 0 xaFx= xaba a x b 1 xb 计算概率密度函数fx在定义域axb上的面积即累积概率值的数学方法是,对函数fx从a到b积分integral,即:Paxbab fxdx可以用上述等式对,范围内的恣意两个实数求积分。由于延续随机变量的值是无限的,所以,延续随机变量的值等于任一定点的概率为0。这对计算延续随机变量的累积概率函数cdf有重要意义:对任何延续的随机变量X,有Paxb Pa xb Pax b Pa xb。当axb 时,fx1/ba表示的是延续随机变量在区间axb的平均概率。正态分布The Normal DistributionP243 解释正态分布的关

12、键特征 描画正态分布的两个参数:平均值Mean和方差 2或规范差。正态分布可以表示为:X N , 2。 正态分布的下述参数值:偏向性skewness0;峰度kurtosis3,剩余峰度excess kurtosis 0。正态随机变量的平均值mean、中值median、众数mode都相等。 两个正态随机变量的线性叠加linear combination,还是正态分布。 区别:单变量univariance分布和多变量分布multivariance单变量分布univariate distribution,描画单个的随机变量;多变量分布multivariate distribution,描画的是一组随

13、机变量的概率。当我们有一组资产时,我们可以将每一项资产的收益分布分别模型化,也可以将这些资产作为一组as a group来将它们的收益分布模型化。作为一组,即思索收益系列之间的统计关系,其中经常运用的模型就是多变量的正态分布multivariate normal distribution。n种证券的收益的多变量正态分布,可以用三个参数予以定义: 单个证券收益的平均值mean的清单; 证券收益方差的清单; 收益的一切互不一样的相关系数correlations的清单,共nn-1/2个。与单变量正态分布相比较,相关系数correlations是多变量的正态分布的区别特征之一。 解释相关系数在多变量正

14、态分布中的作用 定义规范正态分布standards normal distribution并解释如何使随机变量规范化 正态分布的概率密度函数pdf的表达式 x :fx exp x 22 2 2 当 0,1 时,该正态分布称之为规范standard正态分布或单位unit正态分布。对于正态分布,规范差越大,其相对于平均值的分布就越分散。利用规范差,我们可以对任何正态分布的结果的分散性作出概率报告: 大约有50%的察看对象,在区间 23的范围内; 大约有68%的察看对象,在区间 的范围内; 大约有95%的察看对象,在区间 2的范围内; 大约有99%的察看对象,在区间 3的范围内。 随机变量的规范化规

15、范正态随机变量用Z N0 ,1表示。将随机变量 X N , 2规范化的公式:Z X 随机变量Xx 0 对应的规范正态随机变量Z z0 x 0 / 。其意义是:对X N , 2,随机变量的值小于或等于x 0的概率,正好等于规范正态分布Z N0 ,1中随机变量的值小于或等于z0的概率z0 x 0 。即:对X N , 2有PXx 0;对Z N0 ,1有NZz0。当z0 x 0 时,那么PXx 0NZz0。 呈正态分布的随机变量的信置区间confidence intervals 正态随机变量X确实切信置区间confidence intervals: P x1.645s X x1.645s 90%;x也

16、记作为样本平均值;s也记作为样本的规范差。 x和s是店测算point estimates。 P x1.96s X x1.96s 95%; P x2.58 s X x2.58s 99%; 运用规范正态分布standards normal distribution计算概率 规范正态随机变量累积分布函数表Nx的运用。比如查找PZ0.24的值即变量Z的值小于或等于0.24的概率,其步骤:在表的第一纵栏找到0.20,在表的第一横栏找到0.04,两者对应的值即为要找的概率。【例】 PZ 1.282 90% ,它表示有10%的值在图像的右边尾部,并且,P x1.282s X x1. 282s 80%。 PZ

17、1.645 95%,它表示有5 %的值在图像的右尾部,或有10 %的值在90%的自信心区间之外即左右两边尾部各有5 %的值在90%的自信心区间之外。 了解以下关系,有助于我们运用累积分布函数Nx表: 当x0时,x右边的分布概率PZx1.0 Nx; 对负数x,有:Nx= 1.0 Nx。由于:x右边的分布概率和面积,等于x左边的分布概率和面积,即:PZx Nx或PZx。正态分布的运用Application of the Normal Distribution 平均值方差分析法 平均值方差分析法mean-variance analysis平均值方差分析法,将整体的收益分布概括为平均值和方均差,进而对

18、投资决策进展评价。 将新资产参与到投资组合中,为了实现获利须满足: ER newR f new CorrR new,R p ER pR f p即:新资产的“夏普比,要大于投资组合p的“夏普比与新资产和投资组合P的相关系数的乘积。 马克维茨决策规那么Markowitz decision rule。对于资产A和B,投资者选择A而不选择B,其决策根据是: A的平均收益等于或大于B的平均收益,而A的收益的规范差更小; A的平均收益大于B的平均收益,而A与B收益的规范差相等。 定义亏空风险shortfall risk亏空风险shortfall risk,即在某段时间投资组合的价值会下降到可以接受的最低程

19、度以下。如:某个曾经界定收益方案的资产的价值下降到方案的债务之下,即为亏空风险shortfall risk。 计算平安首位比率safety-first ratio并利用罗伊的平安首位规范选择最正确投资组合平安首位规那么Safety-first Rules,作为评价价值下滑风险downside risk的方法,关注的是亏空风险shortfall risk。假定R L 是投资者能接受的最低收益程度。按照Roy的平安首位规范:最优化的投资组合,就是可以使该组合的收益R p下降到临界程度R L以下的概率最小化的投资组合,即:PR p R L为最小值。当投资组合收益是正态分布的,我们运用规范方差能计算出

20、PR p R L。投资组合的期望收益为ER p,那么单位规范差的ER pR L最大时,投资组合的PR p R L最小。ER pR L是平均收益mean return到亏空规范的间隔 。用SFRatio表示平安首位比率safety-first ratio,那么:SFRatio = ER p-R L/ p运用Roy规范,对投资组合进展选择的步骤: 计算投资组合的SFRatio。 根据计算所得的SFRatio值评价规范正态累积分布函数cdf。收益值小于R L的概率就是NSFRatio,即:PR p R LNSFRatio=1NSFRatio。 选择上一步中概率最小的投资组合。SFRatio与“夏普比

21、率的差别在于R L和R f无风险收益。平安首位规那么为“夏普比率提供了一个新的角度:在运用夏普比例评价投资组合时,假定投资组合收益是正态分布的,那么夏普比率高的投资组合,是使投资组合收益小于无风险收益的概率最小的投资组合。 对数正态分布lognormal distribution和正态分布的关系 对数正态分布的概述对随机变量Y,假设它的自然对数Y为正态分布,那么Y为对数正态分布;反之亦然。对对数正态分布,有两点值得留意: 它的下界由0界定; 它偏向右边即它的右边由一个长的尾巴。假定Y是对数正态分布的,那么对数正态分布的两个参数是:Y的平均值和方差或规范差。这样就有两套平均值和规范差或方差:正态

22、分布的平均值和规范差或方差;对数正态分布本身的平均值和规范差或方差。 求对数正态分布本身的平均值和规范差或方差假定正态随机变量X有预期值 和方均差 2。定义:YexpXe x,Y是取对数的逆运算,即YX。X是正态随机变量,而Y是对数正态变量。那么: Y的预期值是exp 0.5 2,即EY exp0.5 2。其缘由:对数正态分布扩展了,它能向上扩展但是不能向下扩展超越零,因此,分布的中心向右边挪动,即添加了平均值。 对数正态分布本身的平均值L和方均差L2的计算公式:L exp 0.5 2L2 exp2 2exp 21 21区别:收益的延续复利和不延续复利 股票收益分布和股票价钱的关系假设股票的延

23、续复利收益率continuously compounded return是正态分布的,那么未来的股票价钱必定是对数正态分布的。同样重要地,即使股票的延续复利收益不是正态分布的,由于中心限制实际central limit theorem的作用,股票的价钱也可用对数正态分布来描画。 延续复利收益率与持有期报答率holding period return的关系假定股票价钱的一系列察看对象S0,S1,S2,ST ,是等间距的。如今的股票价钱S0是一个确定的数不是随机变量,而股票的未来价钱却是一个随机变量。价钱比St+1 S t,等于1加上持有期报答率,即:S t+1S t 1R t+1,t 。延续复利

24、收益率,是与持有期报答率R t+1,t相伴随的一个重要概念。延续复利收益用r t+1,t表示,那么根据EAR e rs 1可得EAR effective annual rate即R t+1,t,在期间t到t+1内,两者的关系是:r t+1,t St+1 S t1R t+1,t在期间0到T内T-horizon,延续复利收益率与持有期报答率HPR的关系是:r0, T S T S 0 rT,T1 rT1, T2 r0,1因此,S T S 0 expr 0, T。 独立的同一分布IID,independently and identically独立的同一分布含义。 独立,指投资者不能根据过去的收益预测

25、未来的收益; 同一就是假定静止。假定单个期间的延续复利收益率rT,T 1,是平均值为、方差为 2的IID随机变量,那么在0到T期间内延续复利收益率r0, T的期望值为:Er0, T ErT,T 1 ErT 1, T-2Er0,1 T 2r0, T 2T 比较S T S 0 expr0, T和Y expX,我们可以将未来股票价钱S T的模型作为对数正态随机变量。由于,r0, T至少应该是近似的正态随机变量。22给定持有期报答率HPR,计算收益的延续复利23解释蒙特卡洛模拟和历史模拟,并阐明它们的运用和局限性 蒙特卡洛模拟的简介蒙特卡洛模拟的要旨,在爬梯之前要做的最后一件事,就是摇动梯子。就像摇动

26、梯子让我们接近爬梯的风险一样,蒙特卡洛模拟让我们在实施一项政策前,对其进展实验。其目的,就是发现对复杂的金融问题的近似处理方法。作为蒙特卡洛模拟整体的一部分,就是经过各种各样的假定,从概率分布中产生大量的随机样本,以模拟各种能够的风险。蒙特卡洛模拟的运用: 在实施一项政策或投资决策前,对其进展实验;评价处于风险中的价值Value at Risk; 对复杂的证券估价; 研讨院用以测试他们的模型和投资工具。 蒙特卡洛模拟的步骤。 根据根底变量,明确规定感兴趣的问题的数量Specify the quantities of interest in terms of underlying variabl

27、e。 明确规定时间坐标Specify a time grid。 对产生前在变量的风险要素,明确规定其分布假说Specify distributional assumptions for the risk factors that drive the underlying variables。 运用计算机程序或空白表格spreadsheet函数,产生每一个风险要素的随机值。 运用上一步产生的随机察看对象,计算根底变量。 计算感兴趣的问题的数量。 前往到第4步重新操作,直到实验的详尽数据完成。 蒙特卡洛模拟,是分析方法的补充。它只提供统计数据,而不能提供准确的结果,而分析方法提供了更深化的因果关系

28、。 历史模拟historic simulation,or back simulation,从历史纪录中取样来模拟一个过程。第六章:取样和评价Chapter Sampling and Estimation本章简介Introduction本章的主题:是如何取样?以及如何利用样本信息估算群体参数?取样的中心是中心限制实际和估算central limit theorem and estimation。取样Sampling 定义样本随机取样simple random sampling样本simple随机取样,即群体中的一切元素入选的概率都相等。两种随机取样的方法:简单的随机取样simple random

29、 sampling和分层次的随机取样stratified random sampling。两类数据:横截数据cross-sectional date和时间系列数据time-series date。 定义并解释取样误差sampling error取样误差,即统计察看到的值和统计要估算的量之间的差。 定义取样分布sampling distribution一个统计的取样分布sampling distribution,是我们从同一群体中随机抽取规模一样的样本、并对样本进展统计计算,而得出的一切相互区别的能够值的分布。 区别:简单的随机取样和分层的随机取样stratified random sampli

30、ng简单的随机取样simple random sampling,即样本的获得是恣意的,群体中的每一个元素,都有同等的时机被选中。分层次的随机取样stratified random sampling,即根据一个或多个分类规范,将群体进一步分为亚群体sub populationstrata。然后按每一层亚群体的相对规模,按比例地抽取简单的随机样本,并将这些样本集中起来。 时间系列time-series数据和横向cross-sectional数据 时间系列数据,是时间间隔相等地、不延续地搜集到的一系列数据。横截数据,是在某一时间点上的个体、团体、地域或公司的特征的数据。样本平均值的分布Distrib

31、ution of the sample mean 阐明中心极限定律central limit theorem并阐明它的重要性假定任一概率分布描画的群体有平均值 和限定的方差2,当我们从群体中抽取规模为n的样本以计算样本平均值x时,假设n足够大n 30,那么可得: 样本平均值x的取样分布是近似的正态分布; 该取样分布的样本平均值x ,方差2x 2n 。中心极限实际: 能估计群体的平均值; 样本统计的规范差,就是统计的规范误差Standard Error of Statistic; 可以建构自信心区间和测试假定。 计算和解释样本平均值的规范差standards error样本平均值的规范差s xS

32、tandard Error of Statistic的定义。样本统计的规范差Standard deviation,就是统计的规范差Standard Error。因此,样本平均值x的规范差Standard Error的计算公式有二:x n ;或s x s n 。 ns2 x i x2 n1 i1群体平均值的点估算和区间估算Point and Interval Estimates of the Population Mean 鉴别和描画估算公式的必要特性the desirable properties估算公式Estimatorsestimation formulas和估算值estimate。估算值

33、是我们运用估算公式对样本察看对象进展计算所得出的特定值。估算值和估算公式的区别:从群体中抽取不同的样本进展反复的抽样统计时,估算公式会产生不同的结果即估算值。 公正性unbiasedness。一个公正的估算公式,就是它的预期值即取样分布的平均值正好等于它要评价的参数。 有效性efficiency。假设某个公正的估算公式是有效的,那么除了该公式外,再没有另外一个公正的估算公式,就同样的参数得出具有更小方差的取样分布。 一致性consistency。假设估算公式具有一致性,那么随着取样规模的增大,准确的估算值接近群体参数值的估算值的概率也会添加。即随着取样规模无限扩展,估算值的取样分布越来越集中于

34、我们要估算的参数的值。这三个特征,也是选择估算公式的三个规范。 区别群体参数的点估算a point estimate和信置区间估算a confidence interval estimate对平均值或其他参数的关注,集中于两个问题: 假定测试。它针对的问题是“参数值是等于某个特定值吗? 估算estimation。它针对的问题是“参数的值是什么?估算包括:点估算a Point Estimates和信置区间估算。 点估算a Point Estimates按照样本平均值计算而得的群体参数的单个估算值,称之为平均值的点估算。 群体平均值的自信心区间Confidence Intervals for th

35、e Population Mean 信置区间的定义信置区间,即我们可以以给定的概率1信置度一定该区间包括了它要测算的参数。这个区间称为该参数的1 信置区间。信置区间对参数给出概率解释或实际解释。 按照概率解释,例如群体平均值95%的信置区间表示,在反复取样中,在长久上,有95%的这样信置区间将包括群体平均值。 按实际解释,我们有95%的自信心一定单个该区间95%的信置区间即可以包括群体平均值。 信置区间的建构Construction of Confidence Intervals参数的1% 信置区间的构造:点估算值 信任要素 规范误差Point estimate Reliability fac

36、tor Standard error。点估算值Point estimate,即一个样本统计的值;信任要素Reliability factor,是以点估算值的假定分布和信置度1为根据的一个数据;规范误差Standard error,是提供点估算值的样本统计的规范误差。 描画t- 分布的特征Students t- distribution t分布t -Distribution,是由单一参数即自在度dfdegrees of freedom定义的一个对称的概率分布。 t分布与正态分布的比较。假定我们从一个正态分布中取样,那么比率zx n,是一个规范的正态分布平均值为0,规范差为1;比率t xsn,那么

37、是t分布平均值为0,自在度为n1。这个用t表示的比率,不是正态分布,由于它是两个随机变量样本的平均值和规范差的比,而规范正态分布的定义只需一个随机变量x。然而,随着自在度的添加,t分布接近于规范正态分布分布越锋利、尾巴越瘦。 计算和解释自在度degrees of freedom自在度的概念。对P40计算样本规范差s的公式,分母上的项n1就是运用该等式估算群体规范差的自在度数字。运用“自在度术语其缘由为:在随机样本中,我们假定察看对象的选取是互不依赖的。假定计算有n个互不依赖的察看对象的样本的平均值,那么只需n1个察看对象是可以独立地选择的。n1也经常被作为根据t分布tDistribution确

38、定信任要素的自在度。 对群体方差知或未知的正态分布,计算和解释群体平均值的信置区间 方差知的呈正态分布的群体的平均值的信置区间从方差为2的正态群体分布中取样,那么群体平均值的1% 信置区间为:x z / 2 n规范正态分布Z0,1信置区间的信任要素Reliability Factors信置区间z / 2= 0.190%的信置区间Z 0. 05 = 1.645= 0.0595%的信置区间Z 0. 025= 1.96= 0.0199%的信置区间Z 0. 005 =2.575随着信置度的添加,信置区间越来越宽,对我们要估算的数据能给出的信息就越不准确。 方差未知的群体的平均值的信置区间的求解 方法一

39、:z交换法the zAlternative从方差未知的任何分布的群体中取样,当取样规模较大时,那么群体平均值的1% 自信心区间为:x z / 2 S n 方法二:t分布法tDistribution假设从一个方差未知的群体中取样,并且满足以下两个条件中的任一条件的,即: 样本较大; 样本较小但是群体呈正态分布或近似的正态分布。那么群体平均值的自信心区间可以表示为:x t/ 2 S n计算信任要素Reliability Factors的根据取样的群体样本规模较小的统计样本规模较大的统计方差知的正态分布zz方差未知的正态分布tt或z方差知的非正态分布Not availablez方差未知的非正态分布N

40、ot availablet或z 从任何类型的分布中抽取大量的样本,在群体方差未知时,计算和解释群体平均值的信置区间 对选择适当样本规模的问题进展讨论 讨论数据发掘偏见date-mining bias数据窥探偏见Date-snooping,即以刺探他人阅历性结果来引导本人的分析而得出推论所产生的偏见。防止方法:检验新数据,以防止过分依托过去的研讨,来解释发现和得出结论。数据发掘偏见Date-mining bias,指反复的研讨同一数据,直至有所发现。数据发掘偏见的四点迹象:对数据发掘太多而又缺乏自信心Too much diggingToo little confidence;没有过去也没有未来N

41、o story No future。防止的方法是在样本数据之外测试买卖规那么。 讨论样本选取偏见、现存关系偏见、超前偏见、时间期间偏见。 样本选择偏见Sample selection bias,即由于数据可获得性的缘由,而将某项资产排除在分析之外,由此产生的问题为样本选择偏见。 现存关系偏见survivorship bias。假设测试设计没有思索到曾经封锁、被兼并或因其他缘由分开了数据库的公司的账户,那么属于现存关系偏见。 超前偏见look-ahead bias。假设一项测试设计在测试数据上运用了不能获得的信息,那么会产生超前偏见。 时间期间偏见time-period bias。假设作为测试设

42、计根据的时间期间,使结果在时间期间上特定化,属于时间期间偏见。要留意对取样期间长度的选择。第七章:假定测试Chapter Hypothesis Testing假定测试Hypothesis Testing 定义假定并描画假定测试的步骤假定,即对群体的阐明。假定测试的步骤Steps in the Hypothesis Testing: 提出假定stating the hypothesis; 确定测试统计和它的概率分布Identifying the test statistic and its probability distribution; 有效度的特定化Specifying the signi

43、ficance level; 声明决议规那么Stating the decision rule; 搜集数据和进展计算Collecting the date and calculating the test statistic; 做出统计结论make statistical decision; 做出经济或投资结论make the economic investment decision。上述第、步是假定测试的传统方法,可以用p值pvalue方法来替代这些步骤。 定义和解释零假定null hypothesis和替代假定alternative hypothesis假定的类型有两种: 零假定the n

44、ull hypotheses,用H 0表示; 替代假定the alternative hypotheses,用H a表示。零假定:除非用以进展假定测试的样本有证听阐明零假定是错误的,否那么该假定就被以为是正确。假设有证听阐明零假定是错误的,那么将导致替代假定。替代假定,即零假定不成立时的假定。 单边one-tailed假定测试和双边two-tailed假定测试 假定公式。假定某一群体有参数为,0 为该参数的一个值,对于两者的关系可以经过以下三种方式构成零假定和替代假定: H 0 :0 对 H a :0 不等于替代假定 H 0 :0 对 H a :0 大于替代假定 H 0 :0 对 H a :0

45、 小于替代假定 公式是双边two-sidetwo-tailed假定测试;公式与,是单边one-sideone-tailed假定测试。 讨论零假定和替代假定的选择最常用的是“不等于not equal to替代假定,即公式。假设有证听阐明参数能够大于0或小于0,那么我们可以否认零假定。然而,我们有时要为我们“疑心的suspected或“希望的hoped for情形寻觅支持证据。在此情形,我们可以将替代假定定义为“该情形是真的,而将零假定定义为“情形的非真。假设证据支持对零假定的否认并接受替代假定,那么我们在统计上可以一定地以为我们的想法是正确的。留意:“大于和“小于替代测试,比“不等于替代测试更剧

46、烈地反映了研讨者确实信。为了强调态度的中立性,在有些时候即使单边的替代测试试合理的,研讨者也会选择“不等于替代测试。 定义和解释测试统计a test statistic测试统计Test Statistic的定义,是根据样本计算得出的数据,它的值是决议支持或反对零假定的根据。普通地,测试假定有如下公式:测试统计 0s x为样本统计;0为H 0下群体参数的值0;s x为样本统计的规范误差standard error。对公式的阐明:其他条件不变时,s x 越小,那么测试统计越大,否认零假定的概率就越大。而且,取样规模n越大,那么s x 越小。测试零假定的测试统计,遵照的概率分布有四种类型: t分布对

47、t测试; z分布,即规范正态分布对z测试; 卡方分布,即the chi-squarex2distribution对卡方的测试; F分布对F测试。 定义和解释误差类别及误差类别type error 解释有效度a significance level并阐明有效度在假定测试中的运用测试统计计算出来后,有两种能够的行为,即:否认或不否认零假定。我们行为的根据是将计算出来的测试统计和特定的能够值进展比较。我们选择的比较值,是以选取的有效度the level of significance为根据的。有效度相当于证明规范,它反映了为反对零假定所必要的样本证据。测试零假定时,存在四种能够的结果: 否认错误的零

48、假定,这是正确行为; 否认正确的零假定,这属于类型错误; 不否认错误的零假定,这属于类型错误; 不否认正确的零假定,这是正确行为。否认H 0,只能犯类型的错误;不否认H 0,只能犯类型的错误。我们用表示犯类型I的错误的概率,这个概率就是有效度the level of significance;用犯类型II的错误的概率。控制两种类型错误的概率涉及到此消彼长trade-off。假定其他量不变,减小那么会添加;减小那么会添加。同时减小两种类型错误的概率的独一方法,就是添加样本的规模。在实际中,通常不能对两种类型的错误的此消彼出息展定量的分析,由于,类型II错误的概率很难定量化。通常,我们只能将特定化

49、。 定义测试才干the power of a test假设测试的有效度是不正确地否认零假定的概率,那么测试才干the power of a test,就是正确地否认零假定的概率,即正确地否认错误的零假定的概率。某些情况,不止一个测试统计可以适用于假定测试。假设我们知道这些测试统计的相对测试才干,那么在决议运用的测试统计时应选择测试才干最强的统计。为了保证测试的公正性,我们应该在计算测试统计之前确定有效度。在进展假定测试时,通常有三个有效度,即: 0.10、 0.05、 0.10。越小,证明零假定是错误的证据就越强。 定义和解释结论规那么a decision rule通常的原那么可以简述为:在测

50、试零假定时,对于由特定的有效度所决议的给定值,我们将计算所得的测试统计的值与之进展比较,假设我们发现两者同样极端,或者后者比前者更极端,那么我们应该否认零假定。假设结果能否认零假定,那么可以说该结果在统计上有效;否那么,我们只能说该结果在统计上无效。否认点或临界值rejection pointscritical values的定义。测试统计的否认点,就是为了决议否认或不否认零假定,而与计算所得的测试统计值相对比的值。对于单边测试,反对点的表示方法是,测试统计的符号如z、t、F等和阐明错误类型I的特定概率的下标如反对点Z;对于双边测试,反对点的表示方法是Z/2。【例】 否认点的运用以z测试为例,

51、选取0.05为有效度 对于测试H 0 :0 versus H a :0 该测试为有效度是0.05的双边测试,每一个尾巴的零假定测试统计分布,应为0.025的概率。该测试存在正负两个反对点,即:z 0。0 2 5 1.96和-z 0。0 2 5 1.96。假设z表示计算所得的测试统计值,那么当z -1.96或z1.96时,那么应该否认零假定。 对于测试H 0 :0 versus H a :0,反对点是z 0。0 5 1.645。假设z1.645,那么应该否认零假定。 对于测试H 0 :0 versus H a :0,反对点是z 0。0 5 = 1.645。假设z1.645,那么应该反对零假定。

52、解释自信心区间和假定测试的关系两者的关系:对于测试H 0 :0 versus H a :0,零假定条件下,当群体参数的假定值在相应的自信心区间之外时,那么零假定就应该被否认。如:对 0.05的z测试两边测试,当01.96s x或01.96s x时Z2 1.96,那么零假定就应该被否认。平均值为的群体的95%的自信心区间是x1.96s x 。 区分:统计结论statistical decision和经济结论economic decision我们应该留意假定值的统计上有效与经济上有效区别:在统计上有效,不一定在经济上有效。由于要思索到买卖本钱、税收和风险。经济结论不仅要思索统计结论,还要思索到一切

53、有关的经济问题。P值p-value的定义,就是指否认零假定的最低有效度。假设P值小于特定的有效度,零假定就应该遭到否认;否那么,零假定就不应该遭到否认。P值越小,否认零假定和有利于替代假定的证据就越剧烈。与反对点方法相比,P值提供了更准确的有关证据强度的信息。有关平均值的测试Hypothesis Tests Concerning the Mean内容:第一部分,是有关单个群体的平均值能否与假定值相等的测试;第二、三部分针对的问题是:两个样本平均值之间的差分别针对相互独立的样本和不相互独立的样本。 对于方差知或未知的正态分布群体,进展群体平均值的假定测试时,能确定适当的测试统计并能解释其结果单个

54、平均值的测试 t测试有关潜在underlying或群体平均值的假定测试,普通运用t测试。t测试,即假定测试运用的统计分布遵守t分布。t分布是由一个参数即自在度df定义的分布。t分布与规范正态分布的关系。 一样点:对称分布;平均值为0。 不同点:规范差大于1;远离平均值的结果的概率更大。 方差未知的群体平均值假定测试的测试统计方差未知的取样群体,假设满足两个条件之一的,那么测试单个群体平均值的假定测试的测试统计为:t n1 x0 s n这两个条件是: 样本的规模较大; 样本的规模较小,但是取样群体是正态分布或近似正态分布的。t n1为有n1个自在度的t统计n为取样规模;x为样本平均值;0为群体平

55、均值的假定值;s为样本的规范差。 方差未知的正态分布群体平均值假定测试的测试统计方差未知的正态分布群体,假设样本规模为n,那么群体平均值1001%的自信心区间为:xt/2sx, xt/2sx。t/2 是自在度为n1时2的概率坚持在右边尾部之内的t的值;t/2 是自在度为n1时2的概率坚持在左边尾部之内的t的值。假设样本规模较大,我们也可以运用z测试。 z测试the z-Test Alternative 果取样群体的方差为2,并且是正态分布,那么对单个群体平均值的假定测试的测试统计为:z x0n 果取样群体的方差未知,并且取样的规模较大,那么根据中心限制定律,有一个替代的测试统计:z x0s n

56、 z测试的否认点Rejection Point of a z-TestLEVEL ()hypothesisrejection pointrejection interval= 0.10H 0 :=0 vs. H a :01.645z-1.645或z1.645H 0 :0 vs. H a :01.28z1.28H 0 :0 vs. H a :0-1.28z-1.28= 0.05H 0 :=0 vs. H a :01.96z-1.96或z1.96H 0 :0 vs. H a :01.645z1.645H 0 :0 vs. H a :0-1.645z-1.645= 0.10H 0 :=0 vs. H

57、 a :02.575z-2.575或z2.575H 0 :0 vs. H a :02.33z2.33H 0 :0 vs. H a :0-2.33z-2.33 有关群体平均值的测试群体方差未知取样的群体样本规模较小样本规模较大正态分布的群体t测试t测试或z测试非正态分布的群体Not availablet测试或z测试有关平均值的差的测试Test Concerning Differences between Means 据相互独立的随机样本,对两个正态分布的群体的平均值能否相等进展假定测试时,在两个样本的方差相等或不相等的情况下,能确定适当的测试统计并能解释其结果内容简介。前提:取样群体起码是近似的

58、正态分布,并且样本相互独立。内容:讨论测试两个群体平均值的差的两个t测试。两种情形:群体的方差未知但是相等;方均差不相等但可以近似地看作t测试。 假定的构成。用1,2表示两个群体的平均值。那么假定可写成如下方式: H 0 :12 0 对 H a :12 0 ; H 0 :12 0 对 H a :120; H 0 :12 0 对 H a :120 。也可写成其他方式的假定,如:H 0 :122 对 H a :12 2,等。 测试两个群体的平均值之差的测试统计正态分布的两个群体,其方差未知但相等,测试样本为相互独立的随机样本,那么t测试为:tx1 x 212s p2 n1s p2 n 212计算共

59、同方差s p2common variance的结合估算公式Pooled estimator是:s p2 n 1 1s1 2 +n 2 1s2 2 n 1n 22。自在度的数字为n 1n 22。 测试两个群体的平均值之差的测试统计正态分布的两个群体,其方差不等且未知,测试样本为相互独立的随机样本,那么近似的t测试为:t x1 x 212s12 n1s22n 212在运用t分布表时,“修正modified的自在度用下述公式计算:df s12n1s22n 2 2s12 n12 n1s22n 22n 2 关于差的平均值的测试Test Concerning Mean Differences 两个正态分布

60、的群体的差的平均值进展假定测试时即成对比较测试paired comparisons,能确定适当的测试统计并能解释其结果本部分的t测试的根底是,成对的察看对象paired observations组成的数据。测试本身也可以称为成对比较的测试paired comparisons test。假定有察看对象A、B,且样本相互关联。察看对象是成对的,用d ix Ai xBi 表示两个成对的察看对象的差,x Ai和xBi 是第i个成对察看对象。用d 表示群体差的平均值。d0 是群体差的平均值的假定值。那么三种方式的假定为: H 0 :d d0 对 H a :d d0 ;实际中,常令d0 0 H 0 :d

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论