




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二讲基础知识复习一、概率论基础知识二、数理统计基础知识1第二讲基础知识复习一、概率论基础知识1一、概率论基础知识概率随机变量概率密度函数多维随机变量随机变量的数字特征一些重要的概率分布2一、概率论基础知识概率2概率随机试验可以在相同条件下重复进行每次试验的可能结果不止一个,但事先能明确所有的可能结果进行一次试验之前不能确定会出现哪一个结果实例一枚硬币抛掷两次在北京师范大学校园里询问任意一个学生的年龄3概率随机试验3概率样本空间(samplingspace)/总体(population)某一个随机试验的所有可能结果组成的集合,记为S样本点(samplingpoint)样本空间里的某一元素,即随机试验的某一可能结果实例一枚硬币抛掷两次,出现正面记为H,出现反面记为T样本空间:{HH,HT,TH,TT}样本点:HH,HT,TH,TT4概率样本空间(samplingspace)/总体(popu概率事件(event)某一随机试验的样本空间的一个子集实例:一枚硬币抛掷两次事件A:出现两个正面事件B:出现一个正面和一个反面事件C:出现两个反面5概率事件(event)5概率频率(frequency)在相同条件下,某随机试验进行了n次,其中事件A发生了m次,则比值m/n称为事件A发生的频率,记fn(A)实例:抛掷一枚硬币,事件A为出现正面n550500204840401200024000fn(A)0.70.540.4840.51810.50690.50160.5005当n逐渐增大时,频率趋向于某一常数,称为频率稳定性6概率频率(frequency)n55050020484040概率概率(probability)S是某一随机试验的样本空间,对于其中的任意一个事件A赋予一个实数P(A),如果P(A)满足下列三个条件,则称P(A)为事件A的概率。当n趋近于无穷大时,频率fn(A)无限接近于概率P(A),从而用概率来度量事件A在一次试验中发生的可能性7概率概率(probability)当n趋近于无穷大时,频概率条件概率(conditionalprobability)设A、B是两个事件,且P(A)>0,称下式为事件A发生的条件下事件B发生的条件概率:实例一枚硬币抛掷两次,出现正面记为H,出现反面记为T。事件A为“至少有一次H”,事件B为“两次都是同一面”。则事件A的概率为3/4,事件A和B同时发生的概率为1/4,在A发生的条件下B发生的概率为1/38概率条件概率(conditionalprobability随机变量随机变量(stochastic/randomvariable)一个变量若它的值是由随机试验决定的,称其为随机变量。随机变量通常用大写字母X、Y、Z表示,其数值则用小写字母x、y、z表示离散型随机变量(discreterandomvariable)可能取到的值是有限个的随机变量连续型随机变量(continuousrandomvariable)可能取到的值是无限个的随机变量实例离散型随机变量:扔一次骰子出现的点数;未出生婴儿的性别连续型随机变量:人的身高;百米跑速度9随机变量随机变量(stochastic/randomvar概率密度函数离散型变量的概率密度函数/概率分布(probabilitydensityfunction/probabilitydistribution)实例X:投掷两颗骰子出现的点数之和X的PDFX23456789101112f(X)1/362/363/364/365/366/365/364/363/362/361/3610概率密度函数离散型变量的概率密度函数/概率分布X234567概率密度函数连续型变量的累积分布函数(cumulativedistributionfunction)实例枪靶的半径为2米,若每枪都能击中枪靶,且击中靶上任一同心圆内的点的概率与该圆的面积成正比,则弹着点与靶心的距离X是一个连续型随机变量,其CDF为:F(x)x2111概率密度函数连续型变量的累积分布函数(cumulative概率密度函数连续型变量的概率密度函数(PDF)实例在上例中,PDF为:f(x)x1212概率密度函数连续型变量的概率密度函数(PDF)f(x)x12概率密度函数连续型变量的概率密度函数(PDF)f(x)xab13概率密度函数连续型变量的概率密度函数(PDF)f(x)xab多维随机变量多维随机变量多个变量的取值由同一个随机试验决定,称这些变量为多维随机变量。以下我们考虑最简单的二维随机变量,用(X,Y)表示,其数值用(x,y)表示实例离散型二维随机变量:每一位学生的性别和民族连续型二维随机变量:每一位学生的身高和体重14多维随机变量多维随机变量14多维随机变量离散型变量的联合概率密度函数(jointPDF)实例譬如:既是男生又是满族的概率为0.08,既是女生又是回族的概率为0民族汉族满族回族蒙古族性别男0.270.080.160女0.350.1000.0415多维随机变量离散型变量的联合概率密度函数(jointPDF多维随机变量离散型变量的边缘概率密度函数(marginalPDF)实例X(民族)边缘概率汉族满族回族蒙古族Y(性别)男0.270.080.1600.51女0.350.1000.040.49边缘概率0.620.180.160.0416多维随机变量离散型变量的边缘概率密度函数(marginal多维随机变量离散型变量的条件概率密度函数(conditionalPDF)表示在Y=y的条件下X=x的概率譬如:f(满族,女生)=0.10,f(女生)=0.49,f(满族|女生)=0.10/0.49=0.20f(汉族,男生)=0.27,f(男生)=0.51,f(汉族|男生)=0.27/0.51=0.53X(民族)边缘概率汉族满族回族蒙古族Y(性别)男0.270.080.1600.51女0.350.1000.040.49边缘概率0.620.180.160.0417多维随机变量离散型变量的条件概率密度函数(conditio多维随机变量统计独立性(statisticallyindependence)如果两个随机变量的联合PDF等于它们边缘PDF的乘积,则称这两个变量是相互独立的(independent)。两个变量独立意味着其中一个变量的结果不会影响另一个。譬如:f(X=H,Y=H)=f(X=H)*f(Y=H)=1/2*1/2=1/4……实例:抛硬币X(第一次)正面(H)反面(T)Y(第二次)正面(H)1/41/4反面(T)1/41/418多维随机变量统计独立性(statisticallyind多维随机变量连续型变量的联合概率密度函数(jointPDF)连续型变量的边缘概率密度函数(marginalPDF)统计独立性(statisticallyindependence)19多维随机变量连续型变量的联合概率密度函数(jointPD随机变量的数字特征以上讨论了随机变量的概率密度函数PDF和累积分布函数CDF,但在处理实际问题时,往往不需要求出这些函数,而是只需要了解变量的某些特征值。这些特征值包括三类:度量变量分布的集中趋势(centraltendency):数学期望或均值;中位数;众数度量变量分布的离散性(dispersion):方差;标准差度量两个变量的相关性(correlation):协方差;相关系数20随机变量的数字特征以上讨论了随机变量的概率密度函数PDF和累随机变量的数字特征数学期望(expectation)或均值(mean)离散型变量的期望:实例:扔两个骰子的点数之和x23456789101112f(x)1/362/363/364/365/366/365/364/363/362/361/3621随机变量的数字特征数学期望(expectation)或均值(随机变量的数字特征连续型变量的期望:实例:22随机变量的数字特征连续型变量的期望:22随机变量的数字特征期望的性质:23随机变量的数字特征期望的性质:23随机变量的数字特征中位数(median)对于离散型变量,假设所有可能取值的个数为n,把这些数从小到大排列。若n为奇数,位于中央位置的那个数就是中位数;若n为偶数,位于中央位置的那两个数的平均数就是中位数。记为Med(X),中位数所在的位置为(n+1)/2。对于连续型变量,中位数m满足下列条件:x23456789101112f(x)1/362/363/364/365/366/365/364/363/362/361/3624随机变量的数字特征中位数(median)x234567891随机变量的数字特征众数(mode)众数就是随机变量的所有可能取值中出现次数最多的那个随机变量的类型定类变量(nominalvariable):性别;民族定序变量(ordinalvariable):教育水平;收入等级定距变量(intervalvariable):考试成绩;收入水平一般地,不同类型的变量用不同的数学特征表示其集中趋势。定类变量用众数;定序变量用中位数;定距变量用均值或中位数x23456789101112f(x)1/362/363/364/365/366/365/364/363/362/361/3625随机变量的数字特征众数(mode)x234567891011随机变量的数字特征方差(variance)方差被定义为随机变量对其均值的期望距离,用于表示随机变量与其均值的偏离程度。方差较小说明变量的分布比较集中,反之则说明变量的分布很分散方差的性质26随机变量的数字特征方差(variance)26随机变量的数字特征实例:x23456789101112f(x)1/362/363/364/365/366/365/364/363/362/361/3627随机变量的数字特征实例:x23456789101112f(x随机变量的数字特征标准差(standarddeviation)方差的量纲与变量的量纲不同,为此引入与变量具有相同量纲的数字特征——标准差,同样度量变量的离散程度标准差的性质:28随机变量的数字特征标准差(standarddeviatio随机变量的数字特征度量变量离散程度的其他常用指标还有:极差/全距极差率变异系数基尼系数泰尔系数29随机变量的数字特征度量变量离散程度的其他常用指标还有:29随机变量的数字特征协方差(covariance)协方差度量两个随机变量的相关(correlation)程度协方差大于0表示两个变量正相关(positivelycorrelated),即其中一个变量随着另一个变量的增大而增大协方差大于0表示两个变量负相关(negativelycorrelated),即其中一个变量随着另一个变量的增大而减小协方差等于0表示两个变量不相关(uncorrelated)30随机变量的数字特征协方差(covariance)30随机变量的数字特征协方差的性质:31随机变量的数字特征协方差的性质:31随机变量的数字特征相关系数(correlationcoefficient)协方差的大小与度量单位有关,使用不便,因此一般用相关系数来衡量两个变量的相关程度32随机变量的数字特征相关系数(correlationcoef随机变量的数字特征相关与独立(correlation&independence)相关是指两个随机变量之间的线性关联程度,独立是指两个变量之间的一般关联程度若两个变量相互独立,其相关系数一定为0若两个变量的相关系数为0,它们不一定独立33随机变量的数字特征相关与独立(correlation&i随机变量的数字特征条件期望(conditionalexpectation)如果我们可以用变量X解释变量Y,那么一旦我们知道X取某个特定的值x,就能够计算出在X=x的条件下Y的期望值,称为条件期望实例34随机变量的数字特征条件期望(conditionalexpe一些重要的概率分布正态分布(normaldistribution)如果一个随机变量的概率密度函数PDF如下所示,称这个变量服从正态分布35一些重要的概率分布正态分布(normaldistribut一些重要的概率分布标准正态分布(standardnormaldistribution)如果一个服从正态分布的随机变量的均值为0,方差为1,称这个变量服从标准正态分布36一些重要的概率分布标准正态分布(standardnorma一些重要的概率分布37一些重要的概率分布37一些重要的概率分布标准化随机变量(standardizedrandomvariable)38一些重要的概率分布标准化随机变量(standardized一些重要的概率分布统计学书籍和计量经济学书籍一般都附有标准化正态变量的累积分布函数,可以通过转换求解正态变量的概率问题39一些重要的概率分布统计学书籍和计量经济学书籍一般都附有标准化一些重要的概率分布卡方分布n=2n=5n=1040一些重要的概率分布卡方分布n=2n=5n=1040一些重要的概率分布41一些重要的概率分布41一些重要的概率分布t分布(tdistribution)n=120n=5n=2042一些重要的概率分布t分布(tdistribution)一些重要的概率分布43一些重要的概率分布43一些重要的概率分布F分布(Fdistribution)F(2,2)F(10,2)F(50,50)44一些重要的概率分布F分布(Fdistribution)一些重要的概率分布45一些重要的概率分布45二、数理统计基础知识总体与样本参数估计点估计区间估计假设检验置信区间法显著性检验法46二、数理统计基础知识总体与样本46总体与样本总体(population)研究对象的全体,记为X随机样本(randomsample)/样本(sample)在相同条件下对总体X进行n次重复的、独立的观测,每次观测结果都是与X具有相同分布的、相互独立的随机变量,记为X1,
X2,…,Xn,把它们称为来自总体的一个简单随机样本,简称样本,称n为样本容量。当观测完成后,得到一组观测值x1,
x2,…,xn,称为样本值我们感兴趣的实际上是总体,但由于不可能或很难得到总体的信息,只能从中抽取一个样本,根据样本数据来推断总体的性质。这其中包含两类问题:参数估计和假设检验47总体与样本总体(population)47参数估计参数(parameters)与总体有关的数字特征。如总体均值、总体方差等等。参数估计(parameterestimation)根据样本的有关数值来估计总体参数或总体参数的范围点估计区间估计48参数估计参数(parameters)48点估计点估计(pointestimation)估计量是样本的函数,对于不同的样本,参数估计值是不同的。点估计的方法:矩估计法极大似然法最小二乘法49点估计点估计(pointestimation)49点估计矩(moment)矩估计法(methodofmoment)用样本矩作为相应总体矩的估计量,并用样本矩的连续函数作为总体矩连续函数的估计量。通过这种方法得到的估计量称为矩估计量50点估计矩(moment)50点估计矩估计法:实例51点估计矩估计法:实例51点估计极大似然法(methodofmaximumlikelihood)52点估计极大似然法(methodofmaximumlik点估计极大似然法:实例53点估计极大似然法:实例53点估计估计量的评选标准估计量是随机变量,会由于估计方法的不同而不同,那么,如何判断一个估计量的好坏呢?或者说应该选择哪个估计量更好呢?有以下几条标准:针对小样本的标准无偏性有效性针对大样本的标准一致性渐进正态性54点估计估计量的评选标准54点估计无偏性(unbiasedness)实例55点估计无偏性(unbiasedness)555656点估计有效性(efficiency)注意:一个无偏的估计量可能存在很大方差,而一个方差很小的估计量可能是偏离总体均值的,因此有效性综合考虑了估计量的集中趋势和离散性两个特征57点估计有效性(efficiency)57点估计实例:有效性和无偏性58点估计实例:有效性和无偏性58点估计线性估计量(linearestimator)最优线性无偏估计量(bestlinearunbiasedestimator,BLUE)59点估计线性估计量(linearestimator)59点估计一致性(consistence)60点估计一致性(consistence)60点估计概率极限(probabilitylimits)61点估计概率极限(probabilitylimits)61点估计一些重要的估计量:62点估计一些重要的估计量:62点估计实例:为了解中国城市失业率,随机抽取了10座城市,得到如下样本。则我们可以用这10座城市的平均失业率来估计中国城市的平均失业率城市(i)12345678910失业率(xi)5.16.49.24.17.58.32.63.55.87.563点估计实例:为了解中国城市失业率,随机抽取了10座城市,得到点估计渐进正态性(asymptoticnormality)当样本容量无限增大时估计量趋向于正态分布中心极限定理(centrallimittheorem,CLT)定理一(独立同分布的中心极限定理):当样本容量无限增大时,任何总体的随机样本的均值趋近于正态分布。64点估计渐进正态性(asymptoticnormality)点估计中心极限定理定理二:李雅普诺夫(Liapunov)定理65点估计中心极限定理65区间估计对于一个未知参数,除了估计其近似值(点估计)外,还希望知道这个值的精确程度,从而引出区间估计(intervalestimation)问题置信区间(confidenceinterval)66区间估计对于一个未知参数,除了估计其近似值(点估计)外,还希区间估计正态总体均值的区间估计:总体方差已知67区间估计正态总体均值的区间估计:总体方差已知67区间估计实例:总体方差已知时正态总体均值的区间估计68区间估计实例:总体方差已知时正态总体均值的区间估计68区间估计正态总体均值的区间估计:总体方差未知69区间估计正态总体均值的区间估计:总体方差未知69区间估计标准误(standarderror)70区间估计标准误(standarderror)70区间估计正态总体均值的区间估计:95%置信区间的简单法则71区间估计正态总体均值的区间估计:95%置信区间的简单法则71区间估计非正态总体均值的区间估计72区间估计非正态总体均值的区间估计72假设检验假设检验(hypothesistesting)在总体的PDF未知或某些参数未知的情况下,对总体的分布或参数提出某些假设,然后根据样本对提出的假设作出是拒绝还是接受的判断实例:Bush和Kerry竞选总统,Bush获得42%的选票而Kerry获得58%的选票。Bush怀疑大选中有作弊行为,雇佣一个咨询机构随机抽取100个选民调查其选举意愿,发现有53人支持他,47人支持Kerry。由此Bush提出两个假设:H0(虚拟假设/原假设,nullhypothesis):v<=0.42(没有作弊)H1(对立假设/备择假设,alternativehypothesis):v>0.42(有作弊)73假设检验假设检验(hypothesistesting)73假设检验第Ⅰ类错误(typeⅠerror)拒绝了一个真实的虚拟假设第Ⅱ类错误(typeⅡerror)没有拒绝一个错误的虚拟假设理论上我们希望犯两类错误的概率都尽可能小,但事实上不可能同时最小化两类错误。为此,我们首先考虑减少犯第Ⅰ类错误的概率,并规定了一个可容忍的犯第Ⅰ类错误的概率(譬如0.05,0.01),称为显著性水平(levelofsignificance)。在选定了显著性水平之后,再考虑把犯第Ⅱ类错误的概率减到最小。并把不犯第Ⅱ类错误的概率称为检验的功效(powerofthetest)。但一般来说我们不考虑检验的功效。真实情况H0真H0假检验结果拒绝Ⅰ类错误无错不拒绝无错Ⅱ类错误74假设检验第Ⅰ类错误(typeⅠerror)真实情况H0真假设检验假设检验的两种方法置信区间法显著性检验法假设检验的目的不是估计参数,而是对有关参数的假设做出检验,拒绝或不拒绝提出的假设75假设检验假设检验的两种方法75置信区间法
76置信区间法76置信区间法实例:77置信区间法实例:77显著性检验法基本思想78显著性检验法基本思想78显著性检验法拒绝域(regionofrejection)拒绝原假设的检验统计量的值域(取值范围)称为拒绝域;拒绝域的边界点称为临界值(criticalvalue)1.96-1.9602.5%2.5%2.57-2.570.5%0.5%79显著性检验法拒绝域(regionofrejection)显著性检验法实例:80显著性检验法实例:80显著性检验法双尾检验(two-tailedtest)单尾检验(one-tailedtest)81显著性检验法双尾检验(two-tailedtest)81显著性检验法正态总体的均值检验和方差检验原假设H0检验统计量H0为真时统计量服从的分布对立假设H1拒绝域N(0,1)t(n-1)82显著性检验法正态总体的均值检验和方差检验原假设H0检验统计量显著性检验法非正态总体的渐进检验83显著性检验法非正态总体的渐进检验83显著性检验法p值/精确显著性水平(pvalueorexactlevelofsignificance)84显著性检验法p值/精确显著性水平(pvalueorex显著性检验法统计显著性与实际显著性(statistical&practicalsignificance)85显著性检验法统计显著性与实际显著性(statistical第二讲基础知识复习一、概率论基础知识二、数理统计基础知识86第二讲基础知识复习一、概率论基础知识1一、概率论基础知识概率随机变量概率密度函数多维随机变量随机变量的数字特征一些重要的概率分布87一、概率论基础知识概率2概率随机试验可以在相同条件下重复进行每次试验的可能结果不止一个,但事先能明确所有的可能结果进行一次试验之前不能确定会出现哪一个结果实例一枚硬币抛掷两次在北京师范大学校园里询问任意一个学生的年龄88概率随机试验3概率样本空间(samplingspace)/总体(population)某一个随机试验的所有可能结果组成的集合,记为S样本点(samplingpoint)样本空间里的某一元素,即随机试验的某一可能结果实例一枚硬币抛掷两次,出现正面记为H,出现反面记为T样本空间:{HH,HT,TH,TT}样本点:HH,HT,TH,TT89概率样本空间(samplingspace)/总体(popu概率事件(event)某一随机试验的样本空间的一个子集实例:一枚硬币抛掷两次事件A:出现两个正面事件B:出现一个正面和一个反面事件C:出现两个反面90概率事件(event)5概率频率(frequency)在相同条件下,某随机试验进行了n次,其中事件A发生了m次,则比值m/n称为事件A发生的频率,记fn(A)实例:抛掷一枚硬币,事件A为出现正面n550500204840401200024000fn(A)0.70.540.4840.51810.50690.50160.5005当n逐渐增大时,频率趋向于某一常数,称为频率稳定性91概率频率(frequency)n55050020484040概率概率(probability)S是某一随机试验的样本空间,对于其中的任意一个事件A赋予一个实数P(A),如果P(A)满足下列三个条件,则称P(A)为事件A的概率。当n趋近于无穷大时,频率fn(A)无限接近于概率P(A),从而用概率来度量事件A在一次试验中发生的可能性92概率概率(probability)当n趋近于无穷大时,频概率条件概率(conditionalprobability)设A、B是两个事件,且P(A)>0,称下式为事件A发生的条件下事件B发生的条件概率:实例一枚硬币抛掷两次,出现正面记为H,出现反面记为T。事件A为“至少有一次H”,事件B为“两次都是同一面”。则事件A的概率为3/4,事件A和B同时发生的概率为1/4,在A发生的条件下B发生的概率为1/393概率条件概率(conditionalprobability随机变量随机变量(stochastic/randomvariable)一个变量若它的值是由随机试验决定的,称其为随机变量。随机变量通常用大写字母X、Y、Z表示,其数值则用小写字母x、y、z表示离散型随机变量(discreterandomvariable)可能取到的值是有限个的随机变量连续型随机变量(continuousrandomvariable)可能取到的值是无限个的随机变量实例离散型随机变量:扔一次骰子出现的点数;未出生婴儿的性别连续型随机变量:人的身高;百米跑速度94随机变量随机变量(stochastic/randomvar概率密度函数离散型变量的概率密度函数/概率分布(probabilitydensityfunction/probabilitydistribution)实例X:投掷两颗骰子出现的点数之和X的PDFX23456789101112f(X)1/362/363/364/365/366/365/364/363/362/361/3695概率密度函数离散型变量的概率密度函数/概率分布X234567概率密度函数连续型变量的累积分布函数(cumulativedistributionfunction)实例枪靶的半径为2米,若每枪都能击中枪靶,且击中靶上任一同心圆内的点的概率与该圆的面积成正比,则弹着点与靶心的距离X是一个连续型随机变量,其CDF为:F(x)x2196概率密度函数连续型变量的累积分布函数(cumulative概率密度函数连续型变量的概率密度函数(PDF)实例在上例中,PDF为:f(x)x1297概率密度函数连续型变量的概率密度函数(PDF)f(x)x12概率密度函数连续型变量的概率密度函数(PDF)f(x)xab98概率密度函数连续型变量的概率密度函数(PDF)f(x)xab多维随机变量多维随机变量多个变量的取值由同一个随机试验决定,称这些变量为多维随机变量。以下我们考虑最简单的二维随机变量,用(X,Y)表示,其数值用(x,y)表示实例离散型二维随机变量:每一位学生的性别和民族连续型二维随机变量:每一位学生的身高和体重99多维随机变量多维随机变量14多维随机变量离散型变量的联合概率密度函数(jointPDF)实例譬如:既是男生又是满族的概率为0.08,既是女生又是回族的概率为0民族汉族满族回族蒙古族性别男0.270.080.160女0.350.1000.04100多维随机变量离散型变量的联合概率密度函数(jointPDF多维随机变量离散型变量的边缘概率密度函数(marginalPDF)实例X(民族)边缘概率汉族满族回族蒙古族Y(性别)男0.270.080.1600.51女0.350.1000.040.49边缘概率0.620.180.160.04101多维随机变量离散型变量的边缘概率密度函数(marginal多维随机变量离散型变量的条件概率密度函数(conditionalPDF)表示在Y=y的条件下X=x的概率譬如:f(满族,女生)=0.10,f(女生)=0.49,f(满族|女生)=0.10/0.49=0.20f(汉族,男生)=0.27,f(男生)=0.51,f(汉族|男生)=0.27/0.51=0.53X(民族)边缘概率汉族满族回族蒙古族Y(性别)男0.270.080.1600.51女0.350.1000.040.49边缘概率0.620.180.160.04102多维随机变量离散型变量的条件概率密度函数(conditio多维随机变量统计独立性(statisticallyindependence)如果两个随机变量的联合PDF等于它们边缘PDF的乘积,则称这两个变量是相互独立的(independent)。两个变量独立意味着其中一个变量的结果不会影响另一个。譬如:f(X=H,Y=H)=f(X=H)*f(Y=H)=1/2*1/2=1/4……实例:抛硬币X(第一次)正面(H)反面(T)Y(第二次)正面(H)1/41/4反面(T)1/41/4103多维随机变量统计独立性(statisticallyind多维随机变量连续型变量的联合概率密度函数(jointPDF)连续型变量的边缘概率密度函数(marginalPDF)统计独立性(statisticallyindependence)104多维随机变量连续型变量的联合概率密度函数(jointPD随机变量的数字特征以上讨论了随机变量的概率密度函数PDF和累积分布函数CDF,但在处理实际问题时,往往不需要求出这些函数,而是只需要了解变量的某些特征值。这些特征值包括三类:度量变量分布的集中趋势(centraltendency):数学期望或均值;中位数;众数度量变量分布的离散性(dispersion):方差;标准差度量两个变量的相关性(correlation):协方差;相关系数105随机变量的数字特征以上讨论了随机变量的概率密度函数PDF和累随机变量的数字特征数学期望(expectation)或均值(mean)离散型变量的期望:实例:扔两个骰子的点数之和x23456789101112f(x)1/362/363/364/365/366/365/364/363/362/361/36106随机变量的数字特征数学期望(expectation)或均值(随机变量的数字特征连续型变量的期望:实例:107随机变量的数字特征连续型变量的期望:22随机变量的数字特征期望的性质:108随机变量的数字特征期望的性质:23随机变量的数字特征中位数(median)对于离散型变量,假设所有可能取值的个数为n,把这些数从小到大排列。若n为奇数,位于中央位置的那个数就是中位数;若n为偶数,位于中央位置的那两个数的平均数就是中位数。记为Med(X),中位数所在的位置为(n+1)/2。对于连续型变量,中位数m满足下列条件:x23456789101112f(x)1/362/363/364/365/366/365/364/363/362/361/36109随机变量的数字特征中位数(median)x234567891随机变量的数字特征众数(mode)众数就是随机变量的所有可能取值中出现次数最多的那个随机变量的类型定类变量(nominalvariable):性别;民族定序变量(ordinalvariable):教育水平;收入等级定距变量(intervalvariable):考试成绩;收入水平一般地,不同类型的变量用不同的数学特征表示其集中趋势。定类变量用众数;定序变量用中位数;定距变量用均值或中位数x23456789101112f(x)1/362/363/364/365/366/365/364/363/362/361/36110随机变量的数字特征众数(mode)x234567891011随机变量的数字特征方差(variance)方差被定义为随机变量对其均值的期望距离,用于表示随机变量与其均值的偏离程度。方差较小说明变量的分布比较集中,反之则说明变量的分布很分散方差的性质111随机变量的数字特征方差(variance)26随机变量的数字特征实例:x23456789101112f(x)1/362/363/364/365/366/365/364/363/362/361/36112随机变量的数字特征实例:x23456789101112f(x随机变量的数字特征标准差(standarddeviation)方差的量纲与变量的量纲不同,为此引入与变量具有相同量纲的数字特征——标准差,同样度量变量的离散程度标准差的性质:113随机变量的数字特征标准差(standarddeviatio随机变量的数字特征度量变量离散程度的其他常用指标还有:极差/全距极差率变异系数基尼系数泰尔系数114随机变量的数字特征度量变量离散程度的其他常用指标还有:29随机变量的数字特征协方差(covariance)协方差度量两个随机变量的相关(correlation)程度协方差大于0表示两个变量正相关(positivelycorrelated),即其中一个变量随着另一个变量的增大而增大协方差大于0表示两个变量负相关(negativelycorrelated),即其中一个变量随着另一个变量的增大而减小协方差等于0表示两个变量不相关(uncorrelated)115随机变量的数字特征协方差(covariance)30随机变量的数字特征协方差的性质:116随机变量的数字特征协方差的性质:31随机变量的数字特征相关系数(correlationcoefficient)协方差的大小与度量单位有关,使用不便,因此一般用相关系数来衡量两个变量的相关程度117随机变量的数字特征相关系数(correlationcoef随机变量的数字特征相关与独立(correlation&independence)相关是指两个随机变量之间的线性关联程度,独立是指两个变量之间的一般关联程度若两个变量相互独立,其相关系数一定为0若两个变量的相关系数为0,它们不一定独立118随机变量的数字特征相关与独立(correlation&i随机变量的数字特征条件期望(conditionalexpectation)如果我们可以用变量X解释变量Y,那么一旦我们知道X取某个特定的值x,就能够计算出在X=x的条件下Y的期望值,称为条件期望实例119随机变量的数字特征条件期望(conditionalexpe一些重要的概率分布正态分布(normaldistribution)如果一个随机变量的概率密度函数PDF如下所示,称这个变量服从正态分布120一些重要的概率分布正态分布(normaldistribut一些重要的概率分布标准正态分布(standardnormaldistribution)如果一个服从正态分布的随机变量的均值为0,方差为1,称这个变量服从标准正态分布121一些重要的概率分布标准正态分布(standardnorma一些重要的概率分布122一些重要的概率分布37一些重要的概率分布标准化随机变量(standardizedrandomvariable)123一些重要的概率分布标准化随机变量(standardized一些重要的概率分布统计学书籍和计量经济学书籍一般都附有标准化正态变量的累积分布函数,可以通过转换求解正态变量的概率问题124一些重要的概率分布统计学书籍和计量经济学书籍一般都附有标准化一些重要的概率分布卡方分布n=2n=5n=10125一些重要的概率分布卡方分布n=2n=5n=1040一些重要的概率分布126一些重要的概率分布41一些重要的概率分布t分布(tdistribution)n=120n=5n=20127一些重要的概率分布t分布(tdistribution)一些重要的概率分布128一些重要的概率分布43一些重要的概率分布F分布(Fdistribution)F(2,2)F(10,2)F(50,50)129一些重要的概率分布F分布(Fdistribution)一些重要的概率分布130一些重要的概率分布45二、数理统计基础知识总体与样本参数估计点估计区间估计假设检验置信区间法显著性检验法131二、数理统计基础知识总体与样本46总体与样本总体(population)研究对象的全体,记为X随机样本(randomsample)/样本(sample)在相同条件下对总体X进行n次重复的、独立的观测,每次观测结果都是与X具有相同分布的、相互独立的随机变量,记为X1,
X2,…,Xn,把它们称为来自总体的一个简单随机样本,简称样本,称n为样本容量。当观测完成后,得到一组观测值x1,
x2,…,xn,称为样本值我们感兴趣的实际上是总体,但由于不可能或很难得到总体的信息,只能从中抽取一个样本,根据样本数据来推断总体的性质。这其中包含两类问题:参数估计和假设检验132总体与样本总体(population)47参数估计参数(parameters)与总体有关的数字特征。如总体均值、总体方差等等。参数估计(parameterestimation)根据样本的有关数值来估计总体参数或总体参数的范围点估计区间估计133参数估计参数(parameters)48点估计点估计(pointestimation)估计量是样本的函数,对于不同的样本,参数估计值是不同的。点估计的方法:矩估计法极大似然法最小二乘法134点估计点估计(pointestimation)49点估计矩(moment)矩估计法(methodofmoment)用样本矩作为相应总体矩的估计量,并用样本矩的连续函数作为总体矩连续函数的估计量。通过这种方法得到的估计量称为矩估计量135点估计矩(moment)50点估计矩估计法:实例136点估计矩估计法:实例51点估计极大似然法(methodofmaximumlikelihood)137点估计极大似然法(methodofmaximumlik点估计极大似然法:实例138点估计极大似然法:实例53点估计估计量的评选标准估计量是随机变量,会由于估计方法的不同而不同,那么,如何判断一个估计量的好坏呢?或者说应该选择哪个估计量更好呢?有以下几条标准:针对小样本的标准无偏性有效性针对大样本的标准一致性渐进正态性139点估计估计量的评选标准54点估计无偏性(unbiasedness)实例140点估计无偏性(unbiasedness)5514156点估计有效性(efficiency)注意:一个无偏的估计量可能存在很大方差,而一个方差很小的估计量可能是偏离总体均值的,因此有效性综合考虑了估计量的集中趋势和离散性两个特征142点估计有效性(efficiency)57点估计实例:有效性和无偏性143点估计实例:有效性和无偏性58点估计线性估计量(linearestimator)最优线性无偏估计量(bestlinearunbiasedestimator,BLUE)144点估计线性估计量(linearestimator)59点估计一致性(consistence)145点估计一致性(consistence)60点估计概率极限(probabilitylimits)146点估计概率极限(probabilitylimits)61点估计一些重要的估计量:147点估计一些重要的估计量:62点估计实例:为了解中国城市失业率,随机抽取了10座城市,得到如下样本。则我们可以用这10座城市的平均失业率来估计中国城市的平均失业率城市(i)12345678910失业率(xi)5.16.49.24.17.58.32.63.55.87.5148点估计实例:为了解中国城市失业率,随机抽取了10座城市,得到点估计渐进正态性(asymptoticnormality)当样本容量无限增大时估计量趋向于正态分布中心极限定理(centrallimittheorem,CLT)定理一(独立同分布的中心极限定理):当样本容量无限增大时,任何总体的随机样本的均值趋近于正态分布。149点估计渐进正态性(asymptoticnormality)点估计中心极限定理定理二:李雅普诺夫(L
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 企业对外沟通与合作记录表
- 乡村旅游规划设计服务协议
- 产品保密与知识产权保护契约书
- 倒装句的构成与识别:英语语法知识巩固教案
- 乡村土地承包经营奖补资金使用协议
- 二手房买卖过户网签协议
- 健康饮食品牌推广合同书
- 本季度销售业绩汇报与展望
- 高体三教授治疗眩晕病学术思想研究
- 体育健身产业智能健身设备研发及市场推广计划
- 《元德秀字紫芝》2019年山东潍坊中考文言文阅读真题(含答案与翻译)
- 建设“三型三化551”财务体系加快财务转型创建一流财务指导意见
- 语言领域核心经验《学前儿童语言学习与发展核心经验》
- 湖北省华中师大一附中2020-2021高一物理期中检测试卷【含答案】
- 2021年合肥职业技术学院职业适应性测试试题及答案解析
- 2022年三年级美术下册教案课题美化教室一角
- 初中物理公式MicrosoftWord文档
- 诈骗案件授课PPT课件
- 弗洛姆异化理论
- 碳纳米管_ppt课件
- 【课件】第2课如何鉴赏美术作品课件-高中美术人教版(2019)美术鉴赏
评论
0/150
提交评论