版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数理统计理论及应用数理统计理论及应用1二、假设检验三、方差分析四、一元线性回归一、数理统计中四大分布二、假设检验三、方差分析四、一元线性回归一、数理统计中四大分2一、数理统计中四大分布一、数理统计中四大分布31.正态分布1、一个年级中,成绩的分布。2、抛掷一枚硬币1000次,正面朝上的概率。3、历史100年中,每年降雨量的值的分布。4、一个大学中男生的身高分布。1.正态分布1、一个年级中,成绩的分布。4
1.1、定义:
若随机变量x的概率密度函数可以表示为:
的形式,则称x服从正态分布,记为x~N(
,
2),其中
x1.1、定义:x5(1)正态曲线(normalcurve)在横轴上方,均值为处最高。(2)正态分布以均数为中心,左右对称。(3)正态分布有2个参数,即均数
和标准差
。
是位置参数,当
固定不变时,
越大,曲线沿横轴越向右移动;反之,
越小,则曲线沿横轴越向左移动。
是形状参数(亦称变异度参数),当
固定不变时,
越大,曲线越平阔;
越小,曲线越尖峭。通常用N(,2)表示均数为
,方差为
的正态分布。1.2、正态分布的特征:
不变,
发生变化
不变,
发生变化
(4)正态分布在
处各有一个拐点。(1)正态曲线(normalcurve)在横轴上方,均值为6(5)正态曲线下的面积有一定规律。
+
凸凹凹xab(一)正态曲线下面积的计算:
右图1中阴影部分(-
,x)的面积称为正态分
布的分布函数,记为:
右图2中阴影部分(代表任意区间)的面积,理论上
可以如下计算:(5)正态曲线下的面积有一定规律。+凸凹凹x7(二)标准正态分布下的面积:若则服从标准正态分布x~N(
,
2)二项分布的正态逼近对于一个二项分布,当实验的次数足够多时,其概率密度函数逼近于正态分布的概率密度函数。(二)标准正态分布下的面积:若81.2.卡方分布定义:设随机变量独立服从标准正态分布N(0,1),则变量
所服从的分布就是自由度为n的分布,称,卡方分布的密函数如下:卡方分布性质:(1)数字特征,若则
(2)可加性,若且两变量独立,则有
(3)1.2.卡方分布定义:设随机变量91.3.T分布定义:设,,且变量X,Y相互独立,则有变量服从的分布是自由度为n的T分布,根据定义可推得密度公式为:T分布性质:(1)
当自由度正无穷时,,也就是说,当n充分大时,T分布近似于标准正态分布。但若n较小,两种分布差别较大。(2)数字特征:若,n>2则自由度为1的t-分布也称为柯西(Cauchy)分布,此时期望方差都不存在。记法:记t-分布的α
-上侧分位数为对于较大的自由度n(譬如n>60),可用正态分布近似代表T分布来简化计算1.3.T分布定义:设101.4.F分布定义:设且X与Y独立,则有变量服从自由度为(n1,n2)的F分布,记作:,其密度函数为:1.4.F分布定义:设11F分布性质:(1)若,则(2)分布的α上侧分位数记作,具体有:(3)由,可推出:F分布性质:(1)若12二、假设检验二、假设检验13一、假设检验的基本问题存在问题:由于我们对用户画像是基于用户的交易记录和习惯做出的性别判断,
所以用户标签数据可能存在倾斜,这样会存在用画像数据性别比例代替用户
总体性别比例可能存在偏差,怎么办?具体问题2:如果到市场上去买鸡蛋,商家声称坏鸡蛋的比例是1%,市场监督员检测了五个鸡蛋,有一个环鸡蛋,
那么商家说的话是否可信?
事先对总体参数作某种假设(均值、方差、比率),然后利用样本信息来判断假设是否成立的过程称为假设检验。具体问题1:想看一下当前美团用户画像中女性用户所占比例是否能代表总体用户的性别比例?1.1.假设的陈述统计假设:对总体参数具体数值所做的陈述,称为假设(统计假设)。假设检验:分为两步:先对总体参数提出某种假设
->然后利用样本信息判断假设是否成立,这个过程称假设检验过程。原假设H0:一般情况下把研究者想要收集证据予以反对的假设成为原假设(一般用H0表示)被择假设H1:
将研究者想收集证据来支持的假设称为被择假设(一般用H1表示)两类检验:双尾检验(被择假无特定的方向性,一般体现在被择假设中有“≠”)
单尾检验(被择假设有特定的方向性,含有符号“>”或“<”的假设)一、假设检验的基本问题存在问题:由于我们对用户画像是基于用户14假设的基本形式如下:
1.2.假设检验的思维逻辑:1)反证法2)小概率实验在一次观察或实验中几乎不可能发生。如果在一次实验中小概率实验发生了,那我们就拒绝原假设,否则就接受原假设。假设的基本形式如下:1.2.假设检验的思维逻辑:15作出推断结论不能拒绝H0拒绝H0,接受H1P≤αP>α确定检验水平α选定检验方法,计算检验统计量确定P值建立假设,确定单双侧检验1.3、假设检验的步骤p值(观测到的显著性水平):若原假设H0是正确的,对H0所规定的总体作随机抽样,计算等于或大于现有样本统计量值的概率。两种判别方法:1、利用统计量做出决策:给定的显著性水平α,查表可以查到统计量的临界值,将计算的统计量临界值对比,即可做出最终决策。2、根据计算的P值与显著性水平α的关系决策:给定的显著性水平α,若α<p则不能拒绝原假设,若α>p则拒绝原假设。2)根据问题确定单双侧检验。2)建立假设H0,H1。1)α为第一类错误概率,通常取0.05、0.1,根据需求调节2)在H0成立的条件下,由样本已知信息构造统计量。根据研究目的,设计的类型、样本的数量选择合适统计量。作出推断结论不能拒绝H0拒绝H0,接受H1P≤αP>α确定检161.4.两类错误的显著性水平第一类错误:当原假设为真的时候,我们又拒绝了原假设,称为弃真错误,通常记为α第二类错误:当原假设是错误的时候,检验的结果没能拒绝原假设,称为取伪错误,取β分别犯两类错误的情况是什么?两种错误的关系?无论何种情况下都不可能避免不犯两类错误。当样本容量不变时候,减小α就会使β增大,减小β会增大α,所以要让α和β同时减小的唯一办法就是增大样本的容量;实际问题是:增加样本容量会受到很多限制因素,所以会在两类错误中选择一个权衡。譬如说:如果犯第一类错误的概率比第二类错误严重,就将犯第一类错误的概率设置的低一点,反之亦然。1.4.两类错误的显著性水平第一类错误:当原假设为真的时候,17检验统计量:根据样本数据计算得到的,并对原假设和被择假设做出决策的样本统计量(统计量中不含未知参数)检验统计量的作用如下图:检验统计量:根据样本数据计算得到的,并对原假设和被择假设做出18二、几种单总体参数的检验2.1.总体均值检验检验中的几个问题:总体均值的检验中,采取何种检验统计量取决于所抽取的样本的多少(统计上吧大于30个样本称为大样本,小于30的样本称为小样本),此外还需要区分总体是否服从正态分布,总体方差是否已知等情况。具体问题:美团商户中销售的某种(标准是容量225ml,标准差为5ml)灌装饮料被消费者投诉装量不标准的问题,为此公司决定对该类饮料的装量进行调研来确定公司售卖的饮料是否存在此类问题。对此调研人员随机从商城中抽取了400罐进行检验,测得每罐的平均容量为255.8ml,这里取显著性水平α=0.05,来检验商城的饮料是否符合标准。1、建立假设:此时关心的问题是装量是否符合标准,具体到问题就是总体的瓶装量是否为225ml
所以建立假设:2、确定检验水平:给出显著水平α=0.053、确定并计算检验统计量:(若H0成立,样本均值服从)4.确定P值和Z值的大小:p=0.000342,5、决策:二、几种单总体参数的检验2.1.总体均值检验19
p<0.05,
Z>1.96所以拒绝原假设H0,说明饮料装量的规格确实不符合标准。总体均值的检验规则(正态,小样本,方差已知)总体均值的检验规则(正态,方差未知,小样本情形)在小样本的情况下统计量的选择主要看方差是否已知。
其他情况下检验统计量的选择:
p<0.05,
Z>1.96所以拒绝原假设H0,说明饮料20主要是看在大样本的条件下,看总体的方差是否已知,总体方差已知则用总体方差,总体未知就用样本方差代替。
总体均值的检验规则(大样本情况)主要是看在大样本的条件下,看总体的方差是否已知,总体方差已知212.2、总体比率检验类似于检验公司男女性别比例是否等于画像数据中用户比率的检验问题,这类问题就是比率检验,方法和步骤与总体均值类似,不同点是统计量的差异。总体比率的检验统计量设
二项分布的正态近似:注:试用的条件是,np>5且nq>5所以对比率的检验可构造检验统计量2.2、总体比率检验类似于检验公司男女性别比例是否等于画像数22问题:通过对公司用户画像数据进行性别分类,发现男性用户占42%,女性用户占到了58%,那么这个结果是否可信?调研:为验证此比例数据是否可用,通过数据库随机挑选1000位用户ID,再通过电话访问确定该用户的性别。发现有473人是男性,527是女性用户,取显著性水平α=0.05验证此比例数据能否代表公司用户比例。一、建立假设:公司数据显示男性占比42%,因此提出原假设和备择假设如下二、计算统计量:根据调研结果,计算p=473/1000=47.3%,检验统计量为三、统计决策:根据显著性水平α=0.05,查标准正态分布表的临界值,则拒绝原假设H0,说明公司画像数据不能代替公司全部用户的性别比例。z01.96-1.9668.8拒绝H0拒绝
H0-68.8问题:通过对公司用户画像数据进行性别分类,发现男性用户占42232.3、总体方差的检验生产生活中仅仅保持样本的均值维持在一定水平是不够的,并不意味着整个过程都能正常运转,方差的大小是否适度也是需要考虑和控制的问题,以此避免过程中出现的偏差比较大的情况发生。目的:检验一个总体的方差或标准差,使用卡方统计量。前提:总体服从正态分布总体方差的检验统计量检验统计量都是一样的,针对不同问题类型,选择不同的检验类型。样本方差假设的总体方差2.3、总体方差的检验生产生活中仅仅保持样本的均值维持在一定24问题:啤酒生产企业采用自动生产线灌装啤酒,每瓶的装填量为640ml,但由于受某些不可控因素的影响,每瓶的装填量会有差异。此时,不仅每瓶的平均装填量很重要,装填量的方差同样很重要。如果方差很大,会出现装填量太多或太少的情况,这样要么生产企业不划算,要么消费者不满意。假定生产标准规定每瓶装填量的标准差不应超过和不应低于4ml。企业质检部门抽取了10瓶啤酒进行检验,得到的样本标准差为s=3.8ml。试以0.10的显著性水平检验装填量的标准差是否符合要求?一、建立建设:H0
:
2=42
H1
:
2
42
=0.10df=10-1=9二、计算统计量:
016.91903.32511
/2=0.05三、做出决策:问题:啤酒生产企业采用自动生产线灌装啤酒,每瓶的装填量为6425三、几种双总体参数的检验3.1、两总体均值的检验正态总体方差已知或者大样本情形正态,方差未知,小样本情形假定条件:1)两对比总体相互独立。2)两总体服从正态分布图。3)若不是正态分布,两者都是大样本也可用正态分布近似三、几种双总体参数的检验3.1、两总体均值的检验正态总体方差263.2、两总体比率的对比检验两个总体比率之差的检验规则假定条件:np>5,nq>5,样本比率可用正态分布来近似(大样本)两个总体比率之差的检验规则假定条件:np>5,nq>5,样本273.3、两总体比率的对比检验两个总体方差比较的检验规则假定条件:两个独立样本,且服从正态分布FF1-
F
拒绝H0拒绝H0两个总体方差比较的检验规则假定条件:两个独立样本,且服从正态28三、方差分析三、方差分析29一、方差分析的问题引入具体问题:公司各个BG都会受到消费者的投诉,这里想看下不同BG被投诉次数之间是否有明显的区别。问题分析:问题转化为分类型自变量对数值型的因变量是否有显著的差异。1.1.方差分析的几个概念方差分析:检验多个总体均值是否相等的统计方法,称为方差分析。因素:方差分析中所要检验的对象称作因素(上述问题中的BG就是因素)水平:因素的不同表现称为水平(到餐、到综、外卖、酒旅)一、方差分析的问题引入具体问题:公司各个BG都会受到消费者的301.2.方差分析思想归根结底,方差分析的思想就是把方差的来源拆分成不同来源,看分类型的变量对方差的影响程度。随机误差:在到餐BG中,我们随机抽取了七各月的投诉次数,由于这个过程中抽取的随机性造成的误差称为随机误差;来自水平内部的数据误差为组内误差(SSE)系统误差:由于不同BG的本身特性影响造成的误差称为系统误差;
来自不同水平之间的误差为组间误差(SSA)如果不同BG对投诉的次数无影响,那么组间的误差只有随机误差,而没有系统误差。这是组间误差与组内误差经过平均后的值(均方误差或方差)应该接近,比值应该接近1;若不同BG对投诉次数有影响,那么组间误差中除了包含随机误差外还包含系统误差,这时组间误差平均后的均值就会大于组内误差平均后的均值,他们之间的比值就会大于1;当这个比例大到某种程度就认为不同的BG在投诉次数之间存在着显著差异。1.2.方差分析思想系统误差:由于不同BG的本身特性影响造成311.3.方差分析的基本假定1)每个总体都应该服从正态分布2)各个总体的方差西格玛^2应该相同,也就是各组的样本数据是从具有相同方差的正态总体中抽取的3)观测值独立,也就是说不同BG下抽中的投诉次数与其他BG下抽中的投诉次数之间没有关系1.3.方差分析的基本假定322.1.分析步骤1)提出假设:假设不同BG被投诉的次数之间无差异当选择原假设或被择假设情况下的解释?2)构造检验统计量:组内均方(服从自由度n-k的卡方分布)=478.7二、方差分析2.1.分析步骤组内均方(服从自由度n-k的卡方分布)=433通过总平方和(SST)、组间平方和(SSA)、组内平方和(SSE)的计算方式知;SST的自由度为n-1,其中n为全部样本的数量;SSA的自由度为k-1,其中k为因素水平的个数,这里指4个BG;SSE的自由度为n-k,
总样本个数-BG个数由于主要是比较组间均方和组内均方之间的差异,所以通常计算SSA的均方和SSE的均方值所以构造检验统计量:3)统计决策:组间均方(服从自由度n-1的卡方分布)根据给定的显著性水平α,在F分布表中查找分子自由度df1=k-1,分母自由度df2=n-k相应的临界值通过总平方和(SST)、组间平方和(SSA)、组内平方和(S34若
则拒绝原假设H0,即不成立,表明之间存在显著差异,也就是说不同的BG对投诉次数是有显著影响的(这种情况与p<α等价)。若
则不拒绝原假设H0,没有足够的证据表明之间存在显著差异,也就是说,还不能认为所检验的因素(BG)B对观测值(投诉次数)有显著影响的(这种情况与p>α等价)。若则拒绝原假设H035上述结果只验证了部门对业务的投诉次数有影响,但具体哪两个部门之间的投诉次数有差异还需进一步的检验。2.2.方差分析中的多重比较多重比较法有多种,介绍下Fisher提出的最小显著差异法(LSD)第1步:提出假设第2部:计算检验统计量第3部:计算LSD,其计算公式为
为t分布的临界值,通过t分布表查得,自由度为(n-k),这里的k是因素中水平的个数,MSE为组内的均方值,ni,nj分别为第i组和第j组的样本容量。第4步:根据显著性水平α做出决策,如果>LSD,则拒绝H0;如果<LSD,则不拒绝H0这里计算外卖和酒旅部门被投诉次数之间是否有效显著的不同:计算统计量|350-590|=240,LSD=2.093*sqrt(14200*(1/5+1/5))=158240>158,所以拒绝原假设,即外卖和酒旅的服务对投诉的次数有显著的差异。上述结果只验证了部门对业务的投诉次数有影响,但具体哪两个部门36四、一元回归分析四、一元回归分析37一、变量间的关系相关关系:变量间存在的不确定的数量关系。譬如,用户数与交易额、工资与消费水平、子女和父母的身高等不确定的关系函数关系:变量间存在的确定的数量关系。譬如,正方形的面积和边长、某种产品的销售额与销售量关系。变量之间相关关系的描述:1、可以通过散点图直观描述(不能从量上判别变量之间关系的强弱)2、相关系数判别:相关系数:根据样本(总体)数据计算的度量两个变量之间线性关系强度的统计量。一、变量间的关系相关关系:变量间存在的不确定的数量关系。譬如38一家商业银行在各地区设有分行,主要业务是基础设施建设,国家重点项目建设,固定资产投资项目贷款,近年来贷款额平稳增长,但不良贷款额也有较大增长,为弄清不良贷款额形成的原因,给出了一下几个可能的变量及对应的数值。一家商业银行在各地区设有分行,主要业务是基础设施建设,国家重39各变量与不良贷款额之间的关系各变量与不良贷款额之间的关系40相关系数的解释(线性相关系数/pearson相关系数):1)取值范围:2)r的对称性3)r的大小与与x,y的原点及尺度无关4)虽有关系度量,但不一定有因果关系
可通过样本和统计量检验几个变量之间是否存在显著的相关性。回归分析的必要性?相关分析目的:测量变量之间的关系强度回归分析目的:考察变量之间的数量关系,通过数学表达式确定一个或几个变量的变化对其他特定变量的影响程度。具体解决的问题:确定出变量之间的数学关系式,对这些关系式的可信程度进行统计检验,并从众多变量中找出主要的影响变量,利用有效的回归方程进行预测目的,并给出估计或预测的可靠程度。相关系数的解释(线性相关系数/pearson相关系数):41二、一元线性回归2.1.一元线性回归中几个概念回归模型:描述因变量y如何依赖于自变量x和误差项的方程,为回归模型。
其中反映了由x变化引起的y的线性变化;称为误差项的随机变量,反映了除x和y之间线性关系之外
的随机因素对y的影响,是不能由x解释的部分;β0、β1称为模型的参数。误差项应满足的假设:1)误差项是一个期望值为0的随机变量,所以有。
2)对于所有x的值,的方差都相同,意味着对于特定x值y值的方差也为
3)误差是一个服从正态分布,且独立的随机变量,即回归方程:描述因变量y的期望如何依赖于自变量x的方程称为回归方程,或称为一元直线回归方程。估计的回归方程:根据样本数据求出回归方程的估计两个估计系数的含义?参数的估计:最小二乘法二、一元线性回归2.1.一元线性回归中几个概念回归模型:描述422.2.实例应用现在想探究一下贷款对贷款余额的影响,将不良贷款作为因变量y,将贷款余额作为自变量x,建立模型通过最小二乘法,估计模型的参数值得出,估计的回归方程为
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论