《统计推断入门》课件_第1页
《统计推断入门》课件_第2页
《统计推断入门》课件_第3页
《统计推断入门》课件_第4页
《统计推断入门》课件_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计推断入门欢迎来到《统计推断入门》课程!在这个数据驱动的时代,统计推断已成为各个领域中不可或缺的分析工具。从医学研究到市场调查,从质量控制到人工智能,统计推断的应用无处不在。本课程将带领大家深入了解统计推断的基本概念、方法和应用。我们将从基础的概率论开始,逐步探讨抽样分布、点估计、区间估计和假设检验等核心内容,最后还将介绍回归分析和贝叶斯统计等高级主题。课程概述基础理论我们将首先介绍统计推断的基本概念、概率论基础和常见的概率分布,为后续学习奠定坚实基础。核心方法接下来深入学习点估计、区间估计和假设检验等统计推断的核心方法,掌握从样本推断总体特征的技术。高级主题什么是统计推断?统计推断是使用样本数据来推断总体特征的过程。它是统计学的核心部分,允许我们基于有限的样本信息对更大的总体做出合理的判断和预测。统计推断通常分为参数推断和非参数推断两大类。参数推断假设数据来自具有特定参数的分布,而非参数推断则不依赖于特定的分布假设,适用范围更广泛。统计推断的重要性科学研究统计推断是科学方法的基石,使研究人员能够从有限的观测数据中得出可靠的结论。它提供了严格的框架来评估实验结果的可靠性和显著性。决策支持在商业和政策制定中,统计推断帮助决策者面对不确定性做出明智选择。通过量化不确定性,它使风险评估和决策优化成为可能。数据挖掘统计推断的基本步骤明确研究问题首先需要明确研究目标和要回答的问题,这决定了后续的数据收集和分析方法。收集数据采用适当的抽样方法或实验设计收集具有代表性的数据,确保数据质量和可靠性。描述性分析计算描述性统计量并进行可视化,了解数据的基本特征和分布。统计建模选择适当的统计模型,建立数据与研究问题之间的联系。推断与结论数据收集1抽样方法简单随机抽样是最基本的抽样方法,每个总体单元被选中的概率相等。系统抽样按固定间隔选择样本单元,适用于有序总体。分层抽样将总体分为不同层次,从每层中抽取样本,提高估计精度。2实验设计随机对照实验是实验设计的黄金标准,通过随机分配受试对象到不同处理组来控制混杂因素。区组设计和交叉设计等高级方法可以进一步提高实验效率和控制变异。3数据质量控制描述性统计集中趋势均值是最常用的集中趋势度量,易受极端值影响。中位数表示数据的中间位置,对异常值不敏感。众数表示出现频率最高的值,适用于分类数据。离散程度方差和标准差衡量数据围绕均值的分散程度。四分位距表示数据中间50%的范围,对异常值的稳健性更好。极差是最大值与最小值的差,简单但受极端值影响大。分布形状偏度衡量分布的不对称性,正偏表示右侧尾部较长,负偏表示左侧尾部较长。峰度衡量分布的尖峰程度,高峰度表示分布中心更加集中。概率论基础1概率解释频率派与贝叶斯派2条件概率事件之间的相互影响3独立性事件之间无关联4概率公理概率的基本性质概率论是统计推断的理论基础。从基本的概率公理出发,我们可以导出复杂的概率模型。概率可以从频率派角度理解为长期频率的极限,也可以从贝叶斯派角度理解为主观信念的度量。条件概率描述了在已知一个事件发生的情况下,另一个事件发生的概率。贝叶斯定理提供了更新概率信念的方法,是贝叶斯统计的核心。独立性是一个重要概念,表示一个事件的发生不影响另一个事件的概率。随机变量1随机变量的定义随机变量是样本空间到实数集的映射,将随机现象的结果用数值表示。它是统计建模的基础工具,使我们能够用数学方法处理随机性。2离散随机变量离散随机变量只能取有限或可数无限多个值,如掷骰子的点数、家庭的子女数等。它们通过概率质量函数描述,该函数给出每个可能取值的概率。3连续随机变量连续随机变量可以取一个区间内的任意值,如身高、时间等。它们通过概率密度函数描述,该函数的积分给出变量落在特定区间内的概率。概率分布概率分布的含义概率分布是描述随机变量可能取值及其概率的完整描述。它反映了随机现象的内在规律,是统计建模的基础。对于离散随机变量,我们使用概率质量函数;对于连续随机变量,我们使用概率密度函数。分布函数分布函数(累积分布函数)F(x)表示随机变量X小于或等于x的概率,即F(x)=P(X≤x)。它对所有随机变量都适用,具有单调非减、右连续等性质。分布函数的导数(如果存在)就是概率密度函数。期望与方差期望(均值)是随机变量的加权平均值,反映了中心位置。方差度量随机变量围绕其期望的波动程度,其平方根为标准差。期望和方差是描述概率分布最常用的数字特征。常见概率分布二项分布描述n次独立重复试验中成功次数的概率分布,适用于成功/失败类型的随机实验。参数包括试验次数n和单次成功概率p。泊松分布描述单位时间或空间内随机事件发生次数的概率分布,适用于罕见事件。其参数λ表示平均发生率。正态分布是最重要的连续分布,其概率密度函数呈钟形。大量自然和社会现象近似服从正态分布。标准正态分布的均值为0,标准差为1。抽样分布1样本统计量基于样本数据的函数2抽样分布统计量的概率分布3标准误统计量分布的标准差抽样分布是统计推断的核心概念,它是样本统计量(如样本均值、样本比例)的概率分布。当我们从总体中重复抽取样本并计算统计量时,这些统计量本身形成一个分布,即抽样分布。样本均值的抽样分布具有特殊重要性。对于大多数情况,随着样本量增加,样本均值的分布趋近于正态分布,其均值等于总体均值,标准差(标准误)等于总体标准差除以样本量的平方根。了解抽样分布对于构建置信区间和进行假设检验至关重要,因为它告诉我们在总体参数给定的情况下,样本统计量的变异程度和可能范围。中心极限定理原理解释中心极限定理是统计学中最重要的基本定理之一。它表明,当样本量足够大时,样本均值的分布近似服从正态分布,无论总体分布的形状如何。这一惊人结果解释了为什么正态分布在统计推断中如此重要。样本量的影响样本量越大,样本均值的分布越接近正态分布。一般认为,当样本量达到30或更大时,中心极限定理的近似效果已经相当好,即使原始总体分布严重偏离正态分布。应用价值中心极限定理为许多统计推断方法提供了理论基础。它使我们能够构建基于正态分布的置信区间和假设检验,即使在不知道总体分布的情况下。这极大地简化了统计推断的过程。点估计定义目标确定要估计的总体参数1选择统计量确定用于估计的样本函数2评估性质考察估计量的无偏性、有效性等3计算估计值基于样本数据得出参数估计4点估计是用单一数值来估计总体参数的方法。估计量是基于样本数据计算的统计量,而估计值是将特定样本数据代入估计量得到的具体数值。好的估计量应具备几个关键性质:无偏性(估计量的期望等于被估计参数)、一致性(随样本量增加,估计量收敛于参数真值)和有效性(在无偏估计量中具有最小方差)。矩估计法1方法原理矩估计法是一种简单直观的参数估计方法,基于样本矩等于总体矩的思想。它通过将样本矩(如样本均值、样本方差等)设定为相应的总体矩,然后解方程组来得到参数估计值。2一阶矩估计样本均值是总体均值的一阶矩估计。对于正态分布,样本均值是总体均值μ的矩估计。类似地,对于均匀分布U(a,b),样本均值是(a+b)/2的矩估计。3高阶矩估计当需要估计多个参数时,可以使用更高阶的矩。例如,估计正态分布的μ和σ²时,可使用一阶矩(样本均值)和二阶矩(样本二阶原点矩)联立求解。最大似然估计法似然函数似然函数表示在给定参数值的条件下,观测到当前样本的概率。它是参数的函数,反映了不同参数值与观测数据的相容程度。对于独立同分布的样本,似然函数是各个观测值概率(或密度)的乘积。最大似然原理最大似然估计选择使似然函数最大化的参数值作为估计值。直观上,这意味着选择最有可能产生观测数据的参数值。为了计算方便,通常最大化对数似然函数,这不改变最优解。MLE的性质最大似然估计具有许多良好性质:在一般条件下,它是一致的、渐近正态的,并且具有渐近有效性。当样本量足够大时,它通常是最优的估计方法。然而,对于小样本,它可能受到偏差的影响。区间估计点估计的局限点估计仅提供单一值,没有反映估计的精确度和不确定性,难以评估结果可靠性。区间估计的优势区间估计提供参数可能值的范围,并量化估计的精确度,考虑了抽样误差带来的不确定性。置信区间的解释置信区间是区间估计的主要形式,表示以特定置信水平(如95%)包含真实参数值的区间,其宽度反映了估计精确度。置信区间置信区间的定义置信区间是以特定概率(置信水平)包含真实参数值的区间。它通常表示为"点估计±误差限"的形式。置信水平(如95%)表示如果重复抽样多次,约有95%的区间会包含参数真值。构建方法构建置信区间通常基于pivotal数量(枢轴量),这是一个包含未知参数但分布已知的统计量。通过转换枢轴量的概率陈述,可以得到参数的置信区间。这一方法适用于正态分布等许多常见情况。影响因素置信区间的宽度受样本量、样本变异性和置信水平的影响。较大的样本量会减小区间宽度;较高的置信水平会增加区间宽度;样本变异性越大,区间也越宽。单个总体均值的置信区间1已知方差情况当总体标准差σ已知时,可以利用样本均值的正态分布特性构建置信区间。对于样本量大于30的情况,即使总体不服从正态分布,也可以应用中心极限定理。95%置信区间的公式为:X̄±1.96×(σ/√n)。2未知方差情况当总体标准差未知时,需要用样本标准差s代替σ,并使用t分布代替正态分布。这时,95%置信区间的公式变为:X̄±t₀.₀₂₅,ₙ₋₁×(s/√n),其中t₀.₀₂₅,ₙ₋₁是自由度为n-1的t分布的临界值。3区间宽度与样本量为了获得指定宽度的置信区间,可以反向计算所需的样本量。样本量与区间宽度的平方成反比,这意味着将区间宽度减半需要增加四倍的样本量。单个总体比例的置信区间置信水平临界值z总体比例p的置信区间基于样本比例p̂的近似正态分布。当样本量足够大时(通常要求np̂≥5且n(1-p̂)≥5),样本比例近似服从正态分布,均值为p,标准差为√[p(1-p)/n]。95%置信区间的计算公式为:p̂±1.96×√[p̂(1-p̂)/n]。这个区间宽度随样本量增加而减小,随p̂接近0.5而增大。当p̂接近0或1时,区间可能需要特殊处理以避免超出[0,1]范围。在实际应用中,可以利用这一置信区间估计选民支持率、产品合格率等各种比例参数,并量化这些估计的精确度。两个总体均值差的置信区间1独立样本情况当从两个独立总体中抽取样本时,均值差X̄₁-X̄₂的置信区间基于两个样本均值之差的抽样分布。对于大样本或正态总体,可以使用正态近似或t分布构建置信区间。2方差已知情况当两个总体的方差σ₁²和σ₂²已知时,95%置信区间为:(X̄₁-X̄₂)±1.96×√(σ₁²/n₁+σ₂²/n₂)。这种情况在实践中较少见,但是理论上重要。3方差未知且假设相等当两个总体的方差未知但假设相等时,可以使用合并方差估计和t分布构建置信区间:(X̄₁-X̄₂)±t₀.₀₂₅,ₙ₁₊ₙ₂₋₂×√[s_p²×(1/n₁+1/n₂)],其中s_p²是合并方差估计。4方差未知且不假设相等当不假设两个总体方差相等时,可以使用Welch-Satterthwaite修正的t检验和自由度近似值。这提供了更保守但更稳健的置信区间。两个总体比例差的置信区间n₁第一样本量从总体1中抽取的样本规模n₂第二样本量从总体2中抽取的样本规模p̂₁第一样本比例样本1中具有特定特征的单位比例p̂₂第二样本比例样本2中具有特定特征的单位比例两个总体比例差p₁-p₂的置信区间基于两个样本比例之差p̂₁-p̂₂的抽样分布。当样本量足够大时(通常要求各组的np和n(1-p)都至少为5),样本比例之差近似服从正态分布。95%置信区间的计算公式为:(p̂₁-p̂₂)±1.96×√[p̂₁(1-p̂₁)/n₁+p̂₂(1-p̂₂)/n₂]。这个区间可用于比较两组的成功率、感染率或任何其他比例参数,并评估差异的统计显著性和实际重要性。假设检验研究假设假设检验始于提出研究假设,即关于总体参数的猜测或主张。这通常来源于理论预测、先前研究或实际问题。研究假设需要转化为统计假设才能进行检验。统计假设统计假设包括虚无假设(H₀)和备择假设(H₁)。虚无假设通常表示"无效应"或"无差异",是被检验的假设。备择假设表示虚无假设不成立的情况,通常反映研究者期望发现的效应。检验逻辑假设检验的逻辑是间接推理:我们假设H₀为真,然后评估观测数据与这一假设的相容性。如果数据与H₀高度不相容(即小概率事件发生),我们拒绝H₀支持H₁;否则,我们不拒绝H₀。假设检验的基本步骤提出假设明确表述虚无假设(H₀)和备择假设(H₁)。虚无假设应包含等号,而备择假设可以是单侧(大于或小于)或双侧(不等于)的。确定显著性水平选择显著性水平α,表示在H₀为真时错误拒绝它的最大概率。常用的显著性水平有0.05、0.01和0.10。选择适当的检验统计量根据问题性质和数据特征,选择合适的检验统计量。常用的统计量包括z统计量、t统计量、F统计量和卡方统计量等。计算检验统计量和p值基于样本数据计算检验统计量的值,并确定对应的p值。p值是在H₀为真的条件下,观察到当前或更极端结果的概率。做出决策并解释如果p值小于α,拒绝H₀;否则,不拒绝H₀。根据检验结果对研究问题给出实质性解释,包括效应的大小和实际重要性。第一类错误和第二类错误H₀为真H₀为假拒绝H₀第一类错误(α)正确决策不拒绝H₀正确决策第二类错误(β)假设检验中存在两种可能的错误。第一类错误(错误拒绝)是指H₀为真时拒绝它的错误。第一类错误的概率由显著性水平α控制,这是研究者直接设定的。第二类错误(错误接受)是指H₀为假时未能拒绝它的错误。第二类错误的概率为β,其补1-β称为检验的功效,表示H₀为假时正确拒绝它的概率。功效受样本量、效应大小和显著性水平的影响。第一类和第二类错误之间存在权衡:降低一种错误的概率通常会增加另一种错误的概率。在实际应用中,需要根据具体情况平衡这两种错误的风险。显著性水平和p值显著性水平α显著性水平α是研究者预先设定的阈值,表示在H₀为真时错误拒绝它的最大可接受概率。α值的选择反映了研究者对第一类错误的容忍度。常用的α值包括0.05、0.01和0.10,其中0.05是最常见的选择。p值的定义p值是在H₀为真的条件下,观察到当前或更极端结果的概率。它衡量了样本数据与虚无假设的不相容程度。p值越小,表示证据越强烈地反对H₀。p值是基于样本数据计算得出的,而不是预先设定的。p值与决策传统方法是将p值与α进行比较:如果p<α,则拒绝H₀;否则,不拒绝H₀。更现代的观点是将p值视为连续的证据度量,而不仅仅作为二元决策的依据。无论如何,p值不等于假设为真的概率。单个总体均值的假设检验z检验(已知σ)当总体标准差σ已知时,可以使用z检验。检验统计量z=(X̄-μ₀)/(σ/√n)在H₀:μ=μ₀为真时服从标准正态分布。这种情况在实践中较少见,因为总体标准差通常未知。t检验(未知σ)当总体标准差未知时,使用t检验。检验统计量t=(X̄-μ₀)/(s/√n)在H₀为真且总体近似正态时服从自由度为n-1的t分布。这是实践中最常用的情况。适用条件与稳健性t检验理论上要求总体服从正态分布,但对这一假设的轻微违背相当稳健,特别是当样本量较大时。然而,对于严重偏斜的分布或存在明显异常值的情况,可能需要考虑非参数方法。单个总体比例的假设检验单个总体比例的假设检验用于检验一个总体比例p是否等于某个特定值p₀。常见的假设形式包括H₀:p=p₀vs.H₁:p≠p₀(双侧)或H₁:p>p₀/p<p₀(单侧)。检验统计量为z=(p̂-p₀)/√[p₀(1-p₀)/n],其中p̂是样本比例。在H₀为真且np₀≥5且n(1-p₀)≥5时,z近似服从标准正态分布。p值根据z值和备择假设的形式(单侧或双侧)计算。上图显示了在α=0.05,真实比例与H₀假设差异为0.1的情况下,不同样本量对应的检验功效。随着样本量增加,检验正确拒绝错误H₀的能力显著提高。两个总体均值差的假设检验1独立样本t检验独立样本t检验用于比较两个独立总体的均值。虚无假设通常为H₀:μ₁=μ₂或μ₁-μ₂=0。检验统计量和自由度的计算方式取决于是否假设两个总体方差相等。2等方差假设当假设两个总体方差相等时,使用合并方差估计和自由度为n₁+n₂-2的t分布。检验统计量t=(X̄₁-X̄₂)/√[s_p²×(1/n₁+1/n₂)],其中s_p²是合并样本方差。3不等方差假设当不假设两个总体方差相等时,使用Welch-Satterthwaite近似和修正自由度。检验统计量t=(X̄₁-X̄₂)/√(s₁²/n₁+s₂²/n₂)。这种方法更为稳健,在样本量不等或方差差异大时尤为重要。4配对t检验当两个样本是配对的(如前后测量)时,应使用配对t检验。这时将差值视为单个样本,并使用单样本t检验。配对设计通常比独立样本设计具有更高的统计功效。两个总体比例差的假设检验1假设设定两个总体比例差的假设检验用于比较两个独立总体的比例p₁和p₂。虚无假设通常为H₀:p₁=p₂或p₁-p₂=0,备择假设可以是双侧(H₁:p₁≠p₂)或单侧(H₁:p₁>p₂或p₁<p₂)。2检验统计量检验统计量z=(p̂₁-p̂₂)/√[p̂(1-p̂)×(1/n₁+1/n₂)],其中p̂₁和p̂₂是两个样本比例,p̂是合并比例[(n₁p̂₁+n₂p̂₂)/(n₁+n₂)]。在H₀为真且样本量足够大时,z近似服从标准正态分布。3适用条件这一检验要求两个样本是相互独立的随机样本,且样本量足够大使得正态近似有效。一般建议各组的np̂和n(1-p̂)都至少为5。对于小样本或极端比例,可能需要使用Fisher精确检验或其他方法。方差分析(ANOVA)基本原理方差分析(ANOVA)是比较三个或更多总体均值的统计方法。它基于将总变异分解为组间变异(处理效应)和组内变异(随机误差)两部分,然后比较这两部分变异的相对大小来判断均值差异是否显著。F检验ANOVA使用F检验来检验各组均值是否相等。F统计量是组间均方与组内均方的比值,在H₀(所有均值相等)为真时服从F分布。F值越大,表明组间差异相对于组内差异越显著,越有证据拒绝H₀。多重比较当ANOVA拒绝虚无假设时,通常需要进行事后多重比较,以确定具体哪些组之间存在显著差异。常用的多重比较方法包括TukeyHSD、Bonferroni、Scheffé等,它们在不同程度上控制了总体错误率。单因素方差分析单因素方差分析用于研究一个分类自变量(因素)对连续因变量的影响。它比较k个总体的均值,虚无假设为H₀:μ₁=μ₂=...=μₖ,备择假设为至少有两个均值不相等。单因素ANOVA的计算涉及几个关键步骤:计算总平方和(SST)、组间平方和(SSB)和组内平方和(SSW),其中SST=SSB+SSW;计算相应的自由度;计算均方(MS=SS/df);计算F统计量(F=MSB/MSW);根据F分布确定p值。单因素ANOVA的假设包括:各组内的观测值是独立的随机样本;各组内的观测值服从正态分布;各组具有相同的方差(方差齐性)。在实践中,ANOVA对正态性假设的轻微违背较为稳健,但对方差齐性假设的违背更为敏感。双因素方差分析主效应A因素A的平均效应1主效应B因素B的平均效应2交互效应AB因素A和B的联合效应3误差组内随机变异4双因素方差分析用于同时研究两个因素对因变量的影响,以及这两个因素之间的可能交互作用。它比单因素ANOVA更为复杂,但也提供了更丰富的信息。在双因素ANOVA中,总变异分解为四个部分:因素A的主效应、因素B的主效应、A和B的交互效应、以及随机误差。每个效应都有一个对应的假设检验,使用F检验来评估其统计显著性。交互效应是双因素ANOVA的关键特征,它表示一个因素的效应随另一个因素的水平而变化。存在显著交互效应时,主效应的解释需要格外谨慎,通常需要对每个因素组合的均值进行具体分析。卡方检验列联表卡方检验通常用于分析列联表数据,即将观测单位分类到两个或多个分类变量的各个类别中。最简单的是2×2列联表,表示两个二分变量的关系,更复杂的情况可以是任意r×c表。检验统计量卡方统计量计算公式为χ²=Σ[(O-E)²/E],其中O是观测频数,E是期望频数。期望频数基于行和列的边际总和计算,假设行变量和列变量相互独立。在H₀为真时,χ²近似服从自由度为(r-1)(c-1)的卡方分布。使用注意卡方检验的有效性要求期望频数不能太小。通常建议所有单元格的期望频数都应大于5。对于小样本或稀疏表格,可能需要使用Fisher精确检验或其他方法。此外,卡方检验只检验关联的存在,不提供关联强度或方向的信息。独立性检验因素B₁因素B₂总计因素A₁n₁₁n₁₂n₁.因素A₂n₂₁n₂₂n₂.总计n.₁n.₂n独立性检验是卡方检验的一种常见应用,用于检验两个分类变量之间是否存在关联。虚无假设H₀是两个变量相互独立,备择假设H₁是它们之间存在某种关联。在独立性假设下,单元格的期望频数计算为E_ij=(n_i.×n_.j)/n,其中n_i.是第i行的总和,n_.j是第j列的总和,n是总样本量。卡方统计量χ²=Σ[(O_ij-E_ij)²/E_ij]在H₀为真时近似服从自由度为(r-1)(c-1)的卡方分布。独立性检验在医学、社会科学和市场研究中有广泛应用,如检验治疗方法与疾病恢复的关联、社会经济地位与政治观点的关联、产品偏好与人口特征的关联等。拟合优度检验检验目的拟合优度检验用于判断观测数据是否符合特定的理论分布或模型。它比较观测频数与基于理论模型计算的期望频数,评估两者之间的差异是否显著。检验过程首先确定理论模型并计算期望频数;然后计算卡方统计量χ²=Σ[(O_i-E_i)²/E_i];最后确定自由度(通常为类别数减去估计参数数再减1)并计算p值。小p值表示数据与理论模型不符。应用示例拟合优度检验可用于验证掷骰子或硬币的公平性、检验人口数据是否服从正态分布、评估遗传学中孟德尔比例的符合程度、检验调查问卷中回答模式的随机性等各种场景。非参数检验什么是非参数检验非参数检验是一类不依赖于总体分布形式的统计检验方法。与参数检验(如t检验、F检验)不同,非参数检验通常不要求数据服从正态分布或具有等方差,适用范围更广泛。它们也能处理序数数据,而不仅限于等距或比率尺度的数据。优势与局限非参数检验的主要优势是适用性广、稳健性强,对异常值不敏感,并且计算通常较为简单。其主要局限是当参数检验的假设成立时,非参数检验的统计功效(检测真实效应的能力)通常低于对应的参数检验。常见方法常见的非参数检验包括:符号检验和威尔科克森符号秩检验(单样本或配对样本);曼-惠特尼U检验和科尔莫哥洛夫-斯米尔诺夫检验(两独立样本);克鲁斯卡尔-沃利斯检验(多个独立样本);弗里德曼检验(多个相关样本)等。符号检验符号检验是最简单的非参数检验之一,用于检验单个样本的中位数是否等于某个特定值,或者配对样本的差异是否显著。它只考虑差值的符号(正、负或零),而忽略差值的大小。在单样本情况下,符号检验的虚无假设是总体中位数等于特定值M₀。对每个观测值,记录它是大于(+)、小于(-)还是等于(0)M₀。在H₀为真时,正号和负号的数量应该大致相等(零值通常被排除)。检验统计量是较少出现的符号数量。对于大样本,可以使用正态近似;对于小样本,可以使用二项分布准确概率。符号检验的主要优点是极其简单且假设最少,缺点是统计功效较低,因为它没有利用数据的全部信息。威尔科克森符号秩检验1计算差值对于单样本检验,计算每个观测值与假设中位数的差值;对于配对样本检验,计算每对观测值的差值。忽略差值为零的对。2排列秩次对差值的绝对值从小到大排序,并赋予秩次(1,2,...,n)。如有并列,则赋予平均秩次。记录每个秩次对应的原始差值的符号。3计算统计量分别计算正差值秩次和W⁺和负差值秩次和W⁻。检验统计量W取W⁺和W⁻中的较小值。在H₀为真时,预期W⁺和W⁻大致相等。4确定显著性对于小样本,使用威尔科克森符号秩表;对于大样本(n>15),可以使用正态近似。如果W小于等于临界值,则拒绝H₀。曼-惠特尼U检验1基本原理曼-惠特尼U检验(也称为威尔科克森秩和检验)是比较两个独立样本中位数差异的非参数方法。它基于秩次而非原始数据值,因此对异常值不敏感,且不要求正态分布假设。2检验过程将两组样本合并并按大小排序,赋予秩次;计算每组的秩和R₁和R₂;计算U统计量(U=n₁n₂+n₁(n₁+1)/2-R₁);确定U的抽样分布;计算p值并做出决策。3适用范围曼-惠特尼U检验适用于两个独立样本的比较,特别是当数据不满足t检验的假设时(如严重偏离正态分布或存在异常值)。它可以用于等级数据以及经过排序的数值数据。对于小样本,它是t检验的有力替代。相关分析正相关当一个变量增加时,另一个变量也倾向于增加,形成右上升趋势。例如,身高与体重、学习时间与考试成绩通常呈正相关。正相关系数的取值范围为0到+1,值越大表示正相关关系越强。负相关当一个变量增加时,另一个变量倾向于减少,形成右下降趋势。例如,商品价格与销售量、温度与燃气消耗量通常呈负相关。负相关系数的取值范围为-1到0,绝对值越大表示负相关关系越强。无相关两个变量之间没有明显的关系,散点图呈现随机分布模式。例如,人的身高和智商、股票价格和当天温度通常没有相关性。相关系数接近0表示两个变量几乎没有线性关系。Pearson相关系数强相关(|r|>0.7)中等相关(0.3<|r|<0.7)弱相关(|r|<0.3)Pearson相关系数(r)衡量两个连续变量之间线性关系的强度和方向。它的计算基于两个变量的协方差除以它们标准差的乘积。相关系数取值范围为-1到+1,其中-1表示完美负相关,+1表示完美正相关,0表示无线性相关。Pearson相关分析假设两个变量近似正态分布,且它们之间的关系是线性的。对于非线性关系或存在极端值的数据,Pearson相关可能低估真实的关联程度或产生误导性结果。相关系数的平方(r²)被称为决定系数,表示一个变量方差中可由另一个变量线性关系解释的比例。例如,r=0.7意味着约49%的变异可被解释。重要的是,相关不等于因果,高相关性不一定意味着存在因果关系。Spearman等级相关系数基本概念Spearman等级相关系数(ρ或r_s)是一种非参数相关指标,衡量两个变量之间的单调关系强度。与Pearson相关不同,它基于变量的秩次而非原始值,因此对异常值不敏感,且不要求变量服从正态分布。计算方法将每个变量的观测值转换为秩次(排序位置);计算每对观测值的秩次差的平方;使用公式r_s=1-6Σd²/[n(n²-1)],其中d是秩次差,n是样本量。或者,也可先转换为秩次再应用Pearson公式。适用情况Spearman相关适用于以下情况:数据不满足正态性假设;存在异常值可能扭曲Pearson相关;变量是序数尺度;关心的是单调关系而非严格线性关系;样本量较小。因其稳健性,它在许多实际应用中非常有用。简单线性回归XY简单线性回归是分析一个自变量(预测变量)X与一个因变量(响应变量)Y之间关系的统计方法。它假设X和Y之间存在线性关系,并试图找到最能拟合数据的直线。回归方程的形式为Y=β₀+β₁X+ε,其中β₀是截距,β₁是斜率,ε是随机误差项。β₀和β₁是未知参数,需要从数据中估计。直观上,β₁表示X每增加一个单位,Y的平均变化量。线性回归的核心假设包括:X和Y之间存在线性关系;随机误差项ε独立同分布,均值为0,方差恒定(同方差性);ε服从正态分布;X的值是固定的或测量误差可忽略。这些假设对于有效参数估计和有效推断至关重要。最小二乘法确定目标函数最小二乘法的目标是最小化实际观测值与模型预测值之间的残差平方和。目标函数Q=Σ(y_i-ŷ_i)²=Σ(y_i-β₀-β₁x_i)²,其中(x_i,y_i)是观测数据点,ŷ_i是相应的预测值。寻找最优解通过对Q关于β₀和β₁求偏导数并令其等于零,得到两个正规方程。解这两个方程得到参数估计值:β̂₀=ȳ-β̂₁x̄和β̂₁=Σ(x_i-x̄)(y_i-ȳ)/Σ(x_i-x̄)²,其中x̄和ȳ分别是x和y的样本均值。评估拟合优度确定了回归方程后,需要评估其拟合数据的好坏。常用指标包括决定系数R²、残差的分布和图形分析、F检验等。良好的拟合应具有高R²值和满足残差分析的各项要求。回归系数的显著性检验假设设定回归系数的显著性检验用于判断自变量X对因变量Y是否有真实影响。对于斜率β₁,虚无假设通常为H₀:β₁=0(X对Y没有影响),备择假设为H₁:β₁≠0(X对Y有影响)。1t统计量计算检验统计量为t=β̂₁/SE(β̂₁),其中β̂₁是斜率的估计值,SE(β̂₁)是其标准误。在H₀为真且回归假设成立的条件下,t统计量服从自由度为n-2的t分布。2置信区间构建β₁的(1-α)×100%置信区间为β̂₁±t_{α/2,n-2}×SE(β̂₁)。如果置信区间不包含0,则在相应的显著性水平下拒绝H₀,认为X对Y有显著影响。3结果解释如果p值小于显著性水平α,则拒绝H₀,认为X对Y有统计显著的影响。但统计显著性不等同于实际重要性,还需考虑效应大小和实际背景。4决定系数R²决定系数R²是评估回归模型拟合优度的重要指标,它表示因变量Y的变异中可被自变量X解释的比例。R²的取值范围为0到1,值越接近1表示模型拟合越好。R²=0表示模型完全不能解释Y的变异;R²=1表示模型完美解释了Y的所有变异。从计算角度,R²=SSR/SST=1-SSE/SST,其中SST是总平方和(反映Y的总变异),SSR是回归平方和(模型解释的变异),SSE是误差平方和(未解释的变异)。还可以证明,R²等于X和Y之间Pearson相关系数的平方。在实际应用中,需要注意R²有其局限性:它只反映拟合优度而非模型的适当性;在多元回归中,加入更多自变量总会增加R²,这导致了调整R²的引入;高R²不意味着因果关系;R²对极端值和高影响点比较敏感。多元线性回归模型形式多元线性回归将一个因变量Y与多个自变量X₁,X₂,...,Xₖ关联起来,模型形式为Y=β₀+β₁X₁+β₂X₂+...+βₖXₖ+ε。每个回归系数βⱼ表示在其他自变量保持不变的情况下,Xⱼ每变化一个单位对Y的平均影响。参数估计多元回归的参数估计通常使用最小二乘法,但计算过程比简单回归复杂得多,通常需要矩阵代数或统计软件。每个回归系数β̂ⱼ都有相应的标准误、t统计量和p值,用于检验其显著性。整体拟合评估整体模型的显著性通过F检验评估,检验所有回归系数是否同时为零。拟合优度通过R²或调整R²评估。还需进行残差分析,检查线性性、同方差性、正态性和独立性等假设。多重共线性1概念与危害多重共线性是指自变量之间存在高度相关关系的情况。严重的多重共线性会导致回归系数估计不稳定、标准误增大、统计显著性降低,使得模型的解释变得困难且预测能力可能受损。2诊断方法常用的多重共线性诊断方法包括:检查自变量之间的相关系数矩阵;计算方差膨胀因子(VIF),通常VIF>10表示严重的多重共线性;条件数分析,条件数越大表示多重共线性越严重;观察回归系数在添加/删除变量时的变化。3处理策略处理多重共线性的方法包括:删除高度相关的变量;将相关变量组合成新变量(如通过主成分分析);使用岭回归等正则化方法;增加样本量;对自变量进行中心化处理;使用偏最小二乘法等特殊回归技术。逐步回归前向选择从零开始逐个添加变量1后向剔除从全模型逐个删除变量2逐步法添加和删除变量交替进行3逐步回归是一种自动化的变量选择方法,旨在从众多潜在自变量中筛选出最重要的预测因子。它基于某种标准(如F检验的p值、AIC或BIC)决定哪些变量应该包含在模型中,哪些应该排除。前向选择从空模型开始,每次添加一个最显著的变量,直到没有变量满足入选标准。后向剔除从包含所有变量的模型开始,每次删除一个最不显著的变量,直到所有剩余变量都满足保留标准。逐步法结合了前两种方法,允许变量在模型构建过程中进入和退出。尽管逐步回归在实践中很流行,但它存在一些问题:可能过度拟合数据;得到的p值和R²可能有偏;不同的选择标准和进入/退出阈值可能导致不同结果;可能错过最优的变量组合;忽略了专业知识在变量选择中的作用。逻辑回归XP(Y=1)逻辑回归是一种分析二分类因变量(如成功/失败、是/否)与一组自变量关系的统计方法。与线性回归不同,逻辑回归不是直接预测Y的值,而是预测Y=1的概率P(Y=1)。逻辑回归的关键是logit变换:logit(P)=ln[P/(1-P)]=β₀+β₁X₁+...+βₖXₖ。通过这个变换,概率P被映射到整个实数轴上,从而可以用线性函数建模。逆变换得到概率P=1/[1+exp(-(β₀+β₁X₁+...+βₖXₖ))],这是一个S形曲线。逻辑回归的参数估计通常使用最大似然法而非最小二乘法。回归系数β的解释与线性回归不同:βⱼ表示在其他变量不变的情况下,Xⱼ每增加一个单位,对数优势比(log-odds)增加βⱼ个单位。exp(βⱼ)则表示优势比的倍数变化。贝叶斯统计推断贝叶斯方法的基础贝叶斯统计基于贝叶斯定理,它结合先验信息和样本数据来更新对参数的信念。核心公式为P(θ|data)∝P(data|θ)×P(θ),其中P(θ)是先验分布,P(data|θ)是似然函数,P(θ|data)是后验分布。与频率派方法的对比贝叶斯方法将参数视为随机变量,并直接计算其概率分布;而频率派方法将参数视为固定但未知的常数。贝叶斯方法自然纳入先验信息,允许在样本量小时仍能得出有意义的结论,且直接提供参数的概率陈述。计算方法早期的贝叶斯分析受限于计算困难,但现代计算方法(尤其是马尔科夫链蒙特卡洛方法)使得复杂贝叶斯模型的计算成为可能。常用的贝叶斯计算软件包括BUGS、JAGS、Stan和PyMC3等。先验分布和后验分布先验分布先验分布P(θ)表示在观察数据之前对参数θ的信念。它可以基于历史数据、领域知识或主观判断来确定。常见的先验分布类型包括:信息性先验(包含强有力的先验信息)、弱信息性先验(提供温和的约束)和无信息先验(尽量减少对后验的影响)。似然函数似然函数P(data|θ)表示在参数θ给定的条件下观察到当前数据的概率(或密度)。它是数据与模型的联系,反映了数据对不同参数值的支持程度。似然函数与频率派方法中的相同,是贝叶斯和频率派统计的共同元素。后验分布后验分布P(θ|data)结合了先验信息和数据信息,表示在观察数据后对参数θ的更新信念。随着数据量增加,数据的影响通常会压倒先验的影响,除非先验非常强。后验分布可用于估计、预测和决策。贝叶斯估计P(θ)先验分布先验信念的数学表示P(data|θ)似然函数数据提供的信息P(θ|data)后验分布更新后的信念E(θ|data)后验均值常用的点估计贝叶斯估计基于参数的后验分布进行,可以提供点估计和区间估计。常用的贝叶斯点估计包括:后验均值(最小化均方误差)、后验中位数(最小化绝对误差)和后验众数(最大化后验概率)。贝叶斯区间估计使用后验概率区间,称为可信区间。(1-α)×100%可信区间是包含参数θ的后验概率为1-α的区间。与频率派置信区间不同,可信区间有直接的概率解释:参数θ有(1-α)×100%的后验概率落在该区间内。贝叶斯估计的优势包括:能够纳入先验信息;提供参数的完整后验分布;允许对任何函数的参数进行直接推断;适用于小样本情况;提供概率陈述的自然框架。这些特性使贝叶斯方法在许多复杂问题中特别有价值。贝叶斯因子1极强证据BF>1002非常强证据30<BF<1003强证据10<BF<304中等证据3<BF<105弱证据1<BF<3贝叶斯因子(BF)是贝叶斯假设检验的核心工具,用于比较两个竞争假设的相对证据强度。BF₁₀=P(data|H₁)/P(data|H₀),表示数据支持H₁相对于H₀的程度。贝叶斯因子可以看作是假设的后验优势比与先验优势比的比值,公式为BF₁₀=[P(H₁|data)/P(H₀|data)]/[P(H₁)/P(H₀)]。这表明贝叶斯因子量化了数据如何改变了对假设的相对信念。贝叶斯因子的一个关键优势是避免了频率派p值的一些问题,如样本量敏感性和不能表示支持H₀的证据。它允许在证据不充分时保持不确定,并且可以累积多个研究的证据。上图展示了Jeffr

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论