2021年度统计学贾俊平考研知识点总结_第1页
2021年度统计学贾俊平考研知识点总结_第2页
2021年度统计学贾俊平考研知识点总结_第3页
2021年度统计学贾俊平考研知识点总结_第4页
已阅读5页,还剩63页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

记录学重点笔记第一章导论ー、比较描述记录和推断记录:数据分析是通过记录办法研究数据,其所用办法可分为描述记录和推断记录。(1)描述性记录:研究ー组数据组织、整顿和描述记录学分支,是社会科学实证硏究中最惯用办法,也是记录分析中必不可少ー步。内容涉及获得硏究所需要数据、用图表形式对数据进行加工解决和显示,进而通过综合、概括与分析,得出反映所研究现象普通性特性。(2)推断记录学:是研究如何运用样本数据对总体数量特性进行推断记录学分支。研究者所关怀是总体某些特性,但许多总体太大,无法对每个个体进行测量,有时咱们得到数据往往需要破坏性实验,这就需要抽取某些个体即样本进行测量,然后依照样本数据对所研究总体特性进行推断,这就是推断记录所要解决问题。其内容涉及抽样分布理论,参数预计,假设检査,方差分析,回归分析,时间序列分析等等。(3)两者关系:描述记录是基本,推断记录是主体二、比较分类数据、顺序数据和数值型数据:依照所采用计量尺度不同,可以将记录数据分为分类数据、顺序数据和数值型数据。(1)分类数据是只能归于某一类别非数字型数据.它是对事物进行分类成果,数据体现为类别,是用文字来表达,它是由分类尺度计量形成。(2)顺序数量是只能归于某一有序类别非数字型数据。也是对事物进行分类成果,但这些类别是有顺序,它是由顺序尺度计量形成。(3)数值型数据是按数字尺度测量观测值。其成果体现为详细数值,现实中咱们所解决大多数都是数值型数据。总之,分类数据和顺序数据阐明是事物本质特性,普通是用文字来表达,其成果均体现为类别,因而也统称为定型数据或品质数据;数值型数据阐明是现象数量特性,普通是用数值来体现,因而可称为定量数据或数量数据。三、比较总体、样本、参数、记录量和变量:(1)总体是包括所研究所有个体集合。普通是咱们所关怀某些个体构成,如由各种公司所构成集合,各种居民户所构成集合。总体依照其所包括单位数目与否可数可以分为有限总体和无限总体。有限总体是指总体范畴可以明确拟定,并且元素数目是有限可数,需要注意是,记录意义上总体,普通不是一群人或某些物品集合,而是ー组观测数据。(2)样本是从总体中抽取一某些元素集合,构成样本元素数目称为样本容量。例如咱们从ー批灯泡中随机抽取100个,这100个灯泡就构成了一种样本。(3)参数是用来描述总体特性概括性数字度量。有总体平均数、原则差、总体比例。由于总体参数普通是不懂得,因此参数是ー种未知常数。因此オ需要进行抽样,依照样本来预计总体参数(4)样本量是用来描述样本特性概括性数字度量。记录量是依照样本数据计算出来一种量,普通涉及:样本平均数、样本原则差、样本比例等,由于样本是咱们已经抽出来,因此记录量总是懂得,抽样目就是要依照样本记录量推断总体参数。(5)变量是阐明现象某种特性概念。变量特点是从一次观测到下一次观测会呈现出差别或变化,分为分类变量、顺序变量、数值型变量、离散型变量和持续型变量。第二章数据收集ー、调查方案重要内容:(1)调查目:是调查所要达到详细目的,她所回答是“为什么调查""要解决什么样问题”等(2)调核对象和调查单位:调核对象是依照调查目拟定调查研究总体或调查范畴。调查单位是构成调查队选中每ー种单位,它是调查项目和调查内容承担着或载体。所要解决是"向谁调査"由谁来提供所需数据(3)调查项目和调查表:调查项目要解决问题是"调查什么",也就是调查详细内容,大多数记录调查中,调查项目普通以表格形式来体现,称为调查表二、数据误差:记录数据误差普通是指记录数据与客观现实之间差距,误差类型重要有抽样误差和非抽样误差两类。(1)抽样误差:重要是指在用样本数据进行推断时所产生随机误差。只存在于概率抽样中。此类误差普通是无法消除,但事先可以进行控制和计算。影响抽样误差大小因素:(a)抽样单位数目。在其她条件不变状况下,抽样单位数目越多,抽样误差越小;反之,越大。这是由于随着样本数目增多,样本构造越接近总体,抽样调查也就越接近全面调查,当样本扩大到总体时,则为全面调查,也就不存在抽样误差了。(b)总体背研究标志变异限度。在其她条件不变状况下,总体标志变异限度越小,抽样误差越小,反之,越大。抽样误差和总体标志变异限度呈正比变化。这是由于总体变异限度小,表达总体各单位标志值之间差别小。则样本指标与总体指标之间差别也也许小;如果总体各单位标志值相等,则标志变动度为零,样本指标等于总体指标,此时不存在抽样误差(c)抽样办法选取。重复抽样和非重复抽样抽样误差大小不同。采用不重复抽样比采用重复抽样抽样误差小(d)抽样组织方式不同。采用不同组织方式,会有不同抽样误差,这是由于不同抽样组织所抽中样本,对于总体代表性也不同,普通,常运用不同抽样误差,作出判断各种抽样组织方式比较原则。(2)非抽样误差:重要涉及:抽样框误差,回答误差、无回答误差、调查员误差;是调查过程中由于调查者或被调查者人为因素所导致误差。调查者所导致误差重要有:调査方案中关于规定或解释不明确导致填报错误、抄录错误、汇总错误等;被调查者所导致误差重要有:因人为因素干扰形成故意虚报或瞒报调查数据。非抽样误差理论上是可以消除。三、简朴随机抽样:(1)概念:从总体ル个单位中随机地抽取〃个单位作为样本,每个单位入抽样本概率是相等;(2)特点:a、简朴、直观,在抽样框完整时,可直接从中抽取样本b、用样本记录量对目的量进行预计比较以便(3)局限性当ル很大时,不易构造抽样框抽出单位很分散,给实行调查增长了困难没有运用其他辅助信息以提高预计效率第三章数据整顿与展示ー、数据排序目:(1)数据排序是按一定顺序将数据排列,以发现某些明显特性或趋势,找到解决问题线索(2)排序尚有助于对数据检查纠错,以及为重新归类或分组等提供以便。(3)在某些场合,排序自身就是分析目之一.二、数据分组:是依照记录研究需要,将原始数据按照某种原则化提成不同组别,分组后数据成为分组数据。数据经分组后再计算出各组中数据浮现频数,就形成了一张频数分布表,分组办法有单变量值分组和组距分组两种,单变量分组普通只适合于离散变量,且在变量值较少状况下使用,在持续变量或变量值较多状况下,普通采用组距分组。三、组距分组环节和原则:(1)环节:a、拟定组数:组数拟定应以可以显示数据分布特性和规律为目。在实际分组沢=1+典时,可以按Sturges提出经验公式来拟定组数K 32)b、扌以定组距:组距(QassWidth)是ー种组上限与下限之差,可依照所有数据最大值和最小值及所分组数来拟定,即组距=(最大值-最小值)+组数c、记录出各组频数并整顿成频数分布表(2)原则:采用组距分组时,需遵循"不重不漏"原则,"不重”是指ー项数据只能分在其中某ー组,不能在其她组中重复浮现;"不漏"是指组别可以穷尽,即在所分所有组别中每项数据都能分在其中某ー组,不能漏掉。为解决不重问题,记录分组时习惯上规定"上组限不在内",即当相邻两组上下限重叠时,正好等于某ー组上限变量值不算在本组内,而计算在下ー组内。固然,对于离散变量,咱们可以采用相邻两组组限间断办法解决"不重”问题。也可以对一种组上限值采用小数点形式,小数点位数依照所规定精度详细拟定。缺陷:组距分组掩盖了各组内数据分布状况四、直方图和条形图区别:一方面,条形图是用条形长度(横置时)表达各类别频数多少,其宽度则是固定;直方图是用面积表达各组频数多少,频数高度表达每ー组频数或频率,宽度则表达各组组距,因而高度与宽度均故意义。另一方面,由于分组数据具备持续性,直方图各矩形普通是持续排列,而条形图则是分开排列。最后,条形图重要用于展示各类数据,而直方图则重要用于展示数据型数据。五、绘制线图应注意问题:(1)时间普通绘在横轴,观测数据绘在纵轴(2)图形长宽比例要恰当,普通应绘成横轴略不不大于纵轴长方形,其长宽比例大体是10:7.(3)普通状况下,纵轴数据下端应从。开始,以便于比较,数据与。之间间距过大,可以采用折断符号将纵轴折断六、设计登记表注意问题:一方面,要合理安排登记表构造,例如表号、行标题、列标题、数字资料位置应安排合理。另一方面,表头普通应涉及表号、总标题和表中数据单位等内容,总标题应简要确切地概括出登记表内容。再次,表中上下两条线普通用粗线,中间其她线用细线,表左右两边不封口,列标题之间可以用竖线分开,而行标题之间普通不必用横线隔开。最后,在使用登记表时,必要时可在表下方加上注释,特别注意标明数据来源。七、数据审核:(1)原始数据:a、完整性审核:检查应调查单位或个体与否有漏掉;所有调查项目或指标与否填写齐全b、精确性审核:检查数据与否真实反映客观实际状况,内容与否符合实际;检查数据与否有错误,计算与否对的等(2)二手数据:a、合用性审核:弄清晰数据来源、数据口径以及关于背景材料;拟定数据与否符合自己分析硏究需要b、时效性审核:尽量使用最新数据ハ、数据整顿与显示(基本问题)(1)要弄清所面对数据类型,由于不同类型数据,所采用解决方式和办法是不同(2)对分类数据和顺序数据重要是做分类整顿(3)对数值型数据则重要是做分组整顿(4)适合于j氐层次数据整顿和显示办法也适合于高层次数据;但适合于高层次数据整顿和显示办法并不适合于{氐层次数据第四章数据概括性度量ー、集中趋势和离散趋势度量:(1)集中趋势是指一组数据向某ー中心值靠拢倾向,它反映了一组数据中心点位置所在。描述集中趋势所采用测度值分为:众数、中位数和分位数、平均数.(2)离散趋势是数据分布另ー种重要特性,它所反映各变量值远离其中心值得限度,因而也称为离中趋势,数据离散限度越大,集中趋势测度值对该组数据代表性越差,反之,代表性越好。描述数据离散限度所采用测度值,依照所根据数据类型不同重要有异种比率、四分位差、方差和原则差。此外尚有极差、平均差以及测度相对离散限度离散系数。二、众数、中位数和平均数:(1)三者关系:从分布角度看,众数始终是ー组数据分布最高峰值,中位数处在ー组数据中间位置上值,而平均数则是所有数据算数平均。因而,对于具备单峰分布大多数数据而言,众数、中位数和平均数之间具备如下关系:(a)如果数据分布是对称,众数、中位数、平均数必然相等(b)如果数据是左偏分布,阐明数据存在极小值,必然拉动平均数向极小值一方接近,而众数和中位数由于是位置代表值,不受极值影响,因而三者关系为众数〉中位数〉平均数(c)如果数据是右偏分布,阐明数据存在极大值,必然拉动平均数向极大值一方接近,则众数〈中位数(平均数。(2)特点及应用场合(a)众数是ー组数据峰值,是ー种位置代表词,不受极端值影响,具备不唯一性,对于ー组数据也许有一种众数,也也许有两个或各种众数,也也许没有众数。虽然对于“质序数据以及数值型数据也可以计算众数,但众数重要适合于作为分类数据集中趋势测度值。(b)中位数是ー组数据中间位置上代表值,重要适合于作为顺序数据集中趋势测度值,虽然对于顺序数据可以使用众数,但以中位数为宜。(c)平均数是就数值型数据计算,并且运用了所有数据信息,它是实际中应用最广泛集中趋势测度值。平均数重要适合于作为数值型数据集中趋势测度值。当数据呈对称分布或接近对称分布时,三个代表值相等或接近相等,这是咱们应当选取平均数作为集中趋势代表值。但平均数重要缺陷是易受数据极端值得影响,对于偏态分布数据,平均数代表性较差。因而,当数据为偏态分布,特别是当偏斜限度较大时,咱们可以考虑选取众数或中位数等位置代表词。三、异种比率:是非众数组频数占总频数比率。重要用于衡量众数对ー组数据代表限度。异众比率越大,阐明非众数组频数占总频数比重越大,众数代表性越差。反之,越小,众数代表性越好。异种比率重要适合测度分类数据离散限度。固然,对于顺序数据以及数值型数据也可以计算异种比率。四、四分位差:是上四分位数与下四分位数之差。反映了中间50%数据离散限度,其数值越小,阐明中间数据越集中,数值越大,阐明中间数据越分散。四分位差不受极值影响。重要用于测度JI质序数据离散限度,固然,对于数值型数据也可以计算四分位差,但不适合于分类数据。五、方差和原则差:极差是ー组数据最大值与最小值之差,也称为全距。它容易受极端值影响,由于极差只是运用了一组数据两端信息,不能反映出中间数据分散状况,因而不能精确描述出数据分散限度。平均差是各变量值与其平均数离差绝对值平均数,平均差以平均数为中心,反映了每个数据与平均数平均差别限度,它能全面精确反映一组数据离散状况。平均差越大阐明数据离散限度就越大,反之,越小。为了避免离差之和等于〇而无法计算平均差这ー问题,平均差在计算时对离差取了绝对值,以离差绝对值来表达总离差。方差(或原则差)是实际中应用最广泛离散限度测度值,因而它能精确反映出数据离散限度。方差是各变量值与其平均数离差平方平均数。原则差是方差平方根,与方差不同是,原则差是具备量纲,它与变量值计量单位相似,其实际意义要比喻差清晰,因而,在对实际问题进行分析时,咱们更多使用原则差。六、原则分数:原则分数是指变量值与其平均数离差除以原则差后差。可以测度每个数据在该组数据中相对位置,并可以用它来判断ー组数据与否有离群数据,也给出了一组数据中各数值相对位置,例如,如果某个数值原则分数为ー1.5,咱们就懂得该数值低于平均数L5倍原则差。在对各种具备不同量纲变量进行解决时,经常需要对各变量数值进行原则化解决。原则分数具备平均数为〇、原则差为1特性。事实上,原则分数只是将原始数据进行了线性变换,它并没有变化ー种数据在该组数据中位置,也没有变化改组数据分布形状,而只是使该组数据平均数为〇、原则差为1。七、经验法则:经验法则表白:当一组数据对称分布时(1)约有68%数据在平均数加减1个原则差范畴之内(2)约有95%数据在平均数加减2个原则差范畴之内(3)约有99%数据在平均数加减3个原则差范畴之内ハ、切比雪夫不等式:如果一组数据不是对称分布,经验法则就不再合用,这时就要使用切比雪夫不等式,它对任何分布形状数据都合用,对于任意分布形态数据,依照切比雪夫不等式,至少有(l-1/k2)数据落在k个原则差之内.其中k是不不大于1任意值,但不一定是整数。对于k=2、3、4,该不等式含义是:(1)至少有75%数据在平均数加减2个原则差范畴之内(2)至少有89%数据在平均数加减3个原则差范畴之内(3)至少有94%数据在平均数加减4个原则差范畴之内九、相对离散限度:离散系数作用:极差、平均差、方差和原则差等都是反映数据分散限度绝对值,其数值大小一方面取决于原变量值自身水平高低影响,也就是与变量平均数大小关于,变量值绝对水平高,离散限度测度值自然也就大。绝对水平小离散限度测度值自然也就小;另一方面,它们与原变量值计量单位相似,采用不同计量单位计量变量值,其离散限度测度值也就不同。因而对于平均水平不同或者计量单位不同不同组别变量值,是不能用上述离散限度测度值直接比较其离散限度。为消除变量值水平高低和计量单位不同对离散限度测度值影响,需要计算离散系数.离散系数是指ー组数据原则差与其相应平均数之比。离散系数是测度数据离散限度相对记录量,普通是就原则差来计算,因而也称为原则差系数,离散系数作用重要是用于比较对不同样本数据离散限度。离散系数大阐明数据离散限度大,离散系数小阐明数据离散限度小。十、测度数据分布形状记录量:(1)偏态:如果一组数据分布对称,则SK=O,如果SK明显不等于零,表白分布是非对称。当SK为正值时,表达正偏离差值较大,可以判断为正偏或右偏;反之,为负偏或左偏,SK值越大,表达倾斜限度就越大(2)峰态:如果ー组数据服从原则正态分布,则峰态系数值等于〇,若峰态系数值明显不同于〇,表白分布比正太分布更平或更尖,普通称为平峰分布或尖峰分布。当K>0时为尖峰分布,当K<0时为扁平分布第五章概率与概率分布ー、常用离散型概率分布:(1)两点分布(2)二项分布:n重伯努利实验满足下列条件:a、一次实验只有两种成果,即成功和失败,这里成功是指感兴趣某种特性。b、一次实验成功概率是p,失败概率是q=l叩,并且概率P对每次实验都是相似.c、实验是互相独立.d、实验可以重复进行n次。e、在n次实验中,成功次数相应ー种离散型随机变量,用X表达(3)泊松分布:重要特性:a、所考查事件在任意两个长度相等区间里发生一次机会均等.b、所考察事件在任何ー种区间里发生与否和在其她区间里发生与否没有互相影响,即是独立.泊松分布另ー种重要用途是作为二项概率分布近似.对一种n重伯努利实验,P代表每次伯努利实验成功概率,当实验次数n相对很大,成功概率p相对很小,而乘积np大小适中时,泊松分布普通表达式与二项分布普通表达式近似相等,(4)超几何分布:二项分布只适合于重复抽样,但在实际抽样中,很少采用重复抽样.但是,当总体元素数目N很大而样本容量n相对于N很小时,二项分布依然合用.但如果是采用不重复抽样,各次实验并不独立,成功概率也互不相等,并且总体元素数目很小或样本容量n相对于N来说较大时,二项分布就不再合用,这时,样本中成功次数则服从超几何分布.超几何分布与二项分布关系:由于呈几何分布所描述实验与n重伯努利实验相似,因此超几何分布与二项分部之间也存在着十分特殊而故意义联系,从直观上来看吗,如果总体中元素个数N很大,使得M有限变化相对于N而言):匕较小,那么超几何分布趋向于二项分布。这是由于在N趋于无穷大时,每次抽样样品虽然不放回,对其后裔表成功事件发生概率也不会有太大影响,可以近似以为不变,两者正好满足了二项分布前提。正态分布曲线性质:(1)正态曲线图形是关于x=日对称钟形曲线,且峰值在X=日处、(2)正态分布两个参数均值日和原则差。一旦拟定,正态分布详细形式就唯一拟定,不同参数取值正太分布构成一种完整正态分布族。(3)正态分布均值日可以是实数轴任意数值,她决定正态曲线详细位置,原则差〇相似二均值不同正太曲线在坐标轴上体现为水平位移(4)正态分布原则差。为不不大于〇实数,她决定正态曲线"陡峭"或"扁平"限度。。越大,正太曲线越扁平,・。越小,正太曲线越陡峭。(5)当X取值向横轴左右两个方向无限延伸时,正态曲线左右两个尾端也无限渐进横轴,但理论上永远不会与之相交。(6)与其她持续型随机变量相似,正太随机变量在特定区间上取值概率由正太曲线下面积给出,并且其曲线下面积等于1♦经验法则:•正态随机变量落入其均值左右各1个原则差内概率是68.27%•正态随机变量落入其均值左右各2个原则差内概率是95.45%•正态随机变量落入其均值左右各3个原则差内概率是99.73%三、数据正态性评估办法:(1)、对数据画出频数分布直方图或茎叶图。若数据近似服从正态分布,则图形形状与上面给出正太曲线应当相似(2)、求出样本数据四分位差Qd/sxl.3.(3)、对数据作正太概率图。若数据近似服从正态分布,则数据点将落在一条近似直线上四、什么条件下用正态分布分布近似计算二项分布效果较好当样本容量n越来越大时,二项分布越来越近似月艮从正太分布,这时,二项随机变量直方图形状接近正太分布图形形状。虽然对于小样本,当p=0.5时,二项分布正太近似依然相称好,此时随机变量X分布是相对是相对于其平均值日=叩对称。当平P趋于0或1时,二项分布将呈现出偏态,但当n变大时,这种偏斜就会消失。普通来说,只有当n大到使np和n(1-p)不不大于或等于5时,近似效果就相称好。五、均匀分布直观概率意义:将区间(a,b)划分为任意各种社区间。随机变量X在任何社区间上取值概率大小与该社区间长度成正比,而与该社区间详细位置无关。第六章抽样与抽样分布、比较分层抽样、系统抽样和整群抽样(1)分层抽样是指将抽样单位按某种特性或某种规则划分为不同层,然后从不同层中独立、随机地抽取样本。长处:a、保证样本构造与总体构造比较相近,从而提高预计精度b、组织实行调查以便c、既可以对总体参数进行预计,也可以对各层目的量进行预计。d、分层抽样样本分布在各个层内,从而使样本在总体中分布(:匕较均匀(2)系统抽样是指将总体中所有单位(抽样单位)按一定顺序排列,在规定范畴内随机地抽取ー种单位作为初始单位,然后按事先规定好规则拟定其他样本单位。长处:操作简便,系统抽样样本在总体中分布普通也比较均匀,由此抽样误差普通要不大于简朴随机抽样,提高预计精度缺陷:对预计量方差预计ヒ匕较困难(3)整群抽样是指将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中所有单位所有实行调查长处是:不需要有总体详细名单而只要有群名单就可以逬行抽样,而群名单比较容易得到;此外调查地点相对集中,节约调查费用,以便调查实行缺陷是预计精度较差二、比较三种不同性质分布(1)总体分布指总体中各元素观测值所形成相对频数分布。分布普通是未知,可以假定它服从某种分布(2)样本分布是指从总体中抽取ー种容量为n样本,由这n个观测值形成相对频数分布。也称经验分布。当样本容量〃逐渐增大时,样本分布逐渐接近总体分布(3)从普通意义上说,抽样分布是指样本记录量概率分布,样本记录量概率分布。随机变量是样本记录量,如样本均值,样本比例,样本方差等。成果来自容量相似所有也许样本;提供了样本记录量长远咱们稳定信息,是进行推断理论基本,也是抽样推断科学性重要根据三、中心极限定理随着样本容量n增大(n>=30),无论本来总体与否服从正态分布,样本值抽样分布都趋于正态分布,其分布数学盼望为总体均值卩,方差为总体方差!/n,这就是中心极限定理,表述为:设从均值为〃,方差为びユ一种任意总体中抽取容量为〃样本,当〃充分大时,样本均值抽样分布近似服从均值为ル方差为メ/〃正态分布四、重复抽样和不重复抽样相比,抽样均值分布原则差有何不同样本均值方差与抽样办法关于,在重复抽样条件下,样本均值方差为总体方差1/n,即 、ーn在不重复抽样条件下,样本均值方差则需要用修正系数去修正重复抽样时样本均叉_0と(ハZーれ、值方差,即 b友三丁不重复抽样样本均值方差不大于重复抽样时样本均值方差对于无限总体进行不重复抽样时,可以按照重复抽样来解决,对于有限总体,当N很大,而抽样比n/N很小时,其修正系数趋于1,这时样本均值方差也可以按照重复抽样样本均值方差公式来计算五、%2分布性质和特点(1)分布变量值始终为正(2)分布形状取决于其自由度"大小,普通为不对称正偏分布,但随着自由度增大逐渐趋于对称(3)盼望为:E(ガ)=〃,方差为:DQ>2ほ/7为自由度)(4)可加性:若"和(Z为两个独立ダ分布随机变量,出ガ(巾),如八㈤,则U+い这ー随机变量服从自由度为〃1+ハア分布第七章参数预计ー、评价预计量原则事实上,用于预计ク预计量有诸多,如咱们可以用样本均值作为总体均值预计量,也可以用样本中位数作为总体均值预计量,什么样预计量オ算是一种好预计量呢?这需要一定评价原则:1、无偏性:预计量抽样分布数学盼望等于被预计总体参数。设总体参数为e,被选取预计量为〇,如果e(°)=〇,称〇为曰无偏预计量。2、有效性:对同一总体参数两个无偏预计量,方差较小是更有效预计量。3、一致性:随着样本容量增大,点预计量值越来越接近被估总体参数。换言之,ー种大样本给出预计量要比ー种小样本给出预计量更接近总体参数二、如何理解置信区间置信区间:由样本记录量所构造总体参数预计区间,其中区间最小值称为置信下限,区间最大值称为置信上限。是ー种随机区间,切口や!置信区间意味着,置信区间包括未知参数概率为司匕’以,这个区间会随着样本观测值不同而不同。但io。次运用这个区间,约有io。(勺=ぐロ)个区间能包括参数,也就是说大概尚有100a个区间不包括总体参数判断置信区间优势原则(好置信区间特性):置信度越高越好;置信区间宽度越小越好。三、影响区间宽度因素.总体数据离散限度,用s来测度.样本容量:当置信水平固定期,置信区间宽度随着样本容量增大而减小,换言之,较大样本所提供关于总体信息要比小样本多。.置信水平(1-a),影响z大小:置信水平越大,z越大四、简述样本容量与置信水平、总体方差、预计误差关系国セ)2n=——(1)样本量与置信水平呈正比,在其她条件不变状况下,置信水平越大,所需样本容量也就越大(2)样本量与总体方差呈正比,总体差别越大,所需样本容量就越大(3)样本量与边际误差平方成反比,即可以接受预计误差平方越大,所需样本量就越小Za-7=五、2加含义是什么?Z« a Za-7=な是原则正态分布上侧面积为5时Z值。ゴ”是预计总体均值时边际误差,也称为预计误差或误差范畴六、对两个总体均值之差小样本预计中,对两个总体和样本均有哪些假定(1)两个总体都服从正态分布(2)两个随机样本独立地分别抽自两个总体七、解释95%置信区间抽取100个样本,依照每个样本构造ー种置信区间,这样由100个样本构造总体参数100个置信区间中,95%区间包括了总体参数真值,而5%没包括ハ、对于总体比例预计,拟定样本容量与否"足够大"普通经验规则是:区间p干2亦(1-P)セ中不包括。或1.或规定叩之5和n(1-p)と5ハ、独立样本和匹配样本如果两个样本是从两个总体中独立抽取,即ー种样本中元素与另ー种样本中元素互相独立,则称为独立样本。匹配样本是指ー种样本中数据与另ー种样本中数据相相应九、预计量和预计值(1)预计量:用于预计总体参数随机变量・如样本均值,样本比例、样本方差等・例如:样本均值就是总体均值m一种预计量ハ参数用。表达,预计量用6表达(2)预计值:预计参数时计算出来记录量详细值■如果样本均值ヌ=80,则80就是m预计值第八章假设检查ー、参数预计和假设检查区别和联系(1)重要联系:a.都是依照样本信息推断总体参数;b.都以抽样分布为理论根据,建立在概率论基本之上推断,推断成果均有风险;c.对同一问题参数逬行推断,使用同同样本,同一记录量,同一分布,两者可互相转换(2)重要区别:a.参数预计是以样本信息预计总体参数也许范畴,假设检查是先对总体参数提出一种假设值,然后运用样本信息判断这ー假设与否成立;b.区间预计求得是求以样本预计值为中心双侧置信区间,假设检查既有双侧检查,也有单侧检查;c.区间预计立足于大概率,普通以较大可信度(1-a)去预计总体参数置信区间。假设检查立足于小概率。普通是给定很小明显性水平a去检查总体参数先验假设与否对的二、什么是假设检查中明显性水平?记录明显是什么意思?(1)明显性水平是当原假设对的时却被回绝概率或风险,即假设检查中犯弃真错误概率,通惯用。表达,它是人们依照经验规定拟定,普通取a=0.05或0,01。明显性水平是人们事先指定犯第I类错误概率a最大容许值,拟定了明显性水平a,就等于控制了第1类错误概率。但犯第11类错误概率e却是不拟定(2)记录明显值在原假设为真条件下,用于检查样本记录量值落在了回绝域内,作出了回绝原假设决定三、什么是假设检查两类错误及其数理关系如何(1)假设检查中所出错误有两种:ー类错误是原假设为真却别回绝了,犯此类错误概率用a表达,也称第I类错误。另ー类错误是原假设为假却没有回绝,犯这种错误概率用6表达,也称第11类错误(2)当a増氏时0减小,当阴大时a减小,要使a和洞步减小唯一办法是增长样本容量四、假设检查环节(1)陈述原假设ロ备择假设h。(2)从所研究总体中抽出ー种随机样本(3)拟定一种恰当检查记录量,并运用样本数据算出其详细数值(4)拟定一种恰当明显性水平,并计算出其临界值,指定回绝域(5)将记录量值与临界值逬行ヒ匕较,作出决策。记录量值落在回绝域,回绝Ho,否则不回绝あ,或者也可以直接运用P值作出决策五、建立原假设和备择假设原则(建立假设几点结识)(1)原假设和备择假设是ー种完备事件组,且互相独立(2)在建立假设时,普通是先拟定备择假设,然后再拟定原假设(3)在假设检查中,等号"="总是放在原假设上。这是由于咱们想涵盖备择假设H1T浮现所有状况(4)这样假设本质上带有一定主观色彩,在面对某ー实际问题,由于不同研究者有不同研究目,虽然对同一问题也也许提出截然相反原假设和备择假设,这并不违背假设最初定义,只要符合研究最后目就是合理六、单双侧检查区别备择假设具备特定方向性,并具有"ぐ或"ヅ假设检查,称为单侧检査或单尾检查。备择假设没有特定方向性,并具有符号"キ"假设检查,称为双侧检查或双尾检查在单侧检查中,由于研究者感兴趣方向不同,又可分为左侧检査和右侧检查七、检查记录量特性和用途检查记录量是指依照样本观测成果计算得到,并据以对原假设和备择假设做出决策某个样本记录量。检查记录量事实上是总体参数点预计量,只有将其原则化后,オ干用以度量它与原假设参数值之间差别限度。而对点预计量原则化根据则是:a、原假设H嘆]真;b、点预计量抽样分布。事实上,假设检查中所用检查记录量都是原则化检查记录量,它反映了点预计量与假设总体参数相比相差多少个原则差。ハ、回绝域面积与a大小关系当样本容量固定期,回绝域面积随着a减小而减小。a越小,回绝原假设所需要检查记录量临界值与原假设参数值就越远。回绝域位置取决于检查是单侧检查还是双侧检查,双侧检查回绝域在抽样分布两侧,而单侧检查中,如果备择假设具备符号"V",回绝域位于抽样分布左侧,故称为左侧检查。如果备择假设具备符号"ゾ,回绝域位于抽样分布右侧,故称为右侧检查。九、明显性水平a局限性明显性水平a实在检查之前拟定,这也就意味这咱们事先拟定了回绝域。这样,无论检查记录量值是大还是小,只要她值落入回绝域就回绝原假设,否则不回绝原假。这种固定明显性水平a对检查成果可靠性起一种度量作用。但局限性是,a是犯第I类错误上限控制值,它只能提供检查结论可靠性一种大体范畴,而对于ー种特定假设检查问题,却无法给出观测数据与原假设之间不一致限度精准度量,也就是说,仅从明显性水平比较,若选取a值相似,所有检查成果可靠性都同样。十、P值较小时为什么要回绝原假设P值是指在原假设为真条件下,检查记录量观测值不不大于或等于其计算值概率。P值是反映实际观测到数据与原假设H。之间不一致限度ー种概率值。P值越小,阐明实际观测到数据与山之间不一致限度就越大,检查成果也就越明显十一、明显性水平a与P值得区别(1)a含义是当原假设对的时却被回绝概率或风险,即假设检查中犯弃真错误概率,是有人们依照检查规定拟定,普通a=0.05或0.01而P值是原假设为真时所得到样本观测成果或更极端成果浮现概率,它是通过计算得到,P值得大小取决于三个因素:样本数据与原假设之间差别、样本量、被假设数据总体分布(2)a只能提供检查结论可靠性地ー种大体范畴,而对于ー种特定假设检查为题,却无法给出观测数据与原假设之间不一致限度精准度量。即仅从明显性水平来比较,如果选取a值相似,所有检查成果可靠性都同样。而P值可以测量岀样本观测数据与原假设中假设值偏离限度。十二、总体均值检查

在对总体均值进行假设检查时,采用什么检查环节和检查记录量取决于咱们所抽取样本是大样本(nN30)还是小样本(nW30),此外还需要区别总体与否服从正态分布、总体方差び与否已知等几种状况。(1)大样本检查办法:样本均值通过原则化后服从正态分布,设假设总体均值为卩。展当总体方差。已知时,总体均值检查记录量为:Z= 〜N(01)当总体方差未知时,可以用样本方差S2来近似代替总体方差,此时总体均值检查记录量れ(2)小样本检查办法:总体方差。2已知时,虽然在小样本下,检查记录量依然服从正太分布,/=さ+〜N(0,1)因而依然按照 0ぜ" 来计算。总体方差。未知时,需要用样本方差S代替总统方差。,此时检查记录量服从自由度为ルオ分布。因而需要采用t分布来检查总体均值,普通称为"t检查"。检查记录量为:S/y/n第九章方差分析与实验设计ー、方差分析概念及理解方差分析是指检查各种总体均值与否相等记录办法。所采用办法就是通过检查各总体均值与否相等来判断分类型自变量对数值型因变量与否有明显影响。它研究是多哥总统均值与否相等记录办法,但本质是研究分类型自变量对数值型因变量影响。二、方差分析和回归分析区别和联系区别:(1)方差分析中沿水平轴自变量是分类变量;而回归分析沿水平轴自变量是数值型变量。(2)方差分析中,既然自变量是分类变量,就可以把它放在水平轴任意位置上;而回归分析自变量是数值型变量,它在水平轴上位置是从按小到大数厭E列,因而只有一种方式来放这些数值,并且可以画出一条穿过这些点直线。(3)方差分析是通过检查各总体均值与否相等来判断分类型自变量对数值型因变量与否有明显影响;而回归分析是依照一组样本数据拟定岀变量之间数学关系式,然后对关系式可信限度进行各种记录检查,并找出哪些变量影响是明显,哪些不明显等三、方差分析中基本原理(1)方差分析是通过对数据误差来源分析来判断不同总体均值与否相等,逬而分析自变量对因变量与否有影响(2)数据误差是用平方差来表达,涉及组内误差和组间误差(3)组内误差只包括随机误差,而组间误差既涉及随机误差,又涉及系统误差(4)如果组间误差只涉及随机误差,而没有系统误差,这时,组间误差与组内误差通过平均后数值就应当很接近,她们比值就会接近1;(5)反之,如果组间误差既涉及随机误差又涉及系统误差,这时,组间误差与组内误差通过平均后数值,她们比值就会不不大于1;(6)当这个比值大到某种限度时,咱们就可以说因素不同水平之间存在着明显差别,也就是自变量对因变量有影响。四、方差分析中基本假定(1)每个总体都应服从正态分布。也就是说,对于因素每一种水平,其观测值是来自服从正态分布总体简朴随机样本(2)各个总体方差必要相似。也就是说,各组观测数据是从具备相似方差总体中抽取(3)观测值是独立在上述假定成立前提下,要分析自变量对因变量与否有影响,事实上也就是要检查自变量各个水平(总体)均值与否相等。五、方差分析和总体均值t检查或Z检查有何不同?优势是什么(1)不同:总体均值t检查或Z检查,只能研究两个样本,若要检查各种总体均值与否相等。那么作这样两两比较将十分繁琐,共需进行・次不同检查,如果a=0.05,那么每次检查犯第I类错误概率都是0.05,做多次检查会使第1类错误概率相应增长。而方差分析办法则同步考虑所有样本,因而除了错误合计概率,从而避免了回绝ー种真是原假设。(2)优势:方差分析不但可以提高检査概率,同步由于她是将所有样本信息结合在ー起,也增长了分析可靠性。六、要检查各种总体均值与否相等时,为什么不做两两比较,而用方差分析办法?方差分析不但可以提高检查概率,同步由于她是将所有样本信息结合在一起,也增长了分析可靠性。检查各种总体均值与否相等时,如果做两两比较,需要进行多次t检查。随着增长个体明显性检查次数,偶尔因素导致差别也许性会增长(并非均值真存在差别),而方差分析则是同步考虑所有样本,因而排除了错误累积概率,从而避免回绝ー种真实原假设。七、方差分析环节(2)构造检查记录量,计算各样本均值看,样本总均值ス,误差平方和SST、SSA永.1_MSASSA、SSEF=SSE/n-k=MSE(3)记录决策,比较记录量F和Fa(k-l,n-k)值,若F>t,则回绝原假设,反之不回绝原假设ハ、解释水平项误差平方和与误差平方和(1)水平项误差平方和,简称SSA,是各组平均值与总平均值误差平方和,反映,其计算公式为各总体样本均值己间差别限度,覧ハ=贫(たす=,其计算公式为2N(2)误差项平方和,简称为SSE,它是每个水平或组各样本数据与其组平均值误差平方和,反映了每个样本个观测值离散状况,因而又称为组内平方和或残差平方和,该能虢凝瀬映建猟机误差大小,其计算公式为九、解释组内方差和组间方差含义.戸SSA均方(组间均方)记为MSA,也称组间方差,其计算公式为 、k-1MSE均方(组内均方)记为MSE,也称组内方差,其计算公式为 MSEM0在的ーA十、方差分析中效应意义SSA是对随机误差和系统误差大小度量,它反映了自变量对因变量影响,也称自变量效应或因子效应。双点挙ージ」ホづSSE是对随机误差大小度量,它反映了除自变量对因变量影响之外,其她因素对因变量总影哂^£『$$ラ谬为残差变量,它所引起误差也称为残差效应。M闫SST是所有数据总误差限度度量,它反映了自变量和残差变量共同影响,因而她等于自变量效应加残差效应。SST=SSA+SSE十ー、多重比较办法作用:它是通过对总体均值之间配对比较来进ー步检查究竟哪些均值之间存在差别。十二、交互作用:是一因素对另一因素不同水平有不同效果,如对于双因素方差分析,有交互作用就是两个因素搭配在一起,相应变量产生一种新效应。十三、解释无交互作用和有交互作用双因素方差分析在双因素方差分析中,由于有两个影响因素,若这两个因素是互相独立,咱们分别判断这两个因素对因变量影响,这时双因素方差分析称为无交互作用双因素方差分析,瞬为无重复因素分析。如果出了两个因素单独影响外,两因素搭配还会对因变量产生一种新效应,这时双因素方差分析就是有交互作用双因素方差分析。十四、R2含义和作用(1)单因素方差分析中,R表达自变量平方和(矽)及残差平方和(5阳占总平方和(充7)比例を」白辭商偉加静前以用来测量两个变量之间关系强度・ 師总平あ相ガ(2)无交互作用双因素方差分析中,行自变量平方(SSR)和和列自变量平方和(SSC)加在ー起则度量了两个自变量对因变量联合效应,联合效应与总平方和比值定义为、,再电蝴蜘虾这螂曲变好起来与因变量之间关系强度总麴施SSTSSR+SSC+SSRC(3)有交互作用方差分析:ガ=ー丽=十四、为什么双因素方差分析中,误差平方和与P值明显不大于单因素方差分析中任何ー种平方和?是由于在双因素方差分析中,误差平方和不涉及两个自变量中任何ー种,因而减少了残差效应。而在分别作单因素方差分析时,将行因素作为自变量时,列变量被包括在残差中,同样,将列因素作为自变量是,行变量被包括在残差中。因而,对于两个自变量而言,进行双因素方差分析要优于分别对两个因素进行单因素方差分析十五、完全随机化设计、随机化区组设计、因子设计(1)完全随机化设计指、、解决"被随机地指派给实验单元一种设计、对完全随机化设计数据采用単国防室分析(2)随机化区组设计是指先按一定规则将实验单元划分为若干同质组,称为“区组。分组后再将每个品种(解决)随机地指派给每ー种区组设计就是随机化区组设计。实验数据采用无重题叫方全分析(3)因子设计指考虑两个因素(可推广到各种因素)搭配实验设计称为因子设计。该设计重要用于分析两个因素及其交互作用对实验成果影响。实验数据采用可重复双因素方差分析第十章一元线性回归ー、简述有关系数性质有关系数是指依照数据计算对两个变量之间线性关系强度度量值。若有关系数是依照总体所有数据计算,称为总体有关系数,记为0,•若是依照样本数据计算,则称为样本有关系数,记为r,样本有关福泳喔疵ぜ卮ボー①オ、危铲ーセオ性质:(1)「取值范畴是[-1,1];M=1,为完全有关,r=l,表白x与y之间为完全正线性有关关系,r=-1,表白x与y之间为完全负线性有关关系;r=0,表白x与y之间不存在线性有关关系有关,-14「<0,表白x与y之间为负线性有关,〇<rvl,表白x与y之间为正线性有关,仍越趋于1表达关系越密切;か越趋于〇表达关系越(2)r具备对称性,x与y之间有关系数ス厢y和x之间有关系数ワ相等,即rr1xy=1yx(3)r大小与x和y原点及尺度无关。变化x和y数据原点和计量尺度,并不变化r大小(4)r仅仅是x和y之间线性关系度量,不用于描述非线性关系,这意味着ハ=0指标是两个变量之间不存在线性有关关系,但并阐明变量之间没有イ皆可关系,如也许存在非线性有关关系。变量之间非线性有关限度较大时,就也许会导致r=0.因而当r=0或很小时,不能容易得出两个变量之间不存在有关关系结论,而应结合散点图作出合理解释。(5)r虽是两变量之间线性关系度量,却并不意味着x和y之间一定有因果关系。二、运用有关关系如何判断变量之间有关方向和有关密切限度?(1)r取值范畴是[-1,1];M=1,为完全有关,r=l,表白x与y之间为完全正线性有关关系,r=-1,表白x与y之间为完全负线性有关关系;r=0,表白x与y之间不存在绿賄关关系有关,-k,<0,表白x与y之间为负线性有关,0<,41,表白x与y之间为正线性有关.(2)依照实际数据计算出r,团越趋于1表达关系越密切;仍越趋于〇表达关系越不密切。有关限度分为如下几种状况:当m20.8时,可视为高度有关;0.541”<0.8时,可视为中度有关;当0.341。<0.5时,视为低度有关;們<0.3时,阐明两变量之间有关限度极弱,可视为不线性有关。但这种解释必要建立在对有关系数明显性进行检查基本之上三、为什么对有关系数进行明显性检查?普通状况下,总体有关系数p是未知,咱们普通是依照样本有关系数r作为p近似预计值。但由于r是依照样本数据计算出来,她受到抽样波动影响.由于抽取样本不同,r取值也不同,因而r是一种随机变量。能否依照样本有关系数阐明总体有关限度?这就需要考察样本有关系数可靠性,即进行明显性检查。四、样本容量对r影响及r与p关系当样本数据来自正态总体时,随着n增大,r抽样分布趋于正态分布,特别是在总体有关系数P更小或接近0时,趋于正态分布趋势就非常明显,而当p远离〇时,除非n非常大,否则r抽样分布呈现一定偏态。由于当r是环绕p周边分布,当p数值接近1或-1时,如p=0.96时,两个方向变化全距不等,因而r抽样分布也不也许对称。但当P=O时,两个方向变化全距接近相等,因此r・抽样分布就接近对称了。总之,当p为较大正值时ハ呈现左偏分布;当p为较小负值时ハ呈现右偏分布。只有当p接近〇,而样本容量n很大时,オ干以为r是接近于正态分布随机变量。五、r明显性检查环节.提出假设:〃):夕=0;0Ho.计算检查记录量t=I%ノ」.〜ナs—2)V1——r3、逬行决策。拟定明显性水平a,并作出决策。若[4>シ,回绝・,表白总体两个变量之间存在明显线性关系;若14〈金,不回绝氏六、概述有关分析和回归分析区别和联系(1)联系:两者都是研究^拟定性变量间记录依赖关系,并能测度线性依赖限度大小。她们有共同硏究对象,都是对变量间有关关系分析,两者可以互相补充,有关分析可以表白变量间有关关系性质和限度,只有当变量间存在相称限度有关分析时,进行回归分析,谋求变量间有关详细数学形式オ故意义。同步,在有关分析时,如果要详细拟定变量间有关详细数学形式,又要依赖于回归分析,并且在各种变量有关分析中,有关系数拟定也是建立在回归分析基本上。(2)区别:a、有关分析中变量地位在有关分析中是对称,不考虑两者因果关系,并且都是随机变量;回归分析中变量地位是不对称,有自变量和因变量之分,并且自变量也往往被假设为非随机变量。b、有关分析只关注变量间联系限度,不关注详细依赖关系;而回归分析则更加关注变量间详细依赖关系。c、从研究目上看,有关分析时用一定数量指标(有关系数)度量互相联系方向和限度;而回归分析却是谋求变量间联系详细数学形式,是要依照自变量固定值去预计和预测因变量平均值。七、回归分析重要解决问题:(1)从ー组数据出发,拟定出变量之间数学关系式(2)对这些关系是可信限度进行各种记录检查,并不影响某ー特定变量诸多变量中找出哪些变量影响是明显,哪些是不明显(3)运用所求关系式,依照一种或几种变量取值来预计或预测另ー种特定变量取值,并给出这种预计或预测置信度ハ、一元线性回归模型基本假定(1)误差项£是ー种盼望值为〇随机变量,即以£)=0。对于ー种给定X值,V盼望值为ど(,)=ガ。+ガ1*(2)对于所有X值,£方差メ都相似(3)误差项£是ー种月艮从正态分布随机变量,且互相独立。即6M。,絞)独立性意味着对于ー种特定x值,它所相应£与其她イ值所相应£不有关。因而,对于ー种特定X值,它所相应ド值与其她X所相应ド值也不有关(4)因变量y与自变量x之间具备线性关系(5)在重复抽样中,自变量x取值是固定,即假定x是非随机注:前三项也即在回归分析中误差序列e基本假定九、参数最小二乘预计基本原理对于第i个x值,预计回归方程可表达为:对于X和yn对观测值,用于描述其关系直线有多条,究竟用哪条直线来代表两个变量之间关系,需要有一种明确原则。咱们自然会想到距离各观测点近来一条直线,用最小化观测值与预计值离差平方和来预计参数タ。和氏办法称为最小二乘法,是使へ;得因变量观测值与预计值之间离差平方和达到最小来求得"。和氏办法。ヘへ十、回归分析中模型参数最小二乘预计ル。和舟具备哪些记录特性?若参数用于预测,影响预测精度因素有哪些?(1)记录特性:へ・a、线性,即预计量タ。和为随机变量y线性函数ヘへb、无偏性,タ。和ん分别是タ。和タ1无偏预计へ 4・有效性,タ。和口、是所有线性无偏预计量中具备最小方差预计量(2)影响预测精度因素:a、预测信度规定,同样状况下,规定预测把握度越高,则相应预测区间就越宽,精度就越低b、总体y分布离散限度。。。越大,预测区间越宽,预测精度越低c、样本观测点多少n。n越大,预测区间越窄,预测精度越高。d、样本观测点中,解释变量x分布离散限度,x分布越分散,越策精度越高e、预测点x。离样本分布中心冲巨离。距离越远,预测区间越宽,预测精度越低,反之越高。十ー、解释总平方和SST、回归平方和SSR、残差平方和SSE含义,并阐明它们之间关系(1)用实际观测值y与其均值璃差平方和表达总平方和(交り,反映因变量〃个观测值与其均值总离差(2)回归平方和(交⑨是回归值y与均值通差平方和,反映是由于・

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论