版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第一章导论比较描述统计和推窗斤统计:数据分析是通过统计方法研究数据其所用的方法可分为描述统计和推断统计。描述性统计:研究一组数据的组织、整理和描述的统计学分支,是社会科学实证研究中最常用的方法,也是统计分析 中必不可少的一步。内容包才舌取得研究所需要的数据、用图表形式对数据进行加工处理和显示,进而通过综合.概括与分 析,得出反映所研究现象的一般性特征。推那充计学:是研究如何利用样本数据对总体的数量特征进行推断的统计学分支。研究者所关心的是总体的某些 特征,但许多总体太大,无法对每个个体进彳亍则量,有时我们得到的数据往往需要破坏性试验,这就需要抽取部分个体即样 本进行测.然后根据样本数据对所研究
2、的总体特征进行推断,这就是推断统计所要解决的问题。其内容包括抽样分布理论, 参数估计,假设检验,方差分析,回归分析,时间序列分析等等。 3)两者的关系:描述统计是基础推断统计是主体比校分类数据.顺序数据和数值型数据:根据所采用的计量尺度不同,可以将统计换分为分类换、顺数据和数值型数据。分类数据是只能归于某一类别的非数字型数据。它是对事物进行分类的结果,数据裘现为类别,是用文字来表达的, 它是由分类尺度计量形成的。顺序数量是只能归于某一有序类别的非数字型数据。也是对事物进行分类的结果,但这些类别是有顺厚的-它是由顺 序尺度计量形成的。数值型数据是按数字尺度测量的观察值。其结果羲现为具体的数值,现
3、实中我们所处理的大多数都是数值型数 据。总之分类换和顺序数据说明的是事物的本质特征,通常是用文字来羲达的.其结果均裘现为类别,因而也充称为定型数 据或品质数据;数值型数据说明的是现象的数量特征,通常是用数值来表现的,因此可称为定量数据或数量数据。比较总体.样本、参数、统计量和变量:总体是包含所研究的全部个体的集合。通常是我们所关心的一些个体组成,如由多个企业所构成的集合,多个居民户 所构成的集合。总体根据其所包含的单位数目是否可数可以分为有限总淅口无限总体。有限总体是指总体的范围能够明确 确定,而且元素的数目是有限可数的,需要注意的是,统计蕙义上的总体,通常不是一群人或一些物品的集合,而是一组
4、观测数 据。样本是从总体中抽取的一部分元素的集合,构成样本的元素的数目称为样本容量。例如我们从一批灯泡中随机抽取 100个,这100个灯泡就构成了一个样本。(3 )参数是用来描述总体特征的概括性数字度量。有总体平均数、标准差、总体比例。由于总体参数通常是不知道的- 所以参数是f未知的常数。所以才需要进行抽样,根据样本来估计总体参数(4 )样本量是用来描述样本特征的概括删字度量。统计量是根据样本数据计算出来的一个量,通常包括:样本平均数、 样本标准差、样本比例等,由于样本是我们已经抽出来的,所以统计量总敷道的,抽样的目的就是要根据样本统计的断总体参 数。(5)变量是说明现象某种特征的概念。变量的
5、特点是从一次观察到下一次观察会呈现出差别或变化,分为分类变量、顺 序变量、数值型变量、离散型变量和连续型变量。第二章数据收集一、调查方案的主要内容:调查目的:是调查所要达到的具体目标,他所回答的是”为什么调查”要解决什么样的问题”等调查对象和调查单位:调查对象是根据调查目的的确定的调查研究的总体或调查范围。调查单位是构成调查队选中 的每一个单位,它是调查项目和调查内容的承担看体。所要解决的是向谁调查”由谁来提供所需割1 3)调查项目和调查羲:调查项目要解决的问题是调查什么”,也就是调查的具体内容,大多数统计调查中,调查项目通常 以表格的形式来表现,称为调查表二、数据的误差:统计数据的误差通常禺
6、荻计数据与客观现实之间的差距,误差的类型 主要有抽样误差和非抽样误差两类。(1 )抽样误差:主要禺旨在用样本数据进行推断时所产生的随机误差。只存在于概率抽样中。这类误差通常是无法消除 的,但事先可以进行控制和计算。影响抽样误差大小的因素:(a)抽样单位的数目。在其他条件不变的情况下,抽样单位的数目越多,抽样误差越小;反之,越大。这是因为随着样 本数目的增多,样本结构越接近总体,抽样调查也就越接近全面调查,当样本扩大到总体时,则为全面调查,也就不存在抽样误差 了。(b )总体背研究标志的变异程度。在其他条彳牛不变的情况下,总体标志的变异程度越小,抽样误差越小,反之,越大。 抽样误差和总体标志的变
7、异程度呈正比变化。这是因为总体的变异程度小,表示总体各单位标志值之间的差异小。则样本指 标与总体指标之间的差异也可能小;如果总体各单位标志值相等,则标志变动度为零,样本指标等于总体指标.此时不存融样误 差(C )抽样方法的选择。重复抽精口非重复抽样的抽样误差大小不同。采用不重复抽样比采用重复抽样的抽样误差小(d)抽样组织方式不同。采用不同的组织方式,会有不同的抽样误差,这是因为不同的抽样组织所抽中的样本,对于总体 的代表性也不同,通常,常利用不同的抽样误差,作出判断各种抽样组织方式的比较标准。(2 )非抽样误差:主要包括:抽样框误差.回答误差、无回答误差、调查员误差;是调查过程中宙于调查者或被
8、调查者 的人为因素所造成的误差。调查者所造成的误差主要有:调查方案中有关的规定或解释不明确导致的填报错误、抄录错误. 汇总错误等;被调查者所造成的误差主要有:因人为因素干扰形成的有蕙虚报或瞒报调查数据。非抽样误差理论上是可以 消除的。三、简单随机抽样:概念:从总体/V个单位中随机地抽取n个单位作为样本,每个单位入抽样本的概率是相等的;(2 )特点:1简单、直观,在抽样框完整时,可直接从中抽取样本b、用样本统计量对目标量进行估计比较方便(3 )鞭性当/V很大时,不易构造抽样框抽出的单位很分散,给实施调查增加了困难没有利用其它辅助信息 以提高估计的效率第三章数据的整理与展示数据排序的目的:(1 )
9、数据排序是按一定II页厚将融排列,以发现一些明显的特征或趋势找到解决问题的线索(2 )排还有助于对换检查纠错以及为更新归类或分组等提供方便。(3 )在某些场合,排本身就是分析的目的之一。数据分组:是根据统计研究的需要,将原始数据按照某种标准化分成不同的组别,分组后的数据成为分组数据。数据经分组后再计算 出各组中数据出现的频数,就形成了一张频数分布表,分组方法有单变量值分组和组距分组两种,单变量分组通常只适合于离 散变量.且在变量值较少的情况下使用,在连续变量或变量值较多情况下,通常采用组距分组。组距分组的步骤和原则:步骤:a、确定仑购:组数的确定应以能够显示数据的分布特征和规律为目的。在实际分
10、组时,可以按Sturges提出的经验公式来确定组数KK = 1 +削Igb、确走组距:组距(Class Width)是f组的上限与下限之差,可根据全部数据的最大值和最小值及所分的酗来确定, 即组距二(最大值最小值)+组数C、统计出各组的频数并整理成频数分布表(2 )原则:采用组距分组时,需遵循”不重不漏”的原则,“不重”是指一项数据只能分在其中的某一组.不能在其他组中重复出 现;”不漏”是指组别能够穷尽,即在所分的全部组别中每项数据都能分在其中的某一组,不能遗漏。为解决不重的问题,统计 分组时习惯上规定”上组限不在内,即当相邻两组的上下限重畚时,恰好等于某一组上限的变量值不算在本组内,而计算在
11、下 一组内。当然,对于离散变量,我们可以采用相邻两组组限间断的办法解决”不重”的问题。也可以对f组的上限值采用小数点 的形式,小数点的位数根据所要求的精度具体确定。缺点:组距分组掩盖了各组内的数据分布状况四、直方图和条形图的 区别:首先,条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度则是固定的;直方图是用面积表示各组频数的多 少,频数的高度表示每一组的频数或频率,宽度则表示各组的组距,因此高度与竟度均有意义。其次,由于分组数据具有连续性,直方图的各矩形通常是连续菇洌,而条形图则是分开排列。最后,条形图主要用于展示各类数据,而直方图则主要用于展示数据型数据五、绘制线图应注意的问题:)
12、时间一般绘在横轴,观测数据绘在纵轴)图形的长竟比例要适当,一般应绘成横轴略大于纵轴的长方形,其长宽比 例大致是10:7.(3)一般情况下,纵轴数据下端应从0开始,以便于比较,数据与0之间的间距过大,可以采取折断的符号将纵轴折断六、设计统计表注意的问题:首先,要合理安排统计表的结构,例如表号、行标题、列标题、数字资料的位置应安排合理。其次,表头一般应包括表号、总标题和表中数据的单位等内容,总标题应简明确切地概括出统计表的内容。再次,表中的上下两条线一般用粗线,中间的其雌用细线,表的左右两边不封口,列标题之间可以用竖线分开,而行标题 之间通常不必用横线隔开。最后,在使用统计表时,必要时可在表下方加
13、上注养髦特别注意标明数据来源。七、数据的审核:原始数据:a、完整性审核:检查应调查的单位或个体是否有遗漏;所有的调查项目或指标是否填写齐全b、准确性审核:检裂据是否真实反映客观实际情况,内容是否符合实际;检查数据是否有错误,计算是否正确等二珂据:a、适用性审核:弄清楚数据的来源、数据的口径以及有关的背景材料;确定数据是否符合自己分析研究的需要b、时效性审核:尽可能使用最新的数据数据的整理与显示(基本问题)(1)要弄清所面对的数据类型,因为不同类型的数据,所采取的处理方式方法是不同的(2 )对分类昨和顺贼据主要是做分类整理(3 )对数值型数据则主要SW仑眇理适合于低层次数据的整理和显示方法也适合
14、于高层次的数据;但适合于高层次数据的整理和显示方法并不适合于低层次的数据第四章数据的概括性度量-、集中趋势和离散趋势的度量:集中超势是指一组数据向某一中心值靠拢的倾向,它反映了一组数据中心点的位审斤在。描述集中趋势所采用的 测度值分为:众数、中位数和分位数、平均数。离散趋势是数据分布的另一个重要特征,它所反映的各变量值远离其中心值得程度因此也称为离中趋势,数据 的离散程度越大,集中趋势的测度值对该组数据的代裘性越差,反之,代表性越好。描述数据离散程度所采用的测度值,根据 所依据的数据类型的不同主要有异种比率、四分位差、方差和标准差。此外还有极差、平均差以及测度相对离散程度的离 散系数。二、众数
15、、中位数和平均数:三者的关系:从分布的角度看,众数始终是一组数据分布的最高峰值,中位数的处于一组换中间位置上的值,而平均 数则是全部数据的算数平均。因此,对于具有单峰分布的大多数数据而言,众数、中彳竭(和平均数之间具有以下关系:(a )如果数据的分布是对称的,众数、中位数、平均数必定相等(b )如果数据是左偏分布,说明数据存在极小值,必然拉动平均数向极小值一方靠近,而众数和中彳站(由于是位代 表值,不受极值的影响,因此三者的关系为众数中彳遹平均数(C)如果城是右偏分布,说明数据存在极大值,必然拉动平均数向极大值的一方靠近,则众数v中位数V平均数。特点及应用场合众数是一组数据的峰值,是一种位置代
16、表词,不受极端值的影响,具有不唯一性,对于一组数据可能有f众数, 也可能有两个或多个众数,也可能没有众数。虽然对于J顶序数据以及数值型数据也可以计算众数,但众数主要适合于作为 分类数据的集中趋势测度值。中位数是一组数据中间位置上的代表值,主要适合于作为顺序数据的集中趋势测度值.虽然对于顺序数据可以使用 众数,但以中位数为宜。(C)平均数是就数值型数据计算的,而且利用了全部数据信息,它是实际中应用最广泛的集中趋势测度值。平均数主要 适合于作为数值型数据的集中趋势测度值。当数据呈对称分布或接近对称分布时,三个代表值相等或接近相等,这是我们应该 选择平均数作为集中趋势的代表值。但平均数的主要缺点是易
17、受数据极端值得影响,对于偏态分布的数据,平均数的代表性较 差。因此,当数据为偏态分布,特别是当偏斜的程度较大时,我们可以考虑选择众数或中位数等位置代裘词。三、异种比率.:是非众数组的频数占总频数的比率。主要用于衡量众数对一组数据的代表程度。异众比率越大,说明非众数组的频数占 总频数的比重越大,众数的代表性越差。反之,越小,众数的代表性越好。异种比率重要适合测度分类数据的离散程度。当然,对于顺序数据以及数值型数据也可以计算异种比率。四、四分位差:是上四分位数与下四分位故之差。反映了中间50%数据的离散程度,其数值越小,说明中间数据越集中,数值越大,说明 中间数据越分散。四分位差不受极值的影响。主
18、要用于测度顺序数据的离散程度,当然,对于数值型数据也可以计算四分 位差,但不适合于分类数据。五、方差和标准差:极差是一组数据的最大值与最小值之差,也称为全距。它容易受极端值的影响,由于极差只是利用了一组数据两端的信 息,不能反映出中间数据的分散状况,因而不能准确描述出数据的分散程度。平均差是各变量值与其平均数离差的绝对值的平均数,平均差以平均数为中心,反映了每个数据与平均数的平均差异 程度,它能全面准确的反映一翩据的离散状况。平均差越大说明数据的离散程度就越大,反之,越小。为了避免离差之和等 于0而无法计算平均差这一问题,平均差在计算时对离差取了绝对值,以离差的绝对值来表示总离差。方差(或标准
19、差)是实际中应用最广泛的离散程度测度值,因此它能准确的反映出数据的离散程度。方差是各变量值与 其平均数离差平方的平均数。标准差是方差的平方根,与方差不同的是,标准差是具有量纲的,它与变量值的计量单位相同,其实际意义要比方差清 楚,因此,在对实际问题进行分析时,我们更多的使用标准差。六、标准分数:标准分数是指变量值与其平均数的离差除以标准差后的差。可以测度每个数据在该组数据中的相对位置,并可以用它来 判断一组数据是否有离群数据,也给出了一组数据中各数值的相对位置.例如,如果某个数值的标准分数为-15,我们就知 道该数值低于平均数1.5倍的标准差。在对多个具有不同量纲的变量进行处理时,常常需要对各
20、变量数值进行标)隹化处理。 标准分数具有平均数为0、标准差为1的特性。实际上,标准分数只是将原始数据进行了线性变换,它并没有改变一个数据在 该融据中的位置,也没有改变改组数据分布的形状,而只是使该组数据的平均数为0、标准差为1。七、经验法则:经验法则表明:当一官巾g对称分布时(1 )约有68%的数据在平均数加减1个标准差的范围之内(2 )约有95%的数据在平均数加减2个标准差的范围之内(3 )约有99%的数据在平均数加减3个标准差的范围之内八、切比雪夫不等式:如果一组数据不是对称分布,经验法则就不再适用,这时就要使用切比雪夫不等式,它对任可分布形状的数据都适用, 对于任意分布形态的数据,根据切
21、比雪夫不等式,至少有(l-l/k2 )的数据落在k个标准差之内。其中k是大于1的任意值,但 不一定是整数。对于k=2、3、4,该不等式的含义是:(1 )至少有75%的数据在平均数加减2个标准差的范围之内 (2 )至少有89%的数据在平均数加减3个标准差的范S之内(3 )至少有94%的数据在平均数加减4个标准差的范围之内九、相对离散程度:离散系数的作用:极差、平均差、方差和标准差等都是反映数据分散程度的绝对值,其数值的大小_方面取决于原变量值本身水平高低的 影响,也就是与变量的平均数大小有关,变量值绝对水平高的,离散程度的测度值自然也就大。绝对水平小的离散程度的测度 值自然也就小;另一方面,它们
22、与原变量值的计量单位相同,采用不同计量单位计量的变量值,其离散程度的测度值也就不 同。因此对于平均水平不同或者计量单位不同的不同组S 口的变量值,是不能用上述离散程度的测度值直接比较其离散程度 的。为消除变量值水平高低和计量单位不同对离散程度测度值的影响,需要计算离散系数。曹散系数是指一组数据的标准 差与其相应的平均数之比。离散系数是测度数据离散程度的相对统计量,通常是就标准差来计算的,因此也称为标准差系 数,离散系数的作用主要是用于t匕较对不同样本数据的离散程度。离散系数大的说明数据的离散程度大,离散系数小的说 明数据的离散程度小。十、测度数据分布形状的统计量:(1 )偏态:如果一组数据的分
23、布的对称的,则SK=O,如果SK明显不等于零,表明分布是非对称的。当SK为正值时,表 示正偏离差值较大,可以判断为正偏或右偏;反之,为负偏或左偏,SK的值越大,表示倾斜的程度就越大(2峰态:如果一组数据服从标准正态分布,则峰态系数的值等于0,若峰态系数的值明显不同于0,表明分布比正太分布更平或更尖,通常称为平峰分布或尖峰分布。当K0时为尖峰分布,当K0时为扁平分布第五章概率与IS率分布一、常见的离散型概率分布:(1)两点分布(2 )二项分布:n重伯努利试验满足下列条件:a、一次实验只有两种结果,即成功和失败,这里的成功是指感兴趣的某 种特征。b、一次实验成功的概率是P,失败的概率是q=l-p,
24、而且概率P对每次实验都是相同的。C、实验是相互独立的。 d、实验可以重复进行n次。e、在n次试验中,成功的次数对应f离散型随机变量,用X表示(3 )泊松分布:重要特征:a.所考查的事件在任意两个长度相等的区间里发生一次的机会均等。b、所考察的事件在任可一个区间里发生与否和在其他区间里发生与否没有相互影响,即是独立的。泊松分布的另f重要 用途是作为二项概率分布的近似。对fn重伯努利实验,P代表每次伯努利实验成功的概率,当实验次数n相对很大,成功概 率P相对很小,而乘积np大小适中时.泊松分布的一般表达式与二项分布的一般表达式近似相等,(4)超几何分布:二项分布只适合于重复抽样,但在实际抽样中,很
25、少采用重复抽样。不过,当总体的元素数目N很大 而样本容S n相对于N很中时,二项分布仍然适用。但如果是采用不重复抽样.各次实验并不独立,成功的概率也互不相等.而 且总体元素的数目很小或样本容量n相对于N来说较大时,二项分布就不再适用,这时,样本中成功的次数则月艮从超几何分 布。超几何分布与二项分布的关系:由于呈几何分布所描述的实验与n重伯努利实验相似,所以超几何分布与二项分部之间也存在看十分特殊而有意义的联系,从直观上来看吗,如果总体中的元素个数N很大,使得M的有限变化相对于N而言比较 小,那么超几何分布趋向于二项分布。这是因为在N趋于无穷大时,每次抽样的样品即使不放回,对其后代表成功的事件
26、发生的概率也不会有太大影响,可以近似认为不变,二者恰好满足了二项分布的前提。、正态分布的曲线的性质:正态曲线的图形是关于=P的对称钟形曲线,且峰值在)=30 ),不论原来的总体是否服从正态分布,样本值的抽样分布都趋于正态分布,其分布的数 学朋望为总体均值P ,方差为总体方差的1/n,这就是中心极限定理,表述为:设从均值为“,方差为72的一个任意总体中 抽取容量为打的样本,当充分大时,样本均值的抽样分布近似服从均值为“、方差为的正态分布四、重复抽样和不重复抽 样相比,抽样均值分布的标准差有何不同样本均值的方差与抽样方法有关,在重复抽样条件下,样本均值的方差为总体方差的l/n ,即在不重复抽样条件
27、斥,样本均值的方差则需要用修正系数去修正重复抽样时样本均值的方差,即不重复抽样的样本均值的方差小于重复抽样时的样本均值的方差对于无限总体进行不重复抽样时,可以按照直复抽样来处理,对于有限总体,当N很大,而抽样比n/N很小时,其修正系数趋于1,这时样本均值的方差也可以按照重复抽样的样本均值的方差公式来计算 五、咒2分布的性质和特点分布的变量值始终为正分布的形状取决于其自由度n的大小,通常为不对称的正偏分布,但随看自由度的增大逐渐趋于对称(3 )期望为:e(F)f,方差为:D(A)=2n(n为自由度)(4 )可加性:若和y为两个独立的F分布随机变量,SF(rh),FS),则u+ y这一随机变量服从
28、自由度为久+/A2的尸分第七章参数估计一、评价估计量的标准实际上,用于估计的0的估计量有很多,如我们可以用样本均值作为总体均值的估计量,也可以用样本中窗作为总体均值 的估计量,什么样的估计量才算是一个好的估计量呢?这需要一定的评价标准:1、无偏性:估计量抽样分布的数学期望等于被估计的总体参数。设总体参数为&,被选ZVZVZV择的估计量为&,如果E( & )= 0,称&为&的无偏估计量。有效性:对同一总体参数的两个无偏估计量,方差较小的是更有效的估计量。3、一致性:随看样本容量的增大,点估计量的值越来越接近被估的总体的参数。换言之,-个大样本给出的估计量要比 一个 )瞬本给出的估计量更接近总体的
29、参数二、怎样理解置信区间置信区间:由样本统计量所构造的总体参数的估计区间,其中区间的最小值称为置信下限,区间最大值称为置信上限。是一个随机区间,-“的置信区间意味看,置信区间包含未知参数*1 _ fV的概率为,这个区间会随着样本观察值的不同而不同。但(勺2 )个区间能包含参数,也就是说大约还有100 a个区间不包含总体参数100次运用这个区间,约有100判断置信区间优势的标准(好的置信区间的特性)/置信度越高越好;置信区间宽度越小越好。三、形响区间宽度的因素1-总体数据的离散程度,用s来测度样本容量:当信水平固定时,虞信区间的宽度随S样本容量的增大而减/,换言之,较大的样本所提供的 有关总体的
30、信息要比5和n (1-p ) 5独立样本和匹配样本如果两个样本是从两个总体中独立抽取的,即一个样本中的元素与另一个样本中的元素相互独立,则称为独立样本。匹 配样本是指一个样本中的数据与另一个样本中的数据相对应估计量和估计值估计量:用于估计总体参数的随机变量如样本均值,样本比例、样本方差等例如:样本均值就是总体均值的一个估计量参数用&表示,估计量用e表示估计值:估计参数时计算出来的统计量的具体值如果样本均值x=80,则80就是m的估计值第八章假设检验一、参数估计和假设检验的区别和联系主要联系:a 都是根据样本信息推断总体参数;b 都以抽样分布为理论依据,建立在概率论基础之上的推断,推断结果都有风
31、险;c 对同一问题的参数进行推断,使用同一样本,同一统计量,同一分布,二者可相互转换主要区别:a 参数估计是以样本信息估计总体参数的可能范围,假设检验是先对总体参数提出一个假设值,然后?!用样本信息 判断这T段设是否成立;b 区间估计求得的是求以样本估计值为中心的双侧置信区间,假设检验既有双侧检验,也有单侧检验;c 区间估计立足于大概率,通常以较大的可信度(l-a )去估计总体参数的置信区间。假设检验立足于”概率。通常是 给定很小的显著性水平a去检验总体参数的先验假设是否正确二、什么是假设检验中的显著性水平?统计显著是什么意思?(1 )显著性水平是当原假设正确时却被拒绝的概率或风险,即假设检验
32、中犯弃真错误的概率,通常用a表示,它是人 们根据经验的要求确定的,通常取a = 0.05或0.01。显著性水平是人们事先指定的犯第I类错误概率a的最大允许值, 确定了显著性水平a ,就等于控制了第I类错误的概率。但犯第口类错误的概率B却是不确定的(2)统计显著值在原假设为真的条件下”用于检验的样本统计量的值落在了拒绝域内”作出了拒绝原假设的决定三、什 么是假设检验的两类错误及其数理关系怎样(1 )假设检验中所犯的错误有两种:一类错误是原假设为真却别拒绝了,犯这类错误的概率用a表示”也称第I类错 误。另一类错误是原假设为假却没有拒绝,犯这种错误的概率用B表示,也称第n类错误(2 )当a增加时(3
33、减小,当(3增大时a减小,要使a和(3同时减小的唯一办法是增加样本容量四、假设检验的步骤(1 )陈述原假设Ho和备择假设H1。(2 )从所研究的总体中抽出一个随机样本确定一个适当的检验统计量,并利用样本数据算出其具体数值确定一个适当的显著性水平,并计算出其临界值,指定拒绝域将统计量的值与临界值进行比较,作出决策。统计量的值落在拒绝域,拒绝Ho,否则不拒绝Ho,或者也可以直接 利用P值作出决策五、建立原假设和备择假设的原则(建立假设的几点认识)(1 )原假设和备择彳段设是一个完备事件组,且相互独立(2 )在建立假设时,通常是先确定备择假设,然后再确定原假设(3 )在假设检验中,等号总是放在原假设
34、上。这是因为我们想涵盖备择假设H不出现的所有情况这样的假设本质上带有一定的主观色彩,在面对某一实际问题,由于不同研究者有不同的研究目的,即使对同一问 题也可能提出截然相反的原假设和备择彳段设,这并不违背假设的最初定义,只要符合研究的最终目的就是合理的六、单 双侧检验的区别备择假设具有特定的方向性,并含有“ V或的假设检验,称为单侧检验或单尾检验。备择假设没有特定的方向性,并含有符号工的假设检验,称为双侧检验或双尾检验在单侧检验中,由于研究者感兴趣的方向不同,又可分为左侧检验和右侧检验七、检验统计量的特征和用途检验统计量是指根据样本观测结果计算得到的,并据以对原假设和备择假设做出决策的某个样本统
35、计量。检验统计量实际上是总体参数的点估计量,只有将其标准化后,才能用以度量它与原假设的参数值之间的差异程度。而对 点估计量标准化的依据则是:a、原假设Ho为真;b、点估计量的抽样分布。实际上,假设检验中所用的检验统计量都是标 准化检验统计量,它反映了点估计量与假设的总体参数相差多少个标准差。八、拒绝域面积与a大小的关系当样本容量固定时,拒绝域的面积随看a的减小而减小。a越小,拒绝原假设所需要的检验统计量的临界值与原假设的参 数值就越远。拒绝域的位置取决于检验是单侧检验还是双侧检验,双侧检验的拒绝域在抽样分布的两侧,而单侧检验中,如 果备择假设具有符号y,拒绝域位于抽样分布的左侧,故称为左侧检验
36、。如果备择假设具有符号7,拒绝域位于抽样分布的 右侧,故称为右侧检验。九、显著性水平a的局限性显著性水平a实在检验之前确定的”这也就意味这我们事先确定了拒绝域。这样”不论检验统计量的值是大还是小,只要 他的值落入拒绝域就拒绝原假设,否则不拒绝原假。这种固定的显著性水平a对检验结果的可靠性起一种度量作用。但不 足的是,a是犯第I类错误的上限控制值,它只能提供检验结论可靠性的一个大致范围,而51寸于一个特定的假设检验问 题,却无法给出观测数据与原假设之间不一致程度的精确度量,也就是说,仅从显著性水平t匕较,若选择的a值相同”所 有的检9佥结果的可靠性都一样。十、P值较小时为什么要拒绝原假设P值是指
37、在原假设为真的条件下,检验统计量的观察值大于或等于其计算值的概率。P值是反映实际观测到的数据与原假设Ho之间不一致程度的一个概率值。P值越小,说明实际观测到的数据与Ho 之间不一致的程度就越大,检验的结果也就越显著十一、显著性水平a与P值得区别(1 ) a的含义是当原假设正确时却被拒绝的概率或风险,即假设检验中犯弃真错误的概率,是有人们根据检验的要求 确定的,通常a = 0.05或0.01而P值是原假设为真时所得到的样本观察结果或更极端结果出现的概率,它是通过计算得到的/值得大小取决于三个 因素:样本数据与原假设之间的差异、样本量、被假设数据的总体分布(2 ) a只能提供检验结论的可靠性地一个
38、大致范围,而对于一个特定的假设检验为题,却无法给出观测数据与原假 设之间不一致程度的精确度量。即仅从显著性水平来比较,如果选择的a值相同,所有检查结果的可靠性都一样。而P值可以测量出样本观察数据与原假设中假设的值的偏离程度。十二、总体均值的检验在对总体均值进行假设检验时,采用什么检验步骤和检验统计量取决于我们所抽取的样本是大样本(n 30 )还是小样本 (nFa,则拒绝原假设,反之不拒绝原假设八、解释水平项误差平方和与误差平方和(1 )水平项误差平方和,简称SSA .是各组平均值与总平均值的误差平方和,反映各总体的样本均值之间的差异程度,因此 又称为组间平方和,其计算公式为(召”打=2?低-打
39、 1=1 ;=1 1=1(2 )误差项平方和,简称为SSE,它是每个水平或组的各样本数据与其组平均值误差的平方和,反映了每个样本个观测 值的离散状况,因此又称为组内平方和或残差平方和.该平方和实际上反映的是随机误差的大小,其计算公式为/=1 y=i九、解释组内方差和组间方差的含义SSA的均方(组间均方)记为MSA,也称组间方差,其计算公式为MSA = kMSE的均方(组内均方)记为MSE,也称组内方差,其计算公式为M5= nk十、方差分析中效应的意义SSA是对随机误差和系统误差的大小的度量,它反映了自变量对因变量的影响,也称自变量效应或因子效应。=1仅-寸=立&项SSAl=i )=11=1SS
40、E是对随机误差的大小的度量,它反映了除自变量对因变量的影响之外,其他因素对因变量的总影响,因此SSE也称为残差变量,它所弓I起的误差也称为残差效应。SSE = SSE = 氐玷)=1 7=1SST是全部数据总误差程度的度量,它反映了自变量和残差变量的共同影响,因此他等于自变量效勤口M施SST=(X. - =y(=1 =1SST= SSA + SSE十一、多重比较方法的作用:它是通过对总体均值之间的配对比较来进一步检验到底哪些均值之间存在差异。十二、交互作用:是一因素对另一因素的不同水平有不同的效果,如对于双因素方差分析,有交互作用就是两个因素搭配在一起,对应 变量产生的一种新的效应。十三、解释
41、无交互作用和有交互作用的双因素方差分析在双因素方差分析中,由于有两个影响因素,若这两个因素是相互独立的,我们分别判断这两个因素对因变量的影响,这 时的双因素方差分析称为无交互作用的双因素方差分析,或称为无重复因素分析。如果出了两个因素的单独影响外,两因素 的搭配还会对因变量产生一种新的效应,这时的双因素方差分析就是有交互作用的双因素方差分析。十四、R2的含义和作用(1 )单因素方差分析中,表示自变量平方和(S列及残差平方和占总平方和(SS7)的比例大小,其平方根/?就可以用来测量两 个变量之间的关系强度r2_SSA( 组间平方和)一 SST(总平方和)(2 )无交互作用的双因素方差分析中,行自
42、变量平方(SSR )和和列自变量的平方和(SSC)加在一起则度量了两个自变量对 因变量的联合效应,联合效应与总平方和的比值定义为,其平方根R反映了这两个自变量合起来与因变量之间的关系强度空辿Z SSR + SSC总效应SST 3 )有交互作用的方差分析:忆=SSR+# SSRC十四、为什么双因素方差分析中,误差平方和与P值明显小于单因素方差分析中的任何一个平方和?是因为在双因素方差分析中,误差平方和不包括两个自变量中的田可f,因而减少了残差效应。而在分别作单因素方差分 析时,将行因素作为自变量时,列变量被包含在残差中,同样,将列因素作为自变量是,行变量被包含在残差中。因此,对于两 个自变量而言
43、,进行双因素方差分析要优于分别对两个因素进行单因素方差分析十五、完全随机化设计、随机化区组设计、因子设计(1 )完全随机化设计指”处理”被随机地才旨派给试验单元的一种设计、对完全随机化设计的数据采 用单因素方差分析随机化区组设计是指先按一定规则将试验单元划分为若干同质组,称为”区组。分组后再将每个品种(处理)随机地指 派给每一个区组的设计就是随机,化区组设计。试验数据采用差分析(3 )因子设计指考虑两个因素(可推广到多个因素)的搭配试验设计称为因子设计。该设计主要用于分析两个因素及其 交互作用对试验结果的影响。试验数据采用可程舷弦轴第十章一元线性回归一、简述相关系数的性质相关系数是指根据数据计
44、算的对两个变量之间线性关系强度的度量值。若相关系数是根据总体全部数据计算的,称为总 体相关系数,i己为P ;若是根据样本数据计算的,则称为样本相关系数,记为厂,样本相关系数的计算公式r = 腿:r的取值范围是卜:U; 为完全相关表明X与y之间为完全正线性相关关系,/=7,表明X与y之间为完全负线性相关关系;/ = 0,表明X与y之间不存在线性相关关系相关,-1/*0,表明X与y 之间为负线性相关,。冬1,表明X与y之间为正线性相关,S越趋于1表示关系越密切;M越趋于0表示关系越不密切r具有对称性,X与y之间的相关系数次田和y和x之间的相关系数相等,即次田=伉r的大小与X和y的原点及尺度无关。改
45、变X和y的数据原点和计量尺度,并不改变r的大小(4 ) r仅仅是X和y之间的线性关系的度量,不用于描述非线性关系,这意味看,=0指标是两个变量之间不存在线性相关 关系,但并说明变量之间没有任何关系,如可能存在非线性相关关系。变量之间的非线性相关程度较大时,就可能会导致 =0.因此当=0或很小时,不能轻易得出两个变量之间不存在相关关系的结论,而应结合散点图作出合理的解释。5)r虽是两变量之间线性关系的度量,却并不意味看X和y之间一定有因果关系。二、利用相关关系如何判窗斤变量之间相关的方向和相关的密切程度?(l)r的取值范围是卜:U;为完全相关,=1,表明X与y之间为完全正线性相关关系,明X与y之
46、间为完全负线性相关关系;/ = 0,表明X与y之间不存在删相关关系相关,-lr0,表明X与y 之间为负线性相关,0/-1 .羲明X与y之间为正线性相关。(2)根据实际数据计算出的r, M越趋于1表示关系越密切;M越趋于0表示关系越不密切。相关程度分为以下几种 情况:当lzlN.8时,可视为高度相关;0.5|/)0.8时,可视为中度相关;当0.3M0.5时,视为低度相关;S0.3时,说明 两变量之间的相关程度极弱,可视为不线性相关。但这种解释必须建立在对相关系数的显著性进行检验的基百出之上三、为什么对相关系数进行显著性检验?一般情况下,总体相关系数P是未知的,我们通常是根据样本相关系数r作为P的
47、近似估计值。但由于r是根据样本数 据计算出来的,他受至肿样波动的影响。由于抽取的样本不同,r的取值也不同,因此r是一个随机变量。能否根据样本相 关系数说明总体的相关程度?这就需要考察样本相关系数的可靠性,即进行显著性检验。四、样本容量对r的影响及r与P的关系当样本数据来自正态总体时,随看n的增大,r的抽样分布趋于正态分布,尤其是在总体相关系数P更小或接近0时,趋于 正态分布的趋势肃E常明显,而当P远离0时,除非n非常大,否则r的抽样分布呈现一定的偏态。因为当r是围绕P的 周围分布的,当P的数值接近1或-i时,如p=0.96时,两个方向变化的全距不等,因此r的抽样分布也不可能对称。但当 p=0时
48、,两个方向的变化的全距接近相等,所以r的抽样分布就接近对称了。总之,当P为较大的正值时,r呈现左偏分布; 当P为较小的负值时,r呈现右偏分布。只有当戍近0,而样本容量n很大时,才能认为r是接近于正态分布的随机变量。五、r的显著性检验的步骤提出假设:尽:p=0 ; M : qhO计算检验的统计量F =心-2)进行决策。确定显著性水平Ct,并作出决策。若拒绝尽,表明总体的两个变量之间存在显善的线性关系;若不拒绝 Zi六、概述相关分析和回归分析的区别和联系联系:两者都是研牺E确定性变量间的统计依赖关系,并能测度线性依赖程度的大小。他们有共同的研究对象,都是 对变量间的相关关系的分析,二者可以相互补充
49、,相关分析可以表明变量间的相关关系的性质和程度,只有当变量间存在相 当程度的相关分析时,进行回归分析,寻求变量间相关的具体数学形式才有意义。同时,在相关分析时,如果要具体确定变量 间相关的具体数学形式,又要依赖于回归分析,而且在多个变量的相关分析中,相关系数的确定也是建立在回归分析的基础上 的。(2 )区别:a.相关分析中变量的地位在相关分析中是对称的,不考虑二者的因果关系,而且都是随机变量;回归分析 中变量的地彳立是不对称的,有自变量和因变量之分,而且自变量也往往被假设为非随机变量。b、相关分析只关注变量间 的联系程度,不关注具体的依赖关系;而回归分析则更加关注变量间的具体依赖关系。G从研究
50、的目的上看,相关分析时用 一定的数榭旨标(相关系数)度量相互联系的方向和程度;而回归分析却是寻求变量间联系的具体数学形式,是要根据自变量 的固定值去估计和预测因变*的平均值。七.回归分析主要解决的问题:从一组数据出发确定出变量之间的数学关系式对这些关系是的可信程度进行各种统计检验,并不影响某一特定变量的诸多变量中找出哪些变*的影响星显著的, 哪些是不显善的利用所求的关系式,根据一个或几个变量的取值来估计或预测另一个特定变量的取值,并给出这种估计或预测的置 信度八、一元线性回归模型的基本假定(1)误差项是一个期望值为0的随机变量,即(e)=0.对于f给定的*值,F的期望值为E(X)=0。+巨1X
51、(2 )对于所有的X值,岁的方差7A都相同误差项是一个服从正态分布的随机变量且相互独立。即0 e)独立性意味S对于一个特定的*值,它所对应的与 其他*值所对应的f不相关。因此,对于f特定的X值,它所对应的y值与其他X所对应的y值也不相关因变量y与自变量X之间具有线性关系在重复抽样中,自变量X的取值是固定的即假定X是非随机的注:前三项也即在回归分析中的误差序列C的基本假定九.参数的最小二乘估计的基本原理对于第i个X值,估计的回归方程可表示为:对于X和y的n对观察值,用于描述其关系的直线有多条,究竟用哪条直线来代表两个变量之间的关系,需要有一个明 确的原则。我们自然会想到距离各观测点最近的一条直线
52、,用最小化观察值与估计值的离差平方和来估计参数和Q1的方法 称为最小二乘法,是使得因变量的观察值与估计值之间a 八 的离差平方和达到最小来求得叽 和01的方法。十、回归分析中模型参数的最小二乘估计么)和01具有哪些统计特性?若参数用于预测,影响预测精度的因素有哪些?(1)统计特性:1线性.即估计量Qo和p 为随机变量的y的线性函数八Ab、无偏性,Qo和分别是Qo和的无偏估计a八C、有效性,Qo和01是所有线性无偏估计量中具有最小方差的估计量(2)影响预测精度的因素:a、预测的信度要求,同样的情况下,要求预测的把握度越高,则相应的预测区间就越宽,精度 就越低b总体y分布的离散程度正。*越大,预测
53、区间越宽,预测精度越低、c样本观测点的多少n. n越大,预测区间越窄,预测精度越高。、d样本观测点中,解释变量X分布的离散程度,X分布越分散,越策精度越高、e 预测点Xo离样本分布中心的距离。距离越远,预测区间越宽,预测精度越低,反之越高。、十一、解释总平方和SST、回归平方和SSR、残差平方和SSE的含义,并说明它们之间的关系用实际观测值y与其均窗的离差平方和表示总平方和(SS7).反映因变量的打个观察值与其均值的总离差回归平方和(SSQ是回归值5与均值y的离差平方和,反映是由于*与y之间的线性关系引起的F的取值变化部分, 它是可以由回归直线来解释的y的变差部分残差平方和曲是各实际观测点与回
54、归值的残差y于的平方和,反映除”以外的其他因素对X变差的作用,也称为不可 由回归直线来解释的y变差部分三个平方和的关系为:sst=ssr+sse十二、判定系数R2的含义和作用(1 )判定系数R2指回归平方和占总离差平方和的比例,公式为R-=R-=上 1CCT* /I=1 -上!-flr-lJ-Ir-l(2 )反映回归直线对观测换的拟合程度 (3 )如果所有观测点都落在直线上,残差平方和SSE=O , R2=1 ,拟合是完全的;如果y的变化与X无关,X无助于解释y的变差,此时沪y,则r2=0可见,r2的取值范围在0,1之间(4 ),说明回归平方和占总平方和的比例越大,回归直线与各观测点越接近.用
55、X的变化(4 )来解释y值变差的部分就越多,回归方程拟合的越好;3。.说明回归方程拟合的越差(5 )判定系数等于相关系数的平方,即Z? = (z)2十三、回归分析结果的评价所估计的回归系数的符号与事先预期的一 St。(2 )如果理论认为y与X之间的关系不仅是正的,而且是统计上显著的,那么所建立的回归方程也应该如此。回归模型在多大程度上解释了因变量y取值的差异?可用判定系数来回答考察关系误差项的正态性假定是否成立,因为在对线性关系进行F检验和对回归系数进行t检验时.都要求误差 项月副正太分布,否则,所用的检验程度将是无效的,检验正态性的简单方法是画出残差直方图。十四、估计标准误差估计标准误差是才
56、旨均方残差(MSE )的平方根。估计标准误差是对各观察点在言主周围分散程度的一个度量值,它是对 误差项E的标准辱的估计计算公式为SSE估计标准误差Sy可以看做是在排除了 X对y的线性影响后,y随机波动大小的一个估计量。从估计标准误差的实际 意义看,它反映了用估计的回归方差预测因变量y时预测误差的大小。若各观测点越靠近直线,Sy越小,回归直线对各观测 点的代裘性就越好,根据估计的回归方程进行预测也就越准确;若各观测点全部落在直线上则Sy=O。此时用自变量来预测 因变量时是没有误差的。回归直线是对n个观测点拟合的所有直线中,估计标准误差最小的F直线。十五、回归分析中,F检验和t检验各有什么作用一元
57、回归中,F检验的作用:线性关系的检验是检验自变量X和因变量y之间的线性关系是否显著,或者说, 他们之间能否用f线性模型y = Po+PiX + 来表示。t检验的作用:回归系数的显善性检验是要检验自变量对因变量的影 响是否显著的问题。(2 ) 一元线性回归中,自变量只有f , F检验和t检验是等价的,也就是说.如果Ho :仇=0被t检验拒绝,他也将被F 检验拒绝。但在多元回归分析中,这两种检验的意义是不同的,F检验只是用来检验总体回归系数的显著性,而t检验则是 检验各个回归系数的显著性十六、线性关系的检验步骤和回归系数的检验步骤线性关系的检验步骤:第一步:提出假设,hh : 尸0线性关系不显著第
58、二步:计算检验统*尸*=时珂2M 第三步:作出决策:确定显著性水平-并根据分子自由度1和分母自由度n-2找出临界值F若&甩拒绝hk -若尺 甩不拒绝AG(2 )回归系数的检验步骤:第一步:提出假设冷Z?i=O(没有线性关系)切:4*0(有线性关系)A第二步:计算检验的统计量=第三步:确定显著性水平a,并进行决策 I /拒绝&; I 9不拒绝十七、置信区间和预测区间的含义?二者的区别1) a信区间指?!)用估计的回归方程,对于自变量X的一个给定值Ab ,求出因变量y的平均值的 估计区间(confidence interval) E(g-a置信水平丽信区间为 Z卡越(2 )预测区间瘙1用估计的回归
59、方程.对于自变量X的一个给定值xo,求出因变量y的一个个别值的估计区间 (prediction interval)力在水平下的预测区间为W 2)1 + 7+(片一才二者的区别:重信区间估计是求y的平均值的估计区间,而预测区间的估计是求y的一个个别值的区间估计;对 同f 0,这两个区间的宽度也是不一样的。预测区间要比信区间宽一些。十八、残差分析的作用:(1 )用于判断有关模型的假定是否成立如误差项的假定是否成立)用于分析回归中的异常值和对模型有影响的观测值十九.彩响区间宽度的因素(1 )童信水平(19 ),区间竟度随信水平的增大而增大。(2 )割g的离散程度(S ),区间宽度随S的增大而增大样本
60、容量,区间宽度随样本容量的增大而减小(4 )用于预测的心与S的差异程度,区间竟度随X0与S的差异程度的增大而增大第十一章多元线性回归一、解释多元线性回归模型、回归方程、和估计的多元回归方程的含义(1 )多元线性回归模型:描述因变量y如何依赖于自变量X2, , Ai,和误差项的方程,称为多元回归模型。涉及Q个自变量的多元回归模型可表示为y=Po +P1 X1 + p 2*2 + +PpXp+-其中邛。、久、P 若模型中存在序列相关时,解决的方法有:如果误差项e不是相互独立的,则说明回归模型存在序列相关性,这 时首先要查明序列相关产生的原因,如果是回归模型选用不当若模型中存在序列相关时,解决的方法
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 北师大版三年级下册数学期末考试试卷附答案
- 2024装修合同基本格式
- 2024电动车代理合同范文
- 脑脊液膨出术后护理
- 护理部全年不良事件分析
- 学校务虚会发言稿
- 类风湿科护理查房
- 2023年天津银行招聘考试真题
- 电解铝生产(第一期)学习通超星期末考试答案章节答案2024年
- 机器学习学习通超星期末考试答案章节答案2024年
- 婚姻家庭纠纷中的法律风险与防范
- 海南省海口市重点中学2023-2024学年七年级上学期期中数学试卷(含答案)
- 如何提高数学课堂的教学效率
- 教育舆情报告2023
- 学美术的职业生涯规划与管理
- 软件定义存储在数据中心的应用
- 广东省揭阳市榕城区2023-2024学年八年级上学期期中考试地理试题
- 广东省信宜市2023-2024学年高二上学期期中考试历史试题
- 《田螺姑娘》儿童故事ppt课件(图文演讲)
- 金融业的数据隐私保护与合规问题分析
- 销售应急预案
评论
0/150
提交评论