下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一章:数据的整理和描述名词解释1:分类型数据:即属性数据,它所描述的是事物的品质特征。从统计的计量水准来说是一种较原始和低级的计量,称列名水准。这类数据只能计算各类的频数和比例,不能进行其他数学运算,如人口按性别、民族等分类,这种分类没有严格的先后顺序。广义的分类数据,也包括顺序的计量水准,如学生的成绩划分为优良中及格和不及格,它们之间有一定的顺序关系,可以比较,但也不能进行其他数学运算。2:数量型数据:这类数据是用来说明事物的数量特征,从统计的计量水准来说包括定距水准和定比水准。如:人的年龄,企业职工人数,产品产量,国家的国民生产总值等用数值的形式表示,这类数据除了计算频数和比例外,还可进行计算平均数和方差。3:截面数据:是指用来描述事物在同一时点社会经济各种不同指标的数据。如在同一时期的人口数、国内生产总值、运输量、财政收入等数据,可观察同一时期各指标间的相互关系。它还包括同一时期相同指标在不同部门的分布,又称横向数据,它可研究客观现象之间的相互联系。4:时间序列数据:将数据按时间的先后顺序排列后形成的数据序列,又称纵向数据。时间序列数据可以反映事物在一定时间范围内的变化情况,研究事物动态变化的规律性并进行预测等。5:频数分布:即次数分布,是按数据的某种特征进行分组后再计算出各类数据在各组出现的次数加以整理,这种次数也称频数,整理后形成的表称频数分布表。把频数与全体数据个数之比,称频率,这样的表就为频率分布表。6:组距:在数量型数列中按单变量分组有时组数过多,不便于观察数据分布特征和规律,需要将数据的大小适当归并,在每组中规定的最大值与最小值之差就称为组距。各组的组距均相等时称等距数列,不完全相等时称不等距数列。7:组界:又称组限,指组距的变量数列的分组中,各组变动范围两端的数值,最小限度的值称下限,最大限度的值称上限,上限与下限之差即为组距。8:组中值:组距的变量数列中每组上限与下限的平均值,其公式为:组中值=(上限+下限)/29:频率分布表:频数分布表的另一种表现形式,它把每组中变量出现的频数转换为相对次数,即得每组次数除以总次数,称各组的频率,各组的频率相加为1。10:直方图:频数分配表的直观图示形式。它适用于组距数列,图形用一平面的直角坐标,横轴表示变量值,各组的组距大小与横轴上的长度成正比。纵轴表示频数或频率,用高度来表示频数多少,与横轴的各组组距连接垂直直线。11:条形图和柱形图:一种用来对各项信息进行比较的图示方式。在平面上用相同宽度但不同长度的条形来表示数值的大小,其条形可横可竖。当条形竖立时,也称柱形图。条形图可用来比较不同国家、地区、行业以及公司单位之间同一指标的差异,也可以比较同一单位在不同时间指标值的差异。如果把两个或两个以上指标的条形图合成一组条形图,称复式条形图,如果把一个条件的全部长度分割成几个小段,每个小段长度代表总体的一个组成部分,称结构条形图。12:饼形图:又称圆形结构图,一般用来描述和显示总体中各种类型占全体的比例。通常以圆面积表示研究对象的总量,把圆形分成若干扇形部分,每个扇形部分代表一种组成部门,该组成部分的大小与扇形的面积大小成正比,从而表示总量的构成状况,形象地显示总量的结构。13:折线图:有两种折线图,一是在研究动态趋势时,以横坐标表示时间,纵坐标表示现象的数值,将所形成的点逐点相连,就形成动态折现图,可以反映动态的变化趋势,另一是在直方图的基础上,将顶端中间的点,其临近两点用直线加以连接,就形成频数分配的折线图,把折线两端延伸与横轴相连,则折线图下所覆盖的面积相当于直方图的面积,在频率分布时其面积表示1,可反映变量的分布状况。14:曲线图:是折线图的修匀,折线图在各点连接时会产生突变,而客观事物的发展往往是逐渐变化的,通过修匀后的曲线图则弥补了这一不足,反映了逐渐变化的过程,反映时间数列的曲线图又称动态曲线图或历史曲线图,反映变量数列的曲线图又称频率曲线图。15:散点图:又称散布图,通常用来描述两个变量之间的关系,当一个单元具有两个标志值时,在坐标轴上分别用横坐标和纵坐标表示,在它们取值的交叉点上作点,这些点所形成的图形,就称散点图。它可以观察两个指标之间是否存在关系,若有关系又是何种形状的关系,在相关与回归分析中具有重要作用。16:茎叶图:形象地把每个数据分为茎和叶两部分,把数字的主干部分加以归类作为茎,然后在分类时把其余部分作为叶,列在相应的茎上,其优点是可以把统计的分组和频数分配的划记工作一次完成,即保持了直方图的直观形象,又保留了原有数据的原始信息,从中可得到平均数,中位数和众数等特征值。17:平均数:又称均值,其中最常用的是算术平均数,是指一组数据之和除以数据的个数,它代表了一组数据的一般水平,因为它是把高低数据相互抵消的结果,它也是数据集的重心位置,正好是一平衡点,反映了数据位置或集中趋势。18:中位数:将一组数据按照由小到大依次排序后处于中间位置上的变量值,也就是说中位数将整个数据一分为二,正好有一半的数据比中位数小,另一半的数据比中位数大,如果数据集为偶数,则应是中间两个数值的平均数,如果是频数分配表,中位数往往位于某一组距之内,需要用插入的方法计算。19:众数:指一组数据中出现次数最多的那个变量值,众数的优点在于反映了数据中最常见的数值,它不仅适用于数量型数据,也适用于分类型数据。其缺点是有些数据集可能没有众数,也可能有几个众数。20:方差:是一组数据的每一个观察值与其平均数离差平方的平均数。方差是反映一组数据离散程度的重要指标,当与平均数一起应用时可以说明平均数代表该数据集的代表性,方差越小,平均数的代表性越强。21:标准差:方差的平方根,即。=。2,也是反映数据离散程度的指标,由于方差是变量与平均数离差平方的平均数,因而方差的量纲与原来数据的量纲不一致,标准差将其开平方根,就恢复了原来数据的量纲。22:极差:又称全距,极差日=最大值max—最小值min,显然它也是度量一组数据的离散或集中程度的,极差越小表示数据的集中程度越高,极差越大表示数据越分散。它的优点是计算简便,缺点是易受极端值的影响而不够稳定,且没有充分利用所有数据的信息。23:变异系数:又称离散系数,O 是指一组数据的标准差与平碍数之5比,用u表示,它反映数据的相对离散程度,便于在不同均值的两组数据中以及对于具有不同属性的两组数据中比较离散程度。24:四分位点:将一组数据由小到大顺序排列,用Q1Q2Q3三点将整个数据的个数进行四等分,它们分别位于:25%、50%、75%的位置,这三个点就称为四分位点,这三个店的数值称为四分位数。25:四分位差:基于四分位点计算的数据值之差,又分为四分位极差和四分位半距。四分位极差是指第3个四分位数Q3与第1个四分位数之差,即Q3-Q1,它表明除去两端各25%的数据后的极差;四分位半距是将四分位极差除以2.两者都是度量数据离散程度的指标,与全距相比,它排除了少数极端数值的影响。思考题1、 简述平均数的作用:在大量的数据观察中,平均数抵消了些偶然变动的影响,从而呈现了数据的一般水平,在频数分布中平均数体现了大量数据的集中趋势,其他数据围绕平均数上下波动,在统计推断中也离不开平均数。2、 简述中位数的作用?中位数也是一种集中趋势的计量,但它是一个位置的中间值。当数据中有极端数字时,平均数易受极端值影响,而中位数则不受影响,故在统计中称有比较稳健的性质。3、 简述众数的作用?一个表明位置的集中趋势,它表明数据出现次数最多的那个值,有特定的作用,如电视机有各种不同的型号,需要了解哪种型号是销售最多的,这就是众数的型号,他不能由平均数或中位数代替。另外它不仅可用于数量型变量,也可用于属性变量。4、 简述一组数据中,平均数、中位数和众数间的关系?当一组数据呈中间大两头小的对称分布时,平均数、中位数和众数是一致的。但如果呈现偏态时这三者就不一致了,当分布为右偏时,则平均数受极端值的影响较大,中位数在中间而众数最小。当分布为左偏时,则平均数最小,众数最大,而中位数仍在中间。5、 简述标准差与变异系数的关系?标准差与变异系数都是测定一组数据的离散程度,有相同的作用,但标准差是测定绝对的离差大小,具有量纲,它的计量单位与测量数据的单位是一致的,变异系数则是测量相对的变异程度,因而没有量纲,在不同场合有不同作用。6、 简述极差与四分位极差关系?极差与四分位极差都是计量一组数据离散程度的,极差比较直观且容易计算,在质量管理中测量产品变动情况时常用到极差。但极差是最大值减去最小值,易受极端值的影响。而四分位极差是两端各去掉1/4单位后,计算其差值,因此它消除了两段极值的影响,但在计算时要先算出Q1和Q3。:填空题:1:若是一个正偏的频数分布,指峰在左边,右边有较长的尾巴,算术平均数集中趋势的计量值最大。(平均数〉中位数〉众数)2:有一组数据:0,0,0,-30,-20,20,50.其平均数为2?-86,中位数为0,众数为03:甲、乙两地相距200公里,某人驾车从甲地到乙地平均车速每小时50公里,又从乙地回甲地,平均每小时40公里,则来回全程的车速每小时为44.44(全程400公里,共花9小时,400/9)公里。4:-条公路在建造的招标中共有5个投标,其投标金额分别为100,112,108,98,102,这些投标的极差为112-98=14,标准差为5.22,变异系数为0.05.5:某篮球队上场的5名球员有4名在190公分至200公分间,其中有1人身高为2.4米,要说明该队队员身高的一般水平,用平均数或中位数这一集中趋势比较适合,理由是:可以充分利用每个人身高的信息,反映全队的平均高度。或可以不受个别高个了的影响而反映般水平。第2章随机事件及其概率名词解释1、 随机试验:广义地讲,凡是一个行动或过程会导致一系列可能结果之一,但具体发生哪一个结果则是不确定的,这种行动或过程统称为随机试验。如在一批产品中随机地抽取一个,观察是正品还是次品等。随机试验有以下3个特点:(1)可以在相同的条件下重复地进行(2)试验的结果不止一个,且是可知的(3)每次试验总是出现结果中的一个,但试验结束前不能确定哪一个结果。这里注意两点,一这里所指的“试验”不局限于科学实验或工程方面为了探索某种规律或生产某种新产品的试验,而是一种更广的概念。二是在实践中,尤其在社会经济及商务管理中不可能在完全相同的条件下重复进行,因而是相对的。2、 随机事件:随机试验的每一个可能的结果称为随机事件,又称不确定事件,简称事件。事件可分为基本事件和复合事件,如事件不可能分解,即一个事件中只包括一个基本结果,就称为基本事件,若事件中包括一个以上结果,就称为复合事件。事件中有两种特殊情况,在一定条件下每次试验一定会出现的事件称必然事件,在一定条件下每次试验一定不会出现的事件称不可能事件。3、 样本空间:随机试验的所有可能结果所组成的全体,称样本空间,它应该无一遗漏的包括所有基本结果。4、 事件的包含:如果事件A的每一个样本点都包括在事件B中,或事件A的发生必然导致事件B发生,则称事件A包含于事件B,或称事件B包含事件A,记作A{B或B}A。5、 事件的并:又称事件的和,即表示事件A和事件B至少有一个事件发生的事件,记为AUB或A+B.类似地,n个事件A1,A2,…,An的并记为A1+A2+„+An,它表示n个事件中至少有一个发生的事件。6、 事件的交:又称事件的积,事件A与事件B同时发生的事件称为事件A与事件B的交,它是由既属于A也属于B的所有公共样本点所组成的集合,记AnB或AB。类似地,n个事件A1,A2,…,An的交记为A1,A2,„An,表示n个事件同时发生的事件。7、 事件的差:事件A发生而事件B不发生,这一事件称为事件A与事件B之差,它是属于事件A而不属于事件B的那些样本点构成的集合,记作A-B或AB(这一横在B的上面)8、 互斥事件:时间A与事件B没有共同的样本点,即两事件不可能同时发生,称事件A与事件B为互斥事件,又称A和B互不相容,否则这两个事件是相容的。9、 对立事件:又称互补事件或逆事件,一个事件B若与事件A互斥,且它与事件A的并是整个样本空间,则称B是事件A的对立事件。10、 事件的运算规则:进行事件的运算时,经常要用到一些规则:设ABC为三事件,则有:(1)交换律:AUB=BUA,AnB=BnA;(2)结合律:AU(BUC)=(AUB)UC,An(Bnc)=(AnB)nc;(3)分配律:AU(BnC)=(AUB)n(AUC),An(BUC)=(AnB)U(AnC)(4)德摩根律:又称对偶原则。11、 频数与频率:在相同的条件下进行N次独立的试验,事件A发生了Na次,则Na称为事件A发生的频数,比值Na/N称为事件A发生的频率。12、 概率:是对于不确定事件出现可能性大小的一种度量。由于概率应用的发展,统计学家对概率有不同的解释,有古典的定义,统计的定义以及公理化定义等。13、 概率的古典定义:如果某一随机试验的结果有限,且各个结果出现的可能性相等,则某一事件A发生的概率为该事件所包含的基本事件数Na与样本空间所包含的基本事件数N的比值,记为P(A)=Na/N.14、 概率的统计定义:在相同的条件下进行N次试验,事件A发生的频率Na/N,随着试验次数的增大,将围绕某一常数P上下摆动,则摆动的幅度逐渐减小而趋于稳定,这个频率的稳定值P称为事件A出现的概率。15、 概率的公理化定义:由下列几条公里组成:(1)对于任何一个事件A,有0二P(A)二1;(2)对于必然事件Q,有P(Q)=1,不可能事件:p(^)=0(3)对于两两互斥事件A1,A2,…,有P(A1+A2+…)=P(A1)+P(A2)+…16、 概率的加法规则:对于任意两个随机事件,它们之和的概率为两个事件分别概率之和减去两个事件之交的概率。P(AUB)=P(A)+P(B)-P(AnB),当两个事件为互斥时,P(AnB)=0,可简化为P(AUB)=P(A)+P(B).17、 条件概率:是指在另一事件已发生的条件下某一事件发生的概率。如当B已发生的条件下,A发生的概率就称为B发生条件下A事件的条件概率,记:P(A|B).18、 事件的独立性:两个事件中不论哪一个事件发生与否并不影响另一事件发生的概率,则称两个事件相互独立,这时它们的条件概率等于无条件概率。如A和B为二独立事件,则有P(B|A)=P(B),P(A|B)=P(A),且有P(AnB)=P(A)-P(B)19、 概率的乘法规则:两个事件之积的概率等于其中一个事件的概率与另一个事件在前一事件发生下条件概率的乘积。如p(AnB)=P(A)•P(B|A)或P(AnB)=P(B)・P(A|B)。当两事件相互独立时,则两个事件之积的概率等于两事件分别概率的乘积。思考题1、 随机试验的特点是什么?1、试验可在相同条件下重复进行;2、试验的所有可能结果是明确可知的,并且不止一个;3、每次试验总是恰好出现这些可能结果中的一个,但在试验之前却不能肯定这次试验会出现哪一个结果。2、 事件的独立性与事件互斥之间有什么联系和区别?互斥事件定是相互依赖,因而是不独立的。然而相互依赖的事件则不定是互斥的。以气象为例,用事件A表示下雨,事件B表示无雨,事件C表示刮风,显然事件A与B是互斥的,因而也是不独立的。事件A与C虽然不互斥,但通常也是不独立而有依赖关系。反过来不互斥事件,,可能是独立的,,也可能是不独立的。关于不互斥事件相互独立的例子,可用有放回抽样来说,A表第一次抽到是正品,B表第二次抽到也是正品。这两事件并不互斥,但却是独立的。3、 在现实世界的许多问题中用古典概率有什么局限性?由于古典概率要求试验结果是有限的,且要求每一基本事件出现的可能性是相等的,而现实世界中许多随机现象并不一定能满足这一条件,因而在使用上就受到局限。4、 概率的统计定义有什么局限性?由于概率的统计定义要求在相同条件下的大量重复试验,而在现实生活中不可能在相同条件下做大量试验,有些根本不能做重复试验。5、组成样本空间的条件是什么?组成样本空间的条件是无一遗漏地包括所有的可能结果。6、 若做郑一枚硬币和郑枚赛子的试验,现定义下列两事件:事件A代表硬币正面向上,塞子出现偶数,事件B代表硬币反面向上,塞子出现奇数。那么事件A和事件B的和是否组成样本空间?事件A与B的并没用包括所有的可能结果,如还有硬币正面向上,塞子出现奇数;硬币反面向上,塞子出现偶数,因此不能组成样本空间。7、 若产品检验分为合格与不合格两种结果,有放回地检验三件产品,共有多少样本点?其样本空间是什么?由于每个产品有两种可能,3个产品共有2的三次方等于8种可能结果,组成样本空间的样本点为O、冬冬冬冬木冬4°{合、口、口,口、口、不,口、不、合,合、不、不,不、合、合,不、合、不,不、不、合,不、不、不}以上按照观察的顺序排列,其中合表示合格品,不表示不合格品。8、 有甲乙丙三个投标人,看来甲中标的概率将两倍于乙,而乙的中标概率又两倍于丙。甲、乙、丙各自中标的概率是多少?应用了什么概率定义?答:由于三个投标人中总有一人中标,组成样本空间,已知P(甲)=2P(乙),P(乙)=2P(丙);根据样本空间的定义有P(甲)+P(乙)+P(丙)=1,将已知条件代入出4P(丙)+2P(丙)+P(丙)=1,7P(丙)=1,P(丙)=1/7,P(乙)=2/7,P(甲)=4/7。以上是应用了主观概率的定义,因为以上中标既不是等可能的,又无法进行大量试验,因此既不是古典概率定义,也不是统计概率定义。9、 样本空间与随机事件的表示方法是什么?表示的方法有列举法和描述法两种。以连续抛一枚均匀硬币两次,观察什么面朝上为例,该样本空间用列举法表示为Q=(正正,正反,反正,反反)。用描述法表示为Q={两次都出现正面,第一次出现正面、第二次出现反面,第一次出现反面、第二次出现正面,两次都出现反面}。10、条件概率P(A|B)和无条件概率P(A)谁大?答是不确定的。填空题1、 郑一枚硬币,连续郑三次,其样本空间共有8(2的三次方=8)个基本事件组成,用列举法来表示样本空间,Q=(正正正,正正反,正反正,正反反,反正正,反正反,反反正,反反反)。若每次出现正面的概率为0.6,则出现两次正面的一次反面概率为0.432。(0.6的平方*0.4=0.144,总概率=0.144*3=0.432)2、 如果事件A的概率为P(A)=1/2,事件B的概率为P(B)=1/2,则通常情况下P(AAB)的概率为:小量的可能取值,另一方面列出各种取值的概率,这种表示方式较直观清楚,但只能适用于取值较少的离散型概率分布。4、 概率密度函数:用数学函数的形式来表示概率分布,这种方式一般适用于连续的随机变量,且较简洁,同一类型的随机变量的分布,只要用不同的参数就可以表示不同的分布。5、 分布函数:是按照随机变量的取值由小到大顺序排列,并以累积的方式来表示概率分布,常用F(x)表示随机变量在小于等于x值时的累积概率,即F(x)=P(X*)。6、 随机变量的数学期望:是随机变量分布的一个重要特征,它是指随机变量的每一个可能值乘以相应的概率之和。数学期望就是随机变量以其概率作为权数的加权算术平均数,反映了随机变量的重心位置。7、 随机变量的方差:是指随机变量每个可能值与数学期望离差平方之数学期望。设随机变量为X,其方差定义为D(X)=E[X-E(x)平方]或D(X)=E(x平方)-(E(x))的平方,也是随机变量的一个重要特征,用来反映随机变量的离散程度。8、 贝努利试验概型:是具有以下特征的随机试验:(1)每次试验只有两种可能结果,可称为''成功”和“失败”,通常用1和0表示;(2)每一次试验出现成功的概率P相同,失败的概率q也相同,且有p+q=1;(3)每一次试验相互独立。9、 二项分布:一种常见的离散型随机变量的概率分布。它是建立在贝努利试验的基础上。二项分布具有两个参数n和p,记为X〜B(n,p)它的数学期望和方差分别为E(X)=np,D(x)=npq。10、 泊松分布:一种常见的离散型随机变量的概率分布,它适用于单位时间内随机事件发生的次数。当二项分布P的值很小,np<5时,X的分布也近似泊松分布。泊松分布的概率函数P(X=x)=。。。泊松分布的参数为A,其数学期望和方差都是&。11、 正态分布:一种最常用的连续型分布,这一分布的特点是变量集中在平均数左右,形成中间高向两端伸展的钟形。若u=0,方差=1时,称标准的正态分布。12、 均匀分布:一种连续型的随机变量的分布,若随机变量X在区间[a,b]间任意一点的概率密度相等,则称X服从[a,b]上的均匀分布,可记作X〜U(a,b),其密度为:U(x,a,b)={1/(b-a)a=x=b,{0其他。该分布的数学期望为E(X)=(a+b)/2,方差为D(X)=(b-a)的平方除以12。13、 指数分布:指数分布的数学期望和方差分别为E(X)=1/X,D(X)=1/A的平方。14、 协方差:反映二元随机变量分布中两个变量之间关系的一个特征值,设X、Y为两个随机变量,则协方差定义为Cov(X,Y)=E([X-E(X)])[Y-E(Y)]).显然,当X、Y为同方向变动时,协方差为正,往相反方向变动时,协方差为负。15、 决策树:是在不确定条件下进行决策时,形象地利用树分支的结构图形进行决策的一种方法。一般是从左向右展开,用一方框代表决策点,然后根据方案的多少向右边分出几根树枝,每根树枝的末端有一圆点称作结点,根据决策面临的状态又分成若干树枝,将决策方案与每一种状态相结合,就会得到各种不同的收益或损失,通常称作报偿,写在树枝的右端,然后再自右向左根据决策准则进行决策,选择最优方案。这种决策方法简单、直观、而且可应用于多阶段决策。16、 极大极小决策原则:不确定情况下决策原则之一,这一原则的基本想法是在选择方案时要从最坏处着想,即将各种方案的最坏结果一极小收益一进行比较,从中选择一个收益最大的方案。17、 最小期望机会损失原则:机会损失是指由于没有选择正确的方案而带来的损失。在采用这一原则时,首先要计算出各种情况下实行的方案与最优方案之间的差额,即机会损失。然后根据各种状态的概率算出各方案的期望机会损失。最小期望机会损失原则就是选择期望损失最小的方案。18、 最大期望收益原则:采用不同方案时对于不同的状态会得到不同的收益,可以根据不同状态的概率,计算出期望收益。最大的期望收益原则就是选择期望收益最大的方案。最大期望收益原则与最小期望机会损失两种决策原则是一致的。19、 敏感性分析:是指某一决策方案确定以后,决策中的自然状态变动对最优方案的变动是否敏感。如果自然状态有较小的变动就会影响方案的选择,就称该方案比较敏感。有时需分析自然状态的概率变动到什么程度需要改变最优方案,这种分析称敏感性分析。一:数学期望:1:定义: y,以概率为权数的加权平均!r;Ju性质:Ec=c(常数期望是本身),E(ax)=aEx(常数因子提出来),E(ax+b)=aEx+b(一项一项分开算)二:方差:1:定义:D性质^河丁或等于1/2。 若某一事件出现的概率为1/6,当试验6次时,该事件出现的次数将是:1次或大于1次或小于次。 有三种投资,每种投资成功的概率为1/3,若三种投资相互独立,三种投资中至少有一种成功的概率是多少?计算:1-P(A)・P(B)・P(C)=1-2/3的三次方即8/27=1-8/27=19/27 凡是一个行动或过程会导致一系列可能的结果之一,但具体发生哪一个结果是不确定的,这种行动或过程在统计学中统称为随机试验。丁或等于1/2。 若某一事件出现的概率为1/6,当试验6次时,该事件出现的次数将是:1次或大于1次或小于次。 有三种投资,每种投资成功的概率为1/3,若三种投资相互独立,三种投资中至少有一种成功的概率是多少?计算:1-P(A)・P(B)・P(C)=1-2/3的三次方即8/27=1-8/27=19/27 凡是一个行动或过程会导致一系列可能的结果之一,但具体发生哪一个结果是不确定的,这种行动或过程在统计学中统称为随机试验。 设A和B为同一样本空间的两个事件,若P(ACB)=P(A)•P(B)时称作A、B两事件独立,P(AUB)=P(A)+P(B)成立的前提是A、B两事件互斥。 检验3件产品,产品分为合格与不合格两种,“三件产品都不合格”这一事件的对立事件是:至少有件合格。 10个灯泡中5个是好的,5个是坏的,混合在一起,若随机有放回抽取2个灯泡,这2个灯泡都是好的概率为*,若第1个和第2个灯泡都是好的,再抽第3个灯泡仍旧是好的概率为1/2;若重新抽取3个灯泡,这3个全是好的概率为1/8;若一开始采用无放回抽样,抽中3个全是好的概率为*2。 一家公司中有30%是女性,其中有6%是已婚妇女,随机抽选1人发现为女性,该女性是已婚的概率为0-2。 共有ABCDEF六个字母,任何两个字母可组成一条信息,如AB、BC等,可以重复如AA,BB,且不同排列也表示不同信息,如AB与BA表示不同信息,这样六个字母可表达6的平方等于36条信息。第3章随机变量及其分布(-)名词解释1、 随机变量:把一随机试验的所有可能结果用数量来描述时,与一定事件相对应的数值称为随机变量。随机变量可分为离散的随机变量和连续的随机变量两类。若一个随机变量的所有可能取值为有限个或无限可数即可以逐个加以列举的,则称离散型随机变量,如果一个随机变量的取值不能一一列举,而是用某一区间来表示,则称为连续型随机变量。2、 概率分布:是对随机变量总体规律性的描述,综合反映随机变量在取某一值时的概率。它有多种表示形式,如分布律,概率密度函数,分布函数,分布的图形。3、 分布律:是概率分布的一种表示形式,常适用于离散型的随机变量,即用列表形式,一方面列出随机变3:公式:Dx=E(x2)-(Ex)2(方差=平方的期望一期望的平方);三:常用随机变量:1:0-1分布:①随机变量X只能取0,1这两个值;②X〜B(1,p);③Ex=p,Dx=p(1-p)2:二项分布:①分布律:P(X=k)=Ckpk(1-pg,k=0,12....n;^X〜B(n;p)③Ex=np④Dx=np(1-p)⑤适用:随机试验具有两个可能的结果A或者A,且P(A)=p,P(A)=1—p,将次贝努里试验重复n次。3:泊松分布:1:分布律:兀e项 ,P(X卖X寻kP)灯E0,=2.;4:Dx=A;5:适用:指定时间内某事件发生的次数。四:连续型随机变量:设X是一个连续型随机变量:1:X的均值,记做^,就是X的数学期望,即n=EX;2:X的方差,记做DX或C2,是(X-h)2的数学期望,即:DX=E[(X一日)2]=E(X2)一日23:X的标准差,记做。,是X的方差。2的算术平方根,即a=■a2;(二)思考题1平均数和方差的概念与随机变量中的数学期望和方差的联系和区别?描述统计中的平均数和方差具有相似的性质和作用,即都是反映集中趋势和离散程度的指标。但描述统计是对某一组观察到的具体数据而言的,而随机变量的数学期望和方差是对某一抽象的分布而言的,它代表了该类数据的总体现象,并不是已观察到得数据,而是假设潜在可能发生的数据。2简述数学期望的一些常用性质?如果X为随机变量,a和b为常数,则E(aX+b)=aE(X)+b;若X和Y为两个随机变量,则有E(X+Y)=E(X)+E(Y);若X和Y相互独立,则有E(XY)=E(X).E(Y)3简述随机变量方差的一些常用性质?常数的方差为0;设X为随机变量,a,b为常数,则有D(aX+b)=a的平方D(X);若X,Y分别为两个随机变量a,b为常数,则有D(aX±bY)=a的平方D(X)+b的平方D(Y)±2abCov(XY),若X和Y相互独立,则公式最后一项为零。4简述二项分布的性质?二项分布的图形由参数n和p确定,当p=0.5时,二项分布是以均值np为中心的对称分布,但当p不等于0.5时,该分布就不是对称的了。但是随着试验次数n的增加,又逐渐趋向对称。当次数无限增加时其极限分布时正态分布。因此当n很大时,通常可用正态分布来近似计算。二项分布的数学期望为np,方差为np(1-p)5简述泊松分布的性质?泊松分布时一个离散的分布,它只有一个参数P,其P可以是任意的正数,当P很小时,泊松分布时一个偏态的分布,并随着P的增大而趋向对称。随机变量X从0开始,其概率逐渐增加,在到P以后概率下降。当P是整数时,则X取P和P—1的概率最大。泊松分布的数学期望和方差都是&。6简述正态分布的性质?正态分布时一个对称的钟形分布,为一连续的光滑曲线,在均值P(标准正态分布为0)时有极大值,在左右一个标准差。(标准正态分布为1)处为曲线的拐点,在横轴X轴的两端无限延伸呈钟形,由于很多客观现象中由许多细小的随机因素综合作用的结果往往形成近似的正态分布,使得正态分布应用十分广泛。如对于正态分布的变量约99.7%的变量位于平均值左右三个标准差的范围内,在质量控制中通常称为控制质量的3。准则。(三)填空题1、 数学期望和方差是随机变量概率分布中的重要特征,数学期望反映分布的位置(集中趋势),而方差反映分布的离散程度、二项分布的数学期望为np,方差为np(1-p)P,泊松分布的数学期望为为,方差为f平方;正态分布的数学期望为u,方差为a2。均匀分布的数学期望为(a+b)/2,方差为(b-a)的平方除以12.2、 某一零件的直径规定为10厘米,但生产的结果有的超过10厘米,有的不足10厘米。在正常生产的情况下,其误差的分布通常服从正态分布。3、 某工厂生产的零件出厂时每200个装一盒,这种零件分为合格与不合格两类,合格率约为99%,设每9盒中的不合格数为X,则X通常服从 。4、 设X为离散型随机变量,当X为xi时的概率为p(xi),则X的数学期望E(X)定义为:£xiP(xi),X的方差D(X)定义为:£[xiE(X)]的平方・P(xi)5、 若随机变量Z服从标准正态分布,则Z<1.645的概率为95%,Z>-1.285的概率为90%。6、 随机变量的取值总是实数。7、 随机变量划分为离散型随机变量和连续性随机变量。(在表达方式上,离散随即变量可一一列举,采用分布律的方式表示,而连续随机变量则不能,在计算随机变量的概率时,离散随机变量可以计算出某一具体值的概率为零,需要计算某一区间的概率;在计算数学期望和方差等特征值时,离散的随机变量可用求和的形式,而连续的随机变量则要用积分的形式,计算概率时也是如此。8随机变量的方差是指随机变量的每一个可能值与数学期望离差平方的数学期望。第四章:抽样方法与抽样分布(一)名词解释1抽样推断:从研究对象的全部单位中抽取一部分单元进行观察研究取得数据,并从这些数据中获得信息,以此来推断全体。用统计学的术语就是根据样本来推断全体。2总体:是指研究对象的全体,它是具有某种共同性质的许多个体的集合,这些个体称为总体单元或元素。个体可以是指某种实体,如居名户,工厂,人等,也可以是指某一实体或现象的观察值,如居名户的收入,工厂的年产值,人的年龄等。总体是一个随机变量。3样本:是按照某种抽样规则从总体中抽选处一部分总体单元加以观察研究并用来推断总体的那部分单元的集合。样本中包括总体单元数目称样本量或样本容量。4随机抽样:又称概率抽样,在抽取样本的过程中排除主观上有意识的选择样本单元加以观察研究用来推断总体的那部分单元的集合。样本中包括的总体单元数目称作样本量或样本容量。5简单随机抽样:又称纯随机抽样,是指总体有N个单元,从中抽取n个单元作样本,使得所有可能的样本都有同样的机会被抽中的抽样方法。在抽样的实施过程中往往是逐个抽取的。根据在下一次抽取之前是否把前次抽取的总体单元放回总体,分为有放回抽样和无放回抽样。在有放回的情况下,同一总体单元有可能被重复抽中,故又称重复抽样,无放回抽样又称不重复抽样。在通常情况下简单随机抽样是指不重复抽样.6系统抽样:又称等距抽样或机械抽样,这种抽样方法是将总体单元在抽样之前按某种顺序排列,并按照设计的规则确定一个随机起点,然后每隔一定的间隔逐个抽取样本单元的抽选方法。7分层抽样:又称分类抽样或类型抽样,是在抽样之前将总体划分为互不交叉重叠的若干层,每个总体单元被划在某一层内,然后在各层中独立抽取一定数量的单元作样本的抽样方法。如果样本占总体单元的比例在各层中相等,称作等比例分层抽样,如果不等则称不等比例抽样。8整群抽样:是在抽样之前把总体的单元按自然形成的或人为地分成群作为抽样单位,在包括全部总体单元的群中随机的抽取若干群作为样本的抽样方法。例如在抽取住户时,抽取若干个街道或居委会,在抽选学生时抽取若干个学校。9抽样框:用来代表总体从中抽选样本的框架。为了实施抽样通常要把总体单元划分成抽样单元,抽样单元可以是组成总体的基本单位一元素,也可以是把若干元素组合在一起的群,把抽样单位编制成名册,清单或地图,这种名册,清单或地图就称作抽样框。一个好的抽样框应包括全部总体单元,既不重复又无遗漏,并具备抽样所需的有关信息。10非抽样误差:是抽样调查的估计推断中除了抽样误差以外其他所有误差的总称。它的来源很多,如有的来自于调查员的疏忽,记录出错;有的来自于被调查者对一些敏感性问题的故意虚报瞒报;也有的是回忆性错误或所问的问题含义不清而引起错误的理解;还有无回答或抽样框引起的偏差等。11无回答:是指抽样调查中的样本,由于各种原因未能获得调查数据,通常是发生在调查对象是人单位总体,包括有意或无意的无回答,例如对一些敏感的问题不愿回答等。愿意回答的人与不愿的人在一些指标的数值上往往是有差别的,如果根据样本中回答的数据来推断总体,往往会产生偏差。14总体分布:是指研究对象这一总体中各个单元标志值所形成的分布。总体分布的一些特征如数学期望(即总体平均数)等往往是抽样推断中待估的参数。15样本分布:又称子样分布或经验分布,指从总体中抽取容量为n的样本,这些样本单元标志值所形成的分布。当样本量比较大时,样本是总体的一个雏形,可以用样本的均值来估计总体的均值,用样本的方差来估计总体方差。16抽样分布:是指样本估计量的分布。样本估计量是样本的函数,在统计学中称作统计量,因此抽样分布也是指统计量的分布。17中心极限定理:是统计学中阐明在什么条件下随机变量趋近于正态分布的一类定理。18概率抽样:又称随机抽样,是建立在概率论和统计学基础上的一种科学的抽样方法,这种抽样的样本抽取是完全随机的,即样本中的个体排除人们意识的选取,而是凭机遇抽选出来的,它要求每个总体单元被抽中概率时已知的,从而每个可能的样本被抽出的机遇大小也是可以用概率计算和表示的。这种抽样特点是可以用一定的概率来控制抽样误差的范围。19判断抽样:是一种非概率抽样方法,和概率抽样不同,其样本的抽取或是凭人们的主观判断从总体中选出少数有代表性的单元,或完全由人们任意挑选,每个样本被选中的机遇无法计算,更不能用概率表示。这种方法准确的情况取决于主观判断能力,优点是方法简便。费用节约,但缺点是不可避免的带来主观认识上的偏差,而且这种误差或偏差是无法客观度量的。(二)思考题1系统抽样的特点是什么?首先,系统抽样方法简便易行,容易掌握,当对总体单元按一定顺序排列后,只要确定了抽样的起点和间隔,样本单元也就随之而定。其次,从组织管理来看,在多阶段抽样中,便于上一级对下一级的监督检查,是否按随机原则抽选样本;第三,从抽样效率来看,系统抽样的样本单元在总体中的分布比较均匀,因此其抽样误差常常小于简单随机抽样,如果利用已知信息将总体单元按有关标志排列时,则可以明显提高估计精度。2分层抽样的作用是什么?1、通过分层可以获得各层作为子总体的估计值;2、在组织抽样时,可以按地区或行政系统分层,使抽样的组织和实施比较方便;3、若按照标志值的大小分层,因此分层抽样要求有分层的抽样框及各层的总体单位数目。3整群抽样的优缺点是什么?优点:群内各单元比较集中,对样本调查比较方便节约费用;整群抽样时不需要他有总体单元的详细名单抽样框,只要求有群的名单抽样框,而这比较容易得到;如果群的内部差异比较大,群之间的差异比较小时,整群抽样的效率还是比较高的。但是在通常的情况下,群内各单元往往有同性质,即群内各单元的差异比较小,而群与群之间的差异比较大,这样整群抽样误差要大于简单随机抽样,这是整群抽样的局限性。4简述抽样框对抽样调查的影响?抽样框是用来代表总体并从中抽选样本的框架,因此用样本进行推断的总体也与抽样框所代表的总体相一致。如果抽样框与所研究的目标总体之间不一致,就会产生估计的偏差。严重的偏差会导致数据失真,甚至得出错误的结论,故抽样框的好坏对于抽样调查至关重要。5简述无回答对抽样的影响及处理无回答的方法?1、无回答会减少有效地样本数量,从而会使抽样误差较原设计误差增大2、无回答往往是有原因的,如被调查者的问题比较敏感不愿意回答或者其他原因不回答,回答者和不回答者之间对调查的态度不同,常常会影响到研究的标志值有差异,因此只根据回答者的结果来推断总体就会产生偏差,其偏差的大小取决于两类回答者的差异程度和无回答在总样本中的比例。6处理好无回答的问题?1、应搞好调查问卷的设计和加强调查员的培训,使得尽量减少无回答2、可采用多次访问的方法,把无回答的情况降到最低3、对无回答的人作进一步抽样,以获取无回答的信息,加以综合估计4、用适当的方法替换无回答的样本单元等。7简述中心极限定理在抽样中的作用?中心极限定理是在大样本条件下对总体特征值进行区间估计的工具。在抽样中统计量的分布与总体分布之间有一定的关系,如总体分布为正态分布,其样本均值的分布不论样本容量大小均服从正态分布,但如果总体分布未知时,小样本统计量的分布通常也不好确定。通过中心极限定理可知,随着样本容量的增加,不论总体的分布如何,样本均值的分布会趋向正态分布,这就对总体均值的估计提供了理论基础。8简述X的平方分布的性质和特点?服从X的平方分布的随机变量始终为正;分布形状通常为一正偏分布,但随着自由度的增加而趋于对称,自由度为n的x的平方分布其数学期望为E(X的平方)=n,方差为D(X的平方)=2n,X的平方分布具有可加性,若U和V独立,则U和V也是服从X的平方分布的随机变量,即U~X平方(n1),V~X的平方(n2),且U和V独立,则U+V也是服从X的平方分布的随机变量,其自由度为n1+n2.(三)填空题1概率抽样在抽选样本单元时必须是使总体中的每一个单元(有已知的概率被抽中)2若采用有放回的等概率抽样,如果样本容量增加4倍,则样本均值抽样分布的标准误差将(为原来的二分之一)3某大学在学生中进行一项民意测验,假设抽取样本的方法是根据学校学生处的花名册,按一定的间隔抽取一人,这种抽样方法称作(系统抽样);若根据全校的所有班级中抽选若干班级,对抽中班级的学生进行全部调查,这种抽样方法称作(整群抽样);若不同的系的学生的态度有所差别,在各系中分别抽取一部分学生进行调查,这种抽样方法称作(分层抽样)3自由度为n的2分布变量的均值为-^。4如果抽选10个人作样本的抽选方法是从160公分及以下的人中随机抽选2人,在180公分及以上的人中随机抽选2人,在165~175公分的人中随机抽选6人,这种抽选方法称作(分层抽样)5调查某市中学生中近视眼人数比例时,采用随机抽取几所中学作为样本,对抽中学校所有学生进行调查,这时每一所中学时一个(抽样单位)6在一项化妆品调查中,采用的方法是将样本按总人口的男女性别和城乡比例进行分配。然后要求在各类人员中有目的地选择经常使用该化妆品的消费者进行调查,这种方法称作(配额抽样)7在估计某一总体均值时,随机抽取n个单元作样本,用样本均值作估量,在构造置信区间时,发现置信区间太宽,其主要原因是(样本容量太小了)8区间估计时,置信区间的大小表示估计的(精确性),置信概率的大小表示(可靠性)9估计量的抽样标准误大小反映了估计的(精确性)10估计量的均方误反映了估计的(准确性)11当抽样方式与样本容量不变的条件下,置信区间愈大则(可靠性愈小)12估计量的有效性是指(估计量的抽样方差比较大)13在参数估计中利用t分布构造置信区间的条件是(总体分布为正态分布,方差未知)14在样本容量和抽样方式不变的情况下要求提高置信度时(会增大置信区间)第五章参数估计(一)名词解释1参数:狭义的参数是指决定某一理论分布的函数中一个或若干个数值,它决定了随机变量的分布状况,如正态分布有两个参数U和。,它决定了正态分布的中心位置及离散情况等。广义的参数是指反映总体特征的数值,如总体的均值,总体的总值,总体的比例及总体的方差等。2估计量:是根据样本来估计总体参数的一个规则,它通常表示为样本数值的一个函数即统计量。它不包含总体的任何未知的参数。由于它是随着样本数值的变动而变动,因此估计量是一个随机变量3估计值:是估计量在某一次抽样中的具体取值。如在估计总体均值这一参数时,通常使用样本均值作为估计量,但某一具体抽样结果所得到的样本均值就是估计值4点估计:是参数估计的一种类型或方法,它是指从抽到的具体样本数据计算出单个估计值作为待估总体参数的估计值。例如某企业要估计某批产品的次品率,从中抽取了100件产品,发现9个是次品,用样本的次品9%作为总体的次品率,这就是点估计。5.区间估计:是参数估计的另一种类型和方法,它是在点估计的基础上给出一个估计的范围,推断总体参数有多大的概率被涵盖在这一范围之内。因此区间估计时包含总体参数的一个值域,在估计的结论中指出上下限和结论的可靠性。置信区间:指区间估计时给出的估计范围。置信区间总是与一定的概率相联系的,这一概率通常称作置信水平,而与置信水平相联系的数值范围称作置信区间,数值的两端称作置信限,按照大小分为置信上限与置信下限置信系数:又称置信水平,通常是在区间估计时人为确定的,习惯上用1-a来表示。置信系数的确定通常根据研究事物的客观要求而定。(二) 思考题参数估计的实际意义是什么?在现实生活中通过数量方法研究问题,首先要搜集数据。如要估计全国的粮食产量,了解某一地区的居民收入、某一批产品的质量等。实际上就是要取得广义的参数。而这些参数若进行全面调查,要费很大的人物力,这就借助抽样,通过样本对这些参数估计。此外对有些客观现象间的关系,需建立数学模型,如回归模型、计量经济模型、模型中的参数也需要进行估计。简述点估计的优点及其局限性。点估计是以样本得到得值作为总体参数的估计值。这一估计方式比较简单直观,在样本足够大的情况下,该估计值通常在总体参数附近相差不会太大。但是点估计是用随机变量中的某一个值来作出估计,虽然会有抽样误差存在,而在点估计中未能给出误差大小及置信的概率,这是这种估计方式的局限性。简述置信区间与置信系数间的关系。用区间估计来估计总体参数时是用一估计的范围来涵盖总体参数称置信区间,它与置信系数是联在一起的。人们总希望估计的范围能小一些,这可对参数估计更精确,可在抽样分布固定的条件下,估计的范围愈小意味着估计值落入这范围的概率愈小,从而置信系数就随之降低。比如从±2个标准差范围缩小到±1个标准差的范围,其置信系数就从95%下降到68%,这也是人们在估计时所不愿意的。反之,如果要增加置信系数,就会增大置信区间,降低估计精度,显然很大的置信区间也是没有意义的。要解决这问题,就要求助于增加样本容量,改变抽样分布,使抽样分布的标准差缩小。简述置信区间与样本量间的关系。要缩小置信区间而又不降低置信度,就必须增加样本量,这是由于样本量与置信区间之间存在着反比的关系,即在相同的条件下样本量的增加可以使抽样分布的标准误差缩小,但它们之间并不是线性关系。(三) :填空题:1:区间估计时,置信区间的大小表示估计的精确性,置信概率的大小表示可靠性,若置信度为1-a时,a表示可能犯错误的概率或风险。第六章假设检验(一)名词解释1参数假设检验:对总体的未知参数先作出某种假设,通常称作原假设。与此相对应的另一个假设称作备择假设或对立假设。将样本试验所有的可能结果均包括在这两个假设之内,然后抽取样本,根据样本的结果来判断接受哪一个假设。这种推断方法称作参数的假设检验。2检验的统计量:是假设检验中建立在样本数据基础上的一个函数,用来判断是否接受原假设。采用什么统计量要根据研究的参数,及其估计量的分布等因素来确定。常用
的有z统计量、t统计量、X2分布统计量、F统计量等。3接受域和拒绝域:判断是否接受原假设时要把抽样所有可能结果组成的样本空间分成两部分,当原假设为真时,统计量在允许范围内变动的区域称作接受域,也就是说,当统计量的值落入这一区域,就应接受原假设。当统计量的值超出这一区域,原假设为真时,只有很小的概率会出现这种情况,因此将拒绝原假设的区域称作拒绝域。4显著性水平:原假设为真时,决策规则判定为假的概率,通常用a来表示。因为在检验中由于样本的随机性与要求检验的总体参数总是有差别的。这种差别只有达到了一定的界限才能判段有显著差别。这种界限以一定的小概率作为准则,这一小概率水平就称作显著水平,通常是根据研究的需要来确定的。5双侧检验:是拒绝域位于两侧的假设检验。其假设的形式为Ho:uo;H1:u1Nuo。当统计量过大或过小时,都将判断拒绝原假设。6单侧检验:是拒绝域位于一侧的假设检验。其假设的形式为:Ho:u1Muo;H1<uo;或Ho:u1二uo;H1:u1>uo。前者拒绝域在左侧,称作左侧检验,后者拒绝域在右侧,称作右侧检验。这是由于在实际问题中有些现象愈低愈好,只有大于某一标准时才拒绝,如次品率等;有些现象则愈大愈好,只有小于某以标准时才拒绝,如灯管的使用寿命等。7第一类错误:又称a错误或弃真错误。当原假设Ho为真时而拒绝Ho的错误,因此它也是接受备择假设时可能犯的错误,当显著性水平规定为a时,接受H1时犯错误的概率即为a。8第二类错误:又称B错误或取伪错误。当原假设Ho为假时而接受Ho的错误,因此它是接受原假设时可能犯的错误,通常用B表示,故称B错误。9非参数假设检验:通常是指不依赖于总体分布的检验,其变量的计量水准比较低,如等级的,顺心的或属性的计量水准。它还包括参数以外的总体分布特征的检验,如随机变量是否服从某种规律的检验等。10拟合优度检验:对一组数据是否服从某种规律的一种非参数检验。拟合优度检验有多种方法,本书介绍了X2检验的方法。11独立性检验:是对于某一个双变量分布中两个变量之间是相依还是独立的检验。这种检验通常是将所有观察值按两个变量进行分类形成双向分类表,称作列联表,然后进行检验,故又称列联表检验,统计量为X2。12秩和检验:又称等级求和检验。因为参数中的均值检验在小样本时必须要求总体变量服从正态分布,当数据不符合正态分布时,可以把数据按大小转换成等级,然后检验,这一类检验统称为非参数的秩和检验。这类检验中有曼.惠尼检验、威尔科克森检验等13等级相关系数:是测定两组等级变量之间的相关系数。最常用的有斯皮尔曼等级相关系数。设样本量为n,两组变量的等级之差为d1(i=1,2,3„..n),则斯皮尔曼等级相关系数r=1-(6*Edi的平方/n(n的平方-1))(二)思考题1怎样理解假设检验中的小概率原理?答:小概率原理是指发生概率很小的随机事件在一次试验中几乎是不可能发生的,如果一旦发生就要怀疑原来的事件是否为小概率事件。在假设检验中,把拒绝域的发生作为一个小概率,一旦样本统计量落入拒绝域,就要否定原来的假设,从而接受备择假设。2假设检验有哪些步骤?答:(1)根据研究问题的需要建立原假设Ho和备择假设H1,(2)找出检验的统计量及其分布(3)规定显著水平,也即确定当Ho为真而拒绝的概率(4)确定决策的规则,即规定检验统计量的临界值(5)根据观察所得到的数据进行计算,并作出决策。3如何决定采用双侧检验或单侧检验?答:若研究的问题要求检验是否相等,凡是过大过小均需加以拒绝时应采用双侧检验。如果某种零件的规格不能太大也不能太小就要采用单侧检验。若研究的问题只对某一侧有要求,如次品率不能过高,导线的拉力强度不能过低等现象时,应采用单侧检验。(三)填空题,z,1:正态总体均值的假设检验,Ho:u=uo,H1:uNuo,若总体方差已知,样本量为n,则其检验的统计量为=其公式为・x—uo,若显著性水平为a,接受域为(|z|M切2)2:正态分布总体均值的假设检验,Ho:u=uo,H1:u<uo,这种检验称作左侧检验,若显著性水平为a,大样本,其拒绝域为Z<-Za3:正态总体均值的假设检验,Ho:u二uo,H1:U>Uo,显著想水平为a,这种检验称作右侧检验,若总体方差已知,n为小样本,则检验统计量为z,其公式为:心,z,z>Za L/.■n03:在假设检验中,随着显著性水平"的增大,拒绝H(的可能性将会增大。4:当原假设Ho为真而被拒绝的错误称作第类错误(a错误),原假设Ho为假而被接收的错误称作第二类错误。5:假设检验中若其他条件不变,显著性水平a的取值越小,接受Ho的可能性越大,原假设为真而被拒绝的概率越小。6:进行两个总体均值之差的检验,当两个总体均为正态分布,方差未知,分别用小样本N1,n2时,t统计量的自由度为(n1+n22)。7:进行X2的独立性检验2采用r行c列的列联表,检验时X2的自由度✓为(r1)(c1)o8:曼.惠尼U检验是一种非参数统计方法,它适用于顺序计量水准的数据,当统计量U>Ua时应接受原假设。9:威尔科克森带符号的秩检验是在符号检验基础上发展起来的,它用来检验两个成对的非正态总体的均值是否相同,当统计量T<Ta时就拒绝原假设。第七章相关与回归分析(一)名词解释1相关关系:是指现象之间存在的不确定的数量关系。线性相关与非线性相关:若变量间的关系近似地表现为一条直线,则称线性相关;如果变量之间关系近似地表现为一条曲线,则称为非线性相关或曲线相关。2正相关与负相关:在线性相关中,若两个变量的变动方向相同,一个变量的数值增大(或减少),另一个变量也随之增大(或减少),称为正相关;若两个变量的变动方向相反,一个变量数值增大,另一个变量的数值随之减少,或一个变量的数值减少,另一个变量的随之增大,则称为负相关。3相关系数:它是测量变量之间关系密切程度的一个量;对两个变量之间线性相关程度的度量称为简单相关系数;若相关系数是根据总体全部数据计算的,称为总体相关系数;若是根据样本数据计算的,则称为样本相关系数。4回归平方和:它是回归值与因变量的均值的离差平方和,即,它反映了y的总变差中由于x与y之间的线性关系引起的y的变化部分,是可以由回归直线来解释的变差部分,因而也称为可解释的变差平方和。5剩余平方和:它是各实际观察值与回归值的残差平方和,即,它是除了x对y的线性影响之外的其他因素对y变差的作用,是不能由回归直线来解释的,因而也可称为不可解释的变差平方和。6判定系数:回归平方和(SSR)占总变差平方和(SST)的比例定义为判定系数,它测量了回归直线对各观测数据的拟定程度。7估计标准误差:它是实际观测值与回归估计值之间的平均离差,它测量了各实际观测点在直线周围的散步状况。(二)填空题在线性先关中,如果两个变量的变动方向相同则称为正相关;如果两个变量的变动方向相反则称为负^相^关用于描述变量之间关系形态的图形称为散点图;用于度量变量之间的关系密切程度的量称为相关系数相关系数r的取值范围是【1,1】;判定系数的取值范围是【0,1】若变量x与y之间为完全正相关,则相关系数r=1;若变量x与y之间为完全负相关,则相关系数r=—;若x与y之间不存在线性相关系数,则r=-0检验回归系数的显著性时,检验的统计量r=b/Sb(b在右下角)在线性回归分析中,只涉及一个自变量的回归称为元线性回归;涉及多个自变量的回归称为多元线性回归因变量的观察值yi与其平均值y上加一杠的总变差由两部分组成,其中回归值与均值y上加杠的离差平方和称为回归平方和;观察值yi与回归值的离差平方和称为剩余平方和回归平方和(SSR)占总变量平方和(SST)的比列称为判定系数,它测量了回归直线对各观测数据的拟定程度9回归方程的假设检验通常包括两方面的内容:一是线性相关检验,二是回归系数检验对回归方程线性关系的显著性检验通常采用七检验;对回归系数的显著性检验通常采用十检验对于两个变量x和y,若已二x=1239,Ey=879,Exy=11430,Ex的平方=17322,n=100,则一元线性回归方程的回归系数b=0.2736第八章时间数列分析(一)名词解释1时间数列:同一现象在不同时间上的观察值排列而成的数列称为时间数列.2序时平均数:是现象在不同时间上的观察值的平均数,又称为平均发展水平。3增长量:是时间数列中不同时期的发展水平之差,同于描述现象在观察期内增长的绝对数量。4逐期增长量与累积增长量:逐期增长量是报告期水平与前一时期
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 对外经贸大学国际工商管理学院HR培训课件
- 《建筑装修施工图》课件
- 防冰冻雨雪路滑安全教育
- 人生感悟和人生规划
- 市政工程招投标资格预审要点
- 森林防火期树木采伐规定
- 体育检测服务招标管理办法
- 养殖场供电系统工程协议
- 项目测试与质量控制
- 旅游行业法律顾问作用
- 翻译技术实践智慧树知到期末考试答案章节答案2024年山东师范大学
- 媒介思维与媒介批评智慧树知到期末考试答案章节答案2024年四川音乐学院
- 酒店报销水单经典模板
- 企业信息服务平台建设项目可行性研究报告
- 2010版GMP附录:计算机化系统整体及条款解读(完整精华版)
- 独资公司章程范本下载
- 医院矛盾纠纷排查总结的个附表
- ISO2372设备振动标准
- 电脑绣花机安全操作规程.doc
- 【定岗定编】企业定岗定编中出现的问题及改进
- 接触网4-3第四章 软横跨课件
评论
0/150
提交评论