版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
统计学PPT完整演示文稿当前1页,总共227页。统计学PPT完整当前2页,总共227页。第一章统计和统计数据的收集一、什么是统计二、数据三、搜集数据的组织方式四、有关数据调查的几个问题主要内容目录当前3页,总共227页。一、什么是统计
?(一)统计包含三种涵义,两重关系1.统计工作:对统计数据进行搜集、整理和分析的过程。2.统计数据:统计工作所产生的成果,用以描述我们所研究现象的属性和特征。如统计图表,统计分析报告等。3.统计学:一门研究总体数量特征的方法论科学。
统计工作统计资料统计学工作与工作成果关系实践与理论关系当前4页,总共227页。(二)四个重要的术语
所研究的具有某些相同性质的全部单位或事件的整体。总体无限总体:含无限多个单位。范围有限总体:含有限个单位。样本:亦可称为抽样总体,是从总体中抽取部分单位所组成的整体,用以分析总体。
参数:亦可称为总体指标,是综合测量的整个总体的某个数量特征。统计量:亦可称为样本指标,是根据样本数据计算的综合测量值,可用以反映或估计、推断总体的某个数量特征。
当前5页,总共227页。(三)统计学的内容1.描述统计关于搜集、展示一批数据,并反映这批数据特征的各种方法,其目的是为了正确地反映总体的数量特点。
2.推断统计根据样本统计量估计和推断总体参数的技术和方法。
描述统计是推断统计的前提,推断统计是描述统计的发展。当前6页,总共227页。二、数据(一)为何需要数据?统计学要研究各种随机变量,通过对这些随机变量的观察所获取的数据包含了我们所需的信息,这些信息能有助于我们在许多场合中做出更为正确的决策。例如:
市场研究者需要对产品的特性进行评估,以区分不同的产品。
药品制造厂商需要判别一种新药是否比现在正使用着的药更有效。
当前7页,总共227页。审计人员想通过查看某家公司的财务报表,以确认这家公司是否是依据了通行的会计准则做报表。
财务金融分析人员想判断在未来的五年中,哪些行业中的哪些公司最具有成长性。
经济学家想估计我国国内生产总值今年的增长速度。生产部门的经理按惯例要检查生产过程,以检验其生产的产品质量是否符合公司的标准。
当前8页,总共227页。(二)数据分类的原则互斥原则:每一个数据只能划归到某一类型中,而不能既是这一类,又是那一类。穷尽原则:所有被观察的数据都可被归属到适当的类型中,没有一个数据无从归属。(三)数据的类型1.定性数据和定量数据定性数据:用文字描述的。如在本章的“统计引例”中消费者对永美所提供服务的总体评价等都属于文字描述的定性数据。当前9页,总共227页。定量数据:用数字描述的。如企业的净资产额、净利润额等。2.离散型数据和连续型数据变量
若我们所研究现象的属性和特征的具体表现在不同时间、不同空间或不同单位之间可取不同的数值,则可称这种数据为变量。
类型离散型变量:数据只能取整数。如一家公司的职工人数。连续型变量的数据可以取介于两个数值之间的任意数值。如销售额、经济增长率等。
当前10页,总共227页。3.数据的四个等级定类数据例如,对人口按性别划分为男性和女性两类。也称定名数据,这种数据只对事物的某种属性和类别进行具体的定性描述。能够进行的唯一运算是计数,即计算每一个类型的频数或频率(即比重)。定类数据例如,对企业按经营管理的水平和取得的效益划分为一级企业、二级企业等。定序数据,也称序列数据,是对事物所具有的属性顺序进行描述。当前11页,总共227页。定距数据如10℃、20℃等。它不仅有明确的高低之分,而且可以计算差距,如20℃比10℃高10℃,比5℃高15℃等。也称间距数据,是比定序数据的描述功能更好一些的定量数据。定距测定的量可以进行加或减的运算,但却不能进行乘或除的运算。定比数据如产量、产值、固定资产投资额、居民货币收入和支出、银行存款余额等。也称比率数据,是比定距数据更高一级的定量数据。它不仅可以进行加减运算,而且还可以作乘除运算。当前12页,总共227页。测定层次特征运算功能举例1.定类测定2.定序测定3.定距测定4.定比测定分类分类;排序分类;排序;有基本测量单位分类;排序;有基本测量单位;有绝对零点计数计数;排序计数;排序;加减计数;排序;加减乘除产业分类企业等级温度商品销售额统计数据四个层次的概括
当前13页,总共227页。4.截面数据和时间序列数据截面数据:所搜集的不同单位在同一时间的数据。例如,所有上市公司公布的2004年年度的净利润。时间序列数据:所搜集的同一总体或单位在不同时间的数据。某公司公布的1993年到2004年的年度净利润就是时间序列数据。
5.原始数据和次级数据
原始数据:指直接从各个调查单位搜集的、尚未经过整理的统计数据资料,也称一手数据。当前14页,总共227页。次级数据:指那些已经加工整理过的,往往是公开发表的数据,也称二手数据。
如从报纸杂志、统计年鉴、会计报表上取得的数据。(四)数据的来源1.从政府机构、各种行业组织、公司和企业所公布的数据中获取。就是把政府机构、各种组织和公司所公布的数据作为来源,这种数据往往是次级数据。
2.设计一次试验以获取必要的数据。例如,在检验洗衣机洗净程度的研究中,研究人员通过实际洗涤脏衣服,来研究哪种牌子的洗衣机效果最佳。
当前15页,总共227页。3.从观察研究中获取。研究人员通常是在自然状态下,进行直接的观察。
例如,观察路口的交通流量、观察顾客在商场的购买行为和观察流水线上的产品质量等。4.进行一次调查。它对所调查人们的行为不进行任何控制,仅提出诸如出生年月、爱好、消费习惯、对某一事件的看法和其他特征方面的问题,然后对他们回答的结果进行整理、编码、列表和分析。调查方案的主要内容确定调查目的确定调查对象和调查单位拟订调查提纲确定调查时间编制调查的组织计划当前16页,总共227页。三、数据搜集的组织方式(一)普查、抽样、统计报表制度和重点调查
1.普查特点:工作量大,时间性强,需要大量人力和财力。任务:搜集重要的国情国力和资源状况的全面资料,为政府制定规划、方针政策提供依据。方式:建立专门机构,配备专门人员调查。利用基层单位原始记录和核算资料进行调查。原则:规定统一的标准时点。规定统一的普查期限。规定统一的调查的项目和指标。当前17页,总共227页。2.抽样调查特点:1.按随机原则从总体中抽取样本;2.以样本指标(统计量)为依据推断总体参数或检验总体的某种假设;3.抽样误差可以事先计算并加以控制。当前18页,总共227页。3.统计报表制度
是按一定的表式和要求,自上而下统一布置,自下而上提供统计资料的一种统计调查方法。这种搜集统计数据方法是伴随着计划经济而产生的,并曾在我国占主导地位。现在,在社会主义市场经济条件下,仍是我国搜集统计数据的组织方式之一。当前19页,总共227页。4.重点调查特点:在总体中选择个别或部分重点单位进行调查。任务:及时了解总体基本情况,为主管部门指导工作服务。方式:重点单位指在总体中有举足轻重地位的单位,其标志值在总体标志总量中占有绝大比重。经常性调查;同报表制度结合,用统计报表调查。例如,要了解全国钢铁生产的基本情况,只要调查鞍钢、宝钢、首钢、武钢、包钢等十几家特大型的钢铁企业就可以掌握全国钢铁企业生产的基本情况。当前20页,总共227页。(二)抽样的优点
1.适用的范围广。对于有限总体,从理论上讲,既可以进行普查也可以进行抽样;对于无限总体,就只能进行抽样。若理论上可以而实际上很难采用全面普查的情况,也只能采用抽样。如产品质量的破坏性检验、居民住户调查等。2.与全面普查相比,抽样最大的优点是节省人、财、物力和时间。
3.随机抽样可以比普查更为精确。
当前21页,总共227页。(三)抽样的类型非随机抽样
随机抽样判断抽样
定额抽样方便抽样简单随机抽样抽样类型系统抽样分层抽样整群抽样当前22页,总共227页。非随机抽样
又称为非概率抽样
,是不按照随机原则来抽取样本中的单位或个体。
特点具有方便、快速和低成本精确性差,结论缺乏普遍性
判断抽样
又称为典型调查,是从事有关工作的专家按照一定的标准有意识地在总体中选择若干有代表性的单位组成样本进行调查,代表单位的选取标准应根据统计研究的目的而定。
当前23页,总共227页。定额抽样是根据已定的单位数抽取样本,往往是对总体了解甚少的时采用。如想获取某地区化妆品的销售情况,对该地区的5家商厦进行调查。方便抽样是为了取样方便,随意地抽取样本单位。街头偶遇式调查就是一种最为常见的方便抽样。当前24页,总共227页。随机抽样是根据随机原则来抽取样本单位
.简单随机抽样方法:在抽样框中的每个单位都具有相同的被抽中的机会,每个容量相同的样本被抽中的机会也是相同的。
亦称为纯随机抽样抽取样本的方法:有放回抽样和无放回抽样。
适合:总体内部差异不是很大,规模也不大的情况。当前25页,总共227页。系统抽样方法:抽样框中的N个单位被分成k个系统,k等于抽样框的容量N除以所需的样本容量n,在抽样框中前面的k个个体或单位中随机抽出第一个样本单位,然后,可在其后的每隔k个单位抽取样本中其余的部分。亦可称为等距抽样编号有两种方法:············一种是利用原有的顺序或编号。如学生的注册名单,或者是从生产流水线上下来的、有编号的产品等。对所研究的总体已有所了解,则可用已知的相关变量对抽样框中的单位进行编号。当前26页,总共227页。分层抽样亦可称为类型抽样方法:将总体全部单位分类,形成若干个类型组,后从各类型中分别抽取样本单位,合成样本。总体N样本n等额等比例最优······当前27页,总共227页。整群抽样方法:首先把总体中的N个单位划分成为若干个群,并要求每个群对整个总体都具有代表性,然后对群进行简单随机抽样,并对抽中群内的所有单位进行调查研究。
总体群数R=16样本群数r=4样本容量ABCDEFGHIJKLMNOPLHPD当前28页,总共227页。适合:比简单随机抽样的方法能节约更多的成本,特别当总体的分布地域非常辽阔时。当前29页,总共227页。四、有关数据调查的几个问题
调查的目的
判断调查误差的大小
调查误差登记性误差:代表性误差系统性的代表性误差
登记、汇总、过录时产生的误差,以及无回答误差和测量误差等
偶然性的代表性误差即为抽样误差
当前30页,总共227页。调查中的道德性问题
1.调查者别有用意地、有意识地选择导向性的问题,使回答者出现有倾向性的回答。
2.询问者有意识地通过语气、语调引导被询问者出现有倾向性的回答。
3.回答者不重视或不愿意回答调查的内容,就很可能提供错误的信息。当前31页,总共227页。第二章统计数据的整理和展示统计数据的整理目录统计数据的展示排序统计分组频数分布编制统计表统计图当前32页,总共227页。一、统计数据的整理排序统计搜集到的大量资料是分散的,不系统的,只能说明各个单位的特征和属性,必须按照科学的原则加以整理,使之条理化和系统化,成为便于储存和传递的、反映总体特征的数据。就是把定量数据按从大到小或从小到大的顺序排列,把定性数据按习惯的文字顺序排列,便于我们研究其条理。
当前33页,总共227页。统计分组对于定性数据就是依据属性的不同将数据划分成若干组,对于定量数据就是依据属性数值的不同将数据划分成若干组。
组内同质性,组间差异性。当前34页,总共227页。频数分布编制分组的关键变量的选择,选择与研究的问题有关的变量。组限的确定。应遵循穷尽和互斥原则。定性数列编制:组限的确定一般比较简单。如人口按性别分组、企业按所有制分组等
定量变量编制:分为单项数列和组距数列两种形式。
单项数列:即变量的一个取值为一组,适用于离散型变量,并且变量的取值较少。
组距数列:即每一组有一个上限值和一个下限值所形成的区间,适用于连续性变量,或离散型变量且变量的取值较多的情况。
当前35页,总共227页。注意以下三个方面的问题
1.确定组数
2.确定组距:组距为上限与下限之差。等距数列-数据分布均匀。异距数列-数据分布不均匀。
3.确定组限
应能把现象的不同类型划分出来。要考虑到数据是连续性变量还是离散型变量。
无法确定实际数据的取值范围,或者数据中存在极端数值,可采用开口组的形式。4.确定组中值:(上限+下限)/2
,开口组当前36页,总共227页。二、统计数据的展示当统计数据比较多时,就应该制作表格或者图形进行来展示,使数据的重要特性能从表格或者图形中直观地反映出来,这样可提高分析数据和解释数据的效率。
统计表是把统计数据用表格的形式展示出来。
类型:按作用分调查表按数据所属的时间分截面数据表时间序列表
汇总整理表计算分析表
当前37页,总共227页。按分组变量的多少分单变量分组表多变量分组表
有平行形式交叉形式
统计图统计图形通常可比统计表格更生动地描述数据。
类型:饼图是以整个圆的360度代表全部数据的总和,按照各类组所占的百分比(频率),把一个“饼”切割为各个扇形。适用于定性数据。
50家门店按区域分组的饼图当前38页,总共227页。条形图中,每一分类组表示成一个条,条的长度代表了这个组中所含数据的频数或频率。适用于定性数据。
50家门店数按区域分组的条形图家门店按区域并按人数分组的分段比例条形图当前39页,总共227页。直方图与条形图相似,是在每个分组区间上绘制一个长条形而产生的图形,它可以用来描述已表示成频数或频率的数据。适用于定量数据。根据表2-5的等距数列对于异距数列,以组距为宽,以频数密度为高来绘制直方图。
当前40页,总共227页。折线图可以在直方图基础上,将每个长方形的顶端中点用折线连接而成,或用组中值与频数(或频率)求坐标点连接而成。根据图2-6的直方图绘制的折线图当前41页,总共227页。曲线图当变量的取值非常多,变量数列的组数无限增多时,折线便趋于一条平滑的曲线,这是一种概括描述变量数列分布特征的理论曲线。枝叶图是探索性数据分析中的一种方法,也是对一批数据进行组织整理的很有价值的一个工具,可用以了解一批数据中由所有观测值构成的数据的取值范围是如何分布的。
当前42页,总共227页。第三章数据的描述性分析本章将讨论的是数据的总量和相对关系的测度,数据的集中趋势、离散趋势及其形态的测度。
一、绝对数和相对数二、集中趋势的测定三、离散趋势的测定四、数据的形态测定主要内容当前43页,总共227页。一、绝对数和相对数(一)绝对数绝对数(亦称总量指标)是统计资料经过汇总整理后得到的反映总体规模和水平的总和指标。
(3)是计算相对指标和平均指标的基础。作用概念例如,企业的销售收入、一个地区或国家的社会总产值、国内生产总值等。
(1)反映一个国家的国情和国力,一个地区或一个企业的人力、物力、财力
(2)是进行经济核算和经济活动分析的基础
当前44页,总共227页。分类按反映总体的内容分按反映的时间状态分按计量单位分变量总值
单位总数时期数时点数实物量价值量当前45页,总共227页。
相对数是用两个有联系的指标进行对比的比值,可以反映现象的数量特征和数量关系,并可将现象的绝对差异抽象化,使原来不能直接相比的绝对数可以进行比较。
种类计划完成相对数结构相对数比较相对数强度相对数动态相对数(二)相对数概念当前46页,总共227页。五种相对数指标的比较不同时期比较动态相对数注:又称发展速度
强度相对数注:复名数有正逆指标不同现象比较不同总体比较比较相对数同一总体中部分与总体比较实际与计划比较结构相对数计划完成相对数注:有正逆指标同一时期比较同类现象比较当前47页,总共227页。(1)正确选择对比的基数;(2)必须注意统计的可比性;(3)相对指标要与总量指标相结合。应用原则当前48页,总共227页。二、集中趋势的测定—平均数概念表明同类现象在一定时间、地点、条件下所达到的一般水平,是总体内某个变量大小各异的观察值的代表性数值。也是对变量分布集中趋势的测定。数据集中区变量x当前49页,总共227页。常用的几种平均数概念 计算公式 特点 优点:①容易理,便于计算②灵敏度高③稳定性好④和缺点:①易受极值影响②在偏斜分布和U形分布中,不具有代表性1.算术平均数()一个变量的所有观察值相加,再除以观察值的个数
简单:加权:当前50页,总共227页。权数解释权数(Weighted),是分布数列中的频数或频率。对求平均数具有权衡轻重的作用,是影响平均数变动的两个因素之一(另一因素是变量值)。(1)(2)(3)X456合计频数频率(%)10201025.050.025.040100.0X456合计频数频率(%)20402025.050.025.080100.0X456合计频数频率(%)20101050.025.025.080100.0
=5
=5
=4.75频率分布变了,均值也变。因此,严格地说,权数应指频率。当前51页,总共227页。算术平均数的变形数学上称其为调和平均数,只是用这种形式时,变量的取值不能为0。求某种商品三种零售价格的平均价格调和平均价格(元)3.32.52.0合计销售额(元)10101030当前52页,总共227页。常用的几种平均数概念 计算公式 特点 优点:灵敏度高②受极值影响小于和③适宜于各比率之积为总比率的变量求平均缺点:①有“0”或负值时不能计算②偶数项数列只能用正根2.几何平均数()几个变量值连乘积的n次根简单:加权:当前53页,总共227页。概念 计算公式 特点 3.中位数(Me)是一种位置平均数,数据按大小顺序排列,处于数据序列中间位置的数值就是中位数
上限公式:下限公式:优点:①容易理解,②不受极值影响③适宜于开口组资料和些不能用数字测定的事物缺点:①灵敏度和计算功能差②间断数Me常用的几种平均数当前54页,总共227页。常用的几种平均数概念 计算公式 特点 4.众数(Mo)是一种位置平均数,是一批数据中出现次数最多的那个数值.通常只用于定性数据或离散型的定量数据。 上限公式:下限公式:优点:①容易理解,②不受极值影响缺点:①灵敏度和计算功能差②稳定性差③具有不唯一性当前55页,总共227页。25303540455051015f(人数)月收入:元36.11
d1
d255当前56页,总共227页。位置平均数与算术平均数的关系1.众数适用于所有的定性数据和定量数据
中位数适用于定性数据中的定序数据和定量数据算术平均数只适用于定量数据2.定量数据:若是钟形分布,三种集中趋势指标一般都可适用。而对J形分布,反J形分布和U形分布,中位数和算术平均数没有任何意义。3.在确定集中趋势指标的过程中,算术平均数比中位数和众数使用了更多的数据信息。4.对于钟形分布且数据量很大时,三种集中趋势指标有如下三种数量关系:
当前57页,总共227页。XfXfXf(对称分布)正偏态分布(右)负偏态分布(左)1212当前58页,总共227页。应用平均指标的原则
1.必须是同质的量方可平均;
2.总平均数与组平均数结合分析;
3.集中趋势与离散趋势结合分析当前59页,总共227页。三、离散趋势的测定概念标志变异指标是反映变量分布离散趋势、与平均指标相匹配的指标。(1)反映变量分布的离散趋势;(3)是对事物发展均衡性的量度。(2)是对平均数的代表性程度的量度;作用当前60页,总共227页。常用的几种标志变异指标概念 计算方法 特点 是非众数组所占比重
1.异众比率
如百得便利超市公司50家门店按区域划分的众数是A区域,该组的次数是20家,所以异众比率为60%,这说明50家门店按区域划分的离散程度比较大,众数的代表性较差。
异众比率是反映定名数据离散趋势的唯一指标,这个指标越小,说明数据的离散程度越小,集中程度越大
当前61页,总共227页。常用的几种标志变异指标概念 计算 特点 数列中最大值与最小值之差2.极差(R)R=最大值-最小值R=最大组的上限-最小组的下限
优点:容易理解,计算方便缺点:不能反映全部数据分布状况3.四分位差
(M3-M1)/2在反映数据的离散程度方面比全距较为准确,但仍显粗略
是一批数据中的第三四分位数与第一四分位数之差的二分之一
当前62页,总共227页。常用的几种标志变异指标概念 计算 特点 4.平均差(AD)各标志值与均值离差绝对值的算术平均 简单:加权:优点:反映全部数据分布状况缺点:取绝对值数字上不尽合理所有观察值与平均数离差平方平均数的平方根,亦称均方差。标准差的平方即为方差。
5.方差(σ2s2)和标准差(σs) 优点:反映全部数据分布状况,数字上合理。缺点:受计量单位和平均水平影响,不便于比较简单:加权:当前63页,总共227页。概念计算 特点 6.标准差系数(Vσ) 标准差与均值之商,是无量纲的 两列数据的分布进行离散程度的比较,当它们的平均数不等、计量单位不同时则应消除平均数不同和计量单位不可比的影响。此时就需要用离散系数这种相对数来是测定离散趋势
方差(σ2)和标准差(σ)是应用最广的标志变异指标常用的几种标志变异指标当前64页,总共227页。四、数据的形态测定偏度:是测定数据分布的偏斜程度的指标.。定义M=∑(X-A)k/n为变量X关于A的k阶矩。
当A=0,即以原点为中心,上式称为“K阶原点矩”。K=1,2,3时,有:一阶原点矩M1=∑(X-0)1/n=∑X/n二阶原点矩M2=∑(X-0)2/n=∑X2/n三阶原点矩M3=∑(X-0)3/n=∑X3/n当A=,即以为中心,上式称为“K阶中心矩”。K=1,2,3时,有:一阶中心矩二阶中心矩三阶中心矩当前65页,总共227页。所以,m3可以测定偏度。为消除量纲,转变为系数,再除以σ3。<0负偏态=0对称分布>0正偏态峰度:是用来反映数据分布曲线顶端的尖峭或扁平程度的指标。
<0平顶曲线=3正态曲线>3尖顶曲线注:在EXCL等软件中输出的峰度是在此基础上再减3。当前66页,总共227页。五数概括:即最小值xmin、最大值xmax、第一四分位数M1、中位数Me和第三四分位数M3
五个数之间的关系,确定数据分布形态的方法:
数据是完全对称:数据是不对称:最小值xmin到中位数的距离等于中位数到最大值xmax的距离。从xmin到M1的距离等于M3到xmax的距离。从xmax到中位数的距离大于中位数到xmin的距离。
从M3到xmax的距离大于从从xmin到M1的距离。
右偏分布当前67页,总共227页。从xmin到中位数的距离大于中位数到xmax的距离。
从xmin到M1的距离大于M3到xmax的距离。
左偏分布箱线图:是基于五数概括的图示方式,使得集中趋势、离散趋势和偏态更为直观。
当前68页,总共227页。第五章参数估计和假设检验推断统计:利用样本统计量对总体某些性质或数量特征进行推断。随机原则总体样本总体参数统计量推断估计参数估计检验假设检验抽样分布当前69页,总共227页。抽样分布简单随机抽样和简单随机样本的性质无限总体有限总体不放回放回样本样本放回不放回样本样本独立性和同一性同一性当n/N≤5%时,有限总体不放回抽样等同于放回抽样无限总体当前70页,总共227页。统计量与抽样分布统计量:即样本指标。样本均值样本成数样本方差如:抽样分布:某一统计量所有可能的样本的取值形成的分布。性质数字特征0≤P(Xi)1∑P(Xi)=1均值E(X)方差E[x-E(x)]2方差的平方根即抽样分布的标准差就是推断的抽样误差。当前71页,总共227页。样本均值的抽样分布(简称均值的分布)抽样总体样本均值X,(N)均值μ=∑Xi/Nx,(n)样本均值是样本的函数,故样本均值是一个统计量,统计量是一个随机变量,样本均值的概率分布称为样本均值的抽样分布。当前72页,总共227页。均值分布的数学期望和方差抽样方法 均值 方差 标准差 (1)从无限总体抽样和有限总体放回抽样(2)从有限总体不放回抽样抽样误差抽样误差当前73页,总共227页。从正态总体中抽样得到的均值的分布也服从正态分布。从非正态总体中抽样得到的均值的分布呢?中心极限定理:无论总体为何种分布,只要样本n足够大(n≥30),均值()标准化为(z)变量,必定服从标准正态分布,均值()则服从正态分布,即:关于均值的抽样分布有如下的一些结论:1.对于多数总体分布来说,不论其形态如何,如果样本观察值超过30个,那么均值的抽样分布将近似于正态分布。2.如果总体分布是明显对称的,那么只要样本观察值超过15个,均值的抽样分布也近似于正态分布。
3.如果总体是正态分布的,则不管样本大小如何,均值的抽样分布一定是正态分布的。
当前74页,总共227页。两个样本均值之差的抽样分布抽样总体样本X1,(N1)x1,(n1)抽样总体样本X2,(N2)x2,(n2)估计(1)如:(2〕如果两个总体都是非正态总体,只要n1、n2足够大,根据中心极限定理,可知:当前75页,总共227页。样本成数(即比例)的抽样分布(简称成数的分布)抽样总体样本成数X,(N)成数P=Ni/Nx,(n)所有可能的样本的成数()所形成的分布,称为样本成数的抽样分布。当前76页,总共227页。成数分布的数学期望和方差抽样方法 均值 方差 标准差 (1)从无限总体抽样和有限总体放回抽样(2)从有限总体不放回抽样根据中心极限定理,只要样本足够大,的分布就近似正态分布。(np和nq大于5时)抽样误差抽样误差当前77页,总共227页。两个样本成数之差的抽样分布抽样总体样本X1,(N1)x1,(n1)抽样总体样本X2,(N2)x2,(n2)估计当n1、n2都足够大时,样本成数都近似服从正态分布,两个样本成数之差()也近似服从正态分布。P1-P2=?当前78页,总共227页。一个样本方差的抽样分布抽样总体样本若:从一个正态总体中抽样所得到的样本方差的分布n,S2则当则当前79页,总共227页。两个样本方差之比的抽样分布抽样总体样本从两个正态总体中分别独立抽样所得到的两个样本方差之比的抽样分布。n1,S12则抽样总体样本n2,S22当前80页,总共227页。参数估计点估计以样本指标直接估计总体参数。评价准则的数学期望等于总体参数,即该估计量称为无偏估计。无偏性有效性当为的无偏估计时,方差越小,无偏估计越有效。一致性对于无限总体,如果对任意则称的一致估计。是充分性一个估计量如能完全地包含未知参数信息,即为充分量估计量当前81页,总共227页。点估计常用的求点估计量的方法
1.数字特征法:
当样本容量增大时
,用样本的数字特征去估计总体的数字特征。
例如,我们可以用样本平均数(或成数)和样本方差来估计总体的均值(或比率)和方差。2.顺序统计量法:
如果把取得的样本观测值按大小排列起来,那么与排列位置有关的统计量就称为顺序统计量。常用的顺序统计量有样本中位数和极差。
当前82页,总共227页。当总体服从正态分布时,用样本中位数来估计总体的数学期望
:3.极大似然估计法:极大似然估计是根据样本的似然函数对总体参数进行估计的一种方法。其实质就是根据样本观测值发生的可能性达到最大这一原则来选取未知参数的估计量θ,其理论依据就是概率最大的事件最可能出现。
当前83页,总共227页。区间估计估计未知参数所在的可能的区间。评价准则随机区间置信度精确度随机区间包含(即可靠程度)越大越好。的概率的平均长度(误差范围)越小越好一般形式或总体参数估计值误差范围△:一定倍数的抽样误差例如:抽样误差一定时,越大,概率(可靠性)大;随之增大,精确度就差。当前84页,总共227页。参数的区间估计简单随机抽样待估计参数已知条件置信区间正态总体,σ2已知正态总体,σ2未知非正态总体,n≥30有限总体,n≥30(不放回抽样)总体均值(μ)σ未知时,用Sσ未知时,用S两个正态总体已知两个正态总体未知但相等两个非正态总体,n1,n2≥30两个总体均值之差μ1-μ2当前85页,总共227页。简单随机抽样待估计参数已知条件置信区间无限总体,np和nq都大于5总体成数(p)无限总体,n1p1>5,n1q1>5n2p2>5,n2q2>5两个总体成数之差(P1-
P2)有限总体,np和nq都大于5有限总体,n1p1>5,n1q1>5n2p2>5,n2q2>5当前86页,总共227页。简单随机抽样待估计参数已知条件置信区间正态总体总体方差
两个正态总体两个总体方差之比当前87页,总共227页。样本数的确定待估计参数已知条件样本数的确定正态总体,σ2已知总体均值(μ)例:误差范围简单随机抽样有限总体,不放回抽样,σ2已知总体成数(P)服从正态分布有限总体,不放回抽样当前88页,总共227页。假设检验基本思想检验规则检验步骤常见的假设检验方差分析当前89页,总共227页。基本思想小概率原理:如果对总体的某种假设是真实的,那么不利于或不能支持这一假设的事件A(小概率事件)在一次试验中几乎不可能发生的;要是在一次试验中A竟然发生了,就有理由怀疑该假设的真实性,拒绝这一假设。总体(某种假设)抽样样本(观察结果)检验(接受)(拒绝)小概率事件未发生小概率事件发生当前90页,总共227页。假设的形式:
H0——原假设,H1——备择假设双侧检验:H0:μ=μ0
,H1:μ≠μ0单侧检验:H0:μ=μ0
,H1:μ<μ0H0:μ=μ0
,H1:μ>μ0假设检验就是根据样本观察结果对原假设(H0)进行检验,接受H0,就否定H1;拒绝H0,就接受H1。当前91页,总共227页。检验规则确定检验规则检验过程是比较样本观察结果与总体假设的差异。差异显著,超过了临界点,拒绝H0;反之,差异不显著,接受H0差异临界点拒绝H0接受H0cc判断两类错误接受或拒绝H0,都可能犯错误I类错误——弃真错误,发生的概率为α
II类错误——取伪错误,发生的概率为β检验决策H0为真 H0非真 拒绝H0
犯I类错误(α)正确 接受H0正确犯II类错误(β) 怎样确定c?当前92页,总共227页。α大β就小,α小β就大基本原则:力求在控制α前提下减少β
α——显著性水平,取值:0.1,0.05,0.01,等。如果犯I类错误损失更大,为减少损失,α值取小;如果犯II类错误损失更,α值取大。确定α,就确定了临界点c。①设有总体:X~N(μ,σ2),σ2已知。②随机抽样:样本均值③标准化:④确定α值,⑤查概率表,知临界值⑥计算Z值,作出判断0接受区拒绝区拒绝区当前93页,总共227页。当检验判断为接受原假设H0时,就有可能犯取伪的错误即II类错误。确定犯第Ⅱ类错误的概率β比较困难,具体计算可根据书上的例子。统计上把称为统计检验的势,它是原假设实际上是错误的应该被拒绝的概率。
II类错误的概率β的计算当前94页,总共227页。检验步骤根据具体问题的要求,建立总体假设H0,H112选择统计量确定H0为真时的抽样分布3给定显著性水平α,当原假设H0为真时,求出临界值。计算检验统计量的数值与临界值比较4当前95页,总共227页。几种常见的假设检验总体均值的检验条件检验条件量拒绝域H0、H1(1)H0:μ=μ0H1:μ≠μ0
z(2)H0:μ=μ0H1:μ>μ0(3)H0:μ=μ0H1:μ<μz0z0正态总体σ2已知当前96页,总共227页。总体均值的检验条件检验条件量拒绝域H0、H1(1)H0:μ=μ0H1:μ≠μ0
t(2)H0:μ=μ0H1:μ>μ0(3)H0:μ=μ0H1:μ<μt0t00正态总体σ2未知(n<30)当前97页,总共227页。总体均值的检验条件检验条件量拒绝域H0、H1(1)H0:μ=μ0H1:μ≠μ0
z(2)H0:μ=μ0H1:μ>μ0(3)H0:μ=μ0H1:μ<μz0z00非正态总体n≥30σ2已知或未知当前98页,总共227页。两个总体均值之差的检验条件检验条件量拒绝域H0、H1(1)H0:μ1=μ2H1:μ1≠μ2
z(2)H0:μ1=μ2
H1:μ1
>μ2
(3)H0:μ1=μ2
H1:μ1
<μ2
z0z00两个正态总体已知当前99页,总共227页。两个总体均值之差的检验条件检验条件量拒绝域H0、H1(1)H0:μ1=μ2
H1:μ1≠μ2
t(2)H0:μ1=μ2
H1:μ1>μ2
(3)H0:μ1=μ2
H1:μ1<μ2
t0t00两个正态总体未知,但相等当前100页,总共227页。两个总体均值之差的检验条件检验条件量拒绝域H0、H1(1)H0:μ1=μ2
H1:μ1≠μ2
(2)H0:μ1=μ2
H1:μ1
>μ2
(3)H0:μ1=μ2
H1:μ1
<μ2
0z00两个非正态体n1≥30n2≥30已知或未知zz当前101页,总共227页。总体成数的检验条件检验条件量拒绝域H0、H1(1)H0:P=P0H1:P≠P0
z(2)H0:P=P0H1:P>P0(3)H0:P=P0H1:P<P0z0z00np≥5nq≥5当前102页,总共227页。两个总体成数之差的检验条件检验条件量拒绝域H0、H1(1)H0:P1=P2H1:P1≠P2
z(2)H0:P1≤P2H1:P1
>
P2(3)H0:P1≥P2H1:P1
<P2z0z00n1p1≥5n1q1≥5n2p2≥5n2q2≥5 当前103页,总共227页。一个总体方差的检验条件检验条件量拒绝域H0、H1总体服从正态分布 当前104页,总共227页。两个总体方差之比的检验条件检验条件量拒绝域H0、H1总体服从正态分布 FFF当前105页,总共227页。方差分析一、问题的提出同一原材料加工产品质量产地各组产品的质量是否有显著差异?随机原则当前106页,总共227页。一个班级的学生,某门课程的成绩专业分组各组学生的成绩是否有显著差异???差异随机误差系统误差随机原则加以比较若存在显著性差异,则说明该因素的影响是显著的当前107页,总共227页。二、假定条件各组水平都服从正态分布,均值和方差未知,但方差相同(i=1,2,3,···,k)当前108页,总共227页。三、单因素方差分析H0:各水平的均值相等H1:各水平均值不全相等总离差平方和=组间离差平方和+组内离差平方和离差平方和:SST=SSB+SSE自由度:n-1=k-1+n-k方差:MST=MSB+MSE检验量=系统误差/随机误差即:F=MSB/MSE检验规则当前109页,总共227页。当前110页,总共227页。因为:F=3.15<4.26或P(0.092)>(0.05)所以接受原假设,认为不同的家庭背景对学员成绩没有显著影响。当前111页,总共227页。
四、不考虑交互作用的两因素方差分析H0(A):因素A的k个水平的均值相等H1:不全相等总离差平方和=组间离差平方和+组内离差平方和离差平方和:SST=SS(A)+SS(B)+SSE自由度:kh-1=k-1+h-1+(k-1)(h-1)方差:MST=MS(A)+MS(B)+MSE检验量=系统误差/随机误差即:F(A)=MS(A)/MSEF(B)=MS(B)/MSEH0(B):因素B的h个水平的均值相等H1:不全相等检验规则当前112页,总共227页。
当前113页,总共227页。
因为:F(A)=0.393<5.14F(B)=0.028<4.76或P(A)(0.69)>(0.05)P(B)(0.99)>(0.05)所以接受原假设,认为不同的机器设备和不同的工艺方法对生产量都没有显著影响。当前114页,总共227页。
五、考虑交互作用的两因素方差分析H0(A):因素A的k个水平的均值相等H1:不全相等总离差平方和=组间离差平方和+组内离差平方和离差平方和:SST=SS(A)+SS(B)+SS(AB)+SSE自由度:khm-1=k-1+h-1+(k-1)(h-1)+kh(m-1)方差:MST=MS(A)+MS(B)+MS(AB)+MSE检验量=系统误差/随机误差即:F(A)=MS(A)/MSEF(B)=MS(B)/MSEF(AB)=MS(AB)/MSEH0(B):因素B的h个水平的均值相等H1:不全相等H0(AB):AB之间不存在交互影响的作用H1:有交互影响当前115页,总共227页。
检验规则例:当前116页,总共227页。
当前117页,总共227页。
当前118页,总共227页。
因为:F(A)=7.89>3.40F(B)=0.53<3.01F(AB)=7.11>2.51或P(A)(0.002)<(0.05)P(A)(0.665)>(0.05)P(AB)(0.0002)<(0.05)所以认为不同的机器设备对日产量有显著影响。不同的工艺方法对日产量没有显著影响。不同机器设备与工艺搭配的交互作用对日产量有显著的影响。当前119页,总共227页。
相关分析
回归分析第六章相关与回归相关和回归分析方法,是分析两个或更多变量之间的相互关系,测定它们之间联系的紧密程度,以揭示其变化的具体形式和规律性,以便用一个或几个变量,去预测另一个我们感兴趣的变量。主要内容当前120页,总共227页。相关分析概念种类线性相关变量之间关系函数关系相关关系因果关系互为因果关系共变关系确定性依存关系随机性依存关系当前121页,总共227页。种类一元相关多元相关负相关正相关线性相关曲线相关xy正相关xy负相关xy曲线相关xy不相关当前122页,总共227页。线性相关相关系数测定两变量是否线性相关?定义式:未分组:已分组:值:|r|=0不存在线性关系;|r|=1完全线性相关0<|r|<1不同程度线性相关(0~0.3微弱;0.3~0.5低度;
0.5~0.8显著;0.8~1高度)符号:r>0正相关;r<0负相关计算公式相关系数的检验(t检验)检验统计量当前123页,总共227页。回归分析特点一元线性回归多元线性回归非线性回归逻辑回归种类当前124页,总共227页。特点1·理论和方法具有一致性;2·无相关就无回归,相关程度越高,回归越好;3·相关系数和回归系数方向一致,可以互相推算。1·相关分析中,x与y对等,回归分析中,x与y要确定自变量和因变量;2·相关分析中x,y均为随机变量,回归分析中,只有y为随机变量;3·相关分析测定相关程度和方向,回归分析用回归模型进行预测和控制。当前125页,总共227页。种类一元回归多元回归线性回归非线性回归自变量的多少
变量之间的具体变动形式当前126页,总共227页。一元线性回归1·一元线性回归模型的一般形式总体一元线性回归模型的一般形式Y的数学期望E(Yi)随机误差也称一元线性回归方程,是对应于自变量X某一取值时因变量Y的均值。未知参数Yi=α+βXi+εi当前127页,总共227页。回归系数b表明自变量x每变化一个单位因变量y的平均增(减)量。b与r的关系:r>0r<0r=0b>0 b<0 b=0样本的一元线性回归模型和回归方程一元线性回归模型:一元线性回归方程:截距斜率(回归系数)当前128页,总共227页。xy2·一元线性回归模型的确定根据实际数据,用最小平方法,即使,分别对a、b求编导并令其为零,求得两个标准方程:解联立方程,得到当前129页,总共227页。3·一元线性回归模型拟合优度的评价判定系数(r2)是对回归模型拟合优度的评价。xy总偏差=回归偏差+剩余偏差
r2表示全部偏差中有百分之几的偏差可由x与y的回归关系来解释。r的符号同b当前130页,总共227页。估计标准误(Sxy)
Sxy越小,拟合越好;
Sxy越大,拟合越差。
Sxy也是用自变量对因变量进行区间估计的抽样误差。68.27%94,45%99.73%是一个测量Y的实际值与Y的预测值之间离散程度的统计量。当前131页,总共227页。4·回归分析中的假设条件和残差分析回归分析中的假设条件
随机误差项ε的理论假定值相互独立服从正态分布的数学期望E()=0的方差都相同,且残差分析随机误差项ei=Yi-又称为残差,对残差进行分析,既能用来评价回归模型与实际数据的拟合优度,也能评价回归的假设能否成立。当前132页,总共227页。评价回归模型的拟合优度可通过绘制残差图直观地进行评价。残差图是以残差为纵坐标、以相应自变量的X值为横坐标的散点图。
散点的分布不存在明显的变化规律,说明建立的模型对数据是合适的。当前133页,总共227页。散点的分布有明显的变化规律,说明建立的模型对数据是不合适的。当前134页,总共227页。假设条件的评估
(1)等方差性:通过残差与Xi的残差图来评价
残差0X0此图中,散点如扇形般地展开,即显示出X增大时残差的变异也在增大,证明了在X的每个水平上,Y缺少等方差性
当前135页,总共227页。(2)正态性。可通过残差分析中计算残差的频数分布,并把其结果用直方图加以反映和评估。
引例店址选择的数据,可把残差列成如表的频数分布,并把其结果可用直方图展示出来
.残差频数-300到-2001-200到-1002-100到040到1004100到2004合计15当前136页,总共227页。(3)独立性。可根据数据获得的先后顺序排列的残差散点图来评估。在一段时间内收集的数据,有时观测值中会存在着自相关的影响。此时,前后之间的残差就会有某种联系。若存在这种联系,就违背了独立性假设,这将很明显地在残差对收集数据的时间散点图上反映出来。自相关的影响可用杜宾—沃特森统计量进行测度
当前137页,总共227页。5·一元线性回归模型的显著性检验回归系数b的检验:设总体回归系数为β
H0:β=0;H1:β≠0n≥30时检验统计量(β=0)
σb是样本回归系数抽样分布的标准差。通常是未知的,用其估计量代替。给定显著性水平α,查Z表可知其临界值。n<30时(β=0)给定显著性水平α,查t表可知其临界值。当前138页,总共227页。00Zt当前139页,总共227页。回归模型整体的F检验
H0:R2=0;H1:R2>0检验统计量F当前140页,总共227页。6·应用回归方程进行估计
n≥30时给定x0,y0的置信度(1-α)的置信区间为:n<30时xyX00给定的x0越接,y值估计的精确度越高。平均值估计n<30时特定值估计当前141页,总共227页。多元线性回归1·多元线性回归模型的确定二元线性回归模型:总体多元线性回归模型的一般形式Y的数学期望随机误差表明自变量共同变动引起的Y的平均变动。也称总体的二元线性回归方程。当前142页,总共227页。常数项,和Y构成的平面与Y轴的截距偏回归系数,表示在固定时每变化一个单位引起的Y的平均变动;偏回归系数,表示在固定时每变化一个单位引起的Y的平均变动;随机误差,其理论假定与一元线性回归模型中的一样。偏回归系数的符号与它们所联系的自变量Xi同因变量Y的相关系数ri的符号是一致的。
当前143页,总共227页。样本多元线性回归模型的一般形式二元线性回归模型为:其数学期望也称样本(或估计的)二元线性回归方程。2.二元线性回归方程的确定根据实际资料,用最小平方法,即使,分别对b0、b1、b2求编导并令其为零,求得三个标准方程:当前144页,总共227页。解此联立方程便可得到β0、β1和β2。
3·多元线性回归模型的判定系数和估计标准误判定系数修正的判定余数:当前145页,总共227页。估计标准误)
r2和Sy(x1、x2)都是对回归模型拟合优度的评价指标。Sy(x1、x2)也是用自变量对因变量进行区间估计的抽样误差。4·多元线性回归方程的显著性检验
对偏回归系数的t检验
H0:β1=0,H1:β1≠0; H0:β2=0, H1:β2≠0。检验统计量:当前146页,总共227页。按显著性水平α和自由度(n-3)查t表可得到临界值t0当前147页,总共227页。模型整体的F检验检验统计量:(k—自变量个数)或按给定的α和自由度(2)和(n-3)查F表可得到临界值Fα当前148页,总共227页。5·多元回归中的相关分析复相关:指一个因变量同多个自变量的相关关系。复相关系数恒取正值。偏相关(净相关)指各个自变量在其他自变量固定不变时,单个变量同因变量的相关关系。
x1与y的偏相关系数:
x2与y的偏相关系数:当前149页,总共227页。6·应用多元回归方程进行区间估计Y的平均值的区间估计Y的特点值的区间估计式中,是即区间估计的抽样误差。的抽样分布的标准差,式中,是的抽样分布的标准差,即区间估计的抽样误差。当前150页,总共227页。7·建立多元回归模型应注意的几个问题和步骤
建立多元回归模型应注意的几个问题1.变量的选择
当实际问题确实有两个或两个以上因素影响其变动时,就应尽力获得这些因素的资料,构造多元回归模型。
通常有两种
向前逐步回归
向后逐步回归
2.多重共线性:如果各自变量之间存在完全相关或高度相关的情况,这在统计上称作多重共线性。
当前151页,总共227页。方差膨胀因子(VIF)=
若一系列自变量之间是不相关的,则VIFj等于1。若这些解释变量之间存在着高度的相关,则VIFj可大到超过10。一般的标准是VIFj的最大值超过5,则可认为此自变量与其他自变量之间存在着较高的相关,需要对回归模型进行修正。3。多元线性回归模型的残差分析
需要对每个自变量与因变量的简单线性回归方程的残差图分别都进行分析
当前152页,总共227页。建立回归模型的方法
1.考虑一批可能入选模型的自变量。
3.判别每个自变量的VIF是否大于5。
4.有可能发生发下三种结果:
2.拟合一个含有全部考虑过的自变量的回归模型,以便判别每个自变量的变异膨胀因子(VIF)。
a.没有一个自变量的VIF>5,若产生这种情况,进入第5步。
b.有一个自变量的VIF>5,若产生这种情况,剔除这个自变量,进入第5步。
c.不止一个自变量的VIF>5,若产生这种情况,剔除VIF值最大的那个自变量,然后回到第2步。当前153页,总共227页。5.对余下的自变量,找出所有自变量形成的子集,进行最佳子集的回归分析,以获得给定自变量的最佳模型。具体可计算Cp统计量来选择最佳子集,有关Cp统计量的计算公式和使用方法可阅读相关的书籍。6.列出所有Cp≤(k+1)的模型。7.在第5步列出的所有模型中,选择一个最佳模型。8.对模型做一个包括残差分析在内的完整分析。9.根据残差分析的结果,增加二次项或进行变量变换(见下一节),然后分析数据。10.用选定的模型进行预测。
当前154页,总共227页。虚拟变量运用虚拟变量,就能把定性自变量作为回归模型的一部分。
逻辑回归若给出的定性自变量有两个分类,虚拟变量Xd的定义如下:
Xd=0,若观测对象属于第一个分类
Xd=1,若观测对象属于第二个分类当前155页,总共227页。逻辑回归设P(Y=1|X)=p表示自变量为X时,因变量Y=1出现的概率,对p作Logit变换,定义Logitp为
Logitpi=
总体一元逻辑回归模型:Logitpi=α+βXi+εi或样本的一元逻辑回归方程
a+bXi其中或:当前156页,总共227页。例:在一次住房展销会上,与房地产商签定初步购房意向书的共有n=325名顾客,在随后的3个月时间内,只有一部分顾客确实购买了房屋。购买了房屋的顾客记为1,没有购买房屋的顾客记为0。以顾客年家庭收入为自变量X,对表所示的数据,建立逻辑回归方程。解:令X为自变量,为因变量,由公式6-49可得回归方程为:
-0.8863+0.1558Xi判定系数:r2=0.9243显著性检验
p值约等于零,所以高度显著
当前157页,总共227页。预测:年家庭收入为8万元的实际购房比例逻辑回归方程:当前158页,总共227页。非线性回归模型当自变量与因变量存在某种曲线相关关系时,可拟合曲线回归模型。例如:双曲线模型:指数曲线模型:二次曲线回归模型:对多元非线性模型:
当前159页,总共227页。非线性模型的判别方法:理论和经验判断;观察散点图非线性模型的确定方法:通常用变量代换法将曲线转换为直线。按线性模型求解参数,而后再变换为曲线模型。当前160页,总共227页。第七章非参数统计非参数统计(亦称非参数检验),是根据样本资料对总体的某种性质或关系进行假设检验的统计推断方法。主要特点不要求总体分布已知或对总体分布作任何限制性假定;不以估计总体参数为目的;能适用于定性变量中的定类数据或定序数据
,也能适用于定距数据和定比数据这种定量变量
方法直观,易于理解,运算比较简单。缺点是检验的功效不如参数检验方法。当前161页,总共227页。主要内容χ2检验成对比较检验曼—惠特尼U检验游程检验等级相关检验当前162页,总共227页。χ2检验一、什么是χ2检验χ2检验是利用随机样本对总体分布与某种特定分布拟合程度的检验,也就是检验观察值与理论值之间的紧密程度。
设有k(K>2)个观察值,f0为它们的实际频数,fe为理论频数。构造一个统计量其中,k-1为自由度。
皮尔生定理表明,当样本容量充分大时,样本分成K类,则χ2统计量服从χ2分布。自由度为k-1当前163页,总共227页。1、拟合优度检验二、应用利用样本信息对总体分布作出推断,检验总体是否服从某种理论分布(如二项分布、均匀分布或正态分布等)。
检验步骤抽样并对样本资料编成频数分布,形成k个互斥的类型组。(f0)对总体分布建立假设H0:总体服从某种理论分布H1:总体不服从该理论分布以“原假设H0为真”导出一组期望频数(fe)计算检验统计量比较χ2值与临界值作出检验判断当前164页,总共227页。自由度(df)=k-1-m。其中k为组数。(各组理论频数不得小于5,如不足5,可合并相邻的组,如需合并,则k为合并后的组数)m为计算理论频数时所估计参数的个数。(未指定总体的参数,需要观察值计算相应的统计量,作为未参数的估计值)。当前165页,总共227页。2、独立性检验二、应用用于判断两个变量是否存在交互影响。如果两个变量不存在交互影响,就称为独立,所以这类检验也称为独立性检验。
检验步骤对总体的两个变量建立假设H0:两变量独立H1:两变量关联将样本资料编成r×c列联表,并列出实际频数Oij计算理论频数计算检验统计量比较χ2值与临界值作出检验判断当前166页,总共227页。当前167页,总共227页。要点说明列联表形式(r×c)O11O21O31...Or1
O12O22O32...Or2
O13O23O33...Or3
………...… O1cO2cO3c...Orc
O1O2O3...Or
123...r行(r)列(c)1 2 3 … c xy合计
n.1 n.2 n.3 … n.c n 合计X的边缘频数y的边缘频数当前168页,总共227页。理论频数Eij的计算先求理论频率(作为概率的近似)。概率论中关于概率独立的基本规则:如果两事件独立,则它们的联合概率等于它们各自概率的乘积,P(A·B)=P(A)·P(B)。因此,某一行某一列的联合概率:
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025版学校球场施工合同模板(含场地通风与散热)2篇
- 二零二五年度婚礼现场舞台搭建与灯光音响租赁合同6篇
- 个性化家庭收养协议2024版版
- 二零二五年度履约保证金协议书范本:文化旅游项目2篇
- 医疗器械2025年度原材料供应与加工合作协议3篇
- 2025年度智慧农业灌溉增压泵供应与安装服务合同3篇
- 二零二五年度城市更新项目存量房买卖合作框架协议2篇
- 二零二五版煤矿股权转让及矿山安全生产责任书4篇
- 2025版园艺用树苗买卖合同规范范本3篇
- 二零二五年度市场分析预测专家顾问聘请书3篇
- 2024年供应链安全培训:深入剖析与应用
- 飞鼠养殖技术指导
- 坏死性筋膜炎
- 整式的加减单元测试题6套
- 股权架构完整
- 山东省泰安市2022年初中学业水平考试生物试题
- 注塑部质量控制标准全套
- 人教A版高中数学选择性必修第一册第二章直线和圆的方程-经典例题及配套练习题含答案解析
- 银行网点服务礼仪标准培训课件
- 二年级下册数学教案 -《数一数(二)》 北师大版
- 晶体三极管资料
评论
0/150
提交评论