统计学基本概念_第1页
统计学基本概念_第2页
统计学基本概念_第3页
统计学基本概念_第4页
统计学基本概念_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、日志 吕品 吕品的日志 当前日志 返回日志首页?较新一篇/较旧一篇分享1.统计学:收集处理分析解释数据并从数据中得出结 论的科学。2.描述统计:研究数据收集处理汇总图 表描述概括与分析等统计方法。3.推断统计:研究如何利用样本数据来推断总体特征的统计方法。4.分类数据:只能归于某一类别的非数字型数据。5.顺序数如果你也考统计学网上搜索到的统计学基本概念一 2011-05-28 12:06 | 分类:默认分类)统计学:收集处理分析解释数据并从数据中得出结论的科学。描述统计:研究数据收集处理汇总图表描述概括与分析等统计方法。推断统计:研究如何利用样本数据来推断总体特征的统计方法。分类数据:只能归于

2、某一类别的非数字型数据。顺序数据:只能归于某一有序类别的非数字型数据。数值型数据:按数字尺度测量的观察值。观测数据:通过调查或观测而收集到的数据。实验数据:在实验中控制实验对象而收集到的数据。截面数据:在相同或近似相同的时间点上收集的数据。时间序列数据:在不同时间上收集到的数据,这类数据按时间顺序收集到的。抽样调查:从总体中随机抽取一部分单位作 为样本进行调查,根据样本调查结果来推断总体特征 的数据收集方法。普查:为特定目的而专门组织的全面调查。总体:包含所研究的全部个体(数据)的集合。样本:从总体中抽取的一部分元素的集合。样本容量:也称样本量,是构成样本的元素数目。参数:用来描述总体特征的概

3、括性数字度量。统计量:用来描述样本特征的概括性数字度量。变量:说明现象某种特征的概念。分类变量:说明事物类别的一个名称。顺序变量:说明事物有序类别的一个名称。数值型变量:说明事物数字特征的一个名称。离散型变量:只能取可数值的变量。连续型变量:可以在一个或多个区间中取任何值的变量。调查数据:通过调查方法获得的数据实验数据:通过实验方法获得的数据概率抽样:随机抽样,遵循随机原则进行的油样,总体中每个单位都有一定的机会被选入样本。非概率抽样:不随机,根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。简单随机抽样:从包括总体的N个单位的抽样框中随机,一个个抽取n个单位作为样本,每

4、单位 等概论。抽样框:用于抽选样本的总体单位信息,是概率抽样中所不可缺分层抽样:将抽样单位按某种特征或某种规则划分为不同的层,然后从不同层中独立、随机地抽 取样本。整群抽样:总体中若干单位合并为组,群, 抽样时直接抽取群,然后对中选群中的所有单位全部 实施调查。系统抽样:总体中所有单位按顺序排列,在规定范围内随机抽取一单位作为初始单位,然后按事 先规则确定其它样本单位。多阶段抽样:首先抽取群,再进一步抽样,从选中的群中抽取出若干个单位进行计查,二阶段抽 样。方便抽样:依据方便原则,自行确定入抽样本的单位。判段抽样:研究人员根据经验,判断研究对 象的了解,有目的选择一些单位作为样本。自愿样本:被

5、调查者自愿参加,成为样本中一分子,向调查人员提供有关信息滚雪球抽样:对稀少群体调查中,首选选择一组调查单位,调查后,请他们提供另外属于研究总 体的调查对象,调查人员根据所提供的线索,进行此 后调查。配额抽样:将总体中所有单位按一定的标志 分若干类,然后每类采用方便抽样或判断抽样的方案 选取样本单位。自填式:没有调查员协助,被调查者自已填写,完成调查问卷。面访式:面对面,调查员提问,被调查者回答。电话式:打电话方式调查。抽样误差:由于抽样的随机性引起的样本结果与总体真值之的误差。非抽样误差:相对抽样误差而言,除抽样误差之外的,由于其它原因引起的样本观察结果与总体 真值之间的差异。抽样框误差:统计

6、推论的错误是由于抽样框不完善造成的频数:落在某一特定类别或组中的数据个数。频数分布:各个类别及其相应的频数形成的分布。比例:一个样本(或总体)中各个部分的数据占全部数据比值。48.比率:一个样本(或总体)中各不同类别数48.比率:一个样本(或总体)中各不同类别数据之间的比值累积频数:将各有序类别或组的频数逐级累加起来得到的频数。累积频率或累积百分比:将有序类别或组百分比逐级累加起来。数据分组:根据统计研究需要,将原始数据按某种标准化分成不同的组别,。组距是一个组的上限与下限的差组距分组是将全部变量依次划分为若干个区间,将这一区间的变量值作为一组。等距分组,在组距分组时,如果各组的组距相等。组中

7、值=下限值+上限值/2上下限的中间值直方图:用矩形的宽度和高度(即面积)来表示频数分布的图形。茎叶图:由茎和叶两部分组成的、反应原始数据分布的图形。箱线图:由一组数据的最大值、最小值、中位数和两个四分位数5个特征值绘制而成的、反应原 始数据分布图形。集中趋势:指一组数据向某一中心值靠拢的程度,反映一组数据中心点的位置所在。众数:一组数据中出现频数最多的数值中位数:一组数据排序后处于中间位置上的数值。四分位数:一组数据排序后处在25麻R 75%位置上的数值。63.平均数:又称均值,是全部数据的算术平均63.平均数:又称均值,是全部数据的算术平均简单平均数:未经分组数据计算的平均数称为简单平均数。

8、根据分组。OO加权平均数。几何平均数:是n个变量值乘积的n次方根。 常用于比例数据的平均。异众比率:指非众数组的频数占总频数的比例.四分位差:75%位置上的四分位数与25%位置上的四分位数之差。顺序数据。极差:也称全距,一组数据的最大值与最小值之差。平均差:也称平均绝对离差,它是各变量值与其平均数离差的绝对值的平均数。70.数。70.数。方差:各数据与其平均数离差平方的平均.标准差:方差的平方根。.标准分数:也称标准化值或 z分数,某个数据与其平均数的离差除以标准差后的值。.离散系数:一组数据的标准差与其相应的平均数之比。.偏态:对数据分布对称性的测度。测度偏态的统计量偏态系数。.偏态系数:对

9、数据分布不对称性的度量值。.峰态:对数据分布平峰或尖峰程度的测度,测度峰态的统计量则是峰态系数。.峰态系数:对数据分布峰态的度量值。.随机事件:在同一组条件下,每次试验可能出现也可能不出现的事件,也叫偶然事件.必然事件:在同一组条件下,每次试验一定出现的事件. 不可能事件:在同一组条件下,每次试验一 定不出现的事件。.基本事件:如果一个事件不能分解成两个或更多个事件,则这个事件称为基本事件。.概率:对事件发生的可能性大小的度量值。.主观概率:对一些无法重复的试验,确定其结果的概率只能根据经验,人为确定这个事件的概 率。.条件概率:当某事件 B已发生,求事件 A发生的概率,称为事件B发生条件下事

10、件A发生的条 件概率。.独立事件:两个事件中不论哪一个事件发生与否并不影响另一个事件发生的概率。.随机变量:事先不能确定其取值的变量。.离散型随机变量:只能取有限个值的随机变量。.连续型随机变量:可以取一个或多个区间中任何值的随机变量。.期望值、数学期望:随机变量的平均取值,各可能值与对应概率乘积之和。.方差:随机变量的每一取值与期望值的离差平方的期望值。.泊松分布:用来描述在一指定时间范围内或在指定的面积或体积之内某一事件出现的个数的分 布。.概率密度函数:对连续型随机变量用函数f(x)来表示。大于等于0,全积分为1.统计量:对样本特征的某个概括性度量, 是样本的函数。.充分统计量:统计量加

11、工过程中一点信息都不损失的统计量通常称为充分统计量。.抽样分布:样本统计量的概率分布,是由样本统计量的所有可能取值形成相对频数分布。.渐近分布:当n比较大时,用极限分布作为抽样分布的一种近似,这种极限分布常称为.自由度:独立变量的个数。.估计量:用来估计总体参数的统计量的名称.估计值:估计总体参数时计算出来的估计量的具体数值.点估计:用样本估计量 的取值直接作为总体参 数9的估计值.区间估计:在点估计的基础上,给出总体参数 估计的一个估计区间,该区间通常由样本统计量加减估计误差组成.置信区间:由样本统计量构造出的总体参数在 一定置信水平下的估计区间。.置信水平:也称为置信度或置信系数,在重复

12、构造的总体参数的多个置信区间中包含总体参数真 值的次数所占的比例。.无偏性:估计量抽样分布的期望值等于被估计 的总体参数.有效性:对同一总体参数的两个无偏估计量) 有更小标准差的估计量更有效。. 一致性:随着样本量的增大,估计量的值越来 越接近总体参数。.独立样本:一个样本中的元素与另一个样本中 的元素相互独立。.匹配样本:又称配对数据,一个样本中的数据 与另一个样本中的数据相对应。.假设检验:先对总体参数提出某种假设,然后 利用样本信息判断假设是否成立的过程。.原假设:也称零假设,是研究者想收集证据予 以反对的假设,用表示。.备择假设:也称研究假设,是研究者想收集证 据予以支持的假设,用或表

13、示。.第I类错误:原假设正确时拒绝原假设,犯第 I类错误概率记。.第E类错误:当原假设为错误时没有拒绝原假 设,犯第E类错误的概率通常记为。.显著性水平:假设检验中发生第I类错误的概 率,记为。.小概率原理:进行假设检验利用,指发生概率 很小的随机事件在一次试验中是几乎不可能发生的。.检验统计量:根据样本观测结果计算得到的, 并据以对原假设和备择假设做出决策的某个样本统 计量.拒绝域:能够拒绝原假设的检验统计量的所有 可能取值的集合。.临界值:根据给定的显著性水平确定的拒绝域 的边界值。. 值:也称观察到的显著性水平,如果原假设 是 正确的,那么所得的样本结果出现实际观测结果或更 极端结果出现

14、的概率。P值很小说明发生概率很小, 拒绝原假设,P越小,拒绝原假设的理由就越充分。双侧P0.025单侧p”或“”的假设检验。.双侧检验:也称双尾检验,是指备择假设没有特定的方向性,并含有符号“ 1”的假设检验。.列联表:由两个以上的变量进行交叉分类的频 数分布表。.条件分布、频数:列联表中的观察值分布称为 条件分布,每个具体观察值就是条件频数。.拟合优度检验:如果样本是从总体的不同类别 中分别抽取,研究目的是对不同类别的目标量之间是 否存在显著性差异进行检验,我们就把它称为拟合优 度检验或一致性检验。.独立性检验:判断两个分类变量之间是否存在 联系的问题,两组或多组的资料是否相互关联,如果 不

15、关联,就称为独立。这类问题的处理称为独立性检 验。.方差分析:通过检验各总体均值是否相等来判 断分类型自变量对数值型因变量是否有显著影响。.因素:也称因子,是方差分析中所要检验的对 象。.处理:因素的不同表现称为水平或处理.组内误差:来自水平内部的数据误差。.组间误差:来自不同水平之间的数据误差。.总平方和:反映全部数据误差大小的平方和,记为SST自变量效应加残差效应。n-1.组内平方和:反映组内误差大小的平方和,记 为SSE残差变量,残差效应;n-k.组问平方和:反映组间误差大小的平方和,记 为SSA自变量效应或因子效应;k-1.单因素方差分析:只涉及一个分类型自变量的 方差分析。.组内方差

16、:组内平方和除以相应的自由度。.组间方差:组间平方和除以相应的自由度。.双因素方差分析:方差分析中涉及两个分类型 自变量时,称为.试验:收集样本数据的过程.试验设计:收集样本数据的计划.完全随机化设计:将k种处理随机地指派给试 验单元的设计。.处理指可控制的因素的各个水平.试验单元:接受处理的对象或实体称为试验单 元或抽样单元。.随机化区组设计:先按一定规则将试验单元划 分为若干同质组,区组,然后再将各种处理随机地指 派给各个区组。.因子设计:考虑两个因素搭配的试验设计称为 因子设计。.函数关系:设两变量x,y,变量y随x一起变化, 并完全依赖于x,当变量x取某数值时,y依确定关系 取相应的值

17、,则称y是x的函数,记为y=f(x).相关关系:变量之间存在的不确定的数量关系。.相关分析:分析变量之间是否存在相关关系, 明确其相关关系的类型,计算其相关关系的密切程度 的统计分析方法.相关系数:是根据样本数据计算的度量两个变 量之间线性关系强度的统计量。.回归模型:描述因变量 y如何依赖于自变量x 和误差项的方程。.回归方程:描述因变量y的期望值如何依赖于 自变量x的方程。.估计的回归方程:用样本统计量代替回归方程 中的未知参数,根据样本数据求出的回归方程的估 计。.因变量、自变量:被预测或被解释的变量称为 因变量,用来预测或用来解释因变量的一个或多个变 量称为自变量。.最小二乘法:也称最

18、小平方法,使因变量的观 察值与估计值之间的离差平方和达到最小来求得 和的方法。.回归平方和:y的总变差中由于x与y之间的线 性关系引起的y的变化部分,它是可以由回归直线来 解释的yi变差部分.残差平方和:除了 x对y的线性影响之外的其 它因素对y变差的作用,是不能由回归直线解释的 yi 的变差部分。.判定系数:回归平方和占总平方和的比例,记 为.估计量的标准误差:均方残差(MSE)的平方 根,用 来表示。实际意义反映了用估计的回归方程 预测因变量y时的预测误差的大小。越小,各观测点 的代表性就越好,预测越准确,从另一个角度说明了 回归直线的拟合优度。.平均值的点估计:利用估计的回归方程,对于

19、的一个特定值,求出的平均值的一个估计值。.个别值的估计值:利用估计的回归方程,对于 的一个特定值,求出的一个个别值的估计值。.平均值的置信区间估计:对 的一个给定值 求出的平均值的区间估计。.个别值的预测区间估计:对的一个给定值,求出 的一个个别值的区间估计。.残差:因变量的观测值yi与根据估计的回归方 程求出的预测值yi八之差,用e表示。.标准化残差:残差除以它的标准差后得到的数 值用Ze表示。.异常值:在散点图中,如果某一个点与其它点 所呈现的趋势不相吻合.有影响的观测值:如果某一个点或某一些观测 值对回归的结果有强烈的影响,那么该观测值或这些 观测值就是.多元线性回归模型:描述因变量 如

20、何依赖于自 变量和误差项的方程。.多元线性回归方程:描述 的期望值如何依赖于的方程.估计的多元线性回归方程:根据样本数据得到 的多元线性回归方程的估计。.多重判定系数:在多元回归中,回归平方和占 总平方和的比例。.修正的多重判定系数:用模型中自变量的个数 和样本量进行调整的多重判定系数,记为。.多重共线性:当回归模型中两个或两个以上的 变量彼此相关时,则称回归模型中存在 .虚拟变量:变量的取值本身用文字来描述,要 把它们放进回归模型,必须先将其文字型数据用数字 代码来表示,这种代码化的定性自变量称为虚拟变 量。.时间序列:同一现象在不同时间上的相继观察值排列而成的序列.平稳序列:基本上不存在趋

21、势的序列。.非平稳序列:包含趋势性、季节性或周期性的 序列。.趋势:也称长期趋势,指时间序列在长时期内 呈现出某种持续向上或持续下降的变动。.季节性:季节变动,是指时间序列在一年内重 复出现的周期性波动。.周期性:循环波动,是指时间序列中呈现出的 围绕长期趋势的一种波浪形或振荡式变动。.随机性:不规则波动,是指时间序列中除去趋 势、周期性和季节性之后的偶然性波动。.增长率:也称增长速度,是指时间序列中报告期观察值与基期观察值之比减1后的结果,用表示.环比增长率:报告期观察值与前一时期观察值 之比减1,说明现象逐期增长变化的程度。.定基增长率:报告期观察值与某一固定时期观 察值之比减1,说明现象

22、在整个观察期内总的增长变 化程度。.平均增长率:也称平均发展速度,是指时间序 列中各逐期环比值(也称环比发展速度)的几何平均 数减1后结果。.增长1%绝对值:增长率每增长一个百分点而增 加的绝对数量。.简单平均法预测:根据过去已有的期观察值通 过简单平均来预测下一期的数值。.移动平均法预测:通过对时间序列逐期递移求 得平均数作为预测值的一种预测方法。.指数平滑法预测:对过去的观察值加权平均进 行预测的一种方法,该方法使得第十1期的预测值等 于 期的实际观察值与第 期指数预测值的加权平均 值。.线性趋势:指现象随着时间的推移而呈现稳定 增长或下降的线性变化规律。.指数曲线:描述以几何级数递增或递

23、减的现象 即时间序列的观察值按指数规律变化或说时间序列 逐期观察值按一定增长率增长衰减。.在一般指数曲线的基础上增加一个常数 K,初期 增长迅速,随后增长率逐渐降低,最终以 K为增长极 限。.指数:测定多个项目在不同场合下综合变动的 相对数。.加权综合指数:通过加权来测定一组商品价格 的综合变动状况的指数。.拉氏价格指数:计算综合指数时,把作为权数 的销售量固定在基期。单纯反映价格的变动水平,不 能反映出消费结构的变化。.帕氏价格指数:把作为权数的销售量固定在报 告期,不同时期的指数缺乏可比性,可以同时反映出 价格和消费结构的变化。.加权平均指数:以某一时期的价值总量为权数 对个体指数加权平均

24、计算的指数。.零售价格指数:反映城乡商品零售价格变动趋 势的一种经济指数。.消费价格指数:反映一定时期内城乡居民所购 买的生活消费品价格和服务项目价格的变动趋势和 程度一种相对数。.股票价格指数:是反映某一股票市场上多种股 票价格变动趋势的一种相对数。.间接来源:统计数据的间接来源:如果与研究 内容有关的原信息已存在,我们只是对这些原信息重 新加工整理,使之成为我们进行统计分析可以使用的 数据,则我们把它们称为间接来源的数据。二手数据的特点:搜集比较容易,采集数据成本低, 能很快得到。局限性不是为特定研究问题产生有欠 缺,需要评估。、二手数据的评估:谁收集,目的,怎么搜集,什么时 侯收集?概率

25、抽样与非概率抽样比较:性质不同,非概不依据 随机原则选样本,样本统计量分布不确切,无法使用 样本的结果对总体相应参数进行推断。操作简便,时 效快,成本低,专业要求不很高。概率抽样依据随机 原则抽选样本,理论分布存在,对总体有关参数可进 行估计,计算估计误差,得到总体参数的置信区间。 提出精度要求。数据收集方法的选择:抽样框中有关信息,目标总体 特征,调查问题的内容,有形辅助物的使用,实施调 查的资源,管理与控制,质量要求实验中的若干问题:人的意愿,心理问题,道德问题 回答误差:理解误差,记忆误差,有意识误差误差的控制:抽样误差是抽样随机性带来的,不可避 免可以计算,改大样本量。选择合适改进的抽

26、样框, 设计好的调查问卷,调查过程的质量控制。抽样误差因素:样本量大小,总体变异性大大抽样方式选组织形式数据审核的目的:检查数据是否有错误,原始数据完 整性准确性,二手适用性时效性。数据筛选的目的:根据需要找出符合特定条件的某类 数据。数据排序是按一定的顺序将数据排列,以便研究者通 过浏览数据发现一些明显的特征或趋势,找到解决问 题的线索。数据透视表作用:可以对数据表重要信息按使用者的 习惯或分析要求进行汇总和作图,形成一个符合需要 的交叉表 数据分布表的制作步骤:确定组数,确定组距,根据 分组整理成频数分布表,上组限不在内不重不漏 直方图与条形图的差别:首先条形图是用条形的长度 表示各类别频

27、数的多少,宽度是固定的;直方图用面 积表示各组频数的多少,矩形的高度表示每一组的频 数或频率,宽度则表示各组的组距,高宽均有意义。其次由于分组数据具有连续性,直方图的各矩形通常 是连续排列,而条形图则是分开排列。最后条形图主 要用于展示分类数据,直方图主要用于展示数值型数 据。茎叶图与直方图的区别:茎叶图既能给出数据的分布 情况,又能保留原始数据的信息。直方图通常适用于 批量数据,茎叶图小批量数据。饼图与环形图差别:环形图中空洞,样本或总体中每 一部分用环中的一段表示。饼图只能显示一个样本或总体各部分所占的比例,环形图可以同时绘制多个, 有利比较研究。好图形具备特征:显示数据,读者注意集中图形

28、内容, 避免歪曲,强调数据之间比较,服务明确目的,对图 形统计描述与文字说明。图形优劣准则:好图应当使复杂的观点简明、确切、 高效阐述,最短时间内以最少的笔墨给读者提大信 息,多维,表述数据真实情况。制作统计表设计注意:合理安排表结构,包括表号总 标题单位,上下两横线粗,中间细,必要注释、来源数据分布的特征三方面:数据分布的集中趋势,离散 程度,形状众数的特点:不受极端值影响,分布角度上看是具有 明显集中趋势点的数值,众数可能不存在也可能有多 个。众数、中位数和平均数的关系:从分布角度看,众数M0是最高峰值,中位数 Me是数据中间位置上值, 平均数是全部数据的算术平均。左偏 XMe1 -1高偏

29、0.5-1 -1 0.5 中偏,接近0,偏度低,正值右偏。概率的古典定义:如果某一随机试验的结果有限,而且各个结果出现可能性相等,则某一事件 A发生概率 为该事件所包含的基本事件数 m与样本空间中所包 含的基本事件数n的比值。概率的统计定义:在相同条件下随机试验 n次,某事 件A出现m次(m=0整个概率密度曲线都在x轴上方(2)曲线相对x=w对称,在x=w处最大值 f(w)= (3)曲线陡缓程度由b决定,越大,越缓;(4) x趋于无穷时,曲线以x轴为渐近线。3 b 准则:P(|x- a |= a )=0.6836,2 a =0.9545,3 a=0.9973独立性和互斥性的关系:互斥事件一定是

30、相互依赖(不独立)的,但相互依赖的事件不一定是互斥的。不互斥事件可能是独立的,也可能是不独立的,然而 独立事件不可能是互斥的。统计推断的三个中心内容:抽样分布,参数估计和假 设检验中心极限定理:设从均值为w,方差为b 2(有限)的任意 一个总体中抽取样本量为n的样本,当n充分大时, 样本均值X的抽样分布近似服从均为以,方差为b Zn 的正态分布。置信区间的理解:1.某种方法构造所有区间中 95%的 区间包含总体参数的真值,5%不包括,用该方法构造 的区间称为置信水平为95%的置信区间2.总体参数真 值固定未知,而样本构造区间不固定,置信区间是随机区间因样本不同而不同不都包含总体参数真值。3.实

31、际中只抽一个样本,可包可不包,真正意义是如果 做了 100次抽样,大概有95次找到的区间包含真值, 有5次找到的区间不包真值。评价估计量的标准:无偏 有效一致性在对两总体均值之差小样本估计对两总体和样本的 假定:1.两总体服从正态分布2两随机样本独立地分 别抽自两总体。假设检验的步骤:1提出原假设H0和备择假设H12确定适当的检验统计量3确定显著性水平a和临界值及拒绝域4根据样本数据计算检验统计量的值 P5将检验统计量值与临界值比较,作出拒绝或接受原假设 的决策假设检验和参数估计有什么相同点和不同点?参数 估计和假设检验是统学推断的两个组成部分,都是利 用样本对总体进行某种推断,然而推断的角度

32、不同。 参数估计讨论的是样本统计量估计总体参数的方法, 总体参数H在估计前是未知的。而在参数假设检验 中,则是先对以的值提出一个假设,然后利用样本信 息去检验这个假设是否成立。两类错误控制:首先控制犯a错误原则,原因:统 原则,原假设常明确。两类错误的关系:一定样本量 n,减小a错误,增大 B错误,同时减少可以增大样本量。单侧检验中原、备择假设方向如何确定?原有的传统 的放在原假设。x 2统计量的步骤:1.用观察值f0减去期望值fe;2.将 (f0-fe)之差平方;3.将平方(f0-fe)2结果除以fe;4将3的 结果加总。一致性检验和独立性检验的区别:首先,两种检验抽 取样本的方法或对观察值

33、进行测定的方法有所不同, 如果在各类别中分别进行,属于拟合优度检验,如果 事先未分类,抽取样本后根据研究内容分类形成列联 表就是独立性检验。其次,两者检验假设的内容有差 异,似通常假设各类别总体比例等于某个期望概率, 而独立性检验中,原假设则假设两个变量之间相互独 立。最后,计算期望频数时,在拟合优度检验中利用 原假设中的期望概率,用观察频数乘以期望概率,直 接得到期望频数,如果独立性检验,则假设两个变量 的分类是独立的,因而两个水平的联合概率是两个单 独的概率的乘积。简述4)cV相关系数各自的特点:4) 2X2列联表,0-1 范围,0完全相关I 4)| = 1完全相关,绝对值越大, 相关程度

34、越高,4)无上限;c大于2X2列联表,相互独 立时c=0,不可能大于1,最大值依赖于列联表的行数列数,且随着R、C的增大而增大。V 0相关独立, 1完全相关,1误差分解:总误差(SST 二组内误差(SSE +组问误 差(SSA)方差分析中的三个基本假定:每个总体都应该服从正态分布,各个总体的方差b 2必须相同,观测值是独 立的。方差分析中假设的提法:H0:u1=u2=-自变量对因变 量没有显著影响 H1:u1,u2不全相等多重比较前提、作用:对总体均值之间的配对比较来 进一步检验到底哪些均值之间存在差异。要检验多个总体均值是否相等时,为什么不两两比而 用方差分析?两两比烦销,增大犯 I类错误的

35、概率, 降低置信水平。方差分析是同时考虑所有样本,排除 了错误累积的概率,从而避免拒绝一个真实的原假 设。方差分析的基本思想:1.图形描述,散点图2.误差分 解3.误差分析,显著性方差分析的基本步骤:1.提出假设2.构造检验的统计 量:1)计算各样本均值2)计算全部观测值的总均值 3)计算各误差平方和 总平方和 组间平方和 组内平 方和4)计算统计量3.统计决策4.方差分析表5.方差 分析关系强度R2的含义和作用:组间平方和占总平方和 的比例大小 R2=SSA/SS夜映两个变量之间的关系强 度相关关系的特点:一个变量的取值不能由另一个变量 唯一确定,当变量x取某个值时,变量y的取值可能 有几个

36、,这种关系不确定的变量显然不能用函数关系 进行描述,但变量之间存在一定的规律。相关与回归 分析正是描述探索这类变量关系及其统计规律的方法。相关分析的内容:变量之间是否存在关系,存在什么 样的关系,关系强度如何,样本所反映的变量之间关 系能否代表总体?相关分析总体的两个假定:两变量之间线性关系,两 变量都是随机变量。相关系数的性质:(1)取值范围在-1+1 0-1正线性相 关,反负相关,1完全正线性相关I r | =1 y取值完全 依赖于x,两者函数关系,r=0, y取值与x无关,两 者不存在线性相关关系(2)对称性rxy=ryx (3) r大小与xy原点及尺度无 关(4)仅是线性关系度量(5)

37、xy线性关系的度量但非因 果关系 高0.8中0.5低0.3不相关相关系数检验的目的:能否根据样本相关系数说明总体的相关程度,考察样本相关系数的可靠性,就是显 著性检验。p较大正值r左偏,p接近0,样本量n 很大,才能认为r接近正态分布的随机变量。相关系数检验的程序:1.提出假设H0: p=0;H1: p0 2计算检验统计量:3进行决策|t|ta/ 2(n-2),拒绝 回归分析的内容:(1)从一组样本数据出发,确定出 变量之间的数学关系式;(2)对这些关系式的可信程 度进行各种统计检验,并从影响某一特定变量的诸多 变量中找出哪些变量的影响显著不显著。(3)利用所 求的关系式,根据一个或几个变量的

38、取值来估计或预 测另一个待定变量的取值,并给出这种估计或预测的 可靠程度。理论回归模型的假定:(1)因变量y与自变量x之间 有线性关系。(2)重复抽样中,x取值固定非随机的。(3)误差项 是期望0的随机变量E( )=0,假定模型为 直线。(4)对所有x值,的方差。2都相同。(5)误 差项服从正态分布随机变量且独立,即 N(0,(r2)最小二乘法的原理:距离各观测点最近的一条直线, 用它来代表x与y之间的关系与实际数据的误差比其 他任何直线都小。最小二乘法拟合直线的性质:(1)使离差平方和达到 最小(2)可以知B 0, B1估计量的抽样分布(3)在 某些条件下B 0, B 1的最小二乘估计量同其

39、它相比, 抽样分布具有较小的标准差。总平方和(SST =回归平方和(SSR)残差平方和(SSE)判定系数R2=SSR/SS计算A对B回归的判定系数R2, 在A的变差中,有R2 %可以由A与B之间的线性差 系来解释。线性相关检验的目的:检验自变量 x与因变量y之间 的线性关系是否显著,或说它们之间能否用一个线性 模型y= B 0+ B 1x+来表示。线性相关检验的程序:(1)提出假设H0: B 1=0两个 变量之间的关系不显著(2)计算统计量F=MSR/MSE(3) 作出决策FF时巨绝。说明线性关系是显著的。回归系数检验的目的:检验自变量对因变量的影响是否显著。B 1 = 0,表明y不依量x没有

40、线性关系。回归系数检验的程序:(1)提出检验 H0: p 1=0 H1:B10 (2)计算检验统量量t (3)决策拒绝说明是显 著因素。回归分析结果的评价:(1)所估计的回归系数 的符 号是否与理论或事先预期的相一致(2)如果理论上 认为y与x之间关系不仅正,而且统计上显著,所建 立的回归方程也应该如此。(3)回归模型在多大程度 上解释了因变量y取值的差异?用判定系数来回答。(4)考察关于误差项 的正态性假定是否成立。残差分析在回归分析中的作用:检测异常值,检测有 影响的观测值。线性关系检验与回归系数检验的区别:在一元中是等 价的,在多元回归中不等价,线性关系检验主要是检 验因变量同多个自变量的线性关系是否显著,k个自变量只要有一个线性关系显著,F检验就能通过。但 并不代表每个关系都显著。回归系数检验则是对每个 回归系数分别进行单独的检验,主要用于检验每个自 变量对因变量的影响是否

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论