统计学复习提纲_第1页
统计学复习提纲_第2页
统计学复习提纲_第3页
统计学复习提纲_第4页
统计学复习提纲_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

名词解释统计学:是一门搜集、整理和分析统计数据的方法的科学,目的是探索数据的内在数量规律性,以达到对客观事物的科学认识。描述统计:描述统计学是研究为了反映客观现象的数量特征,而需采用的数据采集方法、数据加工整理方法、数据综合分析方法,计算各项指标反映数据的构成和分布等方法以及用一定形式的表式和图形把结果显示出来的方法等。推断统计:推断统计学是研究如何根据样本数据去推断总体数量特征的方法,它是在对样本数据进行描述的基础上,对统计总体的未知数量特征作出以概率形式表达的推断。4■总体(Population):指具有某种特征的一类事物的全体,又称母体。个体(Element):构成总体的每个基本单元。样本(Sample):从总体中抽取的一部分个体,即总体的一个子集。参数:(Parameter):总体参数,指描述一个总体情况的一些统计指标。如总体平均值或期望值,用符号卩表示;反映总体分散情况的指标如标准差,用Q表示;反映某事物两特性总体之间关系的统计指标为相关系数,用P表示;表示两特性之间数量关系的统计指标是回归系数,用卩表示。统计量(Statistic):是样本的函数,只跟样本有关,与总体参数无关。如样本平均数(X)、样本标准差(S)、样本相关系数(r)、回归系数(b)等。可以用统计量对总体参数进行估计或进行假设检验。随机现象:在相同条件下进行的实验或观察,其可能结果不止一个,事先无法确定,这类现象称为随机现象。定类尺度:也叫类别尺度或列名尺度。只能按照事物的某种属性对其进行平行的分类或分组。是最粗略,计量层次最低的计量尺度。如性别(男、女)、学历、企业性质、职业、地区等。定序尺度:也叫顺序尺度,是对事物之间等级差别或顺序差别的一种测度。它不仅可以将事物分成不同的类别,而且还可以确定这些类别的优劣或顺序。定距尺度:也叫等距尺度或间隔尺度,不仅能将事物分为不同类型并进行排序,而且还可以准确地指出类别之间的差距是多少,表现为数值。如考试成绩百分制;温度定比尺度:也叫比率尺度,表现为数值,它具有上述三种尺度的全部特性外,还可以计算两个测度值之间的比值。有一个绝对“零点”。如长度米、重量千克、收入元变量:是说明现象某种特征的概念。计数数据:类别数据:又称计数数据,是指计算个数的数据,一般属性的调查获得的数据,它具有独立的分类单位,如,人口数、学校数、男女性别人数,反对或赞成的人数等16:测量数据:另一类数据是借助于一定的测量工具或一定的测量标准而获得的,根据数据是否有等距和有绝对零点,又可分为三类:等级数据:既无相等单位,也无绝对零的数据;等距数据:有相等单位,但无绝对零的数据;等比数据:有相等单位又有绝对零的数据,17.集中趋势:在统计学中是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。18.中位数:是一组数据中间位置上的代表值,特点是不受数据极端值的影响。主要适合于定序数据的集中趋势的测度值;19:离中趋势:数据离中趋势是表示数据分散程度的一组统计量,反映的是各变量值远离其中心值的程度。20.异众比率:异众比率是指非众数组的频数占总频数的比率,作用是衡量众数组对一组数据的代表程度。21.变异系指出了标准差相对于平均值的大小,用于比较不同总体或样本数据的离散程度。(测量数据离散程度的相对指标。<书21.变异系22.相关关系:两类现象在发展变化的方向与大小方面存在一定关系,但不能确定两者中哪个是因,哪个是果。不存在共变关系。23.后验概率:后验概率是指依据得到"结果"信息所计算出的最有可能是那种事件发生,如贝叶斯公式中的,是"执果寻因"问题中的"因".24•先验概率:用P(h)表示在没有训练数据前假设h拥有的初始概率。P(h)被称为h的先验概率。先验概率反映了关于h是一正确假设的机会的背景知识如果没有这一先验知识,可以简单地将每一候选假设赋予相同的先验概率。随机事件(Randomevent):在相同条件下,每一次试验可能出现也可能不出现的事件,也叫偶然事件。如掷硬币正、反面都可能出现也可能不出现。用英文大写字母表示,如A,B,C等。概率论主要研究对象为随机事件,简称"事件”。样本分布:样本分布的概念:指样本统计量的分布。即从总体中抽出无限多个样本容量为n的样本,这无限多个样本的统计量的分布。连续分布:28■点估计(Pointestimate):当总体参数不清楚时,用一个特定值,一般常用样本统计量进行估计,叫点估计。29.参数估计:用样本统计量估计总体参数30•方差分析(AnalysisofVarianee):简称ANOVA,又叫变异数分析,能够解决多个总体均值是否相等的检验问题,其主要功能在于分析实验数据中不同来源的变异对总体变异的贡献大小,从而确定实验中的自变量是否对因变量有重要影响.31.显著性水平:就是指当原假设正确时人们却把它拒绝了的概率或风险。置信区间;表明了区间估计的精确性。区间越小越精确,区间越大越不精确;■信度;表明了区间估计的可靠性(1-a).34.a错误:(I型错误):H0为真时却被拒绝,弃真错误。I型错误又称a错误,是指虚无假设本身是正确的,但由于抽样的随机性而使检验值落入了拒绝虚无假设的区域,致使我们作出了拒绝虚无假设的结论。35巾错误:(II型错误):H0为假时却被接受,取伪错误。□型错误,又称P错误,是指虚无假设本身不正确,但由于抽样的随机性而使检验值落入了接受虚无假设的区域,致使我们作出了接受虚无假设的结论,说明事物之间没有显著的差异。标准误:即样本均数的标准差,是描述均数抽样分布地离散程度及衡量均数抽样误差大小的尺度。散点图:在回归分析中,数据点在直角坐系平面上的分布图。散点图表示因变量随自变量而变化的大致趋势,据此可以选择合适的函数对数据点进行拟合。散点图将序列显示为一组点。值由点在图表中的位置表示。类别由图表中的不同标记表示。散点图通常用于比较跨类别的聚合数据。虚无假设:(原假设)是我们要检验的假设,是统计推论的出发点。总是作为直接被检验的假设。备择假设:是与原假设对立的假设,即拒绝原件假设时所选择的假设,用H1表示,即研究假设,希望证实的假设。假设检验:是依据样本提供的信息进行推断的,即由部分来推断总体,因而假设检验不可能绝对准确,是可能犯错误的。双侧检验(双尾);指只强调差异而不强调方向性的检验单侧检验(单尾):强调某一方向性的检验。因素:自变量、独立的变量,方差分析研究的对象。44.因素的水平:一个因素的不同情况或取值。45.区间估计:书p43答题1、 简述四种测量尺度的定义及其特点定类尺度:由于定类尺度只能区分事物是同类或不同类,因此它具有"二和”的数学特性。通常计算每一类别中各元素或个体出现的“频数或频率”来进行分析。定序尺度:如考试成绩:优、良、中、及格、不及格。教育水平:小学及以下、初中、高中、大学及以上。该尺度具有">和V”、"二和H”的数学特性,但不能进行加、减、乘、除运算。定距尺度:定距尺度具有定类尺度和定序尺度的数学特性外,其结果还可以进行“加、减运算”。定比尺度:定距尺度中没有绝对“零点”。“0”表示一个数值,即“0”水平,而不表示“没有”或“不存在”。如“0”度表示一种温度水平,并不是没有温度。定比尺度中“0”表示“没有”或“不存在”。定距尺度只能进行加、减运算,而定比尺度可进行加、减、乘、除运算。2、简述平均数(均值、算术平均数)的优缺点算术平均值的优点:•反应灵敏;•确定严密;•简明易解;•计算简单;•符合代数方法进一步演算;•较少受抽样变动的影响;算术平均数的缺点:•易受极端值的影响;•若出现模糊不清的数据是,无法计算算术平均数;3、简述方差定义和优点定义:方差是各变量值与其均值离差平方和的平均数,是测度定距、定比数据离散程度的最主要方法。优点:(1)反应灵敏。(2)由计算公式严格确定;(3)容易计算;(4)适合代数运算;(5)受抽样变动的影响小,既不同样本的标准差或方差比较稳定;6)简单明了;7)具有可加性。可以把总变异分解为不同来源的变异。(8)各变量值对均值的方差小于对任意数的方差。即:2<D24、简述相关系数的解释需要注意哪些问题(1)相关系数受样本容量n的影响。如果n很小,可能完全没有相关的两事物,却计算出较大的相关系数。(2)相关系数不是等距量表值,更不是等比量表。不能说r=0.5是r=0.25的两倍。(3)存在相关关系不一定存在因果关系。(4)计算相关系数要求成对数据。若干个个体中每个个体要有两种不同的观测值。如每个学生的智力分数和学习成绩。任意两个个体之间的观测值不能求相关。(5)样本容量要求。以n>=30为宜。(6)没有线性相关,不一定没有关系,可能是非线性的。5、 积差相关的定义及其使用条件定义:积差相关,也称积矩相关、皮尔逊相关,是求直线相关的基本方法。适用条件:(1)两列数据都是测量的数据(数值型变量);(2)双变量正态(可对较大样本分别做正态性检验)。要求总体为正态,但对样本不要求一定为正态。(3)两列变量之间的关系应是线性的,如果是非线性的,则不能计算线性相关。即:两列变量为正态等距,且具有线性关系。6、 点二列相关和二列相关的异同点二列相关(1)适用资料两列变量中一列为等距或等比的测量数据而且总体分布为正态,另一列变量为类别(名义)变量,分为两类。点二列相关多用于编制是非测验题评价测验内部一致性等问题。每个题目(二分名义变量)与总分(数值)变量的相关,称为每个题目的区分度。相关高说明该题答对答错与总分的一致性高,即区分度高。计算公式 君-可r二~寸pqPb St二列相关(1)适用资料适用于两列变量都为正态等距变量,但其中一列变量被人为地划分成两类。二列相关与点二列相关的主要区别在于二分变量是否正态。(2)计算公式X-X pqr=——p qx-bSyt7、简述二项分布的条件条件:1)试验中包含了n个相同的试验;每一次试验只有两个可能的结果,“成功”和“失败”;出现“成功〃的概率p是相同的,“失败”的概率q也不变;p+q=1试验是相互独立的。8、何谓点估计?一个好的点估计应具备哪些特点?点估计,就是当总体参数不清楚时,用一个特定值,一般常用样本统计量进行估计。(1)一致性(Consistency)当样本容量无限增大时,估计值越来越接近所估计的总体参数.⑵无偏性(Unbiasedness)估计值的平均值与真值一致.有效性(Effectiveness)当总体参数的无偏估计不只一个统计量时,无偏估计变异最小者有效性高,变异大者有效性低.充分性指一个容量为n的样本统计量,是否充分地反映了全部n个数据所反映总体的信息.

9、简述假设检验的概念及其特点假设检验:先对总体参数提出一个假设,然后利用样本信息检验这个假设是否成立特点:(1)反证法,证明原假设;(2)有概率性质的特点10、简述a错误和P错误的关系(1)a与卩是两个前提下的概率。即a是拒绝原假设H0时犯错误的概率,这时前提是H0为真;卩是接受原假设H0时犯错误的概率,这时前提是H0为伪。所以a+P不等于1。a越小,Za/2越大,⑵对于固定的n,a与卩一般情况下不能同时减小。对于固定的n,从而接受假设区间(-Za/2,Za/2)越大,H0就越容易被接受,从而'取伪〃的概率卩a越小,Za/2越大,⑶要想减少a与个方法就是要增大样本容量n。反之亦然。即样本容量一定时,''弃真〃概率a和''取伪〃概率卩⑶要想减少a与个方法就是要增大样本容量n。若增大n,在样本平均数的分布X〜N(卩,?_)中-就会nn变小,变小,则分布就瘦长,从而减少了两种错误的\变小,变小,则分布就瘦长,从而减少了两种错误的\:n概率a与卩。11、 简述假设检验的步骤建立原假设和备择假设;确定适当的检验统计量;指定检验中的显著性水平;利用显著性水平根据检验统计量的值建立拒绝原假设的规则;搜集样本数据,计算检验统计量的值;作出统计决策:(两种方法)(1)将检验统计量的值与拒绝规则所指定的临界值相比较,确定是否拒绝原假设;(2)由步骤5的检验统计量计算p值,利用p值确定是否拒绝原假设.12、单样本检验需要考虑哪些问题总体分布是否正态总体方差是否已知大样本还是小样本13、两样本检验需要考虑哪些问题总体分布是否正态总体方差是否已知大样本还是小样本独立样本还是相关样本总体方差是否相等14、方差分析的概念、原理及基本假设方差分析(AnalysisofVarianee)简称ANOVA,又叫变异数分析,能够解决多个总体均值是否相等的检验问题,其主要功能在于分析实验数据中不同来源的变异对总体变异的贡献大小,从而确定实验中的自变量是否对因变量有重要影响原理:①变异分解原理:总平方和二组间平方和+组内平方和②F检验:F=组间方差/组内方差基本假设:(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论