统计学第六版-人大版-复习笔记0001_第1页
统计学第六版-人大版-复习笔记0001_第2页
统计学第六版-人大版-复习笔记0001_第3页
统计学第六版-人大版-复习笔记0001_第4页
统计学第六版-人大版-复习笔记0001_第5页
免费预览已结束,剩余7页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、一、统计学原理期末考试试题类型及结构1、单项选择题: 30 分。考核对基本概念的理解和计算方法的应用。2、判断题: 10 分。考核对基本理论、基本概念的记忆和理解。3、简答题: 30 分。考核对基本概念、基本理论、基本方法的理解和掌握情况。4、计算题: 30 分。考核对基本计算方法的理解、掌握程度及综合应用能力。二、期末考试形式及答题时限期末考试形式为闭卷笔试;答题时限为 90 分钟;可以携带计算器。三、各章复习内容期末复习资料:教材、学习指导书习题、作业第一章 统计总论1. 理解统计学的含义 答:收集、处理、分析、解释数据并从数据中得出结论的科学(收集数据:取得数据;处理数 据:整理与图表展

2、示; 分析数据:利用统计方法分析数据 ;数据解释:结果的说明; 得到结论: 从数据分析中得出客观结论)第二章 数据的搜集1. 数据的来源答:( 1)数据的间接来源: 系统外部的数据( 统计部门和政府部门公布的有关资料,如各类统 计年鉴、各类经济信息中心、信息咨询机构、专业调查机构等提供的数据、各类专业期刊、报 纸、书籍所提供的资料、各种会议,如博览会、展销会、交易会及专业性、学术性研讨会上交 流的有关资料、从互联网或图书馆查阅到的相关资料) 系统内部的数据 (业务资料,如与业务 经营活动有关的各种单据,记录、经营活动过程中的各种统计报表、各种财务,会计核算和分 析资料等) (2) 数据的直接来

3、源 (原始数据 ) 调查数据 实验数据2. 收集数据的基本方法:调查的数据(自填式、面访式、电话式) ;实验的数据3. 抽样误差:由于抽样的随机性所带来的误差;所有样本可能的结果与总体真值之间的平均 性差异;影响抽样误差的大小的因素(样本量的大小、总体的变异性)重点 :数据来源、数据搜集方法、抽样误差第三章 数据的图表展示重点:熟悉条形图、直方图、饼图、环形图、箱线图、线图等品质数据数据类型数值型数据汇总表 原始数据 分组数据 时序数据多元数据线图1. 对分类数据和顺序数据主要是作分类整理;对数值型数据则主要是作分组整理2. 适合于低层次数据的整理和显示方法也适合于高层次的数据; 但适合于高层

4、次数据的整理和显 示方法并不适合于低层次的数据3. 分类数据的图示条形图: 用宽度相同的条形的高度或长短来表示各类别数据的图形; 有单式 条形图、 复式条形图等形式; 主要用于反映分类数据的频数分布, 绘制时,各类别可以放在纵轴, 称为条形图,也可以放在横轴,称为柱形图4. 分类数据的图示帕累托图: 按各类别数据出现的频数多少排序后绘制的柱形图; 主要用于展 示分类数据的分布5. 分类数据的图示饼图:也称圆形图,是用圆形及圆内扇形的角度来表示数值大小的图形;主 要用于表示样本或总体中各组成部分所占的比例,用于研究结构性问题;绘制圆形图时,样本或 总体中各部分所占的百分比用圆内的各个扇形角度表示

5、, 这些扇形的中心角度, 按各部分数据百 分比乘以 360 度确定。6. 环形图: 中间有一个 “空洞”,样本或总体中的每一部分数据用环中的一段表示; 与饼图类似, 但又有区别 (饼图只能显示一个总体各部分所占的比例; 环形图则可以同时绘制多个样本或总体 的数据系列,每一个样本或总体的数据系列为一个环) ;用于结构比较研究;用于展示分类和顺 序数据7. 数值型数据 A组距分组:将变量值的一个区间作为一组;适合于连续变量;适合于变量值较多的情况;需要 遵循“不重不漏”的原则;可采用等距分组,也可采用不等距分组B直方图:用于展示分组数据分布的一种图形;用矩形的宽度和高度来表示频数分布(本质上是 用

6、矩形的面积来表示频数分布) ;在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率, 各组与相应的频数就形成了一个矩形,即直方图。C 直方图与条形图的区别 :条形图是用条形的长度 ( 横置时 ) 表示各类别频数的多少,其宽度 ( 表 示类别 ) 则是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百 分比,宽度则表示各组的组距,其高度与宽度均有意义;直方图的各矩形通常是连续排列,条形 图则是分开排列;条形图主要用于展示分类数据,直方图则主要用于展示数值型数据。 D未分组数据茎叶图:用于显示未分组的原始数据的分布;由“茎”和“叶”两部分构成,其 图形是由数字组成的;以该组数

7、据的高位数值作树茎,低位数字作树叶;树叶上只保留最后一位 数字;茎叶图类似于横置的直方图,但又有区别(直方图可观察一组数据的分布状况,但没有给 出具体的数值、茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的 信息、直方图适用于大批量数据,茎叶图适用于小批量数据)E未分组数据箱线图: 用于显示未分组的原始数据的分布; 由一组数据的 5 个特征值绘制而成, 它由一个箱子和两条线段组成; 绘制方法(首先找出一组数据的 5个特征值,即最大值、 最小值、 中位数 Me和两个四分位数 ( 下四分位数 QL和上四分位数 QU)连接两个四分位数画出箱子,再将 两个极值点与箱子相连接)F时

8、间序列数据线图:表示时间序列数据趋势的图形;时间一般绘在横轴,数据绘在纵轴;图 形的长宽比例大致为 10 : 7第四章 数据的概括性度量(计算章节)重点 : 众数、中位数、分位数、平均数、方差(计算) ;自由度、偏态、峰态等1. 离中趋势:数据分布的另一个重要特征;反映各变量值远离其中心值的程度(离散程度 );从另一个侧面说明了集中趋势测度值的代表程度;不同类型的数据有不同的离散程度测度值。2. 自由度: 自由度是指数据个数与附加给独立的观测值的约束或限制的个数之差;从字面涵义 来看,自由度是指一组数据中可以自由取值的个数;当样本数据的个数为n 时,若样本平均数确定后,则附加给 n 个观测值的

9、约束个数就是 1 个,因此只有 n-1 个数据可以自由取值,其中 必有一个数据不能自由取值;按着这一逻辑,如果对 n 个观测值附加的约束个数为 k 个,自由 度则为 n-k3. 偏态:统计学家 Pearson 于 1895 年首次提出;数据分布偏斜程度的测度;偏态系数=0 为对称分布、偏态系数 0 为右偏分布、偏态系数 0 为左偏分布、偏态系数大于 1 或小于 -1 ,被 称为高度偏态分布;偏态系数在 0.51 或-1-0.5 之间,被认为是中等偏态分布;偏态系数 越接近 0,偏斜程度就越低。4. 峰态:统计学家 Pearson 于 1905 年首次提出;数据分布扁平程度的测度;峰态系数=0

10、扁平峰度适中、峰态系数 0 为尖峰分布。数据分布 特征第五章 概率与概率分布 重点:概率的性质、 概率的加法法则、 条件概率与独立事件、期望、方差、正态分布 加法公式P ( AB ) = P ( A ) + P ( B ) - P ( AB ) 乘积公式: P(AB)=P(B)P(A|B) ,或 P(AB)=P(A)P(B|A) 独立公式: P(AB)=P(A)P(B)(1) 概率的性质1. 非负性 a) 对任意事件 A,有 0 P(A) 12. 规范性a) 必然事件的概率为 1;不可能事件的概率为 0。即 P () = 1 ; P () = 03. 可加性a) 若A与B互斥,则 P ( AB

11、 ) = P ( A ) + P ( B )b) 推广到多个两两互斥事件 A1,A2, An,有 P( A1A2 An) = P( A1) + P (A2 ) + + P (An )(2) 条件概率:在事件 B已经发生的条件下,求事件 A发生的概率,称这种概率为事件 B发 生条件下事件 A发生的条件概率,记为 P(A|B) =P(AB)P(B)(3) 事件的独立性:一个事件的发生与否并不影响另一个事件发生的概率,则称两个事件独立;若事件 A与 B独立,则 P(B|A)=P(B), P(A| B)= P( A) ;此时概率的乘法公式可简 化为 P( AB)= P( A) P( B) 推广到 n个

12、独立事件,有 P(A1 A2 An)= P( A1 ) P( A2) P(An)4) 离散型随机变量的数学期望 : 在离散型随机变量 X 的一切可能取值的完备组中, 各可能 取值 xi 与其取相对应的概率 pi 乘积之和 ; 描述离散型随机变量取值的集中程度 ; 计算公 式为5) 离散型随机变量的方差 : 随机变量 X 的每一个取值与期望值的离差平方和的数学期望, 记为 D(X); 描述离散型随机变量取值的分散程度 ; 计算公式为6) 正态分布函数的性质 : 概率密度函数在 x 的上方,即 f ( x)0; 正态曲线的最高点在均值 ,它也是分布的中位数和众数 ; 正态分布是一个分布族,每一特定

13、正态分布通过均值 和标准差 来区分。 决定了图形的中心位置 , 决定曲线的平缓程度,即宽度 ; 曲线 f(x) 相对于均值 对称,尾端向两个方向无限延伸, 且理论上永远不会与横轴相交 ; 正态 曲线下的总面积等于 1; 随机变量的概率由曲线下的面积给出( 描述连续型随机变量的 最重要的分布)第 六 章 统计量及其抽样分布重点: 统计量, 2分布,t 分布,F 分布1. 统计量:设 X1,X2,Xn是从总体 X中抽取的容量为 n 的一个样本,如果由此样本构造一个函 数 T(X1, X2, ,Xn) ,不依赖于任何未知参数,则称函数T(X1, X2, ,Xn)是一个统计量(样本均值、样本比例、样本

14、方差等都是统计量)统计量是样本的一个函数; 统计量是统计推断的基础2. 2 分布:由阿贝 (Abbe) 于 1863 年首先给出,后来由海尔墨特 (Hermert) 和卡皮尔逊 (KPearson) 分别于 1875 年和 1900 年推导出来; 分布的变量值始终为正; 分布的形状取决 于其自由度 n 的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称;期望 为:E( 2)= n,方差为: D( 2)=2 n( n为自由度 )3. t 分布:高塞特 (W.S.Gosset) 于 1908 年在一篇以“ Student ”(学生 ) 为笔名的论文中首次提 出; t 分布是类似正态分布

15、的一种对称分布,它通常要比正态分布平坦和分散;一个特定的 分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐渐趋于正态分布。4. F 分布:由统计学家费希尔 (R.A.Fisher) 提出的,以其姓氏的第一个字母来命名。5. 中心极限定理:从均值为 ,方差为 2的一个任意总体中抽取容量为 n的样本,当 n 充分大 时,样本均值的抽样分布近似服从均值为、方差为 2/ n 的正态分布。第 七 章 参数估计重点:置信区间1. 置信水平:将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比 例称为置信水平 ;表示为 (1 - a) %(a 为是总体参数未在区间内的比例 )常用的

16、置信水 平值有 99%, 95%, 90% (相应的 a 为 0.01 , 0.05 , 0.10 )2. 置信区间:由样本统计量所构造的总体参数的估计区间称为置信区间;统计学家在某种程度 上确信这个区间会包含真正的总体参数,所以给它取名为置信区间;用一个具体的样本所构 造的区间是一个特定的区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值 我们只能是希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个; 总体参数以一定的概率落在这一区间的表述是错误的3. 常用置信水平 Za/2 值置信水平Aa/2Za/2900.10.051.64595

17、0.050.0251.96990.010.0052.58第 八 章 假设检验 重点:原假设、备择假设、假设检验的流程、均值检验等1. 原假设: 待检验的假设, 又称“0 假设”;研究者想收集证据予以反对的假设; 总是有等号 =, 或 3 表示为 H0( H0: m = 某一数值 ;指定为 = 号,即 或 3;例如, H 0:m = 3190 (克)2. 备择假设:与原假设对立的假设,也称“研究假设”;研究者想收集证据予以支持的假设总 是有不等号 : 1, 表示为 H1 H1:m 某一数值 例如, H1:m 3910( 克) 。3. 假设检验中的两类错误: 1. 第一类错误(弃真错误) 原假设为

18、真时拒绝原假设;会产生一 系列后果;第一类错误的概率为 a; 被称为显著性水平 2. 第二类错误(取伪错误); 原假 设为假时接受原假设;第二类错误的概率为 b (Beta)4. 假设检验的流程: 提出假设、确定适当的检验统计量、规定显著性水平、计算检验统计量的 值、做出统计决策。5. 显著性水平 a:1. 是一个概率值;原假设为真时,拒绝原假设的概率;被称为抽样分布的拒 绝域;表示为 a (alpha) ;常用的 a 值有 0.01, 0.05, 0.10 ;由研究者事先确定6. 总体均值的检验:(选择题:已知 -Z 统计量;未知 -T 统计量)第 九 章 分类数据分析重点:列联表、相关系数

19、1. 列联表:由两个以上的变量交叉分类的频数分布表 ;行变量的类别用 r 表示, r i 表示第 i 个类别 ;列变量的类别用 c 表示, cj 表示第 j 个类别 ;每种组合的观察频数用 f ij 表示 ; 表中列出了行变量和列变量的所有可能的组合,所以称为列联表; 一个 r 行 c 列的列联表称为 r c 列联表2. 列联表中的相关测量: 品质相关 -对品质数据 (分类和顺序数据 ) 之间相关程度的测度; 列联表 相关测量的统计量主要有( 相关系数、列联相关系数、 V 相关系数)3. 相关系数:测度 2 2 列联表中数据相关程度;对于 2 2 列联表, 系数的值在 01 之间4. 列联相关

20、系数: C 的取值范围是 0 CFa 则拒绝原假设 HO 结论:表明有显著差异第 11 章 一元线性回归重点:相关系数、回归方程相关系数 :度量变量之间关系强度的一个统计量 ;对两个变量之间线性相关强度的度量称为简单 相关系数 ;若相关系数是根据总体全部数据计算的,称为总体相关系数,记为 ;若是根据样本 数据计算的,则称为样本相关系数,简称为相关系数,记为 r相关系数的性质: r 的取值范围是 -1,1 |r |=1 ,为完全相关 r =1,为完全正相关r =-1,为完全负正相关 r = 0,不存在 线性相关关系 -1 r 0,为负相关 0 r 1,为正相关 | r | 越趋于 1 表示关系越

21、强; | r|越趋于 0 表示关系越弱回归方程: 描述 y 的平均值或期望值如何依赖于 x 的方程称为回归方程 一元线性回归方程的形式如下E( y ) = 0+ 1 x? 方程的图示是一条直线,也称为直线回归方程? 0 是回归直线在 y 轴上的截距,是当 x=0 时 y 的期望值? 1 是直线的斜率,称为回归系数,表示当x 每变动一个单位时, y 的平均变动值第 12 章 多元线性回归重点:多重共线性、回归方程1. 多重共线性:回归模型中两个或两个以上的自变量彼此相关;多重共线性带来的问题有:可 能会使回归的结果造成混乱, 甚至会把分析引入歧途; 可能对参数估计值的正负号产生影响, 特别是各回归系数的正负号有可能同预期的正负号相反2. 多重共线性情况:模型中各对自变量之间显著相关;当模型的线性关系(F 检验)显著时,几乎所有回归系数的 t 检验却不显著;回归系数的正负号与预期的相反时间序列分析和预测第 13 章重点 :时间序列类别、成分、预测方法1. 时间序列分类2. 时间序列的成分3. 预测方法的选择

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论