统计学是一门收集.doc_第1页
统计学是一门收集.doc_第2页
统计学是一门收集.doc_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计学是一门收集、整理和分析数据的方法论科学,其目的是探索数据的内在数量规律性,以达到对客观事物的科学认识。描述统计:研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法。指对采集的数据进行登记、审核、整理、归类,在此基础上进一步计算出各种能反映总体数量特征的综合指标,并用图表的形式经过归纳分析而得到各种有用的统计信息。推断统计:研究如何利用样本数据来推断总体特征的统计方法。是在对样本数据进行描述的基础上,利用一定的方法根据样本数据去估计或检验总体的数量特征。理论统计: 把研究对象一般化、抽象化,以数学中的概率论为基础,从纯理论的角度,对统计方法加以推导论证,其中心内容是用归纳方法研究随机变量的一般规律。应用统计:它从所研究的领域或专门的问题出发,根据研究对象的性质采用适当的指标体系或统计方法,以解决所研究的问题。什么是总体?它是由客观存在的、具有某种共同性质的许多个别事物构成的整体。 什么是总体单位?总体单位(简称单位)是组成总体的各个个体 。样本 由总体的部分单位组成的集合 样本容量样本所包含的总体单位数标志 总体各单位普遍具有的属性或特征标志表现 即标志特征在各单位的具体表现不变标志 变异标志 品质标志 数量标志 标志表现有品质标志表现和数量标志表现之分。品质标志表现只能用文字表述,因此不能转化为统计指标,但对其对应的单位进行总计时就形成统计指标。数量标志表现是一具体数值,也称标志值。指标的概念(名称):是对所研究现象本质的抽象概括 数量指标 质量指标标志和指标的关系是个别和整体的关系。标志反映总体单位的属性和特征,而指标则反映总体的数量特征。通过对各单位标志的具体表现进行汇总和计算才能得到相应的指标。 2、由于总体和单位的概念会随着研究目的不同而变化,因此指标与标志的概念也是相对而言的。 参数(Parameter)是用来描述总体特征的概括性数字度量,它是研究者想要了解的总体的某种特征值。如:总体平均数()、总体标准差()、总体比例()等。统计量(Statistic)是用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的一个量,由于抽样是随机的,因此统计量是样本的函数。如:样本平均数(x)、样本标准差(s)、样本比例(p)等。数据的误差:是指通过调查搜集到的数据与研究对象真实结果之间的差异。有抽样误差和非抽样误差两类抽样误差:由于抽样的随机性引起的样本结果与总体真值之间误差。是一种随机性误差,通常无法消除,但事先可以进行控制和计算。非抽样误差:是相对抽样误差而言的,是指除了抽样误差之外的,由于其他原因引起的样本观察结果与总体真值之间的差异。1、最明显的因素:样本量的大小。样本容量越大,抽样误差就越小。样本容量大到与总体单位相同时,即抽样调查变成普查时,抽样误差便减小为零。2、总体的变异性。总体的变异性越大,即各单位之间的差异越大,抽样误差也就越大。因为有可能抽中特别大或特别小的单位,从而使样本结果偏大或偏小。条形图是用宽度相同的条形的高度或长短来表示数据多少的图形条形图有简单条形图、对比条形图等形式在表示定类数据的分布时,是用条形图的高度或长度来表示各类别数据的频数或频率绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图也称饼图,是用圆形及圆内扇形的面积来表示数值大小的图形主要用于表示总体中各组成部分所占的比例,对于研究结构性问题十分有用在绘制圆形图时,总体中各部分所占的百分比用圆内的各个扇形面积表示,这些扇形的中心角度,是按各部分百分比占3600的相应比例确定的例如,关注服务广告的人数占总人数的百分比为25.5%,那么其扇形的中心角度就应为360025.5%91.80,其余类推环形图中间有一个“空洞”,总体中的每一部分数据用环中的一段表示环形图与圆形图类似,但又有区别圆形图只能显示一个总体各部分所占的比例环形图则可以同时绘制多个总体的数据系列,每一个总体的数据系列为一个环1. 环形图可用于进行比较研究 环形图可用于展示定类和定序的数据用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图(Histogram)1. 用于显示未分组的原始数据的分布2. 由“茎”和“叶”两部分构成,其图形是由数字组成的3. 以该组数据的高位数值作树茎,低位数字作树叶,且叶上只保留该数值的最后一个数字4. 茎叶图类似于横置的直方图,但又有区别直方图可大体上看出一组数据的分布状况,但没有给出具体的数值茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息1. 用于显示未分组的原始数据或分组数据的分布2. 箱线图由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成3. 其绘制方法是:首先找出一组数据的5个特征值,即最大值、最小值、中位数Me 和两个四分位数(下四分位数QL和上四分位数QU)连接两个四分(位)数画出箱子,再将两个极值点与箱子相连接 1. 雷达图(Radar Chart)是显示多个变量的常用图示方法3. 在显示或对比各变量的数值总和时十分有用4. 假定各变量的取值具有相同的正负号,总的绝对值与图形所围成的区域成正比5. 可用于研究多个样本之间的相似程度数据的特征和测度集中趋势 众数 中位数 均值离散程度 异众比率 四分位差 方差和标准差 离散系数 分布的形状 偏态 峰度定类数据:众数二. 定序数据:中位数和分位数三. 定距和定比数据:均值四. 众数、中位数和均值的比较 M。()()()I, I=一组数的多少 f=频率出现最多的数组(v) f-1=v的前一组 f+1=v的后一组 M()f Sm_1=前一组累积频数 N=序数未分组数据:中位数位置=N+1/2 组距分组数据:中位数位置N/2未分组数据:下四分位数(QL)位置 =N+14 上四分位数(QU)位置 =3(N+1)4组距分组数据:下四分位数(QL)位置 =N4 上四分位数(QU)位置 =3N下四分位数: 上四分位数: 上四分位数与下四分位数之差 QD = QU QL 极差 未分组数据 R = max(Xi) - min(Xi)组距分组数据 R 最高组上限 - 最低组下限 抽样分布(概念要点)从总体中可以随机地抽取许多样本,由每一个样本都可以计算样本统计量(如样本均值、样本比例、样本方差等)的观测值,所有可能的样本观测值及其所对应的概率便是抽样分布。因此,抽样分布也可以称为样本统计量的概率分布。抽样分布的随机变量是 样本统计量 样本均值, 样本比例等样本均值的抽样分布与中心极限定理当总体服从正态分布N (,2 )时,来自该总体的所有容量为n的样本的均值X也服从正态分布,X 的数学期望为,方差为2/n。即XN(,2/n)中心极限定理:设从均值为m,方差为s 2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为、方差为2/n的正态分布。样本均值的标准误样本方差的分布 设总体服从正态分布N (,2 ), X1,X2,Xn为来自该正态总体的样本,则样本方差 s2 的分布为置信水平(置信度) 总体未知参数落在区间内的概率。一般地,如果将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所占的比例称为置信水平,也称为置信度或置信系数。表示为 (1 - )a a 为显著性水平,是总体参数未在区间内的概率 常用的置信水平值有 99%, 95%, 90% 相应的 a 为0.01,0.05,0.10例】某种零件长度服从正态分布,从该批产品中随机抽取件,测得其平均长度为21.4 mm。已知总体标准差s =0.15mm,试建立该种零件平均长度的置信区间,给定置信水平为0.95。解:已知N(m,0.152),x2.14, n=9, 1-a = 0

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论