统计学(无敌权威完整版重点)_第1页
统计学(无敌权威完整版重点)_第2页
统计学(无敌权威完整版重点)_第3页
统计学(无敌权威完整版重点)_第4页
统计学(无敌权威完整版重点)_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计学数据与统计学1.1统计数据与统计学(1)统计学是一门收集、整理、显示和分析统计数据的科学,其目的是探究数据内在的数据量规律性,为决策提供参考(含义)(2)应用统计研究过程:实际问题→收集数据(取得数据)→整理数据(处理数据)→显示数据→分析数据→解释数据→实际问题(3)例子:新生婴儿的性别、掷硬币和骰子、农作物试验、商品广告、汽车合格的统计、化妆品试用的抽样。1.2统计学的产生和发展(1)三个源头:◎英国经济学家威廉·配第◎英国约翰·格朗特◎布莱斯·帕斯卡、皮埃尔·德·费马。1.3统计学的分类(1)描述统计:是用图形、表格和概括性的数字对数据进行描述的统计方法。(2)推断统计:是根据样本信息对总体进行估计、假设检验、预测或其他推断的统计方法。(3)统计学分为描述统计和推断统计,一方面反映了统计发展的前后两个阶段。另一方面夜反映了统计方法研究和探索客观事物内在数量规律性的先后过程。(4)反映客观的数据(包括自然现象与社会经济现象)反映客观的数据(包括自然现象与社会经济现象)样本数据总体数据描述统计(包括收集、整理、显示和分析数据)推断统计(利用样本信息和概率论对总体数据规律性进行估计检验等推断)概率论(包括分布理论、大数定律和中心极限定理等)图统计学探究客观现象数量规律性过程的款图(5)统计研究过程的起点是数据,终点是探索到客观事件总体内在的数据规律性。描述统计是整个统计学的基础和统计研究工作的第一步,推断统计是现代统计学的核心和统计研究工作的关键环节。(6)理论统计和应用统计1.4统计数据的来源(1)统计数据的来源:按直接获取和间接获取分类。(2)直接获取的数据:普查:应用面窄、费时费力、反映总体数据的手段、实效性差。抽样调查:节省人力物力、实效性强、有误差。1.5统计数据的质量(1)统计调查阶段是统计研究的第一步,是直接收集统计数据的阶段。可分为非抽样误差和抽样误差。1.6统计学的基本概念(1)总体:是人们研究的所有基本单位的总和。(2)变量:在研究总体时,重点关注的是总体单位具有哪些特征和属性,指这些特征。(3)参数:概括性的数学度量。(主体)(4)统计量:概括样本的数学度量。(样本)(5)样本:是总体的一部分单位。1.7数据的有关知识一、数据的计量尺度1.列名尺度(定类尺度):层次最低、平行分类、列名时要穷尽所有的。“=≠”2.顺序尺度(定序尺度):在分类的基础上给出类别的顺序。“﹥﹤”3.间隔尺度(定距尺度):更加准备的测量,没有绝对的零点。“+-”4.比例尺度(定比尺度):有绝对的零点。“+-×÷”四种计量尺度的比较定类定序定距定比分类√√√√排序√√√间距√√比值√二、数据类型1.数据的类型分为定性(品质)和定量(数量)。2.变量:品质变量和数量变量。三、数据的表现形式1.分绝对数(总量的时期数和相对数)和相对数(两个绝对值的比值)2.单位:实物单位、价值单位、复合单位。统计数据的描述2.1数据统计的整理数据的预处理原始资料(完整性、准确性)第二手资料(适用性、实效性)筛选排序:按照一定的顺序将数据进行排序。统计数据的分组1.分组的定义:将数据按照一定的特征标准分组。2.品质标志分组:按照性别、质量、民族等定性指标分组(定类、定序)数量标志分组:按照数量或数值等定量指标分组。(定距、定比)次数(频率)分配数量标志分组方法:单变量分组---只适合离散型变量组距分组组距分组:将其分为若干个区间。步骤:①确认组数(斯特格斯公式K=1+㏒N/㏒2)基本为奇数(5-15)②组距:上限值-下限值公式:组距==(最大值-最小值)÷组数③整理成频率分布表原则:不重不漏④等距分组、不等距分组⑤选择分组的标志原则:反映数据的本质特征;符合统计研究需要;结合现实历史条件。次数分布的图示直方图---等距分组折线图(次数多变形图)---曲线图茎叶图四种常见曲线:1.正态分布曲线---钟形曲线例:所有的试验、测量和观测误差都服从正态分布。2.偏态曲线:正偏(右偏)、负偏(左偏)。例:人均收入。3.J形曲线:正J形曲线、供给曲线-------倒J形曲线、需求曲线。4.U形曲线:死亡率曲线、产品故障率曲线或浴盆曲线。2.2分布集中趋势的测度一、众数1.含义:出现次数最多的变量数2.特点:不受极限的影响;一个众数、多个众数也有可能。3.近似公式:M。=L+△1/(△1+△2)×iL表示众数所在组的下组限;△1表示众数组次数与前一组次数之差;△2表示众数组次数与后一组次数之差;i表示众数组的组距。二、中位数1.含义:数据排列后,位置在中间的数据。2.特点:不受极限值的影响(稳健性);U型分布、资料缺失Me失去代表性;∑|xi-Me︱=min(最小)→数据值与中位数之差得绝对值之和最小。3.N:奇数--(N+1)÷2偶数---{(N/2)+(N/2+1)}÷24.近似公式:Me=L+(N/2-Sm-1)/fm×iN/2表示中位数所在的位置;L表示中位数所在组的下组限;Sm-1表示中位数所在组以下各组的累积次数;fm表示中位数所在组的次数;i表示中位数所在组的组距。三、分位数将统计分布从中间分成面积相等的两部分,同样也有四分位数、十分位数、百分位数。四、均值1.含义:就是算数平均数,是数据集中趋势的最主要测度值。2.公式:X的均值是(x1+x2+x3+…+xn)/n(对于已经分组的数据)X的均值是∑xifi/∑fixi是次数分配中变量分组的组中值(上限+下限/2);fi是各组次数,也称权数。3.五、几何平均数公式:(把基数考虑进去)G≒n√(1+%)×(1+%)×…切尾均值去掉最大值、最小值取平均数。众数、中位数、均值的关系结论:对于对称、正态的数据用均值比较好偏态较大时用M。Me比较好均值比较适用于定距和定比M。Me可用于任何尺度2.右偏(正偏)分布左偏(负偏)分布※M。﹤Me﹤ ̄X ̄X﹤Me﹤M。2.3分布离散程度的测度1.极差:也称全距,是数据最大值减去最小值之差,是数据离散或差异程度的最简单的测量值。弊:①收到极端值影响。②只考虑两个数值。公式:R=max(xi)-min(xi)2.内距:两个四分位数之差,即内距=上四分位数-下四分位数=Q3-Q1优点:极端值的影响不大,考虑了更多的因素。3.方差和标准差样本方差的公式:注意:对于样本分组数据,求方差,公式:4.离散系数:用来对两组数据的差异程度进行相对比较的。公式:优点:离散系数是从相对的角度观察差异和离散程度的,在比较相关事物的差异程度时,较之直接比较标准差要好些。2.4分布偏态与峰度的测度1.偏态及其测量偏态是对分布偏斜方向及程度的测量。记为SKSK﹥0正偏、右偏SK==0对称SK﹤0负偏、左偏2.峰度及其测量峰度是对数据分布平峰或程度的测量。记为KK﹥0尖峰分布K==0标准正态分布K﹤0尖峰分布2.5统计表与统计图一、统计表与统计图是显示统计数据的两种方式。二、统计表结构与内容:统计表一般由四个主要部分组成:表头、行标题、列标题、数值资料。注意要点:①合理安排统计表的结构②表头一般包括表号、总标题和表中数据的单位等内容。③表中的上下横线一般用粗线,中间的其他线要用细线。两边不封口,列标题之间用竖线分开,行标题之间通常不必用横线隔开。④表中数据右对齐,对于没有数据的表格单位,一般用“—”表示。⑤表的下方加上注释,特别要注意注明资料来源。三、统计图1.统计图是统计数据的表现形式。2.茎叶图、箱线图。3.注意:图的表号在图的下方。概率、概率分布与抽样分布3.3常用的抽样方法概率分布:是根据一个已知的概率来抽取样本单位。非概率分布:是研究人员有意识地选取样本单位。简单随机抽样概念:在从总体中抽取n个单位作为样本时,要使得每一个总体单位都有相同的机会。简单随机抽样有两种抽取单位的具体方法:重复抽样和不重复抽样。分层抽样概念:在抽样之前将总体的单位分为若干层,然后从各个层中抽取一定数量的单位组成一个样本,也称分类抽样。要求:层各单位的差异尽可能的小,而使层与层之间的差异尽可能大。优点:除了对总体估计,还可以对各层的子总体进行估计;可以按自然区域或行政区域进行划分;总体分布比较均匀;精度高。系统分布(1)概念:在抽样中先将总体各单位按某种顺序排列,并按某种规律确定一个随机起点,然后每隔一定的间隔抽取一个单位,直至抽取n个单位形成一个样本。也称等距样本或机械抽样。(2)优点:一、简便易行。二、样本在总体的分布均匀,误差小于简单随机抽样。(3)要求:先排序,后抽样。四、整群抽样(1)概念:先将总体划分为若干群,然后再以群作为调查单位从中抽取部分群,进而对个体单位进行调查。(2)优点:不需要有总体单位的具体名额。五、阶段抽样3.3样本分布一、抽样分布:有样本n个观察值计算的统计量的概率分布。推断统计:根据样本数据推断参数。二、X ̄样本分布的形式样本总体的分布↙↘正态分布非正态分布无论样本量的大小↓N≧30↓↘N<30正态分布正态分布非正态分布三、X ̄样本分布的特征参数估计4.1参数估计的基本原理1.参数估计(随机原则)可靠性概念:1)参数估计就是用样本统计量去估计总体的参数。2)估计量是用来估计总体参数的统计量的名称。是样本的数字特征。3)估计值是用来估计总体参数时计算出来的估计量的具体数据。作用:1)用于无限总体研究;2)不可能进行全面调查,又要了解其全面情况;3)对报表和普查进行修正。2.点估计与区间估计概念:1)点估计就是用样本量的值直接作为总体参数的估计值。2)区间估计是在用点估计值代表总体参数的同时,还必须给出一个用于衡量点估计可靠性的度量。●规律:1)由样本均值的抽样分布可知,在重复抽样或无限抽样的情况下,样本均值的期望值等于总体均值,样本均值的标准误差为。2)由样本统计量所构造总体参数的估计区间,成为置信区间。区间最小值为置信下限,区间最大值为置信上限。置信区间的宽度随着置信系数的增大而增大。3.评价估计量的标准1)无偏性:是指估计量抽样分布的数学期望等于被估计的总体参数。2)有效性(最小方差性):估计量的方差越小,估计也就越有效。3)一致性:是指随着样本量的增大,点估计量的值越来越接近总体的参数。4.2一个总体参数的区间估计总体均值的区间估计总体分布样本容量已知未知正态分布大样本小样本非正态分布大样本2.总体比率的区间估计这里只讨论大样本情况下总体比率的估计问题。当样本足够大时,P的数学期望等于总体的比率∏。即得总体比率在(1-)置信水平下地置信区间:样本量的确定1.估计总体均值时样本量的确定总体均值的置信区间是由样本均值和允许误差两部分组成的。在重复抽样或无限总体抽样条件下,允许误差为。的值和样本量共同确定了允许误差的大小。一旦确定了置信水平为,的值就确定了。对于给定的值和总体标准差,就可以确定任意希望的允许误差所需要的样本量。令E=确定样本量的公式:2.估计总体比率时样本量的确定令E=确定样本量的公式:假设检验5.1假设检验的基本原理1.假设的陈述概念:1)假设:对总体参数的具体数值所作的陈述。2)假设检验:利用样本信息判断假设是否成立的过程。3)原假设:通常是研究者想收集证据予以反对的假设,也称零假设,用Ho表示。4)备择假设:通常是研究者想收集证据予以反对的假设,也称研究假设,用H1表示。建立假设需要注意:HoH1是完备事件组,相互对立的。先确定备择假设。“==”在原假设中。HoH1有很强的主观色彩。分类:参数假设检验、非参数假设检验。假设检验的基本形式假设双侧检验单侧检验左侧检验右侧检验原假设备择假设2.两类错误与显著性水平(1)当原假设为真时拒绝原假设,所犯的错误称为第一类错误,又称弃真错误,概率记为。(2)当原假设为假时没有拒绝原假设,所犯的错误称为第二类错误,又称取伪错误,概率记为。(3)发生第一类错误概率也常被用于检验结论的可靠性度量,假设检验中犯的第一类错误的概率被称为显著水平(指原假设实际是正确的时,检验统计量落在拒绝域的概率),记为。3.检验统计量与拒绝域(1)检验统计量:根据样本观测结果得到的、并据以对原假设和备择假设做出决策的某个样本统计量。(2)标准化的检验统计量==(3)拒绝域:由显著性水平a所围成的区域.可以根据a值的大小确定出拒绝域的具体边界值,称为临界值。样本固定时,拒绝域的面积随a的减小而减小。(4)双侧检验左侧检验右侧检验4.利用P值进行决策(1)P值:就是当原假设正确时,得到所观测的数据的概率。是反映实际观测到的数据与原假设Ho之间不一致的一个概率值。(2)用P值进行决策的准则:无论是大呢检验还是双侧检验,如果P值<a,拒绝原假设。如果P值>a值,不拒绝原假设。5.2一个总体参数的检验1.总体均值的检验(1)解决步骤:①陈述HoH1;②抽样;③确定检验统计量;④计算具体值。确定a、临界值、拒绝域;⑤标准化统计量与临界值比较,判断假设假设是否成立。(2)大样本情况下一个总体均值的检验方法双侧检验左侧检验右侧检验假设形式检验统计量a与拒绝域P值决策准则(3)小样本情况下一个总体均值的检验方法双侧检验左侧检验右侧检验假设形式检验统计量a与拒绝域P值决策准则总体比率的检验(1)通常用字母∏表示总体比率,表示对总体比率的某个假设值。P鄙视样本比率。(2)大样本情况下一个总体比率的检验方法双侧检验左侧检验右侧检验假设形式检验统计量a与拒绝域P值决策准则3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论