版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第一章 绪 论目 录 “统计”一词的渊源及其含义123 统计学的产生与发展 统计学的性质和特点 统计学的内容和一些基本概念 4第一节“统计”一词的渊源及其含义“统计”(statistics)一词最早出现于德语“statistik”,由德国马尔堡和哥丁根大学教授阿痕瓦尔(Gottfried Achenwall,17191772)提出,它源于中世界拉丁语的“status”,意思是各种现象的状态和状况。我国古代就有“统计”一词,但并非现在的含义,而是“总计、合计”之意。具有现代意义的“统计”一词,是20世纪初随着大批留日学生回国,从日本流传过来的。第一节“统计”一词的渊源及其含义现代的“统计”一词通
2、常包括统计活动、统计资料和统计科学三种含义。(1)统计活动是指人们根据一定的目的、采用相应的统计方法收集资料、整理资料和分析资料的工作过程。(2)统计资料是统计活动的最终成果(3)统计学则是一门指导统计工作的方法论科学,是统计活动的经验总结。三者关系为:统计学与统计工作之间的关系是理论与实践的关系,统计资料则是统计工作的成果。第二节统计学的产生与发展一、统计活动的产生与发展统计活动是适应人类社会实践活动的需要而产生和发展起来的。原始社会末期,随着国家的产生逐渐产生了一种为全社会所需要的、共同一致的、具有某种总体特性的记数活动统计。人类社会初期的统计活动是简单和松散的,这种活动在各国的史书中都有
3、记载。封建社会,统计活动与政治有了密切联系,各国历代封建统治者为了利用统计来加强封建统治、稳定社会秩序,广泛进行了有关人口、军队、世袭领地、财产等方面的统计。到了资本主义社会,统计活动有了迅速的发展,除了人口、土地和财产等统计,还建立了工业、农业、商业、对外经贸、银行、保险、交通、邮电和海关等专业统计。与此同时,各国普遍建立起专业的统计制度和统计机构,统计活动也演变为一种专业。第二节统计学的产生与发展二、统计学的形成与发展现状(一)古典统计学1.以文字表述来比较各国显著事项的学派国势学2.以数量分析来研究各国的国情国力的学派政治算术3.从赌博数学发展起来的概率论第二节统计学的产生与发展(二)近
4、代统计学1.社会统计学2.数理统计学(三)现代统计学20世纪,活跃于各个领域的应用统计学有了长足的发展,比如,经济统计学中就产生了洛伦兹(Lorenz curve)曲线、经济时间序列分析、经济预测方法。第二节统计学的产生与发展三、我国统计学术体系的形成与发展最早把统计学引入我国的是日本旧社会统计学派的学者横山雅男。我国最早接触描述统计的是北洋政府专门学校的顾澄教授,他于1913年翻译出版了描述统计学经济学派后期代表人物犹尔的统计学原理。20世纪30年代后至新中国成立止,介绍描述统计学的著作共出版发行了79部,其中较有影响的有金国宝的统计学大纲、陈善林的统计学、朱君毅的统计学概要等。我国最早接受
5、推断统计学的是我国第一批“庚子赔款”留学生许宝騄、徐钟济和唐培经,留美学生魏宗舒以及焦仲只、王寿仁等人。20世纪80年代后,数理统计和经济统计的学者交流越来越多,在许多方面达成了共识,并在许多课题研究中进行了合作,取得了可喜的成果。第三节统计学的性质和特点一、统计学的性质(1)承认存在两门统计学,即数理统计学和社会经济统计学,它们的性质各有明确的定义,也有着截然不同的适用范围。规律派。统计方法论。(2)唯数理统计论。(3)“大统计”学科概念。第三节统计学的性质和特点二、统计学研究的特点(一)从研究对象来看,它研究客观事物的数量方面(二)从研究方法来看,它强调对客观事物总体进行大量观察,通过归纳
6、推理以获得总体数量方面的综合性认识(三)从学科体系来看,统计学是一门多科性的科学,是一个学科“家族”第四节统计学的内容和一些基本概念一、统计学的内容(一)描述统计描述统计是来描绘或总结观察量的基本情况的统计方法。 描述统计的内容包括统计数据的收集、数据的加工处理、数据的显示、数据分布的特征概括等。通常会使用的工具是频数分布表 (frequency distribution table)与图示法,如多边图(polygon)、直方图(histogram,bar chart)、圆形图(pie chart)、散点图(scatter plot)等。数据的次数分配往往会呈现正态分布。为了表示测量数据与常态
7、分配偏离的情况,会使用偏态(skewness)、峰度(kurtosis)这两种统计数据。第四节统计学的内容和一些基本概念(二)推断统计推断统计是只依据样本资料推断总体特征的技术和方法,包括参数估计和假设检验的方法。描述统计与推断统计紧密联系,描述统计是推断统计的前提,推断统计是描述统计的发展。推断统计依照总体条件的差异性又可分为参数统计(parametric statistics)和非参数统计(nonparametric statistics)。其中参数统计是指总体呈正态分布(normal distribution)的统计推断方法;其他所有应用于非正态分布总体的统计推断方法,都称为非参数统计。
8、第四节统计学的内容和一些基本概念二、统计学的一些基本概念(一)统计总体和总体单位统计总体(population)简称总体,是统计研究所确定的客观对象。它是根据一定的研究目的,在同质基础上,由客观存在的许多个别单位组成的一个整体。总体单位(unit)又称个体,是那些具有某种共同性质并组成总体的个别单位,是各项统计数字的原始承担者。总体单位既有同质性,又有差异性。第四节统计学的内容和一些基本概念(二)指标指标(indicator或index)全称统计指标,是综合反映统计总体某一方面数量特征的概念和数值。任何一个统计指标一定是抽象的指标概念和具体的指标数值的结合。指标概念的内涵是对总体本质特征的一种
9、抽象和概括,体现了对总体“质”的规定性,它在规定总体某一方面数量特征的理论指导下界定了指标概念的外延:指标的核算范围、计算方法和计量单位。指标数值是指标在一定时间和对象范围下具体的数量表现。第四节统计学的内容和一些基本概念(三)变量变量(variable)是标志的具体表现或指标的具体数值,如职工人数、年龄、工资,国内生产总值、销售总值、固定资产投资总额等。在数学中,定量变量就是变量,任意一个变量可以有一系列的取值,一般可用X、Y、Z来表示。1.变量按其影响因素不同,分为确定性变量和随机性变量2.变量按其数值形式不同,分为离散型变量和连续型变量第二章 统计调查目 录 统计调查的概念与分类 123
10、我国统计数据调查的组织形式统计调查误差统计调查方案 4第一节统计调查的概念与分类一、统计调查的概念统计调查(statistical investigation),是指按照统计研究的目的和任务,运用科学的调查方法,有组织、有计划地针对客观现象收集统计资料的工作过程。统计调查所收集到的资料可分为两种:一种是原始资料(original data),又称初级资料(primary data),另一种是次级资料(secondary data),又称二手资料(secondhand data)。二、统计调查的分类1.按调查对象所包括的范围,统计调查可分为全面调查和非全面调查2.按登记的时间是否连续,统计调查可
11、分为经常性调查和一次性调查第一节统计调查的概念与分类三、统计调查的方法(一)直接观察法(二)采访法(三)试验法(四)问卷法(五)报告法第二节我国统计数据调查的组织形式一、统计报表制度(一)统计报表制度的概念统计报表制度是指由政府主管部门以统计表格形式和行政手段自上而下布置,尔后由企、事业单位根据一定的原始记录和核算数据、按照规定的报送时间和程序自下而上层层汇总上报统计资料的组织形式。其中,以表格形式反映企事业单位生产经营情况的书面报告,称为统计报表(forms for reporting statistics)。第二节我国统计数据调查的组织形式(二)我国现行的国家统计报表制度我国现行的国家统计
12、报表制度由国家统计局制定,或者由国家统计局和国务院有关部门共同制定。目的是用于收集国民经济、社会和科技发展情况,便于政府管理。国家统计报表制度是各级国家统计部门实施国家统计调查项目的业务工作方案。第二节我国统计数据调查的组织形式(三)我国报表制度的分类1.按制定颁发的单位不同划分(1)国家统计报表制度(2)部门统计报表制度(3)地方统计报表制度2.按调查时间划分(1)周期性普查制度。(2)经常性调查。(3)非经常性调查。第二节我国统计数据调查的组织形式二、统计报表我国统计表的报送介质包括表格、问卷、电信(电报、电话、传真等)、磁盘磁带、网络通信(网络表格、电子邮件等)等,数据形式有数字、文字和
13、混合形式。统计报表一般可由报表目录、表式和填表说明组成。(一)报表目录(二)表式(三)填表说明(1)填表范围,指报表的实施范围;(2)统计目录,统计报表主栏项目的一览表;(3)指标解释,指标概念的内涵、外延、计算方法、计量单位等。第二节我国统计数据调查的组织形式三、抽样调查(一)随机抽样1.简单随机抽样2.等距抽样3.分层抽样4.整群抽样(二)非随机抽样1.方便抽样2.判断抽样3.定额抽样4.滚雪球抽样第三节统计调查误差一、统计调查误差的来源和分类统计调查所得到的资料与现象总体在某一方面的数量特征的现实情况必定会存在一定的差距,这种差距称为数据收集误差,又称统计调查误差,简称统计误差(stat
14、istical error)。一般来说,这种误差有两种:一种叫登记性误差(register error);另一种叫代表性误差(typical error)。代表性误差按照其产生原因又分为两种,即系统性误差(systematic error)和抽样误差(sample error)。登记性误差和系统性误差的产生原因如下:1.由于某些主观因素人为造成的数据重复或遗漏2.由于客观因素,如计算机病毒、停电、运输保存设备故障等所造成的误差第三节统计调查误差二、统计调查误差的测定调查误差有两种测度,即总误差率(gross error ratio)和净误差率(net error ratio)。总误差率是指实际
15、错误的回答被统计为正确的回答与正确的回答被统计为错误的回答共同产生的误差占全部回答的比率;净误差率则是实际正确的回答与统计中被当做正确的回答的差占全部回答的比率。第四节统计调查方案一、统计调查方案的主要内容一项计划周密、体系完整、结构合理的统计调查方案应包括以下内容:(一)调查目的(二)调查对象(三)调查提纲(四)调查时间(五)调查的组织计划第四节统计调查方案二、调查表与问卷设计(一)调查表调查表是用于登记调查单位具体特征和情况的表格,以便填写和登记反映调查单位某些方面的数量特征的有关标志和项目。调查表按其调查单位的多少和调查项目的多少,可分为单一表和一览表两种形式。(二)问卷设计问卷设计的程
16、序包括前期调查、初步设计、使用问卷和修订问卷等。按问卷的填写方式,问卷可分为自填式和访问式。问卷一般由说明词、指导语、调查内容和编码四部分组成。第三章 统计数据处理目 录统计数据的含义及其层次尺度123统计数据处理的概念和内容统计数据分组频数分布 45统计表与统计图第一节统计数据的含义及其层次尺度一、统计数据的含义与分类(一)统计数据的含义统计数据(statistical data)简称数据(data),是变量(包括定性和定量变量)的取值,也就是说,统计数据是对所研究对象的属性和特征的具体描述,包括定性变量的文字描述和定量变量的数字描述。第一节统计数据的含义及其层次尺度(二)统计数据的分类1.
17、按其时空形态分类(1)时间序列数据(time series data)。(2)截面数据(crosssectional data)。(3)面板数据(panel data)。2.按其内在性质分类(1)定性数据(qualitative)(2)定量数据(quantitative)第一节统计数据的含义及其层次尺度二、统计数据的尺度及其层次类型(一)确定统计数据尺度的原则(1)互斥原则。(2)穷尽原则。(二)统计数据的尺度1.定类尺度(nominal scale)2.定序尺度 (ordinal scale)3.定距尺度 (interval scale)4.定比尺度(ratio scale)第一节统计数据的
18、含义及其层次尺度(三)统计数据测度的层次类型 1.定类数据2.定序数据3.定距数据4.定比数据第一节统计数据的含义及其层次尺度(四)四类层次测定数据的比较第一节统计数据的含义及其层次尺度三、统计数据质量(一)统计数据的内容质量1.相关性 2.准确性 3.及时性 (二)统计数据的表述质量 1.可比性 2.可衔接性 3.可理解性 (三)统计数据的约束标准 1.可取得性 2.有效性 第二节统计数据处理的概念和内容一、统计数据处理的概念和作用统计数据处理(data processing)是根据统计研究的目的和要求,对统计调查所得到的资料进行审核、分组、汇总,使之系统化、条理化,形成能反映总体综合特征的
19、数据资料的工作过程。统计整理的资料包括原始资料和次级资料两个方面。统计数据处理的作用是重要的,统计数据处理方法的好坏将会影响统计数据处理的质量。因为,统计数据处理的质量不仅直接关系到调查资料能否发挥其应有的作用,也直接影响统计分析能否得出正确的结论。不恰当的加工处理、不完善的处理方法,往往会使调查取得的丰富、完备的资料失去价值,甚至掩盖事实的真相,进而得出错误的结论。第二节统计数据处理的概念和内容二、统计数据处理的内容(一)审核和检查原始资料(1)逻辑检查(2)比较审核(3)设置疑问框(二)修正统计数据的调查误差经检查发现有误差的数据,如重复、遗漏或出现异常数据等,就要采取删除、增补和剔除的方
20、式进行处理。其中遗漏数据的处理较为复杂,一般可通过转嫁错误(imputation),采取分配(allocation)或替代(substitution)的方法增补。第二节统计数据处理的概念和内容(三)编制统计数据处理方案1.拟订汇总的指标和汇总表2.决定分组方法3.选择汇总的方式4.确定资料审核的方法和内容(四)处理次级资料次级资料是以前调查取得的并已经加工处理过的现有资料。在统计数据处理、加工的时候必须注意以下问题:(1)对所需用的资料进行评价。(2)对所需用的资料进行甄别,如果资料经过评价,能够满足需要,就要甄别这些资料,看看哪些可用、哪些不可用,哪些可以直接引用、哪些需要经过再加工后才能引
21、用,哪些需要剔除、哪些需要补充、哪些需要调整。(3)选用适当再加工方法。第三节统计数据分组一、统计数据分组的概念和作用统计数据分组(data classification;grouping)是一种在定性基础上的定量分析方法,它是根据研鉴于统计分组的这个特点,在统计研究中,它有以下三个作用:(一)划分社会经济现象的类型(二)揭示社会经济现象总体的内部结构(三)揭示社会经济现象之间的依存关系第三节统计数据分组二、分组变量的选择与分组形式(一)正确选择分组变量的原则1.根据统计研究的目的与任务来选择分组变量2.选择能反映现象本质和主要特征的变量3.结合历史条件、地点条件和具体的情况来选择分组变量(二
22、)统计分组的类型1.按分组变量的性质不同,分为定性变量分组和定量变量分组2.按选择分组变量的个数不同,分为简单分组、复合分组和分组体系第三节统计数据分组(三)常见的国民经济标准分类不同国家大多根据自己国家的实际情况在参照国际标准的基础上制定颁布本国的分类标准。1.三次产业划分2.机构部门分类3.行业分类4.职业分类5.经济类型分类第三节统计数据分组二、分组变量的选择与分组形式(一)正确选择分组变量的原则1.根据统计研究的目的与任务来选择分组变量2.选择能反映现象本质和主要特征的变量3.结合历史条件、地点条件和具体的情况来选择分组变量(二)统计分组的类型1.按分组变量的性质不同,分为定性变量分组
23、和定量变量分组2.按选择分组变量的个数不同,分为简单分组、复合分组和分组体系第四节频数分布一、频数分布的概念把总体按某一变量分组,列出该变量所表现的数据在各组出现的次数,所形成的数列叫做分配数列或分布数列。通过分配数列可以说明总体各单位在各组的分配情况,所以分配数列又叫做次数分布。被分配在各组的单位“次数”在统计上被称做“频数”(frequency),因此次数分布也可以叫做频数分布(frequency distribution)。第四节频数分布二、频数分布的类型(一)定性变量分布(二)定量变量分布 1.单项数列2.组距数列第五节统计表与统计图一、统计表把经过分组、汇总的数字资料按一定的循序在表
24、格上反映出来,这种表格叫做统计表(statistical table)。从形式上看,统计表是一张由纵横交叉的直线、左右两边不封口所组成的表格。从内容上看,统计表由四部分组成:(1)总标题。(2)横行标目。(3)纵栏标目。(4)数字资料。第五节统计表与统计图二、统计图统计图(statistical graph or cartogram)是展示数据特征的另一种形式。(一)饼图(二)茎叶图(三)散点图第四章数据描述性分析目 录数据总量描述123数据相对量描述数据分布集中趋势的特征描述数据分布离散趋势的特征描述45数据分布偏度和峰度的特征描述第一节数据总量描述一、数据总量的分类(一)按数据反映总体的内
25、容分类1.总体单位总数2.总体数据总量(二)按数据反映总体的时间特征分类1. 时期总量2.时点总量第一节数据总量描述(三)按计量单位分类1.实物总量2.价值总量3.劳动总量(四)按数据所表示的事物的性质与特点分类(1)经济流量(flow)(2)经济存量(stock)第一节数据总量描述二、数据总量的计算和运用(一)数据总量的统计方法 数据总量是通过全面调查登记,采用直接计数、点数或测量等方法,逐步计算汇总得出的。数据总量的计算方法比较简单,但计算内容却相当复杂,涉及一定历史条件下现象的规模和水平。因此,数据总量的计算并不是一个单纯技术性的加总问题,必须在正确规定数据总量所反映现象的概念、构成和计
26、算范围的基础上,确定科学的计算方法进行计算汇总,取得能真实反映现象的结果。第一节数据总量描述(二)总和记法及求和规则 数据求和的规则或公式如下:(1)设X和Y是两个变量,则两个变量之值的和的总和,等于每个变量之值的总和,即:(Xi+Yi)=Xi+Yi同理,可以证明两个变量之值之差的总和,等于每个变量之值的总和之差,即:(Xi-Yi)=(X1-Y1)+(X2-Y2)+(Xn-Yn)=Xi-Yi依据上述结论可以推广到若干个变量之值的总和,即:(Xi+Yi-Zi)=Xi+Yi-Zi(2)某一变量乘以常数a后求的总和,等于该变量值的总和乘以常数a,即:(aXi)=aX1+aX2+aXn=a(X1+X2
27、+Xn)=aXi(3)假设进行n次观测,每次所得的观测值为同一常数,则n次观测值的总和等于n乘以该常数,即:a=a+a+a=a(1+1+1)=an第二节数据相对量描述一、数据相对量的概念数据相对量(relative quantity),又称相对指标,是把两个相互有联系的指标进行对比,以反映现象在某一方面的数量特征或属性的相对变化或对比关系的指标,形式上表现为相对数(relative)。数据相对量的计量单位有两种:(1)不用文字表述的无名数,包括成数(quotients)、系数(coefficient; ratio; modulus; quotients)和倍数(scale)、百分数(perce
28、ntage)、千分数。(2)用文字表述的有名数,又称复名数,是将对比的分子分母的计量单位对比形成的结果,当对比的结果反映的是现象的强度、密度、普遍程度时一般应采用复名数。第二节数据相对量描述二、数据相对量的测度(一)计划完成相对数(二)结构相对数(三)比例相对数(四)比较相对数(五)强度相对数(六)动态相对数第二节数据相对量描述三、计算和应用数据相对量时应注意的问题(一)必须注意分子分母的可比性(二)必须同数据总量结合起来运用(三)要把各种数据相对量结合起来运用第三节数据分布集中趋势的特征描述一、数据分布集中趋势特征描述的含义集中趋势(central tendency)是描述数据分布的一个重要
29、的特征数,指一组数据向某一中心值靠拢的程度,反映了一组数据的平均水平、中等水平和代表水平,显示了数据中心点的位置所在。数据分布集中趋势特征描述的测度就是寻找数据的代表值或中心值,常用来表示数据分布集中趋向的特征描述的测度有算术平均数、几何平均数、中位数、众数等。其中,算术平均数、几何平均数属于高层次数据分布的集中趋势测度,中位数、众数属于低层次数据分布的集中趋势测度。第三节数据分布集中趋势的特征描述二、数据分布集中趋势特征描述的测度(一)算术平均数(二)几何平均数(三)调和平均数(四)平方平均数(五)众数(六)中位数第三节数据分布集中趋势的特征描述三、算术平均数、中位数、众数的关系算术平均数、
30、中位数、众数都是描述数据分布集中趋势的特征值,但它们之间既有联系,也有区别。(1)算术平均数包含的信息最多、最丰富,当分布比较规则、不存在极端值时,算术平均数描述集中趋势最合适。但算术平均数易受极端值的影响,而中位数和众数则不受极端值的影响。(2)根据算术平均数、中位数、众数三者的数量关系可判别次数分布的具体形态。(3)根据黄金分割的原理,三者之间的数量关系为:众数到中位数的距离两倍于中位数到算术平均数的距离,即Me-Mo=2(-Me)。(4)算术平均数适用于定距数据或定比数据,中位数适用于定序数据,众数适用于定性数据。第三节数据分布集中趋势的特征描述算术平均数、中位数、众数三者之间的关系如图
31、所示:图4-3 算术平均数、中位数、众数三者之间的关系第四节数据分布离散趋势的特征描述一、数据分布离散趋势特征描述的含义和作用数据分布离散趋势的特征描述有两个重要的作用:数据分布离散(dispersion)趋势(或离中趋势)的特征描述,是说明数据间的差异程度的指标,反映了所有数据偏离中心位置的差异程度。(1)它是评价数据分布集中趋势的特征描述代表性大小的尺度。(2)反映现象的均衡性和稳定性。第四节数据分布离散趋势的特征描述二、数据分布离散趋势特征描述的测度(一)全距(二)平均差(三)标准差和方差(四)离散系数第五节数据分布偏度和峰度的特征描述一、原点矩和中心矩设k为正整数,c为任何实数,则称为
32、变量x对c的k阶矩,或叫k阶动差。若c=0,叫做k阶原点矩(moment about the origin);若c= ,则称为k阶中心矩(moment about the mean)。第五节数据分布偏度和峰度的特征描述二、偏度的测定所谓偏度(degree of skewness),是指次数分布的非对称程度。偏度通常分为右偏(或正偏positively skewed)和左偏(或负偏negatively skewed)两种,它们是与对称分布(symmetrical distribution)相对而言的。第五节数据分布偏度和峰度的特征描述三、峰度的测定所谓峰度(kurtosis),是指次数分布曲线顶
33、峰的尖锐程度。与正态分布(第五章介绍)曲线相比较,次数分布曲线的峰度通常分为三种:正态峰度(masochistic)、尖顶峰度(leptokurtic)和平顶峰度(platykurtic)。图4-4的取值与数据分布的峰态的关系第五节数据分布偏度和峰度的特征描述四、切比雪夫定理与经验法则(一)切比雪夫(Chebyshev)定理第五节数据分布偏度和峰度的特征描述图4-5切贝雪夫定理数据分布图第五节数据分布偏度和峰度的特征描述(二)经验法则第五节数据分布偏度和峰度的特征描述 图4-6经验法则数据分布图第五章概率论基础目 录随机试验和随机事件123概 率随机变量随机变量的分布45大数定律和中心极限定理
34、 第一节随机试验和随机事件一、随机试验概率论正是研究随机现象规律性的一门科学。为了研究随机现象,就要对客观事物进行观察,观察的过程叫试验。概率论中所说的试验是指随机试验(random experiments),它具有下列三个特性:(1)可在相同的条件下重复进行;(2)每次试验的结果具有多种可能性,并且试验所有可能的结果是事先已知的;(3)每次试验之前,不能肯定将会出现哪个结果。第一节随机试验和随机事件二、随机事件随机试验每一个可能的结果称为随机事件(random event),简称事件。因为在一次试验中,既可能出现这个结果,也可能出现那个结果,所以指定的某个随机事件可能发生,也可能不发生。在随
35、机事件中,有些事件是不能分解为其他事件的组合,这种最简单的随机事件称为基本事件。在每次试验中,必定出现的结果称为必然事件,必定不出现的结果称为不可能事件。第二节概率一、概率的定义(一)概率的古典定义人们最早研究概率是从掷硬币、掷骰子和摸球之类的游戏和赌博中开始的,这类游戏有两个共同的特点:第一,试验的样本空间元素有限。如掷硬币有正反两种结果,掷一枚骰子有6种可能结果。第二,试验中每个结果出现的可能性相同。如掷硬币出现正反的可能性各为1/2,掷骰子出现各种点数的可能均为1/6。具有这种特点的随机试验称为古典概型。计算古典概型概率的方法称为概率的古典定义或古典概率。由于样本空间有限,总能够运用逻辑
36、推理方法在试验之前推出各种事件的概率,因此古典概率(classical probability)也称为验前概率或逻辑概率。第二节概率(二)概率的统计定义定义在同一条件下重复进行n次试验,当试验次数n充分大时,事件A发生的频率fn(A)= (随试验次数而变化)趋向于某一数值p或稳定地在p值附近波动(0p1),则定义p为事体A发生的概率,记作P(A)=limfn(A)=需要说明的是,频率是大量试验的结果,它是一个随着试验次数变化而变化的数值,而概率是一个确定的数值。频率随着试验次数的无限增加,以一种趋势无限接近概率。第二节概率(三)主观概率的定义定义在不确定性条件下,观察者主观性判断某事件发生的可
37、能性称为主观概率(subjective probability)。主观概率有两个特点:一是由于主观概率直接依赖于观察者,因此对于同一事件,不同的人可能给出不同的概率,但这并不是说主观概率可以随意确定,它应该是以有理智决策人的经验为根据的;二是由于主观概率有赖于个人判断能力,因而前人的经验、自己的知识及其对事件的分析都是作出判断的根据。第二节概率(四)概率的公理化定义随机事件发生可能性大小的度量,用P(A)表示。按照频率的规律性,可概括出如下概率的公理:1.对于任一随机事件A,0P(A)1(非负性)2.P()=1,P()=0(规范性)3.若A1,A2,An是互不相容的随机事件,则:P(A1A2A
38、n)=P(A1)+P(A2)+P(An)(可加性)推论1对任何事件A,有P( )=1-P(A)。推论2P(AB)=P(A)+P(B)-P(AB),当AB=时,P(AB)=P(A)+P(B)。推论3若A1,A2,An构成完备事件组(即A1,A2,An互不相容;且A1A2An=),则有P(A1)+P(A2)+P(An)=1。推论4若AB,则P(B-A)=P(B)-P(A)。第二节概率二、条件概率与独立事件(一)条件概率(二)独立事件(三)全概率公式及贝叶斯公式1.全概率公式2.贝叶斯公式第三节随机变量一、随机变量的概念和分类随机变量(random variable)是对随机试验结果的数量描述,其取
39、值有一个范围,在此范围内究竟取何值是不确定的,但取某个值或某些值却有相应的确定概率(变化规律性)。现实中会遇到各种各样的随机现象与随机试验,因而有各种各样的随机变量,但归纳起来有两大类:(1)离散型随机变量(discrete random variable)(2)连续型随机变量(continuous random variable)第三节随机变量二、概率密度函数和概率分布函数用小写字母f来表示概率密度函数(probability density function),其定义如下:f(a)=P设X是随机变量,则函数F=P称为随机变量X的概率分布函数(probability distribution
40、 function)。第三节随机变量三、数字特征(一)数学期望定义一般来说,如果X是一个随机变量,它的概率密度函数为f(x),那么数学期望(mathematical expectation)的一般公式为:E(X)= xf(x)即X的期望值是它的所有可能取值的加权平均,其权数是它取该值的概率。第三节随机变量(二)方差若X为随机变量,相应的概率分布为:X:x1,x2,xn,P:p1,p2,pn,均值为E(X)=,则X的方差为:D(X) = =Var(X)= pi第三节随机变量(三)协方差X和Y之间的协方差(covariance)是对它们之间相关性的一个测度,记为XY或cov(X,Y)。XY=E(X
41、-EX)(Y-EY)=E(XY)-E(X)E(Y)如果X和Y是相互独立的,那么cov(X,Y)=0,这导致下面相关系数的定义。X和Y之间的相关系数记为XY,被定义为:XY=第四节随机变量的分布一、离散型随机变量及其分布(一)二项分布(二)二点分布(三)超几何分布(四)泊松分布第四节随机变量的分布二、连续型随机变量及其分布(一)均匀分布(二)指数分布(三)正态分布1.正态分布的定义2.标准正态分布3.正态分布的标准化第五节大数定律和中心极限定理一、大数定律概率论中用来阐明大量随机现象平均结果的稳定性的一系列定理,统称大数定律(law of large numbers)。定理1(伯努利大数定理)设
42、n次独立试验中,事件A发生的次数为m,事件A在每次试验中发生的概率为P,则对于任意正数,有: P( )=1第五节大数定律和中心极限定理二、中心极限定理定理3(林德伯格莱维中心极限定理)定理4(棣莫弗拉普拉斯中心极限定理)定理5(李雅普诺夫中心极限定理)第六章抽样分布目 录有关抽样分布的一些基本概念123与正态分布有关几个重要抽样分布几个重要统计量的分布第一节有关抽样分布的一些基本概念一、随机样本定义设X1,X2,Xn是取自总体X的一个样本(样本容量为n),若每一个个体Xi都与总体X同分布且相互独立,则称X1,X2,Xn是一个简单独立随机样本(simple independent random
43、samples),简称样本,它的观察值x1,x2,xn称为样本值。样本所包含的个体(总体单位)的个数称为样本容量,用n表示。一般来说,n大于等于30的称为大样本,n小于30的称为小样本。第一节有关抽样分布的一些基本概念二、抽样方法(一)抽样框与抽样单元(二)放回与不放回抽样(三)抽样按顺序与不按顺序组成样本(三)抽样按顺序与不按顺序组成样本第一节有关抽样分布的一些基本概念三、参数与统计量(一)参数参数(parameter)是总体随机变量概率分布的特征数。对于某个总体来说,其参数是定值。一个总体常常有多个参数,这些参数从各个不同的角度反映总体分布的基本情况和特征。通常最关心的就是表示总体分布集中
44、趋势和分散趋势的两个参数,即总体的均值和方差。(二)统计量统计量(statistic)是样本的数量特征,是个随机变量,随着样本的变化而发生变化。如例6-3,不管按哪种方法抽样,抽取的样本绝对不是一个,因统计量也绝对不仅仅只有一个,而是一个不包含任何未知参数的随机样本函数。第二节与正态分布有关的几个重要抽样分布一、2分布 图6-2密度函数kn(x)的曲线图1.2分布的可加性2.2分布的数学期望和方差3.2分布的分位点第二节与正态分布有关的几个重要抽样分布二、t分布图6-3t分布的密度函数tn(x)的曲线图第二节与正态分布有关的几个重要抽样分布三、F分布图6-4F分布的密度曲线第三节几个重要统计量
45、的分布一、样本均值的抽样分布(一)正态总体、方差已知条件下的样本均值的抽样分布(二)正态总体、方差未知条件下的样本均值的抽样分布(三)两个正态总体样本均值之差的抽样分布1.方差均已知2.方差未知但相等(四)两个正态总体样本方差之比的抽样分布第三节几个重要统计量的分布二、正态总体样本方差的抽样分布(一)一个正态总体样本方差的抽样分布(二)两个正态总体样本方差之比的抽样分布三、样本比率的抽样分布(一)一个总体样本比率抽样分布(二)两个总体样本比率之差的抽样分布第三节几个重要统计量的分布四、近似分布棣莫弗拉普拉斯定理是中心极限定理的最初版本,讨论了服从二项分布的随机变量序列。它指出,参数为n,p的二
46、项分布以np为均值、np(1-p)为方差的正态分布为极限。五、有限总体对于有限总体,总体容量为N,且当抽样是不放回抽样时,需要对抽样分布的标准差加以修正。第七章参数估计目 录点估计123区间估计样本容量的确定第一节点估计一、点估计的基本概念通常,设总体X的分布函数为F(X,),其中是一个未知参数。X1,X2,Xn是X的一个样本,x1,x2,xn是对应的样本观察值。点估计问题就是要选择一个统计量,如(X1,X2,Xn),作为的估计量。第一节点估计二、常用点估计的方法(一)数字特征法(二)顺序统计量法(三)矩估计(四)最大似然估计(五)最小二乘估计法第一节点估计三、估计量的评价准则一般来说,衡量估
47、计量好坏的标准有如下三个:(一)无偏性(二)有效性(三)一致性第二节区间估计一、区间估计的概念区间估计(interval estimate)是指在一定的概率保证下,由样本统计量为中心,构造一个关于总体参数的估计区间。图7-4总体参数落在某单个样本统计量为中心的区间位置第二节区间估计二、总体均值的区间估计(一)一个总体均值的区间估计1.正态总体、方差已知时总体均值的区间估计2.正态总体、方差未知时总体均值的区间估计3.非正态总体、样本容量足够大(n30)时样本均值的估计(二)两个总体均值之差的区间估计1.两个正态总体均值之差的区间估计2.两个非正态总体、方差均已知、样本容量足够大(n130,n2
48、30)时的估计第二节区间估计三、正态总体方差的区间估计(一)一个正态总体方差的估计(二)两个正态总体方差之比的估计四、总体比率的区间估计(一)一个总体比例的估计(二)两个总体成数之差估计第二节区间估计五、有限总体不放回抽样时的区间估计无限总体的容量是个未知数,因而无法用不放回的方法抽取样本,只能采用放回抽样方法。对于有限总体,由于总体容量已知,所以可采用不放回的方法抽取样本。抽样方法总是以不放回抽样为首选,但条件是总体必须有限;否则,采用放回抽样。也就是说,当总体容量N已知时,应采用不放回抽样的方法抽取样本;反之,N未知时,应采用放回抽样的方法抽取样本。第三节样本容量的确定一、估计总体均值的样
49、本容量第三节样本容量的确定二、估计总体比率的样本容量第三节样本容量的确定三、有限总体问题(一)样本均值估计时样本容量的计算(二)样本比例估计时样本容量的计算第八章 假设检验目 录假设检验的基本原理123一个总体的假设检验关于两个总体的假设检验方差分析45非参数检验第一节假设检验的基本原理一、假设检验的基本思想和形式(一)假设检验的基本思想根据小概率原理,假设检验的基本思想是,如果对总体的某种假设是真实的,那么不利于或不能支持这一假设的事件A(小概率事件)在一次试验中几乎不可能发生。假如在一次试验中A竟然发生了,就有理由怀疑该假设的真实性,拒绝这一假设。图8-1假设检验的推理过程第一节假设检验的
50、基本原理(二)假设的形式对要检验的假设有两种形式:原假设和备择假设。确定原假设的原则如下:(1)当目的是希望从样本观察值取得对某一论断强有力的支持时,把这一结论的否定作为原假设;(2)把陈述事实的否定作为原假设;(3)把过去资料所提供的论断作为原假设。第一节假设检验的基本原理(三)双侧检验和单侧检验1.双侧检验2.单侧检验图8-2双侧(端、尾)假设检验图8-3左侧检验图8-4右侧检验第一节假设检验的基本原理二、假设检验规则与两类错误(一)确定检验规则检验过程是比较样本观察结果与总体假设的差异。若差异显著,超过了临界点,则拒绝H0;反之,差异不显著,则接受H0。接受原假设H0的范围称为接受域,拒
51、绝原假设H0的范围称为拒绝域。从未确定一个检验规则,实质上就是确定一个拒绝域。怎样确定拒绝域是一个至关重要的问题,它涉及假设检验中的两类错误(two types error)问题。第一节假设检验的基本原理(二)两类错误第一类错误(type error):原假设H0实际为真,而检验结果却拒绝了它,即否定H0(本来=0可能正确),即弃真错误。犯第一类错误的概率称为弃真概率。弃真概率就是显著性水平。第二类错误(type error):原假设H0实际不真,而检验结果却接受了它,即接受H0(本来=0可能错误),即取伪错误。犯第二类错误的概率通常用表示。图8-5两类错误第一节假设检验的基本原理(三)取伪概
52、率的计算假设检验中,弃真概率是根据研究的问题和决策的需要设定的,而取伪概率则要通过计算才能确定,而且只有当判断结论为接受原假设时,才存在取伪的可能性。确定犯第二类错误的概率比较困难,其计算步骤如下:(1)先求出拒绝H0的临界值;(2)计算在统计量真实的抽样分布下达到临界值的概率。第一节假设检验的基本原理三、假设检验的一般步骤(1)建立总体假设原假设H0和备择假设H1;(2)选择一个合适的显著性水平,把犯第一类错误的概率定下来,同时确定必要的样本容量和犯第二类错误的概率;(3)抽样得到样本观察值,并构造统计量确定H0为真时的抽样分布,即选择一个合适的检验统计量;(4)在原假设H0成立的前提下,对
53、给定显著性水平,从构造的统计量的概率分布表上查出相应分布的临界值,确定拒绝域和接收域;(5)计算检验统计量的数值;(6)把检验统计量的数值与相应分布的临界值进行对比,并作出检验判断。第二节一个总体的假设检验一、正态总体均值的检验(方差已知)(一)双侧检验第二节一个总体的假设检验(二)单侧检验1.左侧检验第二节一个总体的假设检验2.右侧检验第二节一个总体的假设检验二、正态总体均值的检验(方差未知)设X1,X2,Xn是取自总体XN(,2)的一个样本,2未知。(一)双侧检验第二节一个总体的假设检验(二)单侧检验1.左侧检验第二节一个总体的假设检验2.右侧检验第二节一个总体的假设检验三、正态总体方差的
54、检验(一)双侧检验第二节一个总体的假设检验(二)单侧检验1.左侧检验第二节一个总体的假设检验2.右侧检验第二节一个总体的假设检验四、总体比率p的检验(np5, n(1-p)5或n30)(一)双侧检验第二节一个总体的假设检验(二)单侧检验1.左侧检验第二节一个总体的假设检验2.右侧检验第三节关于两个总体的假设检验一、两个正态总体均值的比较(一)双侧检验第三节关于两个总体的假设检验(二)单侧检验1.左侧检验第三节关于两个总体的假设检验2.右侧检验第三节关于两个总体的假设检验二、两个正态总体方差的比较(一)双侧检验第三节关于两个总体的假设检验(二)单侧检验1.左侧检验第三节关于两个总体的假设检验2.
55、右侧检验第三节关于两个总体的假设检验三、两个总体比率的比较(np5,n(1-p)5或n30)(一)双侧检验第三节关于两个总体的假设检验(二)单侧检验1.左侧检验第三节关于两个总体的假设检验2.右侧检验第四节方差分析一、方差分析的基本概念方差分析是鉴别各因素效应的一种有效统计方法,是通过实验观察某一种或多种因素的变化对实验结果是否带来显著影响,从而选取最优方案的一种统计方法。方差分析也是一种假设检验,它是对全部样本观察值的差异进行分解,将某种因素下各组样本观察值之间可能存在的系统性误差与随机误差加以比较,据以推断各总体之间是否存在显著性差异,若存在显著性差异,也就说明该因素的影响是显著的。第四节
56、方差分析二、单因素方差分析(一)单因素方差分析的基本表现形式(二)单因素方差分析的假定前提(三)单因素方差分析的数学模型(四)统计假设(五)分析步骤1.分解总离差平方和(total sum of squares)2.计算各离差平方和的自由度(degrees of freedom)3.F检验第五节非参数检验一、非参数检验的概念和特点(一)非参数统计的概念所谓非参数统计(nonparametric tests),就是对总体分布的具体形式不必作任何限制性假定和不以总体参数具体数值估计为目的的推断统计。这种统计主要用于对某种判断或假设进行检验,故也称非参数检验。(二)非参数统计的特点(1)既能适用于定
57、性变量中的定类数据或定序数据,也能适用于定距数据和定比数据这种定量变量。(2)经济、有效。(3)它不需要像参数统计方法那样假定总体的分布是正态的,也不需要检验总体的参数,使得条件容易得到满足。第五节非参数检验二、2检验(一)2检验的定义2是1900年由英国统计学家卡尔皮尔逊提出的,故又称为皮尔逊2检验(Pearsons chisquare test)。该定理表明,当样本容量充分大时,样本分成K类,每类实际出现的次数用fo表示,其理论次数为fe,则2统计量为:其中,k-1为自由度。第五节非参数检验(二)2拟合优度检验2拟合优度检验(chi square goodness of fit test)
58、是利用样本信息对总体分布作出推断,检验总体是否服从某种理论分布,如二项分布、均匀分布或正态分布等。其方法是把样本分成k个互斥的类型组,然后根据需检验的理论分布算出每一类的理论频数,并将其与实际的观察频数进行比较。第五节非参数检验三、独立性检验2检验也常用于判断两个变量是否存在交互影响。如果两个变量不存在交互影响,就称为独立,所以这类检验也称为独立性检验(test for independence)。与拟合优度检验相比,独立性检验的特点在于其理论频数不是预先确定的,而需要从样本资料中获得。第五节非参数检验四、成对比较检验(一)符号检验符号检验(sign test),也称正负号检验,是一种常用的、
59、较为简单的非参数统计方法,其基本思想是分析正负号出现的频率而忽略具体量的差异,以确定它们是否有显著性差异。(二)威尔科克森带符号等级检验威尔科克森带符号等级检验的应用条件和检验内容与符号检验相同。其基本思想是:若关联样本的两组数据没有显著差异,则不仅其差异的正负号应大致相等,而且将其差异取绝对值,按大小顺序排列编成自然序号(即秩)后,它们的正号(+)的秩和(记为T+)与负号(-)的秩和(记为T-)也应该大致相等。第五节非参数检验五、曼惠特尼U检验(一)曼惠特尼U检验的基本原理曼惠特尼U检验(MannWhitney U test)又称曼惠特尼秩和检验,是由H.B.曼(H.B.Mann)和D.R.
60、惠特尼(D.R.Whitney)于1947年提出的。分析方法的思路与威尔科克森带符号等级检验基本一致,这种方法通常称为秩和检验(rank sum test)或等级和检验。(二)小样本U检验(三)大样本U检验第五节非参数检验六、游程检验(一)游程和游程检验的概念 游程是指具有相同性质的数据序列,例如,将两个随机样本的观察值x1,x2,xn和y1,y2,yn混合起来,按从小到大的次序排列起来,形成类似xxyyxyxxxxyyy的序列。每个连续出现某一样本观察值的区段称为游程,每个区段包含的样本观察值的个数称为游程长度,如上面的序列中,就有长度分别为2、1和4的3个x游程,以及长度分别为2、1和3的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 冰箱的租赁合同范文
- 参建住宅协议书的编写范本
- 交通银行借款合同范本
- 房屋租赁合同终止声明书
- 物业公司管理协议书
- 旅游合作开发合同范文点评
- 建筑劳务分包合同格式范本
- 广东省茶叶原料采购合同模板
- 工程劳动力和施工合同示例
- 员工劳动合同续签互用协议
- 正余弦定理知识点权威总结18页
- 国企纪检监察嵌入式监督的探索与实践
- 浅议小升初数学教学衔接
- 设备安装应急救援预案
- 深基坑工程降水技术及现阶段发展
- 暂堵压裂技术服务方案
- 《孔乙己》公开课一等奖PPT优秀课件
- 美的中央空调故障代码H系列家庭中央空调(第一部分多联机)
- 业主委员会成立流程图
- (完整版)全usedtodo,beusedtodoing,beusedtodo辨析练习(带答案)
- 广联达办公大厦工程施工组织设计
评论
0/150
提交评论