下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第一章 绪论n 统计三层涵义:统计活动、统计数据和统计学。n 统计学:是一门收集、整理、归纳、分析统计数据的科学,其目的是探索数据内在的数量和规律性。n 统计学发展过程:创立于17C至18C古典统计学(国势学/政治算数学-威廉配第)-近代统计学(统计学之父凯特勒,将概率论和统计学结合)-现代统计学n 统计学研究对象:客观事物的数量特征和数量关系。研究对象四大特点:数量性/总体性/具体性/变异性。n 两种统计研究方法:(描述统计和推断统计)1. 按分析方法不同:描述统计和推断统计./A.描述统计:用图形、表格和概括性的数字对数据进行描述的统计方法。主要内容包括:数据搜集、加工处理、显示、概括与分
2、析./B.推断统计:根据样本信息对总体进行参数估计、假设检验、预测或其他推断的统计方法。/C.描述统计与推断统计的关系:二者是统计方法的两个组成部分, 描述统计是统计学的基础,推断统计是现代统计学的主要内容.2. 按研究角度不同:理论统计和应用统计n 总体与样本:1. 总体:是由客观存在的、具有某种共同性质的许多个别单位构成的全体。两特点:同质性/大量性。总体单位:组成总体的每个单位资料的原始承担者资料最初取得来源2. 样本:从总体中随机抽取若干单位构成的集合。四特点:取自总体内部/不唯一性/代表性/客观性n 变量与标志1. 变量:总体中个体单位所具有的特征或特性。1、变量:可变的数量标志/2
3、、变量值:变量的数量表现化。按其变量值是否具有连续性:连续变量小数和整数/离散变量整数/按性质:确定性变量/随机性变量2. 标志:说明总体各单位的属性和特征名称。按反映单位的特征分类:品质标志文字/数量标志数字(变量)。按各单位的表现是否相同分类:可变标志/不变标志n 参数与统计量1. 参数:描述总体特征的概括性数字度量,是总体的某种特征值。希腊字母:如总体均值(m)/标准差(s)/总体比例(p)2. 统计量:描述样本特性的概括性数字度量根据样本数据计算出来的一些量是样本的函数。小写英文表示如样本均值(x)、样本标准差(s)、样本比例(p)等第二章 数据的收集和整理n 四种计量尺度:定类(列名
4、)尺度=/定序(顺序)尺度/定距(间隔)尺度-/定比(比率)尺度(由低到高,由粗略到精确)n 数据三种类型:静态(横截面)数据/动态(时间序列)数据/平行数据(动静态结合)n 数据的三种表现形式:绝对数/相对数/平均数n 统计数据的来源: 两种途径-次级数据(第二手数据) .原始数据(第一手数据)1.间来.2.直接来源.科学实验或统计调查。统计调查分为: A普查:为某一特定目的,专门组织的一次性全面调查. B.抽查:通过随机样本对总体数量规律性进行推断的方法.五特点:客观/经济/时效性强/适应面广/准确性高 统计调查的方案设计(六步骤):1确定调查目的/2确定调查对象和单位/3设计调查项目和调
5、查表/4确定调查时间/5调查方法的选择/6统计调查的组织实施n 数据搜集的五种组织方式:1.普查(特定目的,全面调查)/2.抽样调查(随机,抽一部分,反映总体特征)/3.重点调查(非随机,抽一部分,大致反映总体特征)/4.典型调查(非随机,抽特殊的,不反映总体特征)/5.统计报表我国目前形成了以 定期普查 为基础,经常性抽查为主体,以重点调查和统计报表为辅助的资料搜集模式.n 数据搜集的四种基本方法:直接观察法/访问法/报告法/问卷法 n 统计整理的两个核心: 统计数据的分组和编制频数分布表.n 统计数据的分组是统计整理的第一步。品质标志分组:按事物性质和属性划分/数量标志分组.按数量特征n
6、次数分配/分布数列/频数分布:在统计分组的基础上,将总体的所有单位按一定标志分组整理,并按一定顺序排列形成总体单位在各组的分布.分布数列由两个基本要素构成:组/单位数(即次数或频数). 各组次数与总次数之比称频率或比重.根据分组标志的特征不同划分为:品质数列和变量数列.n 组距式变量数列(频数分布表)编制方法:1. 全距R=最大变量值-最小变量值2. 组数n=1+3.322lgN(N表示变量个数)3. 组距i=R/n=上限-下限 (组距是各组中最大变量值和最小变量值之差)4. 组限(限定各组组距的数值)5. 组中值=(上限+下限)/2 (组中值是上限到下限之间的中点数值)6. 累计频数(分布在
7、各组的单位数如人数)和累计频率(各组次数与总次数之比为频率如人数比重).向上累计频数(频率)是变量值小的组向大的组依次累计第三章 数据特征的度量n 众数、中位数和均值的关系:众数是分布最高峰所在的位置。中位数从面积上将分布分成两等份。均值由于受极端值的影响,故将均值拉向偏向极端值的右方。n 已分组数据均值:xi=1kxifii=1kfi 方差:s22=(-) 离散系数:n 数据的分布特征:可从数据的集中程度/数据的离散程度/数据分布的峰度和偏度 三个方面度量和描述.n 数据集中程度的度量:反映的是数据一般水平的代表值或者数据分布的中心值。(测度方法有:简单or加权算数平均数/调和(倒数)平均数
8、/几何平均数G/众数M0 /中位数M e )其中各种平均数是计算的平均数中位数和众数是位置平均数不易受极端值的影响.n 众数/中位数/均值的特点和关系:1. 众数:不受极端值影响/具有不惟一性/数据分布偏斜程度较大时应用2. 中位数:不受极端值影响/数据分布偏斜程度较大时应用3. 均值:易受极端值影响/数学性质优良/数据对称分布或接近对称分布时应用4. 关系:左偏分布 对称分布 右偏分布n 数据离散程度的度量:反映的则是分布离散和差异程度(测度方法有:极差R/内距(四分位差)/方差2标准差/离散系数)。第四章 统计指数 同度量因素:指媒介因素, 使若干由于度量单位不同不能直接相加的指标,过渡到
9、可以加总和比较而使用的媒介因素.作用:将不同度量的现象转化为同度量的现象,n 编制数量指标指数时,同度量因素所属时期固定在基期水平上;n 编制质量指标指数时,同度量因素所属时期固定在报告期水平上。 指数的作用: 1.综合反映事物的变动方向与变动程度/2.对复杂的社会经济现象进行因素分析/3 可以研究事物在长时间内的变化趋势n 综合指数和平均指数:1. 综合指数:编制基本方法为”先综合后对比”,包括 帕氏指数和拉氏指数2. 平均指数:编制基本方法为”先对比后平均”包括 算术平均指数和调和平均指数3. 二者都是总指数的基本形式之一,用来反映复杂现象总变动/都与基期和报告期相关,分为质量因素和数量因
10、素n 随机变量的概率分布:、离散型随机变量的概率分布:可以用图形或公式来描述随机变量的可能取值及其所对应的概率课例举。、连续型随机变量的概率密度:不可举例,只可以取某一区间第五章 抽样与抽样分布n 抽样调查:按照一定的规则从总体中取出一部分单元组成一个样本,并收集样本的数据资料的过程,简称为抽样. 根据抽样的原则不同,抽样方法有随机抽样和非随机抽样两种。n 随机抽样分类:(根据抽样规则不同,抽样可以分为随机抽样和非随机抽样)、简单随机抽样(可重复亦可不重复):在从总体中抽取个单位为样本,也称纯随机抽样。特点:最符合随机原则,但在实际操作中存在局限性/、分层/分类抽样(可重复亦可不重复):在抽样
11、之前先将总体的单位划分为若干层,然后从各个层中抽取一定数量的单位组成一个样本。若较大,分层比简单误差小。/3、系统抽样/等距抽样/机械抽样(不重复抽样):在抽样中先将总体个单位按某种顺序排列,并按某种规则确定一个随机起点,然后,每隔一定的间隔抽取一个单位,直至抽取n个单位形成一个样本。/4、整群抽样:先将总体划分成若干群,然后再以群作为调查单位从中抽取部分群,进而对抽中的各个群中所包含的所有个体单位进行调查或观察。n 重复抽样与不重复抽样.(有放回和无放回的简单随机抽样)重复:从总体中抽取一个单位并加以计量后,把这个单位放回到总体中再抽取第二个单位,直到抽取n个单位为止.不重复:一个单位被抽中
12、后不再放回总体,然后再从所剩下的单位中抽取第二个单位,直到抽出n个单位为止。n 抽样分布:由样本n个观察值计算的统计量的概率分布。n 样本统计量:是根据样本资料计算出来的,值随着样本的不同而变化,是一个关于样本的随机变量.n 三种分布的概念:1. 总体分布: 总体中各元素的观察值所形成的分布; 分布通常是未知的;可以假定它服从某种分布。2. 样本分布: 一个样本中各观察值的分布,也称经验分布.当样本容量n逐渐增大时,样本分布逐渐接近总体的分布3. 抽样分布:是由来自某总体样本的n个观测值计算的统计量的概率分布,是一种理论分布。n 三个抽样分布:1. 样本均值的抽样分布: 由独立同分布中心极限定
13、理,如果n充分大,当重复抽样时,样本均值 x服从均值为,方差为2的正态分布.当n30时,样本均值的抽样分布可以看做正态分布.2. 样本比率的抽样分布: 如果从总体中简单随机抽样则每次抽中的单元具有性质A的概率为。从总体中抽取一个容量为n的简单随机样本,则该样本中具有性质A的单元的个数随机变量X服从参数为(n,)的二项分布,即XB(n,)。由伯努利中心极限定理,当n充分大时,随机变量X近似服从均值为n,方差为n(1-)的正态分布3. 样本方差的抽样分布:由卡方分布的定义,对来自正态总体的简单随机样本,统计量2=(n-1)s2/2服从自由度为n-1的卡方分布.第六章 参数估计n 参数估计:利用样本
14、所获得的一些数量特征(样本统计量)来估计总体参数.分为点估计和区间估计.n 点估计:用样本估计量的值直接作为总体参数的估计值n 区间估计:在点估计的基础上,给出总体参数估计的一个范围。n 估计与估计量:1. 估计:是根据样本统计量的观测值来确定参数值2. 估计量:是利用样本统计量来估计总体参数. 评价估计的优良性:需要集合估计量的性质来评判.性质包括:无偏性/有效性/一致性n 置信区间:由样本统计量所构造的总体参数的估计区间称为置信区间 n 置信水平:将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比率称为置信水平.n 在同样的置信水平下,抽样比较越大,给出的置信区间宽度越
15、小.n 95%的置信水平是指:用同样的方法构造的总体参数的多个区间中,包含总体参数的比例为95%.n 影响样本容量大小的因素有:总体方差,可靠程度,允许误差第七章 假设检验n 假设检验:是先对总体的参数(或分布形式)提出某种假设,然后利用样本信息判断假设是否成立的过程.分为两类:参数检验和非参数检验. 逻辑上运用反证法,统计上依据小概率原理n 假设检验的基本概念:小概率原理/原假设与备择假设/单侧检验与双侧检验/两类错误与显著性水平/拒绝域和接受域n 假设检验中的两种假设:1. 原假设:是研究者想收集证据予以反对的假设,也称为零假设,在线性条件下无相关关系即相关系数计算结果为零。用H0表示。只
16、存在符号=)2. 备择假设:是研究者想收集证据予以支持的假设,也称为研究假设,用H1表示。只存在符号)n 假设检验的原理:小概率原理. 即在一次试验中,一个几乎不可能发生的事件发生的概率.在一次试验中小概率事件一旦发生,我们就有理由拒绝原假设.小概率由研究者事先确定.在进行假设检验的时候,人们总是视问题的要求,规定一个小概率的参考值a (0a1),然后把事件发生的概率与进行比较。 n 建立假设:1、在一项假设检验中,原假设和备择假设必有一个成立,而且只有一个成立。2、在建立假设时,通常是确定备择假设,然后再确定原假设。备择假设是人们所关心的,是想予以支持或证实的。3、在假设检验中,等号总是放在
17、原假设上。4、在面对某一实际问题时,由于不同的研究者有不同的研究目的,即使对同一问题也可能提出截然相反的原假设和备择假设。5、假设检验的目的主要是收集证据来拒绝原假设。n 两类错误与显著性水平:1. 当原假设为真时拒绝原假设,所犯的错误称为第I类错误,又被称为弃真错误。第I类错误的概率被称为显著性水平,通常为。2. 当原假设为假时没有拒绝原假设,所犯的错误被称为第II类错误,又称为取伪错误。犯第II类错误的概率通常记为。 假设检验的步骤:1.根据问题的要求,提出原假设H0和备择假设H1/2.构造检验统计量及其分布 /3.根据样本数据计算出检验统计量的具体数值 /4.给出显著性水平,确定检验统计
18、量的临界值与拒绝域 /5.把检验统计量的值与临界值作比较,进行决策 统计量的值落在拒绝域,拒绝H0,否则不拒绝H0n 标准化检验统计量=点估计量-假设值点估计量的抽样标准差第九章 相关与回归分析n 变量间的两种相互关系:1. 函数关系:变量之间存在的严格的确定的关系。 2. 相关关系:指变量之间的不确定性的依存关系。 n 相关关系的类型:1. 按照相关关系的密切程度划分:完全相关、不完全相关和不相关。2. 按相关的表现形式划分:线性相关和非线性相关。3. 按相关的方向划分:正相关和负相关。4. 按相关关系涉及的变量多少划分:单相关、复相关和偏相关。 对一元回归模型进行参数估计前应该对简单线性回
19、归模型做出如下假设:1. X和Y之间的关系是线性的2. 零均值.E是一个随机变量,具有零均值3. 同方差.E具有相同的方差4. 独立性.E之间相互独立5. 正态性.E服从正态分布6. X是非随机的.与E相互独立.否则分不清是谁对Y的贡献 相关分析与回归分析的区别:1. 相关分析:研究变量之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法2. 回归分析:却是确定两个或两个以上变量间相互依赖的定量关系的一种统计分析方法。 3. 相关分析其主要目的在于分析现象间相关关系的形式和密切程度以及依存变动的规律性,一般不区别自变量或因变量
20、,而回归分析则需要分析现象之间相关的具体形式,确定其因果关系,并用数学模型表现其具体关系n 相关系数:相关系数可以用来反映变量之间相关关系密切程度。相关系数是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度 .n 相关系数的检验:1.提出假设: 2. 构造检验统计量t=rn-21-r2 3.给定显著性水平 ,查表得到临界值t/2,(n-2) 4.作决策:若统计量计算值的绝对值大于临界值,拒绝原假设 第十章 时间序列分析n 时间序列分析:一门专门研究按时间的先后顺序观测并记录的数据的规律性的分析方法。n 时间序列:按照时间的先后顺序记录,并排列而成的
21、数列,也称为动态数列n 时间序列的两个基本要素:被研究对象所属的时间范围/反映该现象一定时间条件下数量特征的数值,即在不同时间上的统计数据n 时间序列分析的目的:描述事物在过去时间的状态,分析其随时间推移的发展趋势,揭示事物发展变化的规律,预测事物在未来时间的数量即分析过去、认识规律、预测未来n 时间序列的种类:(按照其数量指标的性质和表现形式,时间序列可以分为:绝对数时间序列/相对数时间序列/平均数时间序列 )1. 绝对数时间序列:将同类总量指标值在不同时间上的数值按时间的先后顺序排列所形成的时间序列,反映了社会经济现象达到的绝对水平。根据时间的特点,绝对数时间序列又可分为时期序列和时点序列。 2. 相对数(平均数)时间序列:将同类相对指标(平均指标)在不同时间上的数值按时间的先后顺序排列所形成的时间序列/都是绝对数时间序列派生出来的/各时间上的指标值直接相加都没有实际意义 n 时间序列的编制原则:1.保证序列的可比性/2.要保证获取数据的时间间隔一
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《汽车电子控制技术》教学大纲
- 《动力电池技术》教学大纲
- 震撼人心的130句经典语录
- 玉溪师范学院《三笔字书写技法》2022-2023学年期末试卷
- 玉溪师范学院《绝版木刻创意制作》2023-2024学年第一学期期末试卷
- 显微镜的成本核算-记账实操
- 2023年氨泵项目成效分析报告
- 2019湘美版 高中美术 选择性必修4 设计《第二单元 产品设计》大单元整体教学设计2020课标
- 2024届河北省沧州市普通高中高考一模数学试题
- 宾馆安保协议书
- 2024-2025学年初中九年级数学上册期中测试卷及答案(人教版)
- GB/T 18488-2024电动汽车用驱动电机系统
- 2024入团知识题库(含答案)
- 电梯日管控、周排查、月调度内容表格
- 职业生涯规划(图文)课件
- 1+X数字营销技术应用题库
- 冷库是有限空间应急预案
- 学校安全隐患排查整治表
- 房屋施工安全协议书
- HCCDP 云迁移认证理论题库
- 义务教育英语课程标准(2022年版)
评论
0/150
提交评论