




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、.:.;调查数据分析 概念 张海波 主编,中国统计出版。自学考试以及调查分析师考试指定教材 张海波 主编,中国统计出版。自学考试以及调查分析师考试指定教材 目录第一章调查数据分析的根本问题第二章 调查数据的整理第三章 调查数据的描画分析第四章 调查数据的推断分析第五章 调查数据的相关分析第六章 调查数据的回归分析第七章 调查数据的多元统计分析第八章 调查数据的预测分析第九章 调查数据的实际分析第十章 调查分析报告调查数据分析第一章 调查数据分析的根本问题 (一)调查数据分析的意义 , 调查数据分析 调查数据分析是根据研讨的目的和要求,运用科学的方法和手段,对调查数据进展定性和定量分析, 提示景
2、象的本质和规律,为决策和管理提供咨询效力的过程. , 调查数据分析是调查研讨过程中的一个非常重要的环节.调查数据分析具有本身的内在规律和特点, 主要表如今以下几个方面:数据分析过程要定性分析和定量分析相结合;数据的定量分析以统计分析 主要表如今以下几个方面 方法为主;数据分析不能孤立于被调查研讨的景象独立地进展;数据分析过程是一次认识上的质的飞跃. , 调查数据分析在整个调查研讨过程中占有非常重要的位置,其重要性 重要性主要表如今以下几个方面: 重要性 数据分析是调查研讨不可短少的重要环节;数据分析是充分发扬调查研讨作用的重要保证;数据分析 在检验调查研讨其他环节的任务质量中有着特殊的作用;经
3、过数据分析还可以促进调查数据分析方法的研 究. (二)调查数据分析的原那么与方法 ,调查数据分析作为调查研讨的一个重要阶段,有其本身的规律和要求.在进展调查数据分析时,应该 遵照的原那么主要有: 遵照的原那么 .科学性原那么.科学性原那么是指在数据分析中,应该根据调查数据的属性和特点,调查数据的来源渠道, 调查研讨的义务和目的,选择科学合理的分析方法进展分析 .客观性原那么.客观性原那么是指在数据分析中,必需遵守实事求是原那么,充分了解研讨对象的各种实践 情况,尊重调查数据现实,保证分析结果的公正与客观 .目的性原那么.目的性原那么是指数据分析必需围绕调查研讨的义务和目的来进展,其分析的结果必
4、需能 够满足调查研讨的需求; .系统性原那么.系统性原那么是指数据分析要将所的景象进展分解,然后对各种复杂的联络进展分析和综 合. ,调查数据的分析方法有多种,但从方法论的角度来看,有定性分析方法和定量分析方法两大类. 定性分析方法是人们根据现实,运用阅历和判别才干,逻辑思想方法,哲学方法和相关专业实际,对 定性分析方法 景象进展判别,归纳,推理和概括,得出对事物的本质和规律性的认识的方法体系.详细包括归纳分析法, 演绎分析法,比较分析法,因果分析法,构造与功能分析方法等. 定量分析方法是对调查数据进展数学和统计处置分析的方法体系的总称. 定量分析方法 调查数据分析中所运用的定量分析方法主要是
5、统计分析方法.统计分析方法分为描画统计分析方法和 推断统计分析方法.描画统计分析方法是指对调查数据进展综合整理和计算综合目的等加工处置,用来描 述总体特征的统计方法;推断统计分析方法是指根据调查的样本数据去推断总体数量特征的方法. ,在调查数据分析过程中,应该正确地选择分析方法.调查数据分析方法的选择,主要是定量分析方法 的选择,而定量分析方法主要是统计分析方法.选择统计分析方法 选择统计分析方法,主要是根据研讨假设,调查方式,变 选择统计分析方法 量多少,数据类型来确定. (三) 调查数据分析的程序和要求 ,调查数据的分析过程包括分析方案的制定,原始数据的整理,分析方法的选择,数据的定量分析
6、, ,调查数据的分析过程 数据的定性分析,调查报告的撰写等环节. 调查数据分析 ,调查数据的分析不是一项简单的任务,也不是一项孤立的任务,要作好这项任务,必需具备一定的 条件:.对调查数据质量的要求.包括真实性要求,准确性要求和完好性要求;.对分析方案的完备性 要求,即要求在数据分析开场之前,必需充分思索各方面要素,制定出详细,可行的分析方案;.对分 析人员素质的要求.要求分析人员具有系统的统计学功底,具有熟练的计算机操作才干,具有广泛的专业 实际知识,具有较高的认识程度,具有良好的表达才干. 调查数据分析 第二章 调查数据的整理 (一)数据整理的概念与作用 ,数据整理,就是根据调查研讨的目的
7、与义务,对搜集到的各种数据,采用科学的方法,进展审核汇总 ,数据整理 与初步加工,使之条理化,系统化,并以图表的方式显示数据特征,以符合数据分析需求的任务过程. ,其作用 作用有:数据整理能全面检查数据的质量,保证了数据的有用性;数据整理是数据分析的 作用 根底;数据整理是积累及保管资料的客观要求. ,数据整理应遵照以下原那么 数据整理应遵照以下原那么:真实性原那么.即一方面要仔细审核原始数据的真实性,又应留意在 数据整理应遵照以下原那么 整理的各个环节,合理地选择整理方法和技术,保证原始数据的真实性不受损害;准确性原那么;科学 性原那么;目的性原那么. ,数据整理的普通步骤是 数据整理的普通
8、步骤是:数据的审核;数据的编码;数据的分组;数据的汇总;数据 数据整理的普通步骤是 的显示. (二) 编码 编码,是将问卷的问题及答案转化为计算机可以识别的数字或符号. ,经过编码,方便录入,适宜电脑进展处置.有事前编码与事后编码.事前编码 事前编码是指在设计问卷时 事前编码 就给予每一个变量和能够答案分配代码,适用于封锁性问卷.事后编码 事后编码是在数据搜集完成以后正式整理开 事后编码 始之初,对调查询题的能够答案所进展的编码.对开放型问题,只能采取事后编码的方式. ,常用的几种编码方法有: ,常用的几种编码方法有 顺序编码法:是用一个规范对数据进展分类,并按一定的顺序用延续数字或字母进展编
9、码的方式; 分组编码法: 是根据调查数据的属性特点和处置要求, 将具有一定位数的代码单元分成假设干组 (或区间) , 每一个组的数字均代表一定的意义;信息组码编码法:是把调查数据区分不同的组,给每一个组以一定 组码来进展编码的方法;表义式文字编码法:是用数字符号等阐明编码对象属性,并依此方式对调查数据 进展编码的方法. ,编码是一项细致的任务,为方便运用,需求编制一致的编码手册.编码手册包括四个主要工程 编码手册包括四个主要工程, 编码手册包括四个主要工程 即问题顺序号,每个工程的预留代码位置,工程称号和内容阐明. ,编码时应留意以下问题 编码时应留意以下问题:编码符号绝大多数情况下都必需用数
10、字,个别时也可以采用英文字母; 编码时应留意以下问题 可以对某些数字赋予特殊的意义,便于整理资料时识别;编码位数应根据详细情况予以确定. ,编码完成以后,就可进展数据录入.数据的录入 数据的录入是指将问卷或调查表或登录卡上的编码数字读到 数据的录入 磁盘,磁带中,或经过键盘直接输入到计算机的任务过程.有手工录入和光电录入两种方式. ,对搜集到的数据能否真实可靠,还应进展审核.普通从准确性,完好性两方面进展. 审核准确性是关键, 主要是检查数据能否存在过失, 有无异常值. 检查的方法有逻辑检查与计算检查. 审核数据的完好性是检查应调查的个体能否存在脱漏,所要求调查的工程能否齐全,有无缺项等.对不
11、符 合调查要求的数据,那么应进展挑选.挑选有两方面的内容,一是对不符合要求或确认有错误的数据予以剔 除,保管可靠性的数据.二是过滤,将符合某种特定条件的数据选取出来,而不符合条件的数据予以剔除. ,为合理安排数据,应首先对数据进展排序.排序是按一定顺序陈列数据,便于察看数据的分布范 围及特征.能为重新归类或分组等作预备,方便数据检索.对分类数据,普通按其英文字母或汉语拼音字 母进展升序陈列,也可按首个汉字的笔画数目由少到多的顺序陈列.对数值型数据,可采用递增与递减两 种方式陈列.递增排序是由小到大陈列,递减排序是由大到小陈列. 调查数据分析 ,分组是将原始数据按照某种规范划分为不同组别,以满足
12、研讨的需求.对数值型数据由各组的表 示方法不同分为单变量值分组和组距分组.单变量值分组中的每一组用一个变量值来表示.组距分组中每 一组用一定变动范围的两个变量值表示.有等距组距分组和异距组距分组.组距分组的根本步骤是:通 过排序的数据察看其极大值与极小值,找出变动的总范围;确定组数.一组数据分成多少组是分组中首 K =+ lg N lg ;确定各组组距.组距与组数成反比; 先需求确定的.通常可根据以下公式计算出建议组数 确定组限的表示方法,编制成频数分布表. ,频数 频数是指落入各类或组中数据的个数,当他们把各组及相应频数按顺序全部加以陈列,并用表格 频数 的方式表现出来,就是频数分布.它可以
13、显示数据的分布情况,用于研讨事物的内部构造. 将各组频数逐级累加得到的频数,称为累积频数 累积频数. 累积频数 ,为更好地表现数据特点.需求展现数据.其中图形表现,就是一种有效方法. 常用的统计图有以下几种:条形图,直方图.条形图和直方图大都是用来表现频数分布的.但两者 常用的统计图有以下几种 适用的数据类型不同.条形图是运用等宽条形的长短或高度来表示数据的多少的图形.直方图是用一定宽 度与长度所围成的矩形面积来表示数据大小的图形.矩形的宽度与高度均有意义.此外,还可根据累积频 数或累积频率,绘制累积频数及累积频率分布图. 饼型图,环形图.饼型图及环型图是来描画各种比例的图形.饼型图是用圆内扇
14、形的面积表示数值 大小的图形.以圆为整体,笼统的阐明各部分在总体中所占的份额.环形图是用圆内各环中每一段的面积 来表示数值的大小的图形.可以同时显示多个总体的内部构造. 茎叶图,箱线图.对未经分组的数值型数据,适宜用茎叶图,箱线图来显示.茎叶图是由茎和 叶两部分组成, 茎代表分组,表示高位数值; 叶代表频数,列示个位数值.箱线图是用一组数 据的五个特征值来描画该组数据的分布情况.既可显示单组数据,也可显示多组数据.其五个特征值分别 是一组数据的最小值,最大值,中位数,下四分位数,上四分位数. 线图.线图,是反映时间序列数据的图形,即在平面坐标上标注各数据点并衔接成折线,表现数量 变化规律及特点
15、的统计图.其横轴上列示时间的先后次序,纵轴上列示变量值. 雷达图.雷达图,反映多个变量多个察看样本数据的图形.在一个平面上绘有多个数轴,每个轴上 显示一个变量的取值,每个样本的各察看值分别在各轴上标出. ,统计表 统计表是表现调查数据的另一个重要方式.是指将一系列阐明景象特性的经加工整理后的调查数 统计表 据,按一定次序和格式陈列构成的公用表格.其作用不仅能有效表现数据,更有利于资料的储存保管,还 是积累资料的有效手段.为下一步分析提供根底,为进一步发掘数据提供便利. 统计表由两端不封口的纵横交错的直线围成各区域.从外形看,由总标题,行标题,列标题和详细数 值及表外附加组成. 从内容看,统计表
16、分为主词与宾词两部分.主词是指统计表要阐明的主体,也即研讨的对象,通常是各 个总体单位的称号或总体经分类(分组)构成的各个组.宾词是统计表要阐明研讨对象的某些方面情况, 现实.根据主词能否分组及分组的情况,可将统计表分为简单表,分组表,复合分组表. 为更好地表现调查数据,就需求精心设计统计表,设计时须留意以下几点:合理安排表的内容, 设计统计表, 计时须留意以下几点 设计统计表 简明扼要,集中醒目,根据表的内容决议行标题与列标题的摆放位置,确定适宜的长宽比例.采用适当 的陈列顺序,置于顶端的总标题要确切,明确阐明统计表要反映的内容,时间与空间范围.各项标题也要 调查数据分析 简单明了.表的上下
17、两条横线要用粗线标出,中间各行普通不画线,有特殊要求需标横线的那么用细线. 使观看效果清楚醒目.当统计表的栏次较多时,普通会进展编号.统计表中的数字应填写清楚,陈列 有序,并采用一致的准确度,按位置对齐. 第三章 调查数据的描画分析 本章讲述的是如何用目的的方式来认识调查数据数量特征的实际和方法.内容包括相对目的,平均目的和 变异程度目的的设计思想,计算方法及运用原那么. 调查数据分析中常用的相对目的,有无名数和名数两种表现方式,按功能不同,相对目的分为:构造相对 目的,比例相对目的,比较相对目的,动态相对目的及方案完成程度相对目的.学习时应留意掌握各种相 对目的的计算方法.在计算相对目的时首
18、先应留意分子与分母的可比性,同时还应留意各类目的的运用条 件.在运用相对目的时应遵照相对目的与绝对目的相结合的原那么. 平均目的是阐明一组数据值普通程度的目的,是一个代表性的数值.当不计较数据中极端值对均值程度的 影响时,平均目的可用数值平均法计算;否那么,采用位置平均法计算.学习时应了解平均的本质,熟练掌 握各种平均值的计算方法,要深化了解权数的意义并明白算术平均是最根本的,运用面最广的平均方法. 此外还应了解算术平均值,调和平均值,几何平均值的关系以及数值平均值与位置平均值的关系. 变异目的是描画一组数据值间详细差别程度大小的统计目的,其数值的大小一方面反映数据值变异程度的 大小;另一方面
19、反映均值的代表性好坏.学习时应熟练掌握各种变异目的的涵义和计算方法,特别是规范 差的计算和运用. 第四章 调查数据的推断分析 根本内容概述 本章讲述的是如何用样本数据认识总体数量特征的实际和方法.内容包括参数估计,参数的假设检验 和方差分析的统计思想,计算方法及运用原那么. 参数估计是根本统计推断方法之一.未知参数 的点估计,就是构造一个统计量 ( X , X , , X n ) 作为 参数 的估计.其方法有:矩法,似然函数法和最小二乘法.评价估计量的优良规范普通有:无偏性,有 效 性 和 一 致 性 . 未 知 参 数 的 区 间 估 计 , 就 是 在 给 定 的 概 率 ( ) 下 ,
20、估 计 参 数 的 变 化 范 围 ( X , X , X ), ( X , X , X ).其中: ( ) 称为置信程度, , 分别称为置信下限及置信上限, 区间 ( X , X , X ), ( X , X , X )称为置信程度为 ( ) 的置信区间.学习时应留意掌握统计量的 L n U n L U L n U n 抽样分布实际,这是统计推断的根底,重中之重.要熟练掌握各种情况下参数均值( ) ,方差( )和 成数(P)的区间估计方法. 参数的假设检验是另一类重要的统计推断方法,它利用样本统计量并按一定的决策规那么对零假设 H 作出接受或回绝的推断.假设检验的根据是样本信息,判别规那么是
21、小概率原理,推断方法是概率反证 法.学习时应了解假设检验的统计思想,明白假设检验作出的推断结论(决策)不能保证绝对正确,能够 会犯两类错误.要熟练掌握 Z 检验法, t 检验法, 检验法和 F 检验法的原理,记住假设检验的操作过 调查数据分析 程. 方差分析是多个总体的方差都相等的条件下,其均值能否也全都相等的判别方法,同时也是实验数据 中能否存在系统要素影响的判别方法.学习时应掌握方差分析的统计思想及假定条件,熟练掌握单要素方 差分析的操作过程. 第五章 调查数据的相关分析 根本内容概述 (一)相关分析概述 在自然界与人类社会中,许多景象之间存在着相互联络,相互制约的关系.景象之间的关系可以
22、概括 为两种不同的类型,即函数关系和相关关系.函数关系是指景象之间客观存在的,在数量变化上按一定法 那么严厉确定的相互依存关系.相关关系是指景象之间客观存在的,在数量变化上受随机要素影响的,不确 定的相互依存关系.在相关关系中,景象之间在数量变化上也存在着一定依存关系,但这种依存关系并 不是确定的.由于受随机要素的影响,当某一景象在数量上发生变化时,另一景象并不按某一确定法那么 发生变化,而是在一定的范围内发生动摇.但经过大量察看,依然可以发现景象之间具有内在的变化规 律.相关关系与因果关系有着较亲密的联络.在相关关系中,有许多相关景象之间存在单向因果关系. 单向因果关系有直接单向因果关系与间
23、接单向因果关系之分.在相关关系中,有许多相关景象之间存在双 向因果关系.双向因果关系也有直接双向因果关系和间接双向因果关系.对双向因果关系的景象进展统计 分析时,经常根据分析研讨的目的来确定自变量和因变量. 相关关系多种多样.从相关关系涉及的变量多少看,相关关系可分为单相关与复相关.单相关是指 两个变量之间存在的相关关系.复相关是指三个及三个以上的要素之间所存在的相关关系. 从相关关系 的不同方式来看,相关关系可分为线性相关与非线性相关.线性相关也称为直线相关,它是指相关的变量 中,假设自变量变动时,因变量大致地围绕一条直线发生变动.非线性相关也称为曲线相关,它是指相关 的变量中,假设自变量变
24、动时,因变量大致地围绕一条曲线发生变动.从相关关系的亲密程度来看,相关 关系可分为不相关,完全相关和不完全相关三种.假设各变量彼此的变化相互独立,这种关系为不相关; 假设一个变量的变化由另一个变量所独一确定,这时两个变量之间的关系称为完全相关. 从相关关系的 方向来看,相关关系可分为正相关与负相关.假设相关自变量和因变量的变化方向一致,那么自变量和因 变量之间就存在着正相关;假设相关的自变量和因变量的变化方向相反,那么自变量和因变量之间就存在着 负相关. 相关分析是指对变量之间的相关关系的表现方式,亲密程度和变化方向进展分析和研讨.相关分析主 要内容包括三个方面:确定变量之间有无关系;确定相关
25、关系的表现方式;判别关系的亲密程度和方向. 相关分析作为一种认识景象之间数量变化关系的一种方法,它对数据的采集具有一定的要求.在进展 相关分析时,由于条件的限制,在大多数场所下,他们只能根据样本数据进展相关分析.那么,足够的样 本察看点是进展相关分析的重要条件. 对于不同类型的数据,进展相关分析时所选择的方法是不同的.定性数据中,定类数据普通采用交互 列表方法,x 检验方法,质量相关系数分析方法进展分析;定序数据那么采用等级相关系数分析方法进展分 析.对于定量数据那么采用相关表,相关图,简单相关系数,复相关系数,偏相关系数等进展分析. 调查数据分析 (二)定性数据的相关分析 在实践进展的大量社
26、会经济调查中,他们所搜集到的数据许多是定性数据,个别一些数据如收入,年 龄等也主要分析它们的层次差别与其他定性变量之间的关联构造关系.对于定性数据进展相关分析,主要 采用交互列表方法,x 检验方法,质量相关系数和等级相关系数分析方法进展分析. 交互列表分析方法是以交互列表(也称为列联表)为工具,同时将两个或两个以上具有有限类目和确 定值的变量按照一定顺序对应陈列在一张表中, 从中分析变量之间的相关关系, 得出科学结论的分析技术. 交互列表分析方法有双变量交互列表分析和三变量交互列表分析两种方法.其中,双变量交互列表分析是 最根本的交互列表分析方法.双变量交互列表分析由于涉及的变量较少,在提示变
27、量之间的关系时能够不 太深化或产生虚伪的结果.为了抑制这一缺陷,在许多场所他们要在双变量交互列表分析的根底上,引入 第三个变量作深化分析,即进展所谓的三变量交互列表分析.三变量交互列表分析法主要有三个方面的作 用: ()更准确地反映原有双变量之间的关系; ()检验双变量交互列表分析结果的真伪; ()提示新的 变量关系. x 检验分析是运用 x 统计量对定类或定序变量之间能否具有相关关系进展统计检验的分析方法.x 检 验是对交互列表中变量的相关关系进展检验,是交互列表分析的深化.所以,在进展 x 检验之前,必需编 制出交互列表.x 检验分析的根本步骤是:建立两个变量间无关系的假设;计算 x 统计
28、量; 规定 显著性程度; 根据自在度和规定的显著性程度,查 x 分布表,得到临界值;作出统计决策. x 检验分析,研讨的是两个变量之间能否存在相关关系的问题.而两个变量之间的相关关系的强弱, 还需经过质量相关系数来反映.常用的质量相关系数是 系数, v 系数, c 系数和 系数. 等级相关系数是用来描画两个定序变量即等级序列之间的相关程度的目的.在等级相关系数中,尤以 斯皮尔曼(C.Spearman)等级相关系数的运用最为普遍.等级相关系数 rs 只是就样本而言的,它所阐明的 变量之间的相关程度能否在总体范围内显著地存在,还要对 rs 进展显著性检验. (三) 定量数据的相关分析 对于定量数据
29、进展相关分析,常采用的方法是简单相关系数,复相关系数,净相关系数等方法. 简单相关系数是用来测度两个变量之间线性相关程度的统计目的,也叫线性相关系数,普通情况下简 称为相关系数.简单相关系数 r 测定的是变量 x 和 y 之间的线性相关程度.其取值范围是-,.假设 r ,阐明 x 与 y 之间存在正相关;假设- r ,阐明 x 与 y 之间存在负相关;假设 r =,阐明 x 与 y 之间存在完全正相关;假设 r =-,阐明 x 与 y 之间存在完全负相关;假设 r =,阐明 x 与 y 之间不存在线性 相关关系.但要留意,这种判别只在样本范围内有效.那么,样本相关系数所描画的变量之间的相关程度
30、 能否也在总体范围内显著地存在,还必需经过相关系数的显著性检验来回答.对样本相关系数进展显著性 检验的步骤是:建立假设;确定显著性程度;建立检验的统计量;查 t 分布表,得到临界值 作出统计决策. 简单相关系数只能阐明两个变量之间的线性相关程度.然而景象之间的关系往往是多元的,复杂的, 一个景象的变动经常要受许多要素的影响,而且这些要素之间还存在相互交错的关系.假设研讨的目的涉 及多个变量,需求提示一个自变量与多个因变量之间的相关关系的程度,就需求计算复相关系数.复相 关系数是反映一个因变量与多个自变量之间数量变化关系亲密程度的目的.复相关系数的详细计算方法依 t ; 调查数据分析 自变量的个
31、数不同而异.复相关系数总取正值,越接近于 ,阐明因变量与多个自变量之间的线性关系越 显著. 复相关系数提示了多个自变量同时对一个因变量发生作用时,这个因变量与这些自变量之间的相关程 度.假设相关分析的义务是要提示对因变量有影响作用的多个自变量中,某一个特定变量与因变量之间数 量变化上的相关程度,就需求计算偏相关系数.偏相关系数是在多变量观测数据中分析两个特定变量之间 数量变化关系亲密程度的目的. 单纯的相关分析只能提示变量之间能否存在相关关系,存在何种相关关系,关系的亲密程度如何,还 不能测度变量之间的数量变动关系.要分析变量之间的数量变动关系,那么要进展回归分析. 第六章 调查数据的回归分析
32、 (一) 一元线性回归分析 回归分析是一种运用非常广泛的统计分析方法.回归分析按照涉及的自变量的多少,可分为一元回归 分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析. 假设在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分 析称为一元线性回归分析.假设回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性 关系,那么称为多元线性回归分析.本章重点引见线性回归分析. 回归分析的内容和步骤有: ()确立预测目的和影响要素; ()绘制散点图; ()求回归系数,并建 立回归模型; ()对回归模型进展检验; ()进
33、展估计和预测. 一元回归分析法是回归分析法中最根本的方法,也是运用最为广泛的一种方法.一元回归分析法技术 简单,它可以协助 他们了解多元回归分析法. 一元线性回归分析的根本模型为: y = a + bx + 为便于模型中参数的估计,他们经常假定模型中的 误差项 满足假设干经典假设.在误差项 满足假设干经典假设的条件下, 模型中的参数估计方法是普通最小二 乘估计法.在估计出参数的估计值 a 和 b 后,可获得阅历回归方程 y = a + b x 对于获得的阅历回归方程 y = a + b x ,还需进展统计检验. 检验分为拟合优度检验和回归系数的显著性 检验.拟合优度检验主要是运用断定系数和回归
34、规范差,检验模型对样本观测值的拟合程度.回归系数的 显著性检验有 t 检验和 F 检验两种方法. t 检验是对各回归系数的显著性所进展的检验, F 检验是对全部 回归系数进展一次性显著性检验, 其目的是检验回归方程在整体上能否显著成立. 在一元线性回归分析中, 由于只存在一个解释变量,所以上述两种检验是等价的. 假设回归模型经过了统计检验,那么可运用模型进展回归估计和回归预测.回归估计和预测主要是确定 估计值或预测值的置信区间. (二)多元线性回归分析 假设因变量与多个自变量之间相关,且为线性关系,那么需运用多元线性回归分析方法来研讨其数量上的依 存关系. 在多元回归模型中, 关于误差项 多元
35、线性回归分析法的根本模型为 y = b + b x + b x + + bk xk + . 的假定与一元线性回归模型的那些假定类似.在误差项 满足假设干经典假设的条件下,模型中的参数估计 调查数据分析 方法是普通最小二乘估计法.在估计出参数的估计值 b j ( j = , k ) 后 , 可 获 得 经 验 回 归 方 程 y = b + b x + b x + + bk xk .本章主要引见了多元线性回归分析中的二元线性回归分析方法. 二元线性回归分析法的回归方程为: y = b + b x + b x .二元线性回归模型中的参数,同样运用普通 最小二乘方法进展估计.在获得了回归参数的估计值
36、 b,b,b 后,还需对模型进展显著性检验.检验分 为拟合优度检验和回归系数的显著性检验.拟合优度检验主要是运用断定系数和回归规范差,检验模型对 样本观测值的拟合程度.回归系数的显著性检验有 t 检验和 F 检验两种方法. t 检验是对各回归系数的显 著性所进展的检验, F 检验是对全部回归系数进展一次性显著性检验,其目的是检验回归方程在整体上是 否显著成立.经过检验的模型就可用于回归估计和回归预测. 不论是进展一元线性回归分析,还是多元线性回归分析,假设模型中的误差项不能满足经典假设,存 在异方差或自相关,多重共线性等景象时,那么他们不能直接用普通最小二乘估计法估计模型中的参数,而 是先要对
37、原有模型进展变换,或对数据进展某种处置,然后再用普通最小二乘估计法估计模型中的参数. (三)非线性回归 在实践任务中,有时变量之间相关关系并非存在线性关系,而呈诸如抛物线,指数曲线,双曲线等各 种各样的非线性关系.这时,假设依然直接用线性回归方程进展分析,将不能正确反映客观景象之间的相 互联络.因此,需求运用适当方式的曲线回归方程来描画它们之间的关系.这种为察看数据拟合曲线回 归方程所进展的分析,称为非线性回归分析. 非线性回归方程的方式多种多样,本章主要引见了抛物线,指数曲线,双曲线,幂函数曲线,对数曲 线和 S 型曲线模型的方式及其参数的估计方法. 非线性回归分析的普通步骤是: 首先是对所
38、研讨的两个景象进展实际分析,分析两者之间 能否存在相关关系,以及是什么方式的相关,并结合察看散点图的分布,确定拟合哪种方式的曲线较为合 适.其次是确定好曲线方式后,列表计算其有关参数,从而确定所拟合的回归方程方式,并利用有关资 料计算相关系数,以察看所研讨的两个景象之间相互关系的严密程度.最后根据所确定的回归方程进展预 测. 第七章 调查数据的多元统计分析 (一) 聚类分析 聚类分析是一种分类的方法,主要用于识别具有类似性的事物,并根据彼此不同的特性加以聚类 使同一类的事物具有高度的一样性,而类与类之间却有着显著的差别.聚类分析可以对变量进展聚类,即 R 型聚类,也可以对样本进展聚类,即 Q
39、型聚类. 为了得到比较合理的分类,首先要采用适当的目的来定量地描画研讨对象(样品或变量)之间的联络 的严密程度.主要有以下三种()间隔 测度. ()相关测度. ()关联测度.其中相关测度和间隔 测度 适用于间距测度等级及以上的数据,关联测度适用于名义测度和顺序测度. 间隔 测度包括欧氏间隔 ,绝对值间隔 ,明科夫斯基间隔 ,马氏间隔 等方法;相关测度主要运用类似系 数; 关联测度有多种关联测度系数, 其中得到了广泛运用的分别是简单匹配系数, 雅可比系数和果瓦系数. 聚类分析内容非常丰富,有系统聚类,有序样品聚类法,动态聚类法,模糊聚类法,图论聚类法.本 调查数据分析 章主要引见常用的系统聚类法
40、.系统聚类法的详细很多,运用最广泛的有层次聚类法和迭代聚类法. 层次聚类法包括最短间隔 法,最长间隔 法,平均结合法,重心法,离差平方和法. 聚类分析的步骤是: ()确定待研讨问题并选择变量; ()选择聚类用的类似性测度方法; ()选择 聚类的方法; ()确定类别的个数; ()描画与解释各个类别; ()评价聚类的有效性与准确性. (二)判别分析 判别分析是一种统计区分和分组技术.它是根据一定数量样本的一个分组变量和相应的其他多元变量 的知信息,确定分组与其他多元变量之间的数量关系,建立区分函数,对未知分组类型所属的样本进展 判别分组.聚类分析和判别分析都是分类的方法,其主要差别在于:在判别分析
41、中,用于推导分类规那么的 样品的所属类别必需是事先知的;而在聚类分析中,一切样品或个体的所属类别是未知的,而且类别的 个数普通也是未知的,分析的根据就是原始数据. 进展判别分析有一些根本要求和假设条件: ()分组类型在两种以上,且组间样本在判别值上差别比 较明显; ()组内样本数不得少于两个,且样本数量比变量数量起码多 个; ()所确定的判别变量不能 是其他判别变量的线性组合; ()各组样本的协方差矩阵相等; ()各判别变量之间具有多元正态分布. 判别分析的根本模型也称判别函数, 用数学方式表示为 yi = b xi + b xi + + b j x ji . 根据所搜集样本的数 据,可以计算
42、出一个判别临界值 yc ,作为断定某个个体归属到哪一个类别的基准. 两总体情况下判别分析主要有以下几个步骤: ()确定研讨问题; ()确定分析样本和验证样本; () 估计判别函数或后验概率; ()评价判别模型的效果; ()检验模型的显著性; ()解释分析的结果; () 检验判别效果.多总体判别分析的步骤与两总体的情况类似,但也有不同之处. (三)主成分分析 主成分分析就是设法将原来的 p 个目的重新组合成一组相互无关的新目的的过程.通常数学上的处置 就是将原来的 p 个目的做线性组合,为了使第一个线性组合 F 可以尽能够多地反映原目的的信息,通常的 做法就是使 F 的方差到达最大.F 的方差越
43、大,表示其所包含的信息越多.由于 F 在一切线性组合中方 差最大,包含的信息最多,因此 F 称为第一主成分.假设 F 还不能反映原目的的全部信息,再思索选取 第二主成分 F,使 F 在剩余的线性组合中方差最大,并且与 F 不相关.依次类推,可以求出全部 p 个主 成分,它们的方差是递减的.在实践任务中,就是要选取前几个最大主成分来进展分析,以到达简化数据 的目的.这样做就可以使他们抓住问题的主要矛盾,有利于问题的分析和处理. 求解主成分的主要数学工具是特征方程.经过求解观测变量相关矩阵的特征方程,得到 k 个特征值和 对应的 k 个单位特征向量.把 k 个特征值从大到小的顺序陈列,它们分别代表
44、 k 个主成分所解释的观测变 量的方差.主成分是观测变量的线性组合,线性组合的权数即为相应单位的特征向量的元素.主成分的性 质有: ()各主成分的均值都为 ; ()X 的第 i 个主成分 Fi 的系数向量就是第 i 个特征值 i 所对应的正交 化特征向量 ai; ()第 i 个主成分 Fi 的方差为第 i 个特征值 i ,每两个不一样主成分间的协方差为 ; () PFi , x j = a ji i 全部主成分的方差之和等于全部原始变量的方差之和; ()主成分 Fi 与 xi 的相关系数为 jj . 各主成分的方差即相应的特征根 i 阐明了该主成分 Fi 的方差在全部方差中的比值, 所以通常定
45、义方差 调查数据分析 i 为第 i 个主成分 Fi 的奉献率,方差 i 的值越大,阐明主成分 Fi 综合原始变量 x , x , x p 的才干越强. 主成分分析的根本步骤是: ()将原始数据规范化; ()建立变量的相关系数阵; ()求 R 的特征 根 p 及相应的单位特征向量; ()写出主成分. (四)因子分析 因子分析是一种数据简化的技术,即用相对很少量的几个因子,去表示许多相互有关联的变量之间的 关系.因子分析的根本思想是,将观测变量分类,将相关性较高的即联络比较严密的变量放在同一类中, 每一类的变量实践上隐含着一个因子; 而不同类的变量之间那么相关性较弱, 即各个因子之间又是不相关的.
46、 因子分析就是要找到这些具有本质意义的少量因子,并用一定的构造或模型,去表达或解释大量可观测的 变量. 因子分析模型可以表示为,每个观测变量由一组因子的线性组合来表示,设有 k 个观测变量,分别为 X , X , , X k ,其中 Xi 为具有零均值,单位方差的规范化变量.那么因子模型的普通表达方式为: X i = ai F + ai F + + aim Fm + i 因子分析中要确定多个统计量,即因子载荷,因子方差奉献率公因子方差及特殊方差,因子个数,因 子旋转, 因子命名,因子得分. 在探测性因子分析中,求解初始因子的主要目的是确定可以解释测评变量之间相关关系的最少因子个 数.根据所根据
47、的准那么不同,有很多种求因子解的方法,主要可以分为两类:一类是基于主成分分析模型 的主成分分析法;另一类是基于公因子模型的公因子分析法,包括主轴因子法,最大似然法,最小二乘法 和 a. 第八章 调查数据的预测分析 根本内容概述 (一)预测分析的概述 经济预测是把预测的实际和方法运用于经济领域,对经济景象的未来进展判别和预测.经济预测 既是科学又是艺术. 预测分析的分类:按经济预测的空间范围分为:宏观经济预测,中观经济预测和微观经济预测; 按经济预测的时间长短不同分为:近期经济预测,短期经济预测,中期经济预测和长期经济预测;按经 济预测的方法不同分为:定性经济预测和定量经济预测. 预测分析的根本
48、原理:惯性原理:经过研讨经济景象的过去和如今的形状,找出其变化的规律,向 未来延续,从而预测其未来形状的原理,称为惯性原理 ;相关原理.经过深化分析研讨预测对象与 相关景象的依存关系和影响程度,提示其变化规律和特征,以此预测经济景象未来形状的原理,称为相 关原理 ;类推原理.经过寻觅并分析与预测对象类似事物的规律,根据知事物的变化规律及特征, 推断预测对象未来的形状或特征的原理;概率推断原理.所谓概率推断原理就是根据小概率原理做出合 理的推断的原理. 预测分析的根本程序:确定经济预测的目的;调查,搜集,整理经济预测所需资料(历史资料和 现实资料) ;对资料进展分析,选择适当的预测方法;建立预测
49、模型;根据经济预测模型计算预测 调查数据分析 值,并测定预测误差;评价预测值,得出预测结论. 预测分析的准确度分析:经济预测误差及其产生的缘由.经济预测误差,是指预测结果与实践值之 间的偏向.产生经济预测误差的缘由主要有:经济预测资料的限制; 经济预测对象影响要素的复杂性; 预测方法不适宜.经济预测误差的测定.常用的测定目的有:单个预测误差 et;单个相对误差 st;平均 绝对误差 MAE;预测误差的方差 MSE;预测误差的规范差 RMSE.经济预测误差的利用.根据模拟误差 ; 最小可以选择最正确预测方法;根据模拟误差最小可以选择预测模型的参数;修正预测值;根据预测误差绘 制控制图,用来判别预
50、测模型能否适用. 预测分析的方法及其选择:预测分析方法的种类:定性预测法;相关回归分析预测法;时间序列预 测法.预测分析方法的选择. (二)定性预测分析法 德尔菲预测法:又称专家判别预测法,它是以匿名方式经过逐轮函询,征求专家们的预测意见,然后 汇总整理得出预测结论的一种方法.德尔菲预测法的主要过程:预备阶段;逐轮咨询阶段;数据处置 阶段.德尔菲预测法具有匿名性,反响性,收敛性的特点. 客观概率预测法:客观概率预测法是指利用客观概率对各种预测意见进展集中整理,得出综合性预测 结论的一种预测方法.常用的客观概率预测法包括:客观概率加权平均法和累计概率中位数法.客观概率 加权平均预测法是以客观概率
51、为权数,对各种预测意见进展加权平均,综合求得预测结论的方法.累计概 率中位数法是根据累计概率,确定专家预测意见的中位数,对经济景象的未来进展点估计和区间估计的方 法. PERT 预测法:PERT 预测法是向具有预测判别才干的销售人员和管理人员进展调查,获取每一个被调 查者对销售量的三个估计值,然后,进展综合整理计算出销售量的期望值和规范差,作出点预测或区间预 测. (三)时间序列平滑预测法 时间序列,是将预测对象的历史资料按时间先后顺序陈列而构成的一列数. 时间序列分析预测法的假定前提是:假定预测对象存在着惯性 ,它的开展是依时间序列所反映出 来的变化规律开展变化的,未来同过去一样,开展变化规
52、律坚持不变;假设预测对象的变化仅与时间有 关.但实践上包含了一切要素的作用,可以了解为它是把一切影响要素综合地归结为一个要素时间. 时间序列的要素分析: 从影响要素发生作用的效果看, 通常可以把时间序列的变动分为四种类型, 即: 长期趋势,它是指时间序列察看值,即经济景象,在较长一段时期内继续存在的变化趋势;季节变动, 普通是经济景象以年为周期,随着季节的更替,每年都反复出现的有规律的周期性变动.广义的季节变动 还包括以季度,月份甚至更短时间为周期的有规律的变动;循环变动,是指以数年为周期的一种波浪起 伏式的变动;不规那么变动,是指由于随机要素和突发事件的作用而引起的变动.时间序列数据的构造模
53、 式有乘法方式,加法方式,混合方式. 挪动平均预测法:挪动平均预测法是根据时间序列资料,逐项挪动,依次计算包含一定项数的序时平 均数,以反映长期趋势的方法. 一次挪动平均预测法:一次挪动平均预测法是在原始时间序列的根底上,计算挪动平均数,根据挪动 平均数序列,进展趋势分析和预测的方法.一次挪动平均预测法的关键是挪动平均的时期长度 n 的选择. 调查数据分析 简单挪动平均预测法:根据时间序列中最近 n 期数据计算简单算术平均数作为下一期预测值的方法. 加权挪动平均法:根据时间序列的最近 n 期数据计算出加权算术平均数作为下一期预测值的方法.利 用加权挪动平均法进展预测时,不仅要选择好挪动平均的时
54、间段长度 n,而且还要选择好权数 wi.确定权 数 wi 的普通原那么是:离预测期愈近权数愈大,离预测期愈远权数愈小.通常取 wi=n-i+,i=,n. 二次挪动平均预测法:二次挪动平均预测法是指在经过一次挪动平均构成的新序列根底上,再做一次 挪动平均,利用挪动平均滞后偏向的规律建立直线趋势预测模型进展预测的方法.二次挪动平均预测法的 特点:二次挪动平均预测法最适宜对呈直线升降趋势的经济景象进展预测;利用最新数据可以及时地 计算出新的系数 at 和 bt,从而能及时改动直线的斜率,调整预测对象的变化趋势,做出比较准确的预测; 由于预测模型中 at 和 bt 的值并不是长久不变的,因此,它仅仅适
55、宜作短期预测. 一次指数平滑预测法:一次指数平滑法是以预测对象的本期实践值和本期预测值为基数,分别给两者 不同的权数,计算出指数平滑值,作为下期预测值的一种方法.一次指数平滑法的特点:指数平滑法所 要存贮的数据到达了最低限制,有时只需两个数据; 指数平滑值的本质是全部察看值的线性组合,并 且,近期数据给予较大权数,远期数据给予较小权数,反映了近期数据比远期数据对未来更重要. 确定平滑系数 的原那么:假设时间序列动摇不大,比较平稳,且呈程度趋势时, 的值应取小一 些; 假设时间序列具有迅速且明显的(升降)变动倾向,那么 的值应取大一些;假设时间序列动摇 很大,呈程度趋势时,为了减弱不规那么动摇的
56、影响, 的值应尽量地取小一些; 不便确定时,可同时取几个值进展计算,然后比较预测误差,选取预测误差最小的 值. 二次指数平滑预测法:在一次指数平滑的根底上,再作二次指数平滑,利用滞后偏向的规律来建立直 线趋势模型进展预测的方法.二次指数平滑法很注重近期数据,当得到了一个新的实践数据,就能很快地 计算出直线趋势方程中 at 和 bt 的值,及时调整趋势直线的截距和斜率,使得趋势方程比较接近实践. (四)时间序列趋势线模型预测法 常用趋势线模型有:直线模型, 二次抛物线模型,三次抛物线模型, 双曲线模型 ,指数曲线模型 , 对数直线模型 ,修正指数曲线模型,龚珀兹曲线模型,逻辑曲线模型. 趋势线模
57、型的选择方法:目估法;数量特征法; 残差平方和最小法. 模型参数的估计方法:最小平方法. 最小平方法也称最小二乘法,它是以各期观测值与模型的估 计值之间的离差平方和作为目的函数,寻求并确定使得此目的函数到达最小值时预测模型中各参数值,并 由这些参数建立起较为理想的趋势线模型的方法;三和法.三和法又称三段和法,它是把时间序列平均 分成三等段,每段含有 m 个数据,假定每期数据均在所求趋势线上,分段求和建立方程组,求得模型参数 估计值. 直线模型预测法的运用:预测模型是 y t = a + b t ;数量特征是:一阶差分为一常数;用最小平方法估计参数. 二次抛物线模型预测法的运用:预测模型是: y
58、 t = a + b t + c t ;数量特征是:二阶差分为 一常数;用最小平方法估计参数. 三次抛物线模型预测法的运用:预测模型 y t = a + b t + c t + d t ;数量特征:三阶差分为 一常数;用最小平方法估计参数. 调查数据分析 指数曲线模型与对数直线模型预测法的运用:指数曲线预测模型是: y t = a b ;指数曲线预测 t 模 型 的 数 量 特 征 : 环 比 发 展 速 度 为 一 常 数 ; 对 数 直 线 预 测 模 型 是 : lg y t = lg a + t lg b 或 lg y t = A + B t ;对数直线预测模型的数量特征是:对数的一阶
59、差分为一常数;这两种模型均用最小平方法估计参数. t 修正指数曲线模型预测法的运用:预测模型: y t = k + ab ;数量特征:一阶差分的环比为一 常数;用三和法估计参数. 龚珀兹曲线模型预测法的运用:预测模型: y t = ka ;模型的特征:对数的一阶差分的环比为一 bt 常数.因此,当经济变量由开场增长缓慢,随后增长加快,到达一定程度后,增长率逐渐减慢,最后到达 饱和形状的过程,可用龚珀兹曲线模型进展预测;参数的估计方法:把龚珀兹模型改写为对数方式: lg y t = lg k + (lg a )b t , t = , ) ( ,再仿照修正指数曲线用三和法估计参数. 逻辑曲线模型预
60、测法的运用:预测模型: yt = k + ab t ;模型的特征:是其倒数的一阶差分的 环比为一常数.它的图形也是一条 S 形曲线,且对于拐点对称.因此,当经济变量由开场增长缓慢,随后 增长加快,到达一定程度后,增长率逐渐减慢,最后到达饱和形状的过程,可用逻辑曲线模型来描画; = k + ab t ,再仿照修正指数曲线用三和法估计参数. 参数的估计方法:把逻辑模型改写为倒数方式: y t 第九章 调查数据的实际分析 根本内容概述 (一) 调查数据实际分析的根本问题 调查数据的实际分析,是指在统计分析的根底上,借助概念,判别,推理,笼统和综合等思想方式, 对调查数据的内在联络,进展系统的分析,从
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电商销售推广合同协议
- 电动轮椅购销合同协议
- 2025至2030年中国管道不停输带压开孔封堵设备数据监测研究报告
- 2025至2030年中国电液动刀形闸阀数据监测研究报告
- 2025至2030年中国电子平台秤数据监测研究报告
- 2025至2030年中国电动刷机器人数据监测研究报告
- 2025至2030年中国润滑油脂数据监测研究报告
- 2025至2030年中国橡胶辨逆止阀数据监测研究报告
- 2025至2030年中国旋叶式压缩机专用叶片数据监测研究报告
- 2025至2030年中国擦镜纸数据监测研究报告
- 生物技术概论(全套课件958P)
- 中药学电子版教材
- 地铁矿山法施工技术方法图文讲解附案例
- 第五版-FMEA-新版FMEA【第五版】
- 人大黄达《金融学》-超级完整版
- 守株待兔儿童故事绘本PPT
- 人工挖孔桩施工验收规范
- 城市道路绿化工程施工设计方案
- YY/T 0342-2002外科植入物 接骨板弯曲强度和刚度的测定
- GB/T 38315-2019社会单位灭火和应急疏散预案编制及实施导则
- GB/T 30726-2014固体生物质燃料灰熔融性测定方法
评论
0/150
提交评论