版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第四部分统计目录/Contents23统计与统计数据24描述统计25抽样调查26回归分析27时间序列分析0607080910统计与统计数据23一、统计学分支定义内容描述统计研究数据收集、整理和描述的统计学方法1、如何取得所需要的数据2、如何用图表或数学方法对数据进行整理和展示3、如何描述数据的一般特征推断统计研究如何利用样本数据来推断总体特征的统计学方法1、参数估计:利用样本信息推断总体特征2、假设检验:利用样本信息判断对总体的假设是否成立二、变量和数据变量分类定义举例定量变量(数量变量)变量的取值为数量销售额、员工数定性变量分类变量变量的取值表现为类别行业分类顺序变量变量的取值表现为类别且具有一定顺序时教育水平(一)变量(二)数据1、数据是对变量进行测量、观测的结果。2、分类变量的观测结果称为分类数据,表现为类别,一般用文字来表述,也可用数值代码来表示。3、顺序数据是对顺序变量的观测结果,也表现为类别,一般用文字表述,可用数值代码表示。三、数据来源按收集方法观测数据通过直接调查或测量而收集到的数据实验数据通过实验中控制实验对象以及其所处的实验环境收集到的数据按其本身来源一手数据(直接数据)来源主要有:调查或观察、实验二手数据(间接数据)来源于别人的调查或实验的数据,间接来源四、统计调查(一)统计调查的概念与分类1、统计调查:按照预定的目的和任务,运用科学的统计调查方法,有计划有组织地搜集数据信息资料的过程。2、特征:①一种有计划、有方法、有程序的活动;②结果表现为搜集到的数据3、统计调查分类:调查对象的范围不同全面调查1、对构成调查对象的所有单位进行逐一的、无一遗漏的调查。2、包括:全面统计报表和普查非全面调查1、对调查对象中的一部分单位进行调查2、包括:非全面统计报表、抽样调查、重点调查、典型调查等调查登记的时间是否连续连续调查1、为了观察总体现象在一定时期内的数量变化,要求随着调查对象的发展变化,连续的进行调查登记。不连续调查1、间隔一个相当长的时间所做的调查,一般是为了对总体现象在一定时点上的状态进行研究。四、统计调查(二)统计调查的方式方式含义特征、分类及其应用场合统计报表自上而下地统一部署、自下而上地逐级提供基本统计数据的一种调查方式。1、可分为全面统计报表和非全面统计报表2、日报、月报。季报、年报3、国家的、地方的、部门的统计报表普查为某一特定目的而专门组织的一次性全面调查。①普查通常是一次性或周期性的②一般需要规定统一的标准调查时间,以避免调查数据的重复或遗漏,保证调查结果的准确性。③数据一般比较准确,规范化程度也比较高④使用范围比较窄抽样调查从调查对象的总体中抽取一部分范围作为样本进行调查,并根据样本调查结果来判断总体数据特征的一种非全面调查。①经济性(显著优点)②时效性强③适应面广④准确性高重点调查调查的总体中选择一部分重点单位进行的调查。重点单位调查的标志值来说在总体中占绝大比重典型调查有意识的选择若干具有典型意义的或有代表性的单位进行的调查作用:①弥补全面调查的不足②在一定条件下可以验证全面调查数据的真实性描述统计24一、集中趋势的测度数据分布特征:①分布的集中趋势②分布的离散程度③分布的偏态,翻译数据分布的不对称性(一)集中趋势的测度计算方法适用均值数据中心所有数据的总和除以该组数值的个数1、均值是集中趋势最主要的测度值2、主要适用于数值型数据3、均值极易受到极端值的影响中位数把一组数据按照顺序进行排列,位置居中的数值。1、主要适用于顺序数据和数值型数据,不适用分类数据。2、优点:不受极端值的影响,抗干扰性强。众数指一组数据中出现次数最多的变量值。1、适用于描述分类数据和顺序数据,不适用与描述定量数据的集中位置。2、不受极端值的影响二、离散程度的测度(二)离散程度的测度含义适用方差数据组中的各数值与其均值差的平方的平均数1、方差越小,说明数据值与均值的平均距离越小,均值的代表性越好。2、方差的单位是原数据值单位的平方。标准差和方差只适用于数值型数据,对极端值很敏感标准差方差的平方根1、度量数值与均值的平均距离2、标准差单位和原数据值相同离散系数也称变异系数或标准差系数,是标准差和均值的比值。1、主要用于不同类型数据离散程度的比较2、离散系数消除了测度单位和观测值水平不同的影响,因而可以直接用来比较变量的离散程度三、分布形态的测度(三)分布形态的测度1、偏态系数偏态系数~-1-1~-0.5-0.5~000~0.50.5~11~数据分布的偏斜程度严重左偏中度左偏轻度左偏对称轻度右偏中度右偏严重右偏
3、钟型分布当数据服从对称的钟形分布时,可以运用经验法则来判断与均值的距离在特定倍数标准差之内的数据项所占比例[-1,1]68%[-2,2]95%[-3,3]99%四、变量间的相关分析(一)变量间的相关关系分类标准类别含义按相关的程度完全相关一个变量的取值变化完全由另一个变量的取值变化所确定的不完全相关两者之间不相关两个变量的取值变化彼此互不影响按相关的方向正相关一个变量取值由小变大,另一个变量取值相应由小变大负相关一个变量取值由小变大,另一个变量取值相反由大变小按相关的形式线性相关两个变量之间大致呈现线性关系时非线性相关两个变量之间近似于某种曲线方程的关系四、变量间的相关分析(三)相关系数Pearson相关系数的取值范围在[-1,1]之间,即-1≤r≤1。
Pearson相关系数度量的是两个变量间的线性相关关系。r=1完全正线性相关高度相关0<r≤1正线性相关中度相关-1≤r<0负线性相关低度相关r=-1完全负线性相关无线性相关r=0不存在线性相关关系,但并不说明变量之间没有任何关系抽样调查25一、抽样调查基本概念(一)抽样调查基本概念基本概念含义总体调查对象的全体。样本总体的一部分,它由从总体中按一定原则或程序抽出的部分个体所组成。入样单位每个被抽中进入样本的单位。样本量样本中包含的入样单位的个数。总体参数我们所关心变量的数字特征,是根据总体中所有单位的数值计算的。样本统计量(估计量)根据样本中各单位的数值计算的,是对总体参数的估计。抽样框供抽烟所用的所有抽样单元的名单,是抽样总体的具体表现。一、抽样调查基本概念(二)概率抽样和非概率抽样分类含义特点方法概率抽样(随机抽样)依据随机原则,按照某种实现设计的程序,从总体中抽取部分单元的方法。按一定的概率以随机原则抽取样本;总体重每个单位被抽中的概率是已知的,或者可以计算出来的;当采用样本对总体参数进行估计时,要考虑到每个样本单位被抽中的概率。简单随机抽样分层抽样系统抽样整群抽样多阶段抽样非概率抽样(非随机抽样)根据自己的方便或主观判断抽取样本的方法。抽取样本时并不是依据随机原则判断抽样方便抽样自愿样本配额抽样一、抽样调查基本概念(三)概率抽样一般步骤确定调查问题调查方案设计实施调查过程数据处理分析撰写调查报告(四)抽样调查中的误差1、抽样误差:由于抽样的随机性造成的2、非抽样误差:抽样框误差、无回答误差、计量误差二、几种基本概念抽样方法(一)简单随机抽样1、简单随机抽样是最基本的随机抽样方法,操作简单,且每个单位的入样概率相同。2、分为有放回简单随机抽样和不放回简单随机抽样。不放回简单随机抽样误差低。3、适用条件:抽样框中没有更多可以利用的辅助信息调查对象分布的范围不广阔个体之间的差异不是很大(二)分层抽样1、分层抽样:先按照某种规则把总体分为不同的层,然后再不同的层内独立、随机的抽取样本。2、分层抽样的优点:分层抽样不仅可以估计总体参数,同时也可以估计各层的参数便于抽样工作的组织每次都要抽取一定的样本单位,这样样本在总体中分布比较均匀,可以降低抽样误差3、适用条件:抽样框中有足够的辅助信息,能够将总体单位按照某种标准划分到各层之中,实现在同一层内各单位之间的差异尽可能小,不同层之间各单位的差异尽可能的大(层内差异小、层间差异大)二、几种基本概念抽样方法(三)系统抽样1、系统抽样:先将总体中的所有单元按一定顺序排列,在规定范围内随机抽取一个初始单元,然后按事先规定的规则抽取其他样本单元。2、优点:操作简单;对抽样框的要求也比较简单3、缺点:方差估计比较复杂,给计算抽样误差带来一定困难。4、适用条件:系统抽样的估计效果与总体单位排列顺序有关。(四)整群抽样1、整群抽样:将总体中所有的基本单位按照一定规则划分为互不重叠的群,抽样时直接抽取群,对抽中的群调查其全部基本单位,对没有抽中的群则不进行调查。2、优点:实施调查方便,可以节省费用和时间;抽样框编制得以简化,抽样时只需要群的抽样框,而不要求全部基本单位的抽样框3、缺点:由于抽取的样本单位比较集中,群内各单位之间存在相似性,差异比较小,而群与群之间的差别比较大,是的整群抽样的抽样误差比较大4、适用条件:群内个单位之间存在较大的差异,群与群的结构相似,整群抽样反而会降低估计误差。(群内差异大,群间差异小)三、估计量和样本量(一)估计量的性质无偏性对于不放回简单随机抽样,所有可能的样本均值取值的平均值总是等于总体的均值有效性在同一个抽样方案下,对某一总体参数θ,如果有两个无偏估计量θ1和θ2,由于两本的随机性,θ1的可能样本取值较θ2更密集在总体参数真值θ的附件,人民会认为θ1比θ2更有效。一致性随着样本量的增大,估计量的值如果稳定于总体参数的真值,这个估计量就有一致性,可称为一致估计量(二)抽样误差的估计1、抽样误差与总体分布有关:总体单位值之间差异越大,即总体方差越大,抽样误差就越大;2、抽样误差与样本量有关:样本量越大,抽样误差越小3、抽样误差与抽样方式和估计量的选择有关系:例如分成抽样的估计量方差一般小于简单随机抽样;4、利用有效的辅助信息也可以有效的减小抽样误差。(三)样本量的影响因素:调查的精度、总体的离散程度、总体的规模、无回答情况、经费的制约、调查的限定时间、实施调查的人力资源。回归分析26一、回归分析的概念(一)回归分析的感念1、回归分析:根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量间的依赖关系。2、回归分析和相关分析的联系他们具有共同的研究对象在具体应用时,常常必须互相补充。只有当变量之间存在着高度相关时,进行回归分析寻求其相关的具体形式才有意义3、回归分析和相关分析的区别:相关分析研究变量之间的相关方向和相关的程度回归分析则是研究变量之间相互关系的具体形式,他对具有相关关系的变量之间的数量联系进行测定,确定一个相关的数学方程式,根据这个数学方程式可以从已知量来推测未知量,从而为估算和预测提供了一个重要方法。一、回归分析的概念
一、回归分析的概念(三)模型的检验和预测1、回归模型的拟合效果分析:一般情况下,在使用估计的回归方程之前,需要对模型进行检验,其内容为:结合经济理论和经验分析回归系数的经济含义是否合理分析估计的模型对数据的拟合效果如何对模型进行假设检验
决定系数——也成为R²,可以测度回归直线对样本数据的拟合程度。决定系数的取值在0~1之间,大体上说明了回归模型所能解释的因变量变化占因变量总变化的比例。决定系数越高,模型的拟合效果越好,即模型解释因变量的能力越强。时间序列分析27一、时间序列及其分类(一)时间序列及其分类1、时间序列:也称动态数列,是将某一统计指标在各个不同时间上的数据按时间先后顺序编制成的序列。类别内容绝对数时间序列时期序列每一个指标反映现象在一段时期内发展的结果,即“过程总量”时点序列每一个指标反映现象在一个时点上的瞬间水平相对数时间序列统计指标值是相对值,如城镇人口比重平均数时间序列统计指标是平均数,如人均国内生产总值二、时间序列的水平分析(一)发展水平1、发展水平:是时间序列中对应于具体时间的指标数值。2、最初水平:第一项指标值3、最末水平:最末项指标值4、中间水平:处在两者之间的各期指标值5、基期水平:作为对比的基础时期的水平6、报告期水平:所要反映与研究的那一时期的水平二、时间序列的水平分析(二)平均发展水平1、平均发展水平:也称序时平均数或动态平均数,是对时间序列中各时期发展水平计算的平均数,它可
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 酒店的实习报告模板汇编9篇
- 销售行业年终总结汇编十篇
- 研学旅行计划课程设计
- 东风标致故障现象案例-车辆行驶过程中维修警示灯长亮
- 七年级期末学业水平测试思想品德测试题及答案
- 免职单方变更劳动合同范本(2篇)
- 浙教版数学九年级上册 1 2 1二次函数的图像 教案(表格式)
- 2025年防眩光太阳镜项目合作计划书
- 2025年非调质钢合作协议书
- 2025年永磁式步进电机合作协议书
- GB/T 45014-2024聚合物基复合材料层压板紧固件拉脱阻抗试验方法
- 传播学(东北林业大学)知到智慧树章节答案
- 2024-2025学年人教新版九年级上册数学期末复习试卷(含详解)
- 2024年河南省公务员考试《行测》真题及答案解析
- 中医医疗技术手册2013普及版
- 自考网页设计与制作试卷及答案
- 武汉大学抬头信签纸
- 新人教版七年级下册生物每课知识点总结
- 印刷作业指导书
- 2022年农业示范基地建设工作总结
- 硬笔书法比赛方案精选
评论
0/150
提交评论