版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第二章 统计数据的搜集、整理和显示,第一节 统计数据的搜集 第二节 数据整理 第三节 频数分布 第四节 数据显示,第一节 统计数据的搜集,一、统计数据搜集的基本理论,(一)定义 1.根据统计研究预定的目的要求和任务,运用相应的科学的调查方法与手段,有计划、有组织地向客观实际搜集数字(原始)资料。 2.搜集数据的途径:调查与实验 (二)调查数据与实验数据 1.调查数据 2.实验数据,自然科学,(三)统计调查的方案设计PLAN 1.确定调查目的. 2.确定调查对象和调查单位(P22) 调查对象:要调查的现象总体,该总体是由许多性质相同的调查单位组成的。 调查单位:所要调查的具体单位,是进行调查登记
2、的标志的承担者 报告单位/填报单位:负责向上报告调查内容,提交统计资料的单位 3.确定调查项目:标志。 4.调查表格和问卷的设计。 5.确定调查时间(时期,时点)和调查期限. 6.统计调查的组织实施计划,例: 1,要对某企业的生产设备的实际生产能力进行调查,则该企业的生产设备是( ) A调查对象 B调查单位 C调查项目 D报告单位 2,调查某市工业企业资产负债的分布状况,则工业企业是( ) A调查对象和报告单位 B调查单位和报告单位 C报告单位和填报单位 D填报单位和调查对象,二、统计调查的组织形式,(一)全面调查与非全面调查 1.全面调查是对调查对象的所有单位一一进行调查。 1)普查cens
3、us 普查是专门组织的一种全面调查,它主要是用以调查某些不能或不宜用定期的全面报表搜集的统计资料。,普查的主要特点: 第一,它是一次性(非连续性)的调查,一般间隔较长时间。 第二,它是一种全面调查,可获得大量详细、全面的资料。 例如,人口普查,经济普查,2)全面统计报表制度 statistical yearbook A) 定义 :自上而下自下而上 B)统计报表的主要特点: 第一,资料来源于各个基层单位的原始记录。 第二,逐级上报和汇总的。 第三,属于经常性(连续性)调查,调查项目相对稳定,有利于积累资料,并进行动态对比分析。,2.非全面调查:对调查对象其中的一部分单位进行调查。 1)抽样调查s
4、ampling,是从调查对象中抽取一部分单位作为样本进行观察,然后根据所获得的样本数据,对调查对象总体特征作出具有一定可靠程度的推算或对总体进行了解。 A)特点: 第一,按随机原则抽取样本。 第二,根据部分调查的实际资料对调查对象总体的数量特征作出估计(统计推断)。 第三,抽样误差可以事先计算并加以控制。,B)适用范围: 第一,不可能或不必要进行全面调查的社会现象。例如,破坏性的产品质量检查 第二,对普查资料进行必要的修正。,2)重点调查 重点调查:是指在调查对象中,只选择一部分重点单位进行的非全面调查。 3)典型调查 典型调查是一种专门组织的非全面调查。根据调查的目的,在对所研究的对象进行初
5、步分析的基础上,有意识地选取若干具有代表性的单位进行调查和研究,借以认识事物发展变化的规律。,(二)连续性调查与非连续性调查 统计调查按时间标志可分为连续性(经常性)和不连续性(一次性)调查两大类。 1.连续性(经常性)调查:是指随着研究现象的变化,连续不断地进行调查登记。 2.不连续性(一次性)调查:是指间隔一段较长的时间对事物的变化进行一次性调查。,( 三)定期报表形式与专门调查 1.定期报表制度是按国家统一规定的表式和内容,定期地向各级领导机构报送统计资料的一种调查形式。 2.专门调查是为某一专题研究而组织的专项调查。,三、统计调查体系 建立以必要的周期性的普查为基础,经常性的抽样调查为
6、主体,同时辅之以重点调查、科学推算和少量的全面报表综合运用的统计调查方法体系。 四、统计调查误差error,第二节 数据整理,一、数据整理的内容与程序 1.统计数据整理的内容: 统计分组和统计指标是统计整理的中心工作。 2.数据整理的程序。 二、统计分组 (一)统计分组的概念与种类 1.统计分组的概念 组内一致性,组间差异性 2.统计分组的原则 穷尽原则:不漏 互斥原则:不重,3.统计分组的种类 1)按分组标志的多少,可分为简单分组和复合分组。 2)按分组的标志的性质不同,分为品质分组(或称属性分组)和数量分组(或称变量分组)。 3)按分组的作用和任务不同,分为类型分组、结构分组和分析分组。,
7、(二)统计分组的方法 1.品质分组的方法 2.数量分组的方法 1)应注意的问题: A)分组时各组数量界限的确定必须能反映事物质的差别。 B)应根据被研究的现象总体的数量特征,采用适当的分组形式,确定相宜的组距、组限。,2)单项式分组与组距式分组 A)单项式分组 B)组距式分组: 连续型变量或者变动范围较大的离散型变量,适宜采用组距式分组。 3)间断组距式分组和连续组距式分组 主要概念:下限和上限、组距、组限 间断组距式分组:组限不相连的组距式分组,连续组距式分组:组限相连(或称相重叠的),即以同一数值作为相邻两组的共同界限的组距式分组。 “上限在不内”原则:在连续组距式分组中,以同一个数值作为
8、相邻两组共同的界限,我国统计制度规定,凡是总体某一个单位的变量值是相邻两组的界限值,这一个单位归入作为下限值的那一组内。 (六十分万岁!),4)等距分组与异距分组 等距分组:标志值在各组保持相等的组距,即各组的标志值变动都限于相同的范围。 异距分组:各组的组距不相等。,5)组距与组中值的计算 连续式分组的组距计算公式: distance组距=本组上限本组下限 间断式分组的组距计算公式: 组距=本组上限本组下限+1 开口组的组距:以相邻组的组距为本组的组距。 组中值 =,6)组数的计算: 组数=全距/组距 斯特杰斯Sturges经验公式(P31): 组数=1+3.3 Lg N 由此推出,组距=(
9、最大变量值-最小变量值)/(1+3.3Lg N ),三、统计指标Index, Indicator,(一)指标的定义 描述总体的数量特征。标志是描述个体的。 (二)指标的分类 1.数量指标:GDP 2.质量指标: CPI,Engel coefficient系数 (三)指标体系 (四)国民经济活动的主要统计指标,多选题,1,学龄前儿童按年龄分组为:未满1岁,1-2岁,3-6岁。这里( ) A年龄是分组标志 B年龄是离散型变量 C儿童是分组标志 D第一组的组中值是0.5岁 E第二组的组中值是1.5岁,2,以下哪些是相对指标( ) A生猪出栏率 B恩格尔系数 C企业劳动生产率 D股票平均价格 E人口增
10、长率,3,在第五次全国人口普查中,( ) A国籍是可变标志 B全国人口数是统计指标 C每个中国公民是调查对象 D人口年龄是变量 E全国女性人数是品质标志,第三节 频数分布,一、频数分布的基本概念 1.频数分布 frequency distribution 2.分布数列的两个要素 1)总体按某标志x所分的组。 2)各组所出现的单位数,即频 数f,亦称次数。,二、变量数列的编制,1.编制方法(P36,例2-1)。 2.频率的性质 1)频率是界于0和1之间的一个分 数, 2)各组频率之和等于1。 3.(异距分组)频数密度: 频数密度=频数/组距 频率密度=频率/组距,三、cumulative累计频数
11、与累计频率,1.向上累计频数(或频率)分布:先列出各组的上限,然后由标志值低的组向标志值高的组依次累计。 2.向下累计频数(或频率)分布:先列出各组的下限,然后由标志值高的组向标志值低的组依次累计。 例题2-2,P37,3.累计频数分布特点 4.累计频数(频率)分布图P47,2-6 累计频数(频率)分布图分为向上累计频数(频率)分布图和向下累计频数(频率)分布图。 以分组变量为横轴,以累计频数(频率)为纵轴。,四、频数分布的类型,1.钟型分布:bell-shaped distribution 钟型分布示意图,如图()所示,其分布特征是以变量的平均数为对称轴,左右两侧对称,两侧变量值分布的次数随
12、着与其平均值距离的增大而渐次减少。在统计学中,称这种分布为正态分布。 其中的()()为非对称分布,它们各有不同方向的偏态。图()曲线是正偏(右偏)分配,图()曲线是负偏(左偏)分配。,正态分布Normal Distribution,Gaussian distribution 在高斯Gauss的一切科学贡献中,其对人类文明影响最大者,就是这一项。 正态分布有极其广泛的实际背景,生产与科学实验中很多随机变量的概率分布都可以近似地用正态分布来描述。 例如,在生产条件不变的情况下,产品的强力、抗压强度、口径、长度等指标;同一种生物体的身长、体重等指标;同一种种子的重量;测量同一物体的误差;弹着点沿某一
13、方向的偏差;某个地区的年降水量;以及理想气体分子的速度分量,等等。,一般来说,如果一个量是由许多微小的独立随机因素影响的结果,那么就可以认为这个量具有正态分布(中心极限定理)。从理论上看,正态分布具有很多良好的性质 ,许多概率分布可以用它来近似;还有一些常用的概率分布是由它直接导出的,例如对数正态分布、t分布、F分布等。,2、U型分布 图2 - 4 U型分布示意图,3、J型分布 J型分布示意图,第四节 数据显示统计表和统计图,一、统计表,(一)统计表的定义和结构 1.统计表的定义 作用:清楚地、有条理地显示统计资料,直观地Intuitionally, Intuitively反映统计分布特征,是
14、统计分析的一种重要工具。,2.统计表的结构(P41,表2-5) 1)从表式上看,表格包括总标题、横行标题、纵栏标题和指标数值四个部分。 2)从内容上看,统计表由主词栏和宾词栏两个部分组成。,(二)统计表的分类 1.按主词的结构分类 1)简单表list 2)分组表 3)复合表 2. 按宾词设计分类 1)宾词简单排列表 2)宾词分组平行排列表。,(三)统计表的设计,统计表的设计应注意如下事项: 线条的绘制,粗,细,开口。 合计栏的设置。 标题设计。以简练而又准确的文字表述统计资料的内容、资料所属的空间和时间范围。,4.指标数值的填写。 5.计量单位。 6. note注解或资料来源。在统计表下,应注
15、明资料来源。,二、统计图,1、直方图histogram:用直方形的宽度和高度来表示次数分布的图形。绘制直方图时,横轴表示各组组限,纵轴表示次数(一般标在左方)和比率(或频率,一般标在右方)。 2、折线图line chart:折线图可以在直方图的基础上,用折线将各组次数高度的坐标连接而成,也可以用组中值与次数求坐标点连接而成。 3、曲线图:用平滑曲线连接各组次数坐标点即得分布曲线。,4.洛伦茨曲线Lorenz curve 绘制方法如下: 1)将分配的对象和接受分配者的数量均化成结构相对数并进行向上累计; 2)纵轴和横轴均为百分比尺度,纵轴自下而上,用以测定分配的对象,横轴由左向右用以测定接受分配
16、者。 3)根据计算所得的分配对象和接受分配者的累计百分数,在图中标出相应的绘示点,连接各点并使其smoothing平滑化,所得曲线即所要求的洛伦茨曲线。,利用洛伦茨曲线对收入分配状况分析,根据实际收入分配线与绝对平等线或绝对不平等线进行比较,衡量不平等程度。离绝对平等线越远分配越不平等;反之,越靠近绝对平等线分配越平等。 基尼系数Gini coefficient:实际收入分配曲线与绝对平等线围成的面积对比总面积。基尼系数系数越大说明分配越不公平。,洛伦茨曲线示意图,Gini Coefficient 基尼系数,按照联合国UN有关组织规定: 若低于0.2表示收入绝对平均; 0.2-0.3表示比较平均; 0.3-0.4表示相对合理; 0.4-0.5表示收入差距较大; 0.5以上表示收入差距悬殊。,通常把0.4作为收入分配差距的“警戒线”,根据黄金分割律,其
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论