第四单元 调查资料整理与分析(8学时)_第1页
第四单元 调查资料整理与分析(8学时)_第2页
第四单元 调查资料整理与分析(8学时)_第3页
第四单元 调查资料整理与分析(8学时)_第4页
第四单元 调查资料整理与分析(8学时)_第5页
已阅读5页,还剩77页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

课题四

调查资料整理与分析调查资料的整理所谓资料整理,是指运用科学的方法,将调查所得的原始资料按调查目的进行审核、汇总与初步加工,使之系统化和条理化,并以集中、简明的方式反映调查对象总体情况的过程。调查资料整理的基本步骤设计和编制资料整理方案。这是保证统计资料的整理有计划、有组织地进行的重要一步。资料的整理往往不是整理一个或两个指标,而是整理多个有联系的指标所组成的指标体系。对原始资料进行审核。资料的审核是第一步,为了保证质量必须进行严格的审核。综合汇总调查项目,对原始资料进行分组、编码、汇总和计算是关键。对整理好的资料再进行一次审核,然后编制成一个统计表,以表示社会经济现象在数量上的联系。调查资料的审核审核的主要内容资料的真实性。调查资料来源的客观性问题,来源必须是客观的。调查资料本身的真实性问题,要辨别出资料的真伪,把那些违背常理的、前后矛盾的资料舍去。资料的准确性。准确的审核要着重检查那些含糊不清的、笼笼统统的以及互相矛盾的资料。资料的完整性。第一,调查资料总体的完整性。第二,每份调查资料的完整性。信度与效度信度是指对同一事物进行重复测量时,所得到的结果的一致性程度,一致性程度越高则信度越高。效度则是指一项测量能正确测出它所要测量的事物的程度。一份问卷如果无信度则一定无效度,有效度则一定有信度;然而有信度不能保证有效度。因此,在设计调查方案时要努力确保调查中的每一个问题就是调查者想要的变量,而且这种变量保持一定的一致性。编码编码是指对一个问题的不同回答进行分组和确定数字代码的过程。1.事先编码大多数的问卷中大部分问题都是封闭式的,即已经预先编码。这意味着对调查中一组问题的不同数字编码已被确定,所有封闭式问题都是事先编码的。事先编码案例1.您每月生活费的主要来源是_____?A.父母B.家教、兼职C.奖学金/助学金D.其它

2.您父母平均一个月给您的生活费是______?A.500元以下B.500-800元C.800-1000元D.1000-1500元E.1500以上3.您每月实际消费是_____?A.500元以下B.500-800元C.800-1000元D.1000-1500元E.1500以上4.你的消费习惯可以描述为_______?A.事先做好消费计划再花钱B.以勤俭为本C.想花就花D.其它(请注明)2.事后编码对于开放式问题而言,只能在资料收集好之后,再根据受访者的回答内容来决定不同答案的指定编码。编码的依据不应只是文字,更重要的是文字所反映出来的被调查者的潜在意识。所以对开放式问题的编码有一整套科学的方法与操作程序。事后编码程序列出答案。将所有被访者提供的答案一一列出将有意义的答案列成频数分布表,并确定可以接受的分组数对答案挑选归并。在符合调研目的的前提下,保留频数多的答案,把频数少的答案尽可能归并成含义相近的几个组,有时对那些含义相去甚远,频数又很低的,可以一并用“其它”来概括。对所确定的分组选择正式的描述制定编码规则事后编码案例问题:“您为什么选择海尔空调?”列出所有答案:1.节能环保2.外形美观3.价格公道4.噪音低5.空调效果好6.性价比高7.高科技8.体积小9.大品牌10.邻居都用这个牌子11.经常在广告中见到12.没想过13.不知道14.没什么特别原因根据回答分类来编码1、质量、科技1,4,5,72、外形2,83、价格实惠3,64、大名牌9,10,115、不清楚12,13,14调查资料的统计分类、分组统计分类、分组,是指根据社会调查的目的和要求,按照一定标志,将所研究的事物或现象区分为不同的类型或组的一种整理资料的方法。分类、分组的作用:可以找出总体内部各个部分之间的差异可以深入了解现象总体的内部结构可以显示社会现象之间的依存关系案例统计分组可以深入了解现象总体的内部结构:我国三次产业分类的从业人员构成情况单位(%)产业\年份19931994199519961997第一56.451.352.250.049.9第二22.422.723.023.523.7第三21.223.024.826.026.4合计100.0100.0100.0100.0100.0案例统计分组可以显示社会现象之间的依存关系某地区粮食单位面积产量和施肥量的关系每公顷化肥施用量粮食单位面积产量(千克)(千克/公顷)116.252827.5133.503124.5145.503396.0153.753608.3163.503484.0统计分组标志的选择标志指反映事物属性或特征的名称。根据分组标志的不同性质,分组有不同的类型:根据分组标志的数量的不同,可分为简单分组和复合分组两类。根据所使用分组标志的性质不同,可分为品质标志分组(比如按性别、职业等分组)和数量标志分组(比如按年龄、收入、人口、产量等分组)。案例我国各级各类型图书馆普遍使用的分类方法就是《中国图书馆图书分类法》,简称“中图法”。《中图法》是我国于1975年正式出版编制的一部大型综合性的图书分类法。它采用五分法的分类体系,把图书资料所包括的知识内容划分为"马克思主义列宁主义毛泽东思想"、"哲学"、"社会科学"、"自然科学"和"综合性图书"五大基本部类。社会科学

A马列主义、毛泽东思想B哲学

C社会科学总论D政治、法律

E军事F经济G文化、科学、教育、体育H语言、文字

I文学J艺术

K历史、地理次数分布是将总体中的所有单位按某个数量标志分组后,所形成的总体单位数在组之间的分布。分布在各的总体单位数叫次数或频数。各组次数与总次数之比叫做比重、比率或频率。次数分布实质,是反映统计总体中所有单位在各组的分布状态和分布特征的一个数列,也可以称做次数分配数列,简称分布数列。案例单项变量分布数列按日产量分组工人人数比重(件)(人)(%)25106262010273017285028294022303017合计180100案例组距变量数列按计划完成程度分组企业数比重(%)100以下621.3100—1101657.4110以上621.3合计28100.00变量次数分配的编制按数量标志编制次数分配,所形成的结果称为变量次数分配。变量次数分配的编制程序如下:将原始资料顺序排列将各个数据按其数值大小归入相应的组内确定组数和组距(组中最大值与最小值差额)确定组限(组的两个端点)案例(变量次数分配的编制)假设某企业30个非熟练工人的周工资额(元)如下:106、99、85、121、84、94、106、105、110、119、101、95、91、87、105、106、109、118、96、128、91、97、105、111、111、107、103、101、107、106案例(变量次数分配的编制)第一步:按从小到大的顺序排列数据84、85、87、91、91、94、95、96、97、99、101、101、103、105、105、105、106、106、106、106、107、107、109、110、111、111、118、119、121、128第二步:将相同的数据归入同一组,并汇总各组数值的个数周工资额(元)人数(次数)848587919495969799101103105106107109110111118119121128合计11121111121342112111130案例(变量次数分配的编制)第三步:确定组数和组距第四步:确定组限周工资额(元)人数(个)各组人数占总人数百分比%80~9090~100100~110110~120120~130合计37135230102343177100分组方法的选择选择等距分组还是不等距分组,主要根据研究的目的和观察值的特点决定。如果研究目的是要从数量上区分不同性质的类别,就必须根据被研究现象各类别在数量上的特点确定各组组距,如果所收集的原始数据中有极端值存在,为避免组数太多,分布特征无法详实的情况,也可能采用不等距分组,在数据分布密集的地方用较短组距,在数据分布疏散的地方采用较长组距。案例(不等距分组的变量次数分配编制)某地区人口年龄分配情况按年龄分组人口数(万人)1岁以下21~7岁12.27~18岁24.018~25岁14.825~55岁34.255岁以上16.3合计103.5某地区个人年收入额分配

按年收入额各组所占百分比分组(元)(%)0~5,00023.95,000~10,00034.810,000~15,00020.115,000~45,00017.2845,000~75,0001.7475,000~105,0000.88105,000~135,0000.81135,000以上0.48合计100.00描述性统计分析描述性统计分析(DescriptiveAnalysis)指对被调查总体所有单位的有关数据进行整理和计算综合指标等的加工处理,是用来描述总体特征的统计分析方法。市场调查分析中最常用的描述性统计分析,主要包括对调查数据的分组分析、集中趋势分析、离散程度分析和相对程度分析、指数分析。描述性统计分析1列表列表,即把调查资料按照一定的目的,用表格形式展现出来表的结构:标题、横标目、纵标目、数字。表的种类:简单分组表(单因素列表)、复合分组表(交叉列表)。制作方法:制作应遵循科学、实用、简练、美观原则。简单列表(单因素列表)案例被调查者答案人数(人)频数(%)数量(个)频次(%)总数300100818100杭州百货大楼26588.326532.4银泰百货24080.024029.3杭州大厦11237.311213.7解百9230.79211.2元华购物中心6321.0637.7西湖时代广场4615.3465.6消费者购物地点选择调查表多因素列表(交叉列表)案例消费者购物地点选择简单交叉分析表总数年龄人数频数18~34岁35~54岁55以上总数300100%65100%83100%151杭州百货大楼14448.0%2132.3%4048.2%57银泰百货14648.7%4366.3%4048.2%40不知道/未回答103.3%11.5%33.6%3绘图统计绘图的种类:线图、条形图或称柱状图、圆饼图、曲线图、直方图。统计图的作用:形象地表明事物总体结构。表明统计指标不同条件下的对比关系。反映事物发展变化的过程和趋势。说明总体单位按某一标志的分布情况。显示现象之间的相互依存关系。描述性统计分析的内容1、数据的集中趋势分析。对调查数据公布的数量规律性中集中特征进行分析,是对被调查总体的特征进行准确描述的重要前提。数据集中趋势分析的对象,包括数据的均值(各类平均数)、中位数和众数。均值是数据偶然性和随机性的一个特征值,反映了一些数据必然性的特点。中位数(Me)的确定可以以未分组资料为基础,也可由分组资料得到。它同样不受到资料中少数极端值大小的影响。在某些情况下,用中位数反映现象的一般水平比算术平均数更具有代表性,尤其对于两极分化严重的数据,更是如此。众数(Mo)是总体中出现次数最多单位的标志值,也是测定数据集中趋势的一种方法,克服了平均数指标会受数据中极端值影响的缺陷。案例比如,前面工人工资的例子84、85、87、91、91、94、95、96、97、99、101、101、103、105、105、105、106、106、106、106、107、107、109、110、111、111、118、119、121、128均值为:103.47元中位数(Me)为:105元众数(Mo)为:106元2、数据的离散程度分析反映数据差异程度的数值,有极差、平均差、方差和标准差离散系数等。极差(也称全距)是数据中两个极端值,不能反映数据变化的影响,受极端值的影响较大。一般说,极差越大,平均值的代表性越小。所以,极差可以一般性地检验平均值的代表性大小。平均差是总体各单位标志值与其算术平均数离差绝对值的算术平均数。平均差的计算由于涉及了总体中的全部数据,因而能更综合地反映总体数据的离散程度。方差与标准差,前者是后者的平方。标准差也叫均方差,是总体内各个变量值与其平均值之差的平方的算术平均值的平方根。标准差是分析变量离散程度的常用标志,其计算公式为:通常把上式的平方称为方差。方差与标准差越大,则表明变量之间离散的程度越大,平均数的代表性越差。标准差案例假如有三个小组的考试成绩为甲:6869707172乙:4562707895丙均分都为70,但是标准差不同:可见,甲组标准差最小,说明其分数的差异最小,平均分70的代表性最大。3、相对程度分析相对程度分析是统计分析的重要方法,是反映现象之间数量关系的重要手段。它通过对比的方法反映现象之间的联系程度,表明现象的发展过程,还可以使那些利用总量指标不不能直接对比的现象找到可比的基础,因而在市场调查分析中经常使用。常用的相对指标主要有,结构相对指标、比较相对指标、比例相对指标、强度相对指标。结构相对指标。是总体各组部分与总体数值对比求得的比重或比率,用来表明总体内部的构成情况。它从静态上反映总体内部构成,揭示事物的本质特征,其动态变化可以反映事物的结构发展变化趋势和规律性,比如之前分组案例。比较相对指标。是指不同总体同类现象指标数值之比。它表明同类现象在不同空间的数量对比关系,可以说明同类现象在不同地区、单位之间发展的差异程度,通常用倍数(系数)或百分数表示,比如,不同品牌的同类产品销售量的比较。比例相对指标。社会经济现象总体内各组成部分之间存在着一定的联系,具有一定的比例关系。为了掌握各部分之间数量的联系程度,需要把不同部分进行对比。比例相对指标就是同一总体内不同部分的指标数值对比得到的相对数,它表明总体内各部分的比例关系,如家庭调查中的收支比例,国民经济结构中的农、轻、重比例等,通常用百分数表示,也可以用一比几或几比几的形式表示。强度相对指标。是两个性质不同但有联系的总量指标对比得到的相对数。如流通成本与销售额、产值与投入等等。通常可以用于反映经济发展情况,以及经济效益与效率的情况,用途非常广泛。比如,人均消费水平指标元/(人·月),投资利润率等。数据的规范处理教学目的:1.了解数据规范的意义2.掌握常见的数据规范要求教学重点:数据的格式规范化处理教学难点:更改报表中不规范的数据格式教具:计算机相对引用和绝对引用相对引用:指引用单元格的地址会随着存放计算结果的单元格位置的不同而有相应的改变,但引用的单元格与包含公式的单元格的相对位置不变。绝对引用:完全引用,此时公式中的单元格引用的位置不会随着单元格发生改变而改变。此种引用的好处是可使存放固定数值(如利率、税率等)的单元格位置在复制公式时不发生变化。实例1:制作九九乘法表数据的规范数据区域的顶端行为字段名称(标题)避免在数据清单中存在空行和空列各列只包含一种数据类型避免在数据清单中出现合并单元格避免在单元格的开头和末尾输入空格尽量避免在一张工作表中建立多个数据清单,每张工作表最好仅使用一个数据清单工作表的数据清单应与其他数据之间至少留出一个空列和一个空行,以便于检测和选定数据清单不要用人工在记录之间做分类汇总的计算,以免分类汇总的结果也被当成一条记录删除空行的方法排序法在原数据清单最后一列增加一个辅助列在辅助列中输入1,2,……连续的自然数序列对除辅助列以外的其他数据列进行排序删除数据区域内底部的所有空行按辅助列排序,恢复数据的原始位置删除辅助列实例2:数据规范处理删除空行的方法高级筛选法删除所有空行对于文本型数据,*表示有数据;对于数值型数据,<>表示有数据字段1字段2字段3字段4……*<><><>这种方法过程和步骤比较烦琐,但能保留原始数据区域不变。删除空行的方法查找法删除所有空行如果某行数据只要有一个单元格是空的,就证明该行数据不完整,认定它是空行。全选数据区域,按[ctrl+f],查找内容为空。在“查找和替换”对话框被激活的情况下,全选所有的空单元格。关闭“查找和替换”对话框,选择“编辑”下的“删除”,删除整行。函数的高级应用教学目的:掌握常用统计函数的使用方法。教学重点:STDEV()函数,SUMIF()函数FREQUENCY()函数,COUNIF()函数教学难点:FREQUENCY()函数教具:计算机函数的高级应用1.AVERAGE()函数作用:返回参数的平均值(算术平均值)。语法格式:AVERAGE(number1,number2,...)其中Number1,number2,...为要计算平均值的1~30个参数。这些参数可以是数字,或者是涉及数字的名称、数组或引用。如果数组或单元格引用参数中有文字、逻辑值或空单元格,则忽略其值。但是,如果单元格包含零值则计算在内。函数的高级应用2.TRIMMEAN()函数作用:从数据集的头部和尾部除去一定百分比的数据点,然后再求平均值。语法格式:TRIMMEAN(array,percent)Array:为需要进行整理并求平均值的数组或数值区域。Percent:为计算时所要除去的数据点的比例,例如,如果percent=0.2,在20个数据点的集合中,就要除去4个数据点(20x0.2):头部除去2个,尾部除去2个。函数的高级应用2.TRIMMEAN()说明:如果percent<0或percent>1,函数TRIMMEAN返回错误值#NUM!。函数TRIMMEAN将除去的数据点数目向下舍入为最接近的2的倍数。如果percent=0.1,30个数据点的10%等于3个数据点。函数TRIMMEAN将对称地在数据集的头部和尾部各除去一个数据。函数的高级应用2.TRIMMEAN()详解:举例1举例2举例3举例4举例5举例6举例7举例81111111122222222333333334444444455555555100100TRUE100100TRUE667777777788888888999999991010101010101010TrimMean函数5.4444445.4285715.4000005.6250005.6666675.7500006.0000005.500000效果等同5.4444445.4285715.4000005.6250005.6666675.7500006.0000005.500000函数的高级应用2.TRIMMEAN()说明:1、通过上面10个实例,大家应该看得比较明白了,看来该函数对数据中是否包含非数值的处理方式还是有区别的。

2、对于左边的常规数据,在这里就不用多说了,直接去除指定个数的最低、最高值,再进行内部平均得结果。

3、而对于右边的8个实例,我们可以看出,如果您的数据中只要包含了1个非数值数据,那么该函数则将文本数据视为文本数据占了1组数据点(即1个最高值和最低值)。

4、对于实例1、2、3,我们的验证结果为:D5:D14、E6:E13、F7:F12范围的平均,当然系统不会对非数值进行平均。

5、实例4、5、6的检验结果同上。

6、对于实例7,由于文本个数并未超过求值个数,所以结果与前面相同,仍然是文本算一组,在剩下数值中分别各去除2组最大、最小值后,再进行内部平均,即:1、2、3、7、8、9、10中,(3+7+8)/3进行平均得结果6。7、在实例8中,由于文本个数达6个,待求数值只有4个,所以系统只能采用自动减少1组极值的方式来运算,结果只能在1、2、9、10中去除1组(文本占2组),这样即是:(2+9)/2=5.5来计算结果了。函数的高级应用3.count()函数作用:返回包含数字以及包含参数列表中的数字的单元格的个数。利用函数COUNT可以计算单元格区域或数字数组中数字字段的输入项个数。语法格式:count(value1,value2,...)

其中Value1,value2,...为包含或引用各种类型数据的参数(1~30个),但只有数字类型的数据才被计数。函数COUNT在计数时,将把数字、空值、逻辑值、日期或以文字代表的数计算进去;但是错误值或其他无法转化成数字的文字则被忽略。函数的高级应用4.counta()函数作用:返回参数组中非空值的数目。利用函数COUNTA可以计算数组或单元格区域中数据项的个数。语法格式:

counta(value1,value2,...)

counta的参数值可以是任何类型,它们可以包括空字符(""),但不包括空白单元格函数的高级应用5.countblack()函数作用:计算指定单元格区域中空白单元格的个数。语法格式:

countblack(range)Range为需要计算其中空白单元格个数的区域。

即使单元格中含有返回值为空文本("")的公式,该单元格也会计算在内,但包含零值的单元格不计算在内。函数的高级应用6.countif()函数作用:计算给定区域内满足特定条件的单元格的数目。

语法格式:

countif(range,criteria)Range:为需要计算其中满足条件的单元格数目的单元格区域。Criteria:为确定哪些单元格将被计算在内的条件,其形式可以为数字、表达式或文本。

函数的高级应用7.frequency()函数作用:频率统计分布函数,以一列垂直数组返回某个区域中数据的频率分布。由于函数FREQUENCY返回一个数组,必须以数组公式的形式输入。语法格式:frequency(data_array,bins_array)Data_array:为一数组或对一组数值的引用,用来计算频率。如果data_array中不包含任何数值,函数frequency返回零数组。Bins_array:为一数组或对数组区域的引用,设定对data_array进行频率计算的分段点。如果bins_array中不包含任何数值,函数frequen

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论