统计学之数据的收集与整理课件_第1页
统计学之数据的收集与整理课件_第2页
统计学之数据的收集与整理课件_第3页
统计学之数据的收集与整理课件_第4页
统计学之数据的收集与整理课件_第5页
已阅读5页,还剩87页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本资料来源本资料来源1§2数据的收集与整理§2数据的收集与整理2§2·1数据的收集§2·1数据的收集3一、调查方案的设计一、调查目的——“为什么调查”。二、研究对象、调查对象、调查单位——“向谁调查”。三、调查项目——“调查什么”。四、调查方式和方法——“怎样调查”。五、调查地点和调查时间——“什么时间、什么地点”。六、组织计划(具体工作计划)——“谁做调查”等等。一、调查方案的设计一、调查目的——“为什么调查”。二、研究4案例:调研可以增加商战的胜算,而失败的调研对企业来说是一场噩梦。上海柴氏宠物食品公司为一次市场调查付出了三十几万元的代价。拿到错误的数据不如没有数据。2004年底,为了能提高产品在宠物食品市场的竞争力,以前做生意一贯靠经验的柴远森先生决定为产品设计做消费调查。为了能够了解更多的消费信息,柴先生设计了精细的问卷,在上海选择了1000个样本,并且保证所有的抽样在超级市场的宠物组购物人群中产生,内容涉及:价格、包装、食量、周期、口味、配料等6大方面,覆盖了所能想到的全部因素。2005年初,上海柴氏的新配方、新包装狗粮产品上市了,短暂的旺销持续了一星期,随后就是全面萧条,后来产品在一些渠道甚至遭到了抵制。2005年2月初,新产品被迫从终端撤回,产品革新宣布失败。

公司请了十多个新产品的购买者回来座谈,原来,他们拒绝再次购买的原因是宠物不喜欢吃。产品的最终消费者并不是“人”,人只是一个购买者,错误的市场调查方向,决定了调查结论的局限,甚至荒谬。案例:公司请了十多个新产品的购买者回来座谈,5调查的标准时间:资料所属的时间。时点资料时期资料调查期限:调查的工作时间。调查的标准时间:资料所属的时间。时点资料时期资料调查期限6二、统计调查的方式和方法

统计调查的方式统计报表

普查重点调查抽样调查统计调查的方法

原始数据搜集方法

次级数据搜集方法典型调查二、统计调查的方式和方法

统计调查的方式统计报表普查重点7优点:数据一般比较准确、规范化程度高;搜集的资料更全面、更系统。缺点:工作量大、耗费大;适用的对象比较狭窄。基本原则:

确定普查的标准时间,避免遗漏或重复;登记工作应在整个普查范围内同时进行;统一规定普查的项目和指标;历次普查应尽可能保持连贯性。是专门组织的一次性的全面调查。普查(census):优点:数据一般比较准确、规范化程度高;是专门组织的一次性的全8每逢末尾数字为“1”或“6”的年份进行基本单位普查)

每逢末尾数字为“0”的年份进行人口普查;每逢末尾数字为“3”的年份进行第三产业普查;(每逢末尾数字为“5”的年份进行工业普查;每逢末尾数字为“6”的年份进行农业普查;我国的普查项目:

每逢末尾数字为“3”或“8”的年份进行经济普查。

每逢末尾数字为“1”或“6”的年份进行基本单位普查)每逢末9特点:经济性,节省人力、物力和财力;时效性强,可迅速、及时地获取信息;适用面广,适用于对各个领域、各种问题的调查;准确性高,产生的误差可以计算和控制。抽样调查(samplingsurvey)定义:按照随机(或非随机)的原则,从总体中抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体数量特征的一种非全面调查方式。特点:抽样调查(samplingsurvey)定义:按照10在佛州的选票最后决出之前,全美国9000多万张普选选票中,民主党候选人阿尔.戈尔获得50,140,140张选票,占49%,乔治.布什获得49,782,288张,占48%。戈尔领先布什357,932张选票;在全美国538张选举人票中,戈尔获得267张;布什获得246张。此后,小布什在佛罗里达州600多万张普选选票中以仅多出戈尔537张的优势获得该州的25张选举人票,当选美国总统。2000年美国大选2000年,乔治·布什成为继1888年本杰明·哈里森之后第一位以少数选民票当选的总统。戈尔在全国大选中领先布什35万多票,但最终结果却要由佛罗里达艰苦漫长的人工点票决定。大选结束四周以后最高法院以5:4决定停止佛州人工点票,将该州25张总统选举人票判给布什。2000大选作为美国历史上最接近、最有争议和最奇特的选举而载入史册。在佛州的选票最后决出之前,全美国9000多万张普选选11美国历史上的两次选举(一)谁会在1936年的选举中获胜?

AlfLondon(兰登)还是

F.D.R.(罗斯福)?

LiteraryDigest(文学文摘)送出一千万份问卷后,预测兰登会赢。而Gallop(盖洛普)只问了5000人,说罗斯福会赢。最后罗斯福和盖洛普都赢了,文摘倒闭了。从结果来看,1936年的选举是美国历史上最没有悬念的选举。罗斯福以2775万张选票赢得了46个州,比对手兰登多1107万张选票,选举人票是523票对8票,罗斯福几乎赢得了所有25万人口以上的大中城市。盖洛普将其成果归因于他们所采用的与传统抽样方法不同的配额抽样。应用这种方法,盖洛普又成功地预测了1940年1944年美国总统大选的结果,其声名鹊起,几乎成为民意调查的代名词。美国历史上的两次选举(一)谁会在1936年12美国历史上的两次选举(二)谁会在1948选举中获胜?

ThomasDewey(杜威)还是HarryTruman(杜鲁门)?盖洛普等民调机构都用了5000份问卷,都预测杜威会赢。最后的结果是杜鲁门赢了。他获得49.5%的普选票,305张选举人票(2个选举人改变主意,实际得到303票);杜威获得45.1%的普选票,187张选举人票(2个选举人改变主意,实际得到189票);州权党候选人瑟蒙德获得2.4%的普选票和39张选举人票;进步党候选人、前副总统华莱士获得2.4%的普选票,没有赢得任何一张选举人票。这个结果与盖洛普民意测验的结果正好相反。盖洛普最后一次的预测是,杜威将赢得49%的普选票,杜鲁门只能赢得44%。这也是历次盖洛普民意测验的最大误差——几乎整整5个百分点。

美国历史上的两次选举(二)谁会在1948选13美国历史上最富戏剧性的选举美国历史上最富戏剧性的选举14优点:调查单位少,人力、物力和财力花费少;能及时获得有关的基本情况。重点调查(key-pointsurvey)定义:在研究对象的总体中,选取重点单位而进行的一种非全面调查。重点单位:数目不多,但被研究的标志值之和在总体所有单位标志值总和中占有很大比重的部分单位。优点:调查单位少,人力、物力和财力花费少;重点调查(key-15定义:根据调查目的和要求,在对所研究现象进行初步分析的基础上,从中选取有代表性的单位进行的周密细致的调查。典型调查(modelsurvey)形式:“解剖麻雀”式

“划类选典”式

优点:调查单位少、省时省力;调查内容多,有助于开展深入研究。

定义:根据调查目的和要求,在对所研究现象进行初步分析的基础上16统计报表(statisticalreportforms)

按调查对象范围可分为全面报表和非全面报表。按报送时间长短可分为日报、月报、季报、年报等。按内容和报送范围可分为国家、部门、地方统计报表。按报送方式可分为邮寄报表和电讯报表。定义:按照国家有关法规的规定,自上而下地布置、自下而上地逐级提供统计数据的一种调查方式。要求:统计报表要按一定的原始数据为基础,按照统一的表式、统一的指标、统一的报送时间和报送程序进行填报。类型:统计报表(statisticalreportforms)17统计调查的方法文案资料法访问法面谈调查电话调查邮寄调查留置调查日记调查观察法报告法次级数据原始资料实验法统计调查的方法文案资料法访问法面谈调查电话调查邮寄调查留置调18调查专业人士通过访问知识渊博人士开展探索性调研,被称为“关键信息提供者技术”(Key-Informanttechnique),也称“专家意见调查或主导使用者调查”(lead-usersurvey)。需要探索性调研的情景能提供观点的专业人士某公司生产的X牌去污剂是市场领导产品,因为生产饱和,该公司希望开发新产品来逆转下降的利润消费品市场的主要调研经理和清洁产业的主要使用者某新成立的非营利组织宗旨为协助有严重身体残障的人们。该组织在考虑它应该如何制定慈善项目以及该采用何种战略以获得公众的捐助公共服务机构官员,比如红十字会、联合募捐会和肌肉萎缩协会等美国总统候选人在考虑如何在各个选区有效分配竞选资源了解公众观点和态度的州和地方政党官员调查专业人士通过访问知识渊博人士开展探索性调研,被称为“19硅谷图像技术公司的灯塔客户硅谷图像技术公司(SGI)提供广泛的高功能计算和先进的图表解决方案。该公司在2004年的财务年度收入为8.42亿美元,其中65%的收入来自美国,25%来自欧洲,10%来自全球其他地区。SGI认为传统的市场调研对收集重大技术演变的信息作用不大。他们派最好的技术人员拜访行业专家,或该公司所称的“灯塔客户”(lighthousecustomer)。SGI的“灯塔客户”包括美国国家航天航空局、工业光魔公司、美国陆军、波音公司、迪斯尼公司和默克公司。这些公司在高功能计算和图表解决方案领域内的参与程度和专业素养使得他们成为验证换代产品的最佳选择。SGI的技术人员花费大量时间来访问灯塔客户并了解他们如何使用SGI的机器或他们希望如何更好地使用机器。比如,SGI在和工业灯魔公司与太平洋数据影像公司的互动中发现了仿真影像的需要。SGI开发出高功能计算机,可以制作《终结者2:审判日》中的电子怪人、《侏罗纪公园》中的恐龙。灯塔客户帮助SGI一直保持在高功能计算机行业的领导地位。硅谷图像技术公司的灯塔客户硅谷图像技术公司(SGI)20焦点人群访问(Focusgroupinterview)可用于调研消费者关于新产品概念的观点、识别网上购物者评价网站时采用的标准、观察对潜在促销主题的反响、消费者问卷调查中包括的问题等众多情景。由组织者(moderator)以相当自然和非结构化的方式将某一主题介绍给一组受访者或客户。受访者(通常8~12人)就给定主题开展非正式的讨论。焦点人群访问(Focusgroupinterview21观察法(Observationalmethod)采用人工或机械方式来观察人们在购物或消费情景中的实际行为或发生的事件。观察法调研方式对于评估产品使用、光顾商店的频率、媒体使用、在特定网站花费的时间、有监护人陪同或无人陪同的儿童的购买行为等非常有用。日本的经理们常常拜访批发商和零售商以感受市场。他们通过观察结果来改善营销战略。许多美国公司开始基于观察法的调研来设计产品。惠而浦公司在观察全球使用者后为其产品设计了新控制设施。乐柏美公司定期派遣员工到客户家庭访问观察家庭存储的做法。福特汽车公司通过人口影像资料来收集观察数据。观察法(Observationalmethod)22二手资料(Secondarydata)仔细审核合适的二手数据是快速且便宜地开展探索性调研以获得宝贵观点的方式。获得的观点为进一步的调研提供正确的聚焦。有时通过分析二手数据得出的观点甚至可能会取消后续调研,即从外部数据来源的二手数据完全足以制定最终决策。二手资料(Secondarydata)仔23二手数据中发现低卡饮食潮流[MinuteMaid美汁源]创立于美国,是可口可乐公司旗下的第一果汁饮料品牌。但其营销主管托瑞发现,在1999年和2004年之间,美国人消费的橙汁下降10.8%。其中主力家庭(每年消费超过12.5加仑或更多)的消费数量显著下降。自从20世纪20年代橙汁产品问世,它一直是美国的主流饮品。作为早餐饮料,也和咖啡混搭。如今橙汁到底怎么啦?为确认销量下降的原因,托瑞和他的小组很大程度上采用了二手数据,包括营养杂志和期刊。他们发现,10%的消费者是因为卡路里、碳水化合物和蔗糖的考虑而减少橙汁饮用量。其中,4%的消费者是因为低卡饮食潮流而减少橙汁饮用量。通过使用二手数据,托瑞不仅可以更好地了解消费者的食品购买习惯与饮食习惯,还明确了橙汁消费减少的原因。同时,他识别出客户的潜在需求还没有得到满足:低卡的橙汁饮品。于是,为迎合市场机会,美汁源公司开发出低卡产品(MinuteMaidPremiumLight),该产品热量只有普通橙汁的一半。二手数据中发现低卡饮食潮流[MinuteMaid美汁源]创24§2·2数据的整理§2·2数据的整理25数据的预处理数据的排序

数据的筛选数据的审核数据的预处理数据的排序数据的筛选数据的审核26数据的审核

1、对于第一手数据资料:完整性:统计单位是否遗漏;项目、指标是否填写齐全。准确性:数据是否与实际相符;计算是否正确。2、对于第二手数据资料:完整性、准确性;适用性:审核来源、口径、背景材料。时效性:若数据过于滞后,失去研究意义。审核方法:逻辑检查——适用于品质数据。

计算检查——适用于数量数据。数据的审核1、对于第一手数据资料:2、对于第二手数据资料:27一、

组作用:1、划分现象的类型2、反映总体内部结构和比例关系3、研究社会经济现象之间的依存关系正依存关系负依存关系

概念:根据统计研究的需要,将所有数据按照某种标志分成不同的组别。

一、统计分组作用:1、划分现象的类型正依存28二、选择分组标志的依据

根据研究目的选择分组标志;选择反映事物本质区别的标志;

根据经济发展变化及历史条件选择分组标志。二、选择分组标志的依据根据研究目的选择分组标志;29目的分组标志研究企业生产内部结构生产部门了解生产计划完成情况计划完成程度掌握盈亏情况利润水平了解生产技术力量状况职工技术等级、技术装备水平工业企业分组标志的选择目的分组标志研究企业生产内部结构生产部门了解生产计划完成情况30每户月收入/元户数800以下110800~12004501200~16003951600以上245合计1200每户人均月收入/元户数400以下130400~600350600~800520800以上200合计1200研究某地区居民家庭生活水平,可按每户月收入和每户人均月收入分别分组如下:每户月收入/元户数800以下110800~12004501231三、统计分组的类型(一)按标志的特征划分:1、按品质标志分组2、按数量标志分组

(二)按标志的多少划分:

1、简单分组:只选择一个标志进行简单分组。多次简单分组形成平行分组体系。

2、复合分组:选择两个或两个以上标志结合起来进行层叠分组,形成复合分组体系。三、统计分组的类型(一)按标志的特征划分:(二)按标志的多少32四、次

布(frequencydistribution)次数分布数列:按某种标志对数据进行分组后,再计算出所有数据在各组中出现的频数或频率,就形成了次数分布数列。

分组标志频数频率(%)………合计总体单位数100频数(次数):分布在各组内的数据个数。各组次数之和等于总次数,即总体单位数。

频率(比重):各组频数与全部频数之和的比值。各组频率之和等于1或100%。

四、次数分布(frequencydistribut33研究对象人数百分比(%)初犯者193.7屡犯者173.3非违法者48493.1合计520100.1在社会秩序与安全研究中,对某社区青少年犯罪状况统计结果如下表所示:研究对象人数百分比(%)初犯者193.7屡犯者173.3非违34次数分布数列的种类

按分组标志的性质划分品质数列:按品质标志分组的次数分布数列。

变量数列:按数量标志分组的次数分布数列。

组距数列:以变量值的一定变动范围(区间)为一组。单项数列:以每个变量值为一组。通常只适合于离散变量,且变量值较少的情况。等距数列:适用于变量值分布比较均匀的情况

异距数列:变量值的分布很不均衡。通常适用于连续变量及变量值较多的离散变量。按组距是否相等划分次数分布数列的种类按分组标志品质数列:按品质标志分组的次35按民族分组人数(人)比重(%)汉族回族藏族1440660900482230合计100表1表2按年龄段分组人数(人)比重(%)老中青1446690482230合计300100按民族分组人数(人)比重(%)汉族144048合计100表36按家庭人口数分组/人户数180224035004120560合计1000按从业人员数分组/人企业数50以下20549150~999005100~4996576500~9996841000及以上547合计222303某区居民家庭按人口数分组所形成的频次分布:某市企业法人单位按从业人员数分组所形成的频次分布:按家庭人口数分组/人户数18022403500412056037按每户月平均收入分组(元)户数(户)比重(%)1000以下1000~20002000~30003000~40004000~50005000以上2049955040267.117.533.917.914.39.3合计280100按每户月平均收入分组(元)户数(户)比重(%)1000以下238五、变量数列的编制

变量的类型:决定分布数列的类型。

全距(Range):最大值与最小值之差。

组数(Intervals)与组距(Classwidth)组限(Classlimits)组中值(Classmidpoint)累计次数(Cumulativefrequencies)频数密度(Frequencydensity)累计频率(Cumulativepercentages)五、变量数列的编制变量的类型:决定分布数列的类型。39组数与组距

组数:数列分组的数目。组数的确定应以能够显示数据的分布特征和规律为原则。

组距:在组距数列中,用变量值的一定区间(范围)代表一个组,每个区间的宽度称为组距。

对同一总体而言,组距越大,组数越少;组距越小,组数越多。

组数=全距/组距

组距=全距/组数

组数的多少与组距大小有关。组数与组距组数:数列分组的数目。组数的确定应以能够显示数据40如何确定组数与组距?异距数列中,组距的确定主要根据所研究事物的分布特征。

等距数列中,组距与组数的确定都可利用Sturges经验公式。A、若先求组距,再求组数B、若先求组数,再求组距斯特奇斯经验公式:其中:N为数列总次数(变量值个数)如何确定组数与组距?异距数列中,组距的确定主要根据所研究事物41组限:组距的两个端点。有上限(upperlimit)和下限(lowerlimit)之分。

开口组:

闭口组:有上限缺下限;或有下限缺上限。往往出现在最低组(首组)或最高组(末组)。

上限、下限都齐全。

如何确定组限?最低组的下限应小于或至多等于原始资料中的最小值;最高组的上限应大于或至少等于原始资料中的最大值。连续变量相邻两组的组限必须重叠。离散变量相邻两组的组限一般间断。

“上限不在内”原则。即恰好重叠在组限上的变量值一般归入下限的一组,避免频数的重复计算。

穷尽互斥组限:组距的两个端点。有上限(upperlimit)和42开口组的组中值计算:

组中值:每组上限与下限之间中点位置上的数值。

只有上限,无下限:只有下限,无上限:开口组的组中值计算:组中值:每组上限与下限之间中点位置上43按每户月平均收入分组(元)户数(户)比重(%)1000以下1000~20002000~30003000~40004000~50005000以上2049955040267.117.533.917.914.39.3合计280100按每户月平均收入分组(元)户数(户)比重(%)1000以下244累计次数与累计频率

较小制累计:从变量值小的组向变量值大的组累计。较大制累计:从变量值大的组向变量值小的组累计。按销售额分组(万元)商店数较小制累计较大制累计100以下100~200200~300300~400400以上2485122+4=66+8=1414+5=1919+1=2018+2=2014+4=186+8=141+5=61合计20——累计次数与累计频率较小制累计:从变量值小的组向变量值大的组45按结婚年龄分组(岁)人数(人)频数密度(人/岁)………26~273030………40~50353.5按成绩分组(分)人数(人)比重(%)60~7070~8080~90121810304525合计40100表1:表2:按结婚年龄分组(岁)人数(人)频数密度(人/岁)………26~46本资料来源本资料来源47§2数据的收集与整理§2数据的收集与整理48§2·1数据的收集§2·1数据的收集49一、调查方案的设计一、调查目的——“为什么调查”。二、研究对象、调查对象、调查单位——“向谁调查”。三、调查项目——“调查什么”。四、调查方式和方法——“怎样调查”。五、调查地点和调查时间——“什么时间、什么地点”。六、组织计划(具体工作计划)——“谁做调查”等等。一、调查方案的设计一、调查目的——“为什么调查”。二、研究50案例:调研可以增加商战的胜算,而失败的调研对企业来说是一场噩梦。上海柴氏宠物食品公司为一次市场调查付出了三十几万元的代价。拿到错误的数据不如没有数据。2004年底,为了能提高产品在宠物食品市场的竞争力,以前做生意一贯靠经验的柴远森先生决定为产品设计做消费调查。为了能够了解更多的消费信息,柴先生设计了精细的问卷,在上海选择了1000个样本,并且保证所有的抽样在超级市场的宠物组购物人群中产生,内容涉及:价格、包装、食量、周期、口味、配料等6大方面,覆盖了所能想到的全部因素。2005年初,上海柴氏的新配方、新包装狗粮产品上市了,短暂的旺销持续了一星期,随后就是全面萧条,后来产品在一些渠道甚至遭到了抵制。2005年2月初,新产品被迫从终端撤回,产品革新宣布失败。

公司请了十多个新产品的购买者回来座谈,原来,他们拒绝再次购买的原因是宠物不喜欢吃。产品的最终消费者并不是“人”,人只是一个购买者,错误的市场调查方向,决定了调查结论的局限,甚至荒谬。案例:公司请了十多个新产品的购买者回来座谈,51调查的标准时间:资料所属的时间。时点资料时期资料调查期限:调查的工作时间。调查的标准时间:资料所属的时间。时点资料时期资料调查期限52二、统计调查的方式和方法

统计调查的方式统计报表

普查重点调查抽样调查统计调查的方法

原始数据搜集方法

次级数据搜集方法典型调查二、统计调查的方式和方法

统计调查的方式统计报表普查重点53优点:数据一般比较准确、规范化程度高;搜集的资料更全面、更系统。缺点:工作量大、耗费大;适用的对象比较狭窄。基本原则:

确定普查的标准时间,避免遗漏或重复;登记工作应在整个普查范围内同时进行;统一规定普查的项目和指标;历次普查应尽可能保持连贯性。是专门组织的一次性的全面调查。普查(census):优点:数据一般比较准确、规范化程度高;是专门组织的一次性的全54每逢末尾数字为“1”或“6”的年份进行基本单位普查)

每逢末尾数字为“0”的年份进行人口普查;每逢末尾数字为“3”的年份进行第三产业普查;(每逢末尾数字为“5”的年份进行工业普查;每逢末尾数字为“6”的年份进行农业普查;我国的普查项目:

每逢末尾数字为“3”或“8”的年份进行经济普查。

每逢末尾数字为“1”或“6”的年份进行基本单位普查)每逢末55特点:经济性,节省人力、物力和财力;时效性强,可迅速、及时地获取信息;适用面广,适用于对各个领域、各种问题的调查;准确性高,产生的误差可以计算和控制。抽样调查(samplingsurvey)定义:按照随机(或非随机)的原则,从总体中抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体数量特征的一种非全面调查方式。特点:抽样调查(samplingsurvey)定义:按照56在佛州的选票最后决出之前,全美国9000多万张普选选票中,民主党候选人阿尔.戈尔获得50,140,140张选票,占49%,乔治.布什获得49,782,288张,占48%。戈尔领先布什357,932张选票;在全美国538张选举人票中,戈尔获得267张;布什获得246张。此后,小布什在佛罗里达州600多万张普选选票中以仅多出戈尔537张的优势获得该州的25张选举人票,当选美国总统。2000年美国大选2000年,乔治·布什成为继1888年本杰明·哈里森之后第一位以少数选民票当选的总统。戈尔在全国大选中领先布什35万多票,但最终结果却要由佛罗里达艰苦漫长的人工点票决定。大选结束四周以后最高法院以5:4决定停止佛州人工点票,将该州25张总统选举人票判给布什。2000大选作为美国历史上最接近、最有争议和最奇特的选举而载入史册。在佛州的选票最后决出之前,全美国9000多万张普选选57美国历史上的两次选举(一)谁会在1936年的选举中获胜?

AlfLondon(兰登)还是

F.D.R.(罗斯福)?

LiteraryDigest(文学文摘)送出一千万份问卷后,预测兰登会赢。而Gallop(盖洛普)只问了5000人,说罗斯福会赢。最后罗斯福和盖洛普都赢了,文摘倒闭了。从结果来看,1936年的选举是美国历史上最没有悬念的选举。罗斯福以2775万张选票赢得了46个州,比对手兰登多1107万张选票,选举人票是523票对8票,罗斯福几乎赢得了所有25万人口以上的大中城市。盖洛普将其成果归因于他们所采用的与传统抽样方法不同的配额抽样。应用这种方法,盖洛普又成功地预测了1940年1944年美国总统大选的结果,其声名鹊起,几乎成为民意调查的代名词。美国历史上的两次选举(一)谁会在1936年58美国历史上的两次选举(二)谁会在1948选举中获胜?

ThomasDewey(杜威)还是HarryTruman(杜鲁门)?盖洛普等民调机构都用了5000份问卷,都预测杜威会赢。最后的结果是杜鲁门赢了。他获得49.5%的普选票,305张选举人票(2个选举人改变主意,实际得到303票);杜威获得45.1%的普选票,187张选举人票(2个选举人改变主意,实际得到189票);州权党候选人瑟蒙德获得2.4%的普选票和39张选举人票;进步党候选人、前副总统华莱士获得2.4%的普选票,没有赢得任何一张选举人票。这个结果与盖洛普民意测验的结果正好相反。盖洛普最后一次的预测是,杜威将赢得49%的普选票,杜鲁门只能赢得44%。这也是历次盖洛普民意测验的最大误差——几乎整整5个百分点。

美国历史上的两次选举(二)谁会在1948选59美国历史上最富戏剧性的选举美国历史上最富戏剧性的选举60优点:调查单位少,人力、物力和财力花费少;能及时获得有关的基本情况。重点调查(key-pointsurvey)定义:在研究对象的总体中,选取重点单位而进行的一种非全面调查。重点单位:数目不多,但被研究的标志值之和在总体所有单位标志值总和中占有很大比重的部分单位。优点:调查单位少,人力、物力和财力花费少;重点调查(key-61定义:根据调查目的和要求,在对所研究现象进行初步分析的基础上,从中选取有代表性的单位进行的周密细致的调查。典型调查(modelsurvey)形式:“解剖麻雀”式

“划类选典”式

优点:调查单位少、省时省力;调查内容多,有助于开展深入研究。

定义:根据调查目的和要求,在对所研究现象进行初步分析的基础上62统计报表(statisticalreportforms)

按调查对象范围可分为全面报表和非全面报表。按报送时间长短可分为日报、月报、季报、年报等。按内容和报送范围可分为国家、部门、地方统计报表。按报送方式可分为邮寄报表和电讯报表。定义:按照国家有关法规的规定,自上而下地布置、自下而上地逐级提供统计数据的一种调查方式。要求:统计报表要按一定的原始数据为基础,按照统一的表式、统一的指标、统一的报送时间和报送程序进行填报。类型:统计报表(statisticalreportforms)63统计调查的方法文案资料法访问法面谈调查电话调查邮寄调查留置调查日记调查观察法报告法次级数据原始资料实验法统计调查的方法文案资料法访问法面谈调查电话调查邮寄调查留置调64调查专业人士通过访问知识渊博人士开展探索性调研,被称为“关键信息提供者技术”(Key-Informanttechnique),也称“专家意见调查或主导使用者调查”(lead-usersurvey)。需要探索性调研的情景能提供观点的专业人士某公司生产的X牌去污剂是市场领导产品,因为生产饱和,该公司希望开发新产品来逆转下降的利润消费品市场的主要调研经理和清洁产业的主要使用者某新成立的非营利组织宗旨为协助有严重身体残障的人们。该组织在考虑它应该如何制定慈善项目以及该采用何种战略以获得公众的捐助公共服务机构官员,比如红十字会、联合募捐会和肌肉萎缩协会等美国总统候选人在考虑如何在各个选区有效分配竞选资源了解公众观点和态度的州和地方政党官员调查专业人士通过访问知识渊博人士开展探索性调研,被称为“65硅谷图像技术公司的灯塔客户硅谷图像技术公司(SGI)提供广泛的高功能计算和先进的图表解决方案。该公司在2004年的财务年度收入为8.42亿美元,其中65%的收入来自美国,25%来自欧洲,10%来自全球其他地区。SGI认为传统的市场调研对收集重大技术演变的信息作用不大。他们派最好的技术人员拜访行业专家,或该公司所称的“灯塔客户”(lighthousecustomer)。SGI的“灯塔客户”包括美国国家航天航空局、工业光魔公司、美国陆军、波音公司、迪斯尼公司和默克公司。这些公司在高功能计算和图表解决方案领域内的参与程度和专业素养使得他们成为验证换代产品的最佳选择。SGI的技术人员花费大量时间来访问灯塔客户并了解他们如何使用SGI的机器或他们希望如何更好地使用机器。比如,SGI在和工业灯魔公司与太平洋数据影像公司的互动中发现了仿真影像的需要。SGI开发出高功能计算机,可以制作《终结者2:审判日》中的电子怪人、《侏罗纪公园》中的恐龙。灯塔客户帮助SGI一直保持在高功能计算机行业的领导地位。硅谷图像技术公司的灯塔客户硅谷图像技术公司(SGI)66焦点人群访问(Focusgroupinterview)可用于调研消费者关于新产品概念的观点、识别网上购物者评价网站时采用的标准、观察对潜在促销主题的反响、消费者问卷调查中包括的问题等众多情景。由组织者(moderator)以相当自然和非结构化的方式将某一主题介绍给一组受访者或客户。受访者(通常8~12人)就给定主题开展非正式的讨论。焦点人群访问(Focusgroupinterview67观察法(Observationalmethod)采用人工或机械方式来观察人们在购物或消费情景中的实际行为或发生的事件。观察法调研方式对于评估产品使用、光顾商店的频率、媒体使用、在特定网站花费的时间、有监护人陪同或无人陪同的儿童的购买行为等非常有用。日本的经理们常常拜访批发商和零售商以感受市场。他们通过观察结果来改善营销战略。许多美国公司开始基于观察法的调研来设计产品。惠而浦公司在观察全球使用者后为其产品设计了新控制设施。乐柏美公司定期派遣员工到客户家庭访问观察家庭存储的做法。福特汽车公司通过人口影像资料来收集观察数据。观察法(Observationalmethod)68二手资料(Secondarydata)仔细审核合适的二手数据是快速且便宜地开展探索性调研以获得宝贵观点的方式。获得的观点为进一步的调研提供正确的聚焦。有时通过分析二手数据得出的观点甚至可能会取消后续调研,即从外部数据来源的二手数据完全足以制定最终决策。二手资料(Secondarydata)仔69二手数据中发现低卡饮食潮流[MinuteMaid美汁源]创立于美国,是可口可乐公司旗下的第一果汁饮料品牌。但其营销主管托瑞发现,在1999年和2004年之间,美国人消费的橙汁下降10.8%。其中主力家庭(每年消费超过12.5加仑或更多)的消费数量显著下降。自从20世纪20年代橙汁产品问世,它一直是美国的主流饮品。作为早餐饮料,也和咖啡混搭。如今橙汁到底怎么啦?为确认销量下降的原因,托瑞和他的小组很大程度上采用了二手数据,包括营养杂志和期刊。他们发现,10%的消费者是因为卡路里、碳水化合物和蔗糖的考虑而减少橙汁饮用量。其中,4%的消费者是因为低卡饮食潮流而减少橙汁饮用量。通过使用二手数据,托瑞不仅可以更好地了解消费者的食品购买习惯与饮食习惯,还明确了橙汁消费减少的原因。同时,他识别出客户的潜在需求还没有得到满足:低卡的橙汁饮品。于是,为迎合市场机会,美汁源公司开发出低卡产品(MinuteMaidPremiumLight),该产品热量只有普通橙汁的一半。二手数据中发现低卡饮食潮流[MinuteMaid美汁源]创70§2·2数据的整理§2·2数据的整理71数据的预处理数据的排序

数据的筛选数据的审核数据的预处理数据的排序数据的筛选数据的审核72数据的审核

1、对于第一手数据资料:完整性:统计单位是否遗漏;项目、指标是否填写齐全。准确性:数据是否与实际相符;计算是否正确。2、对于第二手数据资料:完整性、准确性;适用性:审核来源、口径、背景材料。时效性:若数据过于滞后,失去研究意义。审核方法:逻辑检查——适用于品质数据。

计算检查——适用于数量数据。数据的审核1、对于第一手数据资料:2、对于第二手数据资料:73一、

组作用:1、划分现象的类型2、反映总体内部结构和比例关系3、研究社会经济现象之间的依存关系正依存关系负依存关系

概念:根据统计研究的需要,将所有数据按照某种标志分成不同的组别。

一、统计分组作用:1、划分现象的类型正依存74二、选择分组标志的依据

根据研究目的选择分组标志;选择反映事物本质区别的标志;

根据经济发展变化及历史条件选择分组标志。二、选择分组标志的依据根据研究目的选择分组标志;75目的分组标志研究企业生产内部结构生产部门了解生产计划完成情况计划完成程度掌握盈亏情况利润水平了解生产技术力量状况职工技术等级、技术装备水平工业企业分组标志的选择目的分组标志研究企业生产内部结构生产部门了解生产计划完成情况76每户月收入/元户数800以下110800~12004501200~16003951600以上245合计1200每户人均月收入/元户数400以下130400~600350600~800520800以上200合计1200研究某地区居民家庭生活水平,可按每户月收入和每户人均月收入分别分组如下:每户月收入/元户数800以下110800~12004501277三、统计分组的类型(一)按标志的特征划分:1、按品质标志分组2、按数量标志分组

(二)按标志的多少划分:

1、简单分组:只选择一个标志进行简单分组。多次简单分组形成平行分组体系。

2、复合分组:选择两个或两个以上标志结合起来进行层叠分组,形成复合分组体系。三、统计分组的类型(一)按标志的特征划分:(二)按标志的多少78四、次

布(frequencydistribution)次数分布数列:按某种标志对数据进行分组后,再计算出所有数据在各组中出现的频数或频率,就形成了次数分布数列。

分组标志频数频率(%)………合计总体单位数100频数(次数):分布在各组内的数据个数。各组次数之和等于总次数,即总体单位数。

频率(比重):各组频数与全部频数之和的比值。各组频率之和等于1或100%。

四、次数分布(frequencydistribut79研究对象人数百分比(%)初犯者193.7屡犯者173.3非违法者48493.1合计520100.1在社会秩序与安全研究中,对某社区青少年犯罪状况统计结果如下表所示:研究对象人数百分比(%)初犯者193.7屡犯者173.3非违80次数分布数列的种类

按分组标志的性质划分品质数列:按品质标志分组的次数分布数列。

变量数列:按数量标志分组的次数分布数列。

组距数列:以变量值的一定变动范围(区间)为一组。单项数列:以每个变量值为一组。通常只适合于离散变量,且变量值较少的情况。等距数列:适用于变量值分布比较均匀的情况

异距数列:变量值的分布很不均衡。通常适用于连续变量及变量值较多的离散变量。按组距是否相等划分次数分布数列的种类按分组标志品质数列:按品质标志分组的次81按民族分组人数(人)比重(%)汉族回族藏族1440660900482230合计100表1表2按年龄段分组人数(人)比重(%)老中青1446690482230合计300100按民族分组人数(人)比重(%)汉族144048合计100表82按家庭人口数分组/人户数180224035004120560合计1000按从业人员数分组/人企业数50以下20549150~9990

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论