统计学之数据的收集与整理_第1页
统计学之数据的收集与整理_第2页
统计学之数据的收集与整理_第3页
统计学之数据的收集与整理_第4页
统计学之数据的收集与整理_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本资料来源§2数据的收集与整理§2·1数据的收集一、调查方案的设计一、调查目的——“为什么调查”。二、研究对象、调查对象、调查单位——“向谁调查”。三、调查项目——“调查什么”。四、调查方式和方法——“怎样调查”。五、调查地点和调查时间——“什么时间、什么地点”。六、组织计划(具体工作计划)——“谁做调查”等等。案例:调研可以增加商战的胜算,而失败的调研对企业来说是一场噩梦。上海柴氏宠物食品公司为一次市场调查付出了三十几万元的代价。拿到错误的数据不如没有数据。2004年底,为了能提高产品在宠物食品市场的竞争力,以前做生意一贯靠经验的柴远森先生决定为产品设计做消费调查。为了能够了解更多的消费信息,柴先生设计了精细的问卷,在上海选择了1000个样本,并且保证所有的抽样在超级市场的宠物组购物人群中产生,内容涉及:价格、包装、食量、周期、口味、配料等6大方面,覆盖了所能想到的全部因素。2005年初,上海柴氏的新配方、新包装狗粮产品上市了,短暂的旺销持续了一星期,随后就是全面萧条,后来产品在一些渠道甚至遭到了抵制。2005年2月初,新产品被迫从终端撤回,产品革新宣布失败。

公司请了十多个新产品的购买者回来座谈,原来,他们拒绝再次购买的原因是宠物不喜欢吃。产品的最终消费者并不是“人”,人只是一个购买者,错误的市场调查方向,决定了调查结论的局限,甚至荒谬。调查的标准时间:资料所属的时间。时点资料时期资料调查期限:调查的工作时间。二、统计调查的方式和方法

统计调查的方式统计报表

普查重点调查抽样调查统计调查的方法

原始数据搜集方法

次级数据搜集方法典型调查优点:数据一般比较准确、规范化程度高;搜集的资料更全面、更系统。缺点:工作量大、耗费大;适用的对象比较狭窄。基本原则:

确定普查的标准时间,避免遗漏或重复;登记工作应在整个普查范围内同时进行;统一规定普查的项目和指标;历次普查应尽可能保持连贯性。是专门组织的一次性的全面调查。普查(census):每逢末尾数字为“1”或“6”的年份进行基本单位普查)

每逢末尾数字为“0”的年份进行人口普查;每逢末尾数字为“3”的年份进行第三产业普查;(每逢末尾数字为“5”的年份进行工业普查;每逢末尾数字为“6”的年份进行农业普查;我国的普查项目:

每逢末尾数字为“3”或“8”的年份进行经济普查。

特点:经济性,节省人力、物力和财力;时效性强,可迅速、及时地获取信息;适用面广,适用于对各个领域、各种问题的调查;准确性高,产生的误差可以计算和控制。抽样调查(samplingsurvey)定义:按照随机(或非随机)的原则,从总体中抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体数量特征的一种非全面调查方式。在佛州的选选票最后决决出之前,,全美国9000多多万张普选选选票中,,民主党候候选人阿尔尔.戈尔获获得50,,140,,140张张选票,占占49%,,乔治.布布什获得49,782,288张,占占48%。。戈尔领先先布什357,932张选票票;在全美美国538张选举人人票中,戈戈尔获得267张;;布什获得得246张张。此后,小布布什在佛罗罗里达州600多万万张普选选选票中以仅仅多出戈尔尔537张张的优势获获得该州的的25张选选举人票,,当选美国国总统。2000年年美国大选选2000年年,乔治··布什成为为继1888年本杰杰明·哈里里森之后第第一位以少少数选民票票当选的总总统。戈尔尔在全国大大选中领先先布什35万多票,,但最终结结果却要由由佛罗里达达艰苦漫长长的人工点点票决定。。大选结束束四周以后后最高法院院以5:4决定停止止佛州人工工点票,将将该州25张总统选选举人票判判给布什。。2000大选作为为美国历史史上最接近近、最有争争议和最奇奇特的选举举而载入史史册。美国历史上上的两次选选举(一一)谁会在1936年年的选举中中获胜?AlfLondon(兰登)还是F.D.R.(罗斯斯福)?LiteraryDigest(文学文摘摘)送出一一千万份问问卷后,预预测兰登会会赢。而Gallop(盖洛洛普)只问问了5000人,说说罗斯福会会赢。最后罗斯福福和盖洛普普都赢了,,文摘倒闭闭了。从结果来看看,1936年的选选举是美国国历史上最最没有悬念念的选举。。罗斯福以以2775万张选票票赢得了46个州,,比对手兰兰登多1107万张张选票,选选举人票是是523票票对8票,,罗斯福几几乎赢得了了所有25万人口以以上的大中中城市。盖洛洛普普将将其其成成果果归归因因于于他他们们所所采采用用的的与与传传统统抽抽样样方方法法不不同同的的配配额额抽抽样样。。应应用用这这种种方方法法,,盖盖洛洛普普又又成成功功地地预预测测了了1940年年1944年年美美国国总总统统大大选选的的结结果果,,其其声声名名鹊鹊起起,,几几乎乎成成为为民民意意调调查查的的代代名名词词。。美国国历历史史上上的的两两次次选选举举((二二))谁会会在在1948选选举举中中获获胜胜?ThomasDewey((杜杜威威))还还是是HarryTruman(杜杜鲁鲁门门)?盖洛普等民调调机构都用了了5000份份问卷,都预预测杜威会赢赢。最后的结果是是杜鲁门赢了了。他获得49.5%的的普选票,305张选举举人票(2个个选举人改变变主意,实际际得到303票);杜威威获得45.1%的普选选票,187张选举人票票(2个选举举人改变主意意,实际得到到189票));州权党候候选人瑟蒙德德获得2.4%的普选票票和39张选选举人票;进进步党候选人人、前副总统统华莱士获得得2.4%的的普选票,没没有赢得任何何一张选举人人票。这个结果与盖盖洛普民意测测验的结果正正好相反。盖盖洛普最后一一次的预测是是,杜威将赢赢得49%的的普选票,杜杜鲁门只能赢赢得44%。。这也是历次次盖洛普民意意测验的最大大误差——几几乎整整5个个百分点。美国历史上最最富戏剧性的的选举优点:调查单单位少,人力力、物力和财财力花费少;;能及时获得有有关的基本情情况。重点调查(key-pointsurvey)定义:在研究究对象的总体体中,选取重重点单位而进进行的一种非非全面调查。。重点单位:数数目不多,但但被研究的标标志值之和在在总体所有单单位标志值总总和中占有很很大比重的部部分单位。定义:根据调调查目的和要要求,在对所所研究现象进进行初步分析析的基础上,,从中选取有有代表性的单单位进行的周周密细致的调调查。典型调查(modelsurvey)形式:“解剖麻雀””式“划类选典””式优点:调查单单位少、省时时省力;调查内容多,,有助于开展展深入研究。。统计报表(statisticalreportforms)按调查查对象象范围围可分分为全全面报报表和和非全全面报报表。。按报送送时间间长短短可分分为日日报、、月报报、季季报、、年报报等。。按内容容和报报送范范围可可分为为国家家、部部门、、地方方统计计报表表。按报送送方式式可分分为邮邮寄报报表和和电讯讯报表表。定义::按照照国家家有关关法规规的规规定,,自上上而下下地布布置、、自下下而上上地逐逐级提提供统统计数数据的的一种种调查查方式式。要求::统计计报表表要按按一定定的原原始数数据为为基础础,按按照统统一的的表式式、统统一的的指标标、统统一的的报送送时间间和报报送程程序进进行填填报。。类型:统计调查查的方法法文案资料料法访问法面谈调查查电话调查查邮寄调查查留置调查查日记调查查观察法报告法次级数据据原始资料料实验法调查专业业人士通过访问问知识渊渊博人士士开展探探索性调调研,被被称为““关键信信息提供供者技术术”(Key-Informanttechnique)),也称称“专家家意见调调查或主主导使用用者调查查”(lead-usersurvey)。需要探索性调研的情景能提供观点的专业人士某公司生产的X牌去污剂是市场领导产品,因为生产饱和,该公司希望开发新产品来逆转下降的利润消费品市场的主要调研经理和清洁产业的主要使用者某新成立的非营利组织宗旨为协助有严重身体残障的人们。该组织在考虑它应该如何制定慈善项目以及该采用何种战略以获得公众的捐助公共服务机构官员,比如红十字会、联合募捐会和肌肉萎缩协会等美国总统候选人在考虑如何在各个选区有效分配竞选资源了解公众观点和态度的州和地方政党官员硅谷图像像技术公公司的灯灯塔客户户硅谷图像技术术公司(SGI)提供广广泛的高功能能计算和先进进的图表解决决方案。该公公司在2004年的财务务年度收入为为8.42亿亿美元,其中中65%的收收入来自美国国,25%来来自欧洲,10%来自全全球其他地区区。SGI认认为传统的市市场调研对收收集重大技术术演变的信息息作用不大。。他们派最好好的技术人员员拜访行业专专家,或该公公司所称的““灯塔客户””(lighthousecustomer)。SGI的“灯灯塔客户”包包括美国国家家航天航空局局、工业光魔魔公司、美国国陆军、波音音公司、迪斯斯尼公司和默默克公司。这这些公司在高高功能计算和和图表解决方方案领域内的的参与程度和和专业素养使使得他们成为为验证换代产产品的最佳选选择。SGI的技术人员员花费大量时时间来访问灯灯塔客户并了了解他们如何何使用SGI的机器或他他们希望如何何更好地使用用机器。比如如,SGI在在和工业灯魔魔公司与太平平洋数据影像像公司的互动动中发现了仿仿真影像的需需要。SGI开发出高功功能计算机,,可以制作《《终结者2::审判日》中中的电子怪人人、《侏罗纪纪公园》中的的恐龙。灯塔塔客户帮助SGI一直保保持在高功能能计算机行业业的领导地位位。焦点人群访访问(Focusgroupinterview))可用于调研研消费者关关于新产品品概念的观观点、识别别网上购物物者评价网网站时采用用的标准、、观察对潜潜在促销主主题的反响响、消费者者问卷调查查中包括的的问题等众众多情景。。由组组织织者者((moderator))以以相相当当自自然然和和非非结结构构化化的的方方式式将将某某一一主主题题介介绍绍给给一一组组受受访访者者或或客客户户。。受受访访者者((通通常常8~~12人人))就就给给定定主主题题开开展展非非正正式式的的讨讨论论。。观察法法(Observationalmethod))采用人人工或或机械械方式式来观观察人人们在在购物物或消消费情情景中中的实实际行行为或或发生生的事事件。。观察法法调研研方式式对于于评估估产品品使用用、光光顾商商店的的频率率、媒媒体使使用、、在特特定网网站花花费的的时间间、有有监护护人陪陪同或或无人人陪同同的儿儿童的的购买买行为为等非非常有有用。。日本的的经理理们常常常拜拜访批批发商商和零零售商商以感感受市市场。。他们们通过过观察察结果果来改改善营营销战战略。。许多美美国公公司开开始基基于观观察法法的调调研来来设计计产品品。惠而浦浦公司司在观观察全全球使使用者者后为为其产产品设设计了了新控控制设设施。。乐柏美美公司司定期期派遣遣员工工到客客户家家庭访访问观观察家家庭存存储的的做法法。福特汽汽车公公司通通过人人口影影像资资料来来收集集观察察数据据。二手资资料((Secondarydata)仔细审审核合合适的的二手手数据据是快快速且且便宜宜地开开展探探索性性调研研以获获得宝宝贵观观点的的方式式。获获得的的观点点为进进一步步的调调研提提供正正确的的聚焦焦。有时通通过分分析二二手数数据得得出的的观点点甚至至可能能会取取消后后续调调研,,即从从外部部数据据来源源的二二手数数据完完全足足以制制定最最终决决策。。二手数数据中中发现现低卡卡饮食食潮流流[MinuteMaid美美汁源源]创创立于于美国国,是是可口口可乐乐公司司旗下下的第第一果果汁饮饮料品品牌。。但其其营销销主管管托瑞瑞发现现,在在1999年和和2004年之之间,,美国国人消消费的的橙汁汁下降降10.8%。。其中中主力力家庭庭(每每年消消费超超过12.5加加仑或或更多多)的的消费费数量量显著著下降降。自自从20世世纪20年年代橙橙汁产产品问问世,,它一一直是是美国国的主主流饮饮品。。作为为早餐餐饮料料,也也和咖咖啡混混搭。。如今今橙汁汁到底底怎么么啦??为确认销销量下降降的原因因,托瑞瑞和他的的小组很很大程度度上采用用了二手手数据,,包括营营养杂志志和期刊刊。他们们发现,,10%%的消费费者是因因为卡路路里、碳碳水化合合物和蔗蔗糖的考考虑而减减少橙汁汁饮用量量。其中中,4%%的消费费者是因因为低卡卡饮食潮潮流而减减少橙汁汁饮用量量。通过使用用二手数数据,托托瑞不仅仅可以更更好地了了解消费费者的食食品购买买习惯与与饮食习习惯,还还明确了了橙汁消消费减少少的原因因。同时时,他识识别出客客户的潜潜在需求求还没有有得到满满足:低低卡的橙橙汁饮品品。于是是,为迎迎合市场场机会,,美汁源源公司开开发出低低卡产品品(MinuteMaidPremiumLight)),该产产品热量量只有普普通橙汁汁的一半半。§2·2数数据的的整理数据的预预处理数据的排排序数据的筛筛选数据的审审核数据的审审核1、对于第第一手数数据资料料:完整性::统计单单位是否否遗漏;;项目、、指标是是否填写写齐全。。准确性::数据是是否与实实际相符符;计算算是否正正确。2、对于第第二手数数据资料料:完整性、、准确性性;适用性::审核来来源、口口径、背背景材料料。时效性::若数据据过于滞滞后,失失去研究究意义。。审核方法法:逻辑检查查——适适用于品品质数据据。计算检查查——适适用于数数量数据据。一、统计分组作用::1、划分现现象的类类型2、反映总总体内部部结构和和比例关关系3、研究社社会经济济现象之之间的依存关系系正依存关关系负依存关关系概念:根根据统计计研究的的需要,,将所有有数据按按照某种种标志分分成不同同的组别别。二、选择分分组标志的的依据根据研究目目的选择分分组标志;选择反映事事物本质区区别的标志志;根据经济发发展变化及及历史条件件选择分组组标志。目的分组标志研究企业生产内部结构生产部门了解生产计划完成情况计划完成程度掌握盈亏情况利润水平了解生产技术力量状况职工技术等级、技术装备水平工业企业分分组标志的的选择每户月收入/元户数800以下110800~12004501200~16003951600以上245合计1200每户人均月收入/元户数400以下130400~600350600~800520800以上200合计1200研究某地区区居民家庭庭生活水平平,可按每每户月收入入和每户人人均月收入入分别分组组如下:三、统计分分组的类型型(一)按标标志的特征征划分:1、按品质标标志分组2、按数量标标志分组(二)按标标志的多少少划分:1、简单分组组:只选择择一个标志志进行简单单分组。多多次简单分分组形成平平行分组体体系。2、复合分组组:选择两两个或两个个以上标志志结合起来来进行层叠叠分组,形形成复合分分组体系。。四、次数分布(frequencydistribution)次数分布数数列:按某某种标志对对数据进行行分组后,,再计算出出所有数据据在各组中中出现的频频数或频率率,就形成成了次数分分布数列。。分组标志频数频率(%)………合计总体单位数100频数(次数数):分布布在各组内内的数据个个数。各组组次数之和和等于总次次数,即总总体单位数数。频率(比重重):各组组频数与全全部频数之之和的比值值。各组频频率之和等等于1或100%。研究对象人数百分比(%)初犯者193.7屡犯者173.3非违法者48493.1合计520100.1在社会秩序序与安全研研究中,对对某社区青青少年犯罪罪状况统计计结果如下下表所示::次数分布数数列的种类类按分组标志志的性质划分分品质数列::按品质标标志分组的的次数分布布数列。变量数列:按数量标标志分组的的次数分布布数列。组距数列::以变量值的的一定变动动范围(区区间)为一一组。单项数列::以每个变变量值为一一组。通常只适合合于离散变变量,且变变量值较少少的情况。。等距数列::适用于变变量值分布布比较均匀匀的情况异距数列::变量值的的分布很不不均衡。通常适用于于连续变量量及变量值值较多的离离散变量。。按组距是否否相相等划分按民族分组人数(人)比重(%)汉族回族藏族1440660900482230合计100表1表2按年龄段分组人数(人)比重(%)老中青1446690482230合计300100按家庭人口数分组/人户数180224035004120560合计1000按从业人员数分组/人企业数50以下20549150~999005100~4996576500~9996841000及以上547合计222303某区居民家家庭按人口口数分组所所形成的频频次分布::某市企业法法人单位按按从业人员员数分组所所形成的频频次分布::按每户月平均收入分组(元)户数(户)比重(%)1000以下1000~20002000~30003000~40004000~50005000以上2049955040267.117.533.917.914.39.3合计280100五、变量数列的的编制变量的类型型:决定分分布数列的的类型。全距(Range)):最大值值与最小值值之差。组数(Intervals)与组距((Classwidth)组限(Classlimits)组中值(Classmidpoint)累计次数((Cumulativefrequencies)频数密度((Frequencydensity)累计频率((Cumulativepercentages)组数与组距距组数:数列列分组的数数目。组数数的确定应应以能够显显示数据的的分布特征征和规律为为原则。组距:在组组距数列中中,用变量量值的一定定区间(范范围)代表表一个组,,每个区间间的宽度称称为组距。。对同一总体体而言,组组距越大,,组数越少少;组距越小,,组数越多多。组数=全距距/组距组距=全距距/组数组数的多少少与组距大大小有关。。如何确定组组数与组距距?异距数列中中,组距的的确定主要要根据所研研究事物的的分布特征征。等距数列中中,组距与与组数的确确定都可利利用Sturges经验公式。。A、若先求组组距,再求求组数B、若若先求求组组数数,,再再求求组组距距斯特特奇奇斯斯经经验验公公式式:其中中::N为数数列列总总次次数数((变变量量值值个

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论