管理统计学课件真的齐了2014autumn1数据的收集_第1页
管理统计学课件真的齐了2014autumn1数据的收集_第2页
管理统计学课件真的齐了2014autumn1数据的收集_第3页
管理统计学课件真的齐了2014autumn1数据的收集_第4页
管理统计学课件真的齐了2014autumn1数据的收集_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、管理统计学-数据的收集曹平 课程大纲数据的基本概念数据的收集步骤数据收集的类型数据的收集方法问卷设计数据的偏差数据数据是为描述和解释所搜集、分析与汇总的事实和数字信息的载体从事统计或其他某种业务活动而产生的对事实的一种以量化、图表等形式出现的记录数据有各种不同的表达形式,可以是数字,还可能是类别、性别、学历等数据集:用于特定研究而收集的所有数据例子基金名称基金类型净资产值($)5年平均回报率(%)晨星评级American Century Intl. DiscIE14.3730.533星Brown Cap SmallDE35.7315.854星Fidelity Sh-Term BondFI8.6

2、02.763星Marsico 21st CenturyDE17.4415.165星Oakmark IDE40.379.512星上表中,“IE”,“3星”等是数据吗?个体、变量和观测值个体:搜集数据的实体每个共同基金都是一个个体变量:个体中所感兴趣的特征基金类型净资产值5年平均回报率晨星评级观测值:对某个特定个体得到的测量值集合American Century Intl. Disc:IE,14.37, 30.53 和3星数据的分类定性数据(分类数据,名义数据)归属于某一类型的数据没有大小之分,仅仅用来表示不同的分类如基金类型:IE,DE,FI定量数据有序数据:有大小之分,但没有大多少的概念,如顾

3、客对服务质量等级的评价:优秀、好或差,晨星评级间隔数据:具有有序数据的所有性质,并且可以按一个固定的度量单位来表述数值间的间隔,如温度中0摄氏度不表示没有热量,计算间隔数据之间的比例是没有意义的比例数据:两个数值之比是有意义的,如距离、高度、重量、时间等,0是有意义的定量数据还可以按照取值范围分为离散数据和连续数据课程大纲数据的基本概念数据的收集步骤数据收集的类型数据的收集方法问卷设计数据的偏差数据收集统计的内容:数据的收集、分类、汇总、组织、分析和解释决策者不但需要数据,而且需要评估这些数据的质量收集数据需要询问或做试验谁去问?应该问谁?有足够经费或时间去问涉及该问题的每个人吗?该问些什么?

4、收集数据时需要考虑收集何类数据,收集的动机调查对象数据的来源分析被提问的人及如何被挑选出来?如何从这些回答者中收集信息?谁没有回答问题(无反应)收集的数据类型成本收益分析数据应有的精确度:界定了收集的方式、所需的期限及耗费的财力必须进行成本收益分析如果调查工作的开销较大,其所带来的收益必须经仔细权衡考虑时间成本及其收益:信息需求适时而变概念总体:在一个特定研究中所有感兴趣的个体组成的集合如:所有新住宅房地产价格的集合样本:总体的一个子集选择一个样本的目的是为了收集进行推断的数据,并且回答关于总体的一个研究问题抽样框:抽取样本时所用的个体清单如:要从10000名职工中抽出200名组成一个样本,则

5、10000名职工的名册,就是抽样框数据的质量对决策者来说,数据的质量是一个最大的问题统计数据的记录有正确和错误之分,量化记录值和实际真值之间有或多或少的误差存在数据对管理和决策能否发挥信息的作用还取决于对数据的甄别、筛选、分类和整理的方法是否正确,角度是否恰当数据有偏差或误导可以毁掉一个有效的决策过程如:某个区行业的调查结果不能作为整个城市行业的结果考虑数据的完整性:目前的数据是否够用,还需补充什么数据数据的来源原始数据:直接向调查对象收集所获得的数据问卷调查二手数据:已有的数据,如统计年鉴等专门搜集和保存数据的机构:通过租赁或购买的方式使用各类行业协会和专门营利的机构互联网政府机构,官方统计

6、课程大纲数据的基本知识数据的收集步骤数据收集的类型(应该问谁?)数据的收集方法问卷设计数据的偏差原始数据的收集类型数据收集的类型:普查普查:搜集总体全部数据的调查过程中国每逢末尾数字为“0”的年份进行人口普查,每逢“3”的年份进行第三产业普查,每逢“5”的年份进行工业普查,每逢“7”的年份进行农业普查,每逢“1”或“6”的年份进行统计基本单位普查。作用为以后的抽样调查提供抽样框获得一些标准信息,用于改进抽样调查所获得的估计量优点由于是调查某一人群的所有成员,所以在确定调查对象上比较简单所获得的资料全面,可以知道全部调查对象的相关情况,准确性高普查所获得的数据为抽样调查或其他调查提供基本依据缺点

7、工作量大,花费大,组织工作复杂调查内容有限易产生重复和遗漏现象由于工作量大而可能导致调查的精确度下降,调查质量不易控制数据收集的类型:抽样调查抽样调查:搜集样本数据的调查过程没有足够的时间或足够的成本做普查不可能做普查,如调查电灯泡的使用寿命当总体太大时由于各种原因不方便用全面调查时,可以采用抽样调查关键问题是样本要有代表性抽样前要做好抽样方案一种非全面调查,是从调查对象的总体中按一定规则抽取一部分单位进行观察,并依据所获得的数据对总体或总体的数量特征作出具有一定可靠程度的推断分为随机抽样、非随机抽样随机抽样根据随机原则,保证每个单位被选中的机会相等来抽取样本重复随机抽样:从总体随机抽取一个单

8、位后,把它放回,可能被重复抽中不重复随机抽样:不再放回,不会被重复抽中产生随机样本的方法若总体不太大,可以把每个观察值分别记录在一个纸片上,再将纸片放在一个适当的容器内,经充分混合后,进行抽取:如抽签总体很大时可以依靠随机数发生器来自动产生随机数,随机数发生器可以在随机数表和计算机中找到几种重要的随机抽样设计形式简单随机抽样从一个容量为N的有限总体中抽取一个容量为n的简单随机样本,使每一个容量为n的可能样本被抽中的概率(机会)相同具体实现方法:将这些单位从1到N编号,然后使用随机数表或计算机软件生成的随机数从抽样框中随机抽选n个单位,把这些随机数相应的单位组成样本分层随机抽样首先将总体划分成同

9、质的互不重叠的组(称为层),然后从每一层中按随机原则抽取一定单位构成样本如果每层内的差异比层间的差异小,则分层随机抽样可以得到更高的精度通常用于分层的变量:年龄,性别,地理位置,收入,家庭规模,营业规模等如:农产品抽样,按地区分类;学院毕业生起始年薪的调查,按专业分类系统随机抽样(等距随机抽样)从总体中按一定的间距抽选样本单位(只生成一次随机数)系统随机抽样省时省力,样本的代表性也比简单随机抽样好如:已知某企业职工的收入数据,想要研究该企业职工的消费水平,可按职工收入的高低排序编号,再采用系统抽样最大缺点是容易遇到周期性误差如:要研究某电视台的电视剧频道,假如抽取的单位间隔为7的话,可能抽到的

10、都是周末或者周五,这样就没有代表性整群随机抽样将总体各单位划分若干群,然后从中随机抽取部分群(对群进行简单随机抽样),对中选群的所有单位进行全面调查在抽样调查中没有总体单位的原始材料可供使用时,常常采用如:调查某城市的房屋建筑情况,可以利用现成的行政区域将城市划分为若干群整群抽样(续)整群抽样与分层抽样的区别群内的个体存在差异时,整群抽样可以提供较好的结果理想的情况是每个群都是整个总体的一个缩影,这样只需要抽取很少的群一个基本应用是区域抽样,群为街区或以其他方式定义的区域可以在相对短的时间内获得许多样本观察值,从而节约成本(在更低的总成本下获得更大量的样本)非随机抽样的形式方便抽样判断抽样雪球

11、抽样配额抽样优点:抽样比较方便缺点:无法判断抽样误差方便抽样(偶遇抽样)根据调查者的方便与否抽取样本如:检验几箱苹果的品质,从摆在每箱最上面的苹果中抽取如:在公共场合征求公众对某个事情的看法,请行人填写某种问卷优点:简便易行,能及时取得所需的信息资料,省时、省力,节约经费缺点:抽样偏差较大(箱底的苹果在运输中容易受损)一般用于非正式的探索性调查通过此方法取得的样本统计量,无法评价他们对要研究的总体参数进行估计的“优良性”判断抽样(目的抽样)凭研究人员的主观意愿、经验和知识,按照一定的标准有意识地在总体中选择若干合乎标准的代表单位组成样本进行调查抽样结果的质量依赖于选择样本的人的判断应用此抽样方

12、法的前提:研究者必须对总体的有关特征有相当深入的了解判断抽样的误差不能准确地计算出来如:报告者抽样两三名议员,认为这些议员的想法反映了整个议员的普遍意见(滚)雪球抽样以“滚雪球”的方式抽取样本,即通过少量样本单位以获取更多样本单位的信息运用前提是总体样本单位之间具有一定的联系,在不甚了解总体的情况下对总体或总体部分单位情况进行把握调查费用大大减少,但成本的节约是以调查质量的降低为代价的如果总体不大,有时用不了几次就会接近饱和状况;还有些个体因某些原因被提供者故意漏掉不提,因而可能产生偏误,不能保证代表性滚雪球抽样是在特定总体的成员难以找到时最适合的一种抽样方法如:要研究退休老人的生活,可以清晨

13、到公园去结识几位散步老人,再通过他们结识其朋友,不用很久,你就可以交上一大批老年朋友;劳务市场中保姆的调查配额抽样首先将总体中的所有单位按一定的标志分成若干类(组),然后在每个类(组)中用方便抽样或判断抽样选取样本单位非随机抽样中最流行的一种可保证总体的各个类别都能包括在所抽样本之中类似随机抽样中的分层抽样配额抽样成功的关键在于如何分层和分层后比例的确定进行民意调查时常用,规定不同社会阶层、不同年龄组、不同地区等各类人数的限额,然后获得要求数目的访问来填满每个配额例子某商场希望根据年龄和性别来调查对营业时间的意见,计划调查周边地区的1000个人性别比例(%)男46女54年龄(岁)比例(%)15

14、20192030253050265030年龄男性(人)女性(人)1520871032030115135305012014050138162更复杂的抽样方案随机和配额抽样的复合:分层抽样如:预测美国总统选举结果,已知民主党和共和党的百分比是P1:P2,当决定抽取1000个人做调查时,分层抽样方案为民主党抽1000P1, 共和党抽1000P2, 然后在每个党派中再作随机抽样小结:选择抽样调查的原因抽样调查能在充分满足客户所需要信息质量的前提下,提供一种费用节省、时效性好的方法相对于普查,抽样规模小,因而更容易监控比起普查,较小的样本反而可能会得到较精确的结果如:职员清点库存的所有30万个备份零件,

15、不如抽取一个样本好好清点有些情况下,普查可能更好或者是必要的根据具体调查的需要,可以将这两种调查方法结合如:区域估计时,可以对大城市进行抽样调查,对小城镇进行普查课程大纲数据的基本知识数据的收集步骤数据收集的类型数据的收集方法(怎么问?)问卷设计数据的偏差数据收集的方法原始数据的收集方法是调查者向被调查者收集答案的方法。常用方法有:自填式方法采访法直接观察法行政数据的调查试验直填式方法将设计好的问卷由调查员分发或通过邮寄、传真、网络的形式给被调查者,请其填写,再用其中任何一种方式返回问卷如:电台或电视台对听众或观众进行收听或收视率的调查;网络问卷调查成本比较低廉,所得资料便于整理、分析,可用于

16、样本广泛分布的较大的地域,可用于敏感问题的调查应答率和有效率通常很低,调查环境无法控制,无法收集非语言信息资料采访法利用调查人员和调查对象之间发生的语言交流来获取信息的调查方法,包括面谈询问和电话询问等面谈询问询问的问题较多,能在预期日程内完成调查,能获得对调查对象的观察资料,可以更精确地调控调查样本数量调查人员的看法倾向容易影响调查对象,使访谈结果产生偏见,动用人力多、成本费用大电话询问能迅速取得所需信息,调查人员不会对调查对象产生心理“压迫”无法利用照片和图表协助调查,无法对调查对象进行观察,谈话无法深入进行以及无法控制不合作的调查对象直接观察法由调查人员到现场对调查对象进行观察和计量取得

17、统计资料不是直接提问并要求回答,而是凭调查人员的直观感觉或是利用录音机、照相机、录像机和其他器材,记录和考察被调查者的活动和现场事实,以获得必要的信息直观性和可靠性强需较多的人、财、物和时间比较适用于小范围的微观市场调查如:观测路口的交通流量,观测顾客在商场的购买行为等行政数据的调查从其他政府部门或组织的行政记录中得到使用这些行政记录可节省信息收集的费用,避免对被调查者造成负担,但是由于这些数据通常是根据不同的目的收集的,因此需要进行认真评估课程大纲数据的基本知识数据的收集步骤数据收集的类型数据的收集方法问卷设计(问什么?如何问?)数据的偏差问卷设计问什么,怎么问确保调查质量的关键环节成功的问

18、卷设计满足两个条件问卷设立的问题被调查者愿意并易于回答使调查者得到所需了解问题的完整、准确的信息根据调查目的和要求,将所需要调查的问题具体化,使研究者能顺利地获取必要的信息资料,以便于统计分析生活中经常见到问卷的构成要素问卷的标题概括说明调查的研究主题简明扼要,易于引起回答者的兴趣如:汽车消费状况调查问卷的填写说明帮助被调查者更好地理解和回答问题常常以简短的语言,向被调查者说明填写问卷的要求和方法,包括调查目的要求、项目含义、调查时间、被调查者填写应注意事项、调查者应遵守事项的说明等目的是取得被调查者的合作,以提高调查的质量问卷的构成要素(续1)被调查者的基本情况个人:性别、年龄、民族、家庭人

19、口、婚姻状况、文化程度、职业、单位、收入、所在地区等企事业单位:企业名称、地址、所有制性质、主管部门、职工人数、商品销售额(或产品销售量)等情况列入哪些和多少项目,应根据调查目的、调查要求而定,并非多多益善调查主题内容主要是以提问的形式围绕调查的主题拟定问题,使提问的目的明确问卷的构成要素(续2)编码将问卷中的调查项目变成代码数字的工作过程作业证明的记载调查表后面常常附上调查员的姓名、访问日期、时间等如果必要,还可写上被访者的姓名、单位或家庭住址、电话等,以便于审核和进一步追踪调查问卷结构特点问题的先后要有一定的逻辑顺序,符合一般被调查者的思维程序先易后难,先简后繁,先基本后综合,先具体后抽象

20、核心问题可置于问卷的中间,对一些较敏感的被调查者不太愿意回答的问题,可放在问卷的最后,以便调查顺利进行由一个问题顺势准入下一个问题,由一个主题转到另一个主题,不要有跳跃而导致回答的无方向性Gallup组织总结提问的5种目的找出回答者是否觉察到这一结果你是否知道合肥到徐州之间要修条高速公路的计划?知道/不知道获得关于结果的一般感觉你是否同意合肥到徐州之间要修条高速公路? 强烈同意、同意、无所谓、不同意、强烈不同意获得该结果指定部分的答案你认为高速公路会对当地环境产生影响吗? 有/没有获得反映回答者观点的理由如果反对,那你反对的理由是: a.已有一条可用的主干道,b. 合肥到徐州之间运量不足,c.

21、高速公路会损坏美丽的乡村风景,d. 道路会破坏历史文物, e, 其他,请指定找出持有这些观点的强烈程度你准备用下列哪一种行动来支持你的观点? a. 给地区人大代表写信, b. 给本单位的全国人大代表写信 c.用顺序量表将调查的定性材料量化,并应用各种统计处理方法进行分析,提高调查的效度和信度问卷提问的方式开放式提问所提出的问答题并不列出所有可能的答案优点:有助于人们回答自己想要表达的观点缺点:导致偏爱有文化和教育程度高的人如:你觉得本刊物有哪些优缺点?问卷提问的方式(续)预设答案提问已事先设计了各种可能的答案的问答题,被访者只要或只能从中选定一个或几个现成答案的提问方式优点:容易回答缺点:不能

22、准备和全面反映被调查者的意见如:你同意在某国布置核武器吗? 同意、不同意、不知道回答者意见可能是“是的,但仅仅是某一种核武器”,“不,但没有可以代替它们的”,“是的,只要它们的发射受到严格控制解决方法:试图扩大预设答案的范围,如果不行,改为开放式提问提问的措辞一个有偏差的或诱导性提问将偏离给定的答案问卷设计中发现的偏差有把两个或两个以上问题表达为一个:如调查一个小区建公用车库还是自有车库时,问题设计为“由于自有车库使用方便和比较清洁,所以你赞成修自有车库”问题中含有含糊或不熟悉的单词,如很久、通常、一些等不确切的词语,如:你通常去哪儿购物?感冒后你吃盐酸吗啉胍片吗?用引导性语句开始的提问:如:

23、像大多数人那样,你是否认为在北大西洋公约组织里应该有英国的声音呢?通常有两种反应,a. 导致同意这种论述,以作出和大多数人一样的回答,b.单纯为了不同意而不同意?包含条件或假设条款:如果你有6个小孩,你认为你的生活会有多少改变?包含对回答者一个或多个指令的提问:如果你拿到周薪,在你预留下所有日常支出的钱以及小孩上学费用后你还有多少钱可以消费或存起来?课程大纲数据的基本知识数据的收集步骤数据收集的类型数据的收集方法问卷设计数据的偏差数据的偏差抽样误差根据对总体的一部分而不是全部的调查来估计总体特征而引起的误差所有的抽样调查都会出现抽样误差对于随机抽样调查,可以计算抽样误差,其误差大小取决于样本量

24、、总体大小、总体指标的变异程度、抽样设计方法和估计方法等可以量化地控制抽样误差与成本之间的权衡非抽样误差除抽样以外的几乎所有调查活动过程中所产生的误差不仅出现在抽样调查中,也出现在普查中非抽样误差的来源涵盖误差计量误差处理误差无反应误差涵盖误差由于在抽样框或者样本中出现了涵盖不全、过度涵盖、重复以及错误的分类而导致估计的偏倚涵盖不全:总体中某些单位被排除在抽样框之外如:用电话号码簿做电话访问的抽样框,可能会漏掉所有未将电话号码登记于电话薄的人过度涵盖:抽样框中包含了本来不属于总体的单位重复:抽样框中某个单位不止出现一次如:一个公司既以它的正式名称又以另外一个商业名称重复出现在一个商业抽样框中错

25、误分类:抽样框中分类变量取值错误如:男性被错误地归类到女性纠正抽样框缺陷、降低涵盖误差的方法放弃手中有缺陷的抽样框并重新构建一个新的抽样框(耗费较多人力,物力和财力)尽量使用外部信息来改进或更新抽样框计量误差对一个问题所做的回答记录与它的真值不同可能是由于被调查者和调查者对问题的误解、收集数据方式不同或测量工具而造成误解:使用了专业术语、概念模糊、措辞不当和语言障碍等数据收集方式也可以影响计量误差如:访员辅助调查,使用经过良好培训的访员比被调查者自填式的方法会有较少的计量误差调查员通过观察或者使用测量工具收集数据,计量误差因调查者或测量工具而产生如:测量人的体重时,用于记录被抽中人们体重的台秤可能因校准而显示为不正确的数值检测出它们通常是很困难的。因此在设计调查时,要特别注意使这样的误差降到最小处理误差处理是指将收集的调查结果转化为适合于列表及进行进一步数据分析所需要的形式。包含:数据收集以后

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论