统计研究的程序与数据搜集方法_第1页
统计研究的程序与数据搜集方法_第2页
统计研究的程序与数据搜集方法_第3页
统计研究的程序与数据搜集方法_第4页
统计研究的程序与数据搜集方法_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、如果您需要使用本文档,请点击下载按钮下载!一、 统计研究的程序统计调查与数据搜集数据组织与整理统计列表、图示描述统计分析统计资料为一个总体还是一个样本为样本推断统计分析为总体有关总体的结论二、数据搜集方法A、 为什么要搜集数据:数据是统计分析的基础1 / 13如果您需要使用本文档,请点击下载按钮下载!B、 什么是数据搜集:根据统计研究的目的和要求,有组织、有计划地向调查对象搜集原始资料和次级资料。 C、 数据来源数据来源直接来源间接来源观察问卷调查各类出版物实验(一)原始数据的搜集方法1、全面调查(1)定期统计报表制度:严格的报告制度指按照国家统一规定的各项要求,自下而上地定期向国家和主管部门

2、报送基本统计资料的一种报告制度优点:能保证统计资料的全面性和连续性能保证统计资料的统一性和及时性能满足各级部门对统计资料的需要缺点:统计报表过多会增加基层负担有可能由于虚报瞒报而影响统计资料质量(2)普查:指国家为详尽了解某项重要的国情国力而专门组织的一次性全面调查由于需要大量的人力、物力和财力,不宜经常进行最近的一次普查:2004年第一次全国经济普查我国人口普查:1953年 1964年 1982年 1990年 2000年 2010年2、 随机抽样调查:根据随机原则推算总体特征,又称概率抽样抽样调查是一种非全面调查,抽样推断的理论基础是概率论。特点:2 / 13如果您需要使用本文档,请点击下载

3、按钮下载!(1)按随机原则选样,即样本单位的抽取不受主观因素及其他系统性因素的影响,每个总体单位都有均等的被抽中机会(2)能够保证样本对总体的代表性,即样本单位和总体具有相同的概率分布(3)调查目的是从数量上推算总体数量特征和数量表现,它可以到全面调查的作用(4)抽样误差可以事先计算并控制优点:(1)能用较少的人力、物力和时间达到全面调查的目的(2)调查资料的准确性较高、受人为干扰的可能性较小方式:(1)简单随机抽样,每个个体被抽中的机会相等;选择一个受试对象对其他元素没有影响;使用随机数表,抽签等方式。可以应用Excel中的随机函数rand()根据样本框安排随机样本*样本框:抽样过程中抽取样

4、本的所有抽样单位的名单。如,从全体学生中,直接抽取200名学生作为样本,那么,全体学生的名单(花名册)就是这次抽样的样本框。例:在编号为1-100的学生中随机抽取随机编号=int(rand()*100)+1学会查看Excel的帮助文件(2)等距抽样,又称机械抽样或系统抽样,常用于电话调查。例如:从一个学生人数为200人的总体中抽取容量为20的样本,将学生的学号排序,假定随机选取学号起点4,然后从总体中选取样点的学号为第4,第14,第24,(3)类型抽样,又称分层抽样,把总体某种分类标准分为若干群组,这些群组满足互斥性、完备性、和相似性要求,然后在组中按照同样的比例随机选取样本。特点:代表性高,

5、抽样误差低。例如:调查对象按收入分为高、中、低三个层次,然后从每个阶层中或随机抽取(4)整群抽样,又称聚类抽样。先对总体分类,然后用简单随机抽样选类,最后对选中的类作普查或简单随机抽样调查。较为有效。例如:按照家庭、宿舍楼或街区来抽取调查对象,对抽到的家庭、宿舍楼或街区再作全面或随机调查。3、非概率抽样:不按照概率均等的原则,而是根据人们的主观经验或其它条件来抽取样本。3 / 13如果您需要使用本文档,请点击下载按钮下载!缺点:(1)由于调查者的主观决策影响抽样的整个过程,因而不能保证样本是否重现了总体的分布结构,样本的代表性往往较小,用这样的样本推论总体是极不可靠的。(2)误差有时相当大,而

6、且这种误差又无法估计。优点:(1)很多情况下,严格的随机抽样几乎无法进行,例如调查对象的总体边界不清而无法制作或提供抽样框。(2)有些研究为了符合研究的目的,不得不按照需要从总体中抽取少数有代表性的个体作为样本。(3)随机抽样的操作过程要求严格,实施起来比较麻烦,费时费力,因此如果调查的目的仅是对问题的初步探索,获得研究的线索和提出假设,而不是由样本推论总体,采用随机抽样就不一定是必须的。综上:操作方便、省钱省力,统计上也远较概率抽样简单,而且若能对调查总体和调查对象有较好的了解,抽样也可获得相当的成功。方式:(1)典型调查在对调查对象有一定了解的基础上,有意识地选择个别或少数有代表性的单位进

7、行调查的一种非全面调查典型单位指在数量表现上具有普遍意义和代表性的总体单位,可以用来推断总体的数量(2) 重点调查一种非全面调查,它是在被调查总体中选出一部分重点单位进行调查。这些单位数目不多,但其标志值在总体标志总量中占有较大比重,能反映总体的基本情况能以较少的投入和较快的速度取得总体基本情况及变动趋势的资料,但只适用于客观存在着重点单位的情况例如:对大型钢铁企业的调查可以了解全国钢铁的生产情况 对35个大中型城市的物价调查可以了解全国的物价状况(3)就近抽样(偶遇抽样、方便抽样、自然抽样)定义:是指研究者根据现实情况,以自己方便的形式抽取偶然遇到的人作为调查对象,或者仅仅选择那些离得最近的

8、、最容易找到的人作为调查对象。举例:为了调查某市的交通情况,研究者到离他们最近的公共汽车站,把当时正在那里等车的人选作调查对象。其他类似的偶遇抽样还有:在街口拦住过往行人进行调查;在图书馆阅览室对当时正在阅读的读者进行调查;在商店门口、展览大厅、电影院等公众场所向进出往来的顾5 / 13如果您需要使用本文档,请点击下载按钮下载!客、观众进行的调查;利用报刊杂志向读者进行调查;老师以他所教的班级的学生作为调查样本的调查等等。(4)目标式和判断式抽样(主观抽样、立意抽样):定义:调查者根据研究的目标和自己主观的分析,来选择和确定调查对象的方法。研究者依据主观判断选取可以代表总体的个体作为样本。样本

9、的代表性取决于研究者对总体的了解程度和判断能力。例如:在编制物价指数时,有关产品项目的选择和样本地区的决定等,常采用判断抽样。(5)滚雪球抽样:定义:当我们无法了解总体情况时,可以从总体中的少数成员入手,对他们进行调查,向他们询问还知道哪些符合条件的人;再去找那些人并询问他们知道的人。如同滚雪球一样,我们可以找到越来越多具有相同性质的群体成员。例如,要研究退休老人的生活,可以清晨到公园去结识几位散步老人,再通过他们结识其朋友。但是这种方法偏误也很大,那些不好活动、不爱去公园、不爱和别人交往、喜欢一个人在家里活动的老人,你就很难把雪球滚到他们那里去,而他们却代表着另外一种退休后的生活方式。滚雪球

10、抽样是在特定总体的成员难以找的时最适合的一种抽样方法。譬如对获得无家可归者、流动劳工及非法移民等的样本就十分适用。(6)配额抽样(定额抽样):它与分层抽样中的比例抽样相似,也是按调查对象的某种属性或特征将总体中所有个体分成若干类或层,然后在各层中抽样,样本中各层(类)所占比例与他们在总体中所占比例一样。进行定额抽样时,研究者要尽可能的依据那些有可能影响研究变量的各种因素来对总体分层,并找出具有各种不同特征的成员在总体中所占的比例。然后依据这种划分以及各类成员的比例去选择调查对象,使样本中的成员在上述各种因素、各种特征方面的构成和在样本的比例尽量接近总体情形。例:假设某高校有2000名学生,其中

11、男生占60,女生占40;文科学生和理科学生各占50;一年级学生占40,二年级、三年级、四年级学生分别占30、20和10。现要用定额抽样方法依上述三个变量抽取一个规模为100人的样本。依据总体的构成和样本规模,我们可得到下列定额表:5 / 13如果您需要使用本文档,请点击下载按钮下载!男生(60)女生(40)文科(30)理科(30)文科(20)理科(20)年级一 二 三 四一 二 三 四一 二 三 四一 二 三 四人数12 9 6 312 9 6 38 6 4 28 6 4 2配额抽样和分层抽样的区别: A 分层抽样总体进行分层时,通常依据的一种特征或指标,分层的目的是为了照顾到某些比例小的层次

12、,使得所抽样本的代表性进一步提高,误差进一步减小;而配额抽样则是依据多个特征,分层的目的是为了模拟出一个总体B 分层抽样在每层进行抽样时,按照一定的比例进行随机抽样;而配额抽样则是根据每一层中分配的数额进行抽样C 分层抽样完全根据概率原则,排除主观因素,客观地、等概率地到各层中进行抽样;而配额抽样则是“按事先规定地条件,有目的地寻找”样本单位,在分层和抽样的过程中有很多的人为因素影响(二)次级资料搜集统计资料汇编刊物:各种统计年鉴、调查报告、统计摘要、网上电子资源有用的统计信息网站:1、 中华人民共和国国家统计局:2、 中国统计数据 3、 经济中国 4、 中国商业报告库 google和百度也是

13、常用的数据来源特别提示:要学会使用学校图书馆的免费数据库财政学系09级硕士生曾颖同学常用的数据库(详细内容见网络平台中的课件“曾颖的数据库”)1、国研网数据库6 / 13如果您需要使用本文档,请点击下载按钮下载!特点:统计数据库包含宏观数据、金融、教育、行业数据等,但是宏观数据年度跨度不大。适合对个别指标进行跨省、跨时间的统一检索。另外有全文数据库等,包含一些专家学者的文章,可以作为参考。2、中经网85:90/scorpio/aspx/main.aspx?width=1014&height=708特点:以宏观数据为主,包含国家一级、31个省以及200多个市

14、的数据,与国研网的统计数据库类似,统计项目没有国研网多,但是有些指标年份跨度更大。适合统一检索。3、资讯行特点:非常全的数据库,几乎囊括了所有最新的年鉴。适合寻找数据的来源。缺点在于:没有1995年之前的年鉴,数据不是表格形式,需要自己修改。(可行的方法包括:粘贴到word中,把空白(w)替换为制表符(t),或者直接粘贴到excel2007,进行数据分列)。4、统计局数据库8/indicatorYearQuery.do特点:最近几年刚出的,还在完善中。可以对统计局出版的年鉴数据进行统一检索。(和1、2很相似)有时候能找到1、2所没有的数据。5、年鉴包括历年

15、统计年鉴以及普查数据、专题数据等,适合浏览年鉴。实际上,目前很多最新年鉴,包括新中国六十年统计资料汇编、2010年统计摘要等都可以在网上下载到excel版本。6、知网6.1文献非常全的学术文献数据库,包括了期刊、学位论文、学术会议论文等。这个加上维普的话,基本上可以把中国比较好的期刊论文都包括了。6.2年鉴中国统计年鉴数据库(挖掘版)7 / 13如果您需要使用本文档,请点击下载按钮下载!提供对统计年鉴的统一检索,但是效果不理想,比较凌乱。列出了500部左右的年鉴,比较全,但是不一定有最新的。可以先在资讯行搜索数据指标所属的年鉴,再在这里找到年鉴。 三、调查误差1、 登记误差:调查过程中,工作的

16、不准确所造成的误差。 (1) 偶然性登记误差:调查人员责任心不强、技术不高所造成的观察、测量、计算错误、笔误、错填、遗漏,以及被调查者回答有误、理解有误。特点:一般不具有倾向性,即在数量不会偏向某一方,理论上它可以用某种方法加以消除(2) 系统误差:具有明显的倾向性,在数量上往往偏向某一方,又称偏差。A、 有意误差:故意虚报、瞒报、假报、编造、有意歪曲事实。B、 非主观原因所引起的误差。测量工具的不准、调查方式安排不当。例如:使用非概率抽样方法进行的调查可能由于访问时的样本偏倚而出现误差案例1:1936年,富兰克林罗斯福(Franklin Roosevelt)的第一任总统任期届满,共和党候选人

17、、堪萨斯州州长阿尔弗雷德兰登(Alfred Landon)与其竞选总统。为了预测大选结果,文摘 杂志(Literary Digest)发出了1000万张模拟选票,收回237.6万张 。据此,文摘杂志预测兰登将以57%对43%的压倒性优势获胜,但选举的结果却是罗斯福以62%对38%的优势击败兰登。Literacy Digest 杂志的民意调查尽管样本容量很大(240万),但是样本选择的偏倚仍导致预测失败,该杂志的可信度大大降低,最终走向了破产。与此同时,乔治盖洛普在1936年的大选预测中首先使用运用定额抽样方法(即按照总体单位的多个特征将总体分层,安排每个层次的样本数额),利用一个约5万人的样本

18、,准确预测出罗斯福将获胜。Literacy Digest的问题出在哪呢?文摘杂志的调查对象大多数是从电话簿和俱乐部的花名册上选择。这样的抽样方法从两方面影响了样本的代表性。其一,当时只有1/4的家庭拥有电话,而且拥有电话的绝大多数都是富人。其二,如果是在1936年以前,这种偏好对预测的影响可能不大,因为富人和穷人依据相同的路线投票。而在大萧条年代,政治上的划分更紧密地遵循经济路线,绝大多数穷人投民主党的票,而比较富有的人则倾向于共和党。9 / 13如果您需要使用本文档,请点击下载按钮下载!案例2:1948年美国大选时,盖洛普联合全美约100家独立报纸,继续采用定额抽样的方法对5万人次进行寻访,

19、预测杜威(Dewey)将战胜杜鲁门,而结果是杜鲁门以52.8%的选票获胜,杜威的得票率为44.5%。芝加哥论坛报甚至未等大选最后的结果揭晓,就在头版以大标题宣布杜威战胜杜鲁门,结果成为民意研究历史上的一大笑话。而在那年大选中,密歇根的调查研究中心所采用的概率抽样宣告胜利。盖洛普的问题出在哪呢?定额抽样似乎保证了样本和选举总体在被认为对选举行为有影响的所有主要特征方面将会相似,但是选民的哪些特征会影响他们选择,这恰恰是调查机构所不知道而正努力尝试去发现的。并且在规定的定额内,访问人员可以自由选择他喜欢的任何人,这给人为选择留有过多的余地。2、 代表性误差:非全面调查所固有的产生原因:抽取样本时没

20、有遵循随机原则;个别或部分单位不能完全反映总体的性质;样本容量不足;由部分单位数值来推断总体数值所产生的误差,它不可以消除,但通常可以事先计算,并能将它控制在一定的范围内。1.4 统计调查方案与实践北京大学校园主流文化调查问卷问卷编号: 调查时间:2010年 月 日 调查地点: 调查人: 学号 数据审核人: 学号 亲爱的同学:您好!我们是经济学院本科生,为了解北京大学现在的主流校园文化,并为我们的统计学案例教学搜集数据,我们在北大校园内展开此次调查。此问卷采取匿名填写方式,决不用于任何商业目的。谢谢您的支持!【填写说明】请在每一问题后所给的备选答案中选择符合你的情况或你同意的答案,并在所选答案前的方框内打“”,或在问题中 处填写适当的内容。9 / 13如果您需要使用本文档,请点击下载按钮下载!1. 您现在所在年级是(1)大二(2)大三(3)大四2. 您的性别是 (1) 男 (2) 女3. 您来自_院系。4. 您的家庭来自(1) 大城市(2) 中小城市(3) 农村5. 您家里的经济情况怎么样?(1) 还不错 (2)一般吧 (3)比较差6. 您父母的受教育程度:父亲_母亲_(1)大学(2)高中(3)初中(4)小学7. 您认为北大最可贵的地方是:(1)学术实力强,学术氛围好(2)兼容并包、思想自由(3)名气大,是中国最高学府(4)资源丰富,有利个人发展8.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论