版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
关于数据与统计学第一页,共九十七页,2022年,8月28日前言:关于这门课程STAT一、统计的含义在你们眼中:
什么是统计?第二页,共九十七页,2022年,8月28日前言:关于这门课程STAT统计是人类思维的一个归纳过程
站在一个路口,看到每过去20辆小轿车时,也有100辆自行车通过,而且平均每10辆轿车载有12个人。于是,你认为小汽车与自行车在这个路口的运载能力为24:100。这是一个典型的统计思维过程。例中渉及的统计学概念有哪些?
统计数据:通过统计活动获得的用以表现研究对象特征的各种形式的数据。
统计工作:对各种统计数据进行收集、整理并作出相应推断、分析的活动。设计→调查→整理→分析
统计学:
第三页,共九十七页,2022年,8月28日前言:关于这门课程STAT什么是统计学?
统计学是收集、整理、分析数据的科学。(艺术?)1.收集数据
例,问卷调查2.表示数据
例,图表3.描述数据
例,平均值1.分析数据
2.做出决策第四页,共九十七页,2022年,8月28日前言:关于这门课程STAT二、世界很精彩,统计无处不在统计学经济学管理学医学工程学社会学…第五页,共九十七页,2022年,8月28日前言:关于这门课程STAT统计学可以应用于几乎所有的领域:
精算,农业,动物学,人类学,考古学,审计学,晶体学,人口统计学,牙医学,生态学,经济计量学,教育学,选举预测和策划,工程,流行病学,金融,水产渔业研究,遗传学,地理学,地质学,历史研究,人类遗传学,水文学,工业,法律,语言学,文学,劳动力计划,管理学,市场营销学,医学诊断,气象学,军事科学,核材料安全管理,眼科学,制药学,物理学,政治学,心理学,心理物理学,质量控制,宗教研究,社会学,调查抽样,分类学,气象改善,博彩,数据挖掘等。
第六页,共九十七页,2022年,8月28日前言:关于这门课程STAT[例]政策及规划制定、大众服务、信息传播等(政府)货币供给量;CPI[例]定刑量罪、产权鉴定、腐败测评等(法律)中世纪的英国法律规定:凡偷窃满12英镑的人将被处以极刑。然而若干年后,当一个小偷恰好犯了12英镑起点的偷窃罪后,却没有招致没顶之灾,原因何在?若干年后的极刑标准:12×130%=15.6(英镑)第七页,共九十七页,2022年,8月28日前言:关于这门课程STAT[例]诊断、血缘关系鉴定、药物疗效检验等(医疗)广告:许多专家研究“抗组织胺药物”的疗效,调查表明,在经过该药物治疗之后,相当大比例的感冒能够治愈。亨利·G·菲尔森指出:服用该药物的确能在一周内治愈感冒,但即使不服用,一般而言,感冒也能在七天内痊愈。[例]个人终身决策、明智投资、日常生活和民主选举等(个人)
第八页,共九十七页,2022年,8月28日前言:关于这门课程STAT[例]某研究所致力于家庭和睦与幸福方面的研究。该研究所随机抽取了一个1000对夫妇的样本,尔后测度每个家庭的“结婚年数”和“争吵次数”,结果表明:第九页,共九十七页,2022年,8月28日前言:关于这门课程STAT[例]科学技术、文学艺术、考古、历史等(研究领域)
18世纪末期,12篇匿名刊登在Federalist(联邦主义论文集)的文章作者是谁曾引起长期争议。可能的作者是英国政治家哈密尔顿或美国第四任总统麦迪逊。统计检验:抽出两人文章,其中哈18篇,麦14篇。
1.“平均句长”→无显著差异。
2.“用词习惯”→有明显差异。考察“if、when、because、over、whilst、as、and”等无特定内容词汇的出现频率。最终确定麦迪逊是真正的作者。第十页,共九十七页,2022年,8月28日前言:关于这门课程STAT三、为什么要学统计学
(一)数据是重要的!
“对一事物,如果不能用数据表达,说明我们知之甚少;如果知之甚少,我们就不能控制它;如果不能控制它,我们就只能靠运气。”
1.帮助阐明决策路线;从公厕蹲位设计看拍脑袋决策;考评
2.评价事物发展过程和人类生产过程、工作过程、管理过程及绩效;
3.为研究提供素材;从诺奖得主看统计
4.进行知识积累;从清朝初期到现在我国经济发展轨迹
5.满足好奇心。温伯格的观测第十一页,共九十七页,2022年,8月28日前言:关于这门课程STAT
(二)数据是不确定的!
1.数据表现的不确定性(变异性或波动性)→如何消除偶然性寻找规律性?
请同学们做写字母试验,要求:①时间1分钟,尽可能多写;②字母大小按你最喜欢或最习惯的写,但各个字母的大小尽可能一样。“世界很精彩!”“世界因何而精彩?”■所有现象和工作都存在于由相互联系的现象和流程所组成的系统中。
■所有现象和流程都具有波动性。
■现象和流程波动具有统计规律性。
现实中的随机性与规律性:确定性现象→确定性规律;随机性现象→统计性规律
第十二页,共九十七页,2022年,8月28日前言:关于这门课程STAT
例如,肺癌患者中(主动或被动)吸烟的比例较大,这体现了规律性,但绝非每个吸烟的人都会患肺癌,这体现了随机性。
股票?■理解波动可促使管理者改进流程,减少异常波动。
2.数据表现的多维性→如何选择变量确立指标?如何多变量综合?如何区分不同变量对事物的影响程度?
3.数据获取的有限性→如何获取数据?如何用样本数据推断总体数据?
统计学的作用在于提供了解决不确定性问题的方法!!第十三页,共九十七页,2022年,8月28日前言:关于这门课程STAT四、学习本课程的目标你们想学习什么?我准备讲授什么?第十四页,共九十七页,2022年,8月28日前言:关于这门课程STAT(一)学习的目标
1.理论目标:培养观察事物、分析问题的思维。
2.实践目标:提高决策水平、管理水平;学位论文质量(1)为了掌握如何正确地传达信息。学会资料的收集与整理。能看懂统计资料。
[例]某地2003年比2002年凶杀案件上升了50%;
[例]很久以前,当约翰·霍普金斯大学开始招收女学生时,一个不赞成异性同校的人有一个惊人的报道:约翰·霍普金斯大学三分之一的女学生嫁给了本校老师。
[例]某种刹车装置的故障率仅为万分之一。
同学们如何看待这些数据?第十五页,共九十七页,2022年,8月28日前言:关于这门课程STAT
分析:该地人口数为10万人,2002年凶杀案件为2件,2003年为3件(3/2)1=50%;总共只录取了3名女学生,其中1人嫁给了老师。据统计,出租汽车司机平均每天刹车次数为100~120次。
(2)知道如何根据样本信息得出有关总体的结论。如质量管理(确定产品合格率)。(3)改进处理信息资料的方法,即统计方法。(4)帮助决策者作出可靠的经济预测和行动策略。
第十六页,共九十七页,2022年,8月28日前言:关于这门课程STAT(二)学习的基本內容
1.基本概念:总体,样本,标志,指标,变量等。
2.统计数据的搜集与整理
3.统计数据的描述
4.时间序列分析
5.指数分析
6.抽样分布与参数估计
如质检部门为了了解一批产品的合格率,采取抽样的方法,抽取若干件该产品并计算被抽取产品的合格率,以此合格率来估计这批产品的合格率。第十七页,共九十七页,2022年,8月28日前言:关于这门课程STAT
7.假设检验现在规定一批产品的合格率若低于95%,则这批产品就不合格。提出假设合格率≥95%,那么如何判定这个假设正确,有多大把握,这即为假设检验问题!
8.相关与回归分析确定变量的相互关系和相关程度,建立回归模型,检验变量间的相关程度并应用回归模型进行预测。
9.方差分析分析哪些因素对产品质量起显著作用,并了解什么时候最起作用,方差分析就是解决这一个问题的一种有效方法第十八页,共九十七页,2022年,8月28日前言:关于这门课程STAT五、学习方法与要求
1.学习统计思维,理解各方法的基本思想。
2.掌握各方法的运用。
3.不过分强调数学论证。
4.掌握课堂讲授的例题,做基本练习。
5.必须听好每一节课。不来上课必须提出书面申请。
6.平时成绩的分配:作业10分,考勤5分,课堂提问(双向)5分。第十九页,共九十七页,2022年,8月28日前言:关于这门课程STAT六、参考书目
1.戴维R·安徳森等著,张建华等译:商务与经济统计(原书第9版),机械工业出版社,2009。2.袁卫等:统计学,高等教育出版社。3.尼尔·J·萨尔金徳著,史玲玲译:爱上统计学,重庆大学出版社,2008。
4.DavidS.Moore:统计学的世界,中信出版社。
5.吴喜之,统计学--从数据到结论第二十页,共九十七页,2022年,8月28日第一章数据与统计学STAT本章重点1、统计的产生与发展;2、统计调查方法体系;3、统计整理。本章难点1、统计学基本概念、调查方案和统计分组。第二十一页,共九十七页,2022年,8月28日第一章数据与统计学STAT第一节数据的定义、测量尺度和类型一、数据的定义
数据是关于变量的观测值。二、数据的测量尺度
对事物进行分类的依据:定类尺度;定序尺度;定距尺度;定比尺度。
四类尺度的区别:
1.定距、定比尺度有确定的计量单位;定类、定序尺度没有确定的计量单位。第二十二页,共九十七页,2022年,8月28日第一章数据与统计学STAT
2.定距尺度没有绝对意义上的零点;定比尺度有绝对意义上的零点。
3.定距、定比变量的值均以数字表示,能进行数学计算;定类、定序变量不能进行数学计算。
4.定距尺度只能进行加、减运算;定比尺度能进行加、减、乘、除运算。三、数据的类型
1.按测量尺度不同分:定性数据(定类数据、定序数据)和定量数据(定距数据、定比数据)(1)定类数据:是对事物进行分类的结果,表现为类别。只能用文字或数字代码来表现。例:性别(男,女)第二十三页,共九十七页,2022年,8月28日第一章数据与统计学STAT
(2)定序数据:是对事物按一定顺序进行分类的结果,表现为有顺序的类别。只能用文字或数字代码来表现。
如学生成绩表示为优、良、中、及格、不及格;消费者对其产品的满意度表示为很满意,…,很不满意。(3)定距数据:是一种不仅能反映事物所属的类别和顺序,还能反映事物类别或顺序之间的数量差距的数据。一般只适合加减运算。
如,两学生的成绩分别为85分和55分,前者良好后者不及格,前者高于后者,前者高后者30分;摄氏温度;企业利润。(4)定比数据:是一种不仅能体现事物之间的数量差距,还能通过对比运算来体现相对程度的数据。加減乘除皆可。
注意:定量数据又为离散数据和连续数据。第二十四页,共九十七页,2022年,8月28日第一章数据与统计学STAT
2.按表现形式不同分:绝对数、相对数、平均数。
3.按来源不同分:观测数据和实验数据。
观测数据:在自然的未被控制的条件下观测到的数据。实验数据:在人工干预和操作情况下收集的数据。
4.按加工程度不同分:原始数据和次级数据。
5.按时间和空间状态不同分:时间序列数据和横截面数据。
横截面数据:在同一时刻或几乎同一时点所收集到的数据。时间序列数据:在若干时期内所收集到的数据。第二十五页,共九十七页,2022年,8月28日思考题
它们是类型数据还是数值数据?是离散还是连续?使用了哪一种计量方法?4. 温度78,64,85等等.5. 兄弟姐妹个数0-2,3-5,6-86. 成绩A,B,C等等.1. 性别男,女2. 体重123,140.2等等.3. 汽车速度78,64,45等等.第二十六页,共九十七页,2022年,8月28日第一章数据与统计学STAT第二节一些基本概念
※一、总体、个体与样本(一)总体(population)
1.定义:客观存在的①在同一性质基础②上结合起来的许多个别事物③的整体④。
2.总体的分类(1)按包含的个体数目可分:有限总体与无限总体。(2)按个体的时空状态分:空间总体(个体处于同一时间的不同空间),如人口普查时的全国总人口。时间总体(个体处于同一空间的不同时间),如某商店一年的销售情况。第二十七页,共九十七页,2022年,8月28日第一章数据与统计学STAT3.总体的特征(1)客观性:必须是客观存在的具体事物。(2)大量性:总体的个体必须是大量的(足够多)。统计的目的是反映大量现象的规律和特点。(3)同质性:总体的个体在性质上须相同,因为统计研究的目的是反映总体的特性。例如,将机械零件与书本放在一起,就不会得出整个总体的任何结论。→统计的基础(4)差异性统计的前提。(二)个体(element,总体单位)
构成总体的个别事物。第二十八页,共九十七页,2022年,8月28日第一章数据与统计学STAT(三)样本
1.定义从总体中抽取出来进行调查并据以推断总体的一部分个体。
样本中包含的个体数目称为样本容量,用n表示,n>30,大样本,反之,小样本。样本容量n与总体容量N的比,n/N称为抽样比,用f表示。注意样本概念的重要性!
总体样本第二十九页,共九十七页,2022年,8月28日第一章数据与统计学STAT
2.样本的类型(1)代表性样本■若样本单位频数与总体的频数成正比,则这种样本称之为代表性样本。■样本单位频数是某种特征的样本单位占总样本单位数的比例。■总体的频数是某种特征的个体占总体的比例。(2)有偏样本在人为因素影响下抽取的样本称为有偏样本,是产生抽样偏差的来源。(3)随机样本按随机原则抽取的样本。第三十页,共九十七页,2022年,8月28日第一章数据与统计学STAT
(4)分层样本(类型样本)先将总体按某一标志分成若干组,再从各组中随机抽样。(5)整群样本按群抽样的样本。(6)系统抽样样本按系统抽样方法抽取的样本。思考:
调查北京市民对交通规则的观点,总体、个体、样本各是什么?
注意社会经济统计与数理统计表述的不同!第三十一页,共九十七页,2022年,8月28日第一章数据与统计学STAT二、标志与指标(一)标志(mark):反映个体特征的名称。不是具体数字。
(A)性别民族身高年龄
(B厂)产值职工人数
男
汉1.7521
1000万元50人
标志值:标志在各个个体的取值。具体表现是文字值或数值。
种类:■品质标志→反映属性特征;
数量标志→反映数量特征
■不变标志和可变标志第三十二页,共九十七页,2022年,8月28日第一章数据与统计学STAT(二)指标(index):反映总体数量特征的名称。
[例]2004年①A县②所属500家工业企业年产值③为100亿④元⑤,职工人数为56万人。
指标的构成
■内核指标名称;指标数值;
■外延时间限制;空间限制;计量单位;计算方法。第三十三页,共九十七页,2022年,8月28日第一章数据与统计学STAT2.指标的分类■数量指标和质量指标
数量指标总体总规模、总水平。表现形式:绝对数,有名数。
[例]2004年A地区所属500家工业企业年产值为100亿元,职工人数为56万人。
质量指标现象间数量联系。表现形式:相对数或平均数;无名数或复名数。第三十四页,共九十七页,2022年,8月28日第一章数据与统计学STAT■总量指标(绝对数指标)、相对指标、平均指标■实物指标与价值指标
■时期指标与时点指标(三)标志与指标的联系与区别
区别:说明的对象不同;表现的形式不同联系:标志是计算指标的基础;二者是相对的,且同属变量范畴
下列标志中属于品质标志的有()
A.学历;B.籍贯;C.成绩;D.身高;E.职称;F.性别下列指标中属于质量指标的有()
A.总产量;B.亩产量;C.播种面积;D.价格;E.单位产品原材料消耗第三十五页,共九十七页,2022年,8月28日第一章数据与统计学STAT三、变异与变量(一)变异(variance):个体不断转换自身状态的现象。(二)变量(variable):可变的标志与指标。观测值?[例]1999年A地区25个县的GDP为120亿元,人口数为800万人。
1.离散变量(取值是间断的)和连续变量(取值是连续的)。
2.定性变量和定量变量。3.自变量和因变量
4.确定变量(常量)和随机变量(一节车厢座位数和乘客数)第三十六页,共九十七页,2022年,8月28日第一章数据与统计学STAT例:
28届奥运会奖牌榜美国3539中国3217俄罗斯2727澳大利亚1716日本169德国1416291438161218第三十七页,共九十七页,2022年,8月28日第一章数据与统计学STAT三者之间的关系第三十八页,共九十七页,2022年,8月28日第一章数据与统计学STAT[附]统计学的研究方法一、大量观察法第三十九页,共九十七页,2022年,8月28日第一章数据与统计学STAT二、综合分析法:分析分组;综合汇总第四十页,共九十七页,2022年,8月28日第一章数据与统计学STAT三、归纳推断法
1.演绎推断:一般(总体)个别(个体)。
[例]甲班同学身高<1.85米,A是甲班的
A的身高<1.85米。
前提正确结论正确;前提范围>结论范围。
2.归纳推断:个别(个体)
一般(总体)。
[例]甲班的A同学身高<1.85米,B同学身高<1.85米甲班同学的身高均低于1.85米。
前提正确结论未必正确;前提范围<结论范围。
3.预测与推断:参数估计、假设检验、相关与回归等。
4.推断与臆测的区别:误差程度的控制,概率保证的推算。
5.统计学与数学的区别:统计学→以归纳为主要思维方式;
数学→以演绎为主要思维方式。第四十一页,共九十七页,2022年,8月28日第一章数据与统计学STAT第三节统计调查方法体系一、概念
1.定义:搜集统计资料的工作过程。
2.资料的类型(1)原始资料:未经加工整理的资料“个体”。(2)次级资料:已经加工整理的资料“总体”。
3.统计资料的来源(1)直接的调查和科学试验
[例]家用电器质量调查、收视率调查、居民闲暇时间调查、原料配方试验、药物或治疗方式的疗效试验等。
获得第一手数据比较困难。某方便面企业每年至少花三四第四十二页,共九十七页,2022年,8月28日第一章数据与统计学STAT千万元来收集和分析数据。调查其产品及竞争者在市场中的状况、各种类型消费者对其产品的态度、收集各地方的经济交通等信息。
他们如同间谍,收集各种情报。很舍得在这方面花钱。因为市场信息数据是企业生存所必需的,绝不是可有可无的。(2)查找引用公开出版或内部调查的数据
《中国统计年鉴》、报刊杂志、图书、音像制品、因特网、内部调查、内参、内部版等。引用时注意的问题第四十三页,共九十七页,2022年,8月28日第一章数据与统计学STATA.注意数据的含义、计算口径和计算方法。
[例]1990年山东省济南市人口出生数第四次人口普查:87891人;公安部门:76680人;人口与计划生育统计部门:66179人。
B.注明:数据来源、作者等。第四十四页,共九十七页,2022年,8月28日第一章数据与统计学STAT4.统计调查的要求准确性、及时性、全面性
准、快、全
准中求快、准中求全二、统计调查的种类(一)按调查对象所包括的范围分类
1.全面调查普查、全面统计报表。
2.非全面调查重点调查、抽样调查和典型调查。(二)按调查登记是否连续进行分类
1.经常性调查:间隔<1年
[例]年产值=12个月产值=365天产值;
2.一次性调查:间隔>1年第四十五页,共九十七页,2022年,8月28日第一章数据与统计学STAT(三)按调查的组织形式分类
1.统计报表制度:“自上而下”布置调查任务,“自下而上”上报调查资料的统计制度(调查方法)。
2.专门调查:专门组织的调查。普查、重点调查、抽样调查和典型调查[附]我国统计调查方法体系
以必要的周期性普查为基础,以经常性的抽样调查为主体,同时辅之以重点调查、科学推算和全面报表综合运用。第四十六页,共九十七页,2022年,8月28日第一章数据与统计学STAT三、统计调查方案※(一)明确调查目的(为什么调査)一旦明确了调查目的,就知道调查谁,并进一步知道调查什么情况。(二)确定调查对象与调查单位(向谁调査)
1.调查对象:调查研究的总体。
[例]
人口普查:具有中国国籍并在中国境内常住的自然人;农村生育率调查:农村15~49岁的女性人口。第四十七页,共九十七页,2022年,8月28日第一章数据与统计学STAT2.调查单位:调查研究的个体。
A企业职工住房面积调查;B企业设备完好状况调查。(三)确定调查项目和调查表(调査什么)
1.调查项目:调查内容。
2.调查表单一表:一个单位用一张表;一览表:多个单位共一张表第四十八页,共九十七页,2022年,8月28日第一章数据与统计学STAT全国城市老年人口基本情况调查表第四十九页,共九十七页,2022年,8月28日第一章数据与统计学STAT(四)确定调查时间(什么时间调査)
1.调查时间:资料所属时间。
[例]欲调查某局50家企业2005年的产值及年末职工人数情况,要求调查工作于次年1月1日开始,资料1月底之前上报。调查时间:2005年、2005年年末。
2.调查期限:调查工作的起止时间。调查期限:2006年1月。(五)组织实施计划(相应措施)具体包括:调查人员的选择、组织与培训;调查文件、表格、调查员手册的印刷,调查宣传工作,必要调查工具的准备;调查经费的来源和开支预算等。归纳:Why、Who、What、When、How。第五十页,共九十七页,2022年,8月28日第一章数据与统计学STAT四、专门调查(一)普查(P6)
1.定义:专门组织的一次性的全面调查。
[中国]逢“0”人口普查,逢“3”第三产业普查,逢“5”工业普查,逢“7”农业普查1次/10年。
2.注意的问题(1)标准时点(间):普查登记时所依据的统一时点。
[例]我国第四次人口普查的标准时间为1990年7月1日零时,第五次人口普查为2000年11月1日零时。
为什么要确定标准时点(间)?第五十一页,共九十七页,2022年,8月28日第一章数据与统计学STAT
[例]第五次人口普查中,2000年10月31日23时出生,11月1日凌晨2时死亡的婴儿,是否应记入人口数?
标准时间的确定原则:人口流量小、气候较适宜的时刻,避开寒冬和炎夏,避开节假日和旅游季节。(2)同时进行,尽快完成。
“爱晖—腾冲”线(胡焕庸线):线东国土面积占36%,人口数占94%;线西国土面积占64%,人口数占6%。第五十二页,共九十七页,2022年,8月28日第一章数据与统计学STAT(二)重点调查
1.定义:对重点单位进行的调查。
重点单位:总体中一小部分单位的标志量占总体该方面标志总量的比重足够大。
2.注意的问题:客观性;非推断性。
[例]经研究决定,对A班同学身高做一重点调查。。第五十三页,共九十七页,2022年,8月28日第一章数据与统计学STAT3.方法(1)“解剖麻雀”式;(2)划类选典
[例]某班100名同学某门课的成绩可区分为三类:
优中差人数:107020
选典:A(95分)B(78分)C(34分)(三)典型调查
1.定义:对典型单位进行的调查。
2.种类第五十四页,共九十七页,2022年,8月28日第一章数据与统计学STAT(四)抽样调查
1.概念
■按随机原则,从总体中抽取一部分单位组成样本进行调查,并根据样本特征值(样本指标),对总体相应的特征值(总体指标)作出具有一定可靠程度的估计和判断。
■按随机原则:又称同等可能性原则,即机会面前人人平等。随机原则的二层含义。■从总体中抽取样本的方法有概率抽样和非概率抽样两种。
概率抽样也叫随机抽样,其特点:在样本抽取上,采用随机原则;在调查功能上,能以部分推断总体;第五十五页,共九十七页,2022年,8月28日第一章数据与统计学STAT
在推断手段上,运用概率估计的方法;在推断理论上,以大数定律和中心极限定理为依据;在推断效果上,抽样误差可以计算并控制。非概率抽样也叫非随机抽样,是根据经验或判断从总体中选取若干单位构成样本。如重点调查、典型调查、配额抽样、方便抽样等。
非概率抽样在及时了解总体的基本情况、总结经验教训等方面有其优越性,但难免掺杂调查者的主观偏见,存在系统性误差、不可计算和控制抽样误差、不可说明估计结果的可靠程度。
统计上讲的抽样一般都是指概率抽样。第五十六页,共九十七页,2022年,8月28日第一章数据与统计学STAT案例1
在路易斯安那州的瑞皮德斯县,只有一家公司有权提供救护车服务。当地的报纸《镇报》要求读者打电话回应,来表达他们是否赞成让这家公司垄断。
《镇报》共接到3763个电话,显示出对于救护车问题超乎寻常的关注。调查后发现,有638个电话来自救护车公司的办公室或公司高级主管的家里,而且无疑的是,一定还有更多的电话来自该公司的低级员工。该公司的一位副总裁说:“我们的员工很关心这个问题,他们为工作稳定性及家庭担心,所以可能多打了几个电话”。
那么,这种样本及调查有效吗?“自发性回应”样本。第五十七页,共九十七页,2022年,8月28日第一章数据与统计学STAT案例2
王达尔公司每周向威尔斯公司出售4万箱桔子。为检验这些桔子的质量(重量、损伤及产地等),威尔斯公司的质检人员从库存中抽取样本,即从每个码堆的上层箱子中抽取100箱,然后从每箱随机抽取20个桔子进行调查并推断总体。案例2
制造商和广告代理商常常利用在购物中心的访谈来搜集消费者的消费习惯及广告效用等信息。他们认为,在购物中心选取样本既快速又省钱。
试问这种抽样方式符合随机原则吗?“方便抽样”第五十八页,共九十七页,2022年,8月28日第一章数据与统计学STAT
2.抽样调查的作用■有效解决全数检验和全数观测的不可能性、不必要性问题。如破坏性检验、无限总体、家计调查。■经济性。省时、省力、省费用、时效性高。■对全面调查资料的印正、补充。
3.抽样方法
(1)简单随机抽样每个个体被抽中的可能性相等(样本同分布,抽样相互独立)。如:抽签。第五十九页,共九十七页,2022年,8月28日第一章数据与统计学STAT(2)分层随机抽样先分组,再分别从各组中简单随机抽样。可增大样本代表性,推断结果准确性高,层内差异小,层间差异大。
例如:考察全国工商企业时,先按行业分组再抽样,以避免所选出的样本集中在某一行业。
(3)整群抽样将总体分成若干群,在随机抽一部分群体做样本,并对这些群体的所有个体全面调查。随机抽组法与组内普查法的结合。
如考察某市小学生身体发育情况,随机抽取若干小学,对抽中小学的全体学生逐一考察。第六十页,共九十七页,2022年,8月28日第一章数据与统计学STAT(4)系统随机抽样法(等距抽样或机械抽样)基本思想:对于容量为N的总体,将个体编号从1到N。若要抽取容量为n的样本,则应先从编号为1到K(K=[N/n])的K个个体中,随机抽取一个,然后,按照一定的规律,抽取个体,顺次得到容量为n的样本。
如按身份证的编号抽取尾数进行居民收入状况调查。第六十一页,共九十七页,2022年,8月28日第一章数据与统计学STAT附:问卷调查问句表述的基本要求
问句是指在问卷中询问的语句、记录的答案、怎样作答的说明、编码等内容。
问句设计是问卷设计的重点和难点。
(1)问句的语言要通俗易懂,简单明确,标准规范。
使用日常生活用语不用研究术语和技术性行话;
针对特定人群用特定语言;不用长而复杂的复合句。例如:零售商调査或行业用户调査中的“品牌形象、定位、效用分析”等语言。第六十二页,共九十七页,2022年,8月28日第一章数据与统计学STAT
(2)问句的内容要具体、单一,避免双管问题。
您住的地方离学校大约有多长时间的路程?
30分钟以內;30分钟-60分钟;60分钟以上
你通常在哪儿买衣服?商场;专卖店;时装店
你最依赖于哪种媒体?电视;因特网;广播;报纸
你认为某某航班安全准时吗?比较安全准时;一般;不太安全准时第六十三页,共九十七页,2022年,8月28日第一章数据与统计学STAT
(3)问句的内容要客观,不能带有诱导性、倾向性。你常去像“下罗食府”这样低档的餐馆吃饭吗?你认为“新农村饭荘”应该考虑更换名字吗?
(4)问句的提问方式要恰当,避免使用双重否定句。特别对于借钱、炒股亏损、个人卫生、私生活、犯罪记录等尴尬话题,更要小心表述,作相应的技术处理。例如:你信用卡透支的原因是什么?许多人的信用卡都透支,你知道是什么原因吗?
你赞不赞成政府不允许便利店出售酒的规定?你赞不赞成政府允许便利店出售酒的规定?第六十四页,共九十七页,2022年,8月28日案例1:ABC公司员工问卷调查STAT背景介绍
ABC公司是一个汽车零件生产商,它拥有9800名员工。为了提高效率和生产力,公司实行了全面质量管理(TQM)。作为管理工作的一部分,公司董事会希望为所有全职员工建立档案,衡量他们的工作满意程度,估算他们的供职期限和事业发展,并评价他们的工作热情、态度和信念。主管人力资源的副总裁巴德·康利雇佣了B&L公司(一家员工利益咨询公司)来调查ABC的员工。经过仔细的考虑,康利和B&L公司的统计学家们确定通过办公室间信件就可以完成所需的调查,并获得关于工作满意程度和收入的精确评估。他们设计了一份问卷并准备进行初步测试。副总裁和统计学家们将评价得到的结果,然后做出适当的第六十五页,共九十七页,2022年,8月28日第一章数据与统计学STAT修改,如果时间和预算允许他们将再选用另一组人做第二次测试,并进一步改进调查问卷。
附件1展示了这份问卷中的28个问题。这是副总裁和统计学家们最终的设计。统计学家们不得不考虑的一个主要问题是,应该调查多少全职员工才能使B&L公司获得足够的信息来设计一个员工利益计划,以使工人感到满意,加强他们与管理层之间的关系,并创造全面质量管理(TQM)的环境,使公司逐渐成为行业的领导者。这是董事会的要求。因此,B&L公司的目标就是通过受试样本获得的结果来估测ABC公司全体员工满意程度。样本选择副总裁和统计学家们确定,在整个问卷调查中第7题和第9第六十六页,共九十七页,2022年,8月28日第一章数据与统计学STAT题是这一调查中至关重要的数据,所需的样本数量正是基于这一事实确定的(方法将在以后的学习中介绍)。就像我们下面要看到的,所需的样本是ABC公司9800名员工中的400人。由于不是所有的员工都愿意接受调查,副总裁必须把它寄给更多一些的人。根据咨询公司过去企业内调查的经验,十个工人中估计有九个会对这样的调查做出回答(也就是说反馈率是90%)。于是总共需要联系445名这样的员工,以获得所需的400份完成的问卷。因此,这份最终问卷被分发给了从ABC公司人事档案中抽取的445名全职员工。为了抽取随机样本,统计学家们选择使用随机数表。在人力资源副总裁巴德·康利的帮助下,他们从人事档案中得到了ABC公司全部9800员工的姓名和公司信箱号码,并制作了一份列表。由于总体个数(9800)是一个四位数,所以每一个被分配第六十七页,共九十七页,2022年,8月28日第一章数据与统计学STAT的编码也必须是四位数,这样每一个员工才会有同等的机会被选中。在ABC公司员工的整体列表中,分配给第一个员工的编码是0001,分配给第二个员工的是0002,…,分配给第1752个员工的是1752,直到9800被分配给列表中的第N个员工。由于N=9800是编码的最大可能值,大于N的其他编码(即从9801到9999和0000)都被忽略。为了选择随机样本,必须随机指定一个随机数表的起始点。一种办法是闭上眼睛用铅笔划出表中的随机数。假定统计学家们通过这样的过程选定了附表中的行06和列05作为初始点。在表中依次从左向右读出连续的4位数字,就选定了将被调查的一个员工。在样本中编码为0033的那个人就是第一位员工(列06、行05到08)。第二个人的编码是6488(列06、行09到12)。第三第六十八页,共九十七页,2022年,8月28日第一章数据与统计学STAT位到第十位员工的编码分别是4720,4334,6391,9363,9411,0959,2470和7054。以类似的方式,直到选出所需的445名全职员工。为了做到这一点需要两页的随机数表。在选择过程中,如果某个四位编码序列重复出现,在有放回抽取样本时,就把这个编码所对应的员工再次包括到样本中;在无放回抽样时,忽略重复的编码就可以了。注意编码序列4205出现在第12行、第33列到36列,并又一次出现在第21行、第21列到24列。因为B&L公司的统计学家们采取无放回抽取样本,在抛弃重复编码之后他们就得到了445名全职员工的样本。第六十九页,共九十七页,2022年,8月28日ABC员工满意程度调查问卷STAT
(1)包括所有的职位,上一周您一共工作了多少小时?____
(2)您的职业是什么?
A.经理人员B.专业人员C.技术/销售人员
D.管理支持人员E.服务人员F.生产人员
G.体力劳动人员
(3)您的年龄是多少(在上一次生日时)?____
(4)您一共完成了多少年的学业?____
(5)您的性别是什么?A.男B.女
(6)您家家庭成员中,包括您本人,去年有多少人工作?____
(7).您去年的“税前”收入有多少(以千美元为单位)?____第七十页,共九十七页,2022年,8月28日第一章数据与统计学STAT
(8)您全家去年的“税前”总收入是多少(以千美元为单位)?____
(9)总的来说,您对您的工作有多满意?
A.非常满意B.中等满意C.有些不满D.非常不满
(10)如果您由于继承、获赠或中奖在一夜之间变为巨富,您会停止工作退休吗?
A.会 B.不会 C.不能肯定
(11)下列工作特点哪一项对您最重要?
A.高收入B.没有被解雇的危险C.灵活的工作时间
D.晋升的机会 E.工作的乐趣第七十一页,共九十七页,2022年,8月28日第一章数据与统计学STAT(12)绝大多数人通过下列哪一条途径在事业上取得进展?
A.勤奋工作B.勤奋工作加运气 C.运气
(13)您去年经历了多少不幸的事件(近亲/朋友去世、离婚/分居、失业、残疾)?
_____
(14)您现在是工会成员吗?
A.是的 B.不是
(15)从您16岁那年起,您为获得报酬而全职工作了大约多少年?____
(16)您为您现在的公司总共工作了少年?____
(17)您在为您的公司工作时一共获得了多少次晋升?____第七十二页,共九十七页,2022年,8月28日第一章数据与统计学STAT
(18)在未来的五年里,您有多大的机会被提升?
A.非常可能B.可能C.不确定D.不大可能
E.几乎不可能
(19)与您同性别的职工获得提升的机会更好还是更差?
A.更好 B.更差 C.没有影响
(20)自您在本组织的第一次全职工作开始,您会如何描述您的“进展”?
A.进展迅速B.稳步进展C.几乎停滞D.今不如昔
(21)您在工作中有机会参与那些影响到您的工作的决策吗?
A.总是有B.经常有C.有时有D.从未有第七十三页,共九十七页,2022年,8月28日第一章数据与统计学STAT
(22)作为您的工作的一部分,您参与预算决策吗?
A.参与 B.不参与
(23)您对在这个组织里工作感到自豪吗?
A.非常自豪B.自豪C.无所谓D.没什么值得自豪的
(24)为了继续留在这个组织中,您会拒绝薪水更高的另一份工作吗?
A.很可能会 B.可能会 C.不能肯定
D.可能不会 E.很可能不会
(25)一般来说,您会如何描述您工作的地方经理和雇员之间的关系?
A.非常好B.好C.一般D.不好E.非常不好第七十四页,共九十七页,2022年,8月28日第一章数据与统计学STAT
(26)一般来说,您会如何描述您工作的地方同事之间的关系?
A.非常好B.好C.一般D.不好E.非常不好
(27)您以前的学习对您现在的工作有多重要?
A.非常重要B.重要C.有点重要D.完全不重要
(28)您以前的在职培训对您现在的工作有多重要?
A.非常重要B.重要C.有点重要D.完全不重要第七十五页,共九十七页,2022年,8月28日案例2:南昌市城市居民消费与投资倾向调查问卷STAT尊敬的先生、女士:我们是江西财经大学的学生。为了积极参与贯彻国家关于扩大内需推动经济增长的方针和理论与实践相结合的教育原则,在老师指导下我们组织了这次千户居民的社会调查。请您给予支持。调查不记名,全部资料用计算机处理,绝对保密和安全,您只需在符合您的情况的答案上打个勾,花费几分钟时间。谢谢!第七十六页,共九十七页,2022年,8月28日第一章数据与统计学STAT(1)您家是否已经拥有下列耐用家电设备
A.□彩电B.□组合音箱C.□VCD(或DVD)
D.□冰箱E.□空调,F.□电脑(2)您家的住房是:
A.□租赁公房,B.□有产权公房
C.□新商品房,D.□其他(请注明)(3)您家今明两年是否准备以下项目支出:
A.□购买家电设备 B.□购买成套家俱
C.□购买汽车D.□购买(或置换)房屋
E.□现有住房装修 F.□支付子女教育费
G.□国内或国际旅游第七十七页,共九十七页,2022年,8月28日第一章数据与统计学STAT(4)您今明两年不准备上列大项目支出的主要原因是:(选填3项)
A.□没有必要 E.□售后服务差
B.□经济不宽裕 F.□价格不合理
C.□品牌不中意 G.□其他(请注明)
D.□质量信不过(5)您购买商品考虑的主要因素是:
A.□实用价值 D.□品牌
B.□商品质量 E.□售后服务
C.□价格(请按您认为的重要性□在中写上位序)第七十八页,共九十七页,2022年,8月28日第一章数据与统计学STAT(6)您家平均每月总收入是:
A.□500元以下 E.□2000-3000元
B.□500-1000元 F.□3000-5000元
C.□1000-1500元 G.□5000-8000元
D.□1500-2000元 H.□8000元以上(7)您家平均每月日常生活费开支是
元,其中用于吃(食品)支出大约是
元(8)您认为您家近几年生活水平是
A.□B.□C.□D.□E.□
提高很多略有提高没有变化略有下降下降很多第七十九页,共九十七页,2022年,8月28日第一章数据与统计学STAT(9)您收入节余用予以下哪些项?各项约占多大比重?
A.银行储蓄()%B.国债(国库卷)()%C.基金()%D.其他债券()%E.股票()%F.保险()%G.其他()%(10)您存钱的主要目的是:
A.□购买设备B.□购买住房C.□结婚
D.□子女教育 E.□养老防病F.□旅游(请按你认为的重要性在□中写位序)第八十页,共九十七页,2022年,8月28日第一章数据与统计学STAT(11)您是否了解现在推行的信贷消费
A.□不了解B.□了解一点
C.□了解D.□很了解(12)您是否打算参加信贷消费:
A.□是B.□不(跳过第13问题)(13)您信贷消费的项目是()(请按第3题的编号填写)第八十一页,共九十七页,2022年,8月28日第一章数据与统计学STAT(14)您是否同意下列看法?很不同意不同意无所谓同意很同意A信贷消费不合中国国情B信贷消费是资本主义国家的做法C信贷消费是先甜后苦D借债享受有风险E借债消费不光彩F信贷消费是现代通行的做法G只要量力借贷,有利无害H发展信贷消费能促进经济增长第八十二页,共九十七页,2022年,8月28日第一章数据与统计学STAT(15)最后,了解一下您的基本情况①您的性别:A.□男B.□女②您的年龄:
周岁③您的文化程度:
A.□不识字或识字不多B.□小学C.□初中
D.□高中或中专E.□大专或大学以上④您家庭人口数
人其中(i)在业
人;(ii)离退休
人;(iii)失业、下岗
人;(iv)在校学生
人⑤您的职业
(见卡片)⑥职务第八十三页,共九十七页,2022年,8月28日第一章数据与统计学STAT问题思考
1.抽样调查显然不及普查准确,为何使用抽样调查法?
2.调查对象与调查单位及填报单位的关系。
3.重点调查与典型调查的关系。
4.调查时间的涵义。第八十四页,共九十七页,2022年,8月28日第一章数据与统计学STAT一、意义1.定义:使资料由个体特征过渡到总体特征的工作过程。2.整理对象:调查资料(原始、次级)。[例]通过调查得某班平均成绩为3.5分/人统计整理5:100=3.5:x,∴x=70分。第四节统计整理[例]统计目的:了解A地区100家工业企业的生产情况1000+1250++750=50亿元
50亿/100=5000万元/家第八十五页,共九十七页,2022年,8月28日第一章数据与统计学STAT二、步骤(一)统计审核
1、准确性审核(1)逻辑推理法例如:A:性别(女)、与户主关系(父子);
B:年龄(8岁)、婚姻状况(已婚);
C:某商场7月份零售了棉大衣10万件。(2)变量关系推算法加总法:某班学生人数52人,其中男生38人,女生15人。乘除法:某商品单价为50元/件,销量为125件,所以其销售额为6750万元。第八十六页,共九十七页,2022年,8月28日第一章数据与统计学STAT
平衡法:某资产期初存量581万元,当期积累138万元,所以期末存量为729万元。比较审查法:A地区居民户数为2万户,人口数为1.8万人。
2.全面性审核
3.及时性审核(二)统计分组※
分开总体、了解差异。例如,企业:所有制、产值、职工人数、劳动生产率等;人口:身高、文化程度、年龄、收入、职业等。(三)统计汇总(四)统计制表第八十七页,共九十七页,2022年,8月28日第一章数据与统计学STAT三、统计分组※(一)概念与作用
1.概念:将统计总体按一定的分组标志区分为若干个性质不同的组或类。分与合的过程:分“总体”;合“单位”。
[例]对会计09班的50名同学进行分组
A.按专业分B.按年级分C.按性别分D.按籍贯分
2.分组原则:不重复(互斥性)不遗漏(穷尽性)互斥性即一个单位只能放入一组。对于数量分组来说,要求“组内方差最小化,组间方差最大化”。
3.分组结果:组内同质、组间差异。第八十八页,共九十七页,2022年,8月28日第一章数据与统计学STAT[例]对某班同学按成绩进行分组,结果如下,何种正确()
A、成绩B、成绩
55以下60以下
55—65
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 小学生数学演讲
- 海外投资者房地产分销方案研究
- 110kV变电站监控系统优化方案
- 金融行业突发事件应急预案实施
- 美术学透视学教案
- 中考初中物理复习讲义教案
- 数据共享保密协议书示例
- 职业培训活动应急预案
- 突发事件媒体应对新闻发布会发言稿
- 图书馆员继续教育规范与管理
- 不离婚互不干涉协议模板
- 走近湖湘红色人物智慧树知到课后章节答案2023年下湖南工商大学
- 软件项目提成方案
- 装配式建筑设计研究与总结课件
- 一年级上册全册道德与法治教案全
- 中班健康《身体上的洞洞》课件
- GB/T 9452-2023热处理炉有效加热区测定方法
- 停车场施工方案及技术措施范本
- 高考地理一轮复习课件【知识精讲+高效课堂】美食与地理环境关系
- 分居声明告知书范本
- 2023年04月山东济南市槐荫区残联公开招聘残疾人工作“一专两员”公开招聘笔试参考题库+答案解析
评论
0/150
提交评论