




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二章管理问题的统计建模第二章管理问题的统计建模2.1问题定义案例伴随着中国加入世界贸易组织(WTO),北京申奥成功,众多跨国公司进入中国市场,英语作为主要的交流语言,已经成为人们工作、学习和生活的重要组成部分。伴随着社会对英语的巨大需求,单一的英语教学模式已无法满足人们的需要,各种培训机构先后涌现,英语培训已成为一个新兴产业。英语培训机构日渐规模化,综合竞争力显得尤为重要。培训机构如何立足优秀培训项目的同时,积极拓展产品线,适应不同需求来设置培训课程,以提高自身的竞争力并吸引更多的生源,是培训机构需要解决的重要问题。第二章管理问题的统计建模2.1问题定义案例大学生是社会发展的生力军,他们的英语沟通能力直接影响着我国国际化的进程和水平,同时,大学生也是英语培训学习领域的主要人群。基于以上背景,以大学生作为调查对象,通过对他们的英语水平、英语学习状况以及选择培训机构的标准等方面进行调查,为培训机构提供一份具有参考价值的、以大学生为目标客户的英语培训市场的第一手资料,有利于培训机构有针对性的选择相应的市场策略,以满足各种不同的需求,使大学生和英语培训机构达到双赢的目的。(案例来源:李金林,马宝龙编著.管理统计学应用与实践[M].北京:清华大学出版社,2007.)第二章管理问题的统计建模2.1问题定义案例该案例的主要目的是通过对大学生英语水平、英语学习状况以及选择培训机构的标准等方面进行调查,获取有关大学生英语培训市场的数据资料,对数据进行相关统计分析,为英语培训机构提供合理建议。因此,我们首先需要弄清楚以下三个问题:大学生英语水平如何度量?大学生英语水平的影响因素有哪些?大学生英语培训机构选择标准的影响因素有哪些?第二章管理问题的统计建模2.1问题定义英语水平是指对英语的综合运用能力,主要是指在特定的教育环境下,学生在学习英语的过程中对听力、语音、笔译、阅读、写作、口语等一系列知识拓展点的熟悉及应用掌握程度。该案例采用客观角度衡量英语水平,具体采用如下的五个标准:四级以下、大学英语四级、大学英语六级、专业英语四级、专业英语八级或更高水平。在该案例的研究中,英语水平变量的度量处于核心地位。英语水平的度量第二章管理问题的统计建模2.1问题定义
在确定了英语水平度量的基础上,通过对北京一些知名英语培训机构的初步走访调查,并结合对在校大学生的初步访谈,总结归纳了六个可能影响英语水平的因素:学习动机、学习意愿、培训经历、学历程度、专业以及学习时间。英语水平的影响因素第二章管理问题的统计建模2.1问题定义通过文献查阅以及对在校大学生的小范围调查,提出六个在选择培训机构时可能关注因素,即选择培训机构的标准,分别是:教学方式、教学环境、教学地点、课程设置、收费和品牌。英语培训机构选择标准的影响因素第二章管理问题的统计建模2.1问题定义2.1.1定义变量变量(variable)是指任何随情况不同而发生变化的事物。变量可以通过不同的取值表示在在大小、程度或方向上的差异。因变量(dependentvariable)是指可以通过其他变量解释或预测的变量或结果,一般用Y表示。自变量(independentvariable)是指以某种形式影响因变量的变量,一般用x表示。第二章管理问题的统计建模2.1问题定义
变量名称表示符号变量类型
英语水平的影响因素英语水平Y因变量学习动机X1自变量学习意愿X2自变量培训经历X3自变量学历程度X4自变量专业X5自变量学习时间X6自变量相关变量及类型第二章管理问题的统计建模2.1问题定义2.1.2研究问题和研究假设研究问题(researchquestions)是指用问题的形式体现研究目标,并可以通过研究解决的问题。研究假设(researchhypothesis)比研究问题更详细、更准确。在该案例研究中提出以下研究问题和研究假设:研究问题1:学习动机与英语水平有关吗?研究问题2:所学专业与英语水平有关吗?研究假设1:学习意愿与英语水平正相关。研究假设2:培训经历与英语水平正相关。研究假设3:学历程度与英语水平正相关。研究假设4:学习时间与英语水平正相关。统计数据收集的意义统计数据的计量与类型统计数据的来源.2第二章管理问题的统计建模2.2数据的收集问卷设计42.2.4根据研究预定的目标和任务,运用科学的调查方法与手段,有计划、有组织地向客观实际收集数字资料的过程。统计数据的收集处于统计工作过程的基础阶段。2.2.1统计数据收集的意义要求:及时性、准确性、完整性、经济性。意义:为一项调查或研究提供必要的输入、用于评估某项正在进行的服务或产品流程的客户反馈情况、检验各标准的一致性、满足管理者关于某一方面的好奇心等。2.2.2统计数据的计量与类型变量与数据变量(
variable)是说明研究对象某种特征的概念,是指具有可测性的概念。变量的具体表现成为变量值。统计数据就是统计变量的具体体现。特点:从一次观察到下一次观察,该特征会呈现出差别或变化;从一个个体到另一个个体,该特征会呈现出差别或变化;不能用一个常数来表示。2.2.2统计数据的计量与类型1968年,美国统计学家斯蒂文斯按照变量的性质和数学运算的特点,将变量的测量尺度分为定类、定序、定比和定距。定类尺度定序尺度定距尺度定比尺度精确程度俱乐部:休斯顿火箭健康状况:良好出生年份:1980体重:134公斤2.2.2统计数据的计量与类型例如:性别、民族、职业。定类变量的取值表现为“类别”,变量的值就是定类数据。各类之间无等级次序。各类别可以用数字代码、字母表示。(1)定类尺度(NominalScale)2.2.2统计数据的计量与类型例如健康状况、质量等级。定序变量的取值表现为“类别”,变量的值就是定序数据。可对等级、大小等排序。不能测量出类别之间的准确差值。(2)定序尺度(OrdinalScale)2.2.2统计数据的计量与类型例如年份、温度等。定距变量的取值表现为“数值”,变量的值就是定距数据。可以进行加减运算。“0”是只是尺度上的一个点,不代表“不存在”。(3)定距尺度(IntervalScale)2.2.2统计数据的计量与类型例如体重、身高、收入等。定比变量的取值表现为“数值”,变量的值就是定比数据。可以进行加减乘除运算。“0”
表示“没有”或“不存在”。(4)定比尺度(Ratio
Scale)2.2.2统计数据的计量与类型较低层次的测量尺度较高层次的测量尺度
低测量精度高
少计算方法多小信息数量大变量的测量尺度决定了统计数据的整理和显示方法、统计数据的分析方法。定比尺度定类尺度定距尺度定序尺度2.2.2统计数据的计量与类型甲、乙有生命很低不能计算,只能判断=、≠甲、乙有生命定类测量甲为中年人,乙为少年人。较低=、≠、>、<甲、乙有生命甲生命时间较乙长定序测量甲生于1941年、乙生于1986年。较高=、≠、>、<、+、-甲、乙有生命甲生命时间较乙长甲比乙大45岁定距测量甲60岁、乙15岁很高=、≠、>、<、+、-、×、÷甲、乙有生命甲生命时间较乙长甲比乙大45岁甲年龄为乙的4倍定比测量测量精度计算方法信息数量某甲某乙的生命现象统计数据的计量定类尺度定序尺度定距尺度定比尺度定类数据定序数据定距数据定比数据统计数据的类型定类变量定序变量数字变量统计变量的类型2.2.2统计数据的计量与类型2.2.3统计数据的来源统计数据的来源直接来源间接来源第一手或直接统计数据第二手或间接统计数据公开出版物:《中国统计年鉴》、《中国工业经济统计年鉴》、《中国人口统计年鉴》、《中国市场统计年鉴》、《世界经济年鉴》、《国外经济统计资料》、《世界发展报告》、会计报表、报刊杂志……一、统计数据的间接来源网络:各类数据库网站等。中国统计年鉴2003中国人口统计年鉴中国市场统计年鉴世界发展报告世界经济年检工业普查数据中国统计出版社Internet中国政府及相关机构
网址数据内容国家统计局统计年鉴、统计月报等国务院发展研究中心信息网宏观经济、财经、货币金融等中国经济信息网经济信息及各类网站华通数据中心国家统计局授权的数据中心中国决策信息网决策知识及案例三农数据网三农信息、论坛及相关网站表2-1提供统计数据的部分政府网站一、统计数据的间接来源美国政府机构
网址数据内容人口普查局人口和家庭等联邦储备局http://www.bog.frb.fed.us货币供应、信誉、汇率等预算编制办公室/omb财政收入、支出、债券等商务部商业、工业等表2-1提供统计数据的部分政府网站(续表)一、统计数据的间接来源按调查单位的范围大小分为全面调查非全面调查统计报表专门调查按调查的组织方式不同分为普查抽样调查典型调查重点调查统计调查科学试验直接来源二、统计数据的直接来源能保证统计资料的全面性和连续性能保证统计资料的统一性和及时性能满足各级部门对统计资料的需要
指按照国家统一规定的各项要求,自下而上地定期向国家和主管部门报送基本统计资料的一种报告制度。统计报表制度优点局限统计调查的组织方式统计报表过多会增加基层负担有可能由于虚报瞒报而影响统计资料质量指国家为详尽了解某项重要的国情国力而专门组织的一次性全面调查作用局限可以为抽样调查提供抽样框可以搜集统计报表所不能提供的反映重大国情国力的基本统计信息由于需要大量的人力、物力和财力,不宜经常进行统计调查的组织方式普查这些单位数目不多,但其标志值在总体标志总量中占有较大比重,能反映总体的基本情况只适用于客观存在着重点单位的情况能以较少的投入和较快的速度取得总体基本情况及变动趋势的资料为了解总体基本情况,在调查对象中只选择一部分重点单位进行调查的一种非全面调查组织方式重点调查优点局限统计调查的组织方式指在数量表现上具有普遍意义和代表性的总体单位,可以用来推断总体的数量不能确定推断的把握程度,无法计算和控制推断误差一定条件下能估计总体指标数值可以补充全面调查的不足可以用来研究新生事物在对调查对象有一定了解的基础上,有意识地选择少数典型单位进行调查的一种非全面调查组织方式典型调查优点局限统计调查的组织方式指样本单位的抽取不受主观因素及其他系统性因素的影响,每个总体单位都有均等的被抽中机会能用较少的人力、物力和时间达到全面调查的目的调查资料的准确性较高、受人为干扰的可能性较小按随机原则抽取样本单位目的是推断总体的数量特征抽样误差可以事先计算并控制按照
随机原则从调查对象中抽取一部分样本单位进行调查,再用样本资料推断把握总体的数量特征的一种非全面调查组织方式抽样调查特点优点统计调查的组织方式统计调查的组织方式总体单位调查单位总体单位调查单位报表制度可以全面调查,但通常是调查限定规模以上的总体单位统计调查的组织方式普查对全部单位进行调查总体单位调查单位统计调查的组织方式重点调查只调查重点单位(单位数不多但其标志量占标志总量比重较大的单位)总体单位调查单位统计调查的组织方式典型调查对典型单位进行调查,典型单位的选择并不一定按规模总体单位调查单位统计调查的组织方式抽样调查按随机原则选择调查单位,各单位被选中的机会相同。总体单位调查单位统计调查的组织方式数据的搜集方法询问调查观察实验电话调查邮寄调查电脑辅助座谈会个别深访实验观察统计调查方法问卷结构:问卷一般由引言、指导语、问题和答案、编码部分、结束语五个部分组成。问卷问题设计的原则:避免复杂性2.避免带有诱导性和暗示性的问题3.避免模糊、假设和双重含义的问题4.答案设计应体现出差异5.在问题的编排上,应由浅入深,由易到难,循序渐进
2.2.4问卷设计一般来说,一份问卷需要编写、修改、再修改;然后可以选择一组人进行测试。测试选择样本的方式应与最终调研选择样本的方式类似。预测试的目的是为了发现问卷中存在的问题,因此,进行预测试时一定要注意以下几个问题:(1)调查员是否可以理解问题的形式;(2)问卷是否自然流畅、表达口语化;(3)问题是否清晰且容易理解;受访者是否能较容易地回答问题;(4)哪种问题形式效果最好?问卷的与测试和修改2.2.4问卷设计第二章管理问题的统计建模2.3统计误差及其控制
统计数据的收集由一系列的统计工作协同完成,在实际统计工作中,由于调查过程中的工作失误、被调查者不配合、抽样方法选取不当、问卷设计不合理,以及数据录入和转换工作失误等因素的存在,导致统计误差在所难免。准确性是统计调查的生命线,因此在统计调查过程中一定要对统计误差进行有效控制。第二章管理问题的统计建模2.3统计误差及其控制2.3.1统计误差的分类统计误差:是指由统计调查获取个体信息并综合得到的总体规律性与总体实际客观规律性之间的差异。这种统计误差反映在统计调查指标上,就是由调查个体所得总体指标数值与总体实际指标数值之间的差异。登记性误差统计误差抽样误差代表性误差系统性误差第二章管理问题的统计建模2.3统计误差及其控制2.3.1
统计误差的分类登记性统计误差:是指由于调查者或被调查者的主观原因而导致调查所得总体指标与总体实际指标之间的差异。不管是全面统计调查还是非全面统计调查,抽样调查还是非抽样调查都会产生登记性统计误差。第二章管理问题的统计建模2.3统计误差及其控制2.3.1
统计误差的分类代表性统计误差:是指仅对构成总体的部分个体进行调查,根据这部分个体提供的信息资料综合提炼出关于这部分个体的一般数量特征(如部分个体的均值),并据此对总体实际指标(如总体实际均值)做出判断所产生的一种差异。代表性误差仅产生于非全面调查。代表性统计误差可以根据它是否来自抽样调查,分为抽样误差(也称随机误差)和系统性误差两类。第二章管理问题的统计建模2.3统计误差及其控制2.3.1
统计误差的分类抽样误差:由抽样调查所产生的代表性误差。从理论上来说,抽样误差无法避免;但是在实际抽样调查中,抽样误差不仅可以采取一定手段加以防范和控制,而且其大小也可以计算系统性误差:由非抽样调查所产生的代表性误差。系统性代表误差产生的根源在于:从构成总体的所有个体中选取部分个体时,没有遵循随机性原则,而是主观地、或部分主观地从总体中选取个体作为调查单位。第二章管理问题的统计建模2.3统计误差及其控制2.3.2非抽样误差的来源及其分类非抽样误差产生于抽样调查的各个环节。调查设计过程中引起的误差(1)调查问卷设计不科学(2)抽样设计不合理调查实施过程中引起的误差(1)被调查者误差(2)调查者误差数据汇总与处理过程中引起的误差第二章管理问题的统计建模2.3统计误差及其控制2.3.2非抽样误差的来源及其分类抽样框误差理想的抽样框是使目标总体和样本总体完全一致,即目标总体中的单元与抽样总体中的单元完全是一一对应的关系。如果两者不一致,就会产生抽样框误差。抽样误差包括以下几个方面:(1)丢失目标总体单位。(2)包含非目标总体单位。(3)抽样框与目标总体存在复合联接。(4)抽样框老化。(5)辅助信息不正确。非抽样误差的分类第二章管理问题的统计建模2.3统计误差及其控制2.3.2非抽样误差的来源及其分类无回答误差是指由于种种原因没有能够对被抽出的样本单元进行计量,从而没有获得有关这些单元的数据所造成的误差。无回答主要表现为被调查对象没有或拒绝接受调查的“单元无回答”和调查对象接受了调查但对某些调查项目没有或拒绝予以回答的“项目无回答”两种。非抽样误差的分类第二章管理问题的统计建模2.3统计误差及其控制2.3.2非抽样误差的来源及其分类计量误差是指调查所获得的数据与调查指标的真实值之间不一致而造成的误差,它包括调查问卷设计不合理所产生的误差、调查实施过程中被调查者所引起的回答误差和调查者误差,以及数据处理误差等。非抽样误差的分类第二章管理问题的统计建模2.3统计误差及其控制2.3.3非抽样误差的控制(一)抽样框误差的控制联接丢失单位、采用多重抽样框、及时更新抽样框、对复合联接的处理。(二)无回答误差的控制多次访问、替换样本单元(三)计量误差的控制科学设计调查问卷重视对调查员的挑选和管理,加强对调查员的培训采取多种措施,减少被调查者回答误差对数据处理误差的控制第二章管理问题的统计建模2.4统计数据预处理2.4.1缺失值处理(一)缺失值产生机制完全变量:数据集中不含缺失值的变量(属性)不完全变量:数据集中含有缺失值的变量。数据缺失机制:完全随机缺失:数据的缺失与不完全变量以及完全变量都无关。随机缺失:数据的缺失仅仅依赖于完全变量。非随机缺失:不完全变量中数据的缺失依赖于不完全变量本身,这种缺失是不可忽略的。第二章管理问题的统计建模2.4统计数据预处理2.4.1缺失值处理方法即若一条记录中有属性值缺失,则将该条记录被排除在数据分析之外。它是最常见、最简单的处理缺失数据的方法,也是很多统计软件(如SPSS)默认的缺失值处理方法。该方法简单易行,但它是以减少样本量来换取信息的完备,容易导致严重的偏差。因此,仅适用于含有少量缺失数据的情况。剔除法第二章管理问题的统计建模2.4统计数据预处理2.4.1缺失值处理方法即对同一属性的所有缺失值都用该属性在其他所有记录中取值的平均值来代替。根据变量特征在加权算术平均数、中位数、众数中选用合适的平均数,尽量使替代值更接近缺失值,从而减少误差。均值替换法也是一种简单、快捷的缺失数据处理方法。采用均值替换法插补缺失数据,对该变量的均值估计不会产生影响。但这种方法是建立在完全随机缺失(MCAR)的假设之上的,而且会造成变量的方差和标准差变小。均值替换法第二章管理问题的统计建模2.4统计数据预处理2.4.1缺失值处理方法即选择若干个预测缺失值的自变量,建立回归方程估计缺失值,用缺失数据的条件期望值对缺失值进行替换。该方法是用预测值替换缺失值的思想,类似地,还可运用决策树或贝叶斯方法等建立预测模型。这类方法相对复杂,但能够最大程度地利用现存数据所包含的信息;同时也存在一些问题,如模型的预测精度值得考量。回归替换法第二章管理问题的统计建模2.4统计数据预处理2.4.2异常值处理异常值是指在一组数据中存在的同其他大多数数据相比异常大或者异常小的数据值。
第二章管理问题的统计建模2.4统计数据预处理2.4.2异常值处理方法异常值的检测方法物理判别法:根据人们对客观事物已有的认识,判别由于外界干扰、人为误差等原因造成:实测数据偏离正常结果。在实验过程中随时判断,随时剔除。例如:一个人的体重为500kg,就可能是在记录原始数据是登记错误所造成的;一个人的年龄为-999,就可能是由于程序处理缺失数据而设置默认值所造成的。这类异常值就可以通过物理判别的法在数据审核阶段直接检测出来。第二章管理问题的统计建模2.4统计数据预处理2.4.2异常值处理方法异常值的检测方法统计判别法:对于物理判别法无法检测的情况,可以通过统计判别法检测异常值。即假设给定的数据集存在一个分布或概率模型(如正态分布或泊松分布),然后根据模型采用相应的统计量做不一致性检验来确定异常值第二章管理问题的统计建模2.4统计数据预处理
第二章管理问题的统计建模2.4统计数据预处理2.4.2异常值的处理方法根据定理:当z=2时,则至少有75%的数据与平均数的距离在2个标准差之内;当z=3时,则至少有89%的数据与平均数的距离在3个标准差之内;当z=4时,则至少有94%的数据与平均数的距离在4个标准差之内;根据经验法则,对于正态分布,几乎所有数据的标准化值都在区间(-3,+3)内,则标准化值在区间外的数据都可以看作是异常值。其中,数据标准化值的计算式如下:
第二章管理问题的统计建模2.4统计数据预处理2.4.2异常值的处理方法根据经验法则,对于正态分布,几乎所有数据的标准化值都在区间(-3,+3)内,则标准化值在区间外的数据都可以看作是异常值。其中,数据标准化值的计算式如下:为数据总体均值,为总体标准差。
第二章管理问题的统计建模2.4统计数据预处理2.4.2异常值的处理方法例如:假设服装厂工人的工资水平服从正态分布,某服装厂一个车间10名工人某月的工资如表2-2所示。通过计算标准化值,发现其中一名工人的工资异常高,经调查发现该服装厂定制多劳多得的工资分配体系,而该工人技术娴熟,且经常加班,因此其每月工资相比其他人高很多。
第二章管理
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 分频网络项目投资可行性研究分析报告(2024-2030版)
- 系部学生管理办法
- 2024年兴业银行宜宾分行招聘真题
- 调解项目管理办法
- 超市散货管理办法
- 茶山种植管理办法
- 自查自评管理办法
- 节约用水管理办法
- 中国无影灯行业市场供需格局及投资规划建议报告
- 系列杂志管理办法
- 2023年03月西藏那曲市从优秀乡村振兴等专干中招录(聘)公务员(事业编制人员)笔试题库含答案解析
- YY 0594-2006外科纱布敷料通用要求
- GB/T 9098-2021电冰箱用全封闭型电动机-压缩机
- GB/T 39123-2020X射线和γ射线探测器用碲锌镉单晶材料规范
- GB/T 28781-2012气动缸内径20 mm至100 mm的紧凑型气缸基本尺寸、安装尺寸
- 特种设备安全监察条例课件
- 仁爱版七年级英语下册第七单元Topic1 SectionC教案
- 注塑碎料员作业指导书
- 中职英语第一册book1unit23Theweekendisfun
- 考生现实表现考察情况表
- 常暗之厢(7规则-简体修正)
评论
0/150
提交评论