管理定量分析_第1页
管理定量分析_第2页
管理定量分析_第3页
管理定量分析_第4页
管理定量分析_第5页
已阅读5页,还剩391页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

管理定量分析第1页/共399页2006-2007学年第二学期2第一讲:管理定量分析的性质与运用第2页/共399页2006-2007学年第二学期3友情提示上课不要迟到。上课不能使用手机。上课不要睡觉。上课不要在下面私聊,如有疑问或者有什么有意思的话题,请举手,大家一起来讨论、一起来分享。第3页/共399页2006-2007学年第二学期4本课程的参考书籍和软件指定教材:许晓东,《定量分析与方法》,华中科技大学出版社,2008年。马庆国,《应用统计学:数理统计方法、数据获取与SPSS应用》(精要版),科学出版社,2005年版。参考书籍盛骤、谢式千、潘承毅,概率论与数理统计(第二版),高等教育出版社,1994年。吴冬友、杨玉坤,统计学,中国税务出版社,2005年贾俊平,统计学,清华大学出版社,Springer出版社,2004第4页/共399页2006-2007学年第二学期5本课程所使用的软件是:统计学SPSS15.0,(自己到华科在线用FTP搜索下载安装,或到电子市场购买)。第5页/共399页2006-2007学年第二学期6本讲主要内容1课程性质与内容2课程学习方法3管理学研究和定量分析4定量分析在管理实务中的应用5本课程的日程安排6本课程的考试方法7课外作业第6页/共399页2006-2007学年第二学期71课程性质与内容管理定量分析是一门工具性课程,主要讲授广泛应用于管理研究与管理实务中的各种定量分析工具,是一门应用性很强的课程。管理定量分析主要包括两个领域:优化方法(或系统工程)与应用统计学。由于学时和大家数学基础所限,本课程主要讲授应用统计学中的基础统计学,以及优化方法中的线性规划初步。第7页/共399页2006-2007学年第二学期82课程学习方法1)不要试图去证明相关的定理,而是要懂得这些定理后面的逻辑或原理。2)不要死记相关的计算公式和方法,而要懂得这些方法和公式后面的逻辑和适用条件。3)也不要去手工计算,要学会用计算机去完成相关的计算工作。你的精力要集中在计算结果的解释,以及就结果对你研究的问题的意义进行判断。(注:为了熟悉原理而进行的简单计算例外)

“把证明留给数学家,把计算留给计算机,把原理与逻辑留给自己”第8页/共399页2006-2007学年第二学期93管理学研究与定量分析3-1

梅奥的霍桑实验3-2定量分析在管理学研究中的地位第9页/共399页2006-2007学年第二学期103-1梅奥的霍桑实验梅奥的霍桑实验(HawthorneExperiments)中有关非正式组织的研究。GeorgeEltonMayo,1880-1949第10页/共399页2006-2007学年第二学期11目的是要证实在工人当中存在着一种非正式的组织,而且这种非正式的组织对工人的态度有着极其重要的影响实验条件:(1)人员:14名男职工,其中9名绕线工,3名是焊接工,2名检验工;(2)计件工作制度。实验结果:工人每天只完成了6000~6600个焊接点(标准每个工人应该完成7312个焊接点),且天天如此。为什么?第11页/共399页2006-2007学年第二学期12解释1:可能是这些工人的智力或者动作协调性有问题。研究测试结果否定了这一解释。合理的解释:工人们自动限制产量的理由是,如果他们过分努力地工作,就可能造成群体内同伴的失业,或者公司会制定出更高的生产定额来。所以群体会迫使其中的个体进行一致限产。也就是工人会受到非正式组织的影响。第12页/共399页2006-2007学年第二学期13让我们总结一下该研究的研究过程不支持支持提出假设数据分析假设成为一种假说,进而为理论数据支持假设么?理论研究(产生方式)2通过实验或其他方式收集数据第13页/共399页2006-2007学年第二学期143-2定量分析在管理学研究中的地位管理学研究的一般程序(1)提出和形成问题(2)文献综述(3)假设的提出(4)概念定义及其变量操作化(5)数据收集

(6)数据分析(7)结论及其分析(8)研究报告写作从上面可以看到,在(6)中定量分析具有重要的地位,它是数据分析的主要方法第14页/共399页2006-2007学年第二学期154定量分析在管理实务中的应用估计出租车数量(第二讲数据收集、描述性统计与SPSS简单应用)第15页/共399页2006-2007学年第二学期16估计某中濒危动物的数量(第三讲中的概率知识)假设你是劳动人事局的项目评估人员,要对一项针对下岗职工的就业培训项目进行评估,你发现参加了这个培训项目的下岗职工中有60%找到了工作,而没参加这个项目的下岗职工中只有45%找到了工作.你如何对这项目的有效性加以评估?(第三讲,假设检验)第16页/共399页2006-2007学年第二学期17如何判断几个政府部门的绩效是否确实存在差异(第四讲方差分析)第17页/共399页2006-2007学年第二学期18如何估计盗窃数量?(第五讲回归分析)第18页/共399页2006-2007学年第二学期19其他:聚类:社会阶层的划分,经济区域的划分.红学中的作者研究主成分分析:地区生产率的排序.制衣业中规格的确定判别分析:信用等级判定,是否偷税漏税?企业是否会破产?-----第19页/共399页2006-2007学年第二学期205本课程的日程安排第20页/共399页2006-2007学年第二学期216本课程的考试方法考试方式:平时成绩10%+期终考试笔试70%+上机考试成绩20%。第21页/共399页2006-2007学年第二学期227课外作业课外作业1)随机找100个同学,让他们在O/V两个子母中任选一个(不要思考),并用纸笔记录下每个人的选择。2)随机找100个同学,让他们从1-10十个数字任意选择一个数字(不要思考),并用纸笔记录下每个人的选择。3)结合教材预习第一章和第二章第22页/共399页2006-2007学年第二学期23第二讲数据获取、描述性统计与SPSS简单应用第23页/共399页2006-2007学年第二学期24本讲内容1统计学的主要思想2数据获取3SPSS简单应用4单变量描述性统计5双变量数据整理第24页/共399页2006-2007学年第二学期251统计学的主要思想1-1随机性中的规律性1-2规律性中的随机性1-3概率(probability)1-4变量(RandomVariable)1-5总体与样本(PopulationandSample)第25页/共399页2006-2007学年第二学期261-1随机性中的规律性1)随机性是指不能预测某一特定事件的结果。2)规律性是指我们从许多随机事件中收集数据时发现的模式。统计可以看着是对随机中的规律进行研究的学科。第26页/共399页2006-2007学年第二学期271-2规律性中的随机性1)在进行统计观察的时候,大部分时候我们都得不到完全一模一样的观察结果。所以规律也表现出某中随机性,这是统计的一个重要的本质特征。2)所以任何两次数据收集过程中,得到的结果一般都有差异。关键是这种差异是可以用数据本身的随机性进行解释,还是差异达到了无法用随机性进行解释?当两种规律的差异超出了随机性本身的范围的受,变化趋势就发生了。所以统计也是对数据中的偏差问题进行研究的学科。统计把单独的、随机事件置于规律中,并揭示出其变化的趋势。第27页/共399页2006-2007学年第二学期28研究随机性和规律性的两个例子1)20世纪50年代,小儿麻痹症育苗的研究。实验组(疫苗)20万56对照组(安慰剂)20万138问题是:56和138之间的差别是否超过了随机性所能解释的范围。第28页/共399页2006-2007学年第二学期292)1970,美国越战的征兵。1183366305931/71/114/98/631/1210011073问题是:73和110之间的差别是否超过了随机性所能解释的范围。第29页/共399页2006-2007学年第二学期30思考题拧松水龙头,让其刚好到只有水滴下来,计算并记录15分钟内每个20秒里的水滴数。利用你的数据,请说出该水滴在什么方面是随机的?什么方面又是有规律的?第30页/共399页2006-2007学年第二学期311-3概率(Probability)在讨论随机性的时候,统计学的大部分内容根基于一个很重要的概念——概率。概率是一个取值介于0到1之间的数,告诉我们某一特定的事件以多大的机会发生。对于两个数字的差别是否超出了随机性本身所能解释的范围,我们可能永远无法肯定。但是我们可以确定,这种差别超出随机性能解释的范围发生的概率是大还是小。第31页/共399页2006-2007学年第二学期321-4变量(variable)统计的又一块较大的基石是变量。变量简单的说就是事物的特征或者属性。研究者在研究项目开始的时候,就要确定他们所要研究的变量是什么。变量的值(value)通常是对某一个特定单位的度量,这种单位常常被视为一个个体(element)。什么是个体取决于你的研究问题。第32页/共399页2006-2007学年第二学期33思考题:指出下面研究中的变量、变量的值、个体是什么?1)研究华中科技大学男生的身高和体重之间的关系。2)研究武汉市居民对打的加收燃油税这项政策的满意程度。3)统计湖北省个县市的工业生产总值。第33页/共399页2006-2007学年第二学期341-5总体与样本参数:统计量第34页/共399页2006-2007学年第二学期35思考题:请判别下面研究问题中的总体与个体是什么?(1)如果你对华中科技大学女生的身高感兴趣,想研究下其分布。(2)如果你想研究武汉市的高新技术企业的盈利情况。第35页/共399页2006-2007学年第二学期36总结一下1)随机性和规律性是统计学的两个重要概念。规律性本身包含着随机性。统计可以定义为在随机性中寻找规律性,当两种规律之间的差异超出了随机性本身的影响(或者解释范围),变化趋势就发生了。2)概率为我们从数据中得出结论提供了基础,统计学家利用概率判断数据间的差异是否超出了随机性本身的影响。3)变量可定义为一个特征或属性,我们的数据收集都是针对一个个变量进行的。4)统计很少对总体进行直接的研究,都是通过对具有代表性的样本的研究,来对总体的信息进行推断。第36页/共399页2006-2007学年第二学期372数据收集2-1定义变量2-2变量的测量层次2-3观察数据—抽样调查:问题和可能性2-4问卷设计中常出现的问题2-5数据文件的格式第37页/共399页2006-2007学年第二学期382-1定义变量数据收集的第一个工作,就是要清楚测量和收集什么。你要将你的研究问题转化为用变量的语言来描述,并且要对变量进行清楚的定义。例如:思考一下,假设你想了解一个家庭孩子的数量,你设计的问题为:“在你家庭中有多少个孩子?”,该问题存在什么问题?(C)第38页/共399页2006-2007学年第二学期39至少存在以下问题:(1)孩子是否应该小于18周岁?(2)孩子是仅仅指亲生子女,还是包括养子养女?过继的算不算?对于不和亲生父母生活在一起的孩子算不算?父母离了婚而共同抚养的孩子怎么算?-----所以要对“孩子”这个变量做清楚的界定。思考:这个调查问题存在什么问题:“请问贵企业的销售收入是多少?_______”第39页/共399页2006-2007学年第二学期402-2变量的测量层次1)思考题:请回答以下收集到的数据,可以进行“<、>”,“+、—”,“*,/”中的哪些运算?

(1)五个人的性别:1,0,0,1,1(1:男性;0:女性)

(2)五个人的身高:170,173,165,180,161(单位:厘米)

(3)七天的气温(摄氏温度℃):15,24,27,18,34,30,19。

(4)五个人对一项政策满意程度的评分:

5,3,3,4,2

(1:十分不满意;2:不满意;3:一般或中立;4:满意;5:十分满意)第40页/共399页2006-2007学年第二学期412)按照数据适合的运算规则,统计学将数据(或变量)划分为四个层次:(1)定类数据(nominalsale)(变量)。它仅仅是一种标志,取数值仅仅是用以区分变量中的类型名称。不适合任何四则运算和大小运算。(2)定序数据(ordinalscale)。定序数据值能够比较大小,不能够做加减乘除运算,它表示一种次序。第41页/共399页2006-2007学年第二学期42(3)定距数据(intervalscale)。这类数据可以做大小比较以及加减运算,不能做乘除运算。数据之间的距离是相等的。其根本特征是,数据中的0不是物理客观存在的,而是人为设定的。例如:温度测量值就是定距。(4)定比数据(ratioscale)。定比数据是数据中最高层次的测度等级。这类数据可以做大小比较和加减运算外,还可以做乘除运算。这时的0值不是人为确定的,而是物理客观存在的。例如:人的身高数据、体重数据。第42页/共399页2006-2007学年第二学期43思考题:

1)我们用一个量表测量人们对一项法律的态度,如果1表示不赞成,2表示无所谓,3表示赞成,对于3个人我们测得的值分别为:3、1、2,这些数据为_____数据。

2)测量10个大学生所在的年级,如果用1表示大一、2表示大二、3表示大三、4表示大四、5表示其他。测量的值为:1、3、4、1、2、3、2、1、1、4,这些数据为________数据。

3)测得5个人的第一次结婚年龄(单位:周岁)为:20、22、24、30和26,这些数据为_____数据。第43页/共399页2006-2007学年第二学期44注意三点:1)SPSS中将定距数据和定比数据合并为一类,叫刻度级数据。所以SPSS的数据测量层次只有三种。2)一项统计方法适合低级别的数据,也适用于高级别的数据。但反过来不成立。例如我们可以计算身高数据的均值,但不能计算五个人性别的均值。3)在社会科学研究对定序数据的处理有两种方式:一是将其作为定类数据看待;另一是将其作为刻度级数据看待。第44页/共399页2006-2007学年第二学期452-3观察数据——抽样调查定义:凡是在获得数据的过程中,不对被调查对象数据产生的条件施加任何控制所得到的数据,称为观察数据。两种方式:普查与抽样调查。普查(Census)

:就是收集总体中的所有个体的数据。抽样调查(Sampling):是在总体中选择出一个样本,然后对样本中的个体进行调查,从所了解的样本数据来推断总体情况。第45页/共399页2006-2007学年第二学期46抽样调查的优点:(1)经济性。(2)时效性强。抽样调查可以迅速、及时地获取到所需要的信息。(3)准确性高。抽样调查的一个原则:

“确信锅里的汤被搅拌均匀”。第46页/共399页2006-2007学年第二学期47抽样调查的方法:概率抽样(Probabilitysampling)/非概率抽样(Nonprobabilitysampling)概率抽样(Probabilitysampling)(1)简单随机抽样(simplerandomsampling):就是等概率抽样,每个个体以相同的概率被抽中。这也可以分为重复抽样和不重复抽样两种形式。(2)分层抽样(Stratifiedsampling):在抽样之前将总体划分为不同的层(群),然后在各个层中抽取一定数量的元素组成样本。分层抽样的时候应该是各个层内之间的元素的差异比较小,而使层之间的元素比较大。各个层的划分要根据研究者的判断和研究目的。第47页/共399页2006-2007学年第二学期48(3)等距离抽样(systematicsampling,系统抽样):首先将总体中的个体按照某种顺序排列起来,然后按照某种规则确定一个随机起点,然后,每隔一定的间隔抽取一个元素,直到抽满n个元素形成一个样本为止。(4)整群抽样(Clustersampling):就是首先将总体划分为若干个群,然后以这些群为抽样单位从中抽出部分群,在对抽选出的群中的所有元素进行观察。思考题:假如你要调查武汉市市区内的居民月收入,假设抽样容量为1000。你如何展开抽样?第48页/共399页2006-2007学年第二学期49非概率抽样(Nonprobabilitysampling)(1)便利抽样(Conveniencesampling):研究者出于收集数据的便利,而不考虑抽样的概率,所进行的抽样。例如:街头访谈、电话访谈、向自己的亲朋好友收集数据。这种样本数据收集过程都加入了某中人为的干扰和选择,所以从方便样本中得出的结果对于总体信息的推论程度是有限的。思考题:有时候杂志要求读者回答某些问题并寄回答案,从而构成一个样本。请问这个样本能不能代表读者群总体?为什么?第49页/共399页2006-2007学年第二学期50(2)判断抽样(Judgmentsampling):是指经过专家考虑后,以适当的方式进行抽样。例如:研究青少年吸毒问题。第50页/共399页2006-2007学年第二学期512-4收集观察数据过程中常出现的误差两大类:(1)未响应误差(nonresponseerror)。没办法,现在的响应率确实太低了。据估计:一次好的电话调查,响应率85%—90%;一次邮寄调查的响应率很少有达到50%的;即使是名声比较好的调查组织的响应率也经常不超过60%。第51页/共399页2006-2007学年第二学期52(2)响应误差(responseerror)。即使所有的问题都有了回答,我们所知道的也仅仅是调查时人们告诉访员的,而未必是它们实际上做的、感觉的或所想的。影响响应误差的因素很多,常常有:(A)问卷的长度。(B)问题的措词。要通俗易懂;要准确而不笼统;避免双重否定形式的提问。

1992Roper协会做的调查:“在你看来,’纳粹对犹太人的灭绝从未发生过’是可能的还是不可能的”(22%怀疑)

1994“在你看来,’纳粹对犹太人的灭绝从未发生过’可能吗?还是你确信它发生过?”(1%)第52页/共399页2006-2007学年第二学期53避免诱导性提问一方面的观点你是否同意下述观点:联邦政府应该确保所有的人民都有足够的住房。同意:政府有责任不同意:政府无责任55%45%两种观点,政府负责观点在前有些人认为联邦政府应该确保所有的人民都有足够的住房,而另一些人认为每个人应该自己解决住房问题。你认为哪一种意见与你的看法最接近?政府有责任政府无责任44.6%55.4%两种观点,政府负责观点在后有些人认为每个人应该自己解决住房问题,而另一些人认为联邦政府应该确保所有的人民都有足够的住房。你认为哪一种意见与你的看法最接近?政府有责任政府无责任29.5%70.5%第53页/共399页2006-2007学年第二学期54(C)问题所在的位置。不要将敏感性问题放在问卷的前面,要结束调查时的问题要短且简单。(D)调查员的影响。调查设计者要尽量让调查员和被调查者在人口统计特征上相近,如:年龄、性别、种族等。特别是在调查一些敏感问题时尤其如此。例如你要调查女性对化妆品的看法,找男性去就不合适。第54页/共399页2006-2007学年第二学期55最后要提醒大家的是:(1)任何一种抽样程序的一个普遍困难是,很少有一份完全包括属于总体的所有个体的名单。即使存在这份名单,这份名单也往往是不完全的。(2)要总是对你的数据采取一种怀疑态度,这样收集到的数据才可能尽量可靠(3)仅仅使用观察数据来进行因果关系的判断是十分困难的。第55页/共399页2006-2007学年第二学期562-5数据文件的格式个体编号年龄性别年收入(万元)态度120033227162338153第56页/共399页2006-2007学年第二学期574描述性统计4-1样本数据的基本特征:频次和频率4-2刻度级数据的数据结构:茎叶图和直方图4-3数据中心描述4-4离散趋势描述:点描述和区间描述。4-5综合表述:箱形图第57页/共399页2006-2007学年第二学期584-1样本数据的基本特征:

频次(Frequency)和频率(Percentage)所谓频次就是一个特定数据值在整个数据集合中出现的次数。频率就是某个特定数据值出现的频次与数据集合的数据总数之比。一个延伸的概念是累积频率,当数据的测量层次在定序级以上时,设x1<x2

<…<xm

,是样本数据集合中的不重复的样本值(m≤n样本个数)。

若把样本值小于等于某个样本数据xi

的频率值,都累加起来,就得到“小于等于xi”的累积频率思考题:累积频率适合于何种测量层次的数据???第58页/共399页2006-2007学年第二学期59条形图(BarChart)第59页/共399页2006-2007学年第二学期60女性结婚年龄30,29,23,37,27,33,23,24,56,29,44,22,40,22,29,27,30,33,30,31,26,29,25,24,31,46,23,26,24,25,60,23,19,34,25,27,25

第60页/共399页2006-2007学年第二学期61第61页/共399页2006-2007学年第二学期62第62页/共399页2006-2007学年第二学期63经济10%管理25%会计65%饼状图PieChart1.表示出总量的分类2.是表示相对差异的有效办法3.角度大小360(百分数)

专业

(360°)(10%)=36°36第63页/共399页2006-2007学年第二学期644-2茎叶图和直方图1)茎叶图(Stem-and-Leafdisplays)把每一项观察分解为茎值和叶值茎值确定组别叶值确定频数

(计数)Xi第64页/共399页2006-2007学年第二学期65结婚年龄Stem-and-LeafPlotFrequencyStem&Leaf1.001.99.002.22333344413.002.55556677799998.003.000113341.003.71.004.04.00Extremes(>=44)Stemwidth:10.00Eachleaf:1case(s)1*10+9=19第65页/共399页2006-2007学年第二学期660123452)直方图

Histogram频数频率百分数0 15 25 35 45 55下界柱条接触计数类别频数15~25325~35535~452第66页/共399页2006-2007学年第二学期67第67页/共399页2006-2007学年第二学期68直方图的注意点对于直方图的形状我们关心:(1)是否为单峰(unimodal)?如果是单峰的,则说明观测中只有一组是主要的;否则呢??(2)是否对称(symmetric)?值得注意的是,有时候由于人为的构造,对同一个数据集的直方图会让人产生错觉。(1)区间的划分数目选择可能产生;(2)纵轴的刻度选择。一般来说,区间划分数为5-10个比较好第68页/共399页2006-2007学年第二学期69第69页/共399页2006-2007学年第二学期70第70页/共399页2006-2007学年第二学期71直方图与茎叶图的区别:

直方图和茎叶图都用来展示刻度级的数据,茎叶图类似于横放的直方图。但是直方图主要用于对原始数据进行分组后的展示,而茎叶图主要对于原始数据的展示。同时,茎叶图既能给出数据的分布,又能给出每一个原始数据值,即保留了原始数据的信息。而直方图不能给出原始的数值。

注意:当变量的观测数很多的时候,茎叶图的效果就不太好了。第71页/共399页2006-2007学年第二学期724-3数据中心描述常用的有三个:“样本中位数(Median)”、“样本众数(Mode)”和“样本均值(Mean)”。中位数:就是将资料排序(从大到小,从小到大都可)后,居于中间位置的那个数称为中位数。用表示。当n为奇数的时候:当n为偶数的时候:第72页/共399页2006-2007学年第二学期73众数、中位数与均值之间的区别:1)一般来说,众数适合于定类数据;中位数适合于定序数据及其以上的数据;均值适合于样本均值;2)中位数只与位置有关,它只利用了数据集中的少数几个数据(最多两个数据)的信息,对极端值不敏感。而均值则利用了数据集中所有数据的信息,极容易受到极端值的影响。3)对于刻度级数据,很少用众数来代表其集中趋势的;如果存在极端值的时候,要用中位数来代表数据集的集中趋势。第73页/共399页2006-2007学年第二学期74思考题1:一般来说,最适合代表定类数据的集中趋势的是:______.(A)中位数;(B)众数;(C)平均数;(D)方差。2)6个人的身高数据为:173cm、173cm、178cm、176cm、171cm和226cm,请你选择代表这个数据集集中趋势,最适合的是:______.A、中位数;B、众数;C、平均数;D、方差。第74页/共399页2006-2007学年第二学期75案例:估计一个城市的出租车数量某城市的出租车数量少,某位统计学家等了几辆车,发现都是满载的。这位统计学家就怀疑这城市到底有多少出租车,以至于不够用。如何进行估计?他开始记下满载的出租车号,依次为:405,280,73,440,179

。你如何根据这些资料推断这个城市的出租车数量?上车一问该城市一共550辆出租车。第75页/共399页2006-2007学年第二学期76图1:平均差距法

相对误差为(550-527)/550=0.04

第76页/共399页2006-2007学年第二学期77图2:中位数法(M+1)/2=280

也就是说

M=559,相对误差为:(559-550)/500=0.02思考题:1)你还能想出其它方法吗?2)我们这样做的时候有什么假设第77页/共399页2006-2007学年第二学期78其他方法:利用均值。第78页/共399页2006-2007学年第二学期794-4(1)离散趋势点描述(1)极值两个极值:最大值(Maximum)和最小值(Minimum)适合于定序级以上的数据(2)下四分点(lowerquartile)与上四分点(upperquartile)下四分点把排序后的样本数据集合分成了左右两部分,使其左边部分包含了25%的样本总个数,使其右边部分包含了75%的样本总个数。上四分点则刚好相反。(3)上下十分位点(percentile)下十分点把排序后的样本数据集合分成了左右两部分,使其左边部分包含了10%的样本总个数,使其右边部分包含了90%的样本总个数。上十分点则相反。第79页/共399页2006-2007学年第二学期804-4(2)离散趋势区间描述思考题:“区间描述”,适用于什么等级的数据?

1)极差(Range,也称为全距)

极差=极大值-极小值,用Rn表示它反映了样本数据在数轴上的分布范围。2.)四分位距(Interquartilerange)四分位距(Iqr)=Q3-Q1

它反映了样本数据集合中样本值处于中间大小的1/2的数据的分布范围。

第80页/共399页2006-2007学年第二学期81全距和四份位距的适用范围。思考题:请问下列两个数据集用全距来代表该数据集的离散趋势,适不适合?为什么?A)72,70,68,74,75,65,69,71,73,74Rn=75-65B)96,

70,68,74,75,65,69,71,73,74Rn=96-65=31第81页/共399页2006-2007学年第二学期823)样本离差(Deviations)与离差平方和(Sumofsquareddeviations)样本离差被定义为每个样本与样本均值之差:xi

-,i=1,2,…,

n样本离差又称为样本中心化数据。反映数据集对均值的总偏差指标:离差平方和。离差平方和被定义为:

第82页/共399页2006-2007学年第二学期834)离散状况的统计值描述:样本方差(Samplevariance)

s2=为什么用离差平方和除以

,而不是除以样本个数。

样本标准差(StandardDeviation)的定义是

S=第83页/共399页2006-2007学年第二学期84注意:1)对于单峰对称分布的变量,有经验法则:A)大约有68%的数据在均值的正负1个标准差的范围之内;B)大约有95%的数据在均值的正负2个标准差的范围之内。(至少75%)C)大约有99%的数据在均值的正负3个标准差的范围之内。(至少89%)(正负4,至少94%)所以观察值的极差大致上等于4个标准差。第84页/共399页2006-2007学年第二学期855)变异系数

(CV,Coefficientofvariation)方差的缺点:受度量单位的影响。所以定义样本变异系数定义为:样本标准差与样本均值之比:CV经常作为金融研究中的投资风险度量指标。另外,CV还可以用于比较不同事物之间的离散程度比较。第85页/共399页2006-2007学年第二学期86例:两种投资组合:甲、乙,表中是9笔过去半年期投资报酬率,请问哪种投资组合的风险大?甲(%)9172619104138乙(%)61531163282注意,两者的标准差相同:0.05696。但是CV甲=58.25%CV乙=91.45%所以乙的风险较大。第86页/共399页2006-2007学年第二学期876)标准得分

(StandardizedScore)37,29,68,30,26,28,25,65,28,33,32,45,42,17,42,32,36,21,24,28,32,24,24,45,24,49,28,22,32,28,36,21,30,23,37,24,30

30,29,23,37,27,33,23,24,56,29,44,22,40,22,29,27,30,33,30,31,26,29,25,24,31,46,23,26,24,25,60,23,19,34,25,27,25

第87页/共399页2006-2007学年第二学期88定义:一个原始值的标准得分,表示原始得分与均值的距离的新得分,这个得分用标准差为单位来衡量。-1.2221391901-1第88页/共399页2006-2007学年第二学期89假设男性结婚年龄的均值为32.4,标准差为11.2;同样可以求得,17岁的新郎的标准分为-1.39。所以,新郎的结婚年龄更反常。思考题:如果变量的观测值是单峰对称分布,那么标准得分的值大部分(95%)在那个区间范围内??第89页/共399页2006-2007学年第二学期904-5综合表述:箱形图(BoxPlots)箱形图法是综合表达数据的中心特征和离散特征的图形方法。极大值极小值下四份位点上四份位点中位数刻度尺第90页/共399页2006-2007学年第二学期915双变量数据整理

列联表(Contingencytable)/散点图(Scatterplot)第91页/共399页2006-2007学年第二学期925-1定性双变量

(Qualitativebivariatedata)常用列联表例如抽烟习惯与心脏状况。第92页/共399页2006-2007学年第二学期935-2定量双变量

(Quantitativebivariatedata)常用散点图。第93页/共399页2006-2007学年第二学期94课外作业1)找一张中文报纸和英文报纸,并从中随机挑选出150个句子(中文以“,”为标志),记录每个句子包含的字数(或叫长度)。2)记录下这150个句子中每个汉字和英文字母出现的频次。所有数据都要输入SPSS中第94页/共399页2006-2007学年第二学期95第三讲概率论基础知识回顾第95页/共399页2006-2007学年第二学期96本讲内容1概率论发展简史2概率论专有名词3概率的含义4获得概率的基本方法5概率的加法法则6联合概率、条件概率和独立事件7贝叶斯公式8相关的概念——优势9离散变量的概率分布10连续变量的随机分布第96页/共399页2006-2007学年第二学期971概率论发展简史1-1概率论的起源Pascal(1623~1662)

Fermat,(1601-1665)

1654年,赌金分配问题第97页/共399页2006-2007学年第二学期98

赌金分配问题梅雷说:有一次他与某赌友(代称为A先生)掷骰子时,各押32个金币为赌注,双方约定如果谁先赢得3局,就可以把赌金全部拿走,但因为梅雷临时有事,所以赌局不得不中途中断。此时梅雷已经赢得2局,而A先生只赢1局,如何公平分配赌金??

第98页/共399页2006-2007学年第二学期99起点费马:情况1234胜者梅雷、梅雷梅雷、AA、梅雷A、A帕斯卡尔:第99页/共399页2006-2007学年第二学期1001655年,荷兰数学家惠更斯(ChristopherHuygens)访问巴黎时,了解到帕斯卡尔与费马的通信研究,对这类问题产生兴趣,后来,他撰写《骰子游戏》(DiceGame,1657)来探讨机率问题的原理,其中包含许多习题,被许多人认为是机率史上第一本教科书。提出了期望的概念。1713年,瑞士数学家伯努利(JacobBernoulli,1654—1705)出版了《猜度术》一书,提出了大数定理。第100页/共399页2006-2007学年第二学期1011765年,法国数学家棣莫弗(A.DeMoivre,1667—1754)的《机会的学说》一书出版,1733年就发现了正态曲线,以及论述了不存在运气。蒲丰(G.L.LBuffon,1707—1788)于1777年提出了投针问题的几何概率:h/n=(2r/∏).-------------1933年,俄罗斯数学家科尔莫戈罗夫(1903—1987)以德文出版的经典性著作《概率论基础》,标志着概率论的公理化完成,这就是我们现在看到的概率论的情形。第101页/共399页2006-2007学年第二学期1022概率论专有名词随机实验:满足如下三个条件就可以称之为随机实验:(1)在同一条件下可无限次重复;(2)实验结果有多个,且不确定;(3)事前不知实验结果(outcome)。抛硬币基本事件:一次随机实验的可能结果,称为基本事件或者基本随机事件。若随机实验E是“抛两次硬币”,其基本事件就是“+、—”,“+、+”,“—,—”,“—,+”。样本空间:所有基本事件所组成的集合,称为样本空间或基本空间。接上例,其样本空间就是集合{“+、—”,“+、+”,“—,—”,“—,+”}。第102页/共399页2006-2007学年第二学期103随机事件:简称事件,指一些由基本事件所组成的集合。例如,接上例,事件“两次出现相同面”,就有两个基本事件组成:+、+”,“—,—”。不相容事件:在随机试验中,不能同时发生或其交集为空集的几个事件,称为不相容事件。反之为相容事件接上例,事件“两次同时出现正面”和“两次同时出现反面”就是不相容事件。“至少出现一次正面”和“至少出现反面”就是两个相容事件第103页/共399页2006-2007学年第二学期1043概率的含义概率是一个0到1之间的数,描述了一个事件发生的经常程度。小概率(接近于0)的事件很少发生,而大概率(接近于1)的事件则经常发生。概率对统计的意义。对于统计,概率告诉我们,在样本数据的基础上,如果试验重复多次,各种结果发生的经常程度是多大。.5

01不可能必然第104页/共399页2006-2007学年第二学期1054获得概率的基本方法4-1利用等可能性事件4-2使用相对频率的方法4-3利用主观概率第105页/共399页2006-2007学年第二学期1064-1利用等可能性事件如果试验有n种可能的结果,使某特定事件出现的结果数量为k,那么(k/n)就是出现该事件的概率。kn第106页/共399页2006-2007学年第二学期107思考题:(1)一副扑克52张(大、小王去掉),洗均匀,随机取一张牌,那么该张牌是梅花的概率是多少?

第107页/共399页2006-2007学年第二学期108要注意两点:

(1)分清楚你求解问题中什么是你的n,什么是你的k。

1992年11月8日:堕胎的女子是天主教徒的概率≠天主教徒女子堕胎的概率(2)

其实我们在这样做的时候,就已经接受了两个前提假设:a)实验的可能结果是已知的;b)由于对称性,每一个结果的可能性都是相同的。往往这两个前提假设不一定满足.第108页/共399页2006-2007学年第二学期109思考题:再求以下问题的概率中,以上的哪个前提假设不满足:1)一场赛马比赛,有6匹马,求某一匹马胜出的概率。2)求解生男孩和女孩的概率第109页/共399页2006-2007学年第二学期1104-2使用相对频率的方法基于大量重复实验中某个特定事件出现的次数的比例接近于该事件的概率真值。此时,概率是一个长期的比率,是长期观察某一事件的结果,这种概率的准确数值我们是永远得不到的,但是大量观察值使估计概率的数值(即相对频率)无限接近于真值。第110页/共399页2006-2007学年第二学期111试验者抛掷次数正面向上的次数正面出现的频率D.Moivr204810610.5180L.Buffon404020480.5069K.person1200060190.5016K.person24000120120.5005Wiener30000149940.4998第111页/共399页2006-2007学年第二学期1124-3利用主观概率一次性事件的概率叫主观概率(subjectiveprobability)主观概率是贝叶斯(Bayes)统计推断的基础。第112页/共399页2006-2007学年第二学期1135概率的加法法则5-1概率的加法公式5-2概率计算的工具—联列表5-3加法法则示例第113页/共399页2006-2007学年第二学期1145-1概率的加法公式(AdditionRule

)复合事件(CompoundEvent)的概率2)P(A或

B)=P(AB)

=P(A)+P(B)-P(AB)3)对于互斥事件:

P(A或

B)=P(AB)=P(A)+P(B)ABABAB第114页/共399页2006-2007学年第二学期115事件事件B1B2总计A1P(A1

B1)P(A1

B2)P(A1)A2P(A2

B1)P(A2

B2)P(A2)总计P(B1)P(B2)15-2概率计算的工具—联列表联合事件JointProbability边际(简单)概率Marginal(Simple)Probability第115页/共399页2006-2007学年第二学期1165-3加法法则示例复合事件:抽一张牌.注意种类,颜色

颜色类型红黑总计A牌224非A牌242448总计262652P(A牌或者黑色)=P(A牌)+P(黑色)-P(A牌

黑色)∩第116页/共399页2006-2007学年第二学期1176联合概率、条件概率和独立事件6-1联合概率、条件概率的定义6-2用联列表表示条件概率6-3用树形图表示条件概率6-4乘法公式和事件的独立性6-5事件独立性的应用第117页/共399页2006-2007学年第二学期1186-1联合概率、条件概率的定义联合概率就是两个事件A与B同时发生的概率,记为P(A∩B)。条件概率:在B发生的条件下A发生的概率,就是B发生的条件下A发生的条件概率,记为P(A∣B)。

P(A∣B)=P(AB)/P(B)BA假定出现B,排除所有其他结果事件(A且B)B第118页/共399页2006-2007学年第二学期119颜色类型红色黑色总计A牌224非A牌242448总计2626526-2用列联表表示条件概率条件事件:抽一张牌.注意种类,颜色

修正后的样本空间A牌黑色P(A牌且黑色)黑色第119页/共399页2006-2007学年第二学期1206-3树形图表示条件概率P(FA)P(FB┃A)P(FB┃FA)P(B┃FA)P(B┃A)P(A)FAABFBFBB(A∩B)(A∩FB)(FA∩B)(FA∩FB)第120页/共399页2006-2007学年第二学期121例1:条件事件:有14支蓝笔和6支红笔,从这20支选出两支钢笔,不可替换.不独立!蓝红蓝红蓝红P(红)=6/20P(红|红)=5/19P(蓝|红)=14/19P(蓝)=14/20P(红|蓝)=6/19P(蓝|蓝)=13/19第121页/共399页2006-2007学年第二学期1226-4乘法公式和事件的独立性乘法公式:设P(B)>0,有P(AB)=P(A∣B)P(B)一个事件的发生不会影响另一个事件的发生,就称这两个时间相互独立。两个事件A与B,如果P(A∣B)=P(A),则A与B为两个独立事件。此时P(AB)=P(A)P(B)。两个事件独立的测试条件:P(A|B)=P(A)P(A且B)=P(A)*P(B)第122页/共399页2006-2007学年第二学期1236-5事件独立性的应用问:1)抽烟与肺癌是否为独立事件?2)计算肺癌的概率,以及在抽烟的前提下肺癌的条件概率

是否患肺癌总数肺癌患者(C)非肺癌患者(FC)是否抽烟抽烟(S)600200800不抽烟(FS)150450600总数7506501400例1:胸腔科医生根据1400名病患者资料,整理出了肺癌与抽烟的联列表资料:第123页/共399页2006-2007学年第二学期124P(S∩C)=600/1400≠P(S)P(C)=800/1400*750/1400,所以,不是独立事件。P(C)=75/140≈0.53;

P(C|S)=P(S∩C)/P(S)=(60/1400)/(80/140)≈0.75。所以抽烟行为让你的肺癌概率大幅度提高。第124页/共399页2006-2007学年第二学期125例2(估计野生动物数量)。我们经常听到有关野生动物数量的报道,比如海洋中的鲸鱼的数量,问题是:我们是如何得到这些数字的??第125页/共399页2006-2007学年第二学期126方法1(标记法):我们首先捕捉一批鲸鱼,假设100头,做上记号后放回去,过一段时间后我们再捕捉一批鲸鱼,假如有1000头,其中这次的1000头中有10头是有记号的,也就说有10头是前一次抓到的。第二次捕捉总数捕捉到(B)未捕捉到(FB)第一次捕捉捕捉到(A)1090100未捕捉到(FA)990总数1000N由于两次的捕捉是独立的,所以有:第126页/共399页2006-2007学年第二学期127方法2(捕捉—捕捉法):

我们假设这一期捕捉了1000头鲸鱼,发现比上一次捕捉到的数目少了10%,假定鲸鱼被捕捉到的概率是固定的,同时两次捕捉期间没有鲸鱼出生和死亡。我们仍然可以对鲸鱼的数目进行估计。

设前一期有x条鲸,且鲸被捕的概率为p,则这一期应有(x—x*p)条鲸(不考虑自然死亡与新生的鲸),再由已知条件,得下列联立方程式这一期原有的鲸鱼数就为:那么,可求得第127页/共399页2006-2007学年第二学期128如果要你估计武汉市流浪儿童的数目、武汉市吸毒人数的数目、犯罪人数。以上两种解法对你有何启示??第128页/共399页2006-2007学年第二学期1297贝叶斯定理(Bayes’Theorem)7-1全概率公式7-2全概率公式的应用—敏感问题的答案7-3贝叶斯公式7-4贝叶斯公式的应用—艾滋病普查第129页/共399页2006-2007学年第二学期1307-1全概率公式假设样本空间为S,B1,B2,B3,---Bn为两两不相容的事件,且有:

B1∪B2

∪B3∪---∪Bn

=S则对于任意事件A,下列公式成立,这就是全概率公式:B1B2B3B5B4A第130页/共399页2006-2007学年第二学期1317-2全概率公式的应用—敏感问题的答案1965年,StanleyL.Warner发现了一种应用全概率公式来得到敏感问题答案的方法。实验:请大家抛一次硬币,如果硬币国徽面朝上则回答问题a),如果是字面朝上则回答问题b)。问题a):

你学生证(或者学号)的最后一位数是奇数吗?是/不是问题b):

成为华科学生后,你是否曾非法买或卖过自行车?是/不是第131页/共399页2006-2007学年第二学期132定义下列事件:

A=回答“是”的学生;E1

=回答问题a)的学生;E2=回答问题b)的学生我们还可以得出:P(E1)=0.5,P(E2)=0.5,和P(A|E1)=0.5(想一想为什么?)我们想要知道P(A|E2),即回答第二个问题的学生中答“是”的概率。因为事件E1和E2为互斥完备事件组,所以

P(A)=P(E1∩A)+P(E2∩A)=P(A|E1)P(E1)+P(A|E2)P(E2)

=0.5*0.5+P(A|E2)*0.5我们如果知道了P(A),当然就知道了P(A|E2)第132页/共399页2006-2007学年第二学期1337-3贝叶斯公式新的信息修正后概率应用贝叶斯定理先前的概率特别的,当将样本空间划分为两个事件和第133页/共399页2006-2007学年第二学期1347-4贝叶斯公式的应用—艾滋病普查确切的艾滋病病毒携带者的数目是不知道的,但是据估计为10-6。假设艾滋病的检验方法—血液试验(ELISA,酶连接免疫吸附测定)。其检验精度为:一个艾滋病者,检验结果为阳性的概率为95%,也就是说假阴性的概率为5%;一个非艾滋病者,检验结果为阴性的概率为99%,即假阳性的概率为1%。假若你做了血液实验且结果为阳性,你真正得了艾滋病的可能性有多大?第134页/共399页2006-2007学年第二学期135假设事件HIV代表一个随机选择的中国人患有艾滋病

,事件FHIV代表一个随机选择的中国人未患有艾滋病

;RP代表测试的反应为阳性。(HIV∩RP)(HIV∩FRP)(FHIV∩FRP)(FHIV∩RP)HIVFHIVRPFRPRPFRPP(FHIV)=1-10-6P(HIV)=10-6P(RP|HIV)=0.95假阴性P(FRP|HIV)=0.05假阳性P(RP|FHIV)=0.01P(RP|FHIV)=0.99第135页/共399页2006-2007学年第二学期136如何改进?方法1:提高敏感度,也就是降低假阴性的比率,希望真的有病的人实验结果呈阳性第136页/共399页2006-2007学年第二学期137(HIV∩RP)(HIV∩FRP)(FHIV∩FRP)(FHIV∩RP)HIVFHIVRPFRPRPFRPP(FHIV)=1-10-6P(HIV)=10-6P(RP|HIV)=0.95假阴性P(FRP|HIV)=0.05假阳性P(RP|FHIV)=0.01P(RP|FHIV)=0.99就假设提高到1,效果不大!第137页/共399页2006-2007学年第二学期138方法2:提高特异性。降低假阳性第138页/共399页2006-2007学年第二学期139(HIV∩RP)(HIV∩FRP)(FHIV∩FRP)(FHIV∩RP)HIVFHIVRPFRPRPFRPP(FHIV)=1-10-6P(HIV)=10-6P(RP|HIV)=0.95假阴性P(FRP|HIV)=0.05假阳性P(RP|FHIV)=0.01P(RP|FHIV)=0.99假设将假阳性降低为0.001,结果也会不理想!!第139页/共399页2006-2007学年第二学期140方法3:提高发生率第140页/共399页2006-2007学年第二学期141(HIV∩RP)(HIV∩FRP)(FHIV∩FRP)(FHIV∩RP)HIVFHIVRPFRPRPFRPP(FHIV)=1-10-6P(HIV)=10-6P(RP|HIV)=0.95假阴性P(FRP|HIV)=0.05假阳性P(RP|FHIV)=0.01P(RP|FHIV)=0.99假设发生率提高为1/100,则为48.9%!!第141页/共399页2006-2007学年第二学期142这就是为什么美国卫生官员在1986年3月,建议对处于感染艾滋病“高度危险”的美国人做重复的血液试验以决定他们是否感染上了这种病毒第142页/共399页2006-2007学年第二学期1438相关的概念—优势/赔率反对一个事件的优势是指,一个事件没发生的可能性与其发生的可能性的比较,它一般表示为整数之比。悉尼成功的概率=9/(4+9)=0.69城市优势悉尼4:9北京5:2曼彻斯特10:3柏林16:1伊斯坦布尔66:1巴西尼亚200:1第143页/共399页2006-2007学年第二学期144赔率其实把优势反过来写。参赛队赔率阿根廷2赔7法国2赔9巴西1赔7英格兰1赔7中国1赔200沙特1赔250第144页/共399页2006-2007学年第二学期1459离散变量的概率分布9-1二项分布9-2Poisson分布第145页/共399页2006-2007学年第二学期1469-1二项分布(Binomialdistribution)00111001100001---抛100次硬币,观察正面朝上的结果,1=国徽;0=数字第146页/共399页2006-2007学年第二学期147(1)一次试验的结果只有两种可能结果:成功(1)和失败(0);(2)反复重复该试验n次;(3)并且每次实验之间相互独立;(4)每一次试验中的“成功”的概率皆相同,假设为p。符合以上四个条件的随机试验就是二项试验。如果用K表示n次试验中成功的次数,则我们称K为二项随机变量,记为:二项试验(Binomialexperiment):第147页/共399页2006-2007学年第二学期148二项分布公式第148页/共399页2006-2007学年第二学期149二项分布的运用举例根据一项调查显示,我国大学生的近视的比例高达7成,如果这个比例是正确的话,则随机抽取10位大学生,问:近视人数少于5人的概率是多少?第149页/共399页2006-2007学年第二学期150首先检查是不是二项试验。是的!假设用X表示10人中近视的人数,则X~B(10,0.7)第150页/共399页2006-2007学年第二学期151注意:当np>5,且n(1-p)>5时,二项分布近似服从正态分布。第151页/共399页2006-2007学年第二学期1529-2Poisson分布

如果我们要求解,在特定的时间或者特定的空间内,某一特定事件发生特定次数的概率,我们就要借助于Poisson分布第152页/共399页2006-2007学年第二学期153Poisson分布举例早上8点—9点,通过武汉长江大桥的车辆台数晚上7:30-8:00,超市顾客到柜台结帐的人数一个月内,武宜高速公路上发生车祸的人数晚上10:00-11:00,华中科技大学校园内上网的人数。楚天都市报一个版面中,错别字的个数纺织厂生产的一捆布中,线头打结的个数一桶哈根达斯冰淇淋,挖取一球,其中所含葡萄干的个数。第153页/共399页2006-2007学年第二学期154我们用表示事件在特定的时间或者特定的空间内发生次数的均值,那么事件发生x次的概率可以用下面公式计算:第154页/共399页2006-2007学年第二学期155Poisson分布应用举例依据过去一年的统计资料,资料显示武汉市电信局市内电话交换机在星期天晚间8:00-8:05时间段内,转接电话的平均数为10线。今天又是星期天。(1)若用X表示今天晚上8:00-8:05时间段内交换机的转接电话线数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论