![数据、模型与决策课件_第1页](http://file4.renrendoc.com/view/ed913ee077e84dcd6ae07232f53f7e5e/ed913ee077e84dcd6ae07232f53f7e5e1.gif)
![数据、模型与决策课件_第2页](http://file4.renrendoc.com/view/ed913ee077e84dcd6ae07232f53f7e5e/ed913ee077e84dcd6ae07232f53f7e5e2.gif)
![数据、模型与决策课件_第3页](http://file4.renrendoc.com/view/ed913ee077e84dcd6ae07232f53f7e5e/ed913ee077e84dcd6ae07232f53f7e5e3.gif)
![数据、模型与决策课件_第4页](http://file4.renrendoc.com/view/ed913ee077e84dcd6ae07232f53f7e5e/ed913ee077e84dcd6ae07232f53f7e5e4.gif)
![数据、模型与决策课件_第5页](http://file4.renrendoc.com/view/ed913ee077e84dcd6ae07232f53f7e5e/ed913ee077e84dcd6ae07232f53f7e5e5.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据、模型与决策
Data,ModelsandDecisions数据、模型与决策
Data,ModelsandDeci11、主要讲授课程:计量经济学、运筹学、经济预测与决策技术2、主要研究方向:多元统计半参数统计中估计问题因果效应推断1、主要讲授课程:2本课程的主要内容数据分析的基本内容计量模型的基本方法预测与决策的基本技术软件的简单应用本课程的主要内容数据分析的基本内容3
本课程的特点
数据、模型与决策流程结论决策执行结果管理者信息提供模型反馈数据、模型与决策的目的是在科学、符合逻辑和合理的基础上制定决策本课程的特点
数据、模型与决策流程结论决策执4
特点:以数据为基础。将数据作为基本的信息来源,以对实际问题的了解为基本结构,以数据对结构的吻合程度为标准。以模型为手段。以数学理论与方法为工具定量研究社会经济现象之间的关系,形成较严密的研究特色,具有较好的可试验性。决策是目的且具有量的特征,定量可以对问题的描述较精确,能对问题的本质进行深入、广泛的推断,为科学决策提供依据。是一门多学科交叉的科学,数理统计学与运筹学、管理学是其基础计算机技术是必不可少的工具。特点:以数据为基础。将数据作为基本的信息来源,以对实际问题5实际问题1:资源分配问题潘得罗索工业公司生产胶合板,根据厚度和所用木材的质量而有所不同。因为产品在一个竞争的环境中进行销售,产品的价格由市场决定。所以每个月管理层面临的一个关键问题是选择产品组合以获取尽可能多的利润。需要考虑当前生产产品必须的各种资源的可得数量。六项最重要的资源为(1)四种类型的原木(根据原木的质量区分)和(2)生产胶合板的两项关键作业的生产能力(模压作业和刨光作业)。
你们公司有这样的经历吗?实际问题1:资源分配问题潘得罗索工业公司生产胶合板,根据厚度6实际问题2:销售量评估某食品公司生产各种系列的冷饮食品,冷饮食品生产是季节性,需要提前组织生产。一般是每年四月就要制订接下去的五个月生产计划,包括生产的冷饮品种、等级、规格与原料组合。因此要制订采购计划和工厂生产能力计划,以满足市场的需要。如何来预测客户的需求量呢?
预测对生产计划有多重要?实际问题2:销售量评估某食品公司生产各种系列的冷饮食品,冷饮7案例1有兄弟姐妹一起成长,不仅增添亲情,而且有预防疾病的好处一项来自澳大利亚的研究表明:兄弟姐妹在6岁之前的相互传染病毒可以增强免疫功能,并预防多发性硬化症。塔斯马尼亚州研究者观察了136名多发性硬化症患者,并与272名健康者进行了对比。有兄弟姐妹的人得病少案例1有兄弟姐妹一起成长,不仅增添亲情,而且有预防疾病的好8科学家发现:在幼儿时期与兄弟姐妹有五年以上密切生活的人患多发性硬化症的几率下降了88%,而与兄弟姐妹接触1-3年的人可降低43%。科学家发现:在幼儿时期与兄弟姐妹有五年以上密切生活的人患多发9案例2科学家最近发现了保持苗条身材的奥妙。如果一个人平时闲不住,小动作很多,日常消耗的热量就多,就能保持苗条的身材。美国梅欧医院请来了20位志愿者,进行了为期一年的研究。志愿者分为两组,一组较瘦,另一组轻度微胖。所有志愿者都穿上一种带有传感器的特制内衣,内衣里的装置每隔半秒钟记录一次人体的姿态与活动“坐立不安”让人苗条案例2科学家最近发现了保持苗条身材的奥妙。如果一个人平时闲不10志愿者照常进行他们的日常工作与活动,所有食物由研究人员提供研究人员发现,轻度微胖者更喜欢坐着,而身材苗条组的人闲不住。瘦人组的平均“坐立不安”的时间比胖人组多2个小时,相当于多消耗350卡热量如果胖人组也这么不“消停”的话,一年下来完全可以减轻14-18磅的体重此外,研究人员还发现:一个人爱动还是喜静是天生的,与体重无关。在研究的第二阶段,让瘦人多吃1000卡志愿者照常进行他们的日常工作与活动,所有食物由研究人员提供11热量,胖人少吃1000卡热量,他们的生活习惯没有改变。这项研究为肥胖者提供了新的希望。以上几个问题说明在现实生活中,不管是进行决策还是进行研究发现新结果,都离不开数据。热量,胖人少吃1000卡热量,他们的生活习惯没有改变。12第一章、数据与数据展示1.数据概述:可分为科学数据、社会数据、商业数据。(依来源与用途)分类:数值型与属性型静态数据与动态数据时间序列数据、截面数据、面板数据定类数据、定序数据、定距数据与定比数据第一章、数据与数据展示1.数据概述:可分为科学数据、社会数据13(一)数据的来源1、已存在的数据。包括存在于组织中的一些个人信息资料;一些专门收集与维护数据的公司所拥有的商务数据;政府机构2、调查研究获得的数据。可分为实验性研究与观察性研究(一)数据的来源1、已存在的数据。包括存在于组织中的一些个人14(二)数据收集的道德准则与行为规范基本准则:数据的客观性与可重复性行为规范:(1)尽可能收集原始数据或第一手数据(2)引用数据时,要辨别是否侵犯知识产权,合法引用要注明数据的来源。(3)原始数据有异常时,要分析异常的原因,不得随意删除、篡改数据。(4)要说明数据处理的工具、方法及处理过程(5)通过问卷调查的数据,要说明调查内容、调查表的设计等(二)数据收集的道德准则与行为规范基本准则:数据的客观性与可15(三)数据图表表示数据收集好了,那我们就来看看从数据中能挖到什么宝藏了!3.1类别数据的表格表示例3.1交通事故的驾驶因素分析造成交通事故的驾驶因素有判断失误、察觉得晚、驾驶错误、偏离规定的行驶路线和酒后或疲劳驾驶等。某地区交通管理部门对某段时间中的50起交通事故进行驾驶因素分析,得到的原始数据如下:(三)数据图表表示数据收集好了,那我们就来看看从数据中能挖到16驾驶错误察觉得晚察觉得晚判断失误驾驶错误察觉得晚判断失误察觉得晚判断失误察觉得晚判断失误酒后或疲劳驾驶察觉得晚判断失误察觉得晚驾驶错误判断失误驾驶错误察觉得晚判断失误酒后或疲劳驾驶察觉得晚察觉得晚察觉得晚察觉得晚察觉得晚偏离规定的行驶路线判断失误驾驶错误察觉得晚判断失误判断失误判断失误察觉得晚驾驶错误察觉得晚察觉得晚驾驶错误察觉得晚判断失误判断失误驾驶错误驾驶错误判断失误驾驶错误驾驶错误酒后或疲劳驾驶察觉得晚察觉得晚察觉得晚驾驶错误察觉得晚察觉得晚判断失误驾驶错误察觉得晚判断失误察觉17从例3.1的数据,你能看出些什么?也许你看出了“察觉得晚”、“判断失误”等因素比较多,“偏离规定的行驶路线”、“酒后或疲劳驾驶”等因素比较少。很好!其实,只要借助一些简单的图表,就能对数据加以整理并进行初步的定量分析。一些常用的软件如Excel,几乎能完美地为你完成这些图表!从例3.1的数据,你能看出些什么?18我们从表1很容易看出:哪些因素是比较主要的因素?各因素之间频率的差异有多大?等等。有时,累积频率也需要在频数频率分布表中列出。每一类的累积频率是指,从第一类开始累积到该类的频率总和,即将该类及其之前的所有类的频率相加。譬如,为了分析驾驶因素中的主要因素,我们可以进一步改进表1,按照频数或频率从大到小的顺序,将各因素排序后列出来,并加上累积频率一项,结果列于表2中。我们从表1很容易看出:19
表2分析驾驶因素中主要因素的频数频率分布表驾驶因素频数频率(%)累积频率%察觉得晚214242判断失误142870驾驶错误112292酒后或疲劳驾驶3698偏离规定的行驶路线12100合计50100
用Excel制作定性数据频数频率分布表
表2分析驾驶因素中主要因素的频数频率分布表驾驶因素频数20累积频率更常用于有序数据的分析中。我们来看一个例子。例3.2博客调查(/blogsurvey/thebloggingiceberg.html)PerseusDevelopment公司在其网页上发布了一项关于博客的调查报告。该调查根据8个博客服务商提供的博客用户资料,得到了各年龄段的人创建的博客数,频数频率分布表3显示了调查结果。累积频率更常用于有序数据的分析中。我们来看一个例子。21
表3各年龄段的博客创建情况10-1255,5001.351.3513-192,120,00051.4552.8020-291,630,00039.5692.3530-39241,0005.8598.2030-4941,7001.0199.2150-5918,5000.4599.66年龄段创建的博客数
频率(%)累积频率(%)60-6913,9000.34100.00合计4,120,600100.00表3各年龄段的博客创建情况10-1222数据的图形表示用于数据描述的图形比较多,譬如常用的饼状图、柱状图、直方图,以及在统计学中常用的茎叶图、排列图等等。当我们在考虑各种图的时候,把变量稍加分类会有帮助。有的变量具备有意义的数值尺度,如身高几厘米、考试成绩几分等;而有的变量只是把个体分到不同类别而已,如性别、职业或教育程度。类别变量只记录所属类别,譬如,例1的变量就是类别变量,它包含5个类,个体的数据就是指个体属于其中某个类。要表示类别变量的分布,可以用饼图,也可用柱状图或条形图,等等。以下是例3.1的图形表示。数据的图形表示23数据、模型与决策课件24数据、模型与决策课件25柱形图与条形图作法
垂直柱状组成的图形称为柱形图,水平条状组成的图形称为条形图。例:创建我国2001-2004年第一、第二和第三产业产值数量的变化的柱形图。年份第一产业第二产业第三产业20011.541184.875003.3153020021.611735.298023.6074820031.692816.127413.9188020042.076817.238724.37206柱形图与条形图作法年份第一产业第二产业第三产业20011.526打开Excel表,单击“插入图标”工具图标,选择图表类型-柱形图和子图标类型,点击“下一步”。
打开Excel表,单击“插入图标”工具图标,选择图表类型-柱272.选择目标数据,用鼠标选定B4:D8,单击“系列”卡片,点击“下一步”。2.选择目标数据,用鼠标选定B4:D8,单击“系列”卡片283.输入系列名称,用鼠标选定“分类(X)轴标志”A5:A8,单击“下一步”3.输入系列名称,用鼠标选定“分类(X)轴标志”A5:A294.输入或修改“标题”、“坐标轴”、“网格线”、“图例”、“数据标志”、“数据表”等属性,单击“下一步”。
4.输入或修改“标题”、“坐标轴”、“网格线”、“图例”、305.选择图表位置,单击“完成”。5.选择图表位置,单击“完成”。316.图表完成。如果需要,可以双击图表中任何一部分进行修改。
图表区分类轴分类轴标题数值轴图例图表标题系列“第一产业”绘图区数值轴主要网格线数值轴标题系列“第二产业”系列“第三产业”6.图表完成。如果需要,可以双击图表中任何一部分进行修改。32直方图因为类别变量的可能值相对来说不多,所以我们可以用饼状图或柱状图来呈现类别变量的分布。那么像月收入这种数量变量要如何呈现呢?因为数量变量的可能值太多,所以不太可能用饼状图或柱状图来呈现。若将数量变量的数据进行适当的分组,再画出分布图,那么将会比较清楚。这就是本节中我们将重点介绍的图形——直方图(histogram),它是描述数量变量分布最常用的图。在平面直角坐标系中,用横轴表示各类观察值,纵轴表示频数或频率,所绘制的由若干个长方形所组成的图形,就叫做频数分布直方图,简称直方图。通过直方图,我们可以比较快速、直观地把握整体的分布情况。直方图因为类别变量的可能值相对来说不多,所以我们可以用饼状图33直方图作法步骤:1)确定直方图的区间个数,填入每个组界值;
2)打开“工具”菜单;
3)选择“数据分析”;
4)选择“直方图”;
5)在“直方图”对话框中填入数据用Excel制作定量数据频数频率分布表和直方图见例1.14直方图作法步骤:用Excel制作定量数据频数频率分布表和直方34(四)数据集中与分散属性的度量某两个班《DMD》考试成绩如下:808576786793889075666577748381708364966079868071798987747865978991617977858978728684888466697874778981如何评价这两个班的学习成绩呢?(四)数据集中与分散属性的度量某两个班《DMD》考试成绩如下35描述数据的分布属性是描述统计的主要内容,数据的分布属性包括:数据的频数分布和直方图数据集中属性的指标(平均数、中位数、众数、比例)数据离散属性的指标(极差、方差、标准差)数据分布形态的指标(偏度、峰度)数据的计数和求和数据之间的相关程度的指标(相关系数)Excel中的统计功能有以下三种实现方法使用Excel的菜单统计工具使用Excel统计函数使用Excel统计插件(例如PHStat等)描述数据的分布属性是描述统计的主要内容,数据的分布属性包括:36数据集中趋势的测度均值:一组数据的平均值。
中位数:数据序列中位于中间的值。
众数:发生次数最多的值。数据集中趋势的测度37不同年龄段每周上网时间的平均值=AVERAGE(B23:B158)=AVERAGE(C23:C279)=AVERAGE(D23:D186)=AVERAGE(E23:E133)=AVERAGE(F23:F86)不同年龄段每周上网时间的平均值=AVERAGE(B23:B138一组数据按大小顺序排列以后,处于中间位置的数据。对于奇数组,中位数是中间的一个,对于偶数组,中位数是中间的两个的平均值。
=MEDIAN(B23:B158)=MEDIAN(C23:C279)=MEDIAN(D23:D186)=MEDIAN(E23:E133)=MEDIAN(F23:F86)一组数据按大小顺序排列以后,处于中间位置的数据。对于奇数组,39众数是一组数据出现次数最多的数值。如果一组数据各不相同,则这组数据不存在众数。“不同年龄段上网时间均值的区间估计.xls”数据的如下:=MODE(B23:B158)=MODE(C23:C279)=MODE(D23:D186)=MODE(E23:E133)=MODE(F23:F86)众数是一组数据出现次数最多的数值。如果一组数据各不相同,则这40标准差:反映数据的离散程度。方差:是标准差的平方。极差:最大与最小之差。标准误:通常只针对抽样均值而言。标准差:反映数据的离散程度。41标准差的重要性切比雪夫定理:任何一组数据,设它的平均数为μ,标准差为σ,这组数据落在范围内的数据个数占数据总数的比例,至少是。这个定理说明了标准差是数据分散程度的一个普遍性的指标。标准差的重要性42在工业生产中,产品的指标总会出现波动,一般都把产品指标的变动控制在指标平均值加减3个标准差的范围内,认为这是生产正常的标志。如果产品指标波动超出这个范围,说明生产系统不正常。在工业生产中,产品的指标总会出现波动,一般都把产品指标的变动43在投资风险分析中,评价投资收益有两个指标,一个是收益期望值(平均值),另一个是收益的标准差。投资收益的标准差表示投资风险的大小,标准差越大,风险越大。低收益低风险低收益高风险高收益低风险高收益高风险收益期望值收益标准差在投资风险分析中,评价投资收益有两个指标,一个是收益期望值(44
变异系数标准差是测定数据离散程度的标志,但由于不同的数据数值大小不同,相同的离散程度,数值比较大的标准差也会比较大。以下是不同年龄组每周上网时间的统计数据:为了比较大小不同的几组数据的离散程度,定义如下的变异系数(CoefficientofVariation):18岁以下18-24岁25-30岁31-40岁40岁以上均值6.58820.92220.29316.32415.281标准差2.3682.2212.8882.7803.658变异系数0.3590.1060.1420.1700.239变异系数18岁以下18-24岁25-30岁31-40岁4045(五)数据频数分布形态描述数据频数分布形态的指标有两个峰度:设数据个数为N个,峰度计算公式为峰度系数是描述数据分布陡峭或平坦的指标。正态分布的峰度为0.比正态分布平坦的峰度为负值。(五)数据频数分布形态描述数据频数分布形态的指标有两个46偏度:描述数据分布对称性指标。公式为正态分布偏度为0,数据频数右偏,偏度系数为负;左偏为正。偏度:描述数据分布对称性指标。公式为47(六)数据的统计相关性1.因果相关性:指变量X与变量Y之间存在因果关系。因果关系可以通过理论或实验证实。2.统计相关性:指变量X的数值与变量Y的数值之间可以找出统计关系,统计关系是一种数量关系,不需要、还没有或不可能解释二者之间的相关的原因。因果相关的变量不一定有统计相关性,有统计相关的也不一定有因果关系(六)数据的统计相关性1.因果相关性:指变量X与变量Y之间48数据、模型与决策课件49线性相关系数:反映两个变量之间线性统计关系的指标。分总体相关系数与样本相关系数。设有两个变量X,Y,其均值与方差分别为则总体相关相关系数为线性相关系数:反映两个变量之间线性统计关系的指标。分总体相关50
其中称为X,Y的协方差。样本相关系数的计算公式为
其中51
用R表示总体相关系数,r表示样本相关系数。相关系数反映了数据之间的线性相关程度。即便数据存在非线性相关,R与r可能为0.以后一般指线性相关。相关系数没有单位,其值为-1r1。r值为正表示正相关,r值为负表示负相关,r绝对值反应两变量间相关关系的密切程度,绝对值越大说明相关关系越密切,r的绝对值等于1为完全相关,r=0为零相关。用R表示总体相关系数,r表示样本相关系数。相关系数反映52第二章、概率论与统计学基础(一)随机事件、随机变量与频数事件分类:确定性与随机性。随机变量:表示随机事件各种可能结果的变量。每一个随机变量都有确定的可能取值。随机变量分类:离散型与连续型。第二章、概率论与统计学基础(一)随机事件、随机变量与频数53随机事件的运算随机事件的交(Intersection):事件A和事件B同时发生的事件称为事件A和事件B的交。记为A∩B或AandB随机事件的并(Union):事件A和事件B至少一个发生的事件称为事件A和事件B的并。记为A∪B或AorB。如果两个事件不可能同时发生,则这两个事件是互斥(Mutuallyexclusive)的。随机事件的差:事件A发生而事件B不发生,则称这个事件是A与B的差事件。A-B随机事件的运算54样本数、频数
对随机变量,我们感兴趣的是它的各种可能结果发生几率有多大。可以通过记录随机变量发生的次数,称为样本数。观察它的各种可能结果出现的次数,称之为随机变量频数。假设随机变量X可能取这m个结果,记取的次数为称为随机变量取值的频数。那么,当样本数为N时,有样本数、频数对随机变量,我们感兴趣的是它的各种可能结果发55相对频数:随机变量可能结果的频数与样本数之比,记为:显然,所有相对频数之和为1,即例:见教材P50例相对频数:随机变量可能结果的频数与样本数之比,记为:56(二)离散随机变量及分布当样本量不断增加时,离散随机变量相对频数趋向于一个稳定的值,称之为随机变量的概率。记随机变量X取某一个值的概率为即有
几个概率法则法则1:概率值都在0~1之间。法则2:所有可能性的概率之和等于1法则3:如果事件A和事件B互斥,那么两个事件的并发生的概率等于两事件发生的概率之和。即P(A∪B)=P(A)+P(B)(二)离散随机变量及分布当样本量不断增加时,离散随机变量相对57法则4:如果两事件不是互斥的,那么两个事件的并发生的概率等于两事件发生的概率之和,减去两事件的交发生的概率。即:P(A∪B)=P(A)+P(B)-P(A∩B)离散随机变量分布律:离散随机变量可以用分布律表示其取值的概率。分布函数:对给定的一个实数,随机变量不超过这个值的概率(也称累积概率)。法则4:如果两事件不是互斥的,那么两个事件的并发生的概率等于58记分布函数为F(x),则表达式为
很显然,分布函数是一个分段右连续函数。2、几个重要的离散分布贝努利分布:如果一个随机变量X只有两个结果,而且两个结果发生概率是不变的,则称这个随机变量服从贝努利。记X的两个取值分别为0与1,取0的概率为p,则X的概率分布律为
记分布函数为F(x),则表达式为59
二项分布:重复了n
次的贝努利分布试验。设成功的概率为P,则在n次试验中成功了x次的概率为记为.二项分布的均值为np,方差为np(1-p).
泊松分布:在排队系统中,比如到公交站的人数,到银行的人数,常常假定单位时间内到达的客人数满足如下条件:(1)单位时间内到达的顾客数的均值与到达时间无关,这称为随机变量的平稳性。(2)任何两个到达的顾客之间是独立的,称为普遍性。二项分布:重复了n次的贝努利分布试验。设成功的概60(3)前面到达顾客人数不影响后面到达顾客人数,称为无后效性。(4)所有有限时间内到达的顾客总数是有限的,称为有限性。可以得出有k个顾客到达的概率为其中,为单位时间到达的顾客数量的均值。
(3)前面到达顾客人数不影响后面到达顾客人数,称为无后效性。61(三)连续型随机变量及概率分布例(略)对连续型随机变量X,概率曲线记为f(x),即随机变量X的概率密度函数,简称密度函数;累积概率曲线记为F(x),即随机变量X的累积概率分布函数,简称分布函数。命题1:设连续型随机变量X的取值范围为[a,b],密度函数为f(x),分布函数为F(x),则有(1)随机变量X落在区间中的概率为:(三)连续型随机变量及概率分布例(略)62(2)密度函数在随机变量所有取值范围内的积分为1.
(3)(4)
(5)(2)密度函数在随机变量所有取值范围内的积分为1.63几个重要的连续随机变量分布1.正态分布:若随机变量的密度函数为:其中,为正态分布的均值与标准差。分布函数为:几个重要的连续随机变量分布1.正态分布:若随机变量的密度函64
正态分布xOμμ+σμ-σf(x)正态分布xOμμ+σμ-σ65标准正态分布:当时,正态分布称为标准正态分布。一般正态分布做变换即可化为标准正态分布标准正态分布:当66标准正态分布密度函数(x)的曲线有以下特征:是偶函数,关于y轴对称,即当x=0时,取得最大值
x取值离原点越远,(x)值越小。在x=1有两个拐点。曲线与x轴间所夹面积为1对分布函数有标准正态分布密度函数(x)的曲线有以下特征:67如果,则X的分布函数
例设X~N(0,1),求P{|X|<x},并计算P{|X|<1.28}。设某种产品的重量X服从N(100,16)。如果产品的重量在95~105之间属于合格品,求产品是合格品的概率。已知小麦穗长服从N(9.978,1.4412),求下列概率: (1)穗长小于6.536cm。 (2)穗长大于12.128cm。 (3)穗长在8.573cm与9.978cm之间。如果,则X的分布函68从甲到乙地有两条路线,走第一条路所需时间服从N(50,100),走第二条路时间服从N(60,16),问:(1).若有70分钟可用,走哪条路好?(2).若只有65分钟呢?从甲到乙地有两条路线,走第一条路所需时间服从N(50,10069指数分布:若一个随机变量X的密度函数为
则称随机变量服X从指数分布,记为其分布函数为:指数分布有许多性质(略)。指数分布:若一个随机变量X的密度函数为70均匀分布:如果随机变量落在某一区域的上的点的概率相等,则称这个随机变量服从均匀分布。三角分布。超几何分布。伽马分布F-分布t-分布均匀分布:如果随机变量落在某一区域的上的点的概率相等,则称这71随机变量的期望值和方差离散随机变量的期望值对于离散随机变量X,期望值是这个随机变量的所有可能结果,用每一个结果发生的概率作为权重的加权平均。设随机变量X有n个取值,第i个取值等于xi的概率为f(xi),则随机变量X的期望值E[X]等于离散随机变量的方差(Variance)随机变量的期望值和方差离散随机变量的期望值72方差度量随机变量的不确定性,方差越大,结果的不确定越大。由于方差的单位和变量的单位不同,因此常用标准差(Standarddeviation)表示随机变量的波动的大小。由于标准差的单位和变量相同,因此它比方差更有意义。标准差是对风险的一种测度,因此它在金融模型中是一个关键的概念。方差度量随机变量的不确定性,方差越大,结果的不确定越大。由于73例:风险投资问题有一项风险投资,每次投资成功和失败的概率都是50%。投入1元资本,如果成功,连本带利资本增值为2.2元,如果失败,投入的资金全部损失,资本变为0。为了避免所有的资本全部损失,每次只投入当前资本的一半。假设最初的资本为100万元,而这项投资的次数没有限制。问题:这项投资的前景如何?是一本万利,还是血本无归?例:风险投资问题有一项风险投资,每次投资成功和失败的概74解1设初始资本A=100万元,投资成功的资本增值率为K=2.2
第一次投资成功后的资本为:
A/2+KA/2=(K+1)A/2
第一次投资失败后的资本为:
A/2
第一次投资后的资本的期望值为:
0.5(K+1)A/2+0.5A/2=0.5(K+2)A/2=0.5(K/2+1)A解1设初始资本A=100万元,投资成功的资本增值率为K=275第二次投资成功后的资本为:
0.5(K+2)A/4+0.5(K+2)KA/4=0.5(K+2)(K+1)A/4第二次投资失败后的资本为:0.5(K+2)A/4第二次投资以后的资本期望值为:
0.5*0.5(K+2)(K+1)A/4+0.5*0.5(K+2)A/4 =0.52(K+2)2A/4 =[0.5(K/2+1)]2A……第n次投资以后的资本期望值为:
[0.5(K/2+1)]nA=[0.5*(1.1+1)]nA=(1.05)nA当n无限增大时,资本会无限增加,即投资是一本万利的。第二次投资成功后的资本为:76解2设投资2n次,当n很大时,其中大约有n次成功,n次失败。其中对投资者最有利的是前n次都成功,后n次全失败。 第1次成功后的资本为
A/2+KA/2=(K+1)A/2
第2次成功后的资本为
(K+1)A/4+K(K+1)A/4=(K+1)2A/4=(K/2+1/2)2A
……
第n次成功后的资本为
(K/2+1/2)nA 解2设投资2n次,当n很大时,其中大约有n次成功,n次失败77第1次失败后的资本为
(K/2+1/2)nA/2第2次失败后的资本为
(K/2+1/2)nA/22 ……第n次失败后的资本为
(K/2+1/2)nA/2n=(K/4+1/4)nA=(0.8)nA当n无限增大时,2n次投资以后的资本趋向于0。即投资将会血本无归。解法1和解法2的结果显然是矛盾的,至少有一个是错的,哪一个是错的?错在哪里?第1次失败后的资本为78连续随机变量的期望值设连续随机变量X的概率分布密度函数为f(x),它的期望值为[a,b]是随机变量所在的变化范围,a可以是-∞,b可以是+∞。随机变量X的方差为随机变量X的标准差为连续随机变量的期望值79联合分布、边际分布与条件概率在描述一些事物的运行规律,比如蚂蚁爬行所处的位置,飞机在空中的位置这样一些随机事件,就必须考虑多个随机变量构成的变量组。设是一随机变量组,则X的分布称为联合分布。设其密度函数为则分布函数为联合分布、边际分布与条件概率在描述一些事物的运行规律,比如蚂80例:假定某种疾病的发病人数与年龄及某个化验指标有关,现有1898名患者资料见P72例2.15.将表中的统计人数除以总人数1898人,得到患病人数关于年龄和化验指标的联合概率分布:化验指标0-1.92.0-3.94.0-5.96.0-7.98.0-9.9xx1x2x3x4x5年龄y1.0000.0060.0610.1240.3210.48818-24y10.0380.0000.0000.0000.0110.02725-34y20.0850.0000.0000.0070.0330.04435-44y30.1510.0000.0060.0230.0480.07345-54y40.2550.0040.0180.0470.0720.11355-64y50.3190.0020.0250.0280.1120.15265以上y60.1520.0000.0110.0190.0440.077例:假定某种疾病的发病人数与年龄及某个化验指标有关,现有1881由表中的数据可以看出,如果某个患者的年龄在55-64岁之间,化验指标在6.0-7.9之间,他患病的概率为11.2%。化验指标0-1.92.0-3.94.0-5.96.0-7.98.0-9.9xx1x2x3x4x5年龄y1.0000.0060.0610.1240.3210.48818-24y10.0380.0000.0000.0000.0110.02725-34y20.0850.0000.0000.0070.0330.04435-44y30.1510.0000.0060.0230.0480.07345-54y40.2550.0040.0180.0470.0720.11355-64y50.3190.0020.0250.0280.1120.15265以上y60.1520.0000.0110.0190.0440.077由表中的数据可以看出,如果某个患者的年龄在55-64岁之间,82设年龄为随机变量X,化验指标为随机变量Y,表中的数值记为f(x,y),称为随机变量X和Y的联合概率分布。第一行数值表示不考虑年龄(x)时,化验指标(y)的概率函数,第一列数值表示不考虑化验指标(y)时,年龄(x)的概率函数。第一行和第一列称为边际概率(Marginalprobability)化验指标0-1.92.0-3.94.0-5.96.0-7.98.0-9.9xx1x2x3x4x5年龄y1.0000.0060.0610.1240.3210.48818-24y10.0380.0000.0000.0000.0110.02725-34y20.0850.0000.0000.0070.0330.04435-44y30.1510.0000.0060.0230.0480.07345-54y40.2550.0040.0180.0470.0720.11355-64y50.3190.0020.0250.0280.1120.15265以上y60.1520.0000.0110.0190.0440.077设年龄为随机变量X,化验指标为随机变量Y,表中的数值记为f(83如果离散型随机变量x与y的联合概率为f(x,y),则变量x与y的边际概率为:
如果连续型随机变量x与y的联合密度函数为f(x,y),则变量x与y的边际概率密度为如果离散型随机变量x与y的联合概率为f(x,y),则变量x84相互独立的随机变量例:已知随机变量(X,Y)的联合分布如下表1/121/121/61/21/481/481/2401/121/121/6-11/161/161/8-231-1/2xy相互独立的随机变量例:已知随机变量(X,Y)的联合分布如下表85经过简单的计算,可以发现对(X,Y)的任意取值(x,y),有f(x,y)=f(x)f(y),但前述某疾病例子不存在这个情况。
随机变量独立:对二元随机变量(X,Y),如果其联合分布函数可以表示为两个边缘分布函数的乘积,则称随机变量X与Y相互独立。充分必要条件:
离散型:连续型:f(x,y),f(x),f(y)分别表示联合密度函数与边缘密度函数经过简单的计算,可以发现对(X,Y)的任意取值(x,y),有86条件概率在一个随机事件(Y)已经发生的条件下,某一个随机事件(X)发生的概率,称为条件概率。记为f(x|y)。人数化验指标0-1.92.0-3.94.0-5.96.0-7.98.0-9.9xx1x2x3x4x5年龄y18981211523561092618-24y173000215225-34y21610014638435-44y3286012439213945-54y44848358913721555-64y56064475321328965以上y62880213684147条件概率在一个随机事件(Y)已经发生的条件下,某一个随机事件87由下表看出,55-64岁的患者人数为606人,其中化验指标的6.0-7.9之间的患者人数为213人,所求的条件概率为:213/606=0.351。人数化验指标0-1.92.0-3.94.0-5.96.0-7.98.0-9.9xx1x2x3x4x5年龄y18981211523561092618-24y173000215225-34y21610014638435-44y3286012439213945-54y44848358913721555-64y56064475321328965以上y62880213684147年龄在55-64岁之间的人数为606人化验指标在6.0-7.9之间、年龄在55-64岁之间的人数为213人由下表看出,55-64岁的患者人数为606人,其中化验指标的88以上的计算表明,条件概率f(x|y)等于联合分布概率f(x,y)除以边际概率f(y)由此得到,联合分布概率等于条件概率乘以边际概率:化验指标0-1.92.0-3.94.0-5.96.0-7.98.0-9.9xx1x2x3x4x5年龄y1.0000.0060.0610.1240.3210.48818-24y10.0380.0000.0000.0000.0110.02725-34y20.0850.0000.0000.0070.0330.04435-44y30.1510.0000.0060.0230.0480.07345-54y40.2550.0040.0180.0470.0720.11355-64y50.3190.0020.0250.0280.1120.15265以上y60.1520.0000.0110.0190.0440.077联合分布概率f(x,y)边际概率f(y)以上的计算表明,条件概率f(x|y)等于联合分布概率f(x,89统计学概述统计学是处理统计数据的科学。统计学在科学研究、社会经济分析、商业决策和日常生活中有广泛的应用。根据处理统计数据的目的和方法的不同,统计学可以分为描述统计、推断统计和预测统计。下面简要介绍这三类统计的主要内容。描述统计统计数据有不同的特征。例如,哈尔滨市和三亚市的年气温变化显然有很大差别。哈尔滨的年温差(一年中最高气温和最低气温之差)较大而三亚的年温差较小,两地的年平均气温(全年每小时气温的平均值)也相差很大。描述统计就是计算和分析统计数据的一些统计指标,用来表示统计数据的特点。这些统计指标包括前面介绍过的均值、方差、标准差、中位数、极差以及峰度、偏度、相关系数等。研究分析和表示统计数据的统计特征,就是描述统计的主要内容。统计学概述统计学是处理统计数据的科学。统计学在科学研究、社会90推断统计我们经常需要通过数据的研究,来确定某一个统计结论有效的范围,或者用统计数据证实或否定一些统计结论。例如,通过抽样检测得出“某件产品的合格率为97%”,通过市场调查确定“某商品的市场份额为12%”,根据民意调查得知“某候选人在未来的选举中得票的比例为59%”。由于这些统计数据是根据抽样得到的,重复进行抽样,这些数据会有所不同。因此,在得出这些统计数据的同时,还需要了解它们在多大范围内,在多大程度上是可信的。这些例子都是为了确定统计结论的有效范围。推断统计91预测统计在日常生活和经济活动中,经常需要对已经观察到的统计数据进行分析研究,以便估计将要发生的数据。例如:通过对某一城市历年气温的分析,预测明年夏季这个城市的最高气温;通过对以往股市行情的分析,预测股市今后的走势;根据一些父母的身高统计数据,来预测未成年子女未来的身高等等。预测统计92第三章、抽样与估计什么是抽样为什么要抽样商业调查中需要研究的总体,由于数量太大,或者调查具有破坏性,往往无法进行。例如要调查全部电视观众每天看电视的频道和收看时间,显然是不可能的。要测定生产的每一个灯泡的寿命,由于是破坏性的,也不可能全部进行测试。抽样是商业调查的一个必要和可行的方法。抽样的目的是从样本得到尽可能充足的信息,用来有效推断总体的状况。第三章、抽样与估计什么是抽样为什么要抽样93抽样方法抽样方法可以从不同的角度来划分。从样本是否随机获取分,可以分为:主观抽样判断抽样:根据专家的判断选取样本,例如选择特征典型的顾客方便抽样:用容易获得的方法获取样本,例如选取某一天到达的顾客概率抽样简单随机抽样:每个样本都有相同的机会被抽中分群抽样:具有相同统计属性的群,随机抽取若干群进行统计,例如,在杭州市重点中学中随机抽取两所,统计高考平均成绩。抽样方法94
其他抽样方式系统抽样:从总体中按照一定的规律间隔性抽取样本,例如根据电话号码顺序每间隔100个抽取1个。分层抽样:具有不同统计属性的层,根据各层总体的比例,进行抽样。例如,根据发达、欠发达、不发达地区人数,按比例抽样统计农民人均收入。整群抽样:将不同生产批号的产品作为一群,抽取其中某一个批号的产品作为样本连续过程的抽样:例如连续生产线上每间隔一定时间或间隔一定数量的产品作为样本其他抽样方式95抽样误差分析例1谁先动手?有人调查研究酒吧里的打架致死事件,发现其中90%都是死掉的那个人先动手。真是这样吗?如果你跟人打架把对方给揍死了,警察问你谁先动手的时候你怎么回答?抽样误差分析例1谁先动手?96例2美国的种族效应
1989年,纽约市选出第一位黑人市长,维吉尼亚选出第一位黑人州长。这两个事件,在投票所访问投完票的选民后所预测到的胜负差距,都比实际开票的差距大。因此,调查机构相当确定,有些受访选民因为不愿承认没投票给黑人候选人而说了谎。例2美国的种族效应97例3权威人物的意见有两个内容相同的问题:问题A:陆军部和海军部应当合并为统一的作战部,您同意么?问题B:艾森豪威尔将军说,陆军部和海军部应当合并为统一的作战部,您同意么?结果对问题A表示同意的比例为29%,而对问题B表示同意的比例为49%,两者相距甚远。无疑,权威人物艾森豪威尔将军的意见影响了被调查者的意见。例3权威人物的意见98例4总统选举预测1936年民主党人罗斯福任美国总统第一任满,共和党人兰登与他竞选总统。
《文学摘要》杂志根据有约二百四十万人参加的民意测验,预测兰登会以57%对43%的优势获胜。自1916年以来的五届总统选举中,《文学摘要》杂志都正确地预测出获胜的一方,其影响力很大。那时盖洛普刚刚设立起他的调查机构,他根据一个约五万人的样本,预测罗斯福会以56%对44%的优势获胜。实际结果是,罗斯福以62%对38%的优势胜出。当时有人说,这次选举的最大赢家不是罗斯福,而是盖洛普。自这之后,盖洛普的调查机构得到迅速的发展,国内外闻名,而《文学摘要》杂志不久就垮了。
《文学摘要》杂志的调查方法有什么问题?例4总统选举预测99实际的抽样调查是很复杂的,即使采用了好的随机抽样方法、准确地计算了误差界限,调查结果也不一定可靠。就拿例3.1来说,本来应该是对打架双方都进行调查,但已经死去的被调查者无法回答,而剩下的被调查者又可能为保全自己而不如实地回答。那么,这样的调查结果会可靠吗?下面,我们来看看抽样调查中的基本概念、抽样的误差来源,以及抽样调查者应如何与之奋斗。实际的抽样调查是很复杂的,即使采用了好的随机抽样方法、准确地1001、抽样的基本概念a、总体和样本b、抽样c、抽样目标d、抽样误差e、抽样方法f、抽样方案设计1、抽样的基本概念a、总体和样本1012、抽样误差分析统计调查的目的是取得能准确反映客观状况的统计数据。在许多时候,调查结果并不能准确地表现事实,总会有误差出现。在调查的各个阶段,误差都有可能出现。如果其中一个阶段出现了较大误差,可能会把其他阶段都进行得很好的一次调查毁掉,因此必须认真细致地实施调查的每一个阶段、严格控制误差。为了保证统计数据的质量,了解误差的来源与减小误差的措施很有必要。2、抽样误差分析统计调查的目的是取得能准确反映客观状况的统计102继续例4从常理来看,应该调查数据越多,结论越可靠。罗斯福的实际得票率为62%,《文学摘要》杂志的预测为43%,误差达到19%。误差之大令人惊异。这样大的误差是怎么得来的呢?经过研究发现,原因在于《文学摘要》杂志选取样本有偏性。杂志是根据电话簿和俱乐部会员的名册,将问卷邮寄给一千万人。当时美国四个家庭中仅有一家装电话。他选取的样本有排斥穷人的选择偏性。这样的民意测验非常不利于民主党人罗斯福。继续例4103此外,《文学摘要》杂志调查的一千万人中只有二百四十万人回答了问卷,不回答者可能非常有别于回答者,这二百四十万人代表不了被邮寄问卷的一千万人。譬如,1936年《文学摘要》杂志的一次专门的调查,给在芝加哥的选民每三人寄去一张问卷。约20%的被调查者作了回答,其中支持兰登的超过半数。但是在选举中,兰登在芝加哥的得票率只有三分之一。所以当出现高不回答率时,谨防不回答偏性。心理研究表明,低收入和高收入的人倾向于不回答问卷,因此中等收入的人在回答者中的比例过高。为此现代调查机构更喜欢采用亲自询问来代替邮寄问卷此外,《文学摘要》杂志调查的一千万人中只有二百四十万人回答了104即使亲自询问,也有不回答偏性的问题。访问员来访时,不在家的人与在家接受访问的人可能在工作时间、家庭关系和社会背景等方面有比较大的差异,从而看法也不一样。例如有一项关于快餐的市场调查。抽取500户家庭进行调查。白天访问时,有150户家庭没人。能不能仅用白天有人的350户家庭的数据?不能。这里有不回答偏性。白天不在家的150户可能是吃快餐比较多的家庭。即使亲自询问,也有不回答偏性的问题。105误差按其性质可以分为两类,一类是抽样误差,它是由于抽选样本的随机性而产生的误差。只有采用概率抽样的方式才可能估计抽样误差。另一类是非抽样误差,它是指除抽样误差以外的、由于各种原因而引起的误差。在概率抽样、非概率抽样和全面调查中,非抽样误差都有可能存在。若采用了概率抽样方法,那么我们可以估计出抽样误差的大小,还可以通过选择样本量的大小来控制抽样误差。在谨慎执行的抽样调查中,抽样误差通常不大。而非抽样误差相对比较难以估计和控制。误差按其性质可以分为两类,一类是抽样误差,它是由于抽选样本的106提高抽样技术是非常重要的。若采用了随机抽样方法,那么我们可以估计出抽样误差的大小,还可以通过选择样本量的大小来控制抽样误差。样本数太大,浪费人力、物力与财力,太少常常结论不准确。样本大小必须保证抽样误差不超过允许的范围为前提提高抽样技术是非常重要的。若采用了随机抽样方法,那么我们可以107在单纯随机重复抽样条件下,估计总体均值所需样本数可按以下公式计算
在单纯随机不重复抽样的条件下,估计总体的平均数所需样本为其中,n-抽取的样本数;
t-标准正态概率分布下置信区间的临界值
σ-总体标准差
Δ-允许误差范围
N-总体中个体总数在单纯随机重复抽样条件下,估计总体均值所需样本数可按以下公式108样本数据的统计分析样本均值、方差、标准差和标准误抽样是随机进行的,因此样本数据的属性,如样本数据的均值、方差、标准差、标准误等也是随机变量。这些随机变量具有怎样的统计特性,是我们关注的问题。首先来研究样本均值、方差、标准差与样本数n的关系。用函数RAND产生1000个随机变量作为总体,样本数分别为50、100和200。三个样本的均值、方差和标准差如图3.7所示。样本数据的统计分析样本均值、方差、标准差和标准误109样本数据的统计分析样本均值、方差、标准差和标准误抽样是随机进行的,因此样本数据的属性,如样本数据的均值、方差、标准差、标准误等也是随机变量。这些随机变量具有怎样的统计特性,是我们关注的问题。首先来研究样本均值、方差、标准差与样本数n的关系。用函数RAND产生1000个随机变量作为总体,样本数分别为50、100和200。三个样本的均值、方差和标准差如下表所示。样本数据的统计分析样本均值、方差、标准差和标准误110数据、模型与决策课件111从上表可以看出,样本数量越大,样本的均值、方差、标准差越接近总体相应的数值。如果抽样是随机的,样本的均值也是一个随机变量。下面我们来研究,样本均值这个随机变量服从什么样的分布。概率论中有一个非常重要的定理称为中心极限定理,该定理的内容是:无论总体服从何种分布,只要样本数越来越大,样本均值就会逐渐接近正态分布。这个正态分布的均值为总体均值μ,标准差为
其中σ为总体标准差。因此,当样本数n很大时,样本均值的标准差将会逐步接近零。也就是说,当样本数量足够大时,样本均值和总体均值μ将会非常接近从上表可以看出,样本数量越大,样本的均值、方差、标准差越接近112Excel抽样工具Excel“工具/数据分析/抽样”提供了周期抽样和随机抽样两种功能。Excel表“研究所员工资料.xls”提供了115名员工的信息。如果希望从该数据中每间隔7个样本抽取1个员工,操作如下:打开“工具/数据分析/抽样”Excel抽样工具113“输入区域”选择A1:A116,“抽样方法”选择“周期”,“周期”输入7,“输出选项”选择“输出区域”,并选择M2。“输入区域”选择A1:A116,“抽样方法”选择“周期”,“114得到M2:M17共16个员工的样本。由于周期抽是按样本编号从小到大抽取的,无论抽到的样本放回还是不放回,任何样本不可能被重复抽中。得到M2:M17共16个员工的样本。115如果“抽样方法”选择“随机”,就需要输入“样本数”,例如样本数为15。
如果“抽样方法”选择“随机”,就需要输入“样本数”,例如样本116点估计案例:德军有多少辆坦克二战中,盟军非常希望知道德军总共制造了多少辆坦克。德国人在制造坦克时总是墨守成规的,他们把坦克从1开始连续地进行编号。在战争过程中,盟军缴获了了一些坦克,并记录了他们的生产编号,那么怎样利用这些号码来估计坦克总数。点估计案例:德军有多少辆坦克117在这个问题中,总体参数是未知的坦克总数N,而缴获坦克的编号就是样本。假设我们是盟军中负责解决这个问题的统计人员。可以肯定,制造出来的坦克数大于等于最大坦克编号。为了找到坦克数比最大编号大多少?可以先找到缴获坦克的平均数,并认为这个数是全部编号的中点,那么总的坦克数就是这个数的两倍。这就需要特别假设缴获的坦克代表了所有坦克的一个随机样本在这个问题中,总体参数是未知的坦克总数N,而缴获坦克的编号就118这种估计N的方法缺点是:不能保证均值的2倍一定大于记录的中的最大值N的另一个点估计公式是:用观测到的最大编号乘以1+1/n,其中n表示缴获坦克数。从战后发现的德军记录来看,盟军的估计值非常接近所生产坦克的真实值。记录而且表明统计估计比通常通过其他情报方式作出估计要大大接近于真实数统计学家比谍报人员做得更漂亮这种估计N的方法缺点是:不能保证均值的2倍一定大于记录的中的119估计(Estimation)是运用样本的数据来测量总体参数的值。估计有点估计和区间估计。点估计(Pointestimation)是用样本测定总体的单一参数。区间估计(Intervalestimation)给出总体参数的取值范围,同时给出一个计算标准误的方法。不同的样本对总体参数的估计是不相同的。如果所有可能的点估计的均值等于总体参数,这样的估计称为“无偏的”,否则是“有偏的”。估计(Estimation)是运用样本的数据来测量总体参数的120无偏估计的图解
总体参数无偏估计并不能根据一次抽样的样本就能得到总体参数的精确值。理论上说,只有当抽样次数越来越多,这些抽样估计的均值,才会逐步靠近总体参数。估计1、2、3、4的均值估计2估计1估计3估计4样本1样本2样本3样本4无偏估计的图解121点估计点估计就是用抽样得到的一个样本的统计参数(样本均值、样本方差、样本标准差等)来估计总体相应的统计参数(总体均值、总体方差、总体标准差等)。点估计包括:统计学理论可以证明,以上四个点估计都是无偏的点估计被估计的总体参数样本均值总体均值μ样本方差s2总体方差σ2样本标准差s总体标准差σ样本比例p总体比例π点估计点估计被估计的总体参数样本均值总体均值122
样本参数总体参数统计学理论可以证明,数量为n的样本,它们的方差s2和标准差s的分母为n-1时,它们对总体方差和总体标准差的估计才是无偏的。如果分母是n,对总体方差和标准差的估计会偏小。
样本均值
总体均值
样本方差
总体方差样本参数总体参数123运用无偏的点估计,只有在样本数据足够大时,点估计才有把握可以代表总体的统计指标。但是,点估计无法了解估计值和真实总体参数之间的误差。即样本数量要大到什么程度,有多大的把握,可以保证所估计的总体参数落在事先确定的范围内。要解决这个问题,需要用区间估计。运用无偏的点估计,只有在样本数据足够大时,点估计才有把握可以124区间估计置信区间区间估计(Intervalestimates)解决真实的总体参数以什么概率,落入哪一个区间范围的问题。这个概率称为置信水平(Levelofconfidence),这个区间称为置信区间(Confidenceinterval,CI)。例如“在90%的置信水平下,总体参数的置信区间是10±2”,其中10是根据样本计算得到的点估计,2是边际误差。即这个区间为[8,12]。这个区间[8,12]可能包括也可能不包括总体均值。置信水平为90%,表示如果进行100次抽样,得到到100个不同的区间估计,那么其中90%的区间估计包括真实的总体均值。区间估计置信区间区间估计(Intervalestimat125置信区间的宽度(即总体参数估计的精确性)和两个因素有关:样本数量n和置信水平。在一定的置信水平下(例如90%),样本数量越多,置信区间宽度越小,也就是对总体参数的估计越精确。样本数量n不变的情况下,置信水平要求越高(例如90%,95%,99%等),置信区间宽度越大,即对总体参数的估计范围越大。在一般情况下,置信水平为90%就可以了,在要求比较高的情况下,置信水平可以提高到95%,在极少数要求非常高的情况下,置信水平可以设为99%。置信区间的宽度(即总体参数估计的精确性)和两个因素有关:样本126均值的置信区间
为了用样本的均值求出总体均值的置信区间,首先需要研究样本均值的分布。设总体均值为μ,标准差为σ。反复抽取样本数为n的样本。由于抽样的随机性,每次抽取的样本都不相同,样本的均值也不相同。因此,样本的均值是一个随机变量。统计学的理论分析可以证明,无论总体服从什么分布,当样本数n很大时,样本的均值这个随机变量服从正态分布,它的均值等于总体均值μ,标准差等于总体标准差σ除以n的平方根,即:
称为样本的标准误。均值的置信区间为了用样本的均值求出总体均值的置信区间,首先需127
总体均值的抽样分布包含总体均值的一个置信区间
128计算总体均值置信区间的三种方法1.先计算标准正态分布的置信区间,再进行区间变换1-α1-α计算总体均值置信区间的三种方法1.先计算标准正态分布的置信129=NORMSINV($B$4)=B8/SQRT(B19)=B11*B12=B7-B13=B7+B13=NORMSINV($B$4)=B8/SQRT(B19)=B1302.用NORMINV函数直接计算正态分布的置信区间抽取样本数为n的一个样本计算样本均值,并将作为总体均值的点估计计算样本的标准差s,并将s作为总体标准差的点估计计算样本的标准误用NORMINV(α/2,,)
和NORMINV(1-α/2,,)分别计算正态分布的置信区间的左端点和右端点1-αα/2α/2累积概率为α/2累积概率为1-α/22.用NORMINV函数直接计算正态分布的置信区间1-α131=NORMINV($B$4,B7,B8/SQRT(B16))=NORMINV($B$3,B7,B8/SQRT(B16))=NORMINV($B$4,B7,B8/SQRT(B16))1323.用函数CONFIDENCE计算区间值(置信区间的半径)抽取样本数为n的一个样本计算样本均值,并将作为总体均值的点估计计算样本的标准差s,并将s作为总体标准差的点估计用CONFIDENCE(α,s,n)计算正态分布的置信区间的区间值(区间半径)用-CONFIDENCE(α,s,n)作为置信区间的左端点用+CONFIDENCE(α,s,n)作为置信区间的右端点注意:用函数CONFIDENCE构造置信区间时,不需要计算
α/2、(1-α/2)和标准误,函数会根据α、样本标准差s和样本数n自动计算。3.用函数CONFIDENCE计算区间值(置信区间的半径)133例3.5计算“不同年龄段上网时间统计.xls”中6个年龄组看电视时间均值的95%置信区间。=CONFIDENCE($B$2,B7,B14)=B6-B8=B6+B8例3.5计算“不同年龄段上网时间统计.xls”中6个年龄组134
均值标准差s区间值置信区间左端点置信区间右端点18岁以下6.58822.36790.39806.19036.986218-24岁20.92222.22070.271520.650721.193725-30岁20.29272.88850.436819.855920.729531-40岁16.32432.78030.508215.816216.832540岁以上15.28133.65790.869414.411816.1507
135影响置信区间宽度的因素分析
数据量均值标准差s区间值左端点右端点18岁以下1366.58822.36790.39806.19036.986218-24岁25720.92222.22070.271520.650721.193725
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 产权交易合同意向书
- 个人综合授信贷款合同范文
- 个人房屋租赁合同样本范本
- 个人房产转让合同样本修订版
- 中小学教师工资集体合同范本
- 业务员委托合同范本
- 个人小额信贷合同样本
- 个人设备租赁标准合同
- 个人车辆保险合同标准模板
- 个人友情借款合同样本
- 中国心力衰竭诊断和治疗指南2024解读(完整版)
- 《钢铁是怎样练成的》阅读任务单及答案
- 新人教版高中数学必修第二册第六章平面向量及其应用教案 (一)
- 湖南省长沙市一中2024-2025学年高一生物上学期期末考试试题含解析
- 碳纤维增强复合材料在海洋工程中的应用情况
- 公司市场分析管理制度
- 焊接材料制造工-国家职业标准(2024版)
- 江西省2024年中考数学试卷(含答案)
- 2024年200MW-400MWh电化学储能电站设计方案
- 余土外运施工方案
- 中考英语1600词汇对照表-(带音标)
评论
0/150
提交评论