数据模型与决策第三四章_第1页
数据模型与决策第三四章_第2页
数据模型与决策第三四章_第3页
数据模型与决策第三四章_第4页
数据模型与决策第三四章_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据、模型与决策秀秀老师1第一节图表描述分析2第二节数量资料的特征数字3第三节属性资料的特征数字Contents第三章统计资料描述分析第一节图表描述分析图表描述分析统计表的种类与应用频数分布的编制统计资料的图像描述单变量的频数分布两变量交叉分类的频数分布直方图、折线图与曲线图累积分布图饼形图与圆环图帕累图散点图雷达图茎叶图第二节数量资料的特征数字集中趋势离散趋势相关性测量软件应用原始数据: 10 5 9 13 6 8集中趋势算术平均数:含义:假定为样本观察值,用表示算术平均数,则算术平均数的基本计算公式为特殊考虑:对于已经过分组并形成频数分布的资料,此时计算算术平均数就要采用加权的办法。计算加权算术平均数时,需要对各个组的变量值与相应组的频数的乘积求和,然后除以频数之和加权均值

甲乙两组各有10名学生,他们的考试成绩及其分布数据如下甲组:考试成绩(X): 020100人数分布(F):118乙组:考试成绩(X): 020100人数分布(F):811加权均值

计算50名工人日加工零件数的均值集中趋势计算和运用算术平均数是需要注意:算术平均同时受到两个因素的影响,一个是各组的观察值的大小,另一个是各组分布频数的多少算术平均值易受极端值干扰集中趋势中位数含义:把观察值按从小到大的顺序排列,位置居中的数叫做中位数求下列各组数据的中位数1)1,2,3,3,3,4,6,8,8,8,9,9

中位数是:52)1,2,3,3,3,4,8,8,8,9,9中位数是:4公式MEDIAN集中趋势中位数是一一种较为常常用的反映映集中趋势势的特征数数字1.不受极极端值的影影响,具有有很强的抗抗干扰性2.由组距距频数分布布资料计算算中位数时时,要求等等距组数,,且要求观观察值在中中位数所在在的组中近近似服从对对称分布,,否则计算算结果可能能存在误差差3.对于观观察值大量量重复的现现象,中位位数未必准准确四分位数(概念要点点)1. 集中中趋势的测测度值之一一2. 排序序后处于25%和75%位置置上的值3.不不受极端值值的影响4.主要要用于定序序数据,也也可用于数数值型数据据,但不能能用于定类类数据QLQMQU25%25%25%25%集中趋势截尾均值含义:去掉掉观察值中中部分最大大值和最小小值,由保保留下来的的数据计算算平均值称称为截尾均均值。离散趋势的的测度离散趋势的的测度,在在统计学中中也称为指指标变异指指标,是用用来描述数数列中指标标值的离散散趋势与离离散程度的的。常用的的标志变异异指标有极极差、平均均差和标准准差等。1.极差差极差是指一一个数列中中两个极端端值即最大大值与最小小值之间的的差异。根根据极差的的大小能说说明标志值值变动范围围的大小。。其计算公公式为:极差=最大大标志值--最小标志志值根据组距数数列求极差差的计算公公式为:极差=最高高组上限--最低组下下限在实际工作作中,极差差可以用于于检查产品品质量的稳稳定性和进进行质量控控制。在正正常生产的的条件下,,产品质量量稳定,极极差在一定定范围内波波动,若极极差超过给给定的范围围,就说明明有不正常常情况产伤伤。但极差差受到极端端是的影响响,测定结结果往往不不能反映数数据的实际际离散程度度。例子1,3,4,7,8,9,10求极差R=10-1=9极差1.一一组数据的的最大值与与最小值之之差2.离离散程度的的最简单测测度值3.易易受极端值值影响4.未未考虑数据据的分布7891078910未分组数据据R=max(Xi)-min(Xi).=组距分组数据

R

最高组上限-最低组下限5.计计算公式为为极差是离散散程度的最最简单测度度值,它只只利用了一一组数据的的两个极端端值,易受受极端值的的影响,且且不能反映映中间数据据的分散状状况。比如:1,,6,6,,6,6,,6,10这一组数数据,极差差是?R=10-1=9和上一组极极差值相同同,都是9,如果以以此断言两两组数据离离散程度相相同,恐怕怕很不合适适,直觉告告诉我们后后一组数据据的差异比比前一组数数据大的多多。2.四分分位差四分位差是是根据四分分位数计算算的。首先先把变量各各单位标志志值从小到到大排序,,再将数列列四等分,,处于四分分位点位次次的标志值值就是四分分位数,记记作,,为为第一四分分位数(也也称为下四四分位数)),为为第第二四分位位数,就是是中位数,,为为第三四四分位数。。四分位差的的计算公式式为:四分位差是是对极差的的一种改进进。与极差差相比,四四分位差因因不受极值值的影响,,在反映数数据的离散散程度方面面比极差准准确,具有有较高的稳稳定性;同同时,对于于存在开口口的组距数数列,不能能计算极差差,但可以以计算四分分位差。四分位差与与极差相比比较:四分位差和和极差一样样,不能充充分利用数数据的全部部信息,也也无法反映映标志值的的一般变动动。4.方差差和标准差差未分组资料料时,方差的公公式为:标准差的公公式为:分组资料时时,方差的公公式为:标准差的公公式为:式中:——算术平平均数——总体单单位数——各组频率——方差——标准差差——变量值值5.离散散系数上述的各种种标志变异异度指标,,都是对总总体中各单单位指标值值变异测定定的绝对量量指标。而而离散系数数是测定总总体中各单单位标志值值变异的相相对量指标标,以消除除不同总体体之间在计计量单位、、平均水平平方面的不不可比因素素。常用的的离散系数数主要有平平均差离散散系数和和标准差离离散系数其公公式式分分别别为为::离散散系系数数上面面介介绍绍的的各各离离散散程程度度的的测测度度值值,,反反映映的的是是数数据据分分散散程程度度的的绝绝对对值值,,其其数数值值的的大大小小取取决决于于原原变变量量值值绝绝对对水水平平的的高高低低。。举个个例例子子::两组组数数据据::第一一组组::5,,10,,20,,25,,30第二二组组::100000,,100005,,99995,,100020,,100040第一一组组数数据据极极差差==25第二二组组数数据据极极差差==45第一一组组数数据据平平均均差差==8.4第二二组组数数据据平平均均差差==14.4第一一组组数数据据方方差差==107.5标标准准差差==10.36822第二二组组数数据据方方差差==332.5标标准准差差==18.23458第一一组组的的离离散散系系数数=10.36822/8.4=1.23第二二组组的的离离散散系系数数=18.23458/14.4=1.26对平平均均水水平平不不同同或或计计量量单单位位不不同同的的不不同同组组别别的的变变量量值值,,不不能能直直接接的的用用上上述述离离散散程程度度的的测测度度值值进进行行直直接接的的比比较较各各组组的的离离散散程程度度。。为为了了消消除除变变量量值值水水平平的的高高低低和和计计量量单单位位不不同同对对离离散散测测度度值值的的影影响响,,我我们们计计算算离离散散系系数数值值。。离散散系系数数一一般般是是用用标标准准差差计计算算的的,,也也称称为为标标准准差差系系数数,,它它是是一一组组数数据据的的标标准准差差与与其其相相应应的的均均值值之之比比,,是是测测度度数数据据离离散散程程度度的的相相对对指指标标,,其其计计算算公公式式为为::离散散系系数数(概概念念要要点点和和计计算算公公式式)1.标标准准差差与与其其相相应应的的均均值值之之比比2.消消除除了了数数据据水水平平高高低低和和计计量量单单位位的的影影响响3.测测度度了了数数据据的的相相对对离离散散程程度度4.用用于于对对不不同同组组别别数数据据离离散散程程度度的的比比较较5.计计算算公公式式为为正方形边长x面积S确定关系1..正正方方形形面面积积S与边边长长x之间间的的关关系系::2..人人的的身身高高不不能能确确定定体体重重,,但但平平均均说说来来““身身高高者者,,体体也也重重””..那么么身身高高和和体体重重具具有有什什么么关关系系??3..类类似似的的情情况况生生活活中中是是否否还还有有??(1)商商品品销销售售收收入入与与广广告告支支出出经经费费;;(2)粮粮食食产产量量与与施施肥肥量量..相关关关关系系相关关性性分分析析相关关性性测测量量相关关系系数数反反映映变变量量间间线线性性相相关关关关系系的的重重要要指指标标。。计算算公公式式::(1))变形形后后的的公公式式属性性资资料料的的特特征征数数字字属性性资资料料的的集集中中趋趋势势的的测测度度主主要要是是::众众数数、、中中位位数数、、四四分分位位数数属性性资资料料的的离离散散趋趋势势的的计计算算方方法法,,常常用用的的有有离离散散比比率率、、GINI-SIMPSON指指数数和和熵熵等等第四四章章参参数数样样本本推推断断参数数样样本本推推断断统计计量量与与抽抽样样分分布布参数数估估计计的的应应用用假设设检检验验应应用用总体体选择择个个体体样本本观测测样样本本样本本观观察察值值(数数据据)数据据处处理理样本本有有关关结结论论推断断总总体体性性质质统计计量量统计计的的一一般般步步骤骤这种种不含含任任何何未未知知参参数数的的样样本本的的函函数数称称为为统统计计量量.它它是是完完全全由由样样本本决决定定的的量量.第四四章章参参数数样样本本推推断断第一一节节统统计计量量与与抽抽样样分分布布统计计量量X1,X2,……,,Xn为来来自自总总体体X的样样本本,,称称不含含未未知知参参数数的的样样本本的的函函数数f(X1,X2,……,,Xn)为统计计量量.若若x1,x2,...,,xn为样样本本观观测测值值,,则则称称f(x1,x2,...,,xn)为为统统计计量量f(X1,X2,……,,Xn)的的观观测测值值.统计计量量是是处处理理、、分分析析数数据据的的主主要要工工具具..对对统统计计量量的的一一个个最最基基本本的的要要求求就就是是可可以以将将样样本本观观测测值值代代入入进进行行计计算算,,因因而而不不能能含含有有任任何何未未知知的的参参数数..设X1,X2,…,Xn是来自总体X的样本,X~N(,2),其中、2为未知参数,,则X1,,min{X1,X2,…,Xn},为统计量。但诸如等均不是统计计量,因它含含有未知参数数或.第一节统统计量与抽样样分布三大抽样分布布1.2分布设X1,X2,…,Xn为相互独立的的随机变量,,它们都服从从标准正态N(0,1)分分布,则称随随机变量称2服从自由度为为n的2分布,记作2~2(n).2分布具有下面面性质:1)可加性。。设是两个相互独独立的随机变变量,且第一节统统计量与抽样样分布2)2分布曲线随自由度度n的增大而而逐渐趋向于于正态分布曲曲线3)设X1,X2,…,Xn为相互独立的的随机变量,,它们都服从从标准正态N(0,1)分分布,令 Q1+Q2+Q3+...+QK=,,Qi(i=1,2,...,K))是秩秩为ni的非负负定二二次型型,则则Q1,Q2....,QK相互独独立,,且分分别服服从自自由度度为ni的的2分布的充要要条件件是n1+n2+...+nk=n练一练练1.2分布的形状状随自自由度度n的的增大大而逐逐渐趋趋向于于())第一节节统统计计量与与抽样样分布布2.t分布设X~N(0,,1),Y~2(n),X与Y独立,,则称称随机机变量量,服从自自由度度为的的t分布,又称称为学学生氏氏分布布,记记为T~t(n).3.F分布布设X~2(n),Y~2(m),且且X与Y独立,,称随随机变变量服从自自由度度为(n,m)的F分布,记为为F~F(n,m).第一节节统统计计量与与抽样样分布布1.从一个个总体体中随随机抽抽出容容量相相同的的各种种样本本,从从这些些样本本计算算出的的某统统计量量所有有可能能值的的概率率分布布,称称为这这个统计量量的抽样分分布。抽样分分布就就是从从总体体中抽抽出相相同容容量的的全部部样本本,并并计算算出统统计量量的值值,然然后按按统计计量的的值编编制出出来的的频数数分布布2.设X1,X2,…,,Xn是取自自总体体X的的样本本,样样本均值,所有有可能能样本本的均均值构构成的概率率分布布即为为样本均均值的的抽样样分布布。【例】】设一个个总体体,含含有4个元元素((个体体),,即总总体单单位数数N=4。。4个个个体体分别别为X1=1、、X2=2、、X3=3、、X4=4。。总总体的的均值值、方方差及及分布布如下下总体分布14230.1.2.3现从总总体中中抽取取n=2的的简单单随机机样本本,在在重复复抽样样条件件下,,共有有42=16个样样本。。所有有样本本的结结果如如下表表3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第一个观察值所有可能的n=2的样本(共16个)计算出出各样样本的的均值值,如如下表表。并并给出出样本本均值值的抽抽样分分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第一个观察值16个样本的均值(x)样本均值的抽样分布1.00.1.2.3P(x)1.53.04.03.52.02.5x所有样样本均均值的的均值值和方方差式中::M为为样本本均值值的个个数现从总总体中中抽取取n=2的的简单单随机机样本本,在在不重复抽抽样条条件下下,共共有12个样本本。所所有样样本的的结果果如下下表3,4-3,23,132,42,3-2,12-4,34,24,141,441,33211,2-1第二个观察值第一个观察值所有可能的n=2的样本(共12个)计算出出各样样本的的均值值,如如下表表。并并给出出样本本均值值的抽抽样分分布3.5-2.52.033.02.5-1.52-3.53.02.542.542.03211.5-1第二个观察值第一个观察值12个样本的均值(

)练一练练1.不不重复复抽样样样本本均值值的均均值与与总体体均值值()),但但其方方差比比总体体方差差和重重复抽抽样均均值的的方差差())2.抽抽样分分布含含义3.为为了搞搞清楚楚统

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论