统计学基础培训-PPT_第1页
统计学基础培训-PPT_第2页
统计学基础培训-PPT_第3页
统计学基础培训-PPT_第4页
统计学基础培训-PPT_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、统计学基础,在测定阶段中收集材料以分析的方法使用。 把工程的Xs与 Ys特性化资料用数值显示。 用以前的工程和执行DATA推定未来时使用。 高级统计性问题解决方法的基础而使用。 基本统计概念不是根据直观而是创出根据事实的语言。,基础统计的必要性,名词解释,1. 总体与样本 Population and sample,样本:从总体中随机抽取的部分观察单位。如某单位男士的身高,总体:根据研究目的确定的同质研究对象的全体(集合)。如成年人的身高。 分有限总体与无限总体,总体与样本,1. CVTE & TV事业部 2. TV事业部 & 技术支持部 3. 技术支持部 & BT1战队 4. 平台支持部 &

2、 订单软件管理组,名词解释,从总体中得到样本的方法:抽样。 (抽样方法与样本量),从样本推论总体的方法:统计推断 (区间估计,假设检验等),请问: 计算CVTE的男生的平均身高 推算CVTE的女生的平均体重 推算从14楼到食堂的平均时间,名词解释,变量可以测量的任何特征或属性 Any characteristic or attribute that can be measured。 例如:热量值、蛋白质含量、碳水化合物含量。 随机变量在概率论中称变量为随机变量,变量与随机变量 Variable and random variable,变量,变量(随机变量)的分类,离散型变量(discrete

3、variable):计数资料(15,17,24,) 可能取到的值是有限个的随机变量 记数变量,只能通过记数的方法来获取,只能以整数为单位 连续性变量(continuous variable): 计量资料(1.65, 1.73, 1.77,) 可能取到的值是无限个的随机变量 计量变量,能用量测手段直接测定 有序变量(ordinal variable): 等级资料(优、良、中、差),变量,胖子的体重 PQ组的出差天数 苹果5S手机的待机时间 刘畅每月发放订单软件软件个数 丽仪跑100米的时间 3553软件的编译时间 订单软件的重测次数 订单软件的重测率,名词解释,1. 算术均数(arithmeti

4、c mean),简称均值(mean) 2. 几何均数(geometric mean) 3. 中位数 (median) 4. 众数(mode) 5. 调和均数(harmonic mean) 6. 截尾平均值(5% trimmed mean),平均指标 总称为平均数(average)反映了资料的集中趋势(central tendency),1. 均值(mean),适用条件:变量呈正态或近似正态分布的情况,1. 均值(mean),小A和小B是好战友,周日相约去靶场打靶 小A前10枪的成绩是: 10,10,10,0,10,10,0,10,10,10 小B前10枪的成绩是 8,7,7,9,8,9,7,8

5、,8,9 请问第11枪小A小B的成绩会是多少?,1. 均值(mean),胖子和浩子都会修板子,下面是两人去年每月的修板数量 胖子: 77,78,82,81,81,80,81,79,79,81,83,79 浩子 86,87,65,90,85,96,47,86,86,92,55,85 请问可以用平均数来推测下一个月两人的休班量吗?,2. 中位数(median),中位数是将一批数据从小至大排列后位次居中的数据值,符号为Md,反映一批观察值在位次上的平均水平。 适用条件:适合各种类型的资料。尤其适合于 大样本偏态分布的资料; 参数有不确定数值; 参数分布不明等。,2. 中位数(median),先将观察

6、值按从小到大顺序排列,再按以下公式计算:,特点:仅仅利用了中间的12个数据,小A和小B是好战友,周日相约去靶场打靶 小A前10枪的成绩是: 10,10,10,0,10,10,0,10,10,10 小B前10枪的成绩是 8,7,7,9,8,9,7,8,8,9 请问第11枪小A小B的成绩会是多少?,2. 中位数(median),胖子和浩子都会修板子,下面是两人去年每月的修板数量 胖子: 77,78,82,81,81,80,81,79,79,81,83,79 浩子 86,87,65,90,85,96,47,86,86,92,55,85 请问可以用平均数来推测下一个月两人的休班量吗?,2. 中位数(m

7、edian),3. 众数(mode),出现次数(或频数)最多的观察值;在频数分布图中对应于高峰所在位置的观察值。 适用于大样本;较粗糙。,小A和小B是好战友,周日相约去靶场打靶 小A前10枪的成绩是: 10,10,10,0,10,10,0,10,10,10 小B前10枪的成绩是 8,7,7,9,8,9,7,8,8,9 请问第11枪小A小B的成绩会是多少?,3. 众数(mode),胖子和浩子都会修板子,下面是两人去年每月的修板数量 胖子: 77,78,82,81,81,80,81,79,79,81,83,79 浩子 86,87,65,90,85,96,47,86,86,92,55,85 请问可以

8、用平均数来推测下一个月两人的休班量吗?,3. 众数(mode),均值、中位数、众数三者关系,正态分布时: 均值中位数众数 正偏态分布时:均值中位数众数 负偏态分布时:均值中位数众数,名词解释,波动(variation)指标,反映数据的离散度(Dispersion )。即个体观察值的波动程度。 常用的指标有: 1. 极差(Range) (全距) 2. 百分位数与四分位数间距 Percentile and Quartile range 3. 方差 Variance 4. 标准差 Standard Deviation 5. 变异系数 Coefficient of Variation,1.极差(Ran

9、ge)(全距),优点:简便 缺点: 1. 只利用了两个极端值 2. n大,R也会大 3. 不稳定,1.极差(Range)(全距),胖子、勇琼、高婕、丽仪、晓冉、蝶婷、许云的体重分别是: 210,78,83,92,86,83,90 请问TA们体重的极差是多少? TA们体重的波动大吗? 小麦跑一百米10次的速度分别是: 13.63 13.45 13.87 14.21 14.00 13.78 13.99 18.77 14.22 14.12 请问小麦的10次100米时间的极差是多少?,2.方差 (variance),方差 (variance)也称均方差(mean square deviation),样

10、本观察值的离均差平方和的均值。表示一组数据的平均离散情况。,2.方差 (variance),已知胖子最近一周抽烟的次数为 1,1,2,2,2,4,2 求胖子上一周抽烟的波动情况,2.标准差 (SD),标准差 (Standard deviation, Std, SD)即方差的正平方根;其单位与原变量X的单位相同。,总体标准差,3.标准差 (SD),已知胖子最近一周抽烟的次数为 1,1,2,2,2,4,2 求胖子上一周抽烟的波动情况,样本方差为什么要除以(n1),与自由度(degrees of freedom)有关。 自由度是数学名词,在统计学中,n个数据如不受任何条件的限制,则n个数据可取任意值

11、,称为有n个自由度。若受到k个条件的限制,就只有(nk)个自由度了。,例如一个有5个观察值的样本,因为受到统计数 的约束,在5个离均差中,只有4个数值可以在一定范围内自由变动取值,而第五个离均差必须满足 这一限制条件。,名词解释,正态分布(Normal distribution),正态分布也叫高斯分布(Gaussian distribution),是最常见、最重要的一种连续型分布。 1、正态分布的数学形式 2、正态曲线 3、标准正态分布 4、曲线下面积,1.正态分布(Normal distribution),1.正态曲线( normal curve ),图形特点: 钟型 中间高 两头低 左右对

12、称 最高处对应于X轴的值就是均数 曲线下面积为1 标准差决定曲线的形状,1.正态曲线( normal curve ),正态分布曲线由两个参数决定,即总体均值和总体标准差。 在不变的情况下,函数曲线形状不变,若变大时,曲线位置向右移;若变小时,曲线位置向左移,故称为位置参数。 在不变的情况下,函数曲线位置不变,若变大时,曲线形状变的越来越“胖”和“矮”;若变小时,曲线形状变的越来越“瘦”和“高”,故称为形态参数或变异度参数。,1.正态曲线( normal curve ),已知胖子最近一周抽烟的次数为 1,1,2,2,2,4,2 假设胖子抽烟的次数的概率统计符合正态分布,请画出胖子抽烟次数的概率统

13、计正态分布图,1.正态曲线( normal curve ),标准正态离差 标准正态分布:N(0,1),正态分布:,u,-,累计概率分布函数:,1.正态曲线-曲线下面积,曲线下面积分布规律,-,+,-1.96,+1.96,-2.58,+2.58,68.27%,95.00%,99.00%,资料的测度,对资料中心的测度,包括平均,中央值,最频值等。.,例 ) 制品完成所需AF 的7个工程。下面测定了每工程所需要的时间。 求每工程所需要的平均时间。,极端值 30分对平均 的影响大!, 平均(Mean) n 个观测值的平均是, 观测值的总合除于观测值个数 对于 极端值很敏感(outlier) 。,平均

14、:,2 2 1 3 2 9 30,A B C D E F G,(单位 :分),观测值总合,观测值数,=,计算),中心位置,资料的测度, 最频值(Mode) DATA频度数(Frequency)大的 少受极端值(Outlier) 的影响。,例 ) 前面问题中最频值是多少?,在2, 2, 1, 3, 2, 9, 30中频度数 2值为 3,拥有最多 的频度, 因此最频值是 2 。,中央值,最频值 少受检端值的 影响。,n 为单数时 :,n 为双数时 :,1 2 2 2 3 9 30,1 2 2 2 3 9 10 30,2和 3的平均,2.5,资料的测度,显示资料离中心位置分散多少的测度,代表性的有分

15、散、标准偏差、4分位数等。,B汽车每L 平均行驶距离比 A汽车高,但分布的散布图大, 所以不能说 一定是B汽车好!,A 汽车,B 汽车,下面是 测定A ,B汽车每L 行驶 距离的DATA分析。 各位喜欢什么样的汽车?,A,B,例 ),统计分析中只考虑平均判断会得到错误的结果, 应考虑资料分散程度的散布图。,散布图,资料的测度,分散和标准偏差是资料离平均值的距离,表示资料分散的程度。 可以使用各资料值和平均的差异,即把偏差都合起来的方法,但 如下例经常成为0,所以使用距离的 乘方, 即,偏差的乘方。,30,40,50,60,70,假如,从 点到 的乘方距离是 , 分散被定义为平均乘方距离 (按统

16、计理由 分母不是 n,而是使用 n-1),标准偏差取乘方根分散的形态。, 分散(Variance)与标准偏差(Standard deviation),例 ) 资料 : 4 8 7 5 2 6 3 平均 5 偏差的合 : (-1) + 3 + 2 + 0 + (-3) + 1+ (-2) = 0,标本分散 :,标准偏差 :,资料的测度, 4分位数(Quartile) : 资料按顺序排列时,被 4等分的数。, 4 分位范围(IQR :Interquartile Range) : Q3-Q1,Q1: 第 1/4分位数(First quartile) = 相当于25% 的值,Q2: 第 2 /4分位数

17、(Second Quartile : 中央值) =相当于 50% 的值,Q3: 第 3 /4分位数(Third Quartile) = 相当于75% 的值,例) 有如下DATA时,求4分位数和 IQR .,2, 8, 20, 4, 9, 5, 4, 3,计算 ) 按顺序排列 :,Q1 = 3.25,Q2 (中央值) = 4.5,Q3 = 8.75,2 3 4 4 5 8 9 20, 范围(Range) : 在一组DATA中,把最大值和最小值的间隔用数值表示。 = 最大值 最小值,资料的测度,Cpk及相关指数的定义: Ca: 制程准确度 Cp: 制程精密度 Cpk: 制程能力指数,Ca: 制程准确度(Capability of Accuracy) 从制程中所获得的数据其实绩平均值与规格中心值之间偏差的程度,称为制程准确度 Cp: 制程精密度(Capability of Precision) 设定工程规格上下限目的在希望制造出各个产品之质量水准能在规格上下限之容许范围内,制程精密度评价之目的,是在衡量产品分散宽度符合公差程度。,Cpk:制程能力指数(Performance Index) 是某个工程或制程水准的量化反应,也是工程评估的一类指针。 目前制造的标准为:Cpk 1.33。 注:当计算Cpk值时样本数应大于等于 25

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论