公司培训用基础统计学new_第1页
公司培训用基础统计学new_第2页
公司培训用基础统计学new_第3页
公司培训用基础统计学new_第4页
公司培训用基础统计学new_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基础统计学(初级)讲义Paladinma

2011-6-22轻松学统计下列哪一种叙述方式最完整呢?背板螺孔扭力强度很好;背板螺孔扭力强度平均为10kg/cm^2;大多说产品的螺孔扭力强度在(10±0.8)kg/cm^2以内;99.73%的产品的螺孔扭力强度在(10±0.8)kg/cm^2以内统计学的定义研究如何搜集资料、整理资料和进行数量分析、推断的一门方法论科学。研究数量方面的研究客观现象总体的数量特征研究不确定现象一门方法论的科学单个单个单个单个单个单个单个单个样本不确定性:受到偶然的,随机因素的作用统计学的分类理论统计学应用统计学基本统计量统计分布描述统计推断统计参数估计非参数估计假设检验SPC相关/回归分析方差分析(变异数)实验设计DOE多变量分析统计方法基础篇应用篇统计能帮你、我做什么?问题之现状分析真因验证对策拟定效果确认解决问题思路1、叙述统计量2、估计1、假设检验2、ANOVA3、DOE1、假设检验2、回归分析3、DOE1、假设检验2、估计Syllabus描述统计总体与样本描述统计量统计分布描述及概率分布抽样分布推断统计估计假设检验计量型资料检验计数型资料检验统计测定的层次掌握统计测定的不同层次,对于正确地分析数据和选择检验方法(参数检验、非参数检验)是十分重要的!统计要素一、总体(母体)客观存在的,具有某种共同性质的许多个体构成的整体,由数据特性可分为:计量型总体:如长度、重量、时间等计数型总体:如男女、ok与ng等二、样本:从总体中随机抽取若干单位构成的集合体一般n在30以下者称为小样本,n在30以上时称为大样本三、推断以样本所包含信息为基础对总体的某些特征作出判断,预测和估计。四、推断的可靠性总体与样本的关系明确调查的总体,从总体中抽取样本并对样本的信息加以分析,根据样本信息对总体作出判断,对推断的可靠性加以测定。样本总体抽样/实验推论随机试验、随机事件、随机变量在同一组条件下,对某事物或现象所进行的观察或实验叫随机试验(Experiment)把观察或实验的结果叫随机事件。如果随机试验的每一种结果可以用一个数字作为其代表,则称为随机变量一、连续型continuous(计量型):可以用单位来度量二、离散型discrete(计数型):表现为属性和类别基本统计量众数中位数平均数四分位数极差-全距方差和标准差离散系数四分位差集中趋势一组资料向其中心靠拢的倾向与程度集中趋势及时寻找一般水平的代表值选用哪一个测量值来反映资料的集中趋势,要根据资料的类型来决定。集中趋势

众数:出现次数最多的资料点,可能没有或有多个中位数QM:排序后,位于中间位置的值平均值:一组资料的均衡点所在各资料点与平均值间的距离和为0

各资料点与平均值间的距离平方和为最小最常用的量测值

四分位数:用三个数值Q1、Q2、Q3把变量数列中全部单位分为四个部分,这三个数值称为四分位数四分位数---箱线图111212122231323414245152561626717278182891929102030四分位数---箱线图(事例)众数、中位数与平均值的关系众数<中位数<平均数右偏分布平均数<中位数<众数左偏分布分散趋势反映各资料点远离其中心的程度从另一个方式来说明集中趋势的代表程度两组数据的平均值相同,但上面的数据散布程度比较大分散趋势全距R:数据资料中最大与最小之差Max-Min方差与标准差:离散系数:指消除平均数影响后的标志变异指标,其形式为相对数。标准差系数:标准差与其对应的平均值之比

---用于对不同资料组别的离散程度比较

---消除资料的不同水准和不同单位的影响分散程度---方差与标准差方差标准差总体样本注意:样本的方差分母用n-1去除分散程度---自由度指一个样本中各随机变量的数值可以自由变动的项数。如样本中有n个随机变量,每一项数值都可以自由变动,则其自由度为n;如n个随机变量的平均数已确认,则只有n-1个随机变量的数值可以自由变动,而剩余的另一个随机变量必然由该平均数与n-1个随机变量的数值所决定,不能自由变动,则这时n个随机变量的自由度为 n-1。例如:样本数为3,X1=2,X2=4,X3=9,则X=5。当X=5确定时,在X1,X2,X3中只能由两个资料点可以自由取值,例如X1=6,X2=7,那X3必然为21、众数:40、46、592、中位数为Qm:第个数,即为3、平均数为:Casestudy---各统计量的计算3434353536404040424245464646474849515255555859595960636465637865686870717373787981828485899496102102108Casestudy---各统计量的计算34343535364040404242454646464748495152555558595959606364656378656868707173737879818284858994961021021084、全距:5、方差:6、标准差:7、标准差系数:利用excel的分析工具箱Note:excel之“工具”--〉”数据分析”--〉描述统计Syllabus描述统计总体与样本描述统计量统计分布描述及概率分布抽样分布推断统计估计假设检验计量型资料检验计数型资料检验统计分布描述分布---分布的呈现分布图---直方图随机变量的分布随机变量的取值是随机的,但内在还是有规律性的,这个规律性可以用分布来描述。1、可能取什么值,或在哪个区间上取值。2、取这些值的概率各是多少,或在任一区间上取值的概率是多少?例如:掷一个骰子常用之分布(一)常用离散型分布---计数型数据1、二项分布2、泊松分布3、超几何分布(二)正态分布---计量型数据(三)其他连续分布1、均匀分布2、对数正态分布3、指数分布二项分布由n次随机试验组成的随机现象,它满足如下条件1、重复进行n次随机试验;2、n次随机试验间相互独立;3、每次试验仅有两个可能结果;4、每次试验成功的概率均为p,失败的概率均为1-p二项分布例:从不合格品率为0.1的成品中随机抽取6个,计X为6个成品中的不合格数,则X服从二项分布b(6,0.1),简记X~b(6,0.1)P=0.3n=10,30,50,80n=30p=0.1,0.3,0.5,0.8二项分布特性1、当n愈大时,对称性愈明显2、当p愈接近0.5时,愈接近左右对称实际应用np>=5&n(1-p)>=5时二项分布可用正态分布来描述泊松分布用来描述如下的随机变量的概率分布1、在一定时间内,电话总站接错电话的次数2、在一定时间内,某操作系统发生的故障3、一个铸件上的缺陷数4、一平方米玻璃上气泡的个数5、一件产品因擦伤留下的痕迹个数泊松分布总与计点过程相关联,并且计点是在一定时间内、或一定区域内、或一特定单位内的前提下进行的,若λ表示某特定单位内的平均点数(λ>0),令X表示出现的点数,则X取x值的概率例:某公司一个月发生重大事故数X服从泊松分布,根据以往的记录,该公司一个月平均发生1.2起重大事故,这表明:X服从λ=1.2的泊松分布。泊松分布超几何分布从一个有限总体中进行不放回抽样常遇到超几何分布。设有N个产品组成的总体,其中含有M个不合格品。若从中随机不放回地抽取n个产品,则其中不合品的个数X是一个离散随机变量,假如n<=M,则X可能取0,1,2…n若n>M,则X可能取0,1,2…M其中r=min(n,M)例:20个样品中,其中5个有缺陷,若从中随机抽取8个,抽中缺陷的数量X的分布:在实际应用中,当n/N<=0.1,可以用二项概率去近似超几何概率超几何分布正态分布正态分布函数左右两尾与横轴渐渐接近但不相交正态分布有两个变相点,分别在μ±σ对应的地方正态分布为左右对称的概率分布正态分布随机变量的线性函数仍为正态分布正态分布中心到各标准差(σ)之间的概率分布如下0.02150.13590.34130.68260.95440.9973标准正态分布假如X服从正态分布则Z=(X-μ)/σ会服从μ=0,σ=1的正态分布此时的正态分布称为标准正态分布Z=(X-μ)/σ的转换过程为标准化设X~N(μ,σ2

)则Z=~N(0,1)若X~N(10,4),通过标准化变换Z=~N(0,1)μσx0,1z正态分布在6σ界限内居中的正态分布图正态分布在偏移1.5σ情况下的正态分布图μ标准正态分布---应用产品质量特性X的不合格品率:例:某厂生产电阻的规格限为80±4,从现场得知电阻值X服从正态分布,均值μ=80.8,σ=1.3,则低于规格下限和规格上限的概率为:标准正态分布表Syllabus描述统计总体与样本描述统计量统计分布描述及概率分布抽样分布推断统计估计假设检验计量型资料检验计数型资料检验抽样分布所有的样本统计量(平均值、比例、方差等)所形成的分布称为抽样分布结果来自样本数目相同的所有可能样本样本平均值的抽样分布样本比例的抽样分布样本方差的抽样分布样本平均值的抽样分布例:假设一总体含有四个元素,即总体之总个数N=4,四个元素分别为则总体的平均值、方差及分布如下:样本平均值的抽样分布若从总体中抽取n=2的随机样本,共有4*4=16个可能样本,计算出各样本之平均,并给出其平均值的分布。样本平均值的抽样分布样本平均值的抽样分布M为所有可能样本数目比较与总结:样本平均的平均(数学期望)等于总体平均样本平均的方差等于总体方差的1/n中央极限定理设从平均值为u,方差为σ2的一个任意分布总体(离散分布或连续分布、正态分布或非正态分布)中抽取个数为n的样本,当n够大时,样本平均值的抽样分布近似于平均值为u,方差数为σ2/n的正态分布一个任意分布的总体当样本数足够大时(n>30)样本平均值得抽样分布趋近于正态分布中央极限定理减少测量误差的方法:对同一个零件的质量特性作两次或更多次重复测量,并用其均值去估计过程输出的质量特性,这可以减少标准差,从而测量系统的精度就自动增加了。这种简易的方法可以使多次测量的平均值比单次测量值更具稳定性!总体Ⅰ:均匀分布总体Ⅱ:双峰分布总体Ⅲ:指数分布中央极限定理必须符合下列二条件:1、σ需已知2、样本足够大(n>30)思考:但大部分的情况σ是未知的,还可以用中央极限定理吗?中央极限定理的限制T分布当σ未知,且样本不够大时,可以用样本标准差s来替代σ,仍可得到跟正态分布接近的性质此分布的自由度为n-1之t分布T分布可用于总体方差未知时正态总体均值的估计与检验,以及线性回归模型中回归系数的显著性检验等n=∞n=20n=1T分布的性质

T分布是均值为0的对称的钟形曲线,取值范围在-∞与+∞之间;

T分布的方差大于1,与标准正态相比,t分布的中心部分较低,两个尾部较高;随着自由度n的不断增大,t分布越来越趋近于标准正态分布,并以其为极限;

T(∞)≈N(0,1)不同自由度的t分布大样本

(n≧30)中央极限定理正态总体σ已知正态分布性质小样本

(n﹤30)总体σ未知t分布性质大样本

(n≧30)中央极限定理非正态小样本

(n﹤30)抽样

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论