




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、关于数据的统计分析与描述第一张,PPT共四十六页,创作于2022年6月目的2、掌握用数学软件包求解统计问题。1、直观了解统计基本内容。第二张,PPT共四十六页,创作于2022年6月2022/8/23统计的基本概念参数估计假设检验数据的统计描述和分析第三张,PPT共四十六页,创作于2022年6月1. 总体与样本 总体(population):总体是指所研究对象的全体组成的集合。 样本(sample):样本是指从总体中抽取的部分对象(个体)组成的集合。样本中包含个体的个数称为样本容量。容量为n的样本常用n个随机变量X1,X2,Xn表示,其观测值(样本数据)则表示为x1,.,xn,为简单起见,有时不
2、加区别。第四张,PPT共四十六页,创作于2022年6月2. 参数与统计量 参数(parameter):参数是用来描述总体特征的概括性值。如总体平均值()、总体方差(2)、总体比例()等。 统计量(statistics):统计量是用来描述样本特征的概括性值。如样本均值( )、样本方差(s2)、样本比例(P)等。第五张,PPT共四十六页,创作于2022年6月表示数据集中趋势的统计量 如果要用简单的数字来概括一组观测数据x1,.,xn,可以使用“位置统计量”来作为数据的总体代表,常见的位置统计量有:均值、中位数、分位数、众数等。1. 均值(Mean) 均值是所有观测值的平均值,是描述数据取值中心位置
3、的一个度量:第六张,PPT共四十六页,创作于2022年6月2. 中位数(Median或Med) 中位数是描述观测值数据中心位置的统计量,大体上比中位数大(小)的数据为观测值的一半。中位数的一个优点是它不受个别极端数据的影响,具有稳健性。中位数的计算方法是:首先将数据从小到大排序为:x(1),.,x(n),然后计算第七张,PPT共四十六页,创作于2022年6月3. 众数(Mode) 观测值中出现最多的数称为众数。众数用得不如均值和中位数普遍。在属性变量分析中,常需考虑频数,因此众数用得多些。4. 百分位数(Percentile) 分位数也是描述数据分布和位置的统计量。0.5分位数就是中位数,0.
4、75分位数和0.25分位数又分别称为上、下四分位数,并分别记为Q3和Q1。第八张,PPT共四十六页,创作于2022年6月表示数据离散程度的统计量1. 极差(Range)与半极差(Interquartile range) 极差就是数据中的最大值和最小值之间的差:极差 = maxxi minxi 上、下四分位数之差Q3 Q1称为四分位极差或半极差,它描述了中间半数观测值的散布情况。2. 方差(Variance或Var) 方差是由各观测值到均值距离的平方和除以观测量减1:第九张,PPT共四十六页,创作于2022年6月3. 标准差(Standard deviation或Std Dev) 方差的开方称为
5、标准差: 标准差的量纲与原变量一致。4. 变异系数(Coefficient of Variation或CV) 变异系数是将标准差表示为均值的百分数,是观测数据分散性的一个度量,它在比较用不同单位测量的数据的分散性时是有用的:第十张,PPT共四十六页,创作于2022年6月表示数据分布形状的统计量 偏度和峰度是描述数据分布形状的指标。1. 偏度(skewness) 偏度是刻画数据对称性的指标。偏度的计算公式为: 在SAS中: 关于均值对称的数据其偏度为0; 左侧更为分散的数据,其偏度为负,称为左偏; 右侧更为分散的数据,其偏度为正,称为右偏。第十一张,PPT共四十六页,创作于2022年6月2. 峰
6、度(kurtosis) 峰度描述数据向分布尾端散布的趋势。峰度的计算公式为: 利用峰度研究数据分布的形状是以正态分布为标准(假定正态分布的方差与所研究分布的方差相等)比较两端极端数据的分布情况,若 近似于标准正态分布,则峰度接近于零; 尾部较正态分布更分散,则峰度为正,称为轻尾; 尾部较正态分布更集中,则峰度为负,称为厚尾。第十二张,PPT共四十六页,创作于2022年6月其它统计量1. 均值的标准误(Std Error Mean或Std Mean或Std error)2. 校正平方和(Corrected sum of squares)第十三张,PPT共四十六页,创作于2022年6月3. 未校正
7、平方和(Uncorrected sum of squares)4. k阶原点矩其中A1即为均值 。5. k阶中心矩第十四张,PPT共四十六页,创作于2022年6月区间估计1. 点估计和区间估计 参数的估计方法主要有两种:点估计和区间估计。 点估计:用样本的观测值估计总体未知参数的值。 区间估计:在点估计的基础上,给出总体参数的一个范围。第十五张,PPT共四十六页,创作于2022年6月2. 参数的置信区间和置信水平置信区间:由样本统计量所构造的总体参数的估计区间。置信区间是一个随机区间,它依赖与样本。如果将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所占的比例,称为置信水平。置信
8、水平为1 的含义是随机区间(1,2)以1 的概率包含了参数。置信水平为90 时0.1 , 为正态曲线下右侧面积为/2=0.05时的Z值。第十六张,PPT共四十六页,创作于2022年6月3. 正态总体均值和方差的置信区间正态总体参数的各种置信区间见表5-1。被估参数条件枢轴量及其分布参数的置信区间单正态总体2已知2未知2已知未知第十七张,PPT共四十六页,创作于2022年6月4. 总体比例与比例差的置信区间 实际应用中经常需要对总体比例进行估计,如产品的合格率、大学生的就业率和手机的普及率等。记和P分别表示总体比例和样本比例,则当样本容量n很大时(一般当nP和n(1 P)均大于5时,就可以认为样
9、本容量足够大),样本比例P的抽样分布可用正态分布近似。总体比例与比例差的置信区间如表5-2所示。待估参数枢轴量及其分布参数的置信区间总体比例两总体比例差1-2其中P1,P2为两个样本比例 第十八张,PPT共四十六页,创作于2022年6月要用到的3个分布:正态概率分布有以下重要特征:(1)正态分布是对称分布,对称轴是x=。(2)当x=时,正态概率密度最大。(3)正态分布的图形由和决定。(4)当为定值时,的变化引起正态概率密度曲线在横轴上平行移动。(5)当为定值时,的变化将引起正态概率密度曲线的形状变得尖峭或偏平。第十九张,PPT共四十六页,创作于2022年6月第二十张,PPT共四十六页,创作于2
10、022年6月第二十一张,PPT共四十六页,创作于2022年6月假设检验1. 假设检验的基本概念和原理假设检验:先对总体参数提出某种假设,然后利用样本信息判断假设是否成立的过程。备择假设:研究者想通过收集证据以支持的假设记为H1 原假设: 研究者想通过收集证据以反对的假设记为H0a: 当原假设为真时拒绝原假设的概率,为显著性水平。检验统计量:对原假设和备择假设作出决策的某个样本统计量。拒绝域:能够拒绝原假设的检验统计量的所有可能值的集合。第二十二张,PPT共四十六页,创作于2022年6月对总体参数进行假设检验时,首先要给定一个原假设H0,H0是关于总体参数的表述,与此同时存在一个与H0相对立的备
11、择假设H1,H0与H1有且仅有一个成立;经过一次抽样,若发生了小概率事件(通常把概率小于0.05的事件称为小概率事件),可以依据“小概率事件在一次实验中几乎不可能发生”的理由,怀疑原假设不真,作出拒绝原假设H0,接受H1的决定;反之,若小概率事件没有发生,就没有理由拒绝H0,从而应作出拒绝H1的决定。第二十三张,PPT共四十六页,创作于2022年6月2. 假设检验的步骤 1) 根据问题确立原假设H0和备选假设H1; 2) 确定一个显著性水平,它是衡量稀有性(小概率事件)的标准,常取为0.05; 3) 选定合适的检验用统计量W(通常在原假设中相等成立时,W的分布是已知的),根据W的分布及的值,确
12、定H0的拒绝域。 4) 由样本观测值计算出统计量W的观测值W0,如果W0落入H0的拒绝域,则拒绝H0;否则,不能拒绝原假设H0。第二十四张,PPT共四十六页,创作于2022年6月 注意:在SAS系统中,是由样本观测值计算出统计量W的观测值W0和衡量观测结果极端性的p值(p值就是当原假设成立时得到样本观测值和更极端结果的概率),然后比较p和作判断:p ,拒绝原假设H0;否则,不能拒绝原假设H0。第二十五张,PPT共四十六页,创作于2022年6月 p值通常由下面公式计算而得到。 p = P|W| |W0| = 2 P W |W0| (拒绝域为两边对称的区域时) p = minPW W0,PW W0
13、(拒绝域为两边非对称区域时) p = PW W0 (拒绝域为右边区域时) p = PW W0 (拒绝域为左边区域时) 只需根据SAS计算出的p值,就可以在指定的显著水平下,作出拒绝或不能拒绝原假设的决定。第二十六张,PPT共四十六页,创作于2022年6月表5-4 单正态总体N(,2)方差2的检验法或检验名称条件检验类别H0H1检验统计量分布拒绝域2检验已知双边检验左边检验右边检验未知双边检验左边检验右边检验第二十七张,PPT共四十六页,创作于2022年6月3. 正态总体均值和方差的假设检验 对正态总体的参数进行假设检验是假设检验的重要内容,如对单总体均值、方差的检验、两总体均值之差的检验和两总
14、体方差比的检验等。正态总体参数的各种检验方法见下表5-3至表5-5。表5-3 单正态总体N(,2)均值的检验法检验名称条件检验类别H0H1检验统计量分布拒绝域Z检验已知双边检验 = 0 0N(0,1)| Z | Z/2左边检验 0 0Z Zt检验未知双边检验 = 0 0t(n 1)| t | t/2(n 1)左边检验 0 0t t(n 1)第二十八张,PPT共四十六页,创作于2022年6月表5-5 两正态总体的均值差与方差比的检验名称条件类别H0H1检验统计量分布拒绝域Z检验两样本独立,12=22=2未知双边检验1-2=01-20t(n1 + n2 2)左边检验1-201-20t检验成对匹配样
15、本,12,22未知双边检验d=0d0左边检验d0d0F检验两样本独立,1, 2未知双边检验F(n11,n21)左边检验右边检验第二十九张,PPT共四十六页,创作于2022年6月4. 总体比例与比例差的检验 当样本容量n很大时,可根据表5-6对总体比例与比例差进行假设检验。表5-6 总体比例与比例差的检验检验名称检验类别H0H1 检验统计量分布拒绝域比例检验双边检验 = 0 0N(0,1)| z | z/2左边检验 0 0| z | z两总体比例差检验双边检验1 = 21 2N(0,1)| z | z/2左边检验1 21 2| z | z第三十张,PPT共四十六页,创作于2022年6月2022/
16、8/231统计工具箱中的基本统计命令1.数据的录入、保存和调用2.基本统计量3.常见概率分布的函数4.频 数 直 方 图 的 描 绘5.参数估计6.假设检验7.综合实例返回第三十一张,PPT共四十六页,创作于2022年6月2022/8/232一、数据的录入、保存和调用 例1 上海市区社会商品零售总额和全民所有制职工工资总额的数据如下统计工具箱中的基本统计命令第三十二张,PPT共四十六页,创作于2022年6月2022/8/2331、年份数据以1为增量,用产生向量的方法输入。 命令格式: x=a:h:b t=78:872、分别以x和y代表变量职工工资总额和商品零售总额。 x=23.8,27.6,3
17、1.6,32.4,33.7,34.9,43.2,52.8,63.8,73.4 y=41.4,51.8,61.7,67.9,68.7,77.5,95.9,137.4,155.0,175.03、将变量t、x、y的数据保存在文件data中。 save data t x y 4、进行统计分析时,调用数据文件data中的数据。 load dataTo MATLAB(txy)方法1第三十三张,PPT共四十六页,创作于2022年6月2022/8/2341、输入矩阵:data=78,79,80,81,82,83,84,85,86,87,88; 23.8,27.6,31.6,32.4,33.7,34.9,43.
18、2,52.8,63.8,73.4; 41.4,51.8,61.7,67.9,68.7,77.5,95.9,137.4,155.0,175.02、将矩阵data的数据保存在文件data1中:save data1 data3、进行统计分析时,先用命令: load data1 调用数据文件data1中的数据,再用以下命令分别将矩阵data的第一、二、三行的数据赋给变量t、x、y: t=data(1,:) x=data(2,:) y=data(3,:)若要调用矩阵data的第j列的数据,可用命令: data(:,j)方法2To MATLAB(data)返回第三十四张,PPT共四十六页,创作于2022年
19、6月2022/8/235二、基本统计量对随机变量x,计算其基本统计量的命令如下:均值:mean(x)中位数:median(x)标准差:std(x) 方差:var(x)偏度:skewness(x) 峰度:kurtosis(x)例 对例1中的职工工资总额x,可计算上述基本统计量。To MATLAB(tjl)返回第三十五张,PPT共四十六页,创作于2022年6月2022/8/236三、常见概率分布的函数Matlab工具箱对每一种分布都提供五类函数,其命令字符为:概率密度:pdf 概率分布:cdf逆概率分布:inv 均值与方差:stat随机数生成:rnd (当需要一种分布的某一类函数时,将以上所列的分
20、布命令字符与函数命令字符接起来,并输入自变量(可以是标量、数组或矩阵)和参数即可.)第三十六张,PPT共四十六页,创作于2022年6月2022/8/2371、给出数组data的频数表的命令为: N,X=hist(data,k) 此命令将区间min(data),max(data)分为k个小区间(缺省为10),返回数组data落在每一个小区间的频数N和每一个小区间的中点X.2、描绘数组data的频数直方图的命令为: hist(data,k)四、频 数 直 方 图 的 描 绘返回第三十七张,PPT共四十六页,创作于2022年6月2022/8/238五、参数估计1、正态总体的参数估计 设总体服从正态分
21、布,则其点估计和区间估计可同时由以下命令获得: muhat,sigmahat,muci,sigmaci = normfit(X,alpha) 此命令在显著性水平alpha下估计数据X的参数(alpha缺省时设定为0.05),返回值muhat是X的均值的点估计值,sigmahat是标准差的点估计值, muci是均值的区间估计,sigmaci是标准差的区间估计.第三十八张,PPT共四十六页,创作于2022年6月2022/8/239六、假设检验 在总体服从正态分布的情况下,可用以下命令进行假设检验.1、总体方差sigma2已知时,总体均值的检验使用 z-检验 h,sig,ci = ztest(x,m
22、,sigma,alpha,tail)检验数据 x 的关于均值的某一假设是否成立,其中sigma 为已知方差, alpha 为显著性水平,究竟检验什么假设取决于 tail 的取值:tail = 0,检验假设“x 的均值等于 m ”tail = 1,检验假设“x 的均值大于 m ”tail =-1,检验假设“x 的均值小于 m ”tail的缺省值为 0, alpha的缺省值为 0.05. 返回值 h 为一个布尔值,h=1 表示可以拒绝假设,h=0 表示不可以拒绝假设,sig 为假设成立的概率,ci 为均值的 1-alpha 置信区间.第三十九张,PPT共四十六页,创作于2022年6月2022/8/
23、240 例7 Matlab统计工具箱中的数据文件gas.mat.中提供了美国1993年一月份和二月份的汽油平均价格(price1,price2分别是一,二月份的油价,单位为美分),它是容量为20的双样本.假设一月份油价的标准偏差是一加仑四分币(=4),试检验一月份油价的均值是否等于115.解 作假设:m = 115.首先取出数据,用以下命令: load gas然后用以下命令检验 h,sig,ci = ztest(price1,115,4)返回:h = 0,sig = 0.8668,ci = 113.3970 116.9030.检验结果: 1. 布尔变量h=0, 表示不拒绝零假设. 说明提出的假
24、设均值115 是合理的. 2. sig-值为0.8668, 远超过0.5, 不能拒绝零假设 3. 95%的置信区间为113.4, 116.9, 它完全包括115, 且精度很 高. To MATLAB(liti7)第四十张,PPT共四十六页,创作于2022年6月2022/8/2412、总体方差sigma2未知时,总体均值的检验使用t-检验 h,sig,ci = ttest(x,m,alpha,tail)检验数据 x 的关于均值的某一假设是否成立,其中alpha 为显著性水平,究竟检验什么假设取决于 tail 的取值:tail = 0,检验假设“x 的均值等于 m ”tail = 1,检验假设“x
25、 的均值大于 m ”tail =-1,检验假设“x 的均值小于 m ”tail的缺省值为 0, alpha的缺省值为 0.05. 返回值 h 为一个布尔值,h=1 表示可以拒绝假设,h=0 表示不可以拒绝假设,sig 为假设成立的概率,ci 为均值的 1-alpha 置信区间.第四十一张,PPT共四十六页,创作于2022年6月2022/8/242返回:h = 1,sig = 4.9517e-004,ci =116.8 120.2.检验结果: 1. 布尔变量h=1, 表示拒绝零假设. 说明提出的假 设油价均值115是不合理的. 2. 95%的置信区间为116.8 120.2, 它不包括 115,
26、 故不能接受假设. 3. sig-值为4.9517e-004, 远小于0.5, 不能接受零 假设. To MATLAB(liti8)例8 试检验例8中二月份油价 Price2的均值是否等于115.解 作假设:m = 115,price2为二月份的油价,不知其方差,故用以下命令检验h,sig,ci = ttest( price2 ,115)第四十二张,PPT共四十六页,创作于2022年6月2022/8/243例10 一道工序用自动化车床连续加工某种零件,由于刀具损坏等会出现故障.故障是完全随机的,并假定生产任一零件时出现故障机会均相同.工作人员是通过检查零件来确定工序是否出现故障的.现积累有100次故障纪录,故障出现时该刀具完成的零件数如下: 459 362 624 542 509 584 433 748 815 505 612 452 434 982 640 742 565 706 593 680 926 653 164 487 734 608 428 1153 593 844 527 552 513 781 474 388 824 538 862 659 775 859 755 49 69
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 学前教育信息化背景下幼儿园教育信息化评价体系构建研究报告
- 大学生骑机车考试题及答案
- web应用试题及答案
- 德州驾考笔试题库及答案
- 2025年工业互联网平台TEE在设备互联中的隐私保护研究报告
- 2025年工业互联网平台量子通信技术挑战与机遇预研报告
- 2025年民办教育机构合规运营与品牌战略布局研究报告
- 2025年工业互联网平台网络隔离技术安全防护体系建设与实施案例报告
- java大一期末考试试题及答案
- java编程71道面试题及答案
- 专题17 语言要简明+考场满分作文攻略-【同步作文课】【知识精研】七年级语文下册单元写作深度指导(统编版2024)
- 保洁合同协议书模板下载
- 2025年中国低温等离子体环境消毒机市场调查研究报告
- 2025法语DELFA15级阅读理解试卷及答案
- 2025年全球经济策略试题及答案
- 山东省济南市商河县2025届九年级下学期中考二模语文试卷(含答案)
- 2025年绝缘纸原纸行业深度研究报告
- 2024年枣庄滕州市中小学招聘教师笔试真题
- 直击要点2025年入团考试试题及答案
- 基于AI的管道防腐监测系统研究与应用-洞察阐释
- 酒店宾馆装修合同协议书
评论
0/150
提交评论