版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据的统计分析与描述2023/4/101第1页,共43页,2023年,2月20日,星期五目的2、掌握用数学软件包求解统计问题。1、直观了解统计基本内容。第2页,共43页,2023年,2月20日,星期五统计的基本概念参数估计假设检验数据的统计描述和分析2023/4/103第3页,共43页,2023年,2月20日,星期五1.总体与样本总体(population):总体是指所研究对象的全体组成的集合。样本(sample):样本是指从总体中抽取的部分对象(个体)组成的集合。样本中包含个体的个数称为样本容量。容量为n的样本常用n个随机变量X1,X2,…,Xn表示,其观测值(样本数据)则表示为x1,...,xn,为简单起见,有时不加区别。第4页,共43页,2023年,2月20日,星期五2.参数与统计量参数(parameter):参数是用来描述总体特征的概括性值。如总体平均值(μ)、总体方差(2)、总体比例(π)等。统计量(statistics):统计量是用来描述样本特征的概括性值。如样本均值()、样本方差(s2)、样本比例(P)等。第5页,共43页,2023年,2月20日,星期五表示数据集中趋势的统计量如果要用简单的数字来概括一组观测数据x1,...,xn,可以使用“位置统计量”来作为数据的总体代表,常见的位置统计量有:均值、中位数、分位数、众数等。1.均值(Mean)均值是所有观测值的平均值,是描述数据取值中心位置的一个度量:第6页,共43页,2023年,2月20日,星期五2.中位数(Median或Med)中位数是描述观测值数据中心位置的统计量,大体上比中位数大(小)的数据为观测值的一半。中位数的一个优点是它不受个别极端数据的影响,具有稳健性。中位数的计算方法是:首先将数据从小到大排序为:x(1),...,x(n),然后计算第7页,共43页,2023年,2月20日,星期五3.众数(Mode)观测值中出现最多的数称为众数。众数用得不如均值和中位数普遍。在属性变量分析中,常需考虑频数,因此众数用得多些。4.百分位数(Percentile)分位数也是描述数据分布和位置的统计量。0.5分位数就是中位数,0.75分位数和0.25分位数又分别称为上、下四分位数,并分别记为Q3和Q1。第8页,共43页,2023年,2月20日,星期五表示数据离散程度的统计量1.极差(Range)与半极差(Interquartilerange)极差就是数据中的最大值和最小值之间的差:极差=max{xi}–min{xi}
上、下四分位数之差Q3–Q1称为四分位极差或半极差,它描述了中间半数观测值的散布情况。2.方差(Variance或Var)方差是由各观测值到均值距离的平方和除以观测量减1:第9页,共43页,2023年,2月20日,星期五3.标准差(Standarddeviation或StdDev)方差的开方称为标准差:标准差的量纲与原变量一致。4.变异系数(CoefficientofVariation或CV)变异系数是将标准差表示为均值的百分数,是观测数据分散性的一个度量,它在比较用不同单位测量的数据的分散性时是有用的:第10页,共43页,2023年,2月20日,星期五表示数据分布形状的统计量偏度和峰度是描述数据分布形状的指标。1.偏度(skewness)偏度是刻画数据对称性的指标。偏度的计算公式为:在SAS中:●关于均值对称的数据其偏度为0;●左侧更为分散的数据,其偏度为负,称为左偏;●右侧更为分散的数据,其偏度为正,称为右偏。第11页,共43页,2023年,2月20日,星期五2.峰度(kurtosis)峰度描述数据向分布尾端散布的趋势。峰度的计算公式为:利用峰度研究数据分布的形状是以正态分布为标准(假定正态分布的方差与所研究分布的方差相等)比较两端极端数据的分布情况,若●近似于标准正态分布,则峰度接近于零;●尾部较正态分布更分散,则峰度为正,称为轻尾;●尾部较正态分布更集中,则峰度为负,称为厚尾。第12页,共43页,2023年,2月20日,星期五其它统计量1.均值的标准误(StdErrorMean或StdMean或Stderror)2.校正平方和(Correctedsumofsquares)第13页,共43页,2023年,2月20日,星期五3.未校正平方和(Uncorrectedsumofsquares)4.k阶原点矩其中A1即为均值。5.k阶中心矩第14页,共43页,2023年,2月20日,星期五区间估计1.点估计和区间估计参数的估计方法主要有两种:点估计和区间估计。点估计:用样本的观测值估计总体未知参数的值。区间估计:在点估计的基础上,给出总体参数的一个范围。第15页,共43页,2023年,2月20日,星期五2.参数的置信区间和置信水平置信区间:由样本统计量所构造的总体参数的估计区间。置信区间是一个随机区间,它依赖与样本。如果将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所占的比例,称为置信水平。置信水平为1–
α的含义是随机区间(θ1,θ2)以1–
α的概率包含了参数θ。置信水平为90%时α=0.1,
为正态曲线下右侧面积为α/2=0.05时的Z值。第16页,共43页,2023年,2月20日,星期五3.正态总体均值和方差的置信区间正态总体参数的各种置信区间见表5-1。被估参数条件枢轴量及其分布参数的置信区间单正态总体μ2已知2未知2μ已知μ未知第17页,共43页,2023年,2月20日,星期五4.总体比例与比例差的置信区间实际应用中经常需要对总体比例进行估计,如产品的合格率、大学生的就业率和手机的普及率等。记π和P分别表示总体比例和样本比例,则当样本容量n很大时(一般当nP和n(1–
P)均大于5时,就可以认为样本容量足够大),样本比例P的抽样分布可用正态分布近似。总体比例与比例差的置信区间如表5-2所示。待估参数枢轴量及其分布参数的置信区间总体比例π两总体比例差π1-π2其中P1,P2为两个样本比例
第18页,共43页,2023年,2月20日,星期五要用到的3个分布:正态概率分布有以下重要特征:(1)正态分布是对称分布,对称轴是x=μ。(2)当x=μ时,正态概率密度最大。(3)正态分布的图形由μ和σ决定。(4)当σ为定值时,μ的变化引起正态概率密度曲线在横轴上平行移动。(5)当μ为定值时,σ的变化将引起正态概率密度曲线的形状变得尖峭或偏平。第19页,共43页,2023年,2月20日,星期五第20页,共43页,2023年,2月20日,星期五第21页,共43页,2023年,2月20日,星期五假设检验1.假设检验的基本概念和原理假设检验:先对总体参数提出某种假设,然后利用样本信息判断假设是否成立的过程。备择假设:研究者想通过收集证据以支持的假设记为H1
原假设:研究者想通过收集证据以反对的假设记为H0a:当原假设为真时拒绝原假设的概率,为显著性水平。检验统计量:对原假设和备择假设作出决策的某个样本统计量。拒绝域:能够拒绝原假设的检验统计量的所有可能值的集合。第22页,共43页,2023年,2月20日,星期五对总体参数进行假设检验时,首先要给定一个原假设H0,H0是关于总体参数的表述,与此同时存在一个与H0相对立的备择假设H1,H0与H1有且仅有一个成立;经过一次抽样,若发生了小概率事件(通常把概率小于0.05的事件称为小概率事件),可以依据“小概率事件在一次实验中几乎不可能发生”的理由,怀疑原假设不真,作出拒绝原假设H0,接受H1的决定;反之,若小概率事件没有发生,就没有理由拒绝H0,从而应作出拒绝H1的决定。第23页,共43页,2023年,2月20日,星期五2.假设检验的步骤
1)根据问题确立原假设H0和备选假设H1;
2)确定一个显著性水平,它是衡量稀有性(小概率事件)的标准,常取为0.05;
3)选定合适的检验用统计量W(通常在原假设中相等成立时,W的分布是已知的),根据W的分布及的值,确定H0的拒绝域。
4)由样本观测值计算出统计量W的观测值W0,如果W0落入H0的拒绝域,则拒绝H0;否则,不能拒绝原假设H0。第24页,共43页,2023年,2月20日,星期五
注意:在SAS系统中,是由样本观测值计算出统计量W的观测值W0和衡量观测结果极端性的p值(p值就是当原假设成立时得到样本观测值和更极端结果的概率),然后比较p和作判断:p<,拒绝原假设H0;否则,不能拒绝原假设H0。第25页,共43页,2023年,2月20日,星期五p值通常由下面公式计算而得到。●p=P{|W|≥|W0|}=2P{W≥|W0|}
(拒绝域为两边对称的区域时)●p=min{P{W≥W0},P{W
W0}}
(拒绝域为两边非对称区域时)●p=P{W≥W0}(拒绝域为右边区域时)●p=P{W
W0}(拒绝域为左边区域时)只需根据SAS计算出的p值,就可以在指定的显著水平下,作出拒绝或不能拒绝原假设的决定。第26页,共43页,2023年,2月20日,星期五表5-4单正态总体N(μ,2)方差2的检验法或检验名称条件检验类别H0H1检验统计量分布拒绝域χ2检验μ已知双边检验左边检验右边检验μ未知双边检验左边检验右边检验第27页,共43页,2023年,2月20日,星期五3.正态总体均值和方差的假设检验对正态总体的参数进行假设检验是假设检验的重要内容,如对单总体均值、方差的检验、两总体均值之差的检验和两总体方差比的检验等。正态总体参数的各种检验方法见下表5-3至表5-5。表5-3单正态总体N(μ,2)均值μ的检验法检验名称条件检验类别H0H1检验统计量分布拒绝域Z检验已知双边检验μ=μ0μ≠μ0N(0,1)|Z|≥Zα/2左边检验μ≥μ0μ<μ0Z≤-Zα右边检验μ≤μ0μ>μ0Z≥Zαt检验未知双边检验μ=μ0μ≠μ0t(n–1)|t|≥tα/2(n
–1)左边检验μ≥μ0μ<μ0t≤–
tα(n
–1)右边检验μ≤μ0μ>μ0t≥tα(n
–1)第28页,共43页,2023年,2月20日,星期五表5-5两正态总体的均值差与方差比的检验名称条件类别H0H1检验统计量分布拒绝域Z检验两样本独立,12=22=2未知双边检验μ1-μ2=0μ1-μ2≠0t(n1+n2
–2)左边检验μ1-μ20μ1-μ2<0右边检验μ1-μ20μ1-μ2>0t检验成对匹配样本,12,22未知双边检验μd=0μd≠0左边检验μd0μd<0右边检验μd0μd>0F检验两样本独立,μ1,μ2未知双边检验F(n1–1,n2–1)左边检验右边检验第29页,共43页,2023年,2月20日,星期五4.总体比例与比例差的检验当样本容量n很大时,可根据表5-6对总体比例与比例差进行假设检验。表5-6总体比例与比例差的检验检验名称检验类别H0H1
检验统计量分布拒绝域比例检验双边检验
=0
0N(0,1)|z|
zα/2左边检验
0
<0|z|≤–
zα右边检验
0
>0|z|
zα两总体比例差检验双边检验1
=21
2N(0,1)|z|
zα/2左边检验1
21<2|z|≤–
zα右边检验1
21>2|z|
zα第30页,共43页,2023年,2月20日,星期五统计工具箱中的基本统计命令1.数据的录入、保存和调用2.基本统计量3.常见概率分布的函数4.频数直方图的描绘5.参数估计6.假设检验7.综合实例返回2023/4/1031第31页,共43页,2023年,2月20日,星期五一、数据的录入、保存和调用
例1
上海市区社会商品零售总额和全民所有制职工工资总额的数据如下统计工具箱中的基本统计命令2023/4/1032第32页,共43页,2023年,2月20日,星期五1、年份数据以1为增量,用产生向量的方法输入。命令格式:x=a:h:bt=78:872、分别以x和y代表变量职工工资总额和商品零售总额。
x=[23.8,27.6,31.6,32.4,33.7,34.9,43.2,52.8,63.8,73.4]y=[41.4,51.8,61.7,67.9,68.7,77.5,95.9,137.4,155.0,175.0]3、将变量t、x、y的数据保存在文件data中。
savedatatxy4、进行统计分析时,调用数据文件data中的数据。
loaddataToMATLAB(txy)方法12023/4/1033第33页,共43页,2023年,2月20日,星期五1、输入矩阵:data=[78,79,80,81,82,83,84,85,86,87,88;23.8,27.6,31.6,32.4,33.7,34.9,43.2,52.8,63.8,73.4;41.4,51.8,61.7,67.9,68.7,77.5,95.9,137.4,155.0,175.0]2、将矩阵data的数据保存在文件data1中:savedata1data3、进行统计分析时,先用命令:loaddata1
调用数据文件data1中的数据,再用以下命令分别将矩阵data的第一、二、三行的数据赋给变量t、x、y:
t=data(1,:)x=data(2,:)y=data(3,:)若要调用矩阵data的第j列的数据,可用命令:
data(:,j)方法2ToMATLAB(data)返回2023/4/1034第34页,共43页,2023年,2月20日,星期五二、基本统计量对随机变量x,计算其基本统计量的命令如下:均值:mean(x)中位数:median(x)标准差:std(x)
方差:var(x)偏度:skewness(x)
峰度:kurtosis(x)例对例1中的职工工资总额x,可计算上述基本统计量。ToMATLAB(tjl)返回2023/4/1035第35页,共43页,2023年,2月20日,星期五三、常见概率分布的函数Matlab工具箱对每一种分布都提供五类函数,其命令字符为:概率密度:pdf概率分布:cdf逆概率分布:inv均值与方差:stat随机数生成:rnd
(当需要一种分布的某一类函数时,将以上所列的分布命令字符与函数命令字符接起来,并输入自变量(可以是标量、数组或矩阵)和参数即可.)2023/4/1036第36页,共43页,2023年,2月20日,星期五1、给出数组data的频数表的命令为:
[N,X]=hist(data,k)
此命令将区间[min(data),max(data)]分为k个小区间(缺省为10),返回数组data落在每一个小区间的频数N和每一个小区间的中点X.2、描绘数组data的频数直方图的命令为:
hist(data,k)四、频数直方图的描绘返回2023/4/1037第37页,共43页,2023年,2月20日,星期五五、参数估计1、正态总体的参数估计
设总体服从正态分布,则其点估计和区间估计可同时由以下命令获得:
[muhat,sigmahat,muci,sigmaci]=normfit(X,alpha)
此命令在显著性水平alpha下估计数据X的参数(alpha缺省时设定为0.05),返回值muhat是X的均值的点估计值,sigmahat是标准差的点估计值,muci是均值的区间估计,sigmaci是标准差的区间估计.2023/4/1038第38页,共43页,2023年,2月20日,星期五六、假设检验
在总体服从正态分布的情况下,可用以下命令进行假设检验.1、总体方差sigma2已知时,总体均值的检验使用z-检验
[h,sig,ci]=ztest(x,m,sigma,alpha,tail)检验数据x的关于均值的某一假设是否成立,其中sigma为已知方差,alpha为显著性水平,究竟检验什么假设取决于tail的取值:tail=0,检验假设“x的均值等于m”tail=1,检验假设“x的均值大于m”tail=-1,检验假设“x的均值小于m”tail的缺省值为0,alpha的缺省值为0.05.
返回值h为一个布尔值,h=1表示可以拒绝假设,h=0表示不可以拒绝假设,sig为假设成立的概率,ci为均值的1-alpha置信区间.2023/4/1039第39页,共43页,2023年,2月20日,星期五
例7Matlab统计工具箱中的数据文件gas.mat.中提供了美国1993年一月份和二月份的汽油平均价格(price1,price2分别是一,二月份的油价,单位为美分),它是容量为20的双样本.假设一月份油价的标准偏差是一加仑四分币(=4),试检验一月份油价的均值是否等于115.解作假设:m=115.首先取出数据,用以下命令:
loadgas然后用以下命令检验
[h,sig,ci]=ztest(price1,115,4)返回:h=0,sig=0.8668,ci=[113.3970116.9030].检验结果:1.布尔变量h=0,表示不拒绝零假设.说明提出的假设均值115
是合理的.2.sig-值为0.8668,远超过0.5,不能拒绝零假设
3.95%的置信区间为[113.4,116.9],它完全包括115,且精度很高..
ToMATLAB(liti7)2023/4/1040第40页,共43页,2023年,2月20日,星期五2、总体方差sigma2未知时,总体均值的检验使用t-检验[h,sig,ci]=ttest(x,m,alpha,tail)检验数据x的关于均值的某一假设是否成立,其中alpha为显著性水平,究竟检验什么假设取决于tail的取值:tail=0,检验假设“x的均值等于m”tail=1,检验假设“x的均值大于m”tail=-1,检验假设“x的均值小于m”tail的缺省值为0,alpha的缺省值为0.05.
返回值h为一个布尔值,h=1表示可以拒绝假设,h=0表示不可以拒绝假设,sig为假设成立的概率,ci为均值的1-alpha置信区间.2023/4/1041第41页,共43页,2023年,2月20日,星期五返回:h=1,sig=4.9517e-004,ci=[116.8120.2].检验结果:1.布尔变量h=1,表示拒绝零假设.说明提出的假设油价
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度化妆品产品代言合同协议4篇
- 2025年度临时餐饮场地租赁服务协议8篇
- 二零二五年度水电设施智能化改造合同3篇
- 二零二五版餐饮企业厨师招聘与人才输送协议3篇
- 二零二四事业单位员工试用期人才引进与培养合作协议3篇
- 2024石材荒料购销及石材产品安全检测服务合同3篇
- 2024蔬菜种植与农产品加工企业销售合作协议范本3篇
- 2024进出口食品贸易合同
- 二零二五版合同法担保条款设计-企业风险控制策略3篇
- 二零二五年度在线教育平台股权收购合同3篇
- GB/T 37238-2018篡改(污损)文件鉴定技术规范
- 普通高中地理课程标准简介(湘教版)
- 河道治理工程监理通知单、回复单范本
- 超分子化学简介课件
- 高二下学期英语阅读提升练习(一)
- 易制爆化学品合法用途说明
- 【PPT】压力性损伤预防敷料选择和剪裁技巧
- 大气喜庆迎新元旦晚会PPT背景
- DB13(J)∕T 242-2019 钢丝网架复合保温板应用技术规程
- 心电图中的pan-tompkins算法介绍
- 羊绒性能对织物起球的影响
评论
0/150
提交评论