数据描述性分析_第1页
数据描述性分析_第2页
数据描述性分析_第3页
数据描述性分析_第4页
数据描述性分析_第5页
已阅读5页,还剩96页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据描述性分析内容分布均值、方差的数据特征数据的分布二元数据的数字特征及相关系数误差坏值的剔除内容分布均值、方差的数据特征数据的分布二元数据的数字特征及相关系数误差坏值的剔除数据描述性分析数据分析研究的对象是数据,它们是个观测值:

如果这个观测值就是所要研究对象的全体,那么数据分析的任务就是提取数据中包含的有用的信息。如果数据是从总体中抽出的样本,就要分析推断样本中包含的总体的信息。

,均值、方差等数字特征一元数据的数字特征主要是以下几种。设个观测值为其中称为样本容量。1均值:即是的平均数:

均值表示数据的集中位置。均值、方差等数字特征2方差、标准差与变异系数方差是描述数据取值分散性的一个度量,其量纲是数据量纲的平方。标准差均值、方差等数字特征

变异系数:刻画数据相对分散性的度量CV=校正平方和

CSS=未校平方和

USS

均值、方差等数字特征3偏度与峰度偏度与峰度是刻画数据的偏态、尾重程度的度量。它们与数据的矩有关。数据的矩分为原点矩与中心矩。

k阶原点矩

K阶中心矩均值、方差等数字特征偏度其中s是标准差。偏度是刻画数据对称性的指标。关于均值对成的数据其偏度为0,右侧更分散的数据偏度为正,左侧更分散的数据偏度为负。

频数频数频数偏向左<0对称=0偏向右>0均值、方差等数字特征峰度当数据的总体分布为正态分布时,峰度近似为0;当分布较正态分布的尾部更为分散时,峰度为正,否则峰度为负。当峰度为正时,两侧极端数据较多;当峰度为负时,两侧极端数据较少。总体的数据特征设观测数据是由总体X中取出的样本,总体的分布函数是F。当X为离散分布时,总体的分布可由概率分布列刻画:总体为连续分布时,总体的分布可由概率密度刻画。连续分布中最重要的是正态分布,它的概率密度及分布函数分别为具有正态分布的总体成为正态总体

总体的数据特征与样本数字特征对应的是总体的数字特征总体均值

总体方差总体标准差总体变异系数

总体的数据特征总体原点矩(k阶)总体中心矩(k阶)总体偏度总体峰度偏度为正的概率密度偏度为负的概率密度f(x)f(x)xx总体峰度是以同方差的正态分布为标准,比较总体分布尾部分散性的指标。细尾,峰度为负正态分布,总体峰度为0粗尾,峰度为正总体数字特征和样本数字特征根据统计学的结果,样本数字特征是相应的总体数字特征的矩估计。当总体数字特征存在时,相应的样本数字特征是总体数字特征的相合估计,从而当n较大时,有总体数字特征和样本数字特征当观测数据是所要研究对象的全体时,数据的分布即总体分布,我们认为取得每一个观测数据是等可能性的,即为;总体分布是离散均匀分布:对这种情况,数据数字特征即总体数字特征。例1从19个杆塔上的普通盘形绝缘子测得该层电导率()的数据如下:

9.898.006.406.175.397.279.0810.4011.208.756.4511.9010.309.589.247.756.208.958.33

计算均值、方差、标准差、变异系数、偏度、峰度。

通过计算,得=8.487,=3.046,=1.845,CV=21.745,=0.035,=-0.852

,的绝对值比较小,可以认为是来自正态总体的数据。

中位数、分位数、三均值与极差均值、方差、标准差等数字特征是总体相应特征值的一种矩估计,更适合于来自正态分布的数据的分析。若总体的分布未知,或者数据严重偏态,有若干异常值(极端值),上述分析数据的方法不甚合适,而应计算中位数、分位数、三均值、极差等数据数字特征,计算上述特征需要用到次序统计量。次序统计量设是n个观测值,可以理解为来自某些总体的样本。将其按数值大小记为这就是次序统计量。最小统计量与最大统计量分别为:中位数与极差中位数的计算公式是中位数是描述数据中心位置的数字特征。大体上比中位数大或小的数据个数为整个数据个数的一半。中位数与极差对于对称分布的数据,均值与中位数较接近;对于偏态分布的数据,均值与中位数不同。中位数的另一个显著特点是不受异常值(特大或特小)的影响,具有稳健性,因此它是数据分析中相当重要的统计量。

极差的计算公式是

它是描述数据分散性的数字特征。数据越分散,极差越大。例考虑下列样本:

53113178

写出次序计量,并求中位数、极差。

对和容量为的样本它的分位数是其中[np]表示np的整数部分,当p=1时,M1=x(n)分位数

0.5分位数就是中位数M.在实际应用中,0.75分位数与0.25分位数比较重要,它们分别称为上、下四分位数,并简记为下列分位数也在实际应用中经常用到:,,,,,。例考虑下列样本:

53113178计算上面数据的,,及,,,,,。以此类推,我们可以得到其他的结果:均值与中位数M皆是描述数据集中位置的数字特征。计算时,用了样本的全部信息,而M仅用了数据分布中的部分信息。因此,在正常情况下,用比用M描述数据的集中位置为优。然而,当存在异常值时,缺乏稳健性,而M具有很强的稳健性。考虑到要充分利用样本信息,又要具有较强的稳健性,可以用三均值作为数据集中位置的数字特征。

三均值的计算公式是:上、下四分位之差称为四分位极差(或半级差)。有一种简便判断数据为异常值的方法,以为数据的上下截断点。例从19个杆塔上的普通盘形绝缘子测得该层电导率()的数据如下:

9.898.006.406.175.397.279.0810.4011.208.756.4511.9010.309.589.247.756.208.958.33

计算中位数、诸分位数、极差、四分位数、三均值,并分析是否有异常值。

上、下截断点分别为1.29和15.05,故数据无异常值。内容分布均值、方差的数据特征数据的分布二元数据的数字特征及相关系数误差坏值的剔除数据的分布数据的数字特征刻画了数据的主要特征,而要对数据的总体情况作全面的描述,就要研究数据的分布。对数据分布的主要描述方法是直方图与茎叶图、数据的理论分布即总体分布。数据分析的一个重要问题是要研究数据是否来自正态总体,这是分布的正态性经验的问题。直方图、QQ图对于数据分布,常用直方图进行描述。将数据取值的范围分成若干区间(一般是等间隔的),在等间隔区间的情况,每个区间的长度称为组距。考察数据落入每一区间的频数与频率,在每个区间上画一个矩形,它的宽度是组距,它的高度可以是频数、频率或频率/组距,在高度是频率/组距的情况,每一矩形的面积恰是数据落入区间的频率,这种直方图可以估计总体的概率密度。组距对直方图的形态有很大的影响,组距太小,每组的频数较少,由于随机性的影响,邻近区间上的频数可能很大;组距太大,直方图所反映概率密度的形态就不灵敏。QQ图可以帮助界别样本分布是否近似于某种类型的分布。茎叶图、箱线图与直方图相比较,茎叶图更能细致地看出数据分布的结构。例某班有31个学生,某门课程的考试成绩如下:

254550545561646872757578798183848484858686868789898990919192100

做出其茎叶图。茎叶图的特点茎叶图与直方图一样,可以直观地看出数据的分布状况。从茎叶图分析,可大致直观地看出这批数据是否接近对称,分散性如何,是否有异常值,数据中是否有间隙等等。利用茎叶图,很自然地可以对所有数据排序。从茎叶图可以看出由原始数据得到的次序统计量。对于排过序的一批数据,从小到大的每个数据的排序名次,称为升秩;而从大到小的每个数据的排序名次,称为降秩。每个数据的升秩与降秩的较小者,称为该数据的深度,即

深度=min(升秩,降秩)例铅压铸件硬度数据如下:

53.070.284.355.378.563.571.453.482.567.369.573.055.785.895.451.174.454.177.852.469.153.564.382.755.770.587.550.772.359.5

做出数据的茎叶图。箱线图茎叶图是探索性数据分析所采用的重要方法。而箱线图也能直观简洁地展现数据分布的主要特征。内容分布均值、方差的数据特征数据的分布二元数据的数字特征及相关系数误差坏值的剔除多元数据的数字特征与相关分析以上我们分析的都是一元数据,但在实际中,人们更多的遇到的是多元数据对于多元数据,除分析各变量的取值特点外,更要分析各个变量之间的相关关系二元数据的数字特征及相关系数设是二元总体,从中取得观测数据

引进数据观测矩阵记二元数据的数字特征及相关系数则,称为二元观测数据的均值向量。记二元数据的数字特征及相关系数协方差矩阵有由Schwarz不等式所以S总是非负定的,一般是正定的。设M是n阶实系数对称矩阵,如果对任何非零向量

X=(x1,...xn)都有XMX′>0,就称M正定(PositiveDefinite)。二元数据的数字特征及相关系数观测数据的相关系数(Pearson)计算公式是

由Schwarz不等式,有

即总有二元数据的数字特征及相关系数Spearman相关系数秩设其次序统计量是若,则称是在样本中的秩,记作例:-0.8,-3.1,1.1,-5.2,4.2

次序统计量是-5.2,-3.1,-0.8,1.1,4.2

而秩统计量是3,2,4,1,5

当观测数据中有两个观测值相等,则相应的秩统计量不能唯一确定,通常对相同的观测值,其秩取为他们秩的平均值。Spearman相关系数Spearman相关系数内容分布均值、方差的数据特征数据的分布二元数据的数字特征及相关系数误差坏值的剔除误差的定义定义:Δx–

测量误差x–

测量结果x0

真值测量结果与其真值的差异,真值:被测量的客观真实值理论真值:理论上存在、计算推导出来如:三角形内角和180°约定真值:国际上公认的最高基准值如:基准米(氪-86的能级跃迁在真空中的辐射波长)相对真值:利用高一等级精度的仪器或装置的测量结果作为近似真值1m=1650763.73λ标准仪器的测量标准差<1/3测量系统标准差→检定定量表示误差理论测量误差的性质与分类(1)随机误差(randomerror)正态分布性质:原因:装置误差、环境误差、使用误差处理:统计分析、计算处理→减小对称性有界性抵偿性单峰性绝对值相等的正负误差出现的次数相等绝对值小的误差比绝对值大的误差出现的次数多偶然误差绝对值不会超过一定程度当测量次数足够多时,偶然误差算术平均值趋于0测量误差的性质与分类(2)系统误差(systemerror)

:性质:有规律,可再现,可以预测原因:原理误差、方法误差、环境误差、使用误差处理:理论分析、实验验证→修正(3)粗大误差(abnormalerror)

:性质:偶然出现,误差很大,异常数据,与有用数据混在一起原因:装置误差、使用误差处理:判断、剔除

测量精度精度:测量结果与真值吻合程度定性概念测量精度举例不精密(随机误差大)准确(系统误差小)精密(随机误差小)不准确(系统误差大)不精密(随机误差大)不准确(系统误差大)精密(随机误差小)准确(系统误差小)精密度:(precision)表述:概念:重复测量时,测量结果的分散性准确度:表述:测量结果与真值的接近程度,系统误差的影响程度随机误差的标准差(standarddeviation)性质:平均值与真值的偏差(deviation)算术平均值法表述:x1,x2,…xn---测量数据原理:多次重复测量时,取全部测量数据的算术平均值为测量结果剩余误差偶然误差性质:(1)剩余误差的代数和等于零,即算术平均值法可以滤除或减小偶然误差(2)剩余误差的平方和为最小最小二乘法基础标准误差用偶然误差表示:用剩余误差表示:Bessel公式内容分布均值、方差的数据特征数据的分布二元数据的数字特征及相关系数误差坏值的剔除坏值的剔除基本思想:给定一定的显著水平,并确定一个门限,凡是超过这个门限的误差就认为他不属于税基误差的范畴,予以剔除。方法:拉依达(Pauta)准则、格拉布斯(Grubbs)准则、狄克逊(Dixon)准则、肖维勒(Chauvenet)准则拉依达(Pauta)准则

如果可疑数据xp与试验数据的算术平均值的偏差的绝对值Vi大于3倍(或2倍)的标准偏差,即:Vi>3s或2s则应将xp从该组试验值中剔除,至于选择3s还是2s与显著性水平α有关。显著性水平α表示的是检验出错的几率为α,或者是检验的可信度为1-α。3s相当于显著水平α=0.01,2s相当于显著水平α=0.05。拉依达准则方法简单,无须查表,用起来方便。该检验法适用于试验次数较多或要求不高时,这是因为,当n<10时,用3s作界限,即使有异常数据也无法剔除;若用2s作界限,则5次以内的试验次数无法舍去异常数据。格拉布斯(Grubbs)准则

用格拉布斯准则检验可疑数据xp时,当

Vi>λ(α,n)s 时,则应将xp从该组实验值中剔除。这里的λ(α,n)称为格拉布斯检验临界值,它与实验次数n及给定的显著性水平α有关。狄克逊(Dixon)准则

将n个实验数据按从小到大的顺序排列,得到:x1≤x2≤…≤xn-1≤xn如果有异常值存在,必然出现在两端,即x1或xn。检验x1

或xn时,使用附表所列的公式,可以计算出f0,并查得临界值f(α,n)。若f0>f(α,n),则应该剔除x1或xn。临界值f(α,n)与显著性水平α及试验次数n有关。可见狄克逊准则无需计算和s,所以计算量较小。上面介绍的三个准则各有其特点。当试验数据较多时,使用拉依达准则最简单,但当试验数据较少时,不能应用;格拉布斯准则和狄克逊准则都能适用于试验数据较少时的检验,但是总的来说,还是试验数据越多,可以数据被错误剔除的可能性越小,准确性越高。在一些国际标准中,常推荐格拉布斯准则和狄克逊准则来剔除可疑数据参考书目数据分析范金城梅长林编著科学出版社化学计量学方法(第二版)许禄邵学广著科学出版社第一节活塞式空压机的工作原理第二节活塞式空压机的结构和自动控制第三节活塞式空压机的管理复习思考题单击此处输入你的副标题,文字是您思想的提炼,为了最终演示发布的良好效果,请尽量言简意赅的阐述观点。第六章活塞式空气压缩机

piston-aircompressor压缩空气在船舶上的应用:

1.主机的启动、换向;

2.辅机的启动;

3.为气动装置提供气源;

4.为气动工具提供气源;

5.吹洗零部件和滤器。

排气量:单位时间内所排送的相当第一级吸气状态的空气体积。单位:m3/s、m3/min、m3/h第六章活塞式空气压缩机

piston-aircompressor空压机分类:按排气压力分:低压0.2~1.0MPa;中压1~10MPa;高压10~100MPa。按排气量分:微型<1m3/min;小型1~10m3/min;中型10~100m3/min;大型>100m3/min。第六章活塞式空气压缩机

piston-aircompressor第一节活塞式空压机的工作原理容积式压缩机按结构分为两大类:往复式与旋转式两级活塞式压缩机单级活塞压缩机活塞式压缩机膜片式压缩机旋转叶片式压缩机最长的使用寿命-

----低转速(1460RPM),动件少(轴承与滑片),润滑油在机件间形成保护膜,防止磨损及泄漏,使空压机能够安静有效运作;平时有按规定做例行保养的JAGUAR滑片式空压机,至今使用十万小时以上,依然完好如初,按十万小时相当于每日以十小时运作计算,可长达33年之久。因此,将滑片式空压机比喻为一部终身机器实不为过。滑(叶)片式空压机可以365天连续运转并保证60000小时以上安全运转的空气压缩机1.进气2.开始压缩3.压缩中4.排气1.转子及机壳间成为压缩空间,当转子开始转动时,空气由机体进气端进入。2.转子转动使被吸入的空气转至机壳与转子间气密范围,同时停止进气。3.转子不断转动,气密范围变小,空气被压缩。4.被压缩的空气压力升高达到额定的压力后由排气端排出进入油气分离器内。4.被压缩的空气压力升高达到额定的压力后由排气端排出进入油气分离器内。1.进气2.开始压缩3.压缩中4.排气1.凸凹转子及机壳间成为压缩空间,当转子开始转动时,空气由机体进气端进入。2.转子转动使被吸入的空气转至机壳与转子间气密范围,同时停止进气。3.转子不断转动,气密范围变小,空气被压缩。螺杆式气体压缩机是世界上最先进、紧凑型、坚实、运行平稳,噪音低,是值得信赖的气体压缩机。螺杆式压缩机气路系统:

A

进气过滤器

B

空气进气阀

C

压缩机主机

D

单向阀

E

空气/油分离器

F

最小压力阀

G

后冷却器

H

带自动疏水器的水分离器油路系统:

J

油箱

K

恒温旁通阀

L

油冷却器

M

油过滤器

N

回油阀

O

断油阀冷冻系统:

P

冷冻压缩机

Q

冷凝器

R

热交换器

S

旁通系统

T

空气出口过滤器螺杆式压缩机涡旋式压缩机

涡旋式压缩机是20世纪90年代末期开发并问世的高科技压缩机,由于结构简单、零件少、效率高、可靠性好,尤其是其低噪声、长寿命等诸方面大大优于其它型式的压缩机,已经得到压缩机行业的关注和公认。被誉为“环保型压缩机”。由于涡旋式压缩机的独特设计,使其成为当今世界最节能压缩机。涡旋式压缩机主要运动件涡卷付,只有磨合没有磨损,因而寿命更长,被誉为免维修压缩机。

由于涡旋式压缩机运行平稳、振动小、工作环境安静,又被誉为“超静压缩机”。

涡旋式压缩机零部件少,只有四个运动部件,压缩机工作腔由相运动涡卷付形成多个相互封闭的镰形工作腔,当动涡卷作平动运动时,使镰形工作腔由大变小而达到压缩和排出压缩空气的目的。活塞式空气压缩机的外形第一节活塞式空压机的工作原理一、理论工作循环(单级压缩)工作循环:4—1—2—34—1吸气过程

1—2压缩过程

2—3排气过程第一节活塞式空压机的工作原理一、理论工作循环(单级压缩)

压缩分类:绝热压缩:1—2耗功最大等温压缩:1—2''耗功最小多变压缩:1—2'耗功居中功=P×V(PV图上的面积)加强对气缸的冷却,省功、对气缸润滑有益。二、实际工作循环(单级压缩)1.不存在假设条件2.与理论循环不同的原因:1)余隙容积Vc的影响Vc不利的影响—残存的气体在活塞回行时,发生膨胀,使实际吸气行程(容积)减小。Vc有利的好处—

(1)形成气垫,利于活塞回行;(2)避免“液击”(空气结露);(3)避免活塞、连杆热膨胀,松动发生相撞。第一节活塞式空压机的工作原理表征Vc的参数—相对容积C、容积系数λv合适的C:低压0.07-0.12

中压0.09-0.14

高压0.11-0.16

λv=0.65—0.901)余隙容积Vc的影响C越大或压力比越高,则λv越小。保证Vc正常的措施:余隙高度见表6-1压铅法—保证要求的气缸垫厚度2.与理论循环不同的原因:二、实际工作循环(单级压缩)第一节活塞式空压机的工作原理2)进排气阀及流道阻力的影响吸气过程压力损失使排气量减少程度,用压力系数λp表示:保证措施:合适的气阀升程及弹簧弹力、管路圆滑畅通、滤器干净。λp

(0.90-0.98)2.与理论循环不同的原因:二、实际工作循环(单级压缩)第一节活塞式空压机的工作原理3)吸气预热的影响由于压缩过程中机件吸热,所以在吸气过程中,机件放热使吸入的气体温度升高,使吸气的比容减小,造成吸气量下降。预热损失用温度系数λt来衡量(0.90-0.95)。保证措施:加强对气缸、气缸盖的冷却,防止水垢和油污的形成。2.与理论循环不同的原因:二、实际工作循环(单级压缩)第一节活塞式空压机的工作原理4)漏泄的影响内漏:排气阀(回漏);外漏:吸气阀、活塞环、气缸垫。漏泄损失用气密系数λl来衡量(0.90-0.98)。保证措施:气阀的严密闭合,气缸与活塞、气缸与缸盖等部件的严密配合。5)气体流动惯性的影响当吸气管中的气流惯性方向与活塞吸气行程相反时,造成气缸压力较低,气体比容增大,吸气量下降。保证措施:合理的设计进气管长度,不得随意增减进气管的长度,保证滤器

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论