版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第二章 数据的整理与分析通过调查与试验,取得原始资料,输入计算机excel表格。例1:为了调查马氏珠母贝的生长情况,测量某养殖场三笼马氏珠母贝的总重(g),共获得128个数据,结果如下表。2 试验资料的整理2.1 原始数据的录入第二章 数据的整理与分析通过调查与试验,取得原始资料,输入计2 试验资料的整理2.1 原始数据的输入通过调查与试验,取得原始资料,输入计算机excel表格。例1:为了调查马氏珠母贝的生长情况,测量某养殖场三笼马氏珠母贝的总重(g),共获得128个数据,结果如下表。2 试验资料的整理2.1 原始数据的输入通过调查与试验,取五笼珍珠贝的壳高(SH)测量数据,共227个三笼马
2、氏珠母贝的总重(g),共获得128个数据 五笼珍珠贝的壳高(SH)测量数据,共227个三笼马氏珠母贝的在一列中输入数据,其中第一行输入标题“总重(g)”(图)。在一列中输入数据,其中第一行输入标题“总重(g)”(图)。在一列中输入数据,其中第一行输入标题“总重(g)”(图)。在一列中输入数据,其中第一行输入标题“总重(g)”(图)。2.2 绘制频数分布图 频数分布图是直观反映数据分布情况的一种常用方法。将数据按照一定的规则分成不同的组,组数用k 表示;同一个组中的数值属于同一范围,组内包含的个体个数称为频数(f );总频数或样本容量n可用公式表示为 ,频率为f/n。 以128个马氏珠母贝壳高测
3、量值为例,制作频数分布表与频数分布图。 编制连续型数据的频数分布图的一般步骤是:2.2 绘制频数分布图 频数分布图是直观反映数据分布情况的一2.2.1 Excel(1)确定极差R 从原始数据中找出最大值max(x)和最小值min(x),计算极差(range,R)(也称组距),R=max x-min x; R=76.77-20.47=56.30(2)确定组数L 组数L与样本容量n有关,一般数据少于100个时,可以分为7-10组。数据较多时,可以分为15-20组。可以用以下公式 计算:2.2.1 Excel(1)确定极差R2.2.1 Excel(2)确定组数L 也可以参照下表进行。 本例中n=12
4、8,L可以先取10。样本容量n组数L306058601007101002009122005001018500以上15302.2.1 Excel(2)确定组数L样本容量n组数L302.2.1 Excel(3)确定组距I i=R/L=56.30/10=5.636 一般组距不要取小数点多的数。(4)确定组中值 第一个组中值等于或小于样本最小值+1/2组距,本例最小值为20.47,组距为6,第一个组中值=20+3=23;其余的中值依次加组距确定。2.2.1 Excel(3)确定组距I2.2.1 Excel(5)在excel中确定接受区域 第一个数=第一个组中值+1/2组距 =23+3=26, 下面的数
5、依次加组距,接受区域最后一个值一定大于等于最大值:2.2.1 Excel(5)在excel中确定接受区域生物统计课件第二章-的整理与特征数的计算2.4.1 Excel(6)调用函数FREQUENCY( ) 第一步,选中“频数”列下方的空白单元格,作为结果输出区域,输入“=frequency(”; 第二步,用鼠标选中“总重(g)”的128个观测值(或直接输入数据所在单元格“a2:a129”),再输入“,”隔开; 第三步,再用鼠标选中选中“接受区域”的数据(或直接输入接受区域单元格“h2:h129”),输入“)”。2.4.1 Excel(6)调用函数FREQUENCY( )生物统计课件第二章-的整
6、理与特征数的计算2.4.1 Excel按“Ctrl+Shift+Enter”,获得结果。2.4.1 Excel按“Ctrl+Shift+Enter”2.4.1 Excel(7)制作频数分布图选择频数的数据,点击菜单上的图表向导按钮 :2.4.1 Excel(7)制作频数分布图(8)选择柱形图中的第一个图,点击“下一步”,出现如下对话框: (8)选择柱形图中的第一个图,点击“下一步”,出现如下对话框(9)点击系列,切换对话框,点击“分类(X)轴标志(T)”的按钮 :(9)点击系列,切换对话框,点击“分类(X)轴标志(T)”的(10)出现“分类(X)轴标志”的对话框,选中“组中值”数据 (10)出
7、现“分类(X)轴标志”的对话框,选中“组中值”数据(11)点击“分类 (X) 轴标志”对话框,返回对话框 (11)点击“分类 (X) 轴标志”对话框,返回对话框 (12)点击“下一步” (12)点击“下一步” (13)点击“标题”,在“分类(X)轴与数值(Y)轴”分别输入标题“总重(g)”和“频数” (13)点击“标题”,在“分类(X)轴与数值(Y)轴”分别输(14)点击“图例”,将“显示图例”前面内的去掉 (14)点击“图例”,将“显示图例”前面内的去掉 (16)鼠标选中条形,右键“数据系列格式”(16)鼠标选中条形,右键“数据系列格式”(17)出现对话框,点击“选项”,将分类间距150改为
8、0(17)出现对话框,点击“选项”,将分类间距150改为0(18)点击“确定”,条形之间的间隔就没有了(18)点击“确定”,条形之间的间隔就没有了2.2.2 Minitab绘制频数分布图将观测值数据从Excel拷贝到Minitab的工作表中,调用菜单图形直方图,跳出对话框,选择简单:2.2.2 Minitab绘制频数分布图将观测值数据从Exc2.2.2 Minitab点击确定,对话框中,点击数据C1 总重(g),选择进入图形变量:2.2.2 Minitab点击确定,对话框中,点击数据C1 2.2.2 Minitab点击确定,即会输出图形:2.2.2 Minitab点击确定,即会输出图形:2.2
9、.2 Minitab默认的直方图,分成12组,组距是5。如果想改变分组,可以用鼠标左击一下灰色的直方条,右键,选择编辑条形:2.2.2 Minitab默认的直方图,分成12组,组距是52.2.2 Minitab出现编辑条形的对话框,点击区间,在区间定义处点击区间数,右侧输入10:2.2.2 Minitab出现编辑条形的对话框,点击区间,在2.2.2 Minitab按确定后,输出的图形的分组数就是10了,组距也变成了6:2.2.2 Minitab按确定后,输出的图形的分组数就是12.2.2 Minitab将鼠标移到任意一个直方条,就会显示该处的频数值与区间,底部x轴对应数值就是组中值。如下图,鼠
10、标移至最高的直方条,即会显示区间为4147,组中值为44,频数为28。2.2.2 Minitab将鼠标移到任意一个直方条,就会显示2.2.2 Minitab图中只显示一半的组中值,如要显示全部的组中值,可以点击上方线条,待鼠标显示“X 尺度”2.2.2 Minitab图中只显示一半的组中值,如要显示全2.2.2 Minitab然后点击鼠标右键,选择“编辑X尺度”2.2.2 Minitab然后点击鼠标右键,选择“编辑X尺度2.2.2 Minitab调出“编辑X尺度”对话框,选择“刻度位置”,在后面空格填入所需要显示的组中值2.2.2 Minitab调出“编辑X尺度”对话框,选择“刻2.2.2 M
11、initab点击确定,输入的直方图结果就有了全部10个组的组中值。如果需要每个直方条显示出频数,可以选择任意直方条,点击鼠标右键“添加”“数据标签”2.2.2 Minitab点击确定,输入的直方图结果就有了全2.2.2 Minitab对话框默认选项是“使用Y值作标签”2.2.2 Minitab对话框默认选项是“使用Y值作标签”2.2.2 Minitab点击“确定”,输出图形中的直方条上方都已出现了频数2.2.2 Minitab点击“确定”,输出图形中的直方条上2.2.3 DPS 先将数据从Excel中拷贝到DPS,选择数据,菜单数据分析频次分布,对话框中输入分组数:2.2.3 DPS 先将数据
12、从Excel中拷贝到2.2.3 DPS 弹出对话框:2.2.3 DPS 弹出对话框:2.2.3 DPS点击OK,就可跳出频次分布和理论分布对话框:2.2.3 DPS点击OK,就可跳出频次分布和理论分布对话框2.2.4 6SQ统计6SQ统计插件for Excel 2.0(/6sqstat/)是一款国产软件,该软件小巧实用,操作简便,具备专业统计软件的大部分功能,且安装后在Excel中可以直接使用。其1.3永久测试版可供个人学习使用,2.0企业版需付费购买,但提供30天免费使用。安装后如图所示:2.2.4 6SQ统计6SQ统计插件for Excel 2.2.2.4 6SQ统计在Excel选中需要分
13、析的数据,包括第一行的名称。调用菜单,6SQ统计基本统计描述统计图形化汇总:2.2.4 6SQ统计在Excel选中需要分析的数据,包括第2.2.4 6SQ统计我们可以将区间宽度改为6,将第一个组下限改为20,其他数据就会立即跟着改变:2.2.4 6SQ统计我们可以将区间宽度改为6,将第一个组下2.2.4 6SQ统计结果:2.2.4 6SQ统计结果:2.4.4 6SQ统计结果2:2.4.4 6SQ统计结果2:2.3 茎叶图 茎叶图(Stem and leaf plot)又称“枝叶图”,它的基本思路是将样本中的数据按位数进行比较,将数的大小基本不变或变化不大的位作为一个主干(茎),将变化大的位的数
14、作为分枝(叶),列在主干的后面,这样就可以清楚地看到每个主干后面的几个数,每个数具体是多少。这里仍然以128只马氏珠母贝总重数据为例制作茎叶图,可以用Minitab、SPSS等软件。2.3 茎叶图 茎叶图(Stem and l2.5.1 Minitab从Excel中导入数据,鼠标点击菜单图形茎叶图:2.5.1 Minitab从Excel中导入数据,鼠标点击菜2.5.1 Minitab结果解读: 从结果中可以得到,样本容量为128,叶的单位是1.0,也就是将观测值通过四舍五入取整了。 茎叶图有三列数。左边的一列是频数;中间一列是茎,这里就是测量值的十位数;右边的是数组中的变化位,它是按照大小顺序
15、将测量值的个位数一一列出来,象一条枝上抽出的叶子一样,所以人们形象地叫它茎叶图。2.5.1 Minitab结果解读:2.5.1 Minitab结果解读: 频数第一个是5,茎是2,叶是01234,表明2024范围内的观测值有5个,分别是20、21、22、23、24共5个。 频数第二个是9,茎是2,叶是6789,表明2629范围内的观测值有4个(本行的9减去上一行的5),分别是26、27、28、29共4个。 第三个频数是25,茎是3,叶是0011111223333444,表明3034范围内的观测值有16个(25-9),分别是30、30、31、31、31、31、31、32、32、33、33、33、3
16、3、34、34、34共16个。2.5.1 Minitab结果解读:2.5.1 Minitab结果解读: 依次类推,直到带括号的中心的数(26),表示中位数在此频数在该行,4449范围内的观测值有26个。从中心数往下,当前行的观测值个数等于当前频数减去下一行频数,如倒数第四行,该行观测值数量有5个(本行的7减去下一行的2),分别是61、62、62、62、63。2.5.1 Minitab结果解读:2.5 茎叶图 茎叶图是一个与直方图相类似的特殊工具,但又与直方图不同,茎叶图保留原始资料的资讯,直方图则失去原始资料的讯息。将茎叶图茎和叶逆时针方向旋转90度,实际上就是一个直方图,可以从中统计出次数,
17、计算出各数据段的频率或百分比。从而可以看出分布是否与正态分布或单峰偏态分布逼近。2.5 茎叶图 茎叶图是一个与直方图相类似的特2.5.2 SPSS导入Excel工作表,直接获得数据。调用菜单分析探索:2.5.2 SPSS导入Excel工作表,直接获得数据。调用2.5.2 SPSSSPSS的茎叶图同样也是左、中、右三列,每列的频数直接就是该组的频数,如第三行的16,表示在3034范围内的观测值共有16个,分别是30、30、31、31、31、31、31、32、32、33、33、33、33、34、34、34。最后一行表示有一个值异常(=77)。2.5.2 SPSSSPSS的茎叶图同样也是左、中、右三
18、列,2.2 数据描述统计 对于样1个样本的观测值,我们可以计算它的平均数、中位数、众数、最大值、最小值、极差、方差、标准差、变异系数等,我们称为对数据进行描述统计。2.2 数据描述统计 对于样1个样本的观测值,我们可以计算它2.2.1 平均数 平均数(mean)一般指算术平均数,是观测值的总和除以样本容量得到,常用 表示。 在Excel中,有专门的函数可以计算平均数:average( )。在数据列最后的空白单元格($A$130)中输入“average(”,即会出现以下提示: 2.2.1 平均数 平均数(mean)一般指算术平均数,是2.2.1 平均数选中所有数据,输入右括号“)”,即会出现以下
19、:2.2.1 平均数选中所有数据,输入右括号“)”,即会出现以2.2.1 平均数按回车键后,单元格$A$130即会出现平均数的计算结果44.31:2.2.1 平均数按回车键后,单元格$A$130即会出现平均2.2.1 平均数 样本容量n的计算函数:count( ),如计算例1的样本容量n,可在单元格$A$130输入“=count(A2:a129)”:2.2.1 平均数 样本容量n的计算函数:count( ),2.2.1 平均数回车,即可得到结果,n=128: 平均数与每一个观测值都有关系,有较高的代表性,但它也容易受到极端值的影响。2.2.1 平均数回车,即可得到结果,n=128: 2.2.2
20、 中位数中位数(Median)是把一组观测值按从小到大的数序排列,在中间的一个数(或两个数的平均值)叫做这组数据的中位数,记作Md。当样本数为奇数时,中位数=第(n+1)/2个数据;当样本数为偶数时,中位数为第n/2个数据与第n/2+1个数据的算术平均值。2.2.2 中位数中位数(Median)是把一组观测值按从小2.2.2 中位数在Excel中,有专门的函数可以计算平均数:median( )。如计算例1的样本的中位数,可在数据列最后的空白单元格($A$130)中输入“median(”,即会出现以下提示:2.2.2 中位数在Excel中,有专门的函数可以计算平均数2.2.2 中位数选中所有数据
21、,输入右括号“)”,即会出现以下:2.2.2 中位数选中所有数据,输入右括号“)”,即会出现以2.2.2 中位数按回车键后,单元格$A$130即会出现平均数的计算结果45.20:2.2.2 中位数按回车键后,单元格$A$130即会出现平均2.2.2 中位数中位数不受分布数列的极大或极小值影响,具有“抗性”,不像算术平均数那样“敏感”。 存在极端值的资料不宜用平均数,像收入、住房等,数据比较分散,如果存在两极分化严重,就不适宜用平均数。如某公司的33名职工的月工资(以元为单位)如下:本例中,该公司的平均工资数为3500,而中位数工资数为1500。2.2.2 中位数中位数不受分布数列的极大或极小值
22、影响,具有2.2.3 众数 众数(Mode)是一组数据中出现次数最多的数值,有时众数在一组数中有好几个。 在Excel中,有专门的函数可以计算平均数:mode( )。在数据列最后的空白单元格($A$130)中输入“mode(”,即会出现以下提示:2.2.3 众数 众数(Mode)是一组数据中出现次数最多的2.2.3 众数选中所有数据,输入右括号“)”,即会出现以下:2.2.3 众数选中所有数据,输入右括号“)”,即会出现以下2.2.3 众数按回车键后,单元格$A$130即会出现平均数的计算结果48.80:2.2.3 众数按回车键后,单元格$A$130即会出现平均数2.2.3 众数众数不受极端值
23、的影响,但它也没有利用全部数据信息,而且还具有不惟一性。如果样本数据的分布没有明显的集中趋势或最高峰点,也可能没有众数;如果有两个最高峰点,那就有两个众数。只有在总体单位比较多,而且又明显地集中于某个变量值时,计算众数才有意义。2.2.3 众数众数不受极端值的影响,但它也没有利用全部数据2.2.3 众数例:某制鞋厂要了解消费者最需要哪种型号的男皮鞋,调查了某百货商场某季度男皮鞋的销售情况,得到资料如下表: 从表中看出,25.5厘米的鞋号销售量最多,如果我们计算算术平均数,则平均号码为25.65厘米,这是没有实际意义的,因此利用用25.5(众数)厘米作为样本数据集中趋势,既便捷又符合实际。 2.
24、2.3 众数例:某制鞋厂要了解消费者最需要哪种型号的男皮2.2.4 几何平均数几何平均数(geometric mean)是指n个观测值连乘积的n次方根就是几何平均数,记作G。根据资料的条件不同,几何平均数分为加权和不加权之分。2.2.4 几何平均数几何平均数(geometric mea2.2.4 几何平均数例 1994-1998年我国工业品的产量分别是上年的107.6%、102.5%、100.6%、102.7%、102.2%,计算这5年的平均发展速度。2.2.4 几何平均数例 1994-1998年我国工业品的2.2.4 几何平均数在Excel中,有专门的函数可以计算平均数:geomean( )
25、。在数据列最后的空白单元格中输入“geomean(”,即会出现以下提示:2.2.4 几何平均数在Excel中,有专门的函数可以计算平2.2.4 几何平均数选中所有数据,输入右括号“)”,即会出现以下:按回车键后,单元格$A$130即会出现平均数的计算结果1.030935。 2.2.4 几何平均数选中所有数据,输入右括号“)”,即会出2.2.4 几何平均数 例 2007年银行公布的定期存款利率分别是:三个月3.33%,半年3.78%,一年4.14%,两年4.68%,三年5.40%,五年5.85,求平均年利率。本题需要加权。2.2.4 几何平均数 例 2007年银行公布的定期存款利2.2.4 几何
26、平均数几何平均数仅适用于具有等比或近似等比关系的数据。几何平均数受极端值的影响较算术平均数小。但观测值中任何一个变量值不能为0,如上例中,银行利率为3.78%,计算时要写成1.0378,当银行利率为0时,就不至于计算无意义。2.2.4 几何平均数几何平均数仅适用于具有等比或近似等比关2.2.4 几何平均数以上算术平均数、中位数、众数、几何平均数都是描述数据的集中性,及指出数据集中较多的位置。此外还有描述数据离散性的特征数,表示数据之间参差不齐的程度。这些特征数一般有极差、方差、标准差、标准误、偏度、峰度与变异系数。2.2.4 几何平均数以上算术平均数、中位数、众数、几何平均2.2.5 极差极差
27、(range)是最大值与最小值的差,记作R。在Excel中,可以用函数max( )、min( )分别计算最大值与最小值,然后相减求得极差。2.2.5 极差极差(range)是最大值与最小值的差,记作2.2.6 方差与标准差 方差(Variance)和标准差(Standard deviation)都是描述观测值围绕平均数的波动程度的特征值,是测度数据变异程度的最重要、最常用的指标。方差也称变异数、均方。作为统计量,方差常用符号s2表示,作为总体参数,常用符号2表示。2.2.6 方差与标准差 方差(Variance)和标准差(2.2.6 方差与标准差标准差是方差的平方根,样本的标准差常用s或SD表
28、示。若用表示,则是指总体的标准差。方差它是每个数据与该组数据平均数之差乘方后的均值。本章只讨论对一组数据的描述,尚未涉及总体问题,故本章方差的符号用s2,标准差的符号用s。2.2.6 方差与标准差标准差是方差的平方根,样本的标准差常2.2.6 方差与标准差Excel中计算方差的函数为var( ),计算标准差的函数为stdev( )。如例 ,计算128个马氏珠母贝总重测量值的方差,可以在Excel中如下计算:回车后,结果即是方差值107.13。2.2.6 方差与标准差Excel中计算方差的函数为var(2.2.6 方差与标准差同样,利用函数stdev( ),计算出128个马氏珠母贝总重测量值的标
29、准差为10.35。为了说明一个样本的变异程度,常常在平均数后面加上标准差,写成 。如128个马氏珠母贝的测量结果可以记作48.8010.35。2.2.6 方差与标准差同样,利用函数stdev( ),计算2.2.6 方差与标准差在单位相同、均数相近的情况下,标准差越大,说明观测值间的变异程度越大,即观测值围绕均数的分布较离散,均数的代表性较差。反之,标准差越小,表明观测值间的变异较小,观测值围绕均数的分布较密集,均数的代表性较好。在研究中,对于标准差的大小,原则上应该控制在均值的12%以内,如果标准差过大,将直接影响研究的准确性。2.2.6 方差与标准差在单位相同、均数相近的情况下,标准差2.2
30、.6 方差与标准差在正态分布的情况下,当观测值在 范围内,观测值数量占样本含量的68.27%;当观测值在 范围内,观测值数量占样本含量的95.45%;当观测值在 范围内,观测值数量占样本含量的99.73%。2.2.6 方差与标准差在正态分布的情况下,当观测值在 2.2.7 标准误在实际工作中,我们无法直接了解研究对象的总体情况,经常采用随机抽样的方法,取得所需要的指标,即样本指标。样本指标与总体指标之间存在的差别,称为抽样误差,其大小通常用均数的标准误(Standard Error)来表示。因此标准误反映的是不同样本的平均数之间的变异。而标准差是描述单个样本中观测值的离散程度及衡量平均数抽样误
31、差大小的尺度,标准误与标准差是不同概念。2.2.7 标准误在实际工作中,我们无法直接了解研究对象的总2.2.7 标准误标准误用来衡量抽样误差。标准误越小,表明样本统计量与总体参数的值越接近,样本对总体越有代表性,用样本统计量推断总体参数的可靠度越大。因此,标准误是统计推断可靠性的指标。标准误一般用 表示,标准误的大小与标准差成正比,而与样本含量n的平分根成反比,标准误的计算公式为: 2.2.7 标准误标准误用来衡量抽样误差。标准误越小,表明样2.2.8 变异系数变异系数(Coefficient of Variance)是衡量资料中各观测值变异程度的另一个统计量。当进行两个或多个资料变异程度的比
32、较时,如果度量单位与平均数都相同,可以直接利用标准差来比较。如果单位或平均数不同时,比较其变异程度就不能采用标准差,而需采用变异系数来比较。变异系数记作C.V.,其计算公式为:2.2.8 变异系数变异系数(Coefficient of 2.2.8 变异系数例 ,2003年4月在海南陵水黎安港同时繁殖了马氏珠母贝三亚与流沙两个品种,养殖在陵水黎安港,2005年3月分别对两个品种随机取样,测量结果分别为6.680.86、6.270.25,单位cm,比较两个品种的变异程度就可以通过计算C.V.,分别为12.86%与10.32%,表明流沙品种的壳高变异程度要比三亚品种的变异程度小,即流沙品种长得更整齐
33、。2.2.8 变异系数例 ,2003年4月在海南陵水黎安港同2.2.9 偏度与峰度偏度(Skewness)是描述某变量取值分布对称性的统计量。在Excel中,偏度可以用skew( )计算。Skewness=0,分布形态与正态分布偏度相同;Skewness0,长尾巴拖在右边;Skewness0,比正态分布的高峰更加陡峭尖顶峰;Kurtosis R0.01,拒绝零假设,结果检出3.13是可剔除的观测值。3.1 奈尔(Nair)检验法 检验的零假设是“3.1 奈尔(Nair)检验法 在第2次检验中,数据有24个,最大Rn值=2.901,R0.05=2.8,R0.01=3.49,R0.05Rn值R0.
34、01,拒绝零假设,在24个数据中检出3.49是异常的观测值。 在第3次检验中,数据有23个,最大Rn值=2.27,R0.05=2.784,R0.01=3.256,Rn值10时,如果某个测量值(xi)与其测量结果的算术平均值( )之差大于3倍标准偏差s时,即 时,则该测量数据应舍弃。这是美国混凝土标准中所采用的方法,由于该方法是以3倍标准偏差作为判别标准,所以亦称3倍标准偏差法,简称3S法。3.2 3s法当样本容量n10时,如果某个测量值(xi)与3.2 3s法取3S的理由是:根据随机变量的正态分布规律,在多次试验中,测量值落在x3s范围内的概率为99.73,出现在此范围之外的概率仅为0.27%
35、,也就是在近400次试验中才能遇到一次,这种事件为小概率事件,出现的可能性很小,几乎是不可能。因而在实际试验中,一旦出现,就认为该测量数据是不可靠的,应将其舍弃。3.2 3s法取3S的理由是:根据随机变量的正态分布规律,在3.2 3s法 如128个马氏珠母贝总重观测值,用DPS进行3s法异常值检验:3.2 3s法 如128个马氏珠母贝总重观测值,用DPS进行3.2 3s法也称Q检验法,适用于样本容量为330的小样本,6SQ插件与DPS可以直接调用菜单进行Dixon检验,6SQ插件要求样本容量为330,而DPS只要求样本容量n3。例 现有一个样本,12.2、11.5、12.8、14.8、22.2
36、、19.2、25.7、12.7、9.8、35、15.3、11.3、21.1、18.5、19.5,用Dixon法寻找异常值。3.2 3s法也称Q检验法,适用于样本容量为330的小样本3.3.1 6SQ插件先选择数据,包括标题,然后调用菜单6SQ统计基本统计正态异常检验狄克逊检验:3.3.1 6SQ插件先选择数据,包括标题,然后调用菜单6S3.3.1 6SQ插件Dixon检验的零假设为无异常值。上侧检验对最大值35进行检验,结果为拒绝零假设,最大值35为异常值。3.3.1 6SQ插件Dixon检验的零假设为无异常值。3.3.1 6SQ插件下侧检验对最小值9.8进行检验,结果为接受不拒绝零假设,认为
37、最小值9.8不是异常值。双侧检验结果为接受不拒绝零假设,认为无异常值。3.3.1 6SQ插件下侧检验对最小值9.8进行检验,结果为3.3.2 DPS输入数据与选择数据(不选择标题行),选择菜单数据分析异常值检验,弹出对话框后,选择狄克松(Dixon)法:3.3.2 DPS输入数据与选择数据(不选择标题行),选择菜3.4 格拉布斯(Grubbs)检验法也叫ESD (Extreme Studentized Deviate)法,样本容量要3,一般样本容量在50以上适用该法。本法可以检验一个样本或多个样本中的异常值。数学上已证明,在一组测定值中只有一个异常值的情况下,Grubbs法在各种检验法中是最优
38、的3.4 格拉布斯(Grubbs)检验法也叫ESD (Extr3.4 格拉布斯(Grubbs)检验法6SQ插件与DPS可以直接调用菜单进行Grubbs检验。6SQ插件要求样本容量为3100,而DPS只要求样本容量n3。依旧用上面的例子。3.4 格拉布斯(Grubbs)检验法6SQ插件与DPS可以3.4.1 6SQ插件先选择数据,包括标题,然后调用菜单6SQ统计基本统计正态异常检验格拉布斯检验:3.4.1 6SQ插件先选择数据,包括标题,然后调用菜单6S3.4.1 6SQ插件Grubbs检验的零假设为无异常值,上侧检验与双侧检验对最大值35进行检验,结果为拒绝零假设,最大值35为异常值。3.4.
39、1 6SQ插件Grubbs检验的零假设为无异常值,上3.4.1 6SQ插件下侧检验对最小值9.8进行检验,结果为接受不拒绝零假设,认为最小值不是异常值。双侧检验结果拒绝零假设,也检出35为异常值。3.4.1 6SQ插件下侧检验对最小值9.8进行检验,结果为3.4.2 DPS输入数据与选择数据(不选择标题行),选择菜单数据分析异常值检验,弹出对话框后,格拉布斯(Grubbs)法:3.4.2 DPS输入数据与选择数据(不选择标题行),选择菜3.4 格拉布斯(Grubbs)检验法 若数据中存在2个或2个以上异常值时,采用Grubbs法很可能检验不出异常值,此时Dixon检验判别出最大值是异常值的机会
40、往往比Grubbs检验要大一些,这主要是Dixon检验对n10时采用了避开次大值而检查最大值与第3大值之间的关系3.4 格拉布斯(Grubbs)检验法 若数据中3.5 箱线图箱线图(Boxplot)也称箱须图(Box-whisker Plot),它也可以粗略地看出数据是否具有有对称性,分布的分散程度等信息,特别可以用于对几个样本的比较。箱线图作为描述统计的工具之一,可直观明了地识别数据批中的异常值3.5 箱线图箱线图(Boxplot)也称箱须图(Box-w3.5.1 SPSS对128个马氏珠母贝总重数据,可以通过SPSS的探索分析得到茎叶图、箱线图,找出异常值。调用菜单分析描述统计探索:3.5
41、.1 SPSS对128个马氏珠母贝总重数据,可以通过S3.5.1 SPSS在探索对话框中,选择总重进入因变量列表:3.5.1 SPSS在探索对话框中,选择总重进入因变量列表:3.5.1 SPSS点击绘制,进入绘图对话框,描述性下面勾选茎叶图:3.5.1 SPSS点击绘制,进入绘图对话框,描述性下面勾选3.5.1 SPSS按继续返回探索对话框,按确定就可以输出结果:结果中就会有茎叶图:3.5.1 SPSS按继续返回探索对话框,按确定就可以输出结3.5.1 SPSS茎叶图:其中指出了一个异常值(=77)。 3.5.1 SPSS茎叶图:其中指出了一个异常值(=77)3.5.1 SPSS箱线图同样给出
42、了异常值:箱线图表明,第42个观测值(76.77)是异常值。 3.5.1 SPSS箱线图同样给出了异常值:箱线图表明,第43.5.2 Minitab对于128个马氏珠母贝总重观测值,调用菜单统计基本统计量显示描述性统计,弹出对话框,按图形,进入图形对话框,勾选数据箱线图:3.5.2 Minitab对于128个马氏珠母贝总重观测值,3.5.2 Minitab按确定返回显示描述性统计量对话框,再按确定即可输出结果,箱线图即会弹出:图中*号就是异常值,将鼠标移到*处,即会显示“异常值符号,行42:总重(g)=76.77。 3.5.2 Minitab按确定返回显示描述性统计量对话框,3.5.3 6SQ统计插件在Exc
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 光纤通信工程期末考试试卷及答案
- Linux系统管理及应用项目式教程(RHEL9CentOSStream9)(微课版)(第2版) 课件 项目12 配置DNS服务器(第2版)
- 广东省广州市白云区广大附中实验中学2022-2023学年八年级上学期期末线上考试语文试卷
- 小红书蒲公英个护行业投放指南【互联网】【通案】
- 2024小红书乐园赛道营销通案【互联网】【通案】
- 参加高校班主任辅导员培训课件心得体会
- 高一信息技术 因特网基础
- 创业投资与私募基金法律风险预测课件
- 林业监理合同
- 凉菜配送协议书
- 足月小样儿护理查房课件
- 2024年生产主管的挑战与机遇
- 2023年汽车sqe工程师年度总结及下年规划
- 废品回收免责协议
- 养猪场用地转让协议书
- 安徽省六安市汇文中学2023-2024学年八年级上学期期中物理试卷
- 20以内进位加法100题(精心整理6套-可打印A4)
- 兵团电大建筑结构实训
- 爱吃糖的大狮子
- 医学小常识幻灯片课件
- 化妆品功效评价
评论
0/150
提交评论