资料描述性统计分析_第1页
资料描述性统计分析_第2页
资料描述性统计分析_第3页
资料描述性统计分析_第4页
资料描述性统计分析_第5页
已阅读5页,还剩72页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、关于资料的描述性统计分析第一张,PPT共七十七页,创作于2022年6月总体与样本总体(population):研究的全部对象。分为无限总体(infinite population)和有限总体(finite population)。个体(individual):构成总体的每个成员。样本(sample):总体的一部分。样本的含量(sample size):样本内包含的个体数目。第二张,PPT共七十七页,创作于2022年6月抽样抽样(sample):从总体中获得样本的过程。 目的:通过对样本的研究推断其总体随机抽样(random sample) 抽签、抓阄等。使用随机数字表。放回式抽样(sampli

2、ng with replacement)非放回式抽样(sampling without replacement)第三张,PPT共七十七页,创作于2022年6月42.1 数据预处理的原因 正确性(Correctness)一致性(Consistency)完整性(Completeness) 可靠性(Reliability) 数据质量的含义 第四张,PPT共七十七页,创作于2022年6月现实世界的数据不完整的缺少属性值或某些感兴趣的属性,或仅包含聚集数据。含噪声的包含错误或存在偏离期望的离群值。不一致的采用的编码或表示不同,如属性名称不同冗余的如属性之间可以相互导出第五张,PPT共七十七页,创作于20

3、22年6月6数据错误的不可避免性数据输入和获得过程数据错误数据集成所表现出来的错误数据传输过程所引入的错误 据统计有错误的数据占总数据的5%左右Redmen,Orr98第六张,PPT共七十七页,创作于2022年6月数据错误的危害性高昂的操作费用糟糕的决策制定组织的不信任分散管理的注意力第七张,PPT共七十七页,创作于2022年6月8数据预处理的形式数据清理补充缺失数据、平滑噪声数据、识别或删除离群点,解决不一致数据集成集成多个数据库、数据立方或文件数据变换规范化和聚集数据归约简化数据、但产生同样或相似的结果第八张,PPT共七十七页,创作于2022年6月数据预处理的形式第九张,PPT共七十七页,

4、创作于2022年6月小结现实世界的数据一般是脏的、不完整的和不一致的。数据预处理技术可以改进数据的质量,从而有助于提高其后的挖掘过程的精度和性能。高质量的决策必然依赖于高质量的数据,因此数据预处理是知识发现过程的重要步骤。检测异常数据、尽早地调整数据并归约待分析的数据,将在决策过程中得到高回报。第十张,PPT共七十七页,创作于2022年6月2.2 描述性数据汇总获得数据的总体印象对于成功的数据预处理是至关重要的。描述性数据汇总技术可以用来识别数据的典型性质,突显哪些数据值应当视为噪声或离群点。动机:更好的理解数据。主要内容:度量数据的中心趋势和离散程度、描述数据汇总的图形显示。第十一张,PPT

5、共七十七页,创作于2022年6月描述性统计数值指标包括: (1)集中位置的指标,用以描述观察值的平均水平。 如算术均数、几何均数、中位数、众数、百分位数等。 (2)资料变异的指标,用以描述观察值间参差不齐的程度,即离散度或称变异度。 如全距、标准差、方差、变异系数、四分位数间距等。第十二张,PPT共七十七页,创作于2022年6月数据类型及频数(率)分布连续型数据(continuous data):又称度量数据(measurement data)离散型数据(discrete data):又称为计数数据(count data)变量的方法(method of variable):对连续型数据进行分析

6、的方法。属性的方法(method of attribute):对离散型数据进行分析的方法。第十三张,PPT共七十七页,创作于2022年6月频数(率)表和频数(率)图离散型数据组值(class value):一般用组值编制频数(率)表(frequency table)。柱形图(column diagram):一般用柱形图绘制频数(率)图。连续型数据组限(class limit):一般用组限编制频数(率)表。直方图(histogram)、多边形图(polygon)和累积频数图(cumulative frequency graph):一般用直方图、多边形图和累积频数图绘制频数(率)图。组界(clas

7、s boundary):中值(midvalue):每一组的两个组限的平均值。频数分布(frequency distribution)(百分率分布 percentage distribution)把频数或频率按顺序排列起来。 第十四张,PPT共七十七页,创作于2022年6月第一节 概述 描述性统计的表、图形式包括: (1) 频数分布表 (2) 条形图、直方图、茎叶图、盒形图第十五张,PPT共七十七页,创作于2022年6月设原始观察值共n例,为X1 ,X2 ,, Xn 。 和(SUM):X X1X2Xn 。 平方和, SS(SUM OF SQUARE): X2 X12X22Xn2 平方和又记为US

8、S(UNCORRECTED SUM OF SQUARE) 离均差平方和,记为CSS(CORRECTED SUM OF SQUARE): 第十六张,PPT共七十七页,创作于2022年6月第二节 频数分布表频数表的编制 编制步骤: 1. 求极差(即全距)R; 2. 确定组数n、组距i,并写出组段; 3. 列表划记。第十七张,PPT共七十七页,创作于2022年6月某市1995年110名7岁男童的身高资料(cm)114.4119.2124.7125.0115.0112.8120.2110.2120.9120.1125.5120.3122.3118.2116.7121.7116.8121.6115.21

9、22.0121.7118.8121.8124.5121.7122.7116.3124.0119.0124.5121.8124.9130.0123.5128.1119.7126.1131.3123.8114.7122.2122.8128.6122.0132.5122.0123.5116.3126.1119.2126.4118.4121.0119.1116.9131.1120.4115.2118.0122.4114.3116.9126.4114.2127.2118.3127.8123.0117.4123.2119.9122.1120.4124.8122.1114.4120.5115.0122.81

10、16.8125.8120.1124.8122.7119.4128.2124.1127.2120.0122.7118.3127.1122.5116.3125.1124.4112.3121.3127.0113.5118.8127.6125.2121.5122.5129.1122.6134.5118.3132.8第十八张,PPT共七十七页,创作于2022年6月本例资料,最大值为134.5cm,最小值为110.2cm,故极差 R=134.5-110.2=24.3cm组数不宜太多,也不宜太少。一般根据样本量的多少分成8-15组。 本例假设分成10组。 理论上组距等于极差除以组数。但不拘泥于计算结果,而常

11、常取一个比较好处理的数。组距可以相等,也可以不等。 本例,组距=24.3/10=2.43,我们取为2cm。 组段:上限、下限列表划记第十九张,PPT共七十七页,创作于2022年6月某市1995年110名7岁男童身高的频数分布表身高组段频数频率(%)累计频数累计频率(%)110 1 0.91 1 0.91112 3 2.73 4 3.64114 9 8.18 13 11.82116 9 8.18 22 20.00118 15 13.64 37 33.64120 18 16.36 55 50.00122 21 19.09 76 69.09124 14 12.73 90 81.82126 10 9.

12、09100 90.91128 4 3.64104 94.55130 3 2.73107 97.27132 2 1.82109 99.09134136 1 0.91110100.00合计110100.00第二十张,PPT共七十七页,创作于2022年6月频数表的用途 根据频数表,进而可以绘制频数图。揭示资料的分布特征和分布类型; 资料的分布范围、峰(单峰或多峰)和离散情况。 对于单峰分布资料, 对称分布,其中一种特殊的分布叫做正态分布; 非对称分布,又称偏态分布。便于发现可疑值;便于进一步计算指标和统计分析处理。第二十一张,PPT共七十七页,创作于2022年6月第三节 集中位置的度量 一、算术平均

13、数(Arithmetic Mean) 简称为均数(Mean),总体均数用希腊字母表示,样本均数用 表示。 x=nxxxn+L21=鍈nx/ 适用于服从正态分布的资料。 第二十二张,PPT共七十七页,创作于2022年6月一、算术平均数=120第二十三张,PPT共七十七页,创作于2022年6月一、算术平均数 x为每个组段的组中值,f为相应组段的频数。 原理:将落在某一组段内的观察值都视为 组中值。 本例: =(4.04+4.25+5.83)/120 =595.8/120=4.965 如用原始观察值计算有 =(5.195+5.070+5.010)/120 =4.959第二十四张,PPT共七十七页,创

14、作于2022年6月二、几何均数(Geometric Mean) 几何均数用G表示, 为观察值的总乘积开n 次方根,有第二十五张,PPT共七十七页,创作于2022年6月常用对数计算,公式如下: LogG=logX/n 再查反对数得出G。列成频数表时计算公式如下: LogG=flogX/f 适用条件:1.成倍数关系的资料。 2.明显正偏态分布的资料。二、几何均数(Geometric Mean)第二十六张,PPT共七十七页,创作于2022年6月二、几何均数(Geometric Mean) 例3.3 6例钩端螺旋体病人的潜伏期分别为7, 10, 12, 14, 18, 20天, 求其平均潜伏期。 解:

15、 或者lgG=(lg7+lg10+lg20)/6=1.1045 查反对数得G=12.7(天) 第二十七张,PPT共七十七页,创作于2022年6月二、几何均数(Geometric Mean) 当为滴度资料时,如5名学龄儿童的麻疹血凝抑制抗体滴度为1:25, 1:50, 1:50, 1:100, 1:100, 可先取其倒数,25, 50, 50, 100, 100,再求取几何均数为57.43, 则平均抗体滴度为1:57。 第二十八张,PPT共七十七页,创作于2022年6月三中位数(Median) 中位数用M表示,它将总体或样本的全部观察 值分成两部分,每部分各有50%个观察值。 计算方法为:先将原

16、始观察值按由小到大顺序排列后,位次处于中间的那个观察值为中位数。观察值数为奇数时,处于中间的那个数为中位数。偶数时处于中间的两个数的均数为中位数。第二十九张,PPT共七十七页,创作于2022年6月三中位数(Median) 如求数列7, 10, 12, 14, 18, 20的中位数。n=6,为偶数,取中间两个数的平均数,则 M=(12+14)/2=13(天) 如求数列7, 10, 12, 14, 15,18, 20的中位数。n=7, 为奇数,取中间那个数为中位数。则 M=14(天)第三十张,PPT共七十七页,创作于2022年6月三中位数(Median) 适用于表示任何分布资料的平均水平。但常用于

17、非正态分布资料。由于中位数不受个别特大,特小数值的影响, 因此它比均数稳健,常用于资料分布不明,或明显偏态,或分布的一端无确定值的情况。第三十一张,PPT共七十七页,创作于2022年6月四众数(Mode) 频数最大的变量值称为众数。列成频数表的资料,频数最大的组段的组中值为众数。第三十二张,PPT共七十七页,创作于2022年6月集中趋势的测度第三十三张,PPT共七十七页,创作于2022年6月五百分位数(Percentile) 第X百分位数以Px表示,它将总体或样本的全部观察值分成二个部分,其中有x%个观察值小于Px, (100-x)%个观察值大于Px。 用途:1.描述一组资料在各个百分位置上的

18、水平,用一组百分位数如P5,P25, P50, P75, P95,可以描述总体或样本的分布特征,如集中位置、变异度等。第三十四张,PPT共七十七页,创作于2022年6月百分位数70%下侧30%上侧第70个百分位数值四分之一分位数=25%四分之二分位数=50%第三十五张,PPT共七十七页,创作于2022年6月五百分位数(Percentile) 2.确定医学正常值范围。 P25称为第1四分位数;记为Q1。 P50称为第2四分位数;记为Q2,就是中位数M P75称为第3四分位数;记为Q3。 计算百分位数时,特别是靠近两端的百分位数时,要求例数足够大,大于100例。 第三十六张,PPT共七十七页,创作

19、于2022年6月五百分位数(Percentile)例:用直接法计算例3.2资料共120例的第5百分位数, 用频数表法计算第95百分位数, 解:将原始观察值由小到大排列,得3.980, 4.065, 4.070, 4.070, 4.2150, 4.250, 4.260, 4.290, 5.850, 5.875 先确定第x百分位数在第几位。用公式:(n+1)x%第三十七张,PPT共七十七页,创作于2022年6月五百分位数(Percentile)本例(120+1)5%=6.05,第5百分位数在第6.05位,即第6到第7位之间。简单的算法是取第6和第7位数的平均值,P5=(4.250+4.260)/2

20、=4.255 (1012/L)。第三十八张,PPT共七十七页,创作于2022年6月五百分位数(Percentile)第三十九张,PPT共七十七页,创作于2022年6月五百分位数(Percentile) 计算P951.列出频数分布表,计算累计频数。2.计算nx%,12095%=1143.对照累计频数栏与nx%确定PX应落在哪一个组段中。114将在组限为5.5的组中,该组段下限为L,组距为i,频数为f,上一组累积频数为f l 。PX=L+ i(nx%-f l)/f , P95=5.5+0.2(114-108)/9=5.633 (1012/L)第四十张,PPT共七十七页,创作于2022年6月第三节

21、离散程度的指标1.全距(Range)是最大与最小观察值之差。全距计算方便,但仅利用最大与最小二个数据来代表全部数据的离散程度,信息利用差。全距受特大与特小值影响大,不稳定。2.四分位数间距(Interquartile Range)第四十一张,PPT共七十七页,创作于2022年6月第三节 离散程度的指标四分位数间距是第3四分位数与第1四分位数之差,即P75-P25。四分位数间距受特大值或特小值影响小,较稳定。中位数和四分位数间距相结合常用于表示非正态分布资料的平均水平和离散程度。第四十二张,PPT共七十七页,创作于2022年6月第三节 离散程度的指标3.标准差与方差(Standard Devia

22、tion and Variance) 总体的标准差,方差符号为,2,样本的标准差,方差符号为S,S2。 第四十三张,PPT共七十七页,创作于2022年6月第三节 离散程度的指标当为频数表资料时,公式如下: 方差S2是标准差S的平方值。标准差(或方差)越大,表示观察值的分布越分散,反之,标准差(或方差)越小,表示观察值的分布越集中。实际应用时常以均数标准差的写法综合观察值的集中和离散特征。 第四十四张,PPT共七十七页,创作于2022年6月第三节 离散程度的指标4.变异系数(Coefficient of Variation)简记为CV,它是标准差与均数之比,用百分数表达。由于CV无量度单位,而且

23、消除了原始资料的平均水平的影响,因此常用于比较量度单位不相同的指标或者平均水平相差悬殊的指标的变异程度。 第四十五张,PPT共七十七页,创作于2022年6月第三节 离散程度的指标第四十六张,PPT共七十七页,创作于2022年6月偏态系数(skewness):评价正态分布对称性的指标。 对称:skewness=0; 正偏态:skewness0;个别数据特别大。 负偏态:skewness0;个别数据特别小。第四十七张,PPT共七十七页,创作于2022年6月峰态系数(kurtosis):评价正态分布正态峰的指标。 正态峰:kurtosis=0; 尖峭峰:kurtosis0; 平阔峰:kurtosis

24、0;第四十八张,PPT共七十七页,创作于2022年6月第四节 统计表与统计图第四十九张,PPT共七十七页,创作于2022年6月 统计图表都是将已整理好的资料用简明的格式或图形表达出来,因此是表达和分析统计资料的重要工具。 统计表可以代替冗长的文字叙述,便于计算、分析和对比。统计图则具有问题突出,简单明了,形象化等优点,能使人一目了然。 但统计表不形象,统计图对数字的反映不精确。因此在实际工作中,往往同时使用统计表和统计图。第五十张,PPT共七十七页,创作于2022年6月统计表 统计表(statistical table)是以表格的形式,表达被研究对象的特征、内部构成及研究项目分组之间的数量关系

25、。统计表的结构从外形看标题: 说明表的名称横标目:说明各横行数字的涵义纵标目:说明各纵栏数字的涵义总标目第五十一张,PPT共七十七页,创作于2022年6月表1 某年某地消费者对有机食品的态度性别对有机食品的态度合计喜欢()不喜欢()男30(20.0)120(80.0)150女80(40.0)120(60.0)200合计110(31.4)240(68.6)350第五十二张,PPT共七十七页,创作于2022年6月从内容看主语:指研究的对象,通常列在表的左侧谓语:说明主语的各项指标,通常列在表的右侧 主语和谓语连起来能读成一句完整而通顺的话。第五十三张,PPT共七十七页,创作于2022年6月统计表的

26、种类简单表:按一个研究特征/标志/标识分组复合/组合表:按二个或二个以上研究特征/标志/标识分组第五十四张,PPT共七十七页,创作于2022年6月表 某大学某年的学生分布学院专业年级合计一二三四Aa1a2小计Bb1b2b3小计合计第五十五张,PPT共七十七页,创作于2022年6月绘制统计表的原则重点突出,简单明了主谓分明,层次清楚绘制统计表的要求标题标目线条数字备注第五十六张,PPT共七十七页,创作于2022年6月统计图 统计图(statistical graph)是用点的位置、线段的升降、直条的长短或者面积的大小等形式来表达统计资料之间的数量关系。 统计图形象、直观,便于对比分析,但对数量的

27、表达比较粗糙,不够精确。第五十七张,PPT共七十七页,创作于2022年6月绘图的基本要求根据资料的性质和分析目的,正确选择合适的图形;每图应有标题;直角坐标系中绘图时,纵横轴都应有标目,并注明单位;纵:横一般以5:7为宜;纵轴尺度一般应从“0”开始。比较不同对象时,用不同的线条或颜色表示,并要附图例说明。图例写在图的下面或图的右上角。第五十八张,PPT共七十七页,创作于2022年6月几种常用的统计图直条图(bar graph) 直条图用等宽直条的长短来表示相互独立的各指标的数值大小。 适用于相互独立的、无连续关系的间断性资料的比较。 种类:单式直条图和复式直条图第五十九张,PPT共七十七页,创

28、作于2022年6月第六十张,PPT共七十七页,创作于2022年6月第六十一张,PPT共七十七页,创作于2022年6月直条图的绘制要点纵轴应从“0”开始,中间不能折断,否则不能正确反映比较指标之间的相对比例;各直条的宽度应当相等。单式直条图直条之间要有间隔,间隔以直条的宽度或直条宽度的一半为宜。复式直条图同一指标之间不要有间隔;复式直条图中不同系列之间要用不同的图案或颜色相区别,并用图例说明;直条按某一系列中的长短顺序从大到小或者从小到大排列,以便比较。第六十二张,PPT共七十七页,创作于2022年6月圆图和百分条图 都适用于构成比资料。圆图(pie graph):又称饼图 以圆面积为100,圆内各扇形面积为各部分所占的百分比,用来表示全体中各部分的构成。第六十三张,PPT共七十七页,创作于2022年6月第六十四张,PPT共七十七页,创作于2022年6月绘制圆图的要点:每3.60为1;从相当于时钟12点或者9点的位置开始顺时针方向绘图;各部分用不同的图案或者颜色表示,或在图上标出各部分的百分比和名称,或以图例说明;同一组资料,按百分比大小顺序排列;比较不同组资料,画两个或多个等圆,在每一个圆的下面注明组别,按固定顺序排列各组成部分,用相同的图例。第六十五张,PPT共七十七页,创作于2022年6月百分条图(percent bar graph) 以一个直条的面积为100表示

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论