数据统计与分析方法

上传人：精*** IP属地：广东上传时间：2021-10-27 格式：PPT 页数：121 大小：2.59MB 积分：20 举报 版权申诉

已阅读5页，还剩116页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、瞎子王国里,有一只眼精的人就是国王!心电图的由来1780年有一天，年有一天，43岁的意大利解岁的意大利解剖学家伽伐尼剖学家伽伐尼Galvani Luigi，1737-1798），在实验室解剖青），在实验室解剖青蛙，在用银质手术刀触碰放在铁盘上蛙，在用银质手术刀触碰放在铁盘上的青蛙的时候，无意间发现青蛙腿部的青蛙的时候，无意间发现青蛙腿部肌肉抽搐了一下，仿佛受到电流的刺肌肉抽搐了一下，仿佛受到电流的刺激如果换用一种金属器械去触动青激如果换用一种金属器械去触动青蛙，就无此种反应。蛙，就无此种反应。1832年，一个晴朗的日子，还是年，一个晴朗的日子，还是意大利，还是青蛙，只是做实验的意大利，还是青蛙

2、，只是做实验的人换成了马泰乌奇。人换成了马泰乌奇。这一次，马泰乌奇探测到损伤和未这一次，马泰乌奇探测到损伤和未损伤的肌肉之间存在一种电流，他损伤的肌肉之间存在一种电流，他称之为称之为“肌肉电流肌肉电流”。他发现，包。他发现，包括心脏在内，一切正在收缩的肌肉括心脏在内，一切正在收缩的肌肉都会产生肌肉电流。都会产生肌肉电流。1、什么是数据？数据表现形式数据表现形式表现形式一表现形式一数据列表数据表现形式二数据表现形式二2 24 48 82 26 69 92 22 24 42 24 45 53 38 81 15 59 95 52 25 55 52 25 54 42 23 37 72 21 11 1

3、1 17 71 11 16 66 62 24 47 74 42 22 23 30 03 33 32 20 04 41 12 24 42 20 06 66 67 74 47 70 03 36 66 64 41 10 04 40 03 33 33 30 03 34 43 34 47 77 70 01 10 00 02 20 00 03 30 00 04 40 00 05 50 00 06 60 00 07 70 00 08 80 00 01 12 2月月1 1月月2 2月月3 3月月4 4月月5 5月月6 6月月7 7月月8 8月月9 9月月1 10 0月月1 11 1月月1 12 2月月描述性分

4、析：数据分时段走势、差距变化情况以及描述性分析：数据分时段走势、差距变化情况以及相应的时间背景相应的时间背景销售码洋趋势图销售码洋趋势图数据表现形式三数据表现形式三3 31 1. .0 0% %3 36 6. .2 2% %4 43 3. .4 4% %3 36 6. .4 4% %6 64 4. .3 3% %8 85 5. .3 3% %5 57 7. .5 5% %6 60 0. .2 2% %5 53 3. .5 5% %4 47 7. .4 4% %3 39 9. .5 5% %3 35 5. .5 5% %3 33 3. .0 0% %1 13 3. .2 2% %2 21 1.

5、 .1 1% %3 30 0. .8 8% %3 36 6. .1 1% %4 49 9. .0 0% %6 67 7. .0 0% %5 51 1. .5 5% %4 47 7. .3 3% %4 43 3. .3 3% %3 37 7. .4 4% %3 30 0. .4 4% %2 25 5. .5 5% %2 27 7. .3 3% %0 0% %1 10 0% %2 20 0% %3 30 0% %4 40 0% %5 50 0% %6 60 0% %7 70 0% %8 80 0% %9 90 0% %1 12 2月月1 1月月2 2月月3 3月月4 4月月5 5月月6 6月月7

6、7月月8 8月月9 9月月1 10 0月月1 11 1月月1 12 2月月销售码洋结构比销售码洋结构比1、计量资料 (measurement data) 用仪器、工具等测量方法获得的数据，又称数值变量。特点：有计量单位，如患者的身高(cm),体重(kg),血压(kPa)等.2、计数资料 (count data) 按某种属性分类计数后得到的数据，又称无序分类变量，有二分类和多分类两种情形. 特点：无计量单位，如肤色(黑白)、血型(ABO)、职业(工农兵)、性别(男，女)等.3、等级资料 (ordinal data) 半定性或半定量的观察结果，有大小顺序，又称有序分类变量.如癌症分期：早、中、

7、晚。药物疗效：治愈、好转、无效、死亡。尿蛋白： ,+,+及以上住院号住院号年龄年龄身高身高体重体重住院住院天数天数职业职业文化文化程度程度分娩分娩方式方式妊娠妊娠结局结局2716571.55无无中学中学顺产顺产足月足月2216074.05无无小学小学助产助产足月足月2515868.06管理员管理员大学大学顺产顺产足月足月2316169.05无无中学中学剖宫产剖宫产足月足月2515962.011商业商业中学中学剖宫产剖宫产足月足月2715768.02无无小学小学顺产顺产早产早产2015866.04无无中学中学助产助产早产早产2415870.53无无中学中学助产助产足月足月2915457.07

8、干部干部中学中学剖宫产剖宫产足月足月计量资料计数资料例：一组2040岁成年人的血压以12kPa为界分为正常与异常两组，统计每组例数 8 低血压 8 正常血压 12 轻度高血压 15 中度高血压 17 重度高血压计量资料等级资料计数资料什么是统计方法什么是统计方法统计方法统计方法是指有关收集、整理、是指有关收集、整理、分析和解释统计分析和解释统计数据数据，并对其所，并对其所反映的问题作出一定结论的方法反映的问题作出一定结论的方法。统计方法统计方法是一种从微观结构上是一种从微观结构上来研究物质的宏观性质及其规律来研究物质的宏观性质及其规律的独特的方法。的独特的方法。一般统计方法根据数据的类型

9、可以分为以下三种统计方法根据数据的类型可以分为以下三种统计方法 1 、计量资料的统计方法、计量资料的统计方法* 2 、计数资料的统计方法、计数资料的统计方法 3 、等级资料的统计方法、等级资料的统计方法运用统计方法应遵循的原则&坚持用数据说话的基本观点。&有目的地收集数据。&掌握数据的来源。&认真整理数据。统计分析流程统计分析流程确定问题确定分析目标采用科学方法收集数据考察数据时效性整理数据统计分析出具分析报告，提出解决意或建议1 1、频数分布、频数分布 (frequency distribution)(frequency distribution)为了了解数据

10、的分布情况,可以编制频数表(frequency table).（1）求极差(range)：即最大值与最小值之差，又称为全距。（2）数据分组: 由样本容量n确定组数、通常分10-15个组; 一般采取等距分组, 组距=极差/组数。（3）列出组段：第一组段的下限略小于最小值，最后一个组段上限必须包含最大值，其它组段上限值忽略。（4）划记计数：用划记法将所有数据归纳到各组段，得到各组段的频数。l 频数表的编制步骤编号编号血清甘油三脂血清甘油三脂编号编号血清甘油三脂血清甘油三脂1 10.510.512 20.520.521531531.651.653 30.590.591541541.661.664 4

11、0.610.611551551.671.675 50.610.611561561.671.676 60.620.621571571.691.697 70.630.631581581.71.78 80.640.641591591.711.711601601.771.77 表2-1: 160名正常成年女子的血清甘油三酯（mmol/L）组段组段（1）划划记记（2）频数，频数，f（3）组中值，组中值，X（4） fX(5)= (3)(4)0.5 30.551.650.6正正90.655.850.7正正正正120.759.000.8正正正正130.8511.050.9正正正正正正170.951

12、6.151.0正正正正正正181.0518.901.1正正正正正正正正201.1523.001.2正正正正正正181.2522.501.3正正正正正正171.3522.951.4正正正正131.4518.851.5正正91.5512.401.6正正 81.6514.851.71.8 合计合计 31.755.25160182.30编制频数表,绘制频数分布图对称分布：以频数最多组段为中心左右大体对称.右(正)偏态分布: 频数最多组段右侧组段数多.(skewed to the right distribution)左(负)偏态分布: 频数最多组段左侧组段数多.(skewed to the right

13、 distribution)2、集中趋势的描述统计上使用平均数(average)来反映计量资料的集中趋势( central tendency ). 常用平均数有：1. 算术均数(arithmetic mean)，简称均数 (mean)2. 几何均数(geometric mean)3. 中位数 (median)4. 百分位数(percentile)nXnXXXXn21iikkkffXffffXffXfXXfX32132111lglgiiifXGf12nnGX XX为偶数为奇数nxxnxMdnnn22/12/2/ )1(3、离散趋势的描述反映数据的离散度(Dispersion), 即个体观察值

14、的变异(variation)程度, 常用的统计指标有： 1. 极差(Range) (全距) 2. 四分位数间距 (Quartile range) 3. 方差(Variance) 4. 标准差(Standard Deviation) 5. 变异系数(Coefficient of Variation)minmaxXXR221XXnSn四分位间距：QRP75 P25%100XSCV住院号住院号年龄年龄职业职业文化程度文化程度分娩方式分娩方式妊娠结局妊娠结局27无无中学中学顺产顺产足月足月22无无小学小学助产助产足月足月25管理人员管理人员大学大学顺产顺产足月足月24知识分子知识分子中学中学顺产顺产早

15、产早产30管理人员管理人员大学大学顺产顺产足月足月32无无小学小学剖宫产剖宫产足月足月27无无中学中学顺产顺产死产死产29无无大学大学剖宫产剖宫产足月足月25农民农民中学中学顺产顺产足月足月26无无小学小学顺产顺产足月足月1、计数资料数据的整理、计数资料数据的整理按年龄（按年龄（2 2岁一组）与职业整理岁一组）与职业整理年龄年龄工人工人管理人员管理人员农民农民商业服务商业服务无无知识分子知识分子总计总计1818 2 2 0 0 0 0 0 0 3 3 0 0 5 52020 9 9 2 2 6 61010 1818 0 0 454522222828 7 710102424 7070111115

16、015024245050343428285252153153444436136126265050434325254545133133707036636628283434353510103434 7878575724824830301111141411112222 3939171711411432321414 2 2 3 31414 2424 3 3 60603434 4 4 2 2 5 5 3 3 1212 2 2 28283636 2 2 1 1 1 1 4 4 5 5 1 1 14143838 3 3 1 1 1 1 0 0 2 2 1 1 8 84040 0 0 0 0 2 2 0 0

17、0 0 0 0 2 2合计合计 207207 141141102102208208537537206206140114012、常用相对数指标计数资料常用的数据形式是绝对数,如某病的出院人数,治愈人数等.但绝对数不具可比性,需要计算相对数.l 率（rate）：说明某现象或某事物发生的频率或强度。率=（实际发生数/可能发生总数）比例基数比例基数：100%、1000、10000/万、100000（1/10万）等如：发病率、死亡率、发生率、阳性率、患病率等l 构成比（proportion）：说明某一事物内部，各组成部分所占的比重,也叫百分比。构成比=（某部分观察单位数/各组成部分观察单位总数）1

18、00% 如：教研室20人中高级职称有5人，占25。l 相对比（relative ratio）：是A、B两个有关指标之比，说明A是B的若干倍或百分之几，通常用倍数或分数表示。如：男：女、医生：护士、教师：学生年龄组年龄组受检人数受检人数白内障白内障例数例数患者年龄患者年龄构成比（构成比（%）患病率（患病率（%）=(3)/(2)4050607080合计合计560441296149 2268129135 97 1915.1828.7930.1321.65 4.2412.1429.2545.6165.1086.36 1468448100.0030.52例例: 率与构成比率与构成比(1) 不能以构

19、成比代替率。(2) 计算相对数的分母不宜过小, 小则直接叙述。(3) 进行率的对比分析时，应注意资料可比性。如比较疗效时，比较组间应病情轻重相同，性别影响，应按性别分组后再作比较。(4) 正确求平均率。例：若P1=x1/n1 P2=x2/n2 P3=x3/n3 P（x1+ x2+ x3）/ n1+ n2+ n3） (正确) P（P1+ P2+ P3）/3 (错误)3、相对数应用注意事项统计表(statistical table)数据代替文字描述，便于统计结果的精确、简洁的表达和对比分析. 统计图(statistical chart)用图形代替数据，获得直观、形象的效果.定义:将统计分析的

20、事物及指标用表格列出.特点:避免长篇文字叙述,便于阅读和对比分析;数据具体.定义:用点的位置,线段的升降,直条的长短或面积的大小等形式表达统计资料.特点:直观,醒目,常给人以深刻印象.统计表由以下几个部分组成：标题、标目、线条、数字、备注表2-9 某省某工厂 1994、1998年四项检测指标异常检出率检测检测指标指标1994年年1998年年受检人数受检人数异常人数异常人数检出率检出率(%) 受检人数受检人数异常人数异常人数检出率检出率(%) 血压血压心率心率 TTT GPT 5195195195195544362010.16 0.48 6.94 3.855825825825823839

21、23166.526.703.952.75 ：TTT（麝香草酚浊度试验），（麝香草酚浊度试验），：GPT（谷丙转氨酶）。（谷丙转氨酶）。 (丁建生等丁建生等. 中国卫生统计中国卫生统计 1999; 16(3):166 )1、统计表的结构. . . 纵标目总标目（单位）. 合计 . . 横标目纵标目纵标目纵标目总标目横标目的总标目备注：表号标题（包括何时、何地、何事）2、三线表根据分组标目的复杂程度，统计表可大致分为简单表根据分组标目的复杂程度，统计表可大致分为简单表和复合表。和复合表。简单表简单表(simple table)(simple table)：

22、只按一个特征或标志分组。：只按一个特征或标志分组。如表如表2-8 2-8 。复合表复合表(combinative table) (combinative table) ：按两个或两个以上特：按两个或两个以上特征或标志结合起来分组。如表征或标志结合起来分组。如表2-92-9。3、统计表的分类表表 2-15 第第三三组组病病人人各各年年存存活活及及死死亡亡情情况况 (原原表表) 年年份份(1) 病病例例数数(2) 存存活活数数(3) 住住院院期期死死亡亡总总例例数数 (4)=(2)+(3) 急急性性期期死死亡亡数数 (5) 住住院院期期总总病病死死率率(%) (6)=(4)/(2) 急急性性期

23、期病病死死率率(%) (7)=(5)/(2) 1964 17 9 8 7 47.1 41.2 1965 13 8 5 4 38.5 30.8 1966 15 8 7 6 46.7 40.0 1967 15 9 6 6 40.0 40.0 1968 12 8 4 4 33.3 33.3 合合计计 72 42 30 27 41.7 37.5 表表 2-16 19641968 年年急急性性心心肌肌梗梗塞塞患患者者的的病病死死率率（修修改改表表）死死亡亡例例数数病病死死率率（%）年年份份病病例例数数住住院院数数急急性性期期住住院院期期急急性性期期 1964 17 8 7 47.1 4

24、1.2 1965 13 5 4 38.5 30.8 1966 15 7 6 46.7 40.0 1967 15 6 6 40.0 40.0 1968 12 4 4 33.3 33.3 合合计计 72 30 27 41.7 37.5 3、不良统计表的修改统计图(statistical chart 或statistical graph)是用点、线、面等几何图形，直观形象地表达、描述数据或结果。 3、统计图 SPSS绘制基本图形SPSS绘制基本图形条形图(Bar Chart) 用途：用等宽直条的长短来表示相互独立的各统计指标的数值大小,也叫直条图. 分单式和复式两种.单式条形图复式条形图圆图(Pi

25、e Chart) 用途：以圆的半径将圆面分割成多个大小不等的扇形，以扇形面积来表达构成比的图形。线图(Line Chart) 用途：适用于连续变量资料，说明某事物因时间、条件推移而变迁的趋势。直方图(Histogram) 用途：直方图是以面积表示数量，适用于表达连续性资料的频数或频率分布。什么是数据分析请牢记：所有的分析要从“结果结果” 出发，没有结论的数字罗列并不是分析； “结果结果”：发现问题和解决问题。数据分析不是一门复杂的科学数据分析不是一门复杂的科学；而是一些简单的“common sense”；复杂的运算通常只是令分析结果更差而不是更好；绝大多数是简单的想法和简单的沟通

26、数据分析有时候是一门艺术数据分析有时候是一门艺术同样的数据会有不同的解读优秀和平庸的差异，有时候差在一种灵感数据分析目的让数据说话；行动的向导；杜绝浪费；提供决策的依据。数据分析误区数据分析误区误区一误区一: :展示元素不宜大于展示元素不宜大于3 3个个0 01 10 00 00 00 00 02 20 00 00 00 00 03 30 00 00 00 00 04 40 00 00 00 00 05 50 00 00 00 00 06 60 00 00 00 00 07 70 00 00 00 00 08 80 00 00 00 00 09 90 00 00 00 00 01 10 00

27、00 00 00 00 01 12 2月月1 1月月2 2月月3 3月月4 4月月5 5月月6 6月月7 7月月8 8月月9 9月月1 10 0月月1 11 1月月1 12 2月月数据分析误区数据分析误区误区二误区二:时间序列数据最好使用折线图，而不宜使时间序列数据最好使用折线图，而不宜使用柱状图等用柱状图等0 01 10 00 00 00 00 02 20 00 00 00 00 03 30 00 00 00 00 04 40 00 00 00 00 05 50 00 00 00 00 06 60 00 00 00 00 07 70 00 00 00 00 08 80 00 00 00 00

28、 09 90 00 00 00 00 01 10 00 00 00 00 00 01 12 2月月1 1月月2 2月月3 3月月4 4月月5 5月月6 6月月7 7月月8 8月月9 9月月1 10 0月月1 11 1月月1 12 2月月误区三:研究用数据最好不使用三维立体图研究用数据最好不使用三维立体图1 12 2月月1 1月月2 2月月3 3月月4 4月月5 5月月6 6月月7 7月月8 8月月9 9月月1 10 0月月1 11 1月月1 12 2月月S S1 1S S3 30 01 10 00 00 00 00 02 20 00 00 00 00 03 30 00 00 00 00 04

29、40 00 00 00 00 05 50 00 00 00 00 06 60 00 00 00 00 07 70 00 00 00 00 08 80 00 00 00 00 09 90 00 00 00 00 01 10 00 00 00 00 00 0数据分析误区数据分析误区误区四：为避免图表的欺骗性，图线最好占据误区四：为避免图表的欺骗性，图线最好占据2/3 2/3 至至3/43/4的高度（调整的高度（调整Y Y轴刻度）轴刻度）7 7 3 3 . . 7 7 % %6 6 8 8 . . 1 1 % %6 6 9 9 . . 0 0 % %7 7 2 2 . . 9 9 % %7 7 3

30、3 . . 1 1 % %7 7 5 5 . . 6 6 % %7 7 0 0 . . 9 9 % %7 7 1 1 . . 9 9 % %7 7 1 1 . . 6 6 % %6 6 9 9 . . 0 0 % %6 6 2 2 . . 2 2 % %6 6 7 7 . . 1 1 % %7 7 5 5 . . 7 7 % %8 8 3 3 . . 5 5 % %7 7 1 1 . . 5 5 % %7 7 5 5 . . 4 4 % %7 7 9 9 . . 0 0 % %7 7 5 5 . . 8 8 % %7 7 6 6 . . 9 9 % %7 7 4 4 . . 5 5 % %6

31、6 8 8 . . 9 9 % %7 7 2 2 . . 9 9 % %7 7 7 7 . . 3 3 % %6 6 7 7 . . 7 7 % %7 7 5 5 . . 5 5 % %7 7 9 9 . . 6 6 % %0 0 % %1 1 0 0 % %2 2 0 0 % %3 3 0 0 % %4 4 0 0 % %5 5 0 0 % %6 6 0 0 % %7 7 0 0 % %8 8 0 0 % %9 9 0 0 % %1 1 0 0 0 0 % %1 1 2 2 月月 1 1 月月 2 2 月月 3 3 月月 4 4 月月 5 5 月月 6 6 月月 7 7 月月 8 8 月月

32、9 9 月月 1 1 0 0 月月 1 1 1 1 月月 1 1 2 2 月月7 73 3. .7 7% %6 68 8. .1 1% %6 69 9. .0 0% %7 72 2. .9 9% %7 73 3. .1 1% %7 75 5. .6 6% %7 70 0. .9 9% %7 71 1. .9 9% %7 71 1. .6 6% %6 69 9. .0 0% %6 62 2. .2 2% %6 67 7. .1 1% %7 75 5. .7 7% %8 83 3. .5 5% %7 71 1. .5 5% %7 75 5. .4 4% %7 79 9. .0 0% %7 75 5

33、. .8 8% %7 76 6. .9 9% %7 74 4. .5 5% %6 68 8. .9 9% %7 72 2. .9 9% %7 77 7. .3 3% %6 67 7. .7 7% %7 75 5. .5 5% %7 79 9. .6 6% %6 60 0% %6 65 5% %7 70 0% %7 75 5% %8 80 0% %8 85 5% %1 12 2月月 1 1月月 2 2月月 3 3月月 4 4月月 5 5月月 6 6月月 7 7月月 8 8月月 9 9月月 1 10 0月月 1 11 1月月 1 12 2月月数据分析误区数据分析误区1 1、抽样法、抽样法* *2

34、2、聚类分析（、聚类分析（Cluster AnalysisCluster Analysis）* *3 3、因子分析（、因子分析（Factor AnalysisFactor Analysis）4 4、相关分析、相关分析(Correlation Analysis)(Correlation Analysis)5 5、对应分析对应分析（Correspondence Correspondence AnalysisAnalysis）6 6、回归分析（、回归分析（regression analysis)regression analysis)7 7、方差分析、方差分析(ANOVA/Analysis of (

35、ANOVA/Analysis of Variance)Variance)总体、个体总体、个体总体又叫母体，是研究对象的全体。总体又叫母体，是研究对象的全体。出版商一个批次到货出版商一个批次到货的全部都可以称为总体。的全部都可以称为总体。构成总体的基本单位，称为个体。构成总体的基本单位，称为个体。每册书都是一个个体。每册书都是一个个体。来货检验常用抽样方法进行，即从来货总件数中抽出一部分件数，并来货检验常用抽样方法进行，即从来货总件数中抽出一部分件数，并测试每件的有关册数是否够数的特性数据，进行统计分析后，对总体测试每件的有关册数是否够数的特性数据，进行统计分析后，对总体作出估计和判断。作出估计

36、和判断。一般地，设一个总体含有一般地，设一个总体含有N N个个个体个体，从，从中逐个不放回地中逐个不放回地抽取抽取n n个个体作为个个体作为样本样本（nNnN），如果每次抽取使），如果每次抽取使总体总体内的各内的各个个体被抽到的个个体被抽到的机会机会都相等，就把这种都相等，就把这种抽样方法叫做简单随机抽样。抽样方法抽样方法叫做简单随机抽样。抽样方法主要包括：随机抽样、分层抽样、整体主要包括：随机抽样、分层抽样、整体抽样、系统抽样。抽样、系统抽样。样本样本样本样本又叫又叫子样子样，是从总体中抽出来一部分个体的集合。，是从总体中抽出来一部分个体的集合。样本中每个个体叫样本中每个个体叫样品样品，样本

37、中所包含样品数目称为样本大小，样本中所包含样品数目称为样本大小，又叫又叫样本量样本量，常用，常用n n表示。表示。对样本的特性进行测定，所得的数据称为对样本的特性进行测定，所得的数据称为样本值样本值。当样本个数越多时，分析结果越接近总体的值，样本对总体的代当样本个数越多时，分析结果越接近总体的值，样本对总体的代表性就越好。表性就越好。抽样方法抽样方法用的统计抽样方法主要有以下三种用的统计抽样方法主要有以下三种书书业业公公司司抽样方法抽样方法随机抽样随机抽样指总体中每一个个体都有同等可能的机会被抽到。这种抽样方法事先不能考虑抽取哪一个样品，完全用偶然方法抽样，常用抽签或利用随机数表来抽取样品以保

38、证样品代表性。抽样当图书品种不多时，随机抽样是一种有效的抽样方法；抽样方法抽样方法分层抽样分层抽样分层抽样是先将总体按照研究内容密切有关的主要因素分类或分层，然后在各层中按照随机原则抽取样本。分层抽样可以减少层内差异，增加样本的代表性。抽样样本当到货产品较多时，分层抽样是一种有效的抽样方法；当到货产品较多时，分层抽样是一种有效的抽样方法；抽样方法抽样方法系统抽样系统抽样从总体中每隔K个个体抽取一个个体的抽样方法，比值K是总体容量N与样本容量n之比；当出版商批量发货及产品特别多时，并且易作某种次序的整理时，当出版商批量发货及产品特别多时，并且易作某种次序的整理时，系统抽样比分层抽样好；系统抽样比

39、分层抽样好； 1， 2， . K K+ 1， K+2， .， 2K 2K + 1， 2K+2， .， 3K 直到 N为止例，从具有1000个个体的总体中抽取50个个体。总体、样本、数据间的关系总体、样本、数据间的关系总体总体样本样本结论结论数据数据抽样分析管理测试数理整理和统计数理整理和统计抽样的目的是通过样本来反映总体。抽样的目的是通过样本来反映总体。在书业公司经营管理中，常常将测试的样本数据，通过整理加工，找在书业公司经营管理中，常常将测试的样本数据，通过整理加工，找出它们的特性，从而推断总体的变化规律、趋势和性质。出它们的特性，从而推断总体的变化规律、趋势和性质。一批数据的分布情况，可以

40、用中心倾向及数据的分散程度来表示，表一批数据的分布情况，可以用中心倾向及数据的分散程度来表示，表示中心倾向的有平均值、中位值等，表示数据分散程度的有方差、标示中心倾向的有平均值、中位值等，表示数据分散程度的有方差、标准偏差、极差等。准偏差、极差等。描述总体数据离散程度的参数为方差描述总体数据离散程度的参数为方差2 2 ，描述总体数据中心倾向的，描述总体数据中心倾向的数为均值数为均值。若利用样本参数近似描述总体状况时，可以利用样本。若利用样本参数近似描述总体状况时，可以利用样本方差方差S S2 2近似代替总体方差近似代替总体方差2 2，利用样本均值，利用样本均值X X近似代替总体均值近似代替总

41、体均值p p。数理整理和统计数理整理和统计样本平均值样本平均值样本中位值样本中位值X = X1+X2+X3 .+Xnn中位值是按照数据大小顺序排列位于中间的数值，中位值记为X若n为偶数，则取位于中间两个数值的平均值为中位值；数理整理和统计数理整理和统计样本极差样本极差样本方差和样本标准偏差样本方差和样本标准偏差样本方差和样本标准差就是用来度量数据波动幅度大小的一个重要特性值。样本方差是一组数据中每一个数值与平均值之差的平方和的平均值，通常记为S2；样本方差的平方根S称作样本标准偏差，它与样本方差一样，是反映一组数据分散程度的特性值:样本极差表示一组数据分布的范围，是指数据中最大值与最小值的差:

42、 R = Xmax - Xmin2、聚类分析聚类分析指将物理或抽象对象的集合分组成为由聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。类似的对象组成的多个类的分析过程。聚类是将数据分类到不同的类或者簇这样的一个聚类是将数据分类到不同的类或者簇这样的一个过程，所以同一个簇中的对象有很大的相似性，而不过程，所以同一个簇中的对象有很大的相似性，而不同簇间的对象有很大的相异性。聚类分析是一种探索同簇间的对象有很大的相异性。聚类分析是一种探索性的分析，在分类的过程中，人们不必事先给出一个性的分析，在分类的过程中，人们不必事先给出一个分类的标准，聚类分析能够从样本数据出发，

43、自动进分类的标准，聚类分析能够从样本数据出发，自动进行分类。行分类。聚类分析所使用方法的不同，常常会得到不同的聚类分析所使用方法的不同，常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析，结论。不同研究者对于同一组数据进行聚类分析，所得到的聚类数未必一致。所得到的聚类数未必一致。分类俗语说，物以类聚、人以群分。但什么是分类的根据呢？比如，要想把中国的县分成若干类，就有很多种分类法；可以按照自然条件来分，比如考虑降水、土地、日照、湿度等各方面；也可以考虑收入、教育水准、医疗条件、基础设施等指标；既可以用某一项来分类，也可以同时考虑多项指标来分类。聚类分析对于一个数据，

44、人们既可以对变量（指标）进行分类(相当于对数据中的列分类)，也可以对观测值（事件，样品）来分类（相当于对数据中的行分类）。比如学生成绩数据就可以对学生按照理科或文科成绩（或者综合考虑各科成绩）分类，当然，并不一定事先假定有多少类，完全可以按照数据本身的规律来分类。下面要介绍的分类的方法称为聚类分析（cluster analysis）。对变量的聚类称为R型聚类，而对观测值聚类称为Q型聚类。这两种聚类在数学上是对称的，没有什么不同。饮料数据（drink.sav ） 16种饮料的热量、咖啡因、钠及价格四种变量种饮料的热量、咖啡因、钠及价格四种变量如何度量远近？如果想要对如果想要对100个

45、学生进行分类，如果仅仅知道个学生进行分类，如果仅仅知道他们的数学成绩，则只好按照数学成绩来分类；他们的数学成绩，则只好按照数学成绩来分类；这些成绩在直线上形成这些成绩在直线上形成100个点。这样就可以把个点。这样就可以把接近的点放到一类。接近的点放到一类。如果还知道他们的物理成绩，这样数学和物理成如果还知道他们的物理成绩，这样数学和物理成绩就形成二维平面上的绩就形成二维平面上的100个点，也可以按照距个点，也可以按照距离远近来分类。离远近来分类。三维或者更高维的情况也是类似；只不过三维以三维或者更高维的情况也是类似；只不过三维以上的图形无法直观地画出来而已。在饮料数据中上的图形无法直观地画

46、出来而已。在饮料数据中，每种饮料都有四个变量值。这就是四维空间点，每种饮料都有四个变量值。这就是四维空间点的问题了。的问题了。聚类分析聚类分析1、系统聚类法、系统聚类法-（分层聚类）系统聚类法（分层聚类）系统聚类法是应用最广泛的一种（是应用最广泛的一种（Hierarchical Cluster过程过程） 1）、）、聚类原则：都是相近的聚为一类，即聚类原则：都是相近的聚为一类，即距离最近或最相似的聚为距离最近或最相似的聚为一类。一类。 2）、）、分层聚类的方法可以用于样本聚类（分层聚类的方法可以用于样本聚类（Q）型，也可以用于变量聚类（）型，也可以用于变量聚类（R型）。型）。2、非系统聚

47、类法、非系统聚类法-（快速聚类法（快速聚类法-K-均均值聚类法）（值聚类法）（K-means Cluster)3、两步聚类法、两步聚类法-一种探索性的聚类方法（一种探索性的聚类方法（TwoStep Cluster）K-K-均值聚类分析均值聚类分析K-means Cluster 又称为快速样本聚类法，是非系统聚类中最常用的聚类又称为快速样本聚类法，是非系统聚类中最常用的聚类法。法。优点：优点：是占内存少、计算量小、处理速度快，特别适合大样本是占内存少、计算量小、处理速度快，特别适合大样本的聚类分析。的聚类分析。缺点：缺点：应用范围有限，要求用户制定分类数目应用范围有限，要求用户制定分类数目(

48、要告知要告知)，只能，只能对对观测量（样本）观测量（样本）聚类，而不能对变量聚类，且所使用的聚类聚类，而不能对变量聚类，且所使用的聚类变量必须都是连续性变量变量必须都是连续性变量。时间序列分析时间序列分析( time series ( time series analysis)analysis)方法方法, ,强调的是通过对一个强调的是通过对一个区域进行一定时间段内的连续遥感观区域进行一定时间段内的连续遥感观测，提取图像有关特征，并分析其变测，提取图像有关特征，并分析其变化过程与发展规模。当然，首先需要化过程与发展规模。当然，首先需要根据检测对象的时相变化特点来确定根据检测对象的时相变化特点来确

49、定遥感监测的周期，从而选择合适的遥遥感监测的周期，从而选择合适的遥感数据。感数据。时间序列分析时间序列分析( time series analysis)( time series analysis)时间序列的基本概念时间序列的基本概念一、时间序列1、含义：指被观察到的依时间为序排列的数据序列。2、特点：（1）现实的、真实的一组数据，而不是数理统计中做实验得到的。既然是真实的，它就是反映某一现象的统计指标，因而，时间序列背后是某一现象的变化规律。（2）动态数据。2010年11月17日-2011年4月8日上证综指二、时间序列分析时间序列分析：是一种根据动态数据揭示系统动态结构和规律的统计方法

50、。其基本思想基本思想：根据系统的有限长度的运行记录（观察数据），建立能够比较精确地反映序列中所包含的动态依存关系的数学模型，并借以对系统的未来进行预报三、确定性时间序列分析与随机性时间序列分析:时间序列依据其特征，有以下几种表现形式，并产生与之相适应的分析方法：（1）长期趋势变化受某种基本因素的影响，数据依时间变化时表现为一种确定倾向，它按某种规则稳步地增长或下降。使用的分析方法有：移动平均法、指数平滑法、模型拟和法等；（2）季节性周期变化受季节更替等因素影响，序列依一固定周期规则性的变化，又称商业循环。采用的方法：季节指数；（3）循环变化周期不固定的波动变化。(4)随机性变化由许多不确

51、定因素引起的序列变化。它所使用的分析方法就是我们要讲的时间序列分析。趋势变化分析确定性变化分析周期变化分析循环变化分析时间序列分析随机性变化分析: AR、MA、ARMA模型 Wold分解定理（1938）对于任何一个离散平稳过程它都可以分解为两个不相关的平稳序列之和，其中一个为确定性的，另一个为随机性的，不妨记作其中：为确定性序列，为随机序列，它们需要满足如下条件（1）（2）（3）txtttVxtV t0jjtjt020, 1jj ), 0(2WNtstVEst , 0),(确定性序列与随机序列的定义对任意序列而言，令关于q期之前的序列值作线性回归其中为回归

52、残差序列，。确定性序列，若随机序列，若t2)(qtVar2lim0qq)(lim2tqqyVarCramer分解定理（1961）任何一个时间序列都可以分解为两部分的叠加：其中一部分是由多项式决定的确定性趋势成分，另一部分是平稳的零均值误差成分，即txtttx确定性影响随机性影响taB)(djjjt0循环变动循环变动C（Cyclical）不规则变动不规则变动I（Irregular）季节变动季节变动S（Seasonal）长期趋势长期趋势T（Trend）对两个分解定理的理解 Wold分解定理说明任何平稳序列都可以分解为确定性序列和随机序列之和。它是现代时间序列分析理论的灵魂，是构造ARMA

53、模型拟合平稳序列的理论基础。 Cramer 分解定理是Wold分解定理的理论推广，它说明任何一个序列的波动都可以视为同时受到了确定性影响和随机性影响的综合作用。平稳序列要求这两方面的影响都是稳定的，而非平稳序列产生的机理就在于它所受到的这两方面的影响至少有一方面是不稳定的。确定性时序分析的目的克服其它因素的影响，单纯测度出某一个确定性因素对序列的影响推断出各种确定性因素彼此之间的相互作用关系及它们对序列的综合影响4-3-2 4-3-2 时间序列时间序列趋势分析趋势分析目的有些时间序列具有非常显著的趋势，我们分析的目的就是要找到序列中的这种趋势，并利用这种趋势对序列的发展作出合理的预测

54、常用方法趋势拟合法平滑法趋势拟合法趋势拟合法就是把时间作为自变量，相应的序列观察值作为因变量，建立序列值随时间变化的回归模型的方法分类线性拟合非线性拟合线性拟合使用场合长期趋势呈现出线形特征模型结构)(, 0)(ttttIVarIEIbtax例:拟合澳大利亚政府19811990年每季度的消费支出序列线性拟合模型参数估计方法最小二乘估计参数估计值2)(, 0)(40,2 , 1,ttttIVarIEtIbtax12.89,69.8498ba拟合效果图非线性拟合使用场合长期趋势呈现出非线形特征参数估计指导思想能转换成线性模型的都转换成线性模型，用线性最小二乘法

55、进行参数估计实在不能转换成线性的，就用迭代法进行参数估计常用非线性模型模型变换变换后模型参数估计方法线性最小二乘估计线性最小二乘估计迭代法迭代法迭代法2ctbtaTtttabT ttbcaTtbcateTttbcaT122tt ttTTlnaalnbbln2ctbtaTttbaTt例：对上海证券交易所每月末上证指数序列进行模型拟合非线性拟合模型变换参数估计方法线性最小二乘估计拟合模型:2ctbtaTt22tt 20952. 02517.502tTt拟合效果图时间序列预测法时间序列预测法时间序列预测法可用于短期预测、中期预测和长期预测。根据对资料分析方法的不同，又可分为：简单序时平均数

56、法、加权序时平均数法平滑法平滑法是进行趋势分析和预测时常用的一种方法。它是利用修匀技术，削弱短期随机波动对序列的影响，使序列平滑化，从而显示出长期趋势变化的规律简单平均数法 :也称算术平均法。即把若干历史时期的统计数值作为观察值，求出算术平均数作为下期预测值。这种方法基于下列假设：“过去这样，今后也将这样”，把近期和远期数据等同化和平均化，因此只能适用于事物变化不大的趋势预测。如果事物呈现某种上升或下降的趋势，就不宜采用此法。加权平均数法: 就是把各个时期的历史数据按近期和远期影响程度进行加权，求出平均值，作为下期预测值。移动平均法基本思想假定在一个比较短的时间间隔里，序列值之间的差

57、异主要是由随机波动造成的。根据这种假定，我们可以用一定时间间隔内的平均值作为某一期的估计值分类 n期中心移动平均 n期移动平均移动平均期数确定的原则事件的发展有无周期性以周期长度作为移动平均的间隔长度，以消除周期效应的影响对趋势平滑的要求移动平均的期数越多，拟合趋势越平滑对趋势反映近期变化敏感程度的要求移动平均的期数越少，拟合趋势越敏感移动平均预测)(121nlTlTlTlTxxxnxilxilxxilTilTilT,时间序列模型的基本概念及其适用性时间序列模型的基本概念及其适用性时间序列模型的基本概念时间序列模型的基本概念随机时间序列模型（随机时间序

58、列模型（ n i m e s e r i e s modeling）是指仅用它的过去值及随机扰动项所建立起来的模型，其一般形式为 Yn=F(Yn-1, Yn-2, , n) 建立具体的时间序列模型，需解决如下三个建立具体的时间序列模型，需解决如下三个问题问题： (1)模型的具体形式模型的具体形式 (2)时序变量的滞后期时序变量的滞后期 (3)随机扰动项的结构随机扰动项的结构例如，取线性方程、一期滞后以及白噪声随机扰动项（ n =n），模型将是一个1阶自回阶自回归过程归过程AR(1)： Yn=aYn-1+ n这里， n特指一白噪声一白噪声。一般的p阶自回归过程阶自回归过程AR(p)是

59、 Yn=a1Yn-1+ a2Yn-2 + + apYn-p + n (*) (1)如果随机扰动项是一个白噪声(n=n)，则称(1)式为一纯纯AR(p)过程（过程（pure AR(p) process），记为 Yn=a1Yn-1+ a2Yn-2 + + apYn-p +n (2)如果n不是一个白噪声，通常认为它是一个q阶的移动平均（移动平均（moving average）过程）过程MA(q)： n=n - c1n-1 - c2n-2 - - cqn-q 该式给出了一个纯纯MA(q)过程（过程（pure MA(p) process）。一般的p阶自回归过程阶自回归过程AR(p)是 Yn=a1Yn-1+ a2Yn-2 + + apYn-p

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数据统计与分析方法

文档简介

温馨提示

最新文档

评论

数据统计与分析方法

文档简介

温馨提示

最新文档

评论

相关文档