




已阅读5页,还剩17页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
教 案20112012学年第一学期主 讲 教 师李晓燕课 程 名 称数据分析课程类别专业限选课学时及学分68;4授 课 班 级信息091使 用 教 材数据分析方法系(院.部)数理系教研室(实验室)信息与计算科学教研室数据分析总学时:68 适用专业:信息与计算科学内容:1. 数据的描述性分析 10学时2. 线性回归分析 13学时3.方差分析 10学时4.主成分分析与典型相关分析 8学时5.判别分析 8学时6.聚类分析 8学时7.Bayes统计分析 8学时8. SAS软件介绍 3学时教材:数据分析方法,梅长林、范金城编,高等教育出版社.参考资料:实用统计方法,梅长林、周家良编,科学出版社;SAS统计分析应用,董大钧编,电子工业出版社;应用多元统计分析,高惠璇编,北京大学出版社.作业:每周一次,以上机操作为主,通过网络平台布置与提交,批1/2.课时授课计划课次序号: 01 一、课题:1.1 一维数据的数字特征及相关系数 二、课型:新授课三、目的要求:1.掌握数据的数字特征(均值、方差等);2.掌握几种描述性分析的SAS过程和作图过程计算这些数字特征及进行描述性分析.四、教学重点:均值、方差等数字特征.教学难点:基本概念的理解.五、教学方法及手段:传统教学与上机实验相结合六、参考资料:1.实用统计方法,梅长林,周家良编,科学出版社;2.SAS统计分析应用,董大钧主编,电子工业出版社七、作业:1.1八、授课记录:授课日期11.9.5班次信息091九、授课效果分析:0 绪论一数据分析(也即多元统计分析)研究的内容和方法数据分析:是以数据为依据,以统计方法为理论、计算机及软为工具,研究多变量问题、挖掘数据的统计规律的学科.例如 下表给出某年级随机抽取的7名学生5门课程期末考试的成绩: 序号 政治 语文 外语 数学 物理 1 99 94 93 100 100 2 99 88 96 99 97 3 100 98 81 96 100 4 93 88 88 99 96 5 100 91 72 96 78 6 90 78 82 75 96 7 75 73 88 97 89如何根据抽样数据研究该年级学生的学习成绩?用各科成绩总和作为综合指标,比较学生成绩的好坏;根据各科成绩的近似程度对学生进行分类(成绩好的与成绩差的,文科成绩好的与理科成绩好的);研究各科成绩之间的关系(物理与数学成绩的关系,文科成绩与理科成绩的关系)等.综上所述,多元统计分析是以各变量的n次观测数据所组成的数据矩阵为依据的,根据实际问题的需要,给出种种方法.英统计学家肯德尔(Kendall) 概括多元统计分析研究内容和方法为以下几方面:1.多元统计的理论基础包括多维随机向量及多维正态随机向量及由此定义的各种多元统计量,推导其分布并研究性质、抽样分布理论概率统计、数据描述性分析.2.多元数据的统计推断参数估计和假设检验问题.特别是多元正态分布的均值向量及协方差阵的估计和假设检验等问题数据描述性分析、方差分析、Bayses统计推断.3.变量间的相互关系(1)相互依赖关系:分析一个或几个变量的变化是否依赖于另一些变量的变化,建立变量间的定量关系式,并用于预测或控制回归分析.(2)变量间的相互关系:分析两组变量间的相互关系典型相关分析.飓风和蝴蝶.4.简化数据结构(降维问题)通过变换将相关的变量变为不相关的;高维数据投影到低维空间,简化问题又损失信息不太多.如主成分分析、因子分析、相关分析、对应分析等方法. 5.分类与判别(归类问题)将考察的变量按相似程度分类聚类分析、判别分析.多元统计分析的起源:20世纪初,以1928年威沙特(Wishart)发表的论文多元正态总体样本协方差矩阵的精确分布为开端,之后费希尔(Fisher)、霍特林(Hotelling)、罗伊(Roy)、许宝騄等做了一系列奠基性的工作.20世纪50年代中期,电子计算机的出现和发展,使得多元统计分析在地质、气象、医学、社会学等方面得到广泛的应用.二多元统计分析的应用1.教育学学生成绩分析和预测.如高考成绩和高中成绩的关系,以此预测高考成绩;给出考生成绩次序排队的最佳方案;利用高中成绩进行分类(按文理科、总成绩).2.医学根据检查数据或病例资料建立诊断准则,诊断病例.3.气象学根据各地气象站的气象指标资料(降雨量、气温、气压、湿度、风速、风向等)做统计分析,进行天气预报等.4.环境科学分析污染气体浓度,布局监测点,污染治理.5.地质学处理地质观测数据,进行矿产预测、矿产构造解释、部署勘探工程等.6.考古学对发现的文物通过测得各类数据,判断出现的年代、种族等.7.服装工业抽样调查人体几十个部位的尺寸数据,进行统计分析,决定服装各型号及比例.使生产地成衣适应大多数顾客的需要.8.经济学宏观经济、微观经济的应用.9.农业农业灌区分类,农机分类等.10.社会科学通过调查研究青少年犯罪各因素间的相互关系及变化规律,进行预防.11.文学如复旦大学统计系李贤平使用聚类、主成分、相关分析,选定10个与情节无关的虚词为变量,统计每一回虚词出现的频数,进行统计分析,证明前80回为曹雪芹所写,而后40回是他人所写.12.其他体育科研、军事科学、生物学、心理学、生态学、保险、火警预报、地震预报、中医阴阳学说研究等.第一章 数据的分布数据的描述性分析即从数据出发概括数据的特征.分为数字特征和分布特征.数字特征:用简单的量概括数据包含的主要信息或特征.包括数据的集中位置、分散程度、数据分布的形状特征等.l 表达数据集中位置的指标,用以描述观察值的平均水平,如均值、中位数、分位数、三均值.l 表达数据的分散成度或变异的指标,用以描述观察值间参差别不齐的程度,如方差、标准差、变异系数、极差、四分位数等.l 表达数据分布的形状的数字特征等,如峰度和偏度.分布特征:反应数据整体结构特征.本章介绍一维和多维数据描述性分析的基本内容,包括数据的数字特征与分布特征的描述性分析.简介多维正态分布的定义和性质. 1.1 一维数据的数字特征设有n个一维数据: 它们是从所研究的对象(总体)X中观测得到的,称为样本观测值,n为样本容量.数据分析的任务:对样本观测值进行分析,提取数据中所包含的有用的信息,进一步对总体的信息做出推断.首先用一些简单的量概括数据中包含的信息或特征.1.1.1 表示位置的数字特征1均值(mean) (1.1) 为的(简单算术)平均数,简称均值.描述数据取值的平均位置.注意:10 优点:是总体均值的无偏一致估计,含有数据的完整信息,是位置的主要测度值.适用于数值型数据,不适用于分类和顺序数据. 20 缺点:易受数据中异常值的影响,缺乏抗扰性、稳健性.因此,在数据分析中还要考虑其他一些描述位置的数字特征. 30 其他平均值(不要求)(1)加权算术平均值(arithmetic mean) 其中为出现的頻数.(2)几何平均值(geometric mean)几何平均值适用于表达呈对数正态分布资料的平均水平.常用于速度、比率等变量的平均.为观察值的总乘积开次方根: 为避免溢出及方便计算,常用对数计算,也称对数平均值: 加权几何平均为: (3)调和平均值(harmonic mean )也称倒数平均值.调和平均值适用于表达呈极严重的正偏态分布资料的平均水平,有简单调和平均值与加权调和平均值两种: 简单调和平均值 加权调和平均值 (4)分组数据加权平均数据被分成组,各组组中值为,各组变量出现的頻数为,则分组加权平均公式为: 当数据量多时,采用分组加权平均,可大大减少工作量,又不至于造成太大误差.40 次序统计量:将观测值从小到大排列,记为其中:分别为最小和最大次序统计量.2中位数(median) (1.2)中位数将总体或样本的全部观察值分成两部分,每部分各有50%个观察值,其计算方法为:先将原始观察值按由小到大顺序排列后,位次处于中间的那个观察值为中位数.观察值为奇数时,处于中间的那个数为中位数.偶数时处于中间的两个数的均值为中位数.中位数是位置平均值,受异常值影响小,较好的稳健性在具有个别极大或极小值的分布数列中,中位数比算术平均值更具有代表性.适用于测量的顺序数据,表达数值型数据的集中趋势,不适用分类数据.3分位数(percentile) (1.3)分位数为顺序性数据.,的分位数以表示,将总体或样本观察值分成两部分,其中有100个观察值不超过.中位数就是0.5分位数.实际应用中,0.25与0.75分位数重要,分别称为下、上四分位数.简记为 4三均值 (1.4)为的加权平均,权重分别是.代表前25%部分,后25%部分,及中间的50%部分.在实际中,既要充分利用信息,又要较强的稳健性,可以将这些量综合起来,采用三均值作为概括位置的数字特征.5. 众数(mode)一组数据中出现頻数最多的变量值称为众数,列为频数表的资料,频数最大的组的组中值为众数.适用于粗略地表示呈单峰分布资料的集中趋势.当数据个数较少时,众数就是出现次数最多的个数据.例1.1 某城市随机抽取9个家庭,调查每个家庭的人均月收入数据(单位:元),如下: 1080 750 780 1080 850 960 2000 1250 1630计算人均月收入的均值及中位数.解:顺序统计量 750 780 850 960 1080 1080 1250 1630 2000, , 中位数, ,众数出现2次.二数字特征的作用总体的分布为 (或),即为总体均值的相合估计P,总体分布的分位数. 样本分位数为总体分位数的相合估计.例1.2 对某单位100名女学生测定血清蛋白含量(g/L),数据如下:74.3 78.8 68.8 78.0 70.4 80.5 80.5 69.7 71.2 73.579.5 75.6 75.0 78.8 72.0 72.0 72.0 74.3 71.2 72.075.0 73.5 78.8 74.3 75.8 65.0 74.3 71.2 69.7 68.073.5 75.0 72.0 64.3 75.8 80.3 69.7 74.3 73.5 73.575.8 75.8 68.8 76.5 70.4 71.2 81.2 75.0 70.4 68.070.4 72.0 76.5 74.3 76.5 77.6 67.3 72.0 75.0 74.373.5 79.5 73.5 74.7 65.0 76.5 81.6 75.4 72.7 72.767.2 76.5 72.7 70.4 77.2 68.8 67.3 67.3 67.3 72.775.8 73.5 75.0 72.7 73.5 73.5 72.7 81.6 70.3 74.373.5 79.5 70.4 76.5 72.7 77.2 84.3 75.0 76.5 70.4计算均值,中位数,上,下四分位数,M0.99,M0.95,M0.90,M0.10,M0.05,M0.01分位数及三均值.解:利用SAS系统的PROC UNIVARIATE过程实现.计算程序:data examp1_2;input x ;cards;74.3 78.8 68.8 78.0 70.4 80.5 80.5 69.7 71.2 73.579.5 75.6 75.0 78.8 72.0 72.0 72.0 74.3 71.2 72.075.0 73.5 78.8 74.3 75.8 65.0 74.3 71.2 69.7 68.073.5 75.0 72.0 64.3 75.8 80.3 69.7 74.3 73.5 73.575.8 75.8 68.8 76.5 70.4 71.2 81.2 75.0 70.4 68.070.4 72.0 76.5 74.3 76.5 77.6 67.3 72.0 75.0 74.373.5 79.5 73.5 74.7 65.0 76.5 81.6 75.4 72.7 72.767.2 76.5 72.7 70.4 77.2 68.8 67.3 67.3 67.3 72.775.8 73.5 75.0 72.7 73.5 73.5 72.7 81.6 70.3 74.373.5 79.5 70.4 76.5 72.7 77.2 84.3 75.0 76.5 70.4;proc univariate data=examp1_2; /* 调用univariate过程,这里无选项,表示按此过程的默认输出结果*/ var x;run;注意:此过程的默认结果输出含有:N、MEAN、Sum、Std Dev、Variance、Skewness、Kurtosis、Ussr、Css、T(t检验的值)、Prt(p值)、各种分位数、中位数、Range、Modern等.程序运行结果The SAS System 17:39 Friday, August 27, 2009 7 The UNIVARIATE Procedure UNIVARIATE 过程 Variable 变量: x Moments 矩N 100 Sum Weights 权重总和 100Mean 均值 73.66 Sum Observations 观测总和 7366Std Deviation 标准偏差 3.94008153 Variance 方差 15.5242424Skewness 偏度 0.06007521 Kurtosis 峰度 0.03386864Uncorrected SS USSR 544116.46
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 篮球球场整修方案范本
- 河道清淤采砂施工方案
- 重庆科技学院《大学英语Ⅲ》2023-2024学年第二学期期末试卷
- 水泥构件销售方案范本
- 镇江市高等专科学校《中学数学现代教育技术》2023-2024学年第二学期期末试卷
- 山东艺术学院《实证会计研究入门》2023-2024学年第二学期期末试卷
- 宁波大学科学技术学院《药剂学Ⅱ》2023-2024学年第二学期期末试卷
- 廊坊师范学院《植物生殖生物学》2023-2024学年第二学期期末试卷
- 中南林业科技大学《葡萄与葡萄酒》2023-2024学年第二学期期末试卷
- 江苏卫生健康职业学院《制图》2023-2024学年第二学期期末试卷
- 光伏项目承包商的实施策略与计划
- 消除艾滋病、梅毒和乙肝母婴传播项目工作制度及流程(模板)
- 2025年河南机电职业学院单招职业倾向性测试题库有完整答案
- 2025年全民国家安全教育日主题教育课件
- DBJ51T 108-2018 四川省建筑岩土工程测量标准
- 2025年度汽车行业电子商务平台合作开发合同
- 人教版英语七年级下册知识讲义Unit 1 section A (教师版)
- 摄影拍摄合同毕业季拍摄合同
- 《个人所得税申报赡养老人专项附加扣除指定分摊协议模板》
- 国家一级博物馆运行报告2024
- 血液病早期发现-你不可忽视的健康防线
评论
0/150
提交评论