Matlab 数据分析 课件 康海刚 第1-5章 数据的基本概念及其应用-数据探索与分析_第1页
Matlab 数据分析 课件 康海刚 第1-5章 数据的基本概念及其应用-数据探索与分析_第2页
Matlab 数据分析 课件 康海刚 第1-5章 数据的基本概念及其应用-数据探索与分析_第3页
Matlab 数据分析 课件 康海刚 第1-5章 数据的基本概念及其应用-数据探索与分析_第4页
Matlab 数据分析 课件 康海刚 第1-5章 数据的基本概念及其应用-数据探索与分析_第5页
已阅读5页,还剩148页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Matlab数据分析第1章数据的基本概念及其应用第2章Matlab基础第3章随机模拟第4章数据预处理第5章数据探索与分析第6章多元线性回归模型第7章聚类分析第8章分类第1章数据的基本概念及其应用1.1数据与数据处理1.1.1数据的相关基本概念1.数据2.大数据(1)Volume(大量)数据存储单位从过去的GB、TB,到现在的PB、EB、ZB量级了。(2)Velocity(高速)生活中每个人都离不开互联网,每个人每天都在向大数据中心提供大量的信息,通过互联网传输,大数据的产生非常迅速。(3)Variety(多样)广泛的数据来源决定了大数据形式的多样性,任何形式的数据都可以产生作用。(4)Value(价值)大数据最大的价值在于通过从大量不相关的各种类型的数据中,挖掘出对未来趋势与模式的预测分析有价值的数据。3.信息1.1数据与数据处理4.信息量1.1.2数据处理的主要概念1.算法2.数据挖掘3.机器学习1.1数据与数据处理1.1.3数据处理的流程第一阶段:制定目标•该组织或单位什么要设立和研究该项目?缺少什么以及需要什么?•该组织或单位正在做什么事情来解决问题?什么还不够好?是否有可借鉴的经验?•你需要什么种类的数据以及需要多少?团队需要什么人员、哪些技术、多少时问?计算资源是什么?•该组织或单位如何实施和应用你的结果?为了成功地应用部署,必须满足哪些约束条件?1.1数据与数据处理第二阶段:数据准备•什么数据可以我所用?•这些数据是否有助于解决问题?•这些数据是否足够多?•数据的质量是否足够好?第三阶段:建立模型1)特征化。2)打分。3)排序。4)关联。5)分类。1.1数据与数据处理6)聚类。7)异常检测。第四阶段:评价与批判模型•对你的需求来说是否足够准确?它是否能很好地概括需求?•它是否比“直观猜测”表现得更好?比你当前使用的任何估计都表现得更好?比之前使用的模型方法是否更好?•模型结果(系数、聚簇、规则)在专业领域的情景是否有意义?也就是说,模型给出的结果是否符合实际情况?•模型是否足够精确?是否有更好的方式?第五阶段:展示结果和文档第六阶段:模型实施与维护1.1数据与数据处理1.1.4数据处理的误区1.不要用单一类型的数据去评价全局2.不要夸大偶然事件,认为带来必然结果3.避免唯数据论4.不是从问题实际出发,寄希望于软件“黑箱”工具1.2数据处理涉及的主要领域1.2.1统计学1.2.2数据挖掘1)处理的数据规模十分庞大,达到GB、TB数量级。2)查询一般是决策制定者提出的即时查询,往往不能形成精确的查询要求,需要靠系统本身寻找其可能感兴趣的内容。3)在一些应用领域,由于数据变化迅速,因此要求数据挖掘能快速做出相应反应以随时提供决策支持。4)数据挖掘中,规则的发现基于统计规律。5)数据挖掘所发现的规则是动态的,它只反映了当前状态的数据库具有的规则,随着不断地向数据库中加入新数据,需要随时对其进行更新。1.2数据处理涉及的主要领域1.2.3云计算(1)超大规模“云”具有相当的规模,Google云计算已经拥有100多万台服务器,Amazon、IBM、微软、Yahoo等的“云”均拥有几十万台服务器。(2)虚拟化云计算支持用户在任意位置、使用各种终端获取应用服务。(3)高可靠性“云”使用了数据多副本容错、计算节点同构可互换等措施来保障服务的高可靠性,使用云计算比使用本地计算机可靠。(4)通用性云计算不针对特定的应用,在“云”的支撑下可以构造出千变万化的应用,同一个“云”可以同时支撑不同的应用运行。(5)高可扩展性“云”的规模可以动态伸缩,满足应用和用户规模增长的需要。(6)按需服务“云”是一个庞大的资源池,可按需购买;云可以像白来水、电、煤气那样计费。(7)极其廉价由于“云”的特殊容错性,可以采用极其廉价的节点来构成云,“云”的自动化集中式管理使大量企业无须负担日益高昂的数据中心管理成本,“云”的通用性使资源的利用率较之1.2数据处理涉及的主要领域传统系统大幅提升,因此用户可以充分享受“云”的低成本优势,经常只要花费几百美元、几天时间就能完成以前需要数万美元、数月时间才能完成的任务。(8)潜在的危险性云计算除了提供计算服务外,还必然提供了存储服务。常见的云计算平台有以下9个:(1)GoogleAppEngine

GoogleAppEngine是Google提供的服务,允许开发者在Google的基础架构上运行网络应用程序。(2)AmazonElasticBeanstalkElasticBeanstalk为在AWS(AmazonWebServices)云中部署和管理应用提供了一种方法。(3)微软云Azure云计算服务平台可以使客户选择的权力部署在以云计算基础的互联网服务上,或通过服务器,或把它们混合起来以任何方式提供给需要的业务。(4)阿里云与传统的操作系统相比,依托云计算的阿里云OS具有明显的优势。1.2数据处理涉及的主要领域(5)百度BAE平台针对大数据的规模大、类型多、价值密度低等特征,百度云平台提供的BAE(百度应用引擎)将提供高并发的处理能力,以满足处理速度快的要求。(6)新浪SAE云计算平台作为典型的云计算,SAE采用“所付即所用,所付仅所用”的计费理念,通过日志和统计中心精确地计算每个应用的资源消耗(包括CPU、内存、磁盘等)。(7)腾讯云腾讯云有着深厚的基础架构,并且有着多年对海量互联网服务的经验,可以为开发者及企业提供云服务器、云存储、云数据库和弹性Web引擎等整体一站式服务方案。(8)华为云华为云通过基于浏览器的云管理平台,以互联网线上自助服务的方式,为用户提供云计算IT基础设施服务。(9)盛大云盛大云是一个安全、快捷、自助化Taas和Paas服务的门户入口。1.3数据处理的主要方法1.3.1数据采集(1)数据抓取通过程序从现有的网络资源中提取相关信息,录入到数据库中。(2)数据导入将指定的数据源导入数据库中,通常支持的数据源包括Excel表格、数据库文件、XMI文档、文本文件以及常用的数据库(如SQLServer、Oracle、MySQL等)。(3)传感设备自动采集数据有关数据或信息通过传感设备传输到主控板,主控板对数据或信息进行信号解析、算法分析和数据量化,将数据通过无线通信方式进行传输。1.3.2数据预处理(1)数据清理它是通过填写缺失的值、光滑噪声数据、识别或删除离群点并解决不一致性来“清理”数据的。(2)数据集成将多个数据源中的数据结合起来并统一存储,建立数据仓库的过程实际上就是数据集成。1.3数据处理的主要方法(3)数据变换通过平滑聚集、数据概化、规范化等方式将数据转换成适用于数据挖掘的形式。(4)数据归约数据挖掘时往往数据量非常大,在少量数据上进行挖掘分析需要很长的时间,数据归约技术可以用来得到数据集的归约表示,这就使数据量小得多,但仍然接近于保持原数据的完整性,使结果与归约前结果相同或几乎相同。1.3.3数据分析1)老七种工具,即排列图、因果图、分层法、调查表、散步图、直方图、控制图。2)新七种工具,即关联图、系统图、矩阵图、KJ法、计划评审技术、PDPC法、矩阵数据图。1.描述性数据分析2.探索性数据分析3.验证性数据分析1.3数据处理的主要方法1.3.4数据挖掘算法1.3数据处理的主要方法1.监督学习模型(1)决策树决策树是用于分类和预测的主要技术之一,决策树学习是以实例为基础的归纳学习算法,它着眼于从一组无次序、无规则的实例中推理出以决策树表示的分类规则。(2)贝叶斯算法贝叶斯(Bayes)算法是一类利用概率统计知识进行分类的算法,如朴素贝叶斯(NaiveBayes)算法。(3)神经网络神经网络是一种具有类似于大脑神经突触连接结构并能进行信息处理等应用的数学模型。(4)支持向量机(SupportVectorMachine,SVM)支持向量机是根据统计学习理论提出的一种新的学习方法,它的最大特点是根据结构风险最小化准则,以最大化分类间隔构造最优分类超平面来提高学习机的泛化能力,较好地解决了非线性、高维数、局部极小点等问题。(5)集成学习分类模型集成学习是一种机器学习范式,它试图通过连续调用单个的学习算法,获得不同的基学习器,然后根据规则组合这些学习器来解决同一个问题,可以显著地提高学习系统的1.3数据处理的主要方法泛化能力。(6)其他分类学习模型此外还有logistics回归模型、隐马尔科夫分类模型(HMM)、基于规则的分类模型等众多的分类模型,对于处理不同的数据、分析不同的问题,各种模型都有自己的特性和优势。2.无监督学习模型(1)k-means聚类k-means算法的基本思想是初始随机给定K个簇中心,按照最邻近原则把待分类样本点分到各个簇,然后按平均法重新计算各个簇的质心,从而确定新的簇心,一直迭代,直到簇心的移动距离小于某个给定的值。(2)基于密度的聚类根据密度完成对象的聚类。(3)层次聚类层次聚类就是对给定的数据集进行层次分解,直到满足某种条件为止。(4)谱聚类谱聚类(SpectralClustering,SC)是一种基于图论的聚类方法———将带权无向图划分为两个或两个以上的最优子图,使子图内部尽量相似,而子图间距离尽量较远,以达到常见聚类1.3数据处理的主要方法的目的。第2章Matlab基础2.1

Matlab简介2.1

Matlab简介2.1.1Matlab的特点1)Matlab是一个交互式软件系统,输入一条命令,立即就可以得到该命令的结果。2)具有强大的数值计算功能。3)Matlab符号运算功能。4)Matlab绘图功能。5)编程功能。6)丰富的APPS。7)源程序开放。2.1.2Matlab窗口简介•命令窗口(CommandWindow)•历史命令窗口(HistoryCommandWindow)2.1

Matlab简介•编辑调试窗口(Edit/DebugWindow)•图像窗口(FigureWindow)•工作空间(Workspace)•当前目录文件夹(CurrentFolder)•帮助窗口(HelpBrowser)•当前路径窗口(CurrentDirectoryBrowser)本节将简单介绍其中几个窗口的基本操作方式。2.1

Matlab简介1.命令窗口(CommandWindow)2.1

Matlab简介2.1

Matlab简介2.历史命令窗口(HistoryCommandWindow)3.编辑调试窗口(Edit/DebugWindow)2.1

Matlab简介4.图像窗口(FigureWindow)2.1

Matlab简介5.工作空间(Workspace)2.1

Matlab简介2.1

Matlab简介6.当前目录文件夹(CurrentFolder)2.1

Matlab简介2.2数组及其运算2.2.1变量和数组1.数值的记述2.变量命名规则1)变量名、函数名对字母大小写是敏感的,如变量myvar和MyVar表示两个不同的变量。2)变量名的第一个字符必须是英文字母,最多可包含63个字符(英文、数字和下连符),如myvar201是合法的变量名。3)变量名中不得包含空格、标点、运算符,但可以包含下连符。4)尽量避免与预定义变量名相同。3.Matlab默认的预定义变量2.2数组及其运算①如果用户对表中任何一个预定义变量进行赋值,则该变量的默认值将被用户新赋的值“临时”覆盖。②在遵循IEEE算法规则的机器上,被0除是允许的。2.2数组及其运算4.数组2.2数组及其运算5.数据类型2.2数组及其运算2.2.2变量的初始化1)用赋值语句初始化变量。2)用input函数从键盘输入初始化变量。3)从文件读取一个数据。1.用赋值语句初始化变量2.用捷径表达式赋值3.用内置函数来初始化2.2数组及其运算4.用关键字input初始化变量2.2.3多维数组1.多维数组在内存中的存储2.2数组及其运算2.用单个下标访问多标数组2.2数组及其运算2.2.4子数组1.end函2.子数组在左边的赋值语句的使用3.用一标量来给子数组赋值4.子数组的删除2.2.5单元阵列2.2数组及其运算2.2数组及其运算2.2.6显示输出数据1.改变默认格式2.2数组及其运算2.disp函数3.用fprintf函数格式化输出数据2.2.7数据文件2.2.8数组运算和矩阵运算2.2数组及其运算2.2数组及其运算2.2.9内置函数1.常用内置函数2.2数组及其运算2.其他内置函数(1)randrand产生一个在(0,1)之间的均匀分布的数。(2)randnrandn产生一个服从N(0,1)正态分布的随机数。(3)find找出非0元素,也可以查找指定条件的元素,并返回元素所在位置索引。1)示例1:2)示例2:2.2数组及其运算3)示例3:(4)sort[Y,1]=sort(x)返回索引矩阵I,如果x是一个向量,则Y=x(I)。(5)fprintf格式化数据输出与C语言中的printf函数用法相似,常见的数值处理函数见表2-8。2.2数组及其运算2.3作图入门2.3作图入门2.3.1简单的直角坐标系作图1.基本作图操作2.3作图入门2.3作图入门2.3作图入门2.联合作图2.3作图入门2.3作图入门2.3作图入门2.3.2作图的附加特性1.图例2.3作图入门2.3作图入门2.控制坐标轴范围2.3作图入门3.在同一坐标系内画出多个图像2.3作图入门2.3作图入门4.创建多个图像窗口5.子窗口2.3作图入门2.3作图入门6.对画线的增强控制2.3作图入门2.3作图入门7.极坐标图像2.4

Matlab程序设计2.4.1关系运算符和逻辑运算符1.关系运算符2.4

Matlab程序设计2.逻辑运算符2.4

Matlab程序设计3.逻辑函数2.4.2选择结构1.if结构2.4

Matlab程序设计例2.1求一元二次方程的根。步骤1打开Script文件,在CommandWindow中输入edit命令或按“Ctrl+N”组合键。步骤2在edit文件中输入下述命令:步骤3保存Script文件。步骤4运行和调试Script文件。2.switch结构例2.2编写一个学生成绩管理程序。3.try/catch结构2.4

Matlab程序设计2.4.3循环结构1.

while循环例2.3使用欧几里得算法求两个整数的最大公约数,伪代码如下:2.4

Matlab程序设计2.for循环1)在for循环开始时,Matlab产生了控制表达式。2)第一次进入循环,程序把循环控制表达式的第一列赋值于循环变量index,然后执行循环体内的语句。3)在循环体的语句被执行后,程序把循环控制表达式的下一列赋值于循环变量index,程序将再一次执行循环体语句。4)只要在循环控制表达式中还有剩余的列,步骤3)将会重复执行。例2.4阶乘(factorial)函数。例2.5输入一系列的测量数,计算它们的平均数和标准差。1)在2.2节已经学过,用赋值的方法可以扩展一个已知的数组。2)用for循环和向量计算是非常常见的。2.4

Matlab程序设计例2.6为了比较循环和向量算法执行程序所用的时间,分别用这两种方法编程,测试3个运算所花的时间。1)用for循环计算1~10000之间的每个整数的平方,而事先不初始化平方数组。2)用for循环计算1~10000之间的每个整数的平方,而事先初始化平方数组。3)用向量算法计算1~10000之间的每个整数的平方。3.break和continue语句例2.7for循环中的continue语句:2.4

Matlab程序设计4.循环嵌套例2.8用两重for循环嵌套来计算。例2.9在for循环嵌套中包含break语句。2.5自定义函数(1)子程序的独立检测每个子程序都可以当作一个独立的单元来编写。(2)代码的可复用性在许多情况下,一个基本的子程序可应用在程序的许多地方。(3)远离意外副作用函数通过输入参数列表(inputargumentlist)从程序中读取输入值,通过输出参数列表(outputargumentlist)给程序返回结果。例2.10自定义函数dist2,用于计算笛卡儿坐标系中的点(x1,y1)与点(x2,y2)之间的距离。第3章随机模拟3.1随机数的生成1.模拟均匀分布随机变量的函数2.模拟指数分布随机变量的函数3.模拟正态分布随机变量的函数3.2蒙特卡罗模拟3.2.1蒙特卡罗模拟估计面积3.2蒙特卡罗模拟3.2蒙特卡罗模拟3.2.2蒙特卡罗模拟寻求近似圆周率3.2蒙特卡罗模拟3.2.3蒙特卡罗模拟解决生日问题3.3随机行为的模拟1.一枚正规硬币2.一个不正规的骰子3.3随机行为的模拟3.3随机行为的模拟3.布朗运动3.4蒙特卡罗模拟应用案例:理发店系统研究1.问题分析2.模型假设1)60%的顾客只需剪发,40%的顾客既要剪发又要洗发。2)每个服务员剪发需要的时间为5min,既剪发又洗发则需要8min。3)顾客的到达间隔时间服从指数分布。4)服务过程中服务员不休息。3.变量说明4.模型建立5.系统模拟(1)状态(变量)3.4蒙特卡罗模拟应用案例:理发店系统研究1)等待服务的顾客数。2)A是否正在服务。3)B是否正在服务。(2)实体两名服务员和多名顾客。(3)事件1)一名新顾客的到达2)A开始服务3)A结束服务4)B开始服务5)B结束服务(4)活动1)顾客排队时间3.4蒙特卡罗模拟应用案例:理发店系统研究2)顾客们到达的间隔时间3)A的服务时间4)B的服务时间6.系统模拟算法设计7.系统模拟程序第4章数据预处理4.1认识数据4.1.1属性4.1.2离散属性和连续属性4.2数据预处理概述1)数据清洗是通过填写缺失的值、光滑噪声数据、识别或删除离群点,并解决不一致性等方式来“清洗”数据的。2)数据集成是把不同来源、格式、性质的数据在逻辑上或物理上有机地集中,以便更方便地进行数据挖掘工作,数据集成通过数据交换而达到,主要解决数据的分布性和异构性的问题。3)数据归约就是得到数据集的简化表示,虽然小得多,但能够产生同样的(或几乎同样的)分析结果。4.2数据预处理概述4)数据变换是将数据从一种表现形式变为另一种表现形式的过程。4.2.1数据清洗1.缺失值处理(1)删除法删除法是对缺失值进行处理的最原始方法,它将存在缺失值的记录删除。(2)插补法它的思想来源是以最可能的值来插补缺失值,比全部删除不完全样本所产生的信息丢失要少。1)均值插补。2)回归插补。3)极大似然估计。2.噪声过滤(1)回归法回归法是用函数拟合数据来光滑数据的。4.2数据预处理概述(2)均值平滑法均值平滑法是指对于具有序列特征的变量用邻近若干数据的均值来替换原始数据的方法,如图4-3所示。(3)离群点分析法离群点分析法是通过聚类等方法来检测离群点,并将其删除,从而实现去噪的方法。4.2数据预处理概述(4)小波去噪法在数学上,小波去噪的本质是一个函数逼近问题,即如何在由小波母函数伸缩和平移所展成的函数空间中,根据提出的衡量准则,寻找对原信号的最佳逼近,以完成原信号和噪声信号的区分。4.2.2数据集成4.2数据预处理概述4.2.3数据归约1)属性选择是通过删除不相关或冗余的属性(或维)来减少数据量的。2)样本选择也就是数据抽样。4.2.4数掘变换1.标准化2.离散化4.3

Matlab与Excel的数据交互4.3.1以交互方式导入数据1)Matlab工具条:在主页选项卡中的变量部分,单击导入数据。2)Matlab命令提示符:输入“uiimport”,在弹出的窗口中选择需要导入的数据文件,如图4-5所示。4.3

Matlab与Excel的数据交互4.3.2炭取和写入表1.用readtable读取表格数据2.用writetable写入表格数据4.3

Matlab与Excel的数据交互4.3.3大型文件和大型数据简介4.3.4数据的清理、平滑和分组等1.清除表中的杂乱数据和缺失数据(1)加载样本数据从一个逗号分隔的文本文件messy.csv加载样本数据。(2)汇总表使用summary函数创建汇总表来查看每个变量的数据类型、说明、单位和其他描述性统计量。(3)查找具有缺失值的行显示表T中至少含有一个具有缺失值的行子集。(4)替换缺失值指示符清除相应数据,将代码-99所指示的缺失值替换标准的Matlab数值缺失值指示符NaN。(5)删除具有缺失值的行创建一个新表T3,该表仅包含T中不带缺失值的行。(6)组织数据先根据C列以降序对T3的行进行排序,然后根据A列以升序排序。4.3

Matlab与Excel的数据交互2.数据平滑和离群值检测(1)移动均值方法移动均值方法是分批处理数据的方法,通常是为了从统计角度表示数据中的相邻点。4.3

Matlab与Excel的数据交互4.3

Matlab与Excel的数据交互4.3

Matlab与Excel的数据交互4.3

Matlab与Excel的数据交互4.3

Matlab与Excel的数据交互(2)其他的平滑方法1)smoothdata函数提供几种平滑选项,如Savitzky-Golay方法,这是一种常用的信号处理平滑技术。2)稳健的Lowess方法是另一种平滑方法,尤其适用于同时包含噪声和离群值的数据。(3)检测离群值数据中的离群值可能使数据处理结果和其他计算量严重失真。4.3

Matlab与Excel的数据交互4.3

Matlab与Excel的数据交互4.3

Matlab与Excel的数据交互4.3

Matlab与Excel的数据交互(4)非均匀数据并非所有数据都由等间隔的点组成,这会影响数据处理的方法。4.3

Matlab与Excel的数据交互4.3

Matlab与Excel的数据交互4.3

Matlab与Excel的数据交互3.拆分数据变量及应用(1)加载电力中断数据示例文件outages.csv包含表示美国电力中断的数据。(2)计算最大电力损失确定每个地区因电力中断而造成的最大电力损失。(3)计算受影响客户的数量确定不同原因和地区的电力中断对客户的影响。(4)计算电力中断的平均持续时间确定美国的所有电力中断的平均持续时间(以小时为单位)。第5章数据探索与分析5.1数据的特征统计量5.1.1中心度量趋势:均值、中位数、众数5.1.2常用的变异程度度量1.极差2.方差3.标准差4.标准差系数5.四分位数间距5.1数据的特征统计量6.百分位数5.1.3分布形态5.2基本统计描述的可视化5.2.1分类型数据频数分布及其可视化例5.1表5-1是X公司员工收入基本状况调查表,用此表数据来说明对于分类型数据的频数统计及其数据可视化。5.2基本统计描述的可视化例5.2使用Matlab数据统计信息。(1)打开“数据统计信息对话框”“数据统计信息”对话框可帮助您计算和绘制数据的描述性统计量。5.2基本统计描述的可视化5.2基本统计描述的可视化5.2基本统计描述的可视化(2)设置绘图上数据统计量的格式“数据统计信息”对话框使用颜色和线型将统计量与绘图上的数据区分开来。1)在Matlab窗口中,单击工具栏中的(编辑绘图)按钮。2)双击要编辑其显示属性的绘图上的统计量,例如,双击表示Station2均值的水平线。(3)将统计量保存到Matlab工作区执行下列步骤可将统计量保存到Matlab工作区。5.2基本统计描述的可视化(4)查看新结构体变量可输入变量名称:5.2基本统计描述的可视化(5)生成代码文件示例的此部分显示如何从图形生成Matlab代码文件,再将代码应用至新数据以重新生成相同格式的绘图和统计量。5.2.2直方图1.histogram函数绘制直方图5.2基本统计描述的可视化例5.3创建直方图。1)生成10000个随机数并创建直方图。2)对分类为25个等距离散化的10000个随机数绘制直方图,如图5-13所示。5.2基本统计描述的可视化3)生1000个随机数并创建直方图。5.2基本统计描述的可视化2.确定基本概率分布1)生成5000个均值5、标准差力2的正态分布随机数。2)对于均值为5、标准差为2的正态分布,叠加一个概率密度函数图,如图5-17所示。5.2基本统计描述的可视化例5.4对分类数据进行绘图。1)工作区变量Location是一个字符向量单元数组,它包含患者就医的3个唯一医疗机构。2)工作区变量。3)绘制直方图。4)仅为健康状况评估为Fair或Poor的患者绘制医院位置直方图,如图5-19所示。5.2基本统计描述的可视化5)创建饼图。5.2基本统计描述的可视化6)创建帕累托图。5.2基本统计描述的可视化7)创建散点图。5.2.3分位数图和经验累计分布函数5.2基本统计描述的可视化5.2.4分位数-分位数图——q-q图5.2基本统计描述的可视化5.2基本统计描述的可视化5.2.5箱形图1)最小值。2)第一个四分位数(Q1)。3)中位数(Q2)。4)第三个四分位数(Q3)。5)最大值。例5.5对于下述这组数据:331033353450348034803490352035403550

36503730

3925,作出箱形图。1)画箱形图时,把第和第三四分位数作力箱体的边缘,Q1=3465

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论