能源大数据分析理论与实践 课件 2.数据获取与预处理;3.回归分析_第1页
能源大数据分析理论与实践 课件 2.数据获取与预处理;3.回归分析_第2页
能源大数据分析理论与实践 课件 2.数据获取与预处理;3.回归分析_第3页
能源大数据分析理论与实践 课件 2.数据获取与预处理;3.回归分析_第4页
能源大数据分析理论与实践 课件 2.数据获取与预处理;3.回归分析_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据获取与预处理02DataAcquisitionAndPreprocessing数据获取与预处理概述DataAcquisitionAndPreprocessingOverview2.1.1数据获取在现实应用中,多个源系统的数据兼容性较差,因此需要对获取的异构数据进行处理。ETL方法提供了一个数据获取与预处理的标准流程和技术工具。数据获取是指从各种相关数据源获取数据的过程,也指ETL的数据获取环节,是数据分析与挖掘的基础。数据获取是ETL处理的第一步,也是最重要的一步,数据被成功获取后,才可以进行转换并加载到数据仓库中。2.1.1数据获取传统数据获取和大数据获取有如下不同:数据源方面,传统数据获取的数据源单一,而大数据获取系统还需要从社交系统、互联网系统及各种类型的机器设备上获取数据。数据量方面,互联网系统和机器系统产生的数据量要远远大于企业系统产生的数据量。数据结构方面,传统数据获取系统获取的数据都是结构化数据,而大数据获取系统需要获取大量的视频、音频、照片等非结构化数据,以及网页、博客、日志等半结构化数据。数据产生速度,传统数据获取系统获取的数据几乎都是由人操作生成的,远远慢于机器生成数据的速度。2.1.2数据清洗与数据转换在一般情况下,数据仓库分为ODS、DW两个部分。ODS是数据库到数据仓库的一种过渡,数据结构一般与数据源保持一致,便于减少ETL的工作复杂性,而且ODS的数据周期一般比较短。ODS的数据最终流入DW,DW是数据的归宿,这里保存着所有从ODS到来的数据,而且这些数据不会被修改。数据转换:它是在ODS到DW的过程中转换的,将数据转换为适用于查询和分析的形式和结构。数据从操作型源系统获取后,需要进行多种转换操作,通常是最复杂的部分,也是ETL处理中用时最长的一步。数据清洗:数据转换一个最重要的功能是数据清洗,目的是只有“合规”的数据才能进入目标数据仓库。这步操作在不同系统间交互和通信时尤为必要。2.1.3数据加载数据加载就是将转换后的数据导入目标数据仓库中。这步操作需要重点考虑两个问题,一是数据加载的效率问题,二是一旦加载过程中失败了,如何再次执行加载过程。要提高数据加载的效率,加快加载速度,可以采用如下两种做法:保证足够的系统资源。在进行数据加载时,禁用数据库约束(唯一性、非空性、检查约束等)和索引,当加载过程完全结束后,再启用这些约束,重建索引。ETL系统一般会从多个应用系统中整合数据,常用实现方法有三种:借助ETL工具采用SQL方式ETL工具和SQL方式相结合为了提高ETL处理的效率,通常数据获取、数据转换、数据加载操作会并行执行。数据获取技术DataAcquisitionTechnique2.2.1数据获取技术概述数据获取需要在调研阶段做大量的工作。如果已经明确了需要获取的数据,下一步就该考虑从源系统获取数据的方法了。数据获取方法的选择高度依赖于源系统和目标数据仓库环境的业务需要。随着大数据的蓬勃发展,数据获取的来源广泛且数据量巨大,数据类型丰富,包括结构化数据、半结构化数据、非结构化数据,它们大多存在于分布式数据库中。目前大数据获取主要方法如下:数据库获取系统日志获取网络数据获取感知设备数据获取针对软件系统的数据获取,有如下三种方式:接口对接方式开放数据库方式基于底层数据交换的数据直接获取方式2.2.2网络爬虫网络爬虫可以按照我们制定的规则自动浏览网络中的数据,这些规则称为网络爬虫算法。网络爬虫由控制节点、爬虫节点、资源库构成。控制节点主要负责根据URL分配线程,并调用爬虫节点进行具体的爬取爬虫节点会按照相关的算法,对网页进行具体的爬取,爬取后会将爬取结果存储到对应的资源库中。通用网络爬虫通用网络爬虫的爬取目标是整个互联网上的所有网页。主要由初始URL集合、URL队列、网页爬取模块、网页分析模块、网页数据库、链接过滤模块等构成。通用网络爬虫在爬取的时候会采取一定的爬取策略,主要有深度优先策略和广度优先策略。这类网络爬虫主要应用于大型搜索引擎中,有非常高的应用价值。聚焦网络爬虫聚焦网络爬虫是按照预先定义好的主题有选择地进行网页爬取的一种爬虫。可以大大节省爬虫爬取时所需的带宽资源和服务器资源。聚焦网络爬虫应用在对特定信息的爬取中,主要为某一类特定的人群提供服务,主要由初始URL集合、URL队列、网页爬取模块、网页分析模块、网页数据库、链接过滤模块、内容评价模块、链接评价模块等构成。聚焦网络爬虫的爬取策略主要有四种:基于内容评价的爬取策略基于链接评价的爬取策略基于强化学习的爬取策略基于语境图的爬取策略增量式网络爬虫增量式更新指在更新的时候只更新改变的地方,未改变的地方则不更新,所以只爬取内容发生变化的网页或新产生的网页,对于未发生内容变化的网页则不会爬取。深层网络爬虫在互联网中,按存在方式分类,网页可以分为表层网页和深层网页:表层网页:不需要提交表单,使用静态的链接就能够到达的静态网页;深层网页:隐藏在表单后面,不能通过静态链接直接获取,是需要提交一定的关键词之后才能够到达的网页。在互联网中,深层网页的数量往往比表层网页的数量要多很多,因此需要深层网络爬虫。深层网络爬虫在爬取深层网页时需要自动填写好对应的表单,表单填写方式有两种:①基于领域知识的表单填写:建立一个填写表单的关键词库,在需要填写的时候,根据语义分析选择对应的关键词进行填写。②基于网页结构分析的表单填写:会根据网页结构进行分析,并自动地进行表单填写,一般在领域知识有限的情况下使用。数据预处理DataPre-processing2.3.1数据质量数据质量是指数据在特定应用环境中是否满足预期的要求。包括以下几个方面:准确性:数据与实际情况的符合程度,数据值与实际值的一致性高低。完整性:数据是否包含了需要的全部信息,有无遗漏或缺失。一致性:数据在不同的数据源、数据记录等方面是否保持一致,数据之间有无冲突或矛盾。及时性:数据是否及时地进行采集、处理、传输和更新,以保证数据的实效性和时效性。可理解性:数据是否易于被理解,数据结构和格式是否清晰,数据值和字段是否具有明确的含义。可靠性:数据是否可信、可靠,其产生的过程和来源是否可靠,数据是否经过验证和核实。可用性:指数据是否易于访问、检索和使用,数据存储和管理系统的性能是否足够高效。导致数据质量不高的根源主要如下:数据采集问题数据存储问题数据处理问题数据管理问题数据使用问题2.3.2数据清洗数据清洗是审查和校验数据的过程,旨在删除重复信息、纠正错误并确保一致性。缺失数据处理:删除缺失数据:适用于少量缺失且影响较小时,但可能引入样本偏差。插补缺失数据:适用于缺失较多或影响较大时。插补的方法可以分为三类:(1)均值插补(2)回归插补(3)多重插补创建指示变量:对于分类变量的缺失数据,新增指示变量(0/1)标记缺失情况,避免插补误差。其他:利用聚类或专门模型处理缺失数据。在处理缺失数据时,还需要注意以下三个问题:①缺失数据的模式②数据的完整性③插补方法的合理性2.3.2数据清洗噪声数据是指数据中存在错误或异常(偏离期望值)的数据,即测量变量中存在随机误差或方差。噪声数据处理:分箱:通过考察相邻数据来确定最终值。

分箱的方法有四种:(1)等深分箱法(2)等宽分箱法(3)用户自定义区间法(4)最小熵法。

在分箱之后,要对每个“箱子”中的数据进行平滑处理:(1)按均值进行平滑处理(2)按中位数进行平滑处理(3)按边界值进行平滑处理。聚类:将数据集合分组为若干个簇,在簇外的值为孤立点,应对这些孤立点进行删除或替换。相似或相邻的数据聚合在一起形成各个聚类集合,在这些聚类集合之外的数据为异常数据。回归:如果变量之间存在函数关系,则可以使用回归分析方法进行函数拟合,通过使用拟合值或平滑数据来更新变量数值,从而实现噪声数据去除。2.3.3数据集成数据集成是将来自不同数据源的数据整合到统一的数据集中,以便分析、决策支持和业务应用。其过程涉及数据整合、匹配、冲突解决、质量控制、元数据管理和安全等方面。模式识别和对象匹配是在数据集成过程中的两个重要任务,用于识别和匹配不同数据源中的模式和对象,以提高数据集成的准确性和效率。模式识别:对表征事物或现象的模式进行自动处理和判读。对象匹配:将不同数据源中的对象进行匹配和对应。在进行模式识别和对象匹配时,需要考虑以下几个方面:①特征提取:在进行模式识别和对象匹配时,需要选择合适的特征并进行提取。②相似度度量:方法包括欧氏距离、曼哈顿距离、余弦相似度等。③匹配算法:算法包括基于规则的匹配、基于机器学习的匹配、基于统计的匹配、基于图的匹配等。④冲突解决:可以通过规则、投票机制、权重分配、机器学习等方法来确定最佳匹配结果。2.3.3数据集成数据冗余是指数据存储或集成过程中产生的重复或多余数据,包括重复数据和无关数据。需处理数据冗余以减少存储占用和分析误差。可通过一下几种方式来实现:规则和约束:通过定义规则和约束来防止数据冗余的产生。数据规范化:数据规范化是一种将数据划分成更小、更规范的单元的过程。数据清洗和去重:去除重复和冗余的数据。数据合并和归约:将重复和冗余的数据进行合并和归约。数据压缩:通过编码或压缩技术减少存储占用。数据分析和挖掘:通过数据分析和挖掘技术,可以识别和消除数据冗余。2.3.3数据集成在数据集成过程中,不同数据源可能存在冲突(如值、格式、单位、覆盖范围不一致)。为确保数据质量和准确性,需要进行冲突检测与处理。步骤如下:(1)确定冲突类型。常见类型包括数据值、格式、单位或覆盖范围不同。(2)数据冲突检测。利用算法或规则检测相同实体在不同数据源中的特征是否一致或存在矛盾。(3)冲突解析。当发现冲突时,需要进行冲突解析来确定集成数据的准确值。常见的冲突解析方法如下:①人工解析②投票机制③权重分配④规则和模型。(4)冲突解析后的数据集成。应用解析后的数据,形成最终集成结果。冲突检测与处理较复杂,需根据数据需求、质量要求和冲突类型选择合适方法,并考虑数据源的可靠性和权威性。2.3.4数据转换数据转换是数据预处理的重要环节,通过转换提高数据质量和可用性,使其更适合分析和建模。主要方法包括数据规范化、数据离散化、数据泛化和数据脱敏。数据规范化:将被挖掘对象的特征数据按比例缩放,使其落入一个小的特定区间。常用方法有三种:①小数定标规范化:将原始数据除以一个固定值,将数据映射到[-1,1]之间。②最小值—最大值规范化:将原始数据映射到0~1之间的特定区间,保留数据的相对大小关系。③Z-Score规范化:将原始数据转化为均值为0、标准差为1的标准正态分布。2.3.4数据转换数据离散化:将连续型数据转换为离散型数据的过程,将数据划分为若干个区间或类别。常见方法如下:①等宽离散化:将数据根据固定的宽度划分为若干个区间,每个区间的宽度相同。②等频离散化:将数据根据相同的样本数量划分为若干个区间,每个区间中包含的样本数量相同。③聚类离散化:用聚类算法将数据聚类为若干个簇,每个簇表示一个离散化的类别。④决策树离散化:使用决策树算法将连续型数据转换为决策树的划分节点,将数据分为不同的类别。2.3.4数据转换数据泛化:把较低层次的概念用较高层次的概念替换来汇总数据,或者通过减小维度,在较小维度的概念空间中汇总数据。常用的方法如下:①基于数据立方体的数据聚集:用于从多维数据集中提取有用的信息。数据立方体是一个多维数组,其中每个维度表示数据的一个特征,构建步骤:选择维度→设计度量→聚合数据→构建数据立方体。②面向特征的归纳:旨在从数据中归纳出特征间的关系、规律和模式。主要过程包括以下步骤:

特征选择→归纳分析→模式评估与验证。2.3.4数据转换数据脱敏:通过对敏感数据进行部分或完全的删除、替换或隐藏,以抹去个人敏感信息。常见方法如下:①删除(Deletion):直接删除或部分删除包含敏感信息的数据。②替换(Substitution):将敏感数据替换为不可识别的伪造值。③脱敏屏蔽(Masking):在数据中通过覆盖、屏蔽或空白值等方式隐藏敏感信息,以避免敏感信息的识别。④加密(Encryption):使用加密算法对敏感信息进行加密,只有授权的用户才能解密和访问。具体方法的选择取决于数据类型、隐私需求和分析任务。2.3.5数据归约数据归约是在保持数据原貌的前提下,最大限度地精简数据,以降低数据规模。主要包括维归约和数据归约两种方法。维归约:目的是将高维数据集转换为低维表示,以减少数据集的维度并保留主要的信息。①特征集选择(FSS):筛选最相关和有价值的特征,去除无关或冗余特征。②主成分分析(PCA):将高维数据映射到低维子空间,提取主要特征。③线性判别分析(LDA):监督学习方法,寻找最能区分类别的投影方向。④非负矩阵分解(NMF):将高维矩阵分解为两个低维非负矩阵,以降低维度。⑤t-SNE:基于数据相似性,将高维数据映射到低维,保持局部关系,适用于可视化。2.3.5数据归约数据归约:通过聚合、压缩或采样等方法减少数据点,以简化分析和处理,提高计算效率并降低存储需求。常见方法如下:①聚合(Aggregation):按规则汇总数据,减少数据规模。②采样(Sampling):从数据集中选取部分样本作为代表,如随机、均匀、分层采样等。③插值(Interpolation):在数据点之间插值,填补缺失值,提高数据密度。④压缩(Compression):使用压缩算法减少数据存储空间,如gzip、LZW、哈夫曼编码等。数据归约提高效率,但可能造成信息损失,需根据任务需求权衡选择。数据集的构建ConstructionOfDataSets2.4.1数据集的划分数据预处理后可存入数据仓库,供分析或训练时提取。通常,数据会被划分或重抽样以适应模型应用。在机器学习算法中,通常将原始数据集划分为三个部分:训练集(TrainingSet)、验证集(ValidationSet)和测试集(TestSet)。训练集是用于训练的样本集合,主要用于训练模型中的参数;验证集是验证模型性能的样本集合,主要用于超参数的调整;测试集主要用于训练和验证完成的模型,来客观评估模型的性能。训练集用于模型学习,验证集少量调整,测试集仅作最终评估,数据集应互不重叠。在数据量不是特别大的情况下一般遵循6∶2∶2的划分比例。2.4.2重抽样方法重抽样可用于提高最终预测效果,因训练集、验证集和测试集的数据分布可能存在差异。将数据随机分为训练集和验证集:模型在训练集上学习,然后在验证集上评估预测误差。误差计算结果可能波动较大,取决于样本划分方式。仅使用部分数据进行训练,可能导致误差估计偏高。重抽样可降低误差波动,但需权衡计算成本与数据利用率。2.4.2重抽样方法

2.4.2重抽样方法

2.4.2重抽样方法

2.4.2重抽样方法自助法在数据集较小、难以有效划分训练集和测试集时很有用。此外,自助法能从初始数据集中产生多个不同的训练集,这对集成学习等有很大的好处,该方法也常常用于非平衡数据的处理。但是自助法产生的数据集改变了原始数据集的分布,这会导致估计偏差,因此在原始数据集足够大时,验证集方法和交叉验证法更加常用。思考题什么是ETL?ETL的主要流程是什么?网络爬虫的工作原理是什么?试结合Python爬虫程序分析实现过程。数据清洗中缺失数据和噪声数据如何处理?试举例说明。什么是数据转换?数据转换包含哪几类?试举例说明数据转换的操作过程。机器学习中数据集划分为几类?各类数据集的作用是什么?K折交叉验证的原理是什么?Thankyou!回归分析03RegressionAnalysis3.1

回归分析概述回归分析是在众多的相关变量中根据实际问题考察其中一个或多个目标变量(因变量)与其影响因素(自变量)之间相互依赖的定量关系的一种方法。通常事物的特征可用多个变量进行描述。回归分析的公式可以表示为:例如,能源消费量

受经济、人口和科技发展等因素影响,这些因素包括GDP指标

、人口规模

、科技投入指标

等。当对这一问题进行回归分析时,将能源消费量

称为因变量(或目标变量),

称为自变量,

为自变量的维度,回归分析的目标是利用历史数据找出函数表示它们之间的关系,以预测未来能源消费量的情况。在大数据分析中,习惯上将这些自变量称为特征(Feature),因变量则称为标签(Label)。如果只需考察一个变量与其余多个变量之间的相互依赖关系,则称为一元回归问题。若要同时考察多个因变量与多个自变量之间的相互依赖关系,则称为多因变量的多元回归问题。(3-1)3.1回归分析概述回归分析的分类标准多样,按照不同的分类标准,可以分成不同的种类。按照涉及自变量的数量,回归分析可以分为一元回归分析和多元回归分析,只有一个自变量的称为一元回归分析(又称简单回归分析),有两个或两个以上自变量的称为多元回归分析(又称复回归分析)。按照涉及因变量的数量,回归分析可以分为简单回归分析和多重回归分析。按照自变量和因变量之间的关系类型,回归分析可以分为线性回归分析和非线性回归分析。基本过程3.2线性回归线性回归(LinearRegression)是利用称为线性回归方程的最小平方函数对一个或多个因变量和自变量之间关系进行建模的一种回归分析方法,这种函数是一个或多个称为回归系数的模型参数的线性组合。只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示包括两个或两个以上的自变量,且因变量和自变量之间是线性关系线性回归分析是一种统计分析方法,用于了解两个变量之间的相关性,以及一个变量随另一个变量变化的趋势。3.2线性回归线性模型(GeneralLinearModels,GLM)并不是一个具体的模型,而是多种统计模型的统称,其中包含线性回归模型、方差分析模型等。线性模型可以表示为:式中,

是一个因变量的观测集合;

是一个自变量的观测集合;

是待估计的参数矩阵;

是误差矩阵或随机扰动项,又叫噪声(Noise)。一元线性回归模型可以写为:多元线性回归模型又称多重线性回归模型。其数学模型可以写为:线性回归模型需要假设因变量关于自变量的条件期望存在线性关系,即:(3-2)(3-3)(3-4)(3-5)假设中的

是未知的,称为回归系数。为了检验这个假设,需要利用样本数据估计出

,将它们的估计值记为

,由此得出的相应因变量

的估计值为

,这样式(3-5)就变为:(3-6)回归分析概述统计学中估计回归系数的一种方法是最小二乘法(LeastSquareMethod,LSE),为了与广义最小二乘法相区别,也称之为普通最小二乘法(OrdinaryLeastSquare,OLS)。如果回归方程对样本拟合得较好,能较好地反映客观规律,那么真实值和回归值的“距离”会较小。真实值和回归值的“距离”可以采用误差平方和表示。机器学习中使用线性回归模型进行预测时,需要使得理论值与观测值之差(误差,或者说残差)的平方和达到最小,这个误差称为均方误差(MeanSquareError,MSE),表示为:均方误差是反映估计量与被估计量之间差异程度的一种度量,在机器学习中称为损失函数(LossFunction)。机器学习中通过不断迭代使得均方误差不断降低,从而逼近最优解。式中,

是因变量观测值的样本;

是预测值;

是均方误差。(3-7)3.3非线性回归非线性回归指因变量与自变量的关系不是一次函数,而是更复杂的非线性函数,适用于描述非线性关联的数据。非线性回归类型广义非线性回归:可通过变量变换转换为线性回归,也称非纯非线性回归。狭义非线性回归:无论如何变换都无法转换为线性回归,即纯非线性回归。广义非线性回归可简化计算,而狭义非线性回归通常需更复杂的优化方法求解。3.3非线性回归非线性回归问题大多数可以转变为线性回归问题来求解,也就是通过对非线性回归模型进行适当的变量变换,使其转变为线性回归模型来求解。一般步骤为:例如,全球煤炭消费量随时间的变化并不是线性的,因此若选取日期作为自变量,则不适合使用线性回归模型,非线性回归模型更为适用。全球煤炭消费量随时间的变化曲线拟合如图3-1所示。图3-1全球煤炭消费量随时间的变化曲线拟合3.3非线性回归1多项式模型多项式模型在非线性回归分析中占有重要的地位。根据级数展开的原理,任何曲线、曲面、超曲面的问题在一定的范围内都能够用多项式任意逼近,所以,当因变量与自变量之间的确定关系未知时,可以使用适当幂次的多项式来近似。当所涉及的自变量只有一个时,所采用的多项式称为一元多项式,其一般形式为:多项式模型可以转变为线性回归模型,并利用最小二乘法确定系数。并不是所有的非线性回归模型都可以通过变换得到与原模型完全等价的线性回归模型。在遇到这种情况时,还需要利用其他一些方法,如泰勒级数展开法等进行估计。(3-8)3.3非线性回归2幂函数模型

幂函数模型为:(3-9)令

,则幂函数模型可以转变为线性回归模型:

(3-10)3指数函数模型指数函数用于描述几何级数递增或递减的现象,一般的自然增长及大多数经济数列属于此类。指数函数模型为:

(3-11)

,指数函数模型同样可以转变为线性回归模型。3.3非线性回归54对数函数模型对数函数是指数函数的反函数,对数函数模型为:(3-12)令

,对数函数模型可以转变为线性回归模型。双曲线模型若因变量

随自变量

的增加(或减少),最初增加(或减少)很快,以后逐渐放慢并趋于稳定,则可以选用双曲线模型来拟合。双曲线模型为:令

,双曲线模型可以转变为线性回归模型。(3-13)3.3非线性回归非线性回归模型非线性回归可分为固定模式和非固定模式两类。1.固定模式的非线性回归结构固定,部分自变量可能不确定,无法转换为线性回归。采用泰勒级数展开或数值优化方法求解。低维(≤3维)可通过绘制测点图像确定线性类型。应用:适用于调查研究、临床试验等,分析单值或多值变量的非线性关系。2.非固定模式的非线性回归结构不固定,需要在建模过程中同时确定模型结构和参数。方法:机器学习算法(如神经网络、决策树等)、数据驱动建模(如自回归方法)、自适应回归(如局部加权回归)应用:适用于复杂系统建模,非线性关系未知或数据驱动特征明显的场景。3.4分位数回归线性回归最基本的假设是残差满足正态分布、独立性、同方差性,但这些条件常常得不到满足。如果样本数据中存在异常值或极端值,则线性回归模型估计值可能会存在较大偏差。我们不仅希望研究被解释变量的期望,还希望能探索被解释变量Y的全局分布(如被解释变量的某个分位数),这时候就需要使用分位数回归。分位数亦称分位点,是指将一个随机变量的概率分布范围分为几个等份的数值点,常用的有中位数(二分位数)、四分位数(25%、50%和75%)等。分位数回归是估计一组解释变量X与被解释变量Y的分位数之间线性关系的建模方法,其原理是将数据按被解释变量拆分成多个分位数,研究不同分位数情况下的回归影响关系。3.4分位数回归分位数回归的优点如下:(1)能够更加全面地描述被解释变量条件分布的全貌,而不是仅仅分析被解释变量的条件期望(均值),也可以分析解释变量如何影响被解释变量的分位数。不同分位数下的回归系数估计量常常不同,即解释变量对不同水平被解释变量的影响不同。(2)分位数回归的估计方法与最小二乘法相比,估计结果对离群值表现得更加稳健,而且分位数回归对误差项并不要求很强的假设条件,因此对于非正态分布而言,分位数回归系数估计量更加稳健。3.4分位数回归图3-2给出了分位数回归示例,其中的数据来自Python程序包statsmodel中的案例数据。因变量是食物支出,自变量是家庭收入,对该数据同时进行最小二乘法(OLS)回归和分位数回归可以得到图3-2中的回归线。从图3-2可以看出,食物支出随家庭收入的增加而增加,食物支出的分布随家庭收入增加变得越来越宽(高分位数和低分位数之间的间隔越来越大),存在典型的异方差,因此比较适合分位数回归。图3-2分位数回归示例3.4分位数回归分位数回归的估计方法介绍:如果一组数据由小到大排列后,

分位数为

,则表示该组数据中有

的数据小于

。所谓的

分位

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论