大数据时代的数据挖掘与商务智能课件_第1页
大数据时代的数据挖掘与商务智能课件_第2页
大数据时代的数据挖掘与商务智能课件_第3页
大数据时代的数据挖掘与商务智能课件_第4页
大数据时代的数据挖掘与商务智能课件_第5页
已阅读5页,还剩473页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据时代的

数据挖掘与商务智能1大数据时代的

数据挖掘与商务智能1第三部分基于统计的传统数据分析技术22数据分析基本概念统计学简介测量与数据数据来源数据的类型数据预处理技术3数据分析基本概念统计学简介3统计数据分析方法描述统计推断统计常用统计分析软件4统计数据分析方法4数学家的幽默统计学家调侃数学家:你们不是说若X=Y且Y=Z,则X=Z吗!那么想必你若喜欢一个女孩,那么这个女孩喜欢的男生你也喜欢吧?数学家反问道:那么你把左手放到一锅一百度的开水中,右手放到一锅零度的冰水里想来也没事吧!因为它们平均不过是五十度而已!”5数学家的幽默统计学家调侃数学家:你们不是说若X=Y且Y=Z,何为统计学?统计与数量有关,同时它已经渗透到社会经济活动和科学研究的方方面面。那么究竟何为统计?统计是如何开展研究的?作为一门科学的统计学与其他学科有何区别与联系?6何为统计学?统计与数量有关,同时它已经渗透到社会经济活动和科统计(Statistics)的涵义统计是人们认识客观世界总体数量变动关系和变动规律的活动的总称,是认识客观世界的有力工具。统计学是研究如何测定、收集、整理、归纳和分析反映客观现象总体数量的数据,以便给出正确认识的方法论科学。7统计(Statistics)的涵义统计是人们认识客观世界总体统计的研究对象的特点数量性。统计数据是客观事物量的反映。总体性。统计的数量研究是对现象总体中各单位普遍存在的事实进行大量观察和综合分析。变异性。总体各单位的特征表现存在着差异,而且这些差异并不是事先可以预知的。8统计的研究对象的特点8统计研究的基本环节统计设计收集数据整理与分析资料积累开发应用统计学理论与相关实质性学科理论描述统计推断统计统计调查、实验9统计研究的基本环节统计设计收集数据整理与分析资料积累统计学理统计设计根据所要研究问题的性质,在有关学科理论的指导下,制定统计指标、指标体系和统计分类,给出统一的定义、标准。同时提出收集、整理和分析数据的方案和工作进度等。搞好统计设计不仅要有统计学的一般理论和方法为指导,而且还要求设计者对所要研究的问题本身具有深刻的认识和相关的学科知识。10统计设计根据所要研究问题的性质,在有关学科理论的指导下,制定收集数据统计数据的收集有两种基本方法。对于大多数自然科学和工程技术研究来说,有可能通过有控制的科学实验去取得数据,这时可以采用实验法。对于社会经济现象来说,一般无法进行重复实验,要取得有关数据就必须进行调查观察。海量数据的积累!!!11收集数据统计数据的收集有两种基本方法。11整理与分析描述统计是指对采集的数据进行登记、审核、整理、归类,在此基础上进一步计算出各种能反映总体数量特征的综合指标,并用图表的形式表示经过归纳分析而得到的各种有用的统计信息。推断统计是在对样本数据进行描述的基础上,利用一定的方法根据样本数据去估计或检验总体的数量特征。推断统计是现代统计学的主要内容。12整理与分析描述统计是指对采集的数据进行登记、审核、整理、归类统计资料的积累、开发与应用对于已经公布的统计资料需要加以积累,同时还可以进行进一步的加工,结合相关的实质性学科的理论知识去进行分析和利用。如何更好地将统计数据和统计方法应用于各自的研究领域是应用统计学研究的一个重要方面。13统计资料的积累、开发与应用对于已经公布的统计资料需要加以积累统计学的流派政治算术学派国势学派社会统计学派数理统计学派理论统计学应用统计学14统计学的流派政治算术学派14政治算术学派与国势学派

政治算术学派。最早的统计学源于17世纪英国。其代表人物是威廉.配第(WilliamPatty,1623—1687年)。政治算术学派主张用大量观察和数量分析等方法对社会经济现象进行研究的主张,为统计学的发展开辟了广阔的前景。国势学派。最早使用“统计学”这一术语的是德国国势学派。国势学派虽然创造了统计学这一名词,但他们主要使用文字记述方法对国情国力进行研究,其学科内容与现代统计学有较大差别。15政治算术学派与国势学派

政治算术学派。最早的统计学源于17世社会统计学派1850年,德国的统计学家克尼斯(K.G.A.knies)发表了题为《独立科学的统计学》的论文,提出统计学是一门独立的社会科学,是一门对社会经济现象进行数量对比分析的科学。各国学者在社会经济统计指标的设定与计算、指数的编制、资料的收集与整理、统计调查的组织和实施、经济社会的数量分析和预测等方面做出的贡献已成为现代统计学的重要组成部分。例如,“恩格尔系数”,至今仍为人们广泛使用。国内生产总值(GDP)的核算方法被称为“20世纪最伟大的发明之一。”16社会统计学派1850年,德国的统计学家克尼斯(K.G.A.k数理统计学派认为统计学是一门通用的方法论科学。创始人是比利时统计学家凯特勒(AdolpheQuetelet,1796—1874年)。他所著的代表作《社会物理学》等将概率论和统计方法引入社会经济方面的研究。从19世纪中叶到20世纪中叶,数理统计学得到迅速发展。英国生物学家高尔顿提出并阐述了“相关”的概念;皮尔逊提出了计算复相关和偏相关的方法。戈塞特建立了“小样本理论”,即所谓的“t分布”;费歇尔样本相关系数的分布、方差分析、实验设计等方面的研究中做出了重要贡献。到20世纪中期,数理统计学的基本框架已经形成。数理统计学派成为英美等国统计学界的主流。17数理统计学派认为统计学是一门通用的方法论科学。创始人是比利时理论统计学和应用统计学历经300多年的发展,统计学目前已经成为横跨社会科学和自然科学领域的多科性的科学。“统计学是有关如何测定、收集和分析反映客观现象总体数量的数据,以便给出正确认识的方法论科学。”

现代统计学可以分为两大类:一类是以抽象的数量为研究对象,研究一般的收集数据、整理数据和分析数据方法的理论统计学。另一类是以各个不同领域的具体数量为研究对象的应用统计学。18理论统计学和应用统计学历经300多年的发展,统计学目前已经成数学与统计学的联系数学与统计学都是研究数量规律的,都要利用各种公式进行运算。数学中的概率论,为统计学提供了数量分析的理论基础。统计学中的理论统计学以抽象的数量为研究对象,其大部分内容也可以看作是数学的分支。19数学与统计学的联系数学与统计学都是研究数量规律的,都要利用各统计学与数学的区别从研究对象看,数学以最一般的形式研究数量的联系和空间形式。统计学特别是应用统计学则总是与客观的对象联系在一起的。从研究方法看,数学主要是逻辑推理和演绎论证的方法。而统计本质上是归纳的方法。统计学家特别是应用统计学家需要深入实际,进行调查或实验去取得数据,研究时不仅要运用统计的方法,而且还要掌握某一专门领域的知识。20统计学与数学的区别从研究对象看,数学以最一般的形式研究数量的测量与数据数据是通过把感兴趣领域里的实体以某种测量过程映射到符号表示得到的。测量就是把实体的一个给定属性与一个变量值联系起来。属性(变量):重量属性(变量)值:2kg测量21测量与数据数据是通过把感兴趣领域里的实体以某种测量过程映射到统计数据基本构成要

素实体(Element)变量(Variable)观测(Observation)关于实体的一种属性或特征研究对象由各实体组成关于某一实体所有各变量的信息22统计数据基实体(Element)变量(Variable)观测变量与变量值说明现象的某一数量特征的概念也被称为变量,变量的具体取值是变量值,统计数据就是统计变量的具体表现。连续型变量是指变量的取值在数轴上连续不断,无法一一列举,即在一个区间内可以取任意实数值。离散型变量是指变量的其取值是整数值,可以一一列举。23变量与变量值说明现象的某一数量特征的概念也被称为变量,变量的例:员工个人资料表姓名性别年龄身高(m)体重(kg)民族公司服务年限受教育年限甲男331.8565汉318乙女251.6555回216丙男261.7260满115丁女351.6053回416戊男321.8368汉21924例:员工个人资料表姓名性别年龄身高(m)体重(kg)民族公司变量的测度等级变量的测度等级:量化程度变量的测度等级直接关系到数据分析方法的选择。常用的划分为四种名义测度(Nominal)有序测度(Ordinal)间距测度(Interval)比率测度(Ratio)25变量的测度等级变量的测度等级:量化程度25名义测度(Nominal)变量用多种状态来表示,这些状态之间既没有数量关系,也没有等级关系。例如,性别(男、女),颜色(红、黄、蓝)可以用数字表示(编码),但数字只是用作标签。编码的数值之间不存在有实际意义的量的关系。26名义测度(Nominal)变量用多种状态来表示,这些状态之有序测度(Ordinal)有序测度量化水平高于名义测度变量编码不仅具有分类的作用,而且也存在量的关系(等级或次序关系)。例如,受教育程度(文盲半文盲1、小学2、初中3、高中4、大学及以上5)编码的数值之间存在有实际意义的量的关系,编码值可以应用于不等式计算。27有序测度(Ordinal)有序测度量化水平高于名义测度27间距测度(Interval)变量取值不再是类的编码,而是采用一定单位的实际测量值。可以度量两个不同变量值之间的差异及大小。例如,温度(5摄氏度,10摄氏度)数值之间可以进行加法和减法,但不不能进行乘除计算。因为这一测度等级的变量所取得的0值不是物理意义上的绝对0。28间距测度(Interval)变量取值不再是类的编码,而是采用比率测度(Ratio)最高级的测度等级。大多数物理量,例如质量,长度以及能量都是比率测度;华氏温度也是比率测度。可以进行各种运算。较高等级的变量可以降级使用。29比率测度(Ratio)最高级的测度等级。29数据来源30数据来源30总体和样本总体:又称母体,指所要研究对象的全体,由许多客观存在的具有某种共同性质的单位构成。总体单位数用N表示。样本:又称子样,来自总体,是从总体中按随机原则抽选出来的部分,由抽选的单位构成。样本单位数(容量)用n表示。总体是唯一的、确定的,而样本是不确定的、可变的、随机的。31总体和样本总体:又称母体,指所要研究对象的全体,由许多客观存总体参数和样本统计量总体参数:反映总体数量特征的指标。其数值是唯一的、确定的。样本统计量:根据样本分布计算的指标,是随机变量。平均数标准差、方差参数、2统计量S、S2总体样本32总体参数和样本统计量总体参数:反映总体数量特征的指标。其数值数据的类型横截面数据又称为静态数据,它是指在同一时间对同一总体内不同单位的数量进行观察而获得的数据。时间序列数据又称为动态数据,它是指在不同时间对同一总体的数量表现进行观察而获得的数据。例如,2008年全国各省市自治区的国内生产总值就属于横截面数据。而“十一五”期间我国历年的国内生产总值就属于时间序列数据。面板数据:横截面数据与时间序列数据交织在一起。非结构化数据33数据的类型横截面数据又称为静态数据,它是指在同一时间对同一总面板数据所谓“面板数据”也称为“平行数据”,是指对不同时刻的截面个体作连续观测所得到的多维时间序列数据。例如,在研究生产成本与企业规模和技术进步的关系时,选择不同规模企业在不同时间上的数据作为样本观测值,这些观测值数据就是面板数据。34面板数据所谓“面板数据”也称为“平行数据”,是指对不同时刻的非结构化数据相对于结构化数据(即存储在数据库中,可以用二维表结构来逻辑表达的数据)而言,不方便用数据库二维表来表现的数据即称为非结构化数据。包括所有格式的办公文档、文本、图片、各类报表、图像和音频/视频信息等等。据调查,现在人们所使用的数据有80%是非结构化的,而非结构化的数据又往往同结构化的数据结合在一起。35非结构化数据相对于结构化数据(即存储在数据库中,可以用二维表数据与模型的关系数据1数据2……数据n模型分析结果决策方案输入输出处理过程36数据与模型的关系数据1数据2……数据n模型分析结果决策方案输数据的质量数据分析的有效性与数据质量密不可分。GIGO-GarbageIn,GarbageOut.垃圾进,垃圾出。37数据的质量数据分析的有效性与数据质量密不可分。37数据的质量数据分析研究的目的不同,对样本数据要求也不同。选择样本数据,除了考虑数据的可得性之外,还必须考虑数据的可用性。为保证分析结论的可靠性,应从完整性、准确性、可比性和一致性等方面对选取的样本数据的质量进行考虑。38数据的质量数据分析研究的目的不同,对样本数据要求也不同。选数据的完整性人们无论是从宏观、中观和微观角度研究的现象都可以看成一个系统,研究所依据的数据,作为系统状态和其内部机制及外部环境的数量应该是完整的,否则,模型就无法确定。在统计模型中,表现为样本数据的完整性。百分之百的完整是难以达到的,但对于少数“遗失数据”,必须采用科学的方法人为地补充以达到数据的完整性。39数据的完整性人们无论是从宏观、中观和微观角度研究的现象都可数据的准确性数据的准确性包括两个方面的含义。一是它必须准确反映它所代表的研究对象的状态,要求统计数据或调查数据本身是准确的;二是它必须是模型研究中所要求的数据,它要求研究人员准确地选择、应用数据。40数据的准确性数据的准确性包括两个方面的含义。40数据的可比性与一致性数据的可比性即数据口径问题,在统计模型研究中人们得到的统计数据,经常具有比较差的可比性,其原因在于统计范围口径的变化,必须进行处理后才能为研究所用。统计分析方法,是从历史的数据或同一时间截面的不同点的数据中寻找其内在规律性,如果数据是不可比的,当然找出的规律并不能反映对象本身的固有规律。数据的一致性并不是可比性可以包容的,主要指纵向一致性(例如用于商品分类的代码不一致)。41数据的可比性与一致性数据的可比性即数据口径问题,在统计模型研数据预处理为什么需要预处理数据清理数据集成和变换数据规约42数据预处理为什么需要预处理42为什么需要预处理脏数据不完整,含噪声,不一致数据清理通过填写空缺值,平滑噪声数据,识别删除异常点,并解决不一致来清理数据。43为什么需要预处理脏数据43脏数据形成的原因滥用缩写词数据输入错误数据中的内嵌控制信息不同的惯用语重复记录丢失值拼写变化不同的计量单位过时的编码44脏数据形成的原因滥用缩写词44数据清理的重要性脏数据的普遍存在,使得在大型数据库中维护数据的正确性和一致性成为一个非常困难的任务。数据清理可以改进数据的质量,从而有助于提高分析和挖掘过程的精度和性能。45数据清理的重要性脏数据的普遍存在,使得在大型数据库中维护数据数据清理处理内容填充空缺值格式标准化异常数据清除错误纠正重复数据的清除46数据清理处理内容填充空缺值46空缺值忽略元组人工填充空缺值使用一个全局常量填充空缺值使用属性的平均值填充空缺值使用与给定元组属于同一类的所有样本的属性平均值填充空缺值使用最有可能的值填充空缺值47空缺值忽略元组47噪声数据如何平滑数据,去掉噪声数据平滑技术分箱聚类计算机和人工检查相结合回归48噪声数据如何平滑数据,去掉噪声48分箱(binning)分箱方法通过考察数据的“近邻”来光滑有序数据的值。平滑方法:按箱平均值平滑按箱中值平滑按箱边界值平滑49分箱(binning)分箱方法通过考察数据的“近邻”来光滑有分箱方法用于数据平滑价格数据(美元):4,8,9,15,21,21,24,25,26,28,29,34*划分为(等频)箱:

-箱1:4,8,9,15-箱2:21,21,24,25-箱3:26,28,29,34*用箱均值平滑:

-箱1:9,9,9,9-箱2:23,23,23,23-箱3:29,29,29,29*用箱的边界平滑:

-箱1:4,4,4,15-箱2:21,21,25,25-箱3:26,26,26,3450分箱方法用于数据平滑价格数据(美元):4,8,9,聚类可以通过聚类检测异常点每个簇(Cluster)中的数据用其中心值代替落在簇之外的点为异常点,一般情况下可以忽略异常点。51聚类可以通过聚类检测异常点51聚类(Clustering)52聚类(Clustering)52计算机和人工检查相结合先通过聚类等方法找出异常点。这些异常点可能包含有用的信息。人工再审查这些异常点。53计算机和人工检查相结合先通过聚类等方法找出异常点。这些异常点回归通过构造函数来符合数据变化的趋势,这样可以用一个变量预测另一个变量。线性回归非线性回归xyy=x+1X1Y1Y1’54回归通过构造函数来符合数据变化的趋势,这样可以用一个变量预测数据集成将多个数据源中的数据结合起来存放在一个一致的数据存储(如数据仓库)中。实体识别问题:模式集成和对象匹配冗余:某个属性可以由别的属性推出。相关分析与相关性RA,B.RA,B>0,正相关。A随B的值得增大而增大RA,B=0,不相关。AB无关RA,B<0,负相关。A随B的值得增大而减少重复同一数据存储多次数据值冲突的检测和处理55数据集成将多个数据源中的数据结合起来存放在一个一致的数据存储数据变换平滑:去掉数据中的噪声聚集:对数据进行汇总或聚集数据概化:使用概念分层,用高层概念替换低层或“原始”数据。规范化:将属性数据按比例缩放,使之落入一个小的特定区间,例如[0,1],[-1,1]属性构造(特征构造):由给定的属性构造和添加新的属性,以帮助提高精度和对高维数据结构的理解56数据变换平滑:去掉数据中的噪声56数据规范化最小最大规范化小数定标规范化Z-Score规范化(μ:均值,σ:标准差)57数据规范化最小最大规范化57数据规约数据集的压缩表示,但是能和原始数据集达到相同或基本相同的分析结果主要策略:数据立方体聚集属性子集选择维规约(通过变换降维)数值规约58数据规约数据集的压缩表示,但是能和原始数据集达到相同或基本相属性子集选择删除不相关的属性(维)来减少数据量。找出最小属性集合,使得数据类的概率分布尽可能地接近使用所有属性的原分布如何选取?贪心算法逐步向前选择逐步后向删除向前选择和后向删除相结合决策树归纳59属性子集选择删除不相关的属性(维)来减少数据量。59维规约维规约使用数据编码或变换,以便得到原数据的规约或“压缩”表示。有损,无损小波变换与主成分分析(PCA)小波变换将数据向量D转换成为数值上不同的小波系数的向量D’.对D’进行剪裁,保留小波系数最强的部分。60维规约维规约使用数据编码或变换,以便得到原数据的规约或“压缩主成分分析

PCA通过寻找变量方差最大投影轴,判断有多少不相关变量,并将原变量组合成新量,这大大可以减少计算的复杂性,同时保证尽可能小地丢失信息,即降维可以用以分解变量为几个不相关分量相比于反射映射或交叉相关方法,PCA对样本要求不高对数据预处理,去掉一些不重要或无关量61主成分分析 PCA通过寻找变量方差最大投影轴,判断有多少不主成分分析

(PCA)x2x1e62主成分分析(PCA)x2x1e62数值规约通过选择可替代的、规模小的数据表示形式来减少数据量参数方法(例如回归)模型假设、参数估计。存放数据参数,而不是实际数据。例如回归模型、对数线性模型等非参数方法

不预先假设模型直方图,聚类,抽样63数值规约通过选择可替代的、规模小的数据表示形式来减少数据量6抽样(有放回和无放回)SRSWOR(simplerandomsamplewithoutreplacement)SRSWRRawData64抽样(有放回和无放回)SRSWORSRSWRRawData聚类后抽样原始数据

聚类抽样65聚类后抽样原始数据聚类抽样65离散化和概念分层离散化技术用来减少给定连续属性的个数通常是递归的。大量时间花在排序上。对于给定的数值属性,概念分层定义了该属性的一个离散化的值。66离散化和概念分层离散化技术用来减少给定连续属性的个数66数值数据离散化和概念分层分箱直方图分析聚类分析基于熵的离散化通过自然划分分段3-4-5规则根据直观划分产生数值概念分层67数值数据离散化和概念分层分箱67数值概念分层(-$400-$5,000)(-$400-0)(-$400--$300)(-$300--$200)(-$200--$100)(-$100-0)(0-$1,000)(0-$200)($200-$400)($400-$600)($600-$800)($800-$1,000)($2,000-$5,000)($2,000-$3,000)($3,000-$4,000)($4,000-$5,000)($1,000-$2,000)($1,000-$1,200)($1,200-$1,400)($1,400-$1,600)($1,600-$1,800)($1,800-$2,000)msd=1,000 Low=-$1,000 High=$2,000Step2:Step4:Step1:-$351 -$159 profit $1,838 $4,700 MinLow(i.e,5%-tile) High(i.e,95%-0tile)Maxcount(-$1,000-$2,000)(-$1,000-0)(0-$1,000)Step3:($1,000-$2,000)68数值概念分层(-$400-$5,000)(-$400-概念分层自动生成根据每个属性的不同值的个数产生概念分层国家省市街道15distinctvalues365distinctvalues3567distinctvalues674,339distinctvalues69概念分层自动生成根据每个属性的不同值的个数产生概念分层国家省数据预处理小结数据预处理对于数据仓库和数据挖掘都是一个重要的问题,因为实际数据多半是不完整的、有噪声和不一致的。数据预处理包括数据清理、数据集成、数据变换和数据规约。尽管已经开发了许多数据预处理方法,由于不一致或脏数据数量巨大以及问题本身的复杂性,数据预处理仍然是一个活跃的研究领域。70数据预处理小结数据预处理对于数据仓库和数据挖掘都是一个重要的统计数据分析方法描述统计推断统计常用统计分析软件71统计数据分析方法71统计数据分析方法统计学探索客观现象数量规律性的过程反映客观现象的统计数据描述统计学(统计数据的收集、整理、显示和分析)推断统计学(利用样本信息和概率论对总体数量特征进行估计并检验)概率论(分布理论、大数定律、中心极限定理)总体内在的数量规律72统计数据分析方法统计学探索客观现象数量规律性的过程反映客观现描述统计的作用对事物的全局认识和大局把握描述粗略分布形状描述现象基本特征和基本框架73描述统计的作用对事物的全局认识和大局把握73描述统计数据整理集中趋势和离中趋势相关分析74描述统计数据整理74数据整理数据分组统计指标统计表和统计图

按照研究的目的,将搜集到的原始数据进行加工,从中提取有用的信息,并搜索其中的数量规律性。数据整理数据分组按照研究的目的,将搜集到的原始数据进75数据分组统计数据的分组分组是将总体所有单位按一定的标准区分为若干部分分组的目的:概括数据,清晰条理76数据分组统计数据的分组分组是将总体所有单位按一定的标准区分为如何分组?将具有共性的个体归入同一组将总体内部个体间的差异通过组别区分开来77如何分组?将具有共性的个体归入同一组将总体内部个体间的差异通统计数据的分组空间数列是按不同地区标志进行的分组。例如人口按省、市、自治区分组;品质数列是按现象的性质、类别标志进行的分组。例如人口按性别和民族分组;时间数列按时间发生的先后顺序分组。例如我国解放后各年的人口数字;GDP变量数列是按某一数量标志大小顺序进行的分组。例如某企业按工资收入的多少分组;78统计数据的分组空间数列是按不同地区标志进行的分组。例如人口按次数分配数据观察值在各组中的个数称为次数,各组间的次数称为次数分配。次数分配描述了总体的结构和特征。例如:某企业非熟练工人的月工资额(百元)数据如下表所示,应如何分组?79次数分配数据观察值在各组中的个数称为次数,各组间的次数称为次某企业非熟练工人的月工资额(百元)人员编号月收入人员编号月收入人员编号月收入110611992185284129422106311131192310149114872410551091511825966911697261057111171032710781071810328128912119952911110105201063010180某企业非熟练工人的月工资额(百元)人员编号月收入人员编号月收变量次数分配的编制1、将原始资料顺序排序2、确定组数与组距3、将各个数据按其数值大小归入相应的组内4、确定组限81变量次数分配的编制1、将原始资料顺序排序81确定组数与组距如果数据分布比较均匀、对称,即中间数值次数多,大小极端值次数少,考虑用以下公式来确定组数:Sturges提出的经验公式组数=1+3.322×logn。式中,n表示总次数,log表示以10为底的对数。在不等距分组情况下,要比较各组次数或分析总体结构,要消除由组距不等造成的影响。为此需计算单位组距的次数,即频数密度。组距=(观察值中的最大数值-观察值中的最小数值)/组数82确定组数与组距如果数据分布比较均匀、对称,即中间数值次数多,分组计算组数=1+3.322×logn=5.9(n=30)分6组组距:每组区间的宽度=(观察值中的最大数值-观察值中的最小数值)/组数

=(128-84)/6=7.383分组计算组数=1+3.322×logn83分6组,组距784,85,87,91,91,94,95,96,97,99,101,101,103,103……计算不方便84分6组,组距784,85,87,91,91,94,95,84结合实际数据比较计算组距值(7.3),组距为10比较好计算且方便,分组的组数相应从6减少为5。最小值为83,下限从80开始,85结合实际数据比较计算组距值(7.3),组距为10比较好计算且按5组,10元作为组距,

计算次数。组限:区间界限80-89

求次数分配表和直方图86按5组,10元作为组距,

计算次数。组限:区间界限8次数分配表工资收入次数分配表工资收入分组次数80-90(80-89)390-100(90-99)7100-11013110-1205120-1302合计3087次数分配表工资收入次数分配表工资收入分组次数80-90(作图88作图88用excel作直方图89用excel作直方图89分两组工资收入次数分配表工资收入分组次数80-10513105-13017合计30反映不出观察值分布特征90分两组工资收入次数分配表工资收入分组次数80-10513分组太细会出现什么问题?91分组太细会出现什么问题?91分组数据的图示

(直方图的绘制)140150210直方图下的面积之和等于1某电脑公司销售量分布的直方图我一眼就看出来了,销售量在170~180之间的天数最多!190200180160170频数(天)25201510530220230240销售量(台)92分组数据的图示

(直方图的绘制)140150210直方图下的次数曲线用直线线段连接直方图各组条形顶端中值,形成一条平滑的曲线,即次数曲线。常见的四种次数曲线:正态分布曲线,偏态曲线,J形曲线和U形曲线。正态分布曲线偏态曲线J形曲线U形曲线正偏(右偏)负偏(左偏)93次数曲线用直线线段连接直方图各组条形顶端中值,形成一条平滑的累计次数分布周工资上组限组次数小于上组限的累计次数小于上组限的累计百分比%80-9090-100100-110110-120120-130901001101201303713523102328301033779310094累计次数分布周工资上组限组次数小于上组限的累计次数小于上组限统计表和统计图一个完整的统计表要求有:表号、表名、分组标志或说明、指标名称及数值;统计图有条形图、线形图、圆饼图、立体图、枝叶图等;统计图线形图条形图圆饼图95统计表和统计图一个完整的统计表要求有:表号、表名、分组标志或示例数据96示例数据96线形图(Linegraph)(亿元)97线形图(Linegraph)(亿元)97条形图(Barchart)(亿元)98条形图(Barchart)(亿元)98圆饼图(Piechart)99圆饼图(Piechart)99环形图

(doughnutchart)环形图中间有一个“空洞”,样本或总体中的每一部分数据用环中的一段表示与饼图类似,但又有区别饼图只能显示一个总体各部分所占的比例环形图则可以同时绘制多个样本或总体的数据系列,每一个样本或总体的数据系列为一个环用于结构比较研究用于展示分类和顺序数据100环形图

(doughnutchart)环形图中间有一个“空环形图8%36%31%15%7%33%26%21%13%10%

非常不满意

不满意

一般

满意

非常满意

甲乙两城市家庭对住房状况的评价101环形图8%36%31%15%7%33%26%21%13%10多变量数据—雷达图

(radarchart)也称为蜘蛛图(spiderchart)显示多个变量的图示方法在显示或对比各变量的数值总和时十分有用假定各变量的取值具有相同的正负号,总的绝对值与图形所围成的区域成正比可用于研究多个样本之间的相似程度102多变量数据—雷达图

(radarchart)也称为蜘蛛图(多变量数据—雷达图

(雷达图的制作)设有n组样本S1,S2,…,Sn,每个样本测得P个变量X1,X2

,…,XP,要绘制这P个变量的雷达图,其具体做法是

先做一个圆,然后将圆P等分,得到P个点,令这P个点分别对应P个变量,在将这P个点与圆心连线,得到P个辐射状的半径,这P个半径分别作为P个变量的坐标轴,每个变量值的大小由半径上的点到圆心的距离表示将同一样本的值在P个坐标上的点连线。这样,n个样本形成的n个多边形就是一个雷达图103多变量数据—雷达图

(雷达图的制作)设有n组样本S1,S多变量数据—雷达图

(例题分析)【例】2003年我国城乡居民家庭平均每人各项生活消费支出构成数据如表。试绘制雷达图2003年城乡居民家庭平均每人生活消费支出构成(%)项目城镇居民农村居民

食品衣着家庭设备用品及服务医疗保健交通通讯娱乐教育文化服务居住杂项商品与服务37.129.796.307.3111.0814.3510.743.3045.595.674.205.968.3612.1315.872.21104多变量数据—雷达图

(例题分析)【例】2003年我国城乡居多变量数据—雷达图

(例题分析)105多变量数据—雷达图

(例题分析)105106106散点图(ScatterDiagram)107散点图(ScatterDiagram)107集中趋势和离中趋势集中趋势的计量离中趋势的计量偏斜度和峰度的计量108集中趋势和离中趋势集中趋势的计量108次数分配后有两个特征集中趋势的计量。集中趋势反映一组数据中各数据所具有的共同趋势,即资料中各数据聚集的位置离中(离散)趋势的计量

109次数分配后有两个特征集中趋势的计量。109算术平均值

简单算术平均数计算公式:

它反映数据集中的主要测度。110算术平均值简单算术平均数计算公式:110加权算数平均数111加权算数平均数111算数平均值的好性质一

数据观察值与均值的离差值之和为零此性质表明均值是个数值的重心112算数平均值的好性质一数据观察值与均值的离差值之和为零112算数平均值的好性质二观察值与均值的离差平方和最小,为任意数。113算数平均值的好性质二观察值与均值的离差平方和最小,113均值的缺点均值易受极端值的影响,某个极端大值或极端小值都会影响均值的代表性。同时还影响其对集中趋势测度的准确性114均值的缺点均值易受极端值的影响,某个极端大值或极端小值都会影中位数将数据观察值按其变量值由小到大的顺序排序为如果个数为奇数,中位数所在位置位置上的数值为成为中位数;用表示中位数,6,7,8,9,12,15,18115中位数将数据观察值按其变量值由举例1987年美国家庭收入中位数大约是30800美元。收入直方图有一个长的右尾部,且平均数较高一些,为37000美元。在处理长尾的分布时,统计学家常常使用中位数而不用平均数,理由在于在某些情况下,平均数过多地注意了分布的极端尾部的小百分比的事例。116举例1987年美国家庭收入中位数大约是30800美元。收入直众数众数是一组资料中出现此书最多的那个数值,也反映数据集中的程度。20,15,18,20,20,22,20,2320,20,15,19,19,

20,19,2510,11,13,16,15,25,8,12117众数众数是一组资料中出现此书最多的那个数值,也反映数据集对称分布平均数与中位数相同众数平均数中位数118对称分布平均数与中位数相同众数平均数中位数118均值是数据分布的平衡点或重心中位数把这个分布划分为两半众数正好是分布的顶端119均值是数据分布的平衡点或重心中位数把这个分布划分为两半119长左尾部—负偏态—左偏态平均数小于中位数120长左尾部—负偏态—左偏态平均数小于中位数120几何均值凡是变量值乘积等于总比率或总速度的现象都可以用几何平均数来计算平均率或平均速度。主要用于指数和平均发展速度的计算,用表示,公式为:121几何均值凡是变量值乘积等于总比率或总速度的现象都可以用几何平表示变异(离散)程度的特征数数据的变异程度产品质量检查的结果说明生产是否稳定测量的结果说明测量方法或仪器是精密还是粗糙学生的成绩成绩是否整齐(而不是高低)122表示变异(离散)程度的特征数数据的变产品质量检查的结果说明生离散程度的测度离散程度的测度的主要方法是:极差和方差极差极差也称为全距,是一组数据的最大值和最小值的差:

例如:天气预报123离散程度的测度离散程度的测度的主要方法是:极差和方差例如:天方差方差是观察值与其均值离差平方和的均值,又有总体方差和样本方差之分;124方差方差是观察值与其均值离差平方和的均值,又有总体方差和样本标准差标准差是方差的正平方根总体标准差样本标准差125标准差标准差是方差的正平方根总体标准差样本标准差125用Excel计算描述统计量将120个销售量的数据输入到Excel工作表中,然后按下列步骤操作第1步:选择【工具】下拉菜单第2步:选择【数据分析】选项第3步:在分析工具中选择【描述统计】,然后选择【确定】第4步:当对话框出现时在【输入区域】方框内键入数据区域在【输出选项】中选择输出区域选择【汇总统计】选择【确定】实例计算126用Excel计算描述统计量将120个销售量的数据输入到ExExcel中的统计函数MODE—计算众数MEDIAN—计算中位数QUARTILE—计算四分位数AVERAGE—计算平均数HARMEAN—计算简单调和平均数GEOMEAN—计算几何平均数AVEDEV—计算平均差STDEV—计算样本标准差STDEVP—计算总体标准差SKEW—计算偏态系数KURT—计算峰态系数TRIMMEAN—计算切尾均值127Excel中的统计函数MODE—计算众数127数据分布特征和描述统计量数据分布特征集中趋势离散程度分布形状中位数平均数异众比率四分位差极差偏态系数平均差方差或标准差峰态系数众数离散系数128数据分布特征和描述统计量数据分布特征集中趋势离散程度分布形状因变量(Y)与自变量(X)之间的关系

根据因变量与自变量之间的关系不同,可以分为两种类型:函数关系统计关系129因变量(Y)与自变量(X)之间的关系

根据因变量与自变量之间变量之间的关系函数关系:变量之间依一定的函数形成的一一对应关系,若两个变量分别记做Y与X,则当Y与X之间存在函数关系时,X值一旦被指定,Y值就是唯一确定的。130变量之间的关系函数关系:变量之间依一定的函数形成的一一对应关函数关系函数关系的例子某种商品的销售额(y)与销售量(x)之间的关系可表示为y=px(p为单价)圆的面积(S)与半径之间的关系可表示为S=r2

企业的原材料消耗额(y)与产量(x1)、单位产量消耗(x2)、原材料价格(x3)之间的关系可表示为y=x1x2x3

131函数关系函数关系的例子131变量之间的关系统计关系:两个变量之间存在某种关系,但变量Y并不是由变量X唯一确定的,它们之间没有严格的一一对应关系。两个变量间的这种关系就是统计关系,亦称相关关系。两个变量之间若存在线性关系称为线性相关,存在非线性关系称为曲线相关,通常通过适当的变量变换,曲线相关可转换为线性相关。132变量之间的关系统计关系:两个变量之间存在某种关系,但变量Y并相关关系

相关关系的例子商品的消费量(y)与居民收入(x)之间的关系商品的消费量(y)与物价(x)之间的关系商品销售额(y)与广告费支出(x)之间的关系粮食亩产量(y)与施肥量(x1)、降雨量(x2)、温度(x3)之间的关系收入水平(y)与受教育程度(x)之间的关系父亲身高(y)与子女身高(x)之间的关系133相关关系相关关系的例子133总体相关系数134总体相关系数134样本相关系数135样本相关系数135样本相关系数136样本相关系数136样本相关系数137样本相关系数137相关关系的测度

(相关系数取值及其意义)-1.0+1.00-0.5+0.5完全负相关无线性相关完全正相关负相关程度增加r正相关程度增加138相关关系的测度

(相关系数取值及其意义)-1.0+1.00-相关性的可视化Scatterplotsshowingthesimilarityfrom–1to1.139相关性的可视化Scatterplotsshowingt示例为研究股票收益与风险之间的关系,抽选了美国15种股票,计算它们在1956~1980年间的平均收益率和标准差如表(美国15种股票平均收益率与标准差),试计算收益率与风险之间的相关系数。计算结果为:r=0.6376,说明了平均收益越大风险也越大。140示例为研究股票收益与风险之间的关系,抽选了美国15种股票,计相关分析中应注意的问题相关系数不解释两个变量间的因果关系,它只是表明了两个变量间互相影响的程度和方向。有时两变量之间不存在相关关系,但却可能出现较高的相关系数,要警惕虚假相关导致的错误结论。141相关分析中应注意的问题相关系数不解释两个变量间的因果关系,它推断统计参数估计假设检验方差分析回归分析时间序列分析推断性统计学142推断统计参数估计假设检验方差分析回归分析时间序列分析推142相关分析与回归分析相关分析就是用一个指标来表明现象间相互依存关系的密切程度。广义的相关分析包括相关关系的分析(狭义的相关分析)和回归分析。回归分析是指对具有相关关系的现象,根据其相关关系的具体形态,选择一个合适的数学模型(称为回归方程式),用来近似地表达变量间的平均变化关系的一种统计分析方法。143相关分析与回归分析相关分析就是用一个指标来表明现象间相互依存回归模型的类型一个自变量两个以上自变量回归模型多元回归一元回归线性回归非线性回归线性回归非线性回归144回归模型的类型一个自变量两个以上自变量回归模型多元回归一元回一元线性回归模型统计关系的特征统计关系特征观测点散布在统计关系直线的周围,此种情况说明Y的变化除了受自变量X影响以外,还受其他因素的影响。因此试图建立这样一个回归模型,通过对此模型所作的一些假设,可以体现出上述统计关系所刻划的特征。因变量Y随自变量X有规律的变化,而统计关系直线描述了这一变化的趋势。145一元线性回归模型统计关系的特征统计关系观测点散布在统计关系直一元线性回归模型假设根据统计关系特征,可以进行下述假设:假设(2)这些Y的概率分布的均值,有规律的随X变化而变化(1)对于自变量的每一水平X,存在着Y的一个概率分布;146一元线性回归模型假设根据统计关系特征,可以进行下述假设:假设一元线性回归模型Y与X具有统计关系而且是线性建立回归模型Yi=β0+β1Xi+εi

(i=1,2,···,n)

其中,(Xi,Yj)表示(X,Y)的第i个观测值,β0,β1为参数,β0+β1Xi为反映统计关系直线的分量,εi为反映在统计关系直线周围散布的随机分量ε

i~N(0,σ2)。147一元线性回归模型Y与X具有统计建立Yi=β0+β1Xi+εi一元线性回归模型对于任意Xi值有:⑴Yi服从正态分布⑵E(Yi)=β0+β1Xi;⑶⑷各Yi间相互独立

Yi~N(β0+β1Xi,σ2)148一元线性回归模型对于任意Xi值有:⑴Yi服从正态分布⑵E一元线性回归方程最小二乘法Y与X之间为线性关系选出一条最能反映Y与X之间关系规律的直线149一元线性回归方程最小二乘法Y与X之间选出一条最能反149一元线性回归方程Yi=β0+β1Xi+εi

β0和β1均未知根据样本数据对β0和β1进行估计β0和β1的估计值为b0和b1

建立一元线性回归方程

150一元线性回归方程Yi=β0+β1Xi+εi根据样本数据β0一元线性回归方程一般而言,所求的b0和b1应能使每个样本观测点(Xi,Yi)与回归直线之间的偏差尽可能小,即使观察值与拟合值的误差平方和Q达到最小。回归方程原理图151一元线性回归方程一般而言,所求的b0和b1应能使每个样本观测一元线性回归方程令

Q达到最小值b0和b1称为最小二乘估计量微积分中极值的必要条件

令偏导数为0解方程152一元线性回归方程令一元线性回归方程153一元线性回归方程153模型适合性分析在对一元线性回归模型的适合性进行分析时,由于误差项是不可观测或测量的,需借助残差的图像,来考察模型是否存在以下情况:异方差性和自相关性。154模型适合性分析在对一元线性回归模型的适合性进行分析时,15误差项的异方差性检验若不具有常数方差,称模型存在异方差性。此时,残差如下图所示,数据点呈现发散或收敛趋势。在此种情况下,最小二乘法失效,因此需按照一定方法对数据进行变换。155误差项的异方差性检验若不具有常数方差,称模型存在异方差误差项的异方差性检验误差项具有异方差性的残差图156误差项的异方差性检验误差项具有异方差性的残差图156误差项的自相性关检验如果观测值是来自一个时间序列的样本,则很可能出现误差项是不独立的,将残差et与时间t作残差图,将呈现出有规则的变化趋势。称模型存在自相关(Autocorrelation)现象,也需按一定方法对数据进行修正。157误差项的自相性关检验如果观测值是来自一个时间序列的样本,则误差项的自相性关检验误差项具有负自相关性的残差图158误差项的自相性关检验误差项具有负自相关性的残差图158误差项的自相性关检验误差项具有正自相关性的残差图159误差项的自相性关检验误差项具有正自相关性的残差图159多元线性回归分析多元线性回归的基本思想是什么?多元线性回归的模型与一元线性回归有什么异同?与一元线性回归相比,多元线性回归的检验有何特殊之处?多元线性回归分析多元线性回归的基本思想是什么?160多元线性回归分析的定义多元线性回归分析:研究因变量(被解释变量)与两个或两个以上自变量(解释变量)之间的回归问题,称为多元回归分析。线性回归自变量个数大于等于2多元线性回归161多元线性回归分析的定义多元线性回归分析:研究因变量(被解释变多元线性回归模型若因变量Y与解释变量X1,X2,XK……具有线性关系,它们之间的线性回归模型可表示为(其中b0,b1,…,bk为回归系数,u为随机扰动项):多元线性回归的基本理论162多元线性回归模型若因变量Y与解释变量X1,X2,XK……具有多元线性回归模型将n个观察数据代入上述模型,则问题转化为:多元线性回归的基本理论163多元线性回归模型将n个观察数据代入上述模型,则问题转化为:多多元线性回归模型多元线性回归的基本理论写为矩阵形式:164多元线性回归模型多元线性回归的基本理论写为矩阵形式:164多元线性回归模型多元线性回归的基本理论即:其中,Y,u是n维向量,b是k维向量,x是m×k矩阵165多元线性回归模型多元线性回归的基本理论即:其中,Y,u是n多元线性回归模型多元线性回归的基本理论基本假定:①②166多元线性回归模型多元线性回归的基本理论基本假定:①②16多元线性回归模型多元线性回归的基本理论③④167多元线性回归模型多元线性回归的基本理论③④167参数的最小二乘估计采用最小二乘估计回归系数b令:取最小值168参数的最小二乘估计采用最小二乘估计回归系数b令:取最小值1参数的最小二乘估计Q在最小值处偏导数为0,得:采用最小二乘估计回归系数b169参数的最小二乘估计Q在最小值处偏导数为0,得:采用最小二乘估参数的最小二乘估计采用最小二乘估计回归系数b整理得:求解该联立方程组即可得170参数的最小二乘估计采用最小二乘估计回归系数b整理得:求解该联回归方程的显著性检验假设求得的回归方程为:总离差平方和分解171回归方程的显著性检验假设求得的回归方程为:总离差平方和分总离差平方和分解同一元回归,可得:并且:

(10-6)172总离差平方和分解同一元回归,可得:并且:(10-6)17总离差平方和分解总离差平方和:即是:回归平方和:残差平方和:173总离差平方和分解总离差平方和:即是:回归平方和:残差平方样本决定系数对回归方程

“拟合优度”的检验

样本决定系数R2,又称复决定系数,或多重决定系数。定义:样本决定系数R2174样本决定系数对回归方程

“拟合优度”的检验样本决定系数R样本决定系数对回归方程

“拟合优度”的检验样本容量增大(n↑)R2也随之增大(R2↑)R2的大小很难说明问题R2存在的问题175样本决定系数对回归方程

“拟合优度”的检验样本容量增大(n↑样本决定系数对回归方程

“拟合优度”的检验R2的改进当n为小样本,解释变量数很大时,上式可能为负数,这时取其值为0。R2与均反映在给定样本下,回归方程与样本观测值拟合优度,但不能据此进行总体模型的推断。R2改进176样本决定系数对回归方程

“拟合优度”的检验R2的改进当n为小回归系数的显著性检验

关于模型的异方差、自相关、多重共线性问题的检验,请参考有关教材。177回归系数的显著性检验关于模型的异方差、自相关、多重共线性问时间序列分析对时间序列的分析方法有哪几种?它们分别有什么优点和缺点?如何进行时间序列的预测?简单外推模型平滑技术季节调整时间序列分析178时间序列的成分

一个时间序列中往往由几种成分组成,通常假定是四种独立的成分——趋势、循环、季节和不规则。下面我们仔细研究其中的每一种成分。时间序列的四种独立成分趋势循环季节不规则179时间序列的成分一个时间序列中往往由几种成分组成,通常假定是趋势成分

在一段较长的时间内,时间序列往往呈现逐渐增加或减少的总体趋势。时间序列逐渐转变的性态称为时间序列的趋势。趋势通常是长期因素影响的结果,如人口总量的变化、方法的变化等等趋势成分时间序列的长期动向长期影响因素180趋势成分在一段较长的时间内,时间序列往往呈现逐渐增加或减循环成分

时间序列常常呈现环绕趋势线上、下的波动。任何时间间隔超过一年的,环绕趋势线的上、下波动,都可归结为时间序列的循环成分。循环成分围绕长期趋势线的上下波动181循环成分时间序列常常呈现环绕趋势线上、下的波动。循环成分围季节成分许多时间序列往往显示出在一年内有规则的运动,这通常由季节因素引起,因此称为季节成分。季节成分季节因素引起的一年内有规则的运动182季节成分许多时间序列往往显示出在一年内有规则的运动,这通常由季节成分例如,一个游泳池制造商在秋季和冬季各月有较低的销售活动,而在春季和夏季各月有较高的销售量。铲雪设备和防寒衣物的制造商的销售却正好相反。183季节成分例如,一个游泳池制造商在秋季和冬季各月有较低的销售活季节成分季节成分也可用来描述任何持续时间小于一年的、有规则的、重复的运动。例如,每天的交通流量资料显示在一天内的“季节”情况,在上、下班拥挤时刻出现高峰,在一天的休息时刻和傍晚出现中等流量,在午夜到清晨出现小流量。季节成分的扩展184季节成分季节成分也可用来描述任何持续时间小于一年的、有规则的不规则成分

时间序列的不规则成分是剩余的因素,它用来说明在分离了趋势、循环和季节成分后,时间序列值的偏差。不规则成分是由那些影响时间序列的短期的、不可预期的和不重复出现的因素引起的。它是随机的、无法预测的。不规则成分短期的,不可预期和不重复出现的因素引起的随机变动185不规则成分时间序列的不规则成分是剩余的因素,它用来说明在分不规则成分

时间序列不规则成分分离出趋势成分分离出循环成分分离出季节成分186不规则成分时不分离出趋势成分分离出循环成分分离出季节成分1利用平滑法进行预测

讨论三种平滑预测方法:移动平均法、加权移动平均法和指数平滑法。因为每一种方法的都是要“消除”由时间序列的不规则成分所引起的随机波动,所以它们被称为平滑方法。三种平滑方法移动平均法加权移动平均法指数平滑法187利用平滑法进行预测讨论三种平滑预测方法:移动平均法、加权移利用平滑法进行预测

平滑方法对稳定的时间序列——即没有明显的趋势、循环和季节影响的时间序列——是合适的,这时平滑方法很适应时间序列的水平变化。但当有明显的趋势、循环和季节变差时,平滑方法将不能很好地起作用平滑方法很容易使用,而且对近距离的预测,如下一个时期的预测,可提供较高的精度水平。预测方法之一的指数平滑法对资料有最低的要求平滑方法缺点优点188利用平滑法进行预测平滑方法对稳定的时间序列——即没有明显的移动平均法移动平均法使用时间序列中最近几个时期数据值的平均数作为下一个时期的预测值。移动平均数的计算公式如下:189移动平均法移动平均法使用时间序列中最近几个时期数据值的平均数加权移动平均法移动平均法加权移动平均法计算移动平均数时每个观测值权数权数相同对每期数据值选择不同的权数,然后计算最近n个时期数值的加权平均数作为预测值通常,最近时期的观测值应取得最大的权数,而比较远的时期权数应依次递减190加权移动平均法移加权计算移动平均数时每个对每期数据值选择不同指数平滑法

指数平滑法加权移动平均法属于只选择一个权数(最近时期观测值的权数),其他时期数据值的权数可以自动推算出来。当观测值离预测时期越久远时,权数变得越小191指数平滑法指数平滑法加权移动平均法属于只选择一个权数(最近指数平滑法

指数平滑法模型:式中Ft+1——t+1期时间序列的预测值;

Yt——t期时间序列的实际值;

Ft——t期时间序列的预测值;

α——平滑常数(0≤α≤1)。192指数平滑法指数平滑法模型:式中Ft+1——t+1期时间序列指数平滑法

2期的预测值:3期预测值:最后,将F3的表达式代入F4的表达式中,有193指数平滑法2期的预测值:3期预测值:最后,将F3的表达指数平滑法

因此,F4是前三个时间序列数值的加权平均数。Y1,Y2和Y3的系数或权数之和等于1。由此可以得到一个结论,即任何预测值Ft+1是以前所有时间序列数值的加权平均数。194指数平滑法因此,F4是前三个时间序列数值的加权平均指数平滑法

指数平滑法特点指数平滑法提供的预测值是以前所有预测值的加权平均数,但所有过去资料未必都需要保留,以用来计算下一个时期的预测值。一旦选定平滑常数α,只需要二项的信息就可计算预测值。对给定的α,我们只要知道t期时间序列的实际值和预测值,即Yt和Ft,就可计算t+1期的预测值。195指数平滑法指数指数平滑法提供的预测值是以前所有预测值的加权示例某一观察值序列最后4期的观察值为:5,5.5,5.8,6.2(1)使用4期移动平均法预测。(2)求在二期预测值中前面的系数等于多少?196示例某一观察值序列最后4期的观察值为:196示例(1)(2)

在二期预测值中前面的系数等于

197示例(1)197利用趋势推测法进行预测

如何对拥有长期线性趋势的时间序列进行预测。不稳定,随时间呈现持续增加或减少的形态长期线性趋势数列趋势推测法可行平滑法不合适198利用趋势推测法进行预测如何对拥有长期线性趋势的时间序列进行利用趋势推测法进行预测

[例]

考虑一某超市过去10年的自行车销售量时间序列,资料见表11-1。注意,第1年销售了21600辆,第2年销售了22900辆,…,第10年(即最近一年)销售了31400辆。尽管图11-1显示在过去10年中销售量有上、下波动,但时间序列总的趋势是增长的或向上的。199利用趋势推测法进行预测[例]199利用趋势推测法进行预测

200利用趋势推测法进行预测200利用趋势推测法进行预测

图11-1自行车销售时间序列的图形201利用趋势推测法进行预测图11-1自行车销售时间序列的图形利用趋势推测法进行预测

图11-2用线性函数对自行车销售量的趋势描述

202利用趋势推测法进行预测图11-2用线性函数对自行车销售量利用趋势推测法进行预测

被估计的销售量可表示为时间的函数,其表达式如下:线性趋势方程上式中Tt——t期时间序列的趋势值;

b0——线性趋势的截距;

b1——线性趋势的斜率;

t

——时间。[解析]203利用趋势推测法进行预测被估计的销售量可表示为时间的函利用趋势推测法进行预测

其中:[解析(续)]204利用趋势推测法进行预测其中:[解析(续)]204利用趋势推测法进行预测

式中Tt——t期时间序列的值;

n——时期的个数;——时间序列的平均值,即

—t的平均值,即=∑t/n。[解析(续)]205利用趋势推测法进行预测式中Tt——t期时间序列的值;——利用趋势推测法进行预测

根据计算b0和b1的关系式及表11-1的自行车销售量资料,我们有如下计算结果:[解析(续)]206利用趋势推测法进行预测根据计算b0和b1的关系式及利用趋势推测法进行预测

因此,自行车销售量时间序列的线性趋势成分的表达式为:Tt=20.4+1.1t[解析(续)]207利用趋势推测法进行预测因此,自行车销售量时间序列的拟合澳大利亚政府1981—1990年

每季度的消费支出序列

208拟合澳大利亚政府1981—1990年

每季度的消费支出序列线性拟合模型参数估计方法最小二乘估计参数估计值209线性拟合模型209拟合效果图210拟合效果图210非线性拟合使用场合长期趋势呈现出非线形特征参数估计指导思想能转换成线性模型的都转换成线性模型,用线性最小二乘法进行参数估计实在不能转换成线性的,就用迭代法进行参数估计211非线性拟合使用场合211常用非线性模型模型变换变换后模型参数估计方法线性最小二乘估计线性最小二乘估计--迭代法--迭代法--迭代法212常用非线性模型模型变换变换后模型参数估计方法线性最小二乘估计对上海证券交易所每月末上证指数

序列进行模型拟合

213对上海证券交易所每月末上证指数

序列进行模型拟合213非线性拟合模型变换参数估计方法线性最小二乘估计拟合模型口径214非线性拟合模型214拟合效果图215拟合效果图215利用趋势和季节成分进行预测

前面我们已经介绍了如何对有趋势成分的时间序列进行预测。本节我们将把这种讨论扩展到对同时拥有趋势和季节成分的时间序列进行预测的情形。216利用趋势和季节成分进行预测前面我们已经介绍了如何对有利用趋势和季节成分进行预测商业和经济中的许多情形是一期与一期的比较。例如,我们想研究和了解失业人数是否比上个月上升1%,钢产量是否比上个月上升5%等问题。在使用这些资料时,必须十分小心。因为每当描述季节影响时,这样的比较会使人产生误解。217利用趋势和季节成分进行预测商业和经济中的许多情形是一期与一期利用趋势和季节成分进行预测

例如,9月份电能消费量比8月份下降

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论