第8章大数据分析_第1页
第8章大数据分析_第2页
第8章大数据分析_第3页
第8章大数据分析_第4页
第8章大数据分析_第5页
已阅读5页,还剩68页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、-2-第第8 8章章 大数据分析大数据分析目目 录录8.1 8.1 大数据概述大数据概述8.2 8.2 推荐系统推荐系统8.3 8.3 推荐系统设计实践推荐系统设计实践8.4 8.4 数据预处理实现及结果分析数据预处理实现及结果分析8.5 8.5 实验结果及其分析实验结果及其分析本章小结本章小结-3-第第8 8章章 大数据分析大数据分析8.1 8.1 大数据概述大数据概述大数据大数据(Big Data, Mega Data)Big Data, Mega Data),指的是那些需要利用新处理方法才能,指的是那些需要利用新处理方法才能通过数据体现出更强决策力、洞察力和流程优化能力的海量、高增长通过

2、数据体现出更强决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。率和多样化的信息资产。大大数据一般具有数据一般具有4V4V特点:特点:VolumeVolume(大量)、(大量)、VelocityVelocity(高速)、(高速)、VarietyVariety(多样)、(多样)、ValueValue(价值)。(价值)。大数据技术的战略意义在于对含有意义的数据进行专业化处理,进而大数据技术的战略意义在于对含有意义的数据进行专业化处理,进而体现庞大数据背后的价值。体现庞大数据背后的价值。从技术上看,大数据与云计算密不可分。从技术上看,大数据与云计算密不可分。适用于大数据的技术,包括适用

3、于大数据的技术,包括大规模并行处理(大规模并行处理(MPPMPP)数据库)数据库、数据挖掘、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。储系统。-4-第第8 8章章 大数据分析大数据分析8.1.1 8.1.1 大数据的特点大数据的特点数据分析需要从纷繁复杂的数据中发现规律并提取新的知识,是大数数据分析需要从纷繁复杂的数据中发现规律并提取新的知识,是大数据价值挖掘的关键。据价值挖掘的关键。经过数据的计算和处理后,所得的数据便成为数据分析的原始数据,经过数据的计算和处理后,所得的数据便成为数据分析的原始数

4、据,根据所需数据的应用需求对数据进行进一步的处理和分析,最终找到根据所需数据的应用需求对数据进行进一步的处理和分析,最终找到数据内部隐藏的规律或者知识,从而体现数据的真正价值。数据内部隐藏的规律或者知识,从而体现数据的真正价值。大数据的特点包括:大数据的特点包括:v 数据体量巨大数据体量巨大v 流动速度快流动速度快v 数据种类繁多数据种类繁多v 价值密度低价值密度低-5-第第8 8章章 大数据分析大数据分析8.1.2 8.1.2 大数据的传统处理方法大数据的传统处理方法统计分析是运用统计方法及与分析对象有关的知识,从定量与定性的统计分析是运用统计方法及与分析对象有关的知识,从定量与定性的结合上

5、进行的研究活动。结合上进行的研究活动。统计分析是继统计设计、统计调查、统计整理之后,通过分析从而达统计分析是继统计设计、统计调查、统计整理之后,通过分析从而达到对研究对象更为深刻的认识。到对研究对象更为深刻的认识。统计分析是在一定的选题下,集分析方案的设计、资料的搜集和整理统计分析是在一定的选题下,集分析方案的设计、资料的搜集和整理而展开的研究活动。系统、完善的资料是统计分析的必要条件。而展开的研究活动。系统、完善的资料是统计分析的必要条件。统计分析可以统计分析可以分为分为5 5个步骤个步骤:v 描述要分析的数据的性质。描述要分析的数据的性质。v 研究基础群体的数据关系。研究基础群体的数据关系

6、。v 创建一个模型,总结数据与基础群体的联系。创建一个模型,总结数据与基础群体的联系。v 证明(或否定)该模型的有效性。证明(或否定)该模型的有效性。v 采用预测分析来预测将来的趋势。采用预测分析来预测将来的趋势。-6-第第8 8章章 大数据分析大数据分析8.1.3 8.1.3 大数据分析的机器学习方法大数据分析的机器学习方法聚类分析聚类分析v 聚类聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集(的子集(SubsetSubset),这样让在同一个子集中的成员对象都有相似的),这样让在同一个子集中的成员对象都有相似的一些属性

7、,常见的包括在坐标系中更加短的空间距离等。一些属性,常见的包括在坐标系中更加短的空间距离等。v结构性聚类:利用以前成功使用过的聚类器进行分类结构性聚类:利用以前成功使用过的聚类器进行分类 结构性算法可以从上至下或者从下至上双向进行计算。从结构性算法可以从上至下或者从下至上双向进行计算。从下至上算法从每个对象作为单独分类开始,不断融合其中下至上算法从每个对象作为单独分类开始,不断融合其中相近的对象。而从上至下算法则是把所有对象作为一个整相近的对象。而从上至下算法则是把所有对象作为一个整体分类,然后逐渐分小。体分类,然后逐渐分小。分割式聚类算法,是一次性确定要产生的类别。分割式聚类算法,是一次性确

8、定要产生的类别。基于密度的聚类算法,是为了挖掘有任意形状特性的类别基于密度的聚类算法,是为了挖掘有任意形状特性的类别而发明的。此算法把一个类别视为数据集中大于某阈值的而发明的。此算法把一个类别视为数据集中大于某阈值的一个区域。一个区域。-7-第第8 8章章 大数据分析大数据分析v 分散性聚类:一次确定所有分类。分散性聚类:一次确定所有分类。K-meansK-means算法表示以空间中算法表示以空间中k k个个点为中心进行聚类,对最靠近他们的对象归类。算法归纳为点为中心进行聚类,对最靠近他们的对象归类。算法归纳为: :v选择聚类的个数选择聚类的个数k k。v任意产生任意产生k k个聚类,然后确定

9、聚类中心,或者直接生成个聚类,然后确定聚类中心,或者直接生成k k个中心。个中心。v对每个点确定其聚类中心点。对每个点确定其聚类中心点。v再计算其聚类新中心。再计算其聚类新中心。v重复以上步骤直到满足收敛要求重复以上步骤直到满足收敛要求 ( (通常就是确定的中心点不再通常就是确定的中心点不再改变改变) )。v 该算法的最大优势在于简洁和快速。该算法的最大优势在于简洁和快速。v 劣势在于对于一些结果并不能够满足需要,因为结果往往需要随劣势在于对于一些结果并不能够满足需要,因为结果往往需要随机点的选择非常巧合。机点的选择非常巧合。-8-第第8 8章章 大数据分析大数据分析神经网络神经网络v 神经网

10、络神经网络是一种由大量的节点(或称是一种由大量的节点(或称“神经元神经元”、“单元单元”)和)和之间之间相互联接构成的运算模型。相互联接构成的运算模型。v 每个节点代表一种特定的输出函数,称为激励函数(每个节点代表一种特定的输出函数,称为激励函数(Activation Activation FunctionFunction)。)。v 每两个节点间的连接都代表一个对于通过该连接信号的加权值,每两个节点间的连接都代表一个对于通过该连接信号的加权值,称之为权重(称之为权重(WeightWeight),这相当于人工神经网络的记忆。),这相当于人工神经网络的记忆。v 网络的输出随着网络的连接方式、权重值

11、和激励函数的不同而不网络的输出随着网络的连接方式、权重值和激励函数的不同而不同。同。v 神经网络是一个能够学习,能够总结归纳的系统,也就是说它能神经网络是一个能够学习,能够总结归纳的系统,也就是说它能够通过已知数据的实验运用来学习和归纳总结。够通过已知数据的实验运用来学习和归纳总结。-9-第第8 8章章 大数据分析大数据分析v人工神经网络通过对局部情况的对照比较(而这些比较是基于不同情人工神经网络通过对局部情况的对照比较(而这些比较是基于不同情况下的自动学习和解决实际问题的复杂性所决定的),它能够推理产况下的自动学习和解决实际问题的复杂性所决定的),它能够推理产生一个可以自动识别的系统。生一个

12、可以自动识别的系统。v常见的多层结构的前馈网络(常见的多层结构的前馈网络(Multilayer Feedforward NetworkMultilayer Feedforward Network)由)由三部分组成:三部分组成:v 输入层(输入层(Input LayerInput Layer),众多神经元(),众多神经元(NeuronNeuron)接受大量非线)接受大量非线形输入信息。输入的信息称为输入向量。形输入信息。输入的信息称为输入向量。v 输出层(输出层(Output LayerOutput Layer),信息在神经元链接中传输、分析、权),信息在神经元链接中传输、分析、权衡,形成输出结

13、果。输出的信息称为输出向量。衡,形成输出结果。输出的信息称为输出向量。v 隐藏层(隐藏层(Hidden LayerHidden Layer),简称),简称“隐层隐层”,是输入层和输出层之,是输入层和输出层之间众多神经元和链接组成的各个层面。隐层可以有多层,习惯上间众多神经元和链接组成的各个层面。隐层可以有多层,习惯上会用一层。隐层的节点(神经元)数目不定,习惯上会选输入节会用一层。隐层的节点(神经元)数目不定,习惯上会选输入节点点1.21.21.51.5倍的节点。倍的节点。-10-第第8 8章章 大数据分析大数据分析v决策树决策树v 决策树(决策树(Decision TreeDecision

14、Tree)由一个决策图和可能出现的结果(包括)由一个决策图和可能出现的结果(包括资源成本和风险)构成,用来创建到达目标的规划。资源成本和风险)构成,用来创建到达目标的规划。v 决策树是一个利用像树一样的图形或决策模型进行决策支持的工决策树是一个利用像树一样的图形或决策模型进行决策支持的工具。具。v 决策树经常在运筹学中使用,特别是在决策分析中。决策树经常在运筹学中使用,特别是在决策分析中。v 决策树法的决策程序如下:决策树法的决策程序如下:绘制树状图,根据已知条件排列出各个方案和每一方案的各种绘制树状图,根据已知条件排列出各个方案和每一方案的各种自然状态。自然状态。将各状态概率及损益值标于概率

15、枝上。将各状态概率及损益值标于概率枝上。计算各个方案期望值并将其标于该方案对应的状态节点上。计算各个方案期望值并将其标于该方案对应的状态节点上。进行剪枝,比较各个方案的期望值,并标于方案枝上,将期望进行剪枝,比较各个方案的期望值,并标于方案枝上,将期望值小的(即劣等方案剪掉)所剩的最后方案为最佳方案。值小的(即劣等方案剪掉)所剩的最后方案为最佳方案。-11-第第8 8章章 大数据分析大数据分析v相对于其他数据挖掘算法,决策树在以下几个方面拥有优势:相对于其他数据挖掘算法,决策树在以下几个方面拥有优势:v 决策树易于理解和实现,人们在通过解释后都有能力去理解决策决策树易于理解和实现,人们在通过解

16、释后都有能力去理解决策树所表达的意义。树所表达的意义。v 对于决策树,数据的准备往往是简单或者是不必要的。其他的技对于决策树,数据的准备往往是简单或者是不必要的。其他的技术往往要求先把数据一般化,比如去掉多余的或者空白的属性。术往往要求先把数据一般化,比如去掉多余的或者空白的属性。v 能够同时处理数据型和常规型属性。其他的技术往往要求数据属能够同时处理数据型和常规型属性。其他的技术往往要求数据属性的单一。性的单一。v 决策树是一个白盒模型。如果给定一个观察的模型,那么根据所决策树是一个白盒模型。如果给定一个观察的模型,那么根据所产生的决策树很容易推出相应的逻辑表达式。产生的决策树很容易推出相应

17、的逻辑表达式。v 易于通过静态测试来对模型进行评测。表示有可能测量该模型的易于通过静态测试来对模型进行评测。表示有可能测量该模型的可信度。可信度。v 在相对短的时间内能够对大型数据源做出可行且效果良好的结在相对短的时间内能够对大型数据源做出可行且效果良好的结果。果。-12-第第8 8章章 大数据分析大数据分析关联分析关联分析v 关联规则,是数据挖掘的一个重要课题,用于从大量数据中挖掘关联规则,是数据挖掘的一个重要课题,用于从大量数据中挖掘出有价值的数据项之间的相关关系。出有价值的数据项之间的相关关系。v 关联规则有以下常见分类:关联规则有以下常见分类:根据根据关联规则所处理的值的类型:关联规则

18、所处理的值的类型:布尔关联规则(布尔关联规则(Boolean Association RulesBoolean Association Rules)数量关联规则(数量关联规则(Quantitative Association RulesQuantitative Association Rules)根据关联规则所涉及的数据维数:根据关联规则所涉及的数据维数:单维关联规则(单维关联规则(Single-dimensional Association RulesSingle-dimensional Association Rules)多维关联规则(多维关联规则(Multi-dimensional As

19、sociation RulesMulti-dimensional Association Rules)根据关联规则所涉及的抽象层次根据关联规则所涉及的抽象层次: :单层关联规则(单层关联规则(Single-level Association Rules)Single-level Association Rules)广义关联规则(广义关联规则(Generalized Association RulesGeneralized Association Rules)v 常用的关联分析算法有:常用的关联分析算法有:AprioriApriori演算法、演算法、F-PF-P算法和算法和EclatEclat算

20、法等算法等。-13-第第8 8章章 大数据分析大数据分析8.2 8.2 推荐系统推荐系统推荐系统一般基于各种智能算法,借助数据挖掘技术,提取大数据中推荐系统一般基于各种智能算法,借助数据挖掘技术,提取大数据中呈现的各种指标隐含的信息模式,从而产生个性化的推荐结果。呈现的各种指标隐含的信息模式,从而产生个性化的推荐结果。个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。趣的信息和商品。个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮

21、助电子商务网站为其顾客购物提供完全个性化的决策支持和台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。信息服务。-14-第第8 8章章 大数据分析大数据分析8.8.2.12.1 背景简介背景简介互联网技术迅速发展,传统搜索算法无法针对不同用户的兴趣爱好提互联网技术迅速发展,传统搜索算法无法针对不同用户的兴趣爱好提供相应的服务。供相应的服务。信息的爆炸使得信息的利用率降低,这种现象被称之为信息超载。个信息的爆炸使得信息的利用率降低,这种现象被称之为信息超载。个性化推荐,包括个性化搜索,是当前解决这个问题最有效的工具之性化推荐,包括个性化搜索,是当前解决这个问题最有效的工具之一

22、。一。推荐问题从根本上说是代替用户评估它从未看过的产品。推荐问题从根本上说是代替用户评估它从未看过的产品。个性化推荐系统通过建立用户与信息产品之间的二元关系,利用已有个性化推荐系统通过建立用户与信息产品之间的二元关系,利用已有的选择过程或相似性关系挖掘每个用户潜在感兴趣的对象,进而进行的选择过程或相似性关系挖掘每个用户潜在感兴趣的对象,进而进行个性化推荐。个性化推荐。-15-第第8 8章章 大数据分析大数据分析8.8.2.22.2 推荐系统中的常用方法推荐系统中的常用方法主要的推荐方法包括:基于内容推荐、协同过滤推荐、基于关联规则主要的推荐方法包括:基于内容推荐、协同过滤推荐、基于关联规则推荐

23、、基于效用推荐、基于知识推荐和组合推荐。推荐、基于效用推荐、基于知识推荐和组合推荐。基于内容推荐基于内容推荐v 基于内容的推荐(基于内容的推荐(Content-based RecommendationContent-based Recommendation)是信息过滤)是信息过滤技术的延续与发展,是建立在项目的内容信息上做出的推荐,而技术的延续与发展,是建立在项目的内容信息上做出的推荐,而不需要依据用户对项目的评价意见,更多地需要用机器学习的方不需要依据用户对项目的评价意见,更多地需要用机器学习的方法从关于内容的特征描述的事例中得到用户的兴趣资料。法从关于内容的特征描述的事例中得到用户的兴趣资

24、料。v 在基于内容的推荐系统中,项目或对象是通过相关的特征的属性在基于内容的推荐系统中,项目或对象是通过相关的特征的属性来定义,系统基于用户评价对象的特征,学习用户的兴趣,考察来定义,系统基于用户评价对象的特征,学习用户的兴趣,考察用户资料与待预测项目的相匹配程度。用户资料与待预测项目的相匹配程度。v 用户的资料模型取决于所用学习方法,常用的有决策树、神经网用户的资料模型取决于所用学习方法,常用的有决策树、神经网络和基于向量的表示方法等。络和基于向量的表示方法等。-16-第第8 8章章 大数据分析大数据分析v 基于内容推荐方法的优点是:基于内容推荐方法的优点是:不需要其它用户的数据,没有冷开始

25、问题和稀疏问题。不需要其它用户的数据,没有冷开始问题和稀疏问题。能为具有特殊兴趣爱好的用户进行推荐。能为具有特殊兴趣爱好的用户进行推荐。能推荐新的或不是很流行的项目,没有新项目问题。能推荐新的或不是很流行的项目,没有新项目问题。通过列出推荐项目的内容特征,可以解释为什么推荐那些项通过列出推荐项目的内容特征,可以解释为什么推荐那些项目。目。已有比较好的技术,如关于分类学习方面的技术已相当成熟。已有比较好的技术,如关于分类学习方面的技术已相当成熟。v 缺点:要求内容能容易抽取成有意义的特征,要求特征内容有良缺点:要求内容能容易抽取成有意义的特征,要求特征内容有良好的结构性,并且用户的口味必须能够用

26、内容特征形式来表达,好的结构性,并且用户的口味必须能够用内容特征形式来表达,不能显式地得到其它用户的判断情况。不能显式地得到其它用户的判断情况。协同过滤推荐协同过滤推荐v 协同过滤推荐(协同过滤推荐(Collaborative Filtering RecommendationCollaborative Filtering Recommendation)技)技术一般采用最近邻技术,利用用户的历史喜好信息计算用户之间术一般采用最近邻技术,利用用户的历史喜好信息计算用户之间的距离,然后利用目标用户的最近邻居用户对商品评价的加权评的距离,然后利用目标用户的最近邻居用户对商品评价的加权评价值来预测目标用

27、户对特定商品的喜好程度,系统从而根据这一价值来预测目标用户对特定商品的喜好程度,系统从而根据这一喜好程度来对目标用户进行推荐。喜好程度来对目标用户进行推荐。-17-第第8 8章章 大数据分析大数据分析v 协同过滤最大优点是对推荐对象没有特殊的要求,能处理非结构协同过滤最大优点是对推荐对象没有特殊的要求,能处理非结构化的复杂对象。化的复杂对象。v 基于协同过滤的推荐系统可以说是从用户的角度来进行相应的推基于协同过滤的推荐系统可以说是从用户的角度来进行相应的推荐,并且是自动的。荐,并且是自动的。v 协同过滤的优点:协同过滤的优点:能够过滤难以进行机器自动内容分析的信息。能够过滤难以进行机器自动内容

28、分析的信息。共享其他人的经验,避免了内容分析的不完全和不精确,并共享其他人的经验,避免了内容分析的不完全和不精确,并且能够基于一些复杂的,难以表述的概念进行过滤。且能够基于一些复杂的,难以表述的概念进行过滤。有推荐新信息的能力。可以发现内容上完全不相似的信息,有推荐新信息的能力。可以发现内容上完全不相似的信息,用户对推荐信息的内容事先是预料不到的。用户对推荐信息的内容事先是预料不到的。能够有效的使用其他相似用户的反馈信息,较少用户的反馈能够有效的使用其他相似用户的反馈信息,较少用户的反馈量,加快个性化学习的速度。量,加快个性化学习的速度。-18-第第8 8章章 大数据分析大数据分析基于关联规则

29、的推荐(基于关联规则的推荐(Association Rule-based RecommendationAssociation Rule-based Recommendation)是)是以关联规则为基础,把已购商品作为规则头,规则体为推荐对象。以关联规则为基础,把已购商品作为规则头,规则体为推荐对象。基于效用的推荐(基于效用的推荐(Utility-based RecommendationUtility-based Recommendation)是建立在对用户)是建立在对用户使用项目的效用情况上计算的,其核心问题是怎么样为每一个用户去使用项目的效用情况上计算的,其核心问题是怎么样为每一个用户去创建

30、一个效用函数。创建一个效用函数。基于知识的推荐(基于知识的推荐(Knowledge-based RecommendationKnowledge-based Recommendation)在某种程度上)在某种程度上可以看作为一种推理(可以看作为一种推理(InferenceInference)技术,它不是建立在用户需要和偏)技术,它不是建立在用户需要和偏好基础上推荐的。好基础上推荐的。组合推荐(组合推荐(Hybrid RecommendationHybrid Recommendation)。)。v 研究和应用最多的是内容推荐和协同过滤推荐的组合。研究和应用最多的是内容推荐和协同过滤推荐的组合。v

31、最简单的做法就是分别用基于内容的方法和协同过滤推荐方法去最简单的做法就是分别用基于内容的方法和协同过滤推荐方法去产生一个推荐预测结果,然后用某方法组合其结果。产生一个推荐预测结果,然后用某方法组合其结果。-19-第第8 8章章 大数据分析大数据分析8.3 8.3 推荐系统设计实践推荐系统设计实践 完整的推荐系统由收集用户信息的行为记录模块、分析用户喜好完整的推荐系统由收集用户信息的行为记录模块、分析用户喜好的模型分析模块和推荐算法模块组成。推荐算法模块是最核心的部分。的模型分析模块和推荐算法模块组成。推荐算法模块是最核心的部分。8.3.1 8.3.1 推荐系统实现流程推荐系统实现流程基于基于用

32、户的协同过滤推荐的基本原理是(如图用户的协同过滤推荐的基本原理是(如图8.28.2所示):所示):v 根据所有用户对物品或者信息的偏好,发现与当前用户口味和偏根据所有用户对物品或者信息的偏好,发现与当前用户口味和偏好相似的好相似的“邻居邻居”用户群,一般采用计算用户群,一般采用计算“K-K-邻居邻居”的算法;的算法;v 基于这基于这K K个邻居的历史偏好信息,为当前用户进行推荐。个邻居的历史偏好信息,为当前用户进行推荐。基于项目的协同过滤推荐的基本原理是(如图基于项目的协同过滤推荐的基本原理是(如图8.38.3所示)所示) :v 使用所有用户对物品或者信息的偏好,发现物品和物品之间的相使用所有

33、用户对物品或者信息的偏好,发现物品和物品之间的相似度;似度;v 根据用户的历史偏好信息,将类似的物品推荐给用户。根据用户的历史偏好信息,将类似的物品推荐给用户。-20-第第8 8章章 大数据分析大数据分析图图8.2 8.2 基于用户的协同过滤基于用户的协同过滤机制的基本原理机制的基本原理用户A用户B用户C物品A物品B物品C物品D推荐喜欢用户A用户B用户C物品A物品B物品C推荐喜欢相似图图8.3 8.3 基于项目的协同过滤推基于项目的协同过滤推荐机制的基本原理荐机制的基本原理基于模型的推荐原理基于模型的推荐原理v 将已有的用户喜好信息作为训练样本,训练出一个预测用户喜好将已有的用户喜好信息作为训

34、练样本,训练出一个预测用户喜好的模型;的模型;v 基于此模型计算相似度进行推荐。基于此模型计算相似度进行推荐。-21-第第8 8章章 大数据分析大数据分析8.3. 8.3. 2 2 数据预处理数据预处理数据预处理方法一般包括:数据清洗,数据聚合,数据变换,数据归数据预处理方法一般包括:数据清洗,数据聚合,数据变换,数据归约等。约等。数据清洗:主要从填充空缺值,识别孤立点,消除噪声,并纠正数据数据清洗:主要从填充空缺值,识别孤立点,消除噪声,并纠正数据中的不一致这几个方面来对原始数据集进行处理。中的不一致这几个方面来对原始数据集进行处理。v 空缺值的处理及其实现方式空缺值的处理及其实现方式忽略元

35、组忽略元组忽略属性列忽略属性列人工填写空缺值人工填写空缺值自动填充空缺值:包括三种策略:自动填充空缺值:包括三种策略:使用全局常量填充空缺值,将空缺属性值用同常数替换。使用全局常量填充空缺值,将空缺属性值用同常数替换。使用属性的均值或期望值或者众数进行默认填充。使用属性的均值或期望值或者众数进行默认填充。可以通过线性回归、基于推理的工具或者决策树归纳确定可以通过线性回归、基于推理的工具或者决策树归纳确定空缺值的可能值来进行填充。空缺值的可能值来进行填充。-22-第第8 8章章 大数据分析大数据分析v噪声数据的清理方法噪声数据的清理方法v 噪声数据是一个测量变量中的随机错误或偏差,其包含错误或孤

36、噪声数据是一个测量变量中的随机错误或偏差,其包含错误或孤立点值。立点值。v 导致噪声产生的原因有多种:导致噪声产生的原因有多种:采集设备出了故障;采集设备出了故障;数据录入或搜集整理的过程出现人为的失误或疏忽数据录入或搜集整理的过程出现人为的失误或疏忽;数据传输过程中的错误等等。数据传输过程中的错误等等。v 目前,有以下几种处理噪声数据的方法:目前,有以下几种处理噪声数据的方法:分箱:通过考察分箱:通过考察“邻居邻居”(周围的值)来平滑存储数据的值。(周围的值)来平滑存储数据的值。聚类:将类似的值组织成群或分类,通过删除离群点来平滑聚类:将类似的值组织成群或分类,通过删除离群点来平滑数据。数据

37、。计算机和人工相结合:通过已有经验对数据集中明显不符合计算机和人工相结合:通过已有经验对数据集中明显不符合逻辑的数据点进行处理之后,再通过回归或者数据处理算法逻辑的数据点进行处理之后,再通过回归或者数据处理算法对以初步处理后的数据集进行处理。对以初步处理后的数据集进行处理。回归分析:可以通过让数据适合一个回归函数来平滑数据。回归分析:可以通过让数据适合一个回归函数来平滑数据。-23-第第8 8章章 大数据分析大数据分析v数据集成:将两个或多个数据源中的数据,存放近一个一致的数据存数据集成:将两个或多个数据源中的数据,存放近一个一致的数据存储设备中,这些数据源可能包括多个数据库、数据立方体或一般

38、文件。储设备中,这些数据源可能包括多个数据库、数据立方体或一般文件。v 数据一致性:在数据集成时,来自多个数据源的现实世界的实体数据一致性:在数据集成时,来自多个数据源的现实世界的实体有时并不一定是匹配的。有时并不一定是匹配的。v 数据属性值冗余:属性或维命名的不一致可能导致数据集中的冗数据属性值冗余:属性或维命名的不一致可能导致数据集中的冗余。余。v 元组重复问题:重复是指对于同一个数据,存在两个或多个相同元组重复问题:重复是指对于同一个数据,存在两个或多个相同的元组。的元组。v 数据值表现形式冲突的检测与处理:数据集中的某一实体,如果数据值表现形式冲突的检测与处理:数据集中的某一实体,如果

39、其来自不同数据源,那么它的的属性值就有可能不同。这可能是其来自不同数据源,那么它的的属性值就有可能不同。这可能是因为数据的表示方式、缩减比例(通常用于数值属性)或数据格因为数据的表示方式、缩减比例(通常用于数值属性)或数据格式编码不同。式编码不同。-24-第第8 8章章 大数据分析大数据分析v数据变化数据变化是将数据转换成适合挖掘的形式。是将数据转换成适合挖掘的形式。v 平滑:去掉数据中的噪声,包括分箱、聚类、回归。平滑:去掉数据中的噪声,包括分箱、聚类、回归。v 聚类:对数据进行汇总和聚集。聚类:对数据进行汇总和聚集。v 数据概化:使用概念分层,用高层次概念替换低层次数据概化:使用概念分层,

40、用高层次概念替换低层次“原始原始”数数据。据。v 规范化:将原来的度量值转换为无量纲的值,即将属性数据按比规范化:将原来的度量值转换为无量纲的值,即将属性数据按比例缩放,使之落入一个小的特定区间。例缩放,使之落入一个小的特定区间。v 属性构造:利用已知属性,构造新属性,以更好地刻画数据的特属性构造:利用已知属性,构造新属性,以更好地刻画数据的特性,帮助整个数据挖掘的过程。性,帮助整个数据挖掘的过程。v 数据离散化:聚类、分类或关联分析中的某些算法要求数据是分数据离散化:聚类、分类或关联分析中的某些算法要求数据是分类属性,因此需要对数值属性进行离散化。类属性,因此需要对数值属性进行离散化。-25

41、-第第8 8章章 大数据分析大数据分析v数据规约:数据归约技术可以用来得到数据集的压缩表示,它比源数数据规约:数据归约技术可以用来得到数据集的压缩表示,它比源数据集小得多,但仍然接近于保持原数据的完整性,这样在归约的数据据集小得多,但仍然接近于保持原数据的完整性,这样在归约的数据集上挖掘将更有效,并能产生相同的分析结果。集上挖掘将更有效,并能产生相同的分析结果。v 维度规约和特征变换维度规约和特征变换维度规约维度规约是指通过使用数据编码或变换,得到原始数据数据是指通过使用数据编码或变换,得到原始数据数据的规约或的规约或“压缩压缩”表示。表示。如果维度较低,许多数据挖掘算法的效果会更好。一方面是

42、如果维度较低,许多数据挖掘算法的效果会更好。一方面是因为维规约可删除不相关的特征并降低噪声,另一方面是因因为维规约可删除不相关的特征并降低噪声,另一方面是因为维灾难。为维灾难。使用维规约,使模型涉及更少的特征,因而可以产生更容易使用维规约,使模型涉及更少的特征,因而可以产生更容易理解的模型,可以降低数据挖掘算法的时间和空间复杂度。理解的模型,可以降低数据挖掘算法的时间和空间复杂度。-26-第第8 8章章 大数据分析大数据分析v抽样:选样作为一种数据归约技术,是用较小的随机样本子集表示大抽样:选样作为一种数据归约技术,是用较小的随机样本子集表示大的数据集。的数据集。 简单选择简单选择n n个样本

43、,不放回:由个样本,不放回:由N N个元组中抽取个元组中抽取n n个样本,其中任何个样本,其中任何元组被抽取的概率均为元组被抽取的概率均为1/n1/n。 简单选择简单选择n n个样本,回放:一个元组被抽取后,它又被放回,以便个样本,回放:一个元组被抽取后,它又被放回,以便可以再次抽取。可以再次抽取。 聚类选样:先将所有元组聚类,再从每个聚类中随机选取一个样聚类选样:先将所有元组聚类,再从每个聚类中随机选取一个样本。本。 分层选样:将元组划分成不相交的部分,称作层,通过对每一层分层选样:将元组划分成不相交的部分,称作层,通过对每一层的简单随机选样得到总体样本的分层选样。的简单随机选样得到总体样本

44、的分层选样。v数值压缩:可以通过选择替代的、数值压缩:可以通过选择替代的、“较小的较小的”数据表示形式来减少数数据表示形式来减少数据量。据量。v特征选择特征选择指从一组已知特征集合中选择最具有代表性的特征子集,使指从一组已知特征集合中选择最具有代表性的特征子集,使其保留原有数据的大部分信息,即所选择的特征子集可以像原来的全其保留原有数据的大部分信息,即所选择的特征子集可以像原来的全部特征一样用来正确区分数据集中的每个数据对象。部特征一样用来正确区分数据集中的每个数据对象。-27-第第8 8章章 大数据分析大数据分析v特征选择的理想方法是:将所有可能的特征子集作为感兴趣的数据算特征选择的理想方法

45、是:将所有可能的特征子集作为感兴趣的数据算法的输入,然后选取产生最好结果的子集。法的输入,然后选取产生最好结果的子集。根据特征选择过程与后续数据挖掘算法的关联,特征选择方法可分为根据特征选择过程与后续数据挖掘算法的关联,特征选择方法可分为过滤、封装和嵌入。具体细节如图过滤、封装和嵌入。具体细节如图8.48.4所示。所示。特征特征特征特征特征子集特征子集搜索策略搜索策略验证过程验证过程评估评估停止标准停止标准不满足不满足满足满足图图8.48.4 特征选择流程图特征选择流程图针对特征子集选择的搜索策略主要包括:针对特征子集选择的搜索策略主要包括:逐步向前选择;逐步向前选择;逐步向后删除;逐步向后删

46、除;向前选择和向后删除结合向前选择和向后删除结合决策树归纳。决策树归纳。-28-第第8 8章章 大数据分析大数据分析8.3.3 8.3.3 基于用户属性相似性判断基于用户属性相似性判断协同过滤推荐根据其他用户的观点产生对目标用户的推荐列表:如果协同过滤推荐根据其他用户的观点产生对目标用户的推荐列表:如果用户对一些项目的评分比较相似,则他们对其他项目的评分也比较相用户对一些项目的评分比较相似,则他们对其他项目的评分也比较相似。似。协同过滤推荐系统使用统计技术搜索目标用户的若干最近邻居,然后协同过滤推荐系统使用统计技术搜索目标用户的若干最近邻居,然后根据最近邻居对项目的评分预测目标用户对项目的评分

47、,产生对应的根据最近邻居对项目的评分预测目标用户对项目的评分,产生对应的推荐列表。推荐列表。为了找到目标用户的最近邻居,必须度量用户之间的相似性,然后选为了找到目标用户的最近邻居,必须度量用户之间的相似性,然后选择相似性最高的若干用户作为目标用户的最近邻居。择相似性最高的若干用户作为目标用户的最近邻居。目标用户的最近邻居查询是否准确,直接关系到整个推荐系统的推荐目标用户的最近邻居查询是否准确,直接关系到整个推荐系统的推荐质量。准确查询目标用户的最近邻居是整个协同过滤推荐成功的关键。质量。准确查询目标用户的最近邻居是整个协同过滤推荐成功的关键。常见的相似性度量方法有:余弦相似性度量、相关相似性度

48、量及修正常见的相似性度量方法有:余弦相似性度量、相关相似性度量及修正的余弦相似性度量。的余弦相似性度量。-29-第第8 8章章 大数据分析大数据分析为了便于聚类,首先将用户喜好和自身属性归纳为若干特征类,称之为为了便于聚类,首先将用户喜好和自身属性归纳为若干特征类,称之为用户属性空间用户属性空间 。其中。其中k为用户属性的数量。然而,对于某用户,为用户属性的数量。然而,对于某用户,针对某具体属性,可能会有多个属性值。因此,这里采用单一属性来得针对某具体属性,可能会有多个属性值。因此,这里采用单一属性来得出用户在某一属性上的相似性,最后对所有的属性的相似度求和,再进出用户在某一属性上的相似性,最

49、后对所有的属性的相似度求和,再进行平均,最后得出用户之间的相似度。行平均,最后得出用户之间的相似度。用户用户U1、U2属性值空间属性值空间A1=a11,a12,a1k,因此,可以通过,因此,可以通过A1属性和用属性和用户来构造户来构造nk的二维用户属性特征矩阵,如表的二维用户属性特征矩阵,如表8.28.2所示。所示。表表8.2 用户属性特征矩阵用户属性特征矩阵12,kAAA 10100101 1010 01011AU1U2UiUnU11a12a1 ja1ka-30-第第8 8章章 大数据分析大数据分析v利用相似性计算的方法来度量用户利用相似性计算的方法来度量用户U1、U2在在A1属性上的相似性

50、信赖度。属性上的相似性信赖度。把某个用户对于某一属性的符合值看成一组特征向量,例如,对于用把某个用户对于某一属性的符合值看成一组特征向量,例如,对于用户户 U1、U2在在 A1属 性 的 二 维 空 间 上 的 特 征 向 量 分 别属 性 的 二 维 空 间 上 的 特 征 向 量 分 别是是 , 。 则用户则用户U1、U2在在A1属性的相似性可有以下计算公式来表示:属性的相似性可有以下计算公式来表示: (1)v其中,其中, 表示用户表示用户U1、U2在在A1上的相似度,上的相似度, 表表示用户示用户U1、U2 在在A1上没有共同特征的属性值取值,通过对属性特征值上没有共同特征的属性值取值,

51、通过对属性特征值异或,而求得用户在某一属性上不具有相似性的概值,然后求和,并异或,而求得用户在某一属性上不具有相似性的概值,然后求和,并与与k值相除,得到用户在属性值相除,得到用户在属性A1上非相似度,上非相似度, k表示属性表示属性A1取值总数。取值总数。1111111211,kU Au au au a2121121221,kU Au au au a 11211112111121(,)11kiiiU aU aU AU ASsim U A U AKK 1121(,)sim U A U A1121U AUA -31-第第8 8章章 大数据分析大数据分析v通过以下公式求得用户通过以下公式求得用户U

52、1、U2之间的相似性信赖度的平均值,之间的相似性信赖度的平均值,即即 。 (2)v求出此用户在所有属性上信赖度的期望值,从而来描述用户之间的相求出此用户在所有属性上信赖度的期望值,从而来描述用户之间的相似性的平均值,似性的平均值,m表示该用户用多少个属性来描述。表示该用户用多少个属性来描述。v用户之间的相似度可通过以下公式求得:用户之间的相似度可通过以下公式求得: (3)()EA sim12112(,)(,)miiisim U A U ASEA sim U Um111221()(,)( 1)kikiSSSsim U USS-32-第第8 8章章 大数据分析大数据分析8.3.4 8.3.4 用户

53、相似性聚类用户相似性聚类k-meansk-means算法是无监督学习算法,输入为一个无标记的数据集合。算法是无监督学习算法,输入为一个无标记的数据集合。k-meansk-means算法会初始化一组数据点,称之为类重心,类重心为每个类的算法会初始化一组数据点,称之为类重心,类重心为每个类的中心的假设。重心随机从数据点中选取。中心的假设。重心随机从数据点中选取。 假如数据集合都是假如数据集合都是n维向量,那么这些类类重心也是维向量,那么这些类类重心也是n维向量,之后重维向量,之后重复以下两步,直到算法收敛:复以下两步,直到算法收敛:v 对于每个对于每个xi,需要获得距离最近的重心,需要获得距离最近

54、的重心j,然后将其标记成不同的然后将其标记成不同的类别。类别。 (4) v 将类重心更新为分配给该类的所有点的均值,重新确定类重心。将类重心更新为分配给该类的所有点的均值,重新确定类重心。 (5) ( )ijset c iarg min xu_()set distancedset clustercenterEA distance-33-第第8 8章章 大数据分析大数据分析假设,有假设,有n个用户,则本次推荐按系统构成的集合为个用户,则本次推荐按系统构成的集合为U=U1,U2,Un,经过经过K-meansK-means算法处理算法处理之后,所生成的聚类集合表示为之后,所生成的聚类集合表示为C=c

55、1,c2,cj,其中其中j表示为经算法处理之后生成的聚类总数,表示为经算法处理之后生成的聚类总数,ci表示此子簇中的用户表示此子簇中的用户在个人喜好或偏好方面具有较高的相似性。在个人喜好或偏好方面具有较高的相似性。算法的实现为:算法的实现为: Input: ClusterNum j and Matrix(nk);Output: the number of cluster about matrix is j;方法:方法:步骤步骤1 1 在二维用户属性特征矩阵中检索所有在二维用户属性特征矩阵中检索所有n个项目,用集合个项目,用集合 U=U1,U2,Un表示;表示;步骤步骤2 2 集合中随机选择集合

56、中随机选择j个项目,将他们的属性特征数据作为个项目,将他们的属性特征数据作为 初始聚类中心,用集合初始聚类中心,用集合 表示;表示;步骤步骤3 3 对对j个聚类进行初始化为空,用集合个聚类进行初始化为空,用集合C表示表示; 12 ,jCc cc-34-第第8 8章章 大数据分析大数据分析步骤步骤4 4 对剩余的项目执行以下操作:对剩余的项目执行以下操作:步骤步骤5 5 计算新生成聚类中所有项目的平均值,并生成新的聚类计算新生成聚类中所有项目的平均值,并生成新的聚类 中心;中心;步骤步骤6 6 重复重复4 4和和5 5,直到聚类中心不再发生变化为止,并输出,直到聚类中心不再发生变化为止,并输出s

57、个个 类簇。类簇。算法:用户聚类算法1: for all do2: for all do3: 4: end for5: 6: 7: end foriuUicC(u ,c )iisim,(u c )max(u c ),(u c ),(u c )imimimimsimsimsimsimiCu -35-第第8 8章章 大数据分析大数据分析8.3.5 8.3.5 推荐结果推荐结果本设计基于协同过滤思想为用户提供满意的推荐服务,利用公式本设计基于协同过滤思想为用户提供满意的推荐服务,利用公式(3)(3),计 算 用 户 之 间 的 相 似 性 , 从 而 找 出 用 户计 算 用 户 之 间 的 相 似

58、 性 , 从 而 找 出 用 户 u 的 最 近 邻的 最 近 邻居居 。依据公式依据公式(3)(3)以及经以及经k-meansk-means算法生成的算法生成的j个用户子簇,结合目标用户的个用户子簇,结合目标用户的最近邻居选择最近邻居选择top-ntop-n个预测值较高的餐馆推荐给用户,计算方法如下:个预测值较高的餐馆推荐给用户,计算方法如下: (6) 表示用户表示用户u与用户与用户n之间的相似性,之间的相似性,Rn,j表示用户表示用户n对餐馆对餐馆i的的评分,评分, 、 表示用户表示用户u和用户和用户n对餐馆的平均评分。对餐馆的平均评分。12,ujNU Uu,( , ) ()( , )uu

59、n jnn Nu iun Nsim u nRRPRsim u n( , )sim u nuRnR-36-第第8 8章章 大数据分析大数据分析8.4 8.4 数据预处理实现及结果分析数据预处理实现及结果分析8.4.1 准备数据准备数据本部分以加利福尼亚大学尔湾分校提供的墨西哥餐馆消费情况数据集本部分以加利福尼亚大学尔湾分校提供的墨西哥餐馆消费情况数据集为为例,针对墨西哥消费者的喜好来产生例,针对墨西哥消费者的喜好来产生top-ntop-n餐厅推荐列表。餐厅推荐列表。 数据集包括三部分:数据集包括三部分:chefmoz chefmoz 餐馆的基本信息、所调研餐馆的基本信息、所调研customerc

60、ustomer的基的基本喜好信息以及最终的用户对餐馆的评分估计信息本喜好信息以及最终的用户对餐馆的评分估计信息rating_finalrating_final。v RestaurantsRestaurants分别涉及分别涉及chefmozaccept.csvchefmozaccept.csv、chefmozcuisine.csvchefmozcuisine.csv、chefmozhours4.csvchefmozhours4.csv、chefmozparking.csvchefmozparking.csv、geoplaces2.csv geoplaces2.csv 五五张数据表。张数据表。v

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论