大数据架构和模式_第1页
大数据架构和模式_第2页
大数据架构和模式_第3页
大数据架构和模式_第4页
大数据架构和模式_第5页
已阅读5页,还剩68页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大数据架构和模式(一): 大数据分类和架构简介1.本文对大数据做了哪些分类?2.对数据进行分类后,如何将它与合适的大数据模式匹配?如何将大数据分分为不同的类类别大数据问题的分分析和解决通通常很复杂。大大数据的量、速速度和种类使使得提取信息息和获得业务务洞察变得很很困难。以下下操作是一个个良好的开端端:依据必须须处理的数据据的格式、要要应用的分析析类型、使用用的处理技术术,以及目标标系统需要获获取、加载、处处理、分析和和存储数据的的数据源,对对大数据问题题进行分类。概述大数据可通过许许多方式来存存储、获取、处处理和分析。每每个大数据来来源都有不同同的特征,包包括数据的频频率、量、速速度、类型和和

2、真实性。处处理并存储大大数据时,会会涉及到更多多维度,比如如治理、安全全性和策略。选选择一种架构构并构建合适适的大数据解解决方案极具具挑战,因为为需要考虑非非常多的因素素。这个 “大数据据架构和模式式” 系列提提供了一种结结构化和基于于模式的方法法来简化定义义完整的大数数据架构的任任务。因为评评估一个业务务场景是否存存在大数据问问题很重要,所所以我们包含含了一些线索索来帮助确定定哪些业务问问题适合采用用大数据解决决方案。从分分类大数据到到选择大数据据解决方案如果您花时间研研究过大数据据解决方案,那那么您一定知知道它不是一一个简单的任任务。本系列列将介绍查找找满足您需求求的大数据解解决方案所涉涉

3、及的主要步步骤。我们首先介绍术术语 “大数数据” 所描描述的数据类类型。为了简简化各种大数数据类型的复复杂性,我们们依据各种参参数对大数据据进行了分类类,为任何大大数据解决方方案中涉及的的各层和高级级组件提供一一个逻辑架构构。接下来,我我们通过定义义原子和复合合分类模式,提提出一种结构构来分类大数数据业务问题题。这些模式式有助于确定定要应用的合合适的解决方方案模式。我我们提供了来来自各行各业业的示例业务务问题。最后后,对于每个个组件和模式式,我们给出出了提供了相相关功能的产产品。第 1 部分将将介绍如何对对大数据进行行分类。本系系列的后续文文章将介绍以以下主题:定义大数据解决决方案的各层层和组

4、件的逻逻辑架构理解大数据解决决方案的原子子模式理解用于大数据据解决方案的的复合(或混混合)模式为大数据解决方方案选择一种种解决方案模模式确定使用一个大大数据解决方方案解决一个个业务问题的的可行性选择正确的产品品来实现大数数据解决方案案依据大数据类型型对业务问题题进行分类业务问题可分类类为不同的大大数据问题类类型。以后,我我们将使用此此类型确定合合适的分类模模式(原子或或复合)和合合适的大数据据解决方案。但但第一步是将将业务问题映映射到它的大大数据类型。下下表列出了常常见的业务问问题并为每个个问题分配了了一种大数据据类型。按类类型对大数据据问题分类,更更容易看到每每种数据的特特征。这些特特征可帮

5、助我我们了解如何何获取数据,如如何将它处理理为合适的格格式,以及新新数据出现的的频率。来自自不同来源的的数据具有不不同的特征;例如,社交交媒体数据包包含不断传入入的视频、图图像和非结构构化文本(比比如博客文章章)。表 1. 不同同类型的大数数据业务问题题我们依据这些常常见特征来评评估数据,下下一节将详细细介绍这些特特征:内容的格式数据的类型(例例如,交易数数据、历史数数据或主数据据)将提供该数据的的频率意图:数据需要要如何处理(例例如对数据的的临时查询)处理是否必须实实时、近实时时还是按批次次执行。使用大数据类型型对大数据特特征进行分类类按特定方向分析析大数据的特特征会有所帮帮助,例如以以下特

6、征:数数据如何收集集、分析和处处理。对数据据进行分类后后,就可以将将它与合适的的大数据模式式匹配:1、分析类型 对数据据执行实时分分析还是批量量分析。请仔仔细考虑分析析类型的选择择,因为这会会影响一些有有关产品、工工具、硬件、数数据源和预期期的数据频率率的其他决策策。一些用例例可能需要混混合使用两种种类型:2、欺诈检测;分析必须实实时或近实时时地完成。3、针对战略性性业务决策的的趋势分析;分析可采用用批量模式。4、处理方法 要应用用来处理数据据的技术类型型(比如预测测、分析、临临时查询和报报告)。业务务需求确定了了合适的处理理方法。可结结合使用各种种技术。处理理方法的选择择,有助于识识别要在您

7、的的大数据解决决方案中使用用的合适的工工具和技术。5、数据频率和和大小 预计有多少少数据和数据据到达的频率率多高。知道道频率和大小小,有助于确确定存储机制制、存储格式式和所需的预预处理工具。数数据频率和大大小依赖于数数据源:按需分析,与社社交媒体数据据一样实时、持续提供供(天气数据据、交易数据据)时序(基于时间间的数据)6、数据类型 要处理理数据类型 交易、历历史、主数据据等。知道数数据类型,有有助于将数据据隔离在存储储中。7、内容格式(传传入数据的格格式)结构化化(例如 RRDMBS)、非非结构化(例例如音频、视视频和图像)或或半结构化。格格式确定了需需要如何处理理传入的数据据,这是选择择工

8、具、技术术以及从业务务角度定义解解决方案的关关键。8、数据源 数据的来来源(生成数数据的地方),比比如 Webb 和社交媒媒体、机器生生成、人类生生成等。识别别所有数据源源有助于从业业务角度识别别数据范围。该该图显示了使使用最广泛的的数据源。9、数据使用者者 处理理的数据的所所有可能使用用者的列表:业务流程业务用户企业应用程序各种业务角色中中的各个人员员部分处理流程其他数据存储库库或企业应用用程序10、硬件 将在其上上实现大数据据解决方案的的硬件类型,包包括商用硬件件或最先进的的硬件。理解解硬件的限制制,有助于指指导大数据解解决方案的选选择。图 1 描绘用用于分类大数数据的各种类类别。定义大大

9、数据模式的的关键类别已已识别并在蓝蓝色方框中突突出显示。大大数据模式(将将在下一篇文文章中定义)来来自这些类别别的组合。图 1. 大数数据分类结束语和致谢在本系列剩余部部分中,我们们将介绍大数数据解决方案案的逻辑架构构和各层,从从访问到使用用大数据。我我们将提供数数据源的完整整列表,介绍绍专注于大数数据解决方案案的每个重要要方面的原子子模式。我们们还将介绍复复合模式,解解释可如何结结合使用原子子模式来解决决特定的大数数据用例。本本系列最后将将提供一些解解决方案模式式,在广泛使使用的用例与与各个产品之之间建立对应应关系。感谢 Rakeesh R. Shinnde 在定定义本系列的的整体结构上上提

10、供的指导导,以及对本本系列的审阅阅和提供的宝宝贵评论。大数据架构和模模式(二)如如何知道一个个大数据解决决方案是否适适合您的组织织1.如何判断大大数据问题是是否需要大数数据解决方案案?2.如何何评估大数据据解决方案的的可行性?33.可通过大大数据技术获获取何种洞察察?4.是否否所有大数据据都存在大数数据问题?简介在确定投资大数数据解决方案案之前,评估估可用于分析析的数据;通通过分析这些些数据而获得得的洞察;以以及可用于定定义、设计、创创建和部署大大数据平台的的资源。询问问正确的问题题是一个不错错的起点。使使用本文中的的问题将指导导您完成调查查。答案将揭揭示该数据和和您尝试解决决的问题的更更多特

11、征。尽管组织一般情情况对需要分分析的数据类类型有一些模模糊的理解,但但具体的细节节很可能并不不清晰。毕竟竟,数据可能能具有之前未未发现的模式式的关键,一一旦识别了一一种模式,对对额外分析的的需求就会变变得很明显。要要帮助揭示这这些未知的未未知信息,首首先需要实现现一些基本用用例,在此过过程中,可以以收集以前不不可用的数据据。构建数据据存储库并收收集更多数据据后,数据科科学家就能够够更好地确定定关键的数据据,更好地构构建将生成更更多洞察的预预测和统计模模型。组织可能也已知知道它有哪些些信息是不知知道的。要解解决这些已知知的未知,组组织首先必须须与数据科学学家合作,识识别外部或第第三方数据源源,实

12、现一些些依赖于此外外部数据的用用例。本文首先尝试回回答大多数 CIO 在在实施大数据据举措之前通通常会提出的的问题,然后后,本文将重重点介绍一种种将帮助评估估大数据解决决方案对组织织的可行性的的基于维度的的方法。我的大数据问题题是否需要大大数据解决方方案?大数据,曾几何何时似乎很少少出现组织多半会选择择以增量方式式实现大数据据解决方案。不不是每个分析析和报告需求求都需要大数数据解决方案案。如果对于于对大型数据据集或来自多多个数据源的的临时报告执执行并行处理理的项目,那那么可能没有有必要使用大大数据解决方方案。随着大数据技术术的到来,组组织会问自己己:“大数据据是否是我的的业务问题的的正确解决方

13、方案,或者它它是否为我提提供了业务机机会?”大数数据中是否隐隐藏着业务机机会?以下是是我从 CIIO 那里听听到的一些典典型问题:如果我使用大数数据技术,可可能会获得何何种洞察和 业务价值?它是否可以扩充充我 现有的的数据仓库?我如何评估 扩扩展当前环境境 或采用新新解决方案的的成本?对我现有的 IIT 治理 有何影响?我能否 以增量量方式实现 大数据解决决方案?我需要掌握哪些些 具体的技技能 来理解解和分析构建建和维护大数数据解决方案案的需求?我的 现有企业业数据 能否否用于提供业业务洞察?来自各种来源的的 数据的复复杂性 在不不断增长。大大数据解决方方案对我有帮帮助吗?维度可帮助评估估大数

14、据解决决方案的可行行性为了回答这些问问题,本文提提出了一种依依据下图中所所示的维度来来评估大数据据解决方案的的可行性的结结构化方法。来自可通过分析析数据获得的的洞察的业务务价值针对新数据来源源和数据使用用方式的治理理考虑因素拥有相关技能和和赞助商的承承诺的人员捕获的数据量各种各样的数据据源、数据类类型和数据格格式生成数据的速度度,需要对它它执行操作的的速度,或者者它更改的速速度数据的真实性,或或者数据的不不确定性和可可信赖性对于每个维度,我我们都给出了了一些关键问问题。依据业业务上下文,为为每个维度分分配一个权重重和优先级。评评估会因业务务案例和组织织的不同而有有所不同。您您可以考虑在在与相关

15、的业业务和 ITT 利益相关关者召开的一一系列研讨会会中探讨这些些问题。业务价值:可通通过大数据技技术获取何种种洞察?许多组织想知道道,他们在寻寻找的业务洞洞察能否通过过大数据解决决方案解决。没没有权威的指指南能够用来来定义可从大大数据获取的的洞察。具体体场景需要由由组织识别,而而且这些场景景在不断演变变。在确定和和识别在实现现后会给企业业带来重大价价值的业务用用例和场景的的过程中,数数据科学家起起着至关重要要的作用。数据科学家必须须能够理解关关键绩效指标标,对数据应应用统计算法法和复杂算法法来获得一个个用例列表。用用例因行业和和业务不同而而有所不同。研研究市场竞争争对手的行动动、发挥作用用的

16、市场力量量,以及客户户在寻找什么么,会很有帮帮助。下表给给出了来自各各行各业的用用例示例。表 1. 来自自各行各业的的示例用例潜在的客户正在在社交网络和和评论站点上上生成大量新新数据。在企企业内,随着着客户切换到到在线渠道来来执行业务和和与公司交互互,交易数据据和 Webb 日志与日日俱增。确定数据的优先先级首先为企业内存存在的数据创创建一个清单单。识别内部部系统和应用用程序中存在在的数据以及及从第三方传传入的数据。如如果业务问题题可使用现有有数据解决,那那么有可能不不需要使用来来自外部来源源的数据。请考虑构建一个个大数据解决决方案的成本本,并权衡它它与带给业务务部门的新洞洞察的价值。在有关现

17、有客户户的归档数据据的上下文中中分析此新数数据时,业务务人员将获得得对新业务机机会的洞察。主要满足以下条条件,大数据据可提供可行行的解决方案案:从数据中开发的的洞察所生成成的价值,值值得在大数据据解决方案中中投入的资本本成本面向客户的场景景可证明来自自洞察的潜在在价值评估通过大数据据解决方案获获取的业务价价值时,请考考虑您当前的的环境是否可可扩展并权衡衡此投资的成成本。我当前的环境能能否扩展?询问以下问题,确确定您能否扩扩充现有的数数据仓库平台台?当前的数据集是是否非常大,是是否达到了 TB 或 PB 数量量级?现有的仓库环境境是否包含生生成或获取的的所有 数据据的存储库?是否有大量冷数数据或

18、人们很很少接触的数数据未分析,可可以通过分析析这些数据获获得业务洞察察?您是否需要丢弃弃数据,因为为无法存储或或处理它?您是否希望能够够在复杂且大大量的数据上上执行数据探探索?您是否希望能够够对非操作数数据执行分析析?您是否有兴趣使使用数据执行行传统和新类类型的分析?您是否试图延迟迟对现有数据据仓库的升级级?您是否在寻求途途径降低执行行分析的总体体成本?如果任何这些问问题的答案是是 “是”,那那么您就可以以探索扩充现现有数据仓库库环境的方式式。扩展我当前的环环境的成本是是多少?扩展现有数据仓仓库平台或 IT 环境境与实现大数数据解决方案案的成本和可可行性取决于于:现有工具和技术术现有系统的可伸

19、伸缩性现有环境的处理理能力现有平台的存储储能力执行的治理和策策略现有 IT 应应用程序的异异构性组织中存在的技技术和业务技技能。它还依赖于将从从新数据来源源收集的数据据量、业务用用例的复杂性性、处理的分分析复杂性,以以及获取数据据和拥有恰当当技能集的人人员的成本。现现有的资源池池能否开发新新的大数据技技能,或者是是否可从外部部雇佣拥有稀稀缺技能的人人员?请注意,大数据据举措会对其其他正在实施施的项目产生生影响。从新新的来源获取取数据具有很很高的成本。您您首先应当识识别系统和应应用程序内部部存在的数据据,以及目前前收到的第三三方数据,这这一点很重要要。如果业务务问题可以使使用现有数据据解决,那么

20、么有可能不需需要使用来自自外部来源的的数据。在生成新工具和和应用程序之之前,请评估估组织的应用用程序组合。例例如,一个普普通的 Haadoop 平台可能无无法满足您的的需求,您可可能必须购买买专业的工具具。或者相对对而言,Haadoop 的商业版本本对当前用例例而言可能很很昂贵,但可可能需要用作作长期投资来来支持一个战战略性的大数数据平台。考考虑大数据工工具和技术需需要的基础架架构、硬件、软软件和维护的的成本。对数据的治理和和控制:对现现有的 ITT 治理有何何影响?在决定是否实现现一个大数据据平台时,组组织可能会查查看新数据源源和新的数据据元素类型,而而这些信息当当前的所有权权尚未明确定定义

21、。一些行行业制度会约约束组织获取取和使用的数数据。例如,在在医疗行业,通通过访问患者者数据来从中中获取洞察是是否合法?类类似的规则约约束着所有行行业。除了 IT 治理理问题之外,组组织的业务流流程可能也需需要重新定义义和修改,让让组织能够获获取、存储和和访问外部数数据。请在您的情况的的上下文中考考虑以下治理理相关问题:安全性和隐私 为了与当当地法规一致致,解决方案案可以访问哪哪些数据?可可以存储哪些些数据?哪些些数据应在移移动过程中加加密?静止数数据呢?谁可可以查看原始始数据和洞察察?数据的标准化 是否有标标准约束数据据?数据是否否具有专用的的格式?是否否有部分数据据为非标准格格式?数据可用的

22、时段段 数据在在一个允许及及时采取操作作的时段是否否可用?数据的所有权 谁拥有该该数据?解决决方案是否拥拥有适当的访访问权和权限限来使用数据据?允许的用法:允允许如何使用用该数据?我能否增量地实实现大数据解解决方案?大数据解决方案案可以采用增增量方式实现现。明确地定定义业务问题题的范围,并并以可度量的的方式设置预预期的业务收收入提升,这这样做会很有有帮助。对于基础业务案案例,请仔细细列出问题的的范围和解决决方案带来的的预期收益。如如果该范围太太小,业务收收益将无法实实现,如果范范围太大,获获得资金和在在恰当的期限限内完成项目目就会很有挑挑战性。在项项目的第一次次迭代中定义义核心功能,以以便能够

23、轻松松地赢得利益益相关者的信信任。人员:是否已有有恰当的技能能并调整了合合适的人员?需要特定的技能能来理解和分分析需求,并并维护大数据据解决方案。这这些技能包括括行业知识、领领域专长,以以及有关大数数据工具和技技术的技术知知识。拥有建建模、统计、分分析和数学方方面的专业经经验的数据科科学家,是任任何大数据举举措成功的关关键。在实施一个新的的大数据项目目之前,确保保已安排了合合适的人员:您是否获得利益益相关者和其其他愿意投资资该项目的业业务赞助者的的支持?是否拥有熟悉该该领域、能分分析大量数据据、而且能识识别从数据生生成有意义且且有用的洞察察的途径的数数据科学家?是否拥有可用于于获取洞察的的现有

24、数据?所有组织都拥有有大量未用于于获取业务洞洞察的数据。这这些数据包括括日志文件、错错误文件和来来自应用程序序的操作数据据。不要忽略略此数据,它它是宝贵信息息的潜在来源源。数据复杂性是否否在增长?查找数据复杂性性增长的线索索,尤其是在在数据量、种种类、速度和和真实性方面面。数据量是否已增增长?如果满足以下条条件,您可能能希望考虑大大数据解决方方案:数据大小达到 PB 和 EB 级,而而且在不久的的将来,它们们可能增长到到 ZB 级级别。这一数据量给使使用传统方法法(比如关系系数据库引擎擎)存储、搜搜索、共享、分分析和可视化化数据带来的的技术和经济济挑战。数据处理目前可可使用可用硬硬件上的大规规

25、模并行处理理能力。数据种类是否已已增多?如果满足以下条条件,各种各各样的数据可可能都需要大大数据解决方方案:数据内容和结构构无法预期或或预测。数据格式各不相相同,包括结结构化、半结结构化和非结结构化数据。用户和机器能够够以任何格式式生成数据,例例如:Miccrosofft Woord 文件件、Micrrosoftt Exceel 电子子表格、Miicrosooft PoowerPooint 演演示文稿、PPDF 文件件、社交媒体体、Web 和软件日志志、电子邮件件、来自相机机的照片和视视频、信息感感知的移动设设备、空中感感知技术、基基因组和医疗疗记录。以前没有为了获获得洞察而被被挖掘的数据据来

26、源不断地地在产生新的的数据类型。领域实体在不同同的上下文中中具有不同的的含义。数据的速度是否否已增长或改改变?考虑您的数据是是否:在快速更改,必必须立即响应应拥有过多的传统统技术和方法法,它们不再再足以实时处处理传入的数数据您的数据是否值值得信赖?如果满足以下条条件,那么请请考虑使用大大数据解决方方案:数据的真实性或或准确性未知知。数据包含模糊不不清的信息。不清楚数据是否否完整。如果数据的量、种种类、速度或或真实性具有有合理的复杂杂性,那么有有可能会适合合地采用大数数据解决方案案。对于更复复杂的数据,需需要评估与实实现大数据解解决方案关联联的任何风险险。对于不太太复杂的数据据,则应该评评估传统

27、的解解决方案。是否所有大数据据都存在大数数据问题?不是所有大数据据情形都需要要大数据解决决方案。请在在市场中寻找找线索。竞争争对手在做什什么?哪些市市场力量在发发挥作用?客客户想要什么么?使用本文中的问问题,帮助确确定大数据解解决方案是否否适合于您的的业务情形和和您需要的业业务洞察。如如果认为是时时候实施大数数据项目了,请请阅读下一篇篇文章,其中中会介绍如何何定义一个逻逻辑架构,而而且将会确定定您的大数据据解决方案需需要的关键组组件。作者: Divvakar等等来源: DeveeloperrWorkssEnd.大数据架构和模模式(三)理理解大数据解解决方案的架架构层问题导读1.大数据解决决方案

28、通常哪哪些逻辑层组组成?2.本文讲了大大数据来源有有哪些?3.大数据治理理包含哪些因因素?概述这个 “大数据据架构和模式式” 系列的的 第 2 部分 介绍绍了一种评估估大数据解决决方案可行性性的基于维度度的方法。如如果您已经使使用上一篇文文章中的问题题和提示分析析了自己的情情况,并且已已经决定开始始构建新的(或或更新现有的的)大数据解解决方案,那那么下一步就就是识别定义义项目的大数数据解决方案案所需的组件件。大数据解决方案案的逻辑层逻辑层提供了一一种组织您的的组件的方式式。这些层提提供了一种方方法来组织执执行特定功能能的组件。这这些层只是逻逻辑层;这并并不意味着支支持每层的功功能在独立的的机器

29、或独立立的进程上运运行。大数据据解决方案通通常由以下逻逻辑层组成:1、大数据来源源2、数据改动 (masssagingg) 和存储储层3、分析层4、使用层大数据来源:考考虑来自所有有渠道的,所所有可用于分分析的数据。要要求组织中的的数据科学家家阐明执行您您需要的分析析类型所需的的数据。数据据的格式和起起源各不相同同:格式 结构化化、半结构化化或非结构化化。速度和数据量 数据到达达的速度和传传送它的速率率因数据源不不同而不同。收集点 收集集数据的位置置,直接或通通过数据提供供程序,实时时或以批量模模式收集数据据。数据可能能来自某个主主要来源,比比如天气条件件,也有可能能来自一个辅辅助来源,比比如

30、媒体赞助助的天气频道道。数据源的位置 数据源可可能位于企业业内或外部。识识别您具有有有限访问权的的数据,因为为对数据的访访问会影响可可用于分析的的数据范围。数据改动和存储储层:此层负负责从数据源源获取数据,并并在必要时,将将它转换为适适合数据分析析方式的格式式。例如,可可能需要转换换一幅图,才才能将它存储储在 Haddoop DDistriibutedd Filee Systtem (HHDFS) 存储或关系系数据库管理理系统 (RRDBMS) 仓库中,以以供进一步处处理。合规性性制度和治理理策略要求为为不同的数据据类型提供合合适的存储。分析层:分析层层读取数据改改动和存储层层整理 (ddig

31、estt) 的数据据。在某些情情况下,分析析层直接从数数据源访问数数据。设计分分析层需要认认真地进行事事先筹划和规规划。必须制制定如何管理理以下任务的的决策:生成想要的分析析从数据中获取洞洞察找到所需的实体体定位可提供这些些实体的数据据的数据源理解执行分析需需要哪些算法法和工具。使用层:此层使用了分析析层所提供的的输出。使用用者可以是可可视化应用程程序、人类、业业务流程或服服务。可视化化分析层的结结果可能具有有挑战。有时时,看看类似似市场中的竞竞争对手是如如何做的会有有所帮助。每一层包含多种种组件类型,下下面将会介绍绍这些类型。图 1. 逻辑辑和垂直层的的组件该图显示了逻辑辑和垂直层的的组件大

32、数据来源此层包含所有必必要的数据源源,提供了解解决业务问题题所需的洞察察。数据是结结构化、半结结构化和非结结构化的数据据,而且来自自许多来源:1、企业遗留系系统这些些系统是企业业应用程序,执执行业务需要要的分析并获获取需要的洞洞察:客户关系管理系系统结算操作大型机应用程序序企业资源规划Web 应用程程序开发Web 应用程程序和其他数数据来源扩充充了企业拥有有的数据。这这些应用程序序可使用自定定义的协议和和机制来公开开数据。2、数据管理系系统 (DMMS) 数数据管理系统统存储逻辑数数据、流程、策策略和各种其其他类型的文文档:Microsooft EExcel 电子表格格Microsooft W

33、oord 文档档这些文档可以转转换为可用于于分析的结构构化数据。文文档数据可公公开为领域实实体,或者数数据改动和存存储层可将它它转换为领域域实体。3、数据存储 数据存储储包含企业数数据仓库、操操作数据库和和事务数据库库。此数据通通常是结构化化数据,可直直接使用或轻轻松地转换来来满足需求。这这些数据不一一定存储在分分布式文件系系统中,具体体依赖于所处处的上下文。4、智慧设备 智慧设备备能够捕获、处处理和传输使使用最广泛的的协议和格式式的信息。这这方面的示例例包括智能电电话、仪表和和医疗设备。这这些设备可用用于执行各种种类型的分析析。绝大多数数智慧设备都都会执行实时时分析,但从从智慧设备传传来的信

34、息也也可批量分析析。5、聚合的数据据提供程序 这些提供供程序拥有或或获取数据,并并以复杂的格格式和所需的的频率通过特特定的过滤器器公开它。每每天都会产生生海量的数据据,它们具有有不同的格式式,以不同的的速度生成,而而且通过各种种数据提供程程序、传感器器和现有企业业提供。其他数据源 有许多数据据来自自动化化的来源:地理信息:地图地区详细信息位置详细信息矿井详细信息人类生成的内容容:社交媒体电子邮件博客在线信息传感器数据:环境:天气、降降雨量、湿度度、光线电气:电流、能能源潜力等导航装置电离辐射、亚原原子粒子等靠近、存在等位置、角度、位位移、距离、速速度、加速度度声音、声震动等等汽车、运输等热量、

35、热度、温温度光学、光、成像像、见光度化学压力流动、流体、速速度力、密度级别等等来自传感器供应应商的其他数数据数据改动和存储储层因为传入的数据据可能具有不不同的特征,所所以数据改动动和存储层中中的组件必须须能够以各种种频率、格式式、大小和在在各种通信渠渠道上读取数数据:数据获取 从从各种数据源源获取数据,并并将其发送到到数据整理组组件或存储在在指定的位置置中。此组件件必须足够智智能,能够选选择是否和在在何处存储传传入的数据。它它必须能够确确定数据在存存储前是否应应改动,或者者数据是否可可直接发送到到业务分析层层。数据整理 负负责将数据修修改为需要的的格式,以实实现分析用途途。此组件可可拥有简单的

36、的转换逻辑或或复杂的统计计算法来转换换源数据。分分析引擎将会会确定所需的的特定的数据据格式。主要要的挑战是容容纳非结构化化数据格式,比比如图像、音音频、视频和和其他二进制制格式。分布式数据存储储 负责存存储来自数据据源的数据。通通常,这一层层中提供了多多个数据存储储选项,比如如分布式文件件存储 (DDFS)、云云、结构化数数据源、NooSQL 等等。分析层这是从数据中提提取业务洞察察的层:分析层实体识别别 负责识识别和填充上上下文实体。这这是一个复杂杂的任务,需需要高效的高高性能流程。数数据整理组件件应为这个实实体识别组件件提供补充,将将数据修改为为需要的格式式。分析引擎擎将需要上下下文实体来

37、执执行分析。分析引擎 使使用其他组件件(具体来讲讲,包括实体体鉴别、模型型管理和分析析算法)来处处理和执行分分析。分析引引擎可具有支支持并行处理理的各种不同同的工作流、算算法和工具。模型管理 负负责维护各种种统计模型,验验证和检验这这些模型,通通过持续培训训模型来提高高准确性。然然后,模型管管理组件会推推广这些模型型,它们可供供实体识别或或分析引擎组组件使用。使用层这一层使用了从从分析应用程程序获取的业业务洞察。分分析的结果由由组织内的各各个用户和组组织外部的实实体(比如客客户、供应商商、合作伙伴伴和提供商)使使用。此洞察察可用于针对对客户提供产产品营销信息息。例如,借借助从分析中中获取的洞察

38、察,公司可以以使用客户偏偏好数据和位位置感知,在在客户经过通通道或店铺时时向他们提供供个性化的营营销信息。该洞察可用于检检测欺诈,实实时拦截交易易,并将它们们与使用已存存储在企业中中的数据构建建的视图进行行关联。在欺欺诈性交易发发生时,可以以告知客户可可能存在欺诈诈,以便及时时采取更正操操作。此外,可以根据据在数据改动动层完成的分分析来触发业业务流程。可可以启动自动动化的步骤 例如,如如果客户接受受了一条可自自动触发的营营销信息,则则需要创建一一个新订单,如如果客户报告告了欺诈,那那么可以触发发对信用卡使使用的阻止。分析的输出也可可由推荐引擎擎使用,该引引擎可将客户户与他们喜欢欢的产品相匹匹配

39、。推荐引引擎分析可用用的信息,并并提供个性化化且实时的推推荐。使用层还为内部部用户提供了了理解、找到到和导航企业业内外的链锁锁信息的能力力。对于内部部使用者,为为业务用户构构建报告和仪仪表板的能力力使得利益相相关者能够制制定精明的决决策并设计恰恰当的战略。为为了提高操作作有效性,可可以从数据中中生成实时业业务警告,而而且可以监视视操作性的关关键绩效指标标:交易拦截器 此组件可实实时拦截高容容量交易,将将它们转换为为一种容易被被分析层理解解的实时格式式,以便在传传入数据上执执行实时分析析。事务拦截截器应能够集集成并处理来来自各种来源源的数据,比比如传感器、智智能仪表、麦麦克风、摄像像头、GPSS

40、 设备、AATM 和图图像扫描仪。可可以使用各种种类型的适配配器和 APPI 来连接接到数据源。也也可以使用各各种加速器来来简化开发,比比如实时优化化和流分析,视视频分析,银银行、保险、零零售、电信和和公共运输领领域的加速器器,社交媒体体分析,以及及情绪分析。业务流程管理流流程 来自自分析层的洞洞察可供业务务流程执行语语言 (BPPEL) 流流程、APII 或其他业业务流程使用用,通过自动动化上游和下下游 IT 应用程序、人人员和流程的的功能,进一一步获取业务务价值。实时监视 可可以使用从分分析中得出的的数据来生成成实时警告。可可以将警告发发送给感兴趣趣的使用者和和设备,比如如智能电话和和平板

41、电脑。可可以使用从分分析组件生成成的数据洞察察,定义并监监视关键绩效效指标,以便便确定操作有有效性。实时时数据可从各各种来源以仪仪表板的形式式向业务用户户公开,以便便监视系统的的健康或度量量营销活动的的有效性。报告引擎 生生成与传统商商业智能报告告类似的报告告的能力至关关重要。用户户可基于从分分析层中得到到的洞察,创创建临时报告告、计划的报报告或自助查查询和分析。推荐引擎 基基于来自分析析层的分析结结果,推荐引引擎可向购物物者提供实时时的、相关的的和个性化的的推荐,提高高电子商务交交易中的转换换率和每个订订单的平均价价值。该引擎擎实时处理可可用信息并动动态地响应每每个用户,响响应基于用户户的实

42、时活动动、存储在 CRM 系系统中的注册册客户信息,以以及非注册客客户的社交概概况。可视化和发现 数据可跨跨企业内外的的各种联邦的的数据源进行行导航。数据据可能具有不不同的内容和和格式,所有有数据(结构构化、半结构构化和非结构构化)可组合合来进行可视视化并提供给给用户。此能能力使得组织织能够将其传传统的企业内内容(包含在在企业内容管管理系统和数数据仓库中)与与新的社交内内容(例如 tweett 和博客文文章)组合到到单个用户界界面中。垂直层影响逻辑层(大大数据来源、数数据改动和存存储、分析和和使用层)的的所有组件的的各方面都包包含在垂直层层中:信息集成大数据治理系统管理服务质量信息集成大数据应

43、用程序序从各种数据据起源、提供供程序和数据据源获取数据据,并存储在在 HDFSS、NoSQQL 和 MMongoDDB 等数据据存储系统中中。这个垂直直层可供各种种组件使用(例例如数据获取取、数据整理理、模型管理理和交易拦截截器),负责责连接到各种种数据源。集集成将具有不不同特征(例例如协议和连连接性)的数数据源的信息息,需要高质质量的连接器器和适配器。可可以使用加速速器连接到大大多数已知和和广泛使用的的来源。这些些加速器包括括社交媒体适适配器和天气气数据适配器器。各种组件件还可以使用用这一层在大大数据存储中中存储信息,从从大数据存储储中检索信息息,以便处理理这些信息。大大多数大数据据存储都提

44、供供了服务和 API 来来存储和检索索该信息。大数据治理数据治理涉及到到定义指南来来帮助企业制制定有关数据据的正确决策策。大数据治治理有助于处处理企业内或或从外部来源源传入的数据据的复杂性、量量和种类。在在将数据传入入企业进行处处理、存储、分分析和清除或或归档时,需需要强有力的的指南和流程程来监视、构构建、存储和和保护数据。除了正常的数据据治理考虑因因素之外,大大数据治理还还包含其他因因素:1、管理各种格格式的大量数数据。2、持续培训和和管理必要的的统计模型,以以便对非结构构化数据和分分析进行预处处理。请记住住,设置处理理非结构化数数据时的重要要一步。3、为外部数据据设置有关其其保留和使用用的

45、策略和合合规性制度。4、定义数据归归档和清除策策略。5、创建如何跨跨各种系统复复制数据的策策略。6、设置数据加加密策略。服务质量层此层复杂定义数数据质量、围围绕隐私和安安全性的策略略、数据频率率、每次抓取取的数据大小小和数据过滤滤器:数据质量1、完整地识别别所有必要的的数据元素2、以可接受的的新鲜度提供供数据的时间间轴3、依照数据准准确性规则来来验证数据的的准确性4、采用一种通通用语言(数数据元组满足足使用简单业业务语言所表表达的需求)5、依据数据一一致性规则验验证来自多个个系统的数据据一致性6、在满足数据据规范和信息息架构指南基基础上的技术术符合性围绕隐私和安全全的策略需要策略来保护护敏感数

46、据。从从外部机构和和提供程序获获取的数据可可能包含敏感感数据(比如如 Faceebook 用户的联系系信息或产品品定价信息)。数数据可以来源源于不同的地地区和国家,但但必须进行相相应的处理。必必须制定有关关数据屏蔽和和这类数据的的存储的决策策。考虑以下下数据访问策策略:A、数据可用性性B、数据关键性性C、数据真实性性D、数据共享和和发布E、数据存储和和保留,包括括能否存储外外部数据等问问题。如果能能够存储数据据,数据可存存储多长时间间?可存储何何种类型的数数据?F、数据提供程程序约束(政政策、技术和和地区)G、社交媒体使使用条款数据频率提供新鲜数据的的频率是多少少?它是按需需、连续还是是离线的

47、?抓取的数据大小小此属性有助于定定义可抓取的的数据以及每每次抓取后可可使用的数据据大小。过滤器标准过滤器会删删除不想要的的数据和数据据中的干扰数数据,仅留下下分析所需的的数据。系统管理系统管理对大数数据至关重要要,因为它涉涉及到跨企业业集群和边界界的许多系统统。对整个大大数据生态系系统的健康的的监视包括:A、管理系统日日志、虚拟机机、应用程序序和其他设备备B、关联各种日日志,帮助调调查和监视具具体情形C、监视实时警警告和通知D、使用显示各各种参数的实实时仪表板E、引用有关系系统的报告和和详细分析F、设定和遵守守服务水平协协议G、管理存储和和容量G、归档和管理理归档检索I、执行系统恢恢复、集群管

48、管理和网络管管理J、策略管理结束语对开发人员而言言,层提供了了一种对大数数据解决方案案必须执行的的功能进行分分类的途径,为为组织建议必必需执行这些些功能所需的的代码。但是是,对于想要要从大数据获获取洞察的业业务用户,考考虑大数据需需求和范围通通常会有所帮帮助。原子模模式解决了访访问、处理、存存储和使用大大数据的机制制,为业务用用户提供了一一种解决需求求和范围的途途径。下一篇篇文章将介绍绍用于此用途途的原子模式式。作者: Divvakar等等来源: DeveeloperrWorkssEnd.大数据架构和模模式(四)大大数据解决方方案的原子模模式和复合模模式1.原子模式大大数据解决方方案有什么特特

49、点?2.原原子模式下的的样例模式有有哪些?3.复合模式有有什么特点?简介本系列的 第 3 部分 介绍了大数数据解决方案案的逻辑层。这这些层定义了了各种组件,并并对它们进行行分类,这些些组件必须处处理某个给定定业务用例的的功能性和非非功能性需求求。本文基于于层和组件的的概念,介绍绍了解决方案案中所用的典典型原子模式式和复合模式式。通过将所所提出的解决决方案映射到到此处提供的的模式,让用用户了解需要要如何设计组组件,以及从从功能角度考考虑,应该将将它们放置在在何处。模式式有助于定义义大数据解决决方案的架构构。利用原子子模式和复合合模式可以帮帮助进一步完完善大数据解解决方案的每每个组件的角角色和责任

50、。本文介绍原子模模式和复合模模式。本系列列的最后一篇篇文章将介绍绍解决方案模模式。图 1. 模式式的类别该图显示了一下下模式:原子子模式、复合合模式和解决决方案模式原子模式对于大数据上下下文中经常出出现的问题,原原子模式 有有助于识别数数据如何是被被使用、处理理、存储和访访问的。它们们还有助于识识别所需的组组件。访问、存存储和处理来来自不同数据据源的多种数数据需要不同同的方法。每每种模式都用用于满足特定定的需求:例例如,可视化化、历史数据据分析、社交交媒体数据和和非结构化数数据的存储。可可以将多种原原子模式结合合使用,组成成一个复合模模式。这些原原子模式没有有进行分层或或排序。例如如,可视化模

51、模式可以与社社交媒体的数数据访问模式式直接交互,可可视化模式还还可以与高级级分析处理模模式进行交互互。图 2. 用于于数据使用、处处理、数据访访问和存储的的原子模式的的示例该图显示了每种种原子模式下下的样例模式式的列表数据使用模式这种类型的模式式处理使用数数据分析结果果的各种方式式。本节包括括的数据使用用模式可以满满足几个需求求。可视化模式可视化数据的传传统方式以图图表、仪表板板和摘要报告告为基础。这这些传统的方方法并不总是是用来可视化化数据的最佳佳方式。大数据可视化的的典型需求(包包括新出现的的需求)如下下所示:1、执行流数据据的实时分析析和显示2、基于上下文文,以交互方方式挖掘数据据3、执

52、行高级搜搜索,并获得得建议4、并行可视化化信息5、获得先进的的硬件,支持持未来的可视视化需求正在进行研究,以以确定人类和和机器如何使使用大数据洞洞察。这些挑挑战包括所涉涉及的数据量量,并且需要要将数据与上上下文相关联联。必须在适适当的上下文文中显示洞察察。可视化数据的目目的是为了更更容易、更直直观地使用数数据,因此报报告和仪表板板可能提供全全高清的观看看效果和 33-D 互动动视频,并且且可以为用户户提供使用应应用程序控制制业务活动和和结果的能力力。即席发现模式创建满足所有业业务需求的标标准报告往往往是不可行的的,因为企业业的业务数据据查询会有不不同的需求。用用户在查找特特定信息时,可可能需要

53、获得得根据问题的的上下文执行行即席查询的的能力。即席分析可以帮帮助数据科学学家和关键业业务用户了解解业务数据的的行为。即席席处理中涉及及的复杂性来来自多种因素素:1、多个数据源源可用于相同同的域。2、单一的查询询可以有多个个结果。3、输出可以是是静态的,并并具有多种格格式(视频、音音频、图形和和文本)。4、输出可以是是动态和交互互式的。加强传统的数据据存储在大数据的初步步探索中,许许多企业选择择使用现有的的分析平台来来降低成本,并并依赖于现有有的技能。加加强现有的数数据存储有助助于拓宽可用用于现有分析析的数据的范范围,包括驻驻留在组织边边界内外的数数据,比如社社交媒体数据据,它可以丰丰富主数据

54、。通通过拓宽数据据范围,使之之包含现有存存储中的新事事实表、维度度和主数据,并并从社交媒体体获取客户数数据,组织可可以获得更深深入的客户洞洞察。但要牢记的是,新新的数据集通通常比较大,而而现有的提取取、转换和加加载工具可能能不足以处理理它。您可能能需要使用具具有大规模并并行处理能力力的高级工具具来解决数据据的数量、多多样性、真实实性和速度特特征。通知模式大数据洞察使人人类、企业和和机器可以通通过使用事件件通知而立即即采取行动。通通知平台必须须能够处理及及时发送出去去的预计数量量的通知。这这些通知与大大量邮件或群群发短信不同同,因为内容容一般是特定定于使用者的的。例如,推推荐引擎可以以提供有关世

55、世界各地的庞庞大客户群的的洞察,而且且可以将通知知发送给这样样的客户。启动一个自动响响应模式从大数据获得的的业务洞察,可可用于触发或或启动其他业业务流程或事事务。处理模式无论数据是处于于静止状态还还是在运动中中,都可以处处理大数据。具具体情况取决决于分析的复复杂性,有可可能不需要对对数据进行实实时处理。这这种模式解决决了对大数据据进行实时、近近实时或批量量处理的方式式。以下高级的大数数据处理类别别适用于大多多数分析。这这些类别通常常也适用于基基于 RDBBMS 的传传统系统。惟惟一的区别是是庞大规模的的数据、多样样性和速度。在在处理大数据据时,要使用用机器学习、复复杂事件处理理、事件流处处理、

56、决策管管理和统计模模型管理等技技术。历史数据分析模模式传统的历史数据据分析仅限于于预定义的数数据时间段,这这通常取决于于数据保留策策略。由于处处理和存储的的限制,超出出此时间段的的数据通常会会被归档或清清除。基于 Hadooop 的系统统和其他等效效的系统可以以克服这些限限制,因为它它们具有丰富富的存储以及及分布式大规规模并行处理理能力。运营营、业务和数数据仓库的数数据被移动到到大数据存储储,您通过使使用大数据平平台功能对它它们进行处理理。历史分析包括分分析给定时间间段、季节组组合和产品的的历史趋势,并并与最新的可可用数据进行行比较。为了了能够存储和和处理如此庞庞大的数据,您您可以使用 HDF

57、S、NNoSQL、SSPSS 和 InffoSpheere BBigInssightss。高级分析模式大数据提供了很很多实现创意意洞察的机会会。不同的数数据集可以在在多种上下文文中存在关联联。发现这些些关系需要创创新的复杂算算法和技术。高级分析包括预预测、决策、推推理过程、模模拟、上下文文信息标识和和实体解析。高高级分析的应应用包括生物物统计数据分分析(例如,DDNA 分析析)、空间分分析、基于位位置的分析、科科学分析、研研究,等等。高高级分析要求求大量的计算算来管理大量量的数据。数据科学家可以以指导您识别别合适的技术术、算法和数数据集,以及及在给定上下下文中解决问问题所需的数数据源。比如如

58、SPSSS、InfooSpherre Strreams 和 InffoSpheere BiigInsiights 等工具提供供了这类功能能。这些工具具访问存储在在大数据存储储系统(比如如 BigTTable、HHBase,等等等)中的非非结构化数据据和结构化数数据(例如,JJSON 数数据)。预处理原始数据据模式大数据解决方案案主要由基于于 MapRReducee 的 Haadoop 系统和技术术组成,MaapReduuce 是开开箱即用的分分布式存储和和处理解决方方案。然而,从从非结构化数数据提取数据据(例如,图图像、音频、视视频、二进制制提要,甚至至是文本)是是一项复杂的的任务,需要要具有

59、机器学学习能力并掌掌握自然语言言处理等技术术。另一个主主要挑战是如如何验证这些些技术和算法法的输出的准准确度和正确确性。要对任何数据执执行分析,数数据都必须是是某种结构化化格式。从多多个数据源访访问的非结构构化数据可以以按原样存储储,然后被转转化成结构化化数据(例如如 JSONN),并被再再次存储到大大数据存储系系统中。非结结构化文本可可以转换成半半结构化或结结构化数据。同同样,图像、音音频和视频数数据需要转换换成可用于分分析的格式。此此外,使用预预测和统计算算法的高级分分析的准确性性和正确性取取决于用来训训练其模型的的数据和算法法的数量。下面的列表显示示了将非结构构化数据转换换成结构化数数据

60、所需的算算法和活动:1、文档和文本本分类2、特征提取3、图像和文本本分割4、关联特征、变变量和时间,然然后提取包含含时间的值5、输出的准确确度检查使用用了混淆矩阵阵(conffusionn matrrix)等技技术和其他手手动活动数据科学家可以以帮助用户选选择合适的技技术和算法。即席分析模式处理大数据的即即席查询所带带来的挑战不不同于对结构构化数据执行行即席查询时时所面临的挑挑战,由于数数据源和数据据格式不是固固定的,所以以需要使用不不同的机制来来检索和处理理数据。虽然大数据供应应商可以处理理简单的即席席查询,但在在大多数情况况下,查询是是复杂的,因因为必须在运运行时动态地地发现数据、算算法、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论