版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据处理平台解决方案设计数据采集、处理及信息结构化相关技术全面的互联网信息采集:支持静态页面和动态页面的抓取,可以设置抓取网页深度,抓取文件类型,以及页面的特征分析和区块抓取。支持增量更新、数据源定位、采集过滤、格式转换、排重、多路并发等策略。- 实现企业内外部信息源的自动采集和处理,包括像网站、论坛、博客、文件系统、数据库等信息源- 海量抓取:根据信息不同来源,有效的进行海量不间断抓取,而且不干扰原有业务系统的正常运行- 更新及时:信息采集之后,对于相应的信息更新,要具备灵活的机制,保证内容的质量与完善;- 结合权限:结合具体项目的流程,相应的文件都有不同的权限,抓取的时候,能够获得相关权限
2、,以此在前台提供知识服务的同时,满足对权限的控制;- 支持录入多种格式的知识素材,包括文本、表格、图形、图像、音频、视频等。-支持批量上传多种格式的文档,包括 txt 、html 、 rtf 、word 、 pdf、MP3、 MPEG等。- 支持采集文档里面的内嵌文档抓取 (如 word 文件里面嵌入 visio 的图片文件, word 的图文框等);- 支持对各种压缩文件、嵌套压缩文件的采集;- 支持导入 Excel、XML、Txt 等多种数据源,导入后可自动解析数据源中的知识条目。- 配置好之后可以完全自动化的运行,无需人工干预;- 用户可指定抓取网站列表,可进行自定义、删除、更改等操作;
3、- 用户可自定义开始时间,循环次数,传送数据库等参数;- 自动检测网页链接,可自动下载更新页面,自动删除无效链接;- 可设置基于 URL、网页内容、网页头、目录等的信息过滤;- 支持 Proxy 模块,支持认证的网站内容抓取;- 可分布式部署,扩展性强;- 软硬件配置及预算符合本平台实际需求。信息智能处理的智能服务智能化信息资源搜索和支持服务系统,对内、外部信息资源整合,提供丰富的应用功能,包括自动采集、智能搜索、自动分类、聚类分析、信息关联、个性推送等,充分发掘内外部信息资源的价值,支持海量数据和多维度信息应用。实现数据采集、信息检索、内容自动关联、不同信息的分类聚类的智能信息服务体系。一、
4、非 / 半结构化数据处理(Hadoop)平台由信息自动采集、信息管理、信息分析、信息智能处理、信息服务等层次组成:数据源层:主要包含内外部信息系统。(互联网,内部数据库系统)等;连接器层(数据采集层) :主要负责对所监控的网站、论坛、博客等互联网信息和数据库、文件 (包括 Txt、Rtf、Doc、 PDF、 HTML、XML、 WVM、RM 等)、大型应用系统等内部信息进行数据采集,所有的过滤策略、周期设定、周期更新、格式处理、编码转换等操作都在此层来进行实现。特别数据采集模块能够采集境外屏蔽网站信息。智能数据操作层:负责所有的信息处理,采用智能处理技术,对采集到的信息进行自动分类、规整、聚类
5、、分析、标引等操作,供应用层的业务功能模块所调用。应用层:主要实现业务功能,是用户界面部分。通过调用核心处理层的各个功能模块,来实现自动监控、主动监测、趋势分析、自动报警提示等功能。核心处理层,是整个系统建设的关键。内容智能处理平台提供的智能信息分析技术,不仅支持关键词技术,也支持自然语言的概念匹配技术,为上层的业务应用功能提供强有力的技术支持。信息智能采集分析系统采用多层结构,实现客户机只存放表示层软件,应用逻辑包括事务处理、监控、信息排队、 Web 服务等采用专门的 Web Service,后台是数据库。在多层分布式体系中,系统资源被统一管理和使用,用户可以通过统一门户透明地使用整个网络资
6、源,管理简单、易维护、易升级。各功能层涉及技术需求说明- 智能检索:支持海量的信息检索,千万级用户访问。具有自然语言检索,自动抽取上下文摘要 / 内容摘要,检索结果自动分组和自动生成相关内容。- 自动分类:使用领先的智能分类器对信息自动分类,分类器的灵活性可以精确地根据非结构化文本中的概念进行分类。它保证根据内容对所有的数据进行最准确的分类。支持自定义的多级可扩展分类体系。- 聚类分析:聚类、趋势分析自动地依其掌握的专家知识体系,对大量的杂乱信息内容进行纵向分析、横向比对。纵向分析,提取概念,形成形象直观的聚类分析图;横向比对,发现趋势,形成趋势走向图。- 自动关联:关联服务是平台提供的最核心
7、服务之一,也是最基本的内容服务。所有被平台管理的资源,无论是数据库资料,还是网页数据,或者内部办公文档,都能够彼此产生动态的关联,无需手工的链接维护。- 自动排重:利用信息文档的内在特征进行智能分析,判断信息重复性,降低信息冗余度。- 内容分布分析:独有的概念模式匹配技术和计算模型,可以对一段内容、整篇文章、概念组、信息分类等条件进行分析、抽取,并在多个信息源中进行分析,形成数据、分析图形及对应的文档。- 个性化监管:平台提供动态的个性化跟踪服务,除了用户自己维护的档案之外,系统在后台自动监控用户的行为与监控的网页,分析监管人员的工作内容,平台根据监管内容实现动态的智能信息推送服务。二、并行数
8、据仓库(PDW)一体机体系结构概述该一体机是一种多机架系统, 包括一个执行控制功能的控制机架和一个或多个存储用户数据并处理并行查询的数据机架。您可以使用从 1/4 数据机柜起,根据工作负荷或数据量的要求,可以将其升级到一个完整的机柜,最多可升级到6个机柜。PDW体系结构的各组件如下图所示:PDW内部的软件体系结构如下图所示:PDW通过虚拟化的技术, 将 PDW 的各个功能组件分别部署在不同服务器的虚拟机中(1) 管理服务器管理服务器上承载着整个 PDW 集群管理的虚拟机节点, 包括控制节点( CTL),管理节点( MAD01),虚拟机管理( VMM ), PDW 域控制器( FABAD)控制节
9、点( CTL):客户端通过 “控制 ”节点访问 PDW 平台,该节点将整个基础结构抽象为一个单独的数据库并提供了单独的管理点。PDW 支持基于 ADO.Net、OLEDB和 ODBC的连接。控制节点为一体机提供了控制、管理和用户界面功能。它充当了用户与计算节点之间的界面。一种称为 “Admin Console的”基于浏览器的实用工具为该一体机提供了全面的监控。MPP 引擎在控制节点中运行,它会分析传入的请求。它利用数据智能来创建一体机范围内的并行查询计划并协调一体机内的查询执行情况。一体机范围内的元数据和数据库配置数据也存储在控制节点内。DMS( Data Movement Service,数
10、据移动服务)作为一种服务在控制节点中运行,它负责一体机各节点之间的数据传输。它会处理需要在节点之间传输数据的查询操作,它的主要功能是优化数据传输速度,从而能够提高性能。控制节点作为 SQL Server的一个实例运行,它可以管理一体机的元数据。管理节点( MAD01):管理节点负责管理一体机中的硬件和软件。它提供了安全管理、运行情况和性能监控功能。 它还可以执行维护活动, 如利用 WindowsSoftware Update Service(WSUS)接收软件更新程序并将软件更新程序部署到一体机的所有节点上。它存储着镜像文件,可在某个节点需要重新建立镜像时使用;它还装有 PDW 配置管理器,可
11、进行配置管理。虚拟机管理( VMM ):PDW 所有管理以及负载活动均在虚拟机当中进行,通过虚拟机管理节点对整个集群内不同角色的虚机进行集中管理。PDW 域控制器( FABAD):PDW 集群内的域控制器。(2) 计算服务器计算节点:计算节点服务器是该解决方案的存储功能和可伸缩性的一个基本组成部分。每个计算节点都作为 SQL Server的一个实例运行,如其名称所示,大部分计算和查询操作都在此节点内执行。 计算节点中的数据机架装载着存储用户数据库并执行并行查询操作的硬件。 每个用户数据库都分布在多个 SQL Server数据库实例之间。 您可以使用多个数据机架, 并通过添加数据机架来提高存储量
12、和性能(如上文所述)。它以无共享体系结构为基础,不与其它计算节点共享存储器、 CPU或内存。每个机架都有一台备用服务器,它配置为被动式 MSCS(微软群集服务)群集服务器。 如果某个计算节点服务器无法使用, 其存储阵列将会转移到备用服务器。计算服务器通过 SAS直连 JBOD磁盘组,采用 Windows Storage Spaces技术来处理磁盘的镜像和热备。每个计算服务器中部署一个计算节点的Hyper-v 的虚拟机。(3)高可用热备服务器根据应用要求在每个PDW机柜中提供 1 个或以上热备节点,提供高可用(HA)服务。当机架中的任意一个物理服务器发生故障时,该服务器在很短的时间内自动接管故障
13、服务器上的服务。 PDW 中的故障转移通过Hyper-V 技术实现,同时通过 Windows Storage Spaces技术来处理磁盘的镜像和热备(4) 其他服务器节点(可选)数据装载区: 装载区可支持持续的数据仓库加载。通过 DWLoader 加载平面文件数据。也可以安装 SQL Server 来创建暂存数据库,以便将数据加载到 PDW 中。第三方软件和工具( ETL或其它)可下载到装载区并在此安装。备份节点: 它是 PDW 的一个可选组件。其存储容量相当大,除了备份功能之外,它还可以用作暂存区,作为对登陆区的补充。确切地说,它可以在大量历史数据的初始加载过程中使用。备份文件可以从此处复制
14、到非一体机存档位置。(5) 服务器间的网络连接依据网络的流量特性, PDW 服务器集群内节点间采用了两种不同的连接方式,以提高系统的性能和稳定性:支持万兆的以太网络:提供PDW 集群内服务器的管理、控制以及对外的连接访问支持高达 56GB/s 的 InfiniBand 网络:提供控制服务器及计算服务器间高速的数据访问连接(6) 集中地管理PDW一体机可通过其附带的基于网站的管理控制台进行管理。通过此工具,数据库管理员可以查看目前正在运行的查询(在单独节点的分布/ 分区级别也提供了统计数据),监控正在进行的加载,查看历史查询并进行其它相关操作。管理节点还带有群集和自动存储管理器,可对PDW 进行
15、高级管理。这样,存储管理操作就可以自动进行, 让管理员能够通过基于网站的高级管理控制台(包括警报)和 HPC 工具(已经过预配置,可监控整个解决方案)对存储情况进行全方位的监控。另外,通过合并的SQL Server Dynamic Management Views (DMVs),数据库管理员可以使用标准的SQL查询从整体上监控PDW 系统的状态,这对于批处理流程的自动化是最理想的。存储管理不会带来额外的费用。图: Admin Console示例与其它所有微软产品一样, PDW 也可以通过系统中心操作管理器( System Center Operations Manager )进 行监 控和 操
16、作 。 我 们 提供 了一 个管 理包( Management Pack),它具有以下功能:发现 PDW 一体机。对 SQL Server 一体机的基本管理包进行快照处理,以便在所有一体机之间提供一致的发现模型。监控 PDW 一体机的硬件和软件组件。能够跨越硬件和软件组件汇总整体的运行状况信息。能够检测和监控属于不同 PDW 群集的节点(多机架支持) 。提供了一体机的每个运行状态的详细信息, 能够更迅速地解决问题。作为配置文件运行,安全地连接到多个 PDW 一体机,以便进行发现和监控操作。自定义视图直观地表示了 PDW 一体机的层次结构(包括硬件和软件组件)。视图一共有三种状态,包括:一体机视
17、图 提供了整个一体机的运行状况及其各个节点的高级信息。一体机节点 表示每个节点的运行状况及角色的视图。警报视图 IT 操作人员可以使用该视图来查看警报并采取适当的措施。自定义的电子邮件模板提供了关于警报的详细信息。三、流数据处理( CEP)利用 Microsoft StreamInsight? 进行流数据的处理, StreamInsight 是一个功能强大的平台,可用于开发和部署复杂事件处理(CEP) 应用程序。它具有高吞吐流处理体系结构和基于Microsoft .NET Framework 的开发平台,可帮助迅速实现稳定而高效的事件处理应用程序。事件流源通常包括来自生产应用程序、财贸应用程序
18、、Web 分析以及运营分析的数据。通过使用StreamInsight,开发出的CEP应用程序可降低提取、 分析和整理数据的成本, 还可以即时监控和管理数据,挖掘数据中的条件、机遇和缺陷,进而从那些原始数据中获得直接业务价值。利用 StreamInsight 开发 CEP 应用程序,可以为企业实现以下战术和战略目标:监控多来源数据中有意义的模式、趋势、异常和机遇。以增量方式分析和关联尚在传输的数据, 无需先存储数据, 因而大大降低了滞后时间。 将来自多个源的不相关事件无缝聚合,执行一段时间内的高复杂度分析。通过对事件执行低滞后分析, 以及触发对业务关键绩效指标 (KPI) 所定义的响应操作来管理
19、业务。通过将 KPI 定义纳入 CEP 应用程序的逻辑中来快速响应机遇或威胁的各个方面,从而提高运营效率以及快速响应商机的能力。挖掘事件以寻找新的业务KPI。通过挖掘历史数据, 持续精细化和改进KPI 定义,移向预测性业务模型。Microsoft StreamInsight 的运行时组件是StreamInsight 服务器。它包括事件源、一组使用查询检查事件流的固定进程,以及处理结果的事件接收器。StreamInsight 框架允许开发人员创建到事件生成器(如 Web 服务器、设备或传感器、股票行情显示器或新闻源)和事件使用者(如寻呼机、监视设备、KPI 仪表板、交易所或数据库) 的接口。 传
20、入事件通过查询连续流入StreamInsight 服务器,后者根据每个查询中定义的逻辑处理和转换数据。输出中的查询结果可用于触发特定操作。下图是StreamInsight 体系结构 :Figure 流数据处理体系结构StreamInsight 具有下列主要优点:( 1)高度优化的性能和数据吞吐量StreamInsight 实现了轻量级流式体系结构, 可支持对高速数据高度并行执行连续查询。使用内存中缓存和增量结果计算, 可带来高数据吞吐、 低滞后时间的卓越性能。因为在关键处理路径中无需进行数据加载或存储操作, 所以可实现低滞后时间。 借助 StreamInsight,所有处理都由传入事件自动触发
21、。 特别地,应用程序无须为事件轮询付出任何开销。 此平台提供了无序事件处理功能。此外,可以访问静态引用或历史数据,这些内容包括在低滞后时间分析中。( 2) .NET 开发环境开发人员可以使用Microsoft 的 .NET 语言(如Visual C#)来编写CEP 应用程序,从而利用高级语言平台LINQ(Language Integrated Query,语言集成查询)作为嵌入式查询语言。如果庞大的开发人员社区都已经熟悉了这些技术,则此功能将降低从应用程序开发到生产整个过程中所需的开发成本和时间。在当前版本中, StreamInsight 只支持C# 作为宿主语言。使用 LINQ,熟悉 SQL
22、 的开发人员可以很快以声明方式编写查询,将来自多个流的数据处理并关联到有意义的结果中。StreamInsight服务器中的优化器和计划程序相继确保优化查询性能。( 3)灵活的开发功能StreamInsight支持三种部署方案:作为托管(嵌入式) DLL 完全集成到应用程序中。作为一台拥有多个应用程序和共享该服务器的用户的独立服务器。 在其独立配置中, StreamInsight 服务器在一个包装 (如可执行文件) 中运行,也可以将服务器打包为一项 Windows 服务。托管或独立StreamInsight 服务器可作为服务器场的一部分。( 4)可管理性StreamInsight 服务器中内置了
23、监控和可管理性功能,支持CEP 应用程序低总拥有成本(TCO)。StreamInsight 服务器中提供的管理界面和诊断视图允许管理员监控和管理CEP 应用程序。可管理性框架也允许ISV 和系统集成商在生产以及其他扩展安装中远程监控和支持StreamInsight 部署的系统。StreamInsight 提供独立的事件流调试程序,可用来分析、诊断和排查StreamInsight 中使用的查询。四、微软大数据平台的主要优势用于数据仓库、抽取、转换和加载功能( ETL)和商业智能( BI)的完整的端到端解决方案,其设计旨在以合理的总拥有成本( TCO)向市场提供领先的门户、商业智能和数据仓库平台。
24、据 Gartner、Forester、 Information Week 和 IDC 的资料所述,微软是 BI、数据仓库领域的领先者。该解决方案提供了一个为未来而设计的全面的、 可伸缩的数据仓库和商业智能解决方案,启用了大规模可伸缩性和存储扩展功能, 并支持具有复杂工作负荷特性的大量并发用户。大规模并行处理、 无共享体系结构, 提供了更快的查询性能和高效的数据仓库。强大的挖掘、 预测分析、假设分析和预测功能, 使用了世界第一的联机分析处理( OLAP)引擎 SQL Server Analysis Services。线性的可伸缩模型,可增加数据量和分析处理需求。技术成熟、基于成本角度而设计并经过
25、优化,以实现最佳的并行执行效果和性能。高性能、高速ETL、扩展的集成功能,具有内置的PDW DWLoader 和 SQLIntegration Services。SQL Integration Services提供了创世界记录的性能, 可在 30 分钟的时间内加载 1TB的数据。开放、灵活的体系结构,具有模块化集成、可交互操作的平台,可支持分布式中心辐射型体系结构。 每个机架具有多个计算节点, 拥有其自己的存储器、 中央处理器( CPU)和随机存取内存( RAM)。现有的 BI 和 ETL 工具可以针对 PDW 数据仓库进行有效的利用。支持混合工作负荷。复杂、中等难度和简单的查询、 ETL、备份等操作全部并发执行并并行处理。PDW引擎和端到端解决方案具有低廉的总拥有成本。内置的管理员控制台(Admin Console)。可以使用 Admin Console对 SQL Server PDW一体机进行监控。高可用性。 PD
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 老师免责协议书(2篇)
- 南京工业大学浦江学院《新能源汽车》2022-2023学年第一学期期末试卷
- 南京工业大学浦江学院《设计思维与方法》2022-2023学年第一学期期末试卷
- 分式通分说课稿
- 启东市安置房城东村高层住宅小区施工组织总设计方案
- 【初中化学】课题2 原子的结构第二课时-2024-2025学年九年级化学人教版上册
- 《雨点儿》说课稿
- 南京工业大学浦江学院《发动机原理》2022-2023学年第一学期期末试卷
- 私人迁坟协议书(2篇)
- 南京工业大学《信息检索6:艺术法学马克思外语体育》2022-2023学年期末试卷
- 城乡生活污水处理环境影响与风险评估
- 厂房租赁合同范本版(18篇)
- DB22T 5165-2024 建设工程消防验收现场评定标准
- 浙江省嵊州市三界片2024-2025学年七年级上学期期中科学测试卷
- 能源中国学习通超星期末考试答案章节答案2024年
- 2024广东省云浮市郁南县财政局工程造价类专业人员招聘4人高频难、易错点500题模拟试题附带答案详解
- 军队文职考试《公共科目》试题及答案指导(2024年)
- 山东省青岛市2023-2024学年七年级上学期期末考试数学试题(含答案)
- 2024下半年江苏苏州城市学院招聘管理岗位工作人员27人历年高频难、易错点500题模拟试题附带答案详解
- 小学心理健康课教案分享-《身体“红绿灯”》
- 2022年信息科技课程新课标义务教育信息科技课程标准2022版解读课件
评论
0/150
提交评论