微软处理海量非结构化数据的技术和解决方案讲解_第1页
微软处理海量非结构化数据的技术和解决方案讲解_第2页
微软处理海量非结构化数据的技术和解决方案讲解_第3页
微软处理海量非结构化数据的技术和解决方案讲解_第4页
微软处理海量非结构化数据的技术和解决方案讲解_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 l 点击此处修改二级标题 l将幻灯片标题设置为 “Title Case” l标题字号为 40分或类似尺寸,并尽可能不换行 l将二级标题设置为 “sentence case” l二级标题的字体颜色已经在PPT模板中定义 l SQL Server 能力及案例 l 文档存储技术发展趋势 l 案例讨论 提供全方位可扩展 的数据平台以满 足. 关系型数据管理使 用的语法来管理. 支持统一、标准的 数据模型,例如. .通过资源投入到. 爆炸性产生的电子 数码数据的惊人数据 量 加速的全球化进程 在企业周边应用中产 生的新的数据类型 结构型和非结构型数 据集成日渐紧密 新一代应用需要使用 不同数据种类 抽

2、象化的数据形态定 义 直接支持特种数据种 类 联邦(和祥扩展并发) 的数据管理 统一标准的存储平台支持所有数据类型、各式 新数据形态成为标准实体 单一数据平台的应用,需要协调的数据存取 简约、可扩展的管理模式 支持BLOB的抽象编程接口 提供更多的服务围绕非结构化数据,例如:搜索,分析 提供集成多种空间数据源的能力 提供结构化和非结构化数据的关联、集成 属性的提取/推广 灵活的架构 适用于非关系型数据的关系型操作 实体汇总 实体数据 访问 用户自定义数据 种类 关系型表 名单 BLOBs 文字 Windows 文件系统 SQL Server 数据库 其他数据源 通过实体架构实现对实体的直接搜索

3、查询 针对多数据源的联合并发搜索查询 与 Microsoft Office SharePoint Server 和 FAST 的集成 其他 数据源 数据源1 数据源2 数据源3 FAST 企业 查询门户 应用特定 查询 SQL Server SharePoint SQL Server 存储 可适用于不同网域的数据流服务,例如:金融、制造,监测数据 基于历史数据实现决策支持的和业务分析 与现有SQL Server 部件集成,充分利用现有能力,例如:报表、数据 分析 报警,报表 报表及 数据分析 数据流 服务引擎 数据流服务应用接口 金融数据, 例如:股票 交易记录 点将流量数 据,例如; Web

4、 日志 历史数据流 存储成本最低(每GB) 文件流(streaming)性能较高 备份、恢复单元较小 存储成本较低(大存储量场景) 扩展性较佳 统一的管理模式 数据、事务的一致性 较为复杂的应用架构导致开发、 实施的复杂度提升 与结构型数据的集成 较为复杂的应用架构导致开发、 实施的复杂度提升 分隔的数据管理 尽陷于大型企业使用场景 大数据量文件流性能限制 存储成本较高 Windows File Servers NetApp NetFiler EMC Centera Fujitsu Nearline SQL Server VARBINARY(MAX) 专用的BLOB存储 DB BLOB存储数据

5、库 DB 传统的三种存储模式 使用文件系统 DB 专用的BLOB存储 DB BLOB存储数据库 DB RBS - Remote Blob Storage FILESTREAM BLOB Storage SQL BLOB 集成的数据库+文件系统 DB l 非结构数据直接储存于文件系统(使用 NTFS文件系统) l VARBINARY(MAX) 数据类型上注明存储 属性即可开启文件流存储功能 l 丰富的双重编程模式 T-SQL语句(数据库语法)编程 Win32文件系统I/O编程接口支持数 据库事务属性 l BLOBs 大小上限= 文件系统大小 l 与SQL Server集成数据库管理,例如: 备份

6、、恢复. l 与SQL Server数据库安全管理集成 集成的数据库+文件系统 DB l 远程BLOB存储 l 标准的存储接口可使用不同存储体系 l 后端存储无技术限制:文件系统、数据库、 文件流、专用文档存储等等 l 后端存储改变不影响应用(不需要改变) l 宽松(链路级)一致性保证 l SQL Server管理链路级一致性和垃圾收集, 例如:删除、更改等等 l 市场趋势 l RBS优势 l 降低BLOB存储成本 l 降低数据库工作负载,提高系统扩展性 l 标准应用端借口可使用不同存储 l 使用经济的普通服务器完成复杂的存储和工 作流要求 专用的BLOB存储 DB RBS 文件系统SQL B

7、LOBsRBS技术 FILESTREAM 文件流 文档流性能 Depends on external store Depends on external store 链路级一致性 数据级一致性 集成管理 外置 BLOB 存储n/a l SQL Server Blob访问方式 lFilestream存储 lT-SQL访问 lWin32 API访问 lVarbinary存储 l 访问性能与Blob数据块大小有关 l系统设计时需要对存储数据的平均大小及使用模式进 行评估 l Filestream Select file from documents where docId=1 l Varbinary

8、(max) Select file from documents where docId=1 DllImport(sqlncli10.dll, SetLastError = true, CharSet = CharSet.Unicode) static extern SafeFileHandle OpenSqlFilestream( string FilestreamPath, UInt32 DesiredAccess, UInt32 OpenOptions, byte FilestreamTransactionContext, UInt32 FilestreamTransactionCont

9、extLength, Int64 AllocationSize); SqlTransaction transaction = sqlConnection.BeginTransactio(mainTranaction); sqlCommand.Transaction = transactio; sqlCommand.CommandText =SELECT GET_FILESTREAM_TRANSACTION_CONTEXT(); Object obj = sqlCommand.ExecuteScalar(); byte txContext = (byte)obj; SafeFileHandle

10、handle = OpenSqlFilestream(filePath,DESIRED_ACCESS_READWRITE, SQL_FILESTREAM_OPEN_NO_FLAGS,txContext,(UInt32)txContext.L ength,0); byte buffer = new byte512; FileStream fileStream = new FileStream(handle,FileAccess.ReadWrite,buffer.Length, false); 0 100 200 300 400 500 600 700 800 900 240 KB480 KB1

11、MB2 MB4 MB8 MB Throughput (Mbps) Filestream Win32 (Filesystem) Access Filestream T-SQL Varbinary Filesystem Win32 Access Gain (%) -200 -100 0 100 200 300 400 500 600 240 KB480 KB1 MB2 MB4 MB8 MB Throughput (Mbps) Filestream Win32 (Filesystem) Access Filestream T- SQL Varbinary -100 0 100 200 300 400

12、 500 600 240 KB480 KB1 MB2 MB4 MB8 MB Throughput (Mbps) Filestream Win32 (Filesystem) Access Filestream T-SQL Varbinary Filesystem Win32 Access Gain (%) l 尽可能避免对多个小文件的附加操作,每个附加操作都将 创建新的Filestream文件。如果必须建议使用 varbinary(max) l 在高负载的多线程系统中,可以考虑通过 OpenSqlFilestream或SqlFilestream API设置AllocationSize,减 少碎片

13、 l 如果文件很大,避免使用T-SQL进行更新或附加,这样会 对tempdb有很大开销 l 当读取FILESTREAM数据时考虑如下因素 l如果仅需要读取初始的部分数据,可以使用substring函 数 l如果读取整个文件,考虑使用Win32 API l当读取整个文件时,指定FILE_SEQUENTIAL_ONLY标志 l程序中的缓存尽量设置为60KB的整数倍 l 使用文件组及分区进行负载均衡 l NTFS优化 lfsutil behavior set disable8dot3 1 lFsutil behavior set disablelastaccess 1 lFormat F:/FS:N

14、TFS /A:64K l RAID级别 l 磁盘接口 客户应用程序 SQL FS libIBM libCentera lib SQL RBS API SQL ServerIBMCentera 供应商接口 l 客户应用程序可以支持多种不同的Blob存储机制或设备 l 供应商将提供相应的接口类库 RBS 服务 创建 读取 垃圾收集 删除 Net App lib NetApp 文档或多媒体数 据 ClaimIDClaimDatePhotoRef 43906/5/2007 写入 BLOB数据(图片) 返回BlobID 将BlobID 写入PhotoRef 字 段 机器边界 写Blob 地址 Refer

15、ence 写Blob 写Blob 写Blob 返回地址Reference 取得Collection 信 息 清理 App Machine 应用服务机 SQL Server BLOB 存储 终端用户 例如:浏览器 应用 触发、 存储过程 服务 存储接口 应用端 接口 存储接口 Database Machine 数据库服务机 用户请求 1 用户请求 4 请求BLOB (标识)9 应用读取BLOB 8 读取BLOB 7 读取BLOB App Machine 应用服务机 SQL Server BLOB 存储 终端用户 例如:浏览器 应用 触发、 存储过程 应用端 接口 存储接口 Database Ma

16、chine 数据库服务机 10 用户读取 BLOB 2 请求BLOB 标识 应用读取 BLOB标识 5 请求BLOB (标识) 6 请求BLOB(标识) l 远程BLOB存储技术与FILESTREM文件流技术的集成 l 由FILESTREM文件流存储节点组成的存储池可以迅速扩展(使用 经济实惠的PC服务器) l RBS后端的FILESTREM文件流接口提供多线程、多通道的负载均 衡逻辑进行文档的读写 l 负载分配可以用户可以根据需要灵活调整 l 存储节点可转变为“只读”属性(存储历史数据,不接受新 档案) l 可以迅速添加节点并重新设置负载均衡模式 l 智能备份恢复功能可以避免历史性“只读”数

17、据的重复备份, 显著降低备份需要的时间和空间 l 客户生产环境显示单线程文档写入可达到48M+/秒性能(限于 存储设备性能) l 按用户需要扩展存储池 l 更合理的资源投入 l 避免大规模初期投入造成空置设备、存储空间的浪费 l 后续投入经济上可得益于硬件价格的快速跌落 l 后续投入可取的更现代的技术,自然升级系统,且不需要更改应用 l 服务器性能提升快,降价快 l 存储成本降低快,读写性能提高快 l 分期扩展自然形成不同层次的存储池,帮助信息生命周期的管理 l 老旧数据在老一代存储池,新数据、常用数据在新一代系统上, 有更好性能 l 可嵌入各种服务、应用对文档数据进行整个生命周期的管理。例

18、如:审计、备份、归档、删除等等 l 可集成各种不同存储媒介进一步支持各种服务,例如NAS、磁带或 其他现有或未来存储技术 l 可嵌入智能缓冲区,将当前文档、历史文档、归档数据、备份集 合在一起 l FILESTREM文件流接口提供负载均衡、多线程、多通道文档读写 l RBS+FILESTREM文件流存储池可根据用户需要使用经济实惠的 PC服务机扩展 RBS+文件流存储池 定制应用Customer Application SQL RBS 应用端接口Client API SQL RBS 后端存储接口 Provider API RBS Services Create Fetch GC Delete

19、文件流存储节点 Filestream 文件流 文件流存储节点 Filestream 文件流 Filestream 文件流存储接口 RBS+文件流存储池 企业核心BLOB存储系统 SQL RBS 后端存储接口 Provider API 文件流存储节点 Filestream 文件流 文件流存储节点 Filestream 文件流 Filestream 文件流存储接口 横向 扩展 文件流存储节点 Filestream 文件流 文件流存储节点 Filestream 文件流 SQL RBS 应用端接口 Client API 客户订制应用 SQL RBS 应用端接口 Client API 客户订制应用 SQ

20、L RBS 应用端接口 Client API 客户订制应用 SQL RBS 应用端接口 Client API 客户订制应用 RBS接口 l 核心档案存储可通过服务层安全的提供各种应用借口 l 档案导入可嵌入智能保留期限识别模块 l 防火墙提供基础保护 l 如需要应用层可通过防火墙PORT FORWARDING功能延伸到外网 企业核心档案存储 使用RBS+文件流可扩展 解决方案 调阅 其他 收集查询 管理 导入 安全 服务接口 防火墙 l 市场性价比较好的PC服务机标准: l4芯4核16G l 存储标准 l光纤技术SAN或其他存储设备 l 估算方式 l至少2台 l每台承担10-20T(当前数据使

21、用) l每台承担20-40T(历史数据使用) l设计应可达到单通道读写每秒40M以上(实际情况根据 存储设备吞吐量) l 请用此版面展示软件代码 l aaa l 请用展示字体为Courier New这一单一空间字体 l 字体,字号和颜色模式已经在PPT模板中定义 l 请使用下面展示的颜色模式 l 更多指示请参见下页 l 超文本衔接颜色: Sample Fill Sample Fill Sample Fill Sample Fill Sample Fill 专栏 1专栏 2专栏 3专栏 4 4.3 2.5 3.5 4.5 2.4 4.4 1.8 2.8 22 3 5 0 1 2 3 4 5 6

22、类别 1类别 2类别 3类别 4 图 表 标 题 系列 1 系列 2 系列 3 59% 23% 10% 8% 图 表 标 题 第一季度 第二季度 第三季度 第四季度 2008 Microsoft Corporation. All rights reserved. Microsoft, Windows, Windows Vista and other product names are or may be registered trademarks and/or trademarks in the U.S. and/or other countries. The information here

23、in is for informational purposes only and represents the current view of Microsoft Corporation as of the date of this presentation. Because Microsoft must respond to changing market conditions, it should not be interpreted to be a commitment on the part of Microsoft, and Microsoft cannot guarantee the accuracy of any information provided after the date of this presentation. MICR

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论