大数据分析市场行业分布_第1页
大数据分析市场行业分布_第2页
大数据分析市场行业分布_第3页
大数据分析市场行业分布_第4页
大数据分析市场行业分布_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大数据机大数据机大数据分析市场行业分布 2012年大数据分析需求行业分布 政府、互联网、电信、金融的大数据市场规模较大,四个行业将占据一半市场份额。 结论:各个行业都存在大数据应用的需求,潜在市场空间非常可观。云展大数据机大数据采集大数据存储大数据处理大数据可视化收集网站日志,交易数据,音频视频数据,即时信息可扩展数据采集框架数据导入元数据管理分布式大数据存储确立分析目标编写分析程序大数据并行处理引擎为分析目标生成报表,趋势图等图表生成工具大数据分析应用大数据分析应用大数据分析平台大数据分析平台云展大数据机软件架构数据收集框架基于分布式文件系统的数据存储元数据管理E3大数据并行处理框架SQL接

2、口E3编程接口MapReduce接口可视化工具大数据知识库文本分析工具结构化数据分析工具云展大数据机硬件架构 标准机架式设计 每个机架可容纳40台节点机 节点机通过千兆以太网连接 节点机采用标准PC服务器 可扩展到20个机架 原型机:awan(2个机架,76台节点机)云展关键技术E3引擎E3将数据处理过程描述为一个线性工作流,工作流中每一个节点称为一个阶段,每阶段包含若干处理单元,每个处理单元对数据进行部分处理。E3按照工作流的顺序,并行地调度处理单元在计算节点上运行,自动在处理单元之间传递中间运算结果,最终完成整个数据处理过程。pu1pu1pu1pu1pu2pu2pu3pu4pu4pu5pu

3、5pu5云数据 存储服务云 数据存储服务PU processing unit (处理单元)E3与阿帕奇Hadoop的性能比较 Grep任务:每个节点535M Select任务:每个节点1GGrep任务Select任务混合式数据分析工具 同时支持非结构化的文本分析和结构化的数据库分析 建立在统一的E3引擎之上,能够进行交互和联合分析 支持对海量数据的快速分析,发现其中隐藏的知识、行为模式等 提供描述语言,支持用户进行自定义的数据分析文本分析工具结构化数据分析工具非机构化分析工具分布式存储和处理模型 无需定义表结构 数据直接存储与分布式文件系统中 自动错误处理和恢复基本的数据访问接口 put/ge

4、t: 随机的文档数据读取 scan: 批量数据扫描 tokenize: 将文档组织成单词组以提供给上层分析处理分析数据接口 Extract operator : 提供基于正则表达式和字典的匹配操作 Select operator : 提供基于用户选择条件的过滤操作 Join operator : 将来自多个数据源的文档/文字流进行合并 Consolidate operator : 去重操作提供类似于SQL的文本处理分析语言: EPQL非结构化处理流程 每一个EPQL将对特定集合的文档进行处理 每个文档将通过4个操作的处理,然后中间结果传给连接操作和去重操作 结果将是符合用户要求的文档或统计内容

5、,比如: 查找所有包含关键词:Cloud Computing,在2012年产生的网页 统计近一个月内,出现包含钓鱼岛的文档与包含日本车销量内容的文档的关联度文本分析示例:用户反馈信息分析 在电子商务网站,如京东等,用户购买结束后,会对产品购买过程及产品本身进行评价,通过分析用户的反馈信息,可以发现其中的问题关键问题:发货速度慢,关键问题:发货速度慢,需要更换物流公司需要更换物流公司结构化数据分析 结构化数据分析通过维护并定期更新data cube的方式来提供高效的分析查询结果 根据时间戳来实现同时支持实时事务处理和分析查询数据分片分布式索引技术在结构化分析工具中,系统建立多维的分布式索引以支持

6、高效的并行查找分布式索引技术建立分布式二级索引支持并发地在多节点上同时查询可以和本地数据库索引连接例如:分布式B树索引结构,可视化工具 将分析结果以报表的形式展现给用户 支持线图、饼图、柱装图、趋势图等常用的图表格式 标签云以及数据关联挖掘云展大数据机与其他大数据分析平台的比较云展大数据机Greenplum HDIBM BigInsights是否一体机是是否硬件架构标准标准N.A.大数据收集框架式设计手工手工元数据管理支持不支持不支持大数据存储HDFSHDFSHDFS大数据处理引擎E3HadoopHadoop大数据处理接口E3,MapReduce,SQLMapReduce,HiveQLMapR

7、educe,Jaql大数据可视化支持不支持不支持如何处理分析结果Elephant DB,支持检索、外部应用访问接口需要倒入Greenplum Database数据仓库文件存储,无外部应用访问接口分析案例:95598客服服务 主要功能包括客户档案查询、电量电费查询、业务办理进度查询,以及业务受理、故障报修、咨询受理、投诉举报、消息订阅 主要业务流程客户电话记录语音记录用户电话客户电话记录 由客服人员手工录入,包括: 电话起止时间 客户身份信息 原因(归类为:电费查询、投诉、保修等几大类) 简单内容概述(不完整,客户人员匆匆记录) 当前的处理方式简单的统计信息: 平均电话时常 客户分布信息 每种电

8、话的统计百分比 缺乏深度的分析 用户因为什么而投诉,这种投诉是否是普遍存在的 每个用户是否通过拨打955598电话完成了他的请求 语音记录 用户和客服之间的对话会被完整记录为语音文件 语音文件包含了丰富的信息: 用户打电话的主要原因 客服的服务态度 客服的服务能力 用户的满意度 因为缺少相关工具,当前采用人员采样收听的策略,效率低,覆盖率低针对客服信息的大数据分析用户数据云展数据仓库导入混合数据分析改进业务流程产生新的数据关联翻译关键技术非结构化语音分析客服信息用户信息语音语调分析,看是否按照规定的态度服务记录了用户的投诉内容和对服务的满意度内容分割:按照音色音域分析结果用户满意度 用户拨打客

9、服电话都是有一定的目的,目的达到与否则表示了客服的成功率 通过对用户的语义、情绪分析,符合下列模型的,分析认为是正确满足用户需求的不满愤怒疑问称赞感谢释疑平静分析结果客服质量 客服质量定义为:单位时间内满足的用户数量 对某一特定客服人员:总服务时间满意的用户数服务效率 总用户数满意的用户数服务质量 服务质量统计服务质量统计分析结果热点分析 通过整理分析用户通话内容得到用户投诉的主要目的 使用数据挖掘和数据可视化来统计关键问题 支持海量数据的快速处理 分析客户通话内容,按照词频构造标签云:关键技术分结构化数据分析 系统支持按照关键词(一个或多个)将录音电话切片分类 比如,要查找关于“电费”相关的

10、记录中主要的投诉内容 通过索引和分布式处理机制,可以快速的生成新的统计数据(类似于在数据仓库中做切片操作): 关键技术结构化/分结构化混合分析 客服内容由两部分:关于电话基本信息的关系数据,具体的语音信息 关联分析将两者结合起来进行深度分析: 电话耗时10分钟以下和10分钟以上的用户满意度统计 分布在不同区域的用户满意度统计 收入在不同范围的用户关心的主要问题 客服填写的简要信息是否和用户录音记录一致 客户电话主要集中来电时间分布,以及和满意度的关联度 客服的效率和时间的关系其他案例 网易私有云平台网易私有云平台 推进企业内数据共享、全局信息挖掘与商业智能虚拟化虚拟机、网络、云硬盘数据管理DDB、对象存储、文件中心、关系数据存储、全文检索、并行分析、Timeline、NewSQL、缓存服务应用架构负载均

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论