理解大数据-实践大数据_第1页
理解大数据-实践大数据_第2页
理解大数据-实践大数据_第3页
理解大数据-实践大数据_第4页
理解大数据-实践大数据_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、理解大数据,实践大数据内容对大数据据的理解解拓尔思大大数据产产品布局局和应用用实践反对派认认为,我我们现在在处在一一个盲目目的大数数据崇拜拜时代大数据产产生的背背景数据的爆爆发式增增长和社社会化趋趋势,新新摩尔定定律大数据已已经成为为一种自自然资源源机器数据据日益重重要大数据不不被利用用就是成成本大数据产产生的背背景现有的商商业软件件难以处处理大数数据的规规模和复复杂性获取(capture)存贮(storage)搜索(search)分享(sharing)分析(analysis)可视化(visualization)奥巴马大大数据战战略2012年3月29日,白宫宫发布美美国政府府的大数数据计划划通

2、过提高高从大型型复杂的的数字数数据集中中提取知知识和观观点的能能力,承承诺帮助助加快在在科学与与工程中中的步伐伐,加强强国家安安全,并并改变教教学研究究大数据的的4V特性体量Volume多样性Variety价值密度度Value速度Velocity非结构化化数据的超大规规模和增增长总数据量量的8090%比结构化化数据增增长快10倍到50倍是传统数数据仓库库的10倍到50倍大数据的的异构和和多样性性很多不同同形式(文本、图像、视频、机器数数据)无模式或或者模式式不明显显不连贯的的语法或或句义大量的不不相关信信息对未来趋趋势与模模式的可可预测分分析深度复杂杂分析(机器学学习、人人工智能能Vs传统商务

3、务智能(咨询、报报告等)实时分析析而非批量量式分析析数据输入入、处理理与丢弃弃立竿见影影而非事事后见效效对大数据据的理解解大数据比比云计算算更为落落地大数据不不仅仅是是“大”软件是大大数据的的引擎大数据的的应用不不仅仅是是精准营营销管理大数数据“易易”,理理解大数数据“难难”1、大数据据比云计计算更为为落地商业模式式驱动应用需求求驱动云计算本本身也是是大数据据的一种种业务模模式2、大数据据不仅仅仅是“大大”多大?PB级比大更重重要的是是数据的的复杂性性,有时时甚至大大数据中中的小数数据如一一条微博博就具有有颠覆性性的价值值3、软件是是大数据据的引擎擎和数据中中心(Data Center)一样,

4、软软件是大大数据的的驱动力力,软件件改变世世界大数据生态态:软件件是引擎擎4、大数据据的应用用不仅仅仅是精准准营销通过用户户行为分分析实现现精准营营销是大大数据的的典型应应用,但但是大数数据在各各行各业业特别是是公共服服务领域域具有广广阔的应应用前景景消费行业业金融服务务食品安全全医疗卫生生军事交通环保保电子商务务气象5、管理大大数据“易”理理解大数数据“难难”虽然大数数据是一一个重大大问题,真正的的问题是是让大数数据更有有意义目前大数数据管理理多从架架构和并并行等方方面考虑虑,解决决高并发发数据存存取的性性能要求求及数据据存储的的横向扩扩展,但但对非结结构化数数据的内内容理解解仍缺乏乏实质性

5、性的突破破和进展展,这是是实现大大数据资资源化、知识化化、普适适化的核核心非结构化化海量信信息的智智能化处处理:自自然语言言理解、多媒体体内容理理解、机机器学习习等拓尔思大大数据产产品布局局TRS机器数据据挖掘引引擎TRSSMAS舆情云服服务TRS大数据管管理系统统V7.0TRS大数据管管理系统统发展历历程TRS全文数据据库TRS非结构化化数据库TRS大数据管理系统统TRS大数据管管理系统统V7.0TRS大数据管管理系统统V7.0分布式并并行计算算、多副副本机制制、没有有单点的的高可靠靠体系架架构,兼兼容Hadoop标准支持结构构化、半半结构化化、非结结构化数数据的管管理和搜搜索支持实时时及用

6、户户行为数数据的高高效管理理和分析析支持PB级的海量量数据管管理支持海量量用户的的高并发发访问(千万级级用户、万级并并发)充分释放放硬件的的潜力(多核、大内存存等)大规模部部署的自自动化和和运行状状态监控控创新的多多检索引引擎机制制,提供供开放的的二次开开发接口口数据备份份大数据管管理系统统数据存储储开发接口口基于Hadoop的数据分分析CKM文本挖掘掘与数据据挖掘关联规则则与序列列模式挖挖掘推荐引擎擎的离线线分析MapReduce数据库监监控机器数据据搜索引引擎用户行为为挖掘与与推荐引引擎基于时间间分段的的大数据据检索与与索引接接口搜索引擎擎日志采集集监控数据存储储层数据分析析层日志发送送节

7、点Angent1Angent2Angent3Angentn日志接收收集群Collector1Collector2Collector3CollectornMaster管理集群群Master1Master2Mastern日志采集集TRS机器数据据挖掘引引擎TRS机器数据据挖掘引引擎特点点支持主流流格式机机器数据据的实时时采集、解析、管理和和搜索。基于时间间分段和和负载均均衡的大大数据索索引与检检索机制制。基于Web的机器数数据搜索索与分析析界面。兼容Hadoop平台的日日志挖掘掘和用户户行为分分析。基于多种种推荐模模型的在在线推荐荐引擎大规模部部署的自自动化和和运行状状态监控控TRSSMAS功能框

8、架架图舆情管理理服务共享享信息挖掘信息来源源新闻论坛博客搜索引擎擎微博wiki自动排重、自动分分类、自自动摘要要、自动动分析舆情分类热点跟踪踪热点统计微博分析析人物分析微博运营营趋势分析析整合统计计关联图谱谱动态走势势兴趣图谱谱未知探索热点变化意见领袖传播图谱谱关系分类类个性展示示敏感预警警自由分布布数图导出图表切换多维检索探针追踪踪元搜索外网微博论坛SNS网媒官网提高销量用户满意度用户设计计趋势分析析竞争分析析质量缺陷陷设计缺陷陷使用缺陷陷KOL维护声誉管理理危机预警警事件评估估行为分析析产品公关营销SMAS用户感知知研发情绪感知知及时服务务口碑监测测媒介监测测S-CRM广义服务TRSSMA

9、S作用于企企业2.0TRS在大数据据领域的的应用实实践新华社多多媒体数数据库国家知识识产权局局专利检检索系统统某部信息息监控系系统TRSSMAS云服务(大数据据服务)国家质监监局国家药监监局北京市环环保局国家气象象局每日微博博热点分分析新华社多多媒体数数据库系系统是新华社社的核心心业务支支撑,典典型的非非结构化化数据管管理应用用场景,持续IT投资已经经超过6亿人民币币以新华社社遍布全全球的新新闻信息息及采集集网络为为依托,全面整整合新华华社的文文字、图图片、图图表、音音视频、报刊等等全部资资源和社社会上有有价值的的新闻信信息资源源,拥有有包括中中、英、法、俄俄、西、阿及中中文繁体体在内的的6个

10、文种,数据量量超PB最早采用用文件系系统,后后来改为为Oracle,效率很很低,再再改为Oracle+TRS,持续服服务至今今从大型机机改为PC服务器集集群1.5亿条原创新闻闻资讯26000小时权威原创创视频700万张图片片27000家注册用户户8000多种资源分类类PB级数据量多语种数数据新华社多媒体数数据库数据流转转图新华社多多媒体库库的技术术特点非结构化化数据和和结构化化数据统统一管理理TRS多语言检检索引擎擎全面采用用TRS文本挖掘掘技术良好的集集群扩展展能力索引服务务器读写写分离国家知识识产权局局专利检检索服务务系统1998年专利局局引进了了欧洲EPOQUE系统,基于大大型机的的专利

11、检检索系统统,每年年的系统统维护费费用就达达数千万万元2005年开始建建设自主主可控可可持续发发展的专专利检索索和服务务系统,采用大大量的PC服务器典型的非非结构化化/半结构化化数据应应用场景景目前公共共检索和和审查员员检索系系统全部部使用TRS检索引擎擎专利检索索系统的的需求特特点数据多样样性结构化、半结构构化和非非结构化化数据的的结合申请人、申请号号、名称称等著录录项很多多;权利要求求书、说说明书等等全文数数据规模模大各库数据据结构差差异大查询要求求高严格的查查全和查查准要求求基于领域域知识的的智能检检索结构化和和非结构构化信息息联合查查询相关专利利推荐专利检索索与服务系统统的数据据种类与

12、规规模6亿多条专利记录多渠道异异构资源整合合100%查全率1秒响应时间间700-1000并发724稳定可靠靠1万注册用户专利检索索引擎数据流转转图专利检索索与服务务系统-外观图像像检索专利图像像外观检检索局部检索索形状检索索纹理检索索不变性特特征检索索草图检索索数据分类类数据聚类类基于相关关反馈的的检索跨语言检检索600万幅专利利图片查询性能能从原来来的分钟钟级提高高到秒级级索引性能能从原来来的天级级提高到到现在的的小时级级某部网监监智能搜搜索和挖挖掘系统统系统特点点:巨大的数数据量多样性数数据数据极快快速增长长系统现状状已经部署署数千台台服务器器,满足足了业务务需求挑战性能和可可扩展性性整合

13、和调调度数据量远远超过互互联网,目前部部署TRS系统2000多套SMAS的用户国家质检总总局2012.1蒙牛致癌癌门2012.2苏泊尔质质量门2012.3辽源注水水肉2012.3315质量报告2012.4含氯可口口可乐2012.4蜜饯质量量问题2012.5菲律宾香香蕉质量量2012仅在2012年上半年年,拓尔思运营团团队就为为质检总总局在产产品质量量、食品品安全方方面提供供超过40余项服务,借借助数据中心的的大数据据与云服服务平台台,进行行全面的的整合、统计与与分析。国家质检检总局质检总局的的服务依依托云服服务平台台(SMAS),从媒媒体调性性、平台台分布、网民意意见、趋趋势发展展等多种种角度

14、进进行解析析,结合合系统的的自动分分析与分分析团队队的整合合,最终终以专题题报告的的方式,第一时时间呈现现,为质质检总局局在公共共服务的的决策提提供重要要参考。国家药监监局2012年4月15日央视曝曝光的“毒胶囊囊”事件件掀起药药品行业业的巨大大波澜,SMAS运营团队对该该事件进进行了长长时间的的跟踪与与分析,并用一一系列的的数据、图表和和报告捕捕获了网网络数据据里的真真相与民民意。国家药监监局关键人物物传播趋势势主流观点关键地区区SMAS分析团队队连续30天跟踪毒毒胶囊事事件,从从整体传传播趋势势、观点点、人物物、地区区等视角角,还原原了这起起颇具影影响力的的公共事事件。-毒胶囊事事件-北京

15、市环环保局PM2.5分析报道道量量排排行行高低两会代表表委员热热议PM2.5“京V”排放标准准首规定定PM限值珠三角成成首个公公布PM2.5城市群珠三角PM2.5严重超标标环保局回回应PM2.5数据质疑疑借助数据中心的的大数据据与云服服务平台台,从区域分布布的角度对对PM2.5的相关信信息进行行归类,进行全全面的整整合、统统计与分分析,得得到上图图分析内内容。北京市环环保局PM2.5分析PM2.5均匀分布布,监监测点为为何不均匀分分布?PM2.5监测不能能背背离公众众感受PM2.5监测,关键词是是“真实实”20亿元清单单,能能否换换来清新新?微博TOP10意见领袖袖排行郑渊洁微博原文作家通过S

16、MAS平台的抽抽样分析析,提取取网民热热点话题题内容,得到TOP10意见领袖袖排行。对意见见领袖的的代表性性微博进进行传播播链分析析,可知知“意见见领袖”巨大的的传播影影响力。第一层第二层第三层第四层第五层第六层传播了712次占占转发数数百分比比:54.39%传播了432次占占转发数数百分比比:33.00%博主自身身的二次次转发北京市环环保局PM2.5分析气象舆情情监测对气候的影响三峡工程长江中下游干旱台风 梅花日本核辐射极端天气气频发,有多少少是人为为之祸?公众对对气象部部门的气气象服务务有了全全新的期期待。依托数据中中心与云服务平平台,拓拓尔思运营团团队还原热热点气象象事件引引发的网网络舆情情,总结结气象部部门应对对气象危危机的得得失,为为气象部部门开拓气

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论