理解大数据实践大数据_第1页
理解大数据实践大数据_第2页
理解大数据实践大数据_第3页
理解大数据实践大数据_第4页
理解大数据实践大数据_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

理解大数据,实践大数据施水才北京拓尔思信息技术股份有限公司2012年5月31日内容对大数据的理解拓尔思大数据产品布局和应用实践反对派认为,我们现在处在一个盲目的大数据崇拜时代大数据产生的背景数据的爆发式增长和社会化趋势,新摩尔定律大数据已经成为一种自然资源机器数据日益重要大数据不被利用就是成本大数据产生的背景现有的商业软件难以处理大数据的规模和复杂性

获取(capture)存贮(storage)搜索(search)分享(sharing)分析(analysis)可视化(visualization)奥巴马大数据战略2012年3月29日,白宫发布美国政府的大数据计划通过提高从大型复杂的数字数据集中提取知识和观点的能力,承诺帮助加快在科学与工程中的步伐,加强国家安全,并改变教学研究大数据的4V特性体量Volume多样性Variety价值密度Value速度Velocity非结构化数据的超大规模和增长总数据量的80~90%比结构化数据增长快10倍到50倍是传统数据仓库的10倍到50倍大数据的异构和多样性很多不同形式(文本、图像、视频、机器数据)无模式或者模式不明显不连贯的语法或句义大量的不相关信息对未来趋势与模式的可预测分析深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等)实时分析而非批量式分析数据输入、处理与丢弃立竿见影而非事后见效对大数据的理解大数据比云计算更为落地大数据不仅仅是“大”软件是大数据的引擎大数据的应用不仅仅是精准营销管理大数据“易”,理解大数据“难”1、大数据比云计算更为落地商业模式驱动应用需求驱动云计算本身也是大数据的一种业务模式2、大数据不仅仅是“大”多大?PB级比大更重要的是数据的复杂性,有时甚至大数据中的小数据如一条微博就具有颠覆性的价值3、软件件是大大数据据的引引擎和数据据中心心(DataCenter)一样,,软件件是大大数据据的驱驱动力力,软软件改改变世世界大数据生生态::软件件是引引擎4、大数数据的的应用用不仅仅仅是是精准准营销销通过过用用户户行行为为分分析析实实现现精精准准营营销销是是大大数数据据的的典典型型应应用用,,但但是是大大数数据据在在各各行行各各业业特特别别是是公公共共服服务务领领域域具具有有广广阔阔的的应应用用前前景景消费费行行业业金融融服服务务食品品安安全全医疗疗卫卫生生军事事交通通环环保保气象象5、管管理理大大数数据据““易易””理理解解大大数数据据““难难””虽然然大大数数据据是是一一个个重重大大问问题题,,真真正正的的问问题题是是让让大大数数据据更更有有意意义义目前前大大数数据据管管理理多多从从架架构构和和并并行行等等方方面面考考虑虑,,解解决决高高并并发发数数据据存存取取的的性性能能要要求求及及数数据据存存储储的的非结构化海量信息的智能化处理:自然语言理解、多媒体内容理解、机器学习等拓尔尔思思大大数数据据产产品品布布局局TRS机器器数数据据挖挖掘掘引引擎擎TRSSMAS舆情情云云服服务务TRS大数数据据管管理理系系统统V7.0TRS大数数据据管管理理系系统统发发展展历历程程TRS全文文数数据据库库TRS非结结构构化化数据据库库TRS大数数据据管理理系系统统TRS大数数据据管管理理系系统统V7.0TRS大数数据据管管理理系系统统V7.0分布布式式并并行行计计算算、、多多副副本本机机制制、、没没有有单单点点的的高高可可靠靠体体系系架架构构,,兼兼容容Hadoop标准准支持持结结构构支持实时及用户行为数据的高效管理和分析支持PB级的海量数据管理支持海量用户的高并发访问(千万级用户、万级并发)充分释放硬件的潜力(多核、大内存等)大规模部署的自动化和运行状态监控创新的多检索引擎机制,提供开放的二次开发接口数据据备备份份大数数据据管管理理系系统统数据据存存储储开发发接接口口基于于Hadoop的数数据据分分析析CKM文本本挖挖掘掘与与数数据据挖挖掘掘关联联规规则则与与序序列列模模式式挖挖掘掘推荐荐引引擎擎的的离离线线分分析析MapReduce数据据库库监监控控机器器数数据据搜搜索索引引擎擎用户户行行为为挖挖掘掘与与推推荐荐引引擎擎基于时间间分段的的大数据据检索与与索引接接口搜索引擎擎日志采集集监控数据存储储层数据分析析层日志发送送节点Angent1Angent2Angent3……Angentn日志接收收集群Collector1Collector2Collector3……CollectornMaster管理集群群Master1Master2Mastern日志采集集TRS机器数据据挖掘引引擎TRS机器数据据挖掘引引擎特点点支持主流流格式机机器数据据的实时时采集、、解析、、管理和和搜索。。基于时间间分段和和负载均均衡的大大数据索索引与检检索机制制。基于Web的机器数数据搜索索与分析析界面。。兼容Hadoop平台的日日志挖掘掘和用户户行为分分析。基于多种种推荐模模型的在在线推荐荐引擎大规模部部署的自自动化和和运行状状态监控控TRSSMAS功能框架架图舆情管理理服务共享享信息挖掘信息来源源新闻论坛博客搜索引擎擎微博wiki自动排重、、自动分分类、自自动摘要要、自动动分析舆情分类热点跟踪踪热点统计微博分析析人物分析微博运营营趋势分析析整合统计计关联图谱谱动态走势势兴趣图谱谱未知探索热点变化意见领袖传播图谱谱关系分类类个性展示示敏感预预警自由分分布数图导出出图表切换换多维检索探针追踪元搜索外网微博论坛SNS网媒官网提高销量用户满意度用户设计趋势分析竞争分析质量缺陷设计缺陷使用缺陷KOL维护声誉管理危机预警事件评估行为分析产品公关营销用户感知研发情绪感知及时服务口碑监测媒介监测S-CRM广义服务TRSSMAS作用于企业业2.0TRS在大数据领领域的应用用实践新华社多媒媒体数据库库国家知识产产权局专利利检索系统统某部信息监监控系统TRSSMAS云服务(大大数据服务务)国家质监局局国家药监局局北京市环保保局国家气象局局每日微博热热点分析新华社多媒媒体数据库库系统是新华社的的核心业务务支撑,典典型的非结结构化数据以新华社遍布全球的新闻信息及采集网络为依托,全面整合新华社的文字、图片、图表、音视频、报刊等全部资源和社会上有价值的新闻信息资源,拥有包括中、英、法、俄、西、阿及中文繁体在内的6个文种,数据量超PB最早采用文件系统,后来改为Oracle,效率很低,再改为Oracle+TRS,持续服务至今从大型机改为PC服务器集群1.5亿条原创新闻资资讯26000小时权威原创视视频700万张图片27000家注册用户8000多种资源分类PB级数据量多语种数据据新华社多媒体数据据库数据流转图图新华社多媒媒体库的技技术特点非结构化数数据和结构构化数据统统一管理TRS多语语言言检检索索引引擎擎全面面采采用良好的集群扩展能力索引服务器读写分离国家家知知识识产产权权局局专专利利检检索索服服务务系系统1998年专专利利局局引引进进了了欧洲洲EPOQUE系统统,基基于于大大型型机机的的专专利利检检索索系系统统,,每每年年的的系系统统维维护护费费用用就就达达数数千千万万元元2005年开开始始建建设典型的非结构化/半结构化数据应用场景目前公共检索和审查员检索系统全部使用TRS检索引擎专利利检检索索系系统统的的需需求求特特点点数据据多多样样性性结构构化化、、半半结申请人、申请号、名称等著录项很多;权利要求书、说明书等全文数据规模大各库数据结构差异大查询要求高严格的查全和查准要求基于领域知识的智能检索结构化和非结构化信息联合查询相关专利推荐专利利检检索索与与服务务系系统统的的数数据据种类类与与规规模模6亿多多条条专利利记录录多渠渠道道异异构构资源源整整合合100%查全全率率<1秒响应应时时间间700-1000并发7×24稳定可靠1万注册用户专利检索引擎擎数据流转图专利检索与服服务系统-外观图像检索索专利图像外观观检索局部检索形状检索纹理检索不变性特征检检索草图检索数据分类数据聚类基于相关反馈馈的检索跨语言检索600万幅专利图片片查询性能从原原来的分钟级级提高到秒级级索引性能从原原来的天级提提高到现在的的小时级某部网监智能能搜索和挖掘掘系统系统特点:巨大的数据量量多样性数据数据极快速增增长系统现状已经部署数千千台服务器,,满足了业务务需求挑战性能和可扩展展性整合和调度数据量远超过过互联网,目目前部署TRS系统2000多套SMAS的用户国家质检总局2012.1蒙牛致癌门2012.2苏泊尔质量门门2012.3辽源注水肉2012.3315质量报告2012.4含氯可口可乐乐2012.4蜜饯质量问题题2012.5菲律宾香蕉质质量2012仅在2012年上半年,拓尔思运营团队就就为质检总局局在产品质量量、食品安全全方面提供超过40余项服务,借助数据中心的大数数据与云服务务平台,进行行全面的整合合、统计与分分析。国家质检总局局质检总局的服务务依托云服务务平台(SMAS),从媒体调调性、平台分分布、网民意意见、趋势发发展等多种角角度进行解析析,结合系统统的自动分析析与分析团队队的整合,最最终以专题报报告的方式,,第一时间呈呈现,为质检检总局在公共共服务的决策策提供重要参参考。国家药监局2012年4月15日央视曝光的的“毒胶囊””事件掀起药药品行业的巨巨大波澜,SMAS运营团队对该事件件进行了长时时间的跟踪与与分析,并用用一系列的数数据、图表和和报告捕获了了网络数据里里的真相与民民意。国家药监局关键人物传播趋势主流观点关键地区SMAS分析团队连续续30天跟踪毒胶囊囊事件,从整整体传播趋势势、观点、人人物、地区等等视角,还原原了这起颇具具影响力的公公共事件。-----毒胶囊囊事件件-------北京市市环保保局PM2.5分析报道道量量排排行行高低两会代代表委委员热热议PM2.5“京V”排放标标准首首规定定PM限值珠三角角成首首个公公布PM2.5城市群群珠三角角PM2.5严重超超标环保局局回应应PM2.5数据质质疑借助数据中心心的大大数据据与云云服务务平台台,从从区域分分布的角度度对PM2.5的相关关信息息进行行归类类,进进行全全面的的整合合、统统计与与分析析,得得到上上图分分析内内容。。北京市市环保保局PM2.5分析PM2.5均匀分分布,,监监测点点为何何不均匀匀分布布?PM2.5监测不不能背背离公公众感感受PM2.5监测,关键词词是““真实实”20亿元清清单,,能能否换换来清清新??微博TOP10意见领领袖排排行郑渊洁微博原文作家通过SMAS平台的的抽样样分析析,提提取网网民热热点话话题内内容,,得到到TOP10意见领领袖排排行。。对意意见领领袖的的代表表性微微博进进行传传播链链分析析,可可知““意见见领袖袖”巨巨大的的传播播影响响力。。第一层层第二层层第三层层第四层层第五层层第六层层传播了了712次占占转转发数数百分分比::54.39%传播了了432次占占转转发数数百分分比::33.00%博主自自身的的二次次

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论