版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
内容对大数据的理解xxx大数据产品布局和应用实践当前1页,总共46页。反对派认为,我们现在处在一个盲目的大数据崇拜时代当前2页,总共46页。大数据产生的背景数据的爆发式增长和社会化趋势,新摩尔定律大数据已经成为一种自然资源机器数据日益重要大数据不被利用就是成本当前3页,总共46页。大数据产生的背景现有的商业软件难以处理大数据的规模和复杂性
获取(capture)存贮(storage)搜索(search)分享(sharing)分析(analysis)可视化(visualization)当前4页,总共46页。奥巴马大数据战略2012年3月29日,白宫发布美国政府的大数据计划通过提高从大型复杂的数字数据集中提取知识和观点的能力,承诺帮助加快在科学与工程中的步伐,加强国家安全,并改变教学研究当前5页,总共46页。大数据的4V特性体量Volume多样性Variety价值密度Value速度Velocity非结构化数据的超大规模和增长总数据量的80~90%比结构化数据增长快10倍到50倍是传统数据仓库的10倍到50倍大数据的异构和多样性很多不同形式(文本、图像、视频、机器数据)无模式或者模式不明显不连贯的语法或句义大量的不相关信息对未来趋势与模式的可预测分析深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等)实时分析而非批量式分析数据输入、处理与丢弃立竿见影而非事后见效当前6页,总共46页。对大数据的理解大数据比云计算更为落地大数据不仅仅是“大”软件是大数据的引擎大数据的应用不仅仅是精准营销管理大数据“易”,理解大数据“难”当前7页,总共46页。1、大数据比云计算更为落地商业模式驱动应用需求驱动云计算本身也是大数据的一种业务模式当前8页,总共46页。2、大数据不仅仅是“大”多大?PB级比大更重要的是数据的复杂性,有时甚至大数据中的小数据如一条微博就具有颠覆性的价值当前9页,总共46页。3、软件是大数据的引擎和数据中心(DataCenter)
一样,软件是大数据的驱动力,软件改变世界当前10页,总共46页。大数据生态:软件是引擎当前11页,总共46页。4、大数据的应用不仅仅是精准营销通过用户行为分析实现精准营销是大数据的典型应用,但是大数据在各行各业特别是公共服务领域具有广阔的应用前景消费行业金融服务食品安全医疗卫生军事交通环保电子商务气象当前12页,总共46页。5、管理大数据“易”理解大数据“难”虽然大数据是一个重大问题,真正的问题是让大数据更有意义目前大数据管理多从架构和并行等方面考虑,解决高并发数据存取的性能要求及数据存储的横向扩展,但对非结构化数据的内容理解仍缺乏实质性的突破和进展,这是实现大数据资源化、知识化、普适化的核心非结构化海量信息的智能化处理:自然语言理解、多媒体内容理解、机器学习等当前13页,总共46页。xxx大数据产品布局TRS机器数据挖掘引擎TRSSMAS
舆情云服务TRS大数据管理系统V7.0当前14页,总共46页。TRS大数据管理系统发展历程TRS全文数据库TRS
非结构化
数据库TRS大数据管理系统当前15页,总共46页。TRS大数据管理系统V7.0当前16页,总共46页。TRS大数据管理系统V7.0分布式并行计算、多副本机制、没有单点的高可靠体系架构,兼容Hadoop标准支持结构化、半结构化、非结构化数据的管理和搜索支持实时及用户行为数据的高效管理和分析支持PB级的海量数据管理支持海量用户的高并发访问(千万级用户、万级并发)充分释放硬件的潜力(多核、大内存等)大规模部署的自动化和运行状态监控创新的多检索引擎机制,提供开放的二次开发接口当前17页,总共46页。数据备份大数据管理系统数据存储开发接口基于Hadoop的数据分析CKM文本挖掘与数据挖掘关联规则与序列模式挖掘推荐引擎的离线分析MapReduce数据库监控机器数据搜索引擎用户行为挖掘与推荐引擎基于时间分段的大数据检索与索引接口搜索引擎日志采集监控数据存储层数据分析层日志发送节点Angent1Angent2Angent3……Angentn日志接收集群Collector1Collector2Collector3……CollectornMaster管理集群Master1Master2Mastern日志采集TRS机器数据挖掘引擎当前18页,总共46页。TRS机器数据挖掘引擎特点支持主流格式机器数据的实时采集、解析、管理和搜索。基于时间分段和负载均衡的大数据索引与检索机制。基于Web的机器数据搜索与分析界面。兼容Hadoop平台的日志挖掘和用户行为分析。基于多种推荐模型的在线推荐引擎大规模部署的自动化和运行状态监控当前19页,总共46页。TRSSMAS功能框架图舆情管理服务共享信息挖掘信息来源新闻论坛博客搜索引擎微博wiki自动排重、自动分类、自动摘要、自动分析舆情分类热点跟踪热点统计微博分析人物分析微博运营趋势分析整合统计关联图谱动态走势兴趣图谱未知探索热点变化意见领袖传播图谱关系分类个性展示敏感预警自由分布数图导出图表切换多维检索探针追踪元搜索当前20页,总共46页。外网微博论坛SNS网媒
官网提高销量用户满意度用户设计趋势分析竞争分析质量缺陷设计缺陷使用缺陷KOL维护声誉管理危机预警事件评估行为分析产品公关营销SMAS用户感知研发情绪感知及时服务口碑监测媒介监测S-CRM广义服务TRSSMAS作用于企业2.0当前21页,总共46页。TRS在大数据领域的应用实践新华社多媒体数据库国家知识产权局专利检索系统某部信息监控系统TRSSMAS云服务(大数据服务)国家质监局国家药监局北京市环保局国家气象局每日微博热点分析当前22页,总共46页。新华社多媒体数据库系统是新华社的核心业务支撑,典型的非结构化数据管理应用场景,持续IT投资已经超过6亿人民币以新华社遍布全球的新闻信息及采集网络为依托,全面整合新华社的文字、图片、图表、音视频、报刊等全部资源和社会上有价值的新闻信息资源,拥有包括中、英、法、俄、西、阿及中文繁体在内的6个文种,数据量超PB最早采用文件系统,后来改为Oracle,效率很低,再改为Oracle+TRS,持续服务至今从大型机改为PC服务器集群当前23页,总共46页。1.5亿条原创新闻资讯26000小时权威原创视频700万张图片27000家注册用户8000多种资源分类PB级数据量多语种数据当前24页,总共46页。新华社多媒体数据库数据流转图当前25页,总共46页。新华社多媒体库的技术特点非结构化数据和结构化数据统一管理TRS多语言检索引擎全面采用TRS文本挖掘技术良好的集群扩展能力索引服务器读写分离当前26页,总共46页。国家知识产权局专利检索服务系统1998年专利局引进了欧洲EPOQUE系统,基于大型机的专利检索系统,每年的系统维护费用就达数千万元2005年开始建设自主可控可持续发展的专利检索和服务系统,采用大量的PC服务器典型的非结构化/半结构化数据应用场景目前公共检索和审查员检索系统全部使用TRS检索引擎当前27页,总共46页。专利检索系统的需求特点数据多样性结构化、半结构化和非结构化数据的结合申请人、申请号、名称等著录项很多;权利要求书、说明书等全文数据规模大各库数据结构差异大查询要求高严格的查全和查准要求基于领域知识的智能检索结构化和非结构化信息联合查询相关专利推荐当前28页,总共46页。专利检索与服务系统的数据种类与规模6亿多条专利记录多渠道异构资源整合100%查全率<1秒响应时间700-1000并发7×24稳定可靠1万注册用户当前29页,总共46页。专利检索引擎数据流转图当前30页,总共46页。专利检索与服务系统-外观图像检索当前31页,总共46页。专利图像外观检索局部检索形状检索纹理检索不变性特征检索草图检索数据分类数据聚类基于相关反馈的检索跨语言检索600万幅专利图片查询性能从原来的分钟级提高到秒级索引性能从原来的天级提高到现在的小时级当前32页,总共46页。某部网监智能搜索和挖掘系统系统特点:巨大的数据量多样性数据数据极快速增长系统现状已经部署数千台服务器,满足了业务需求挑战性能和可扩展性整合和调度数据量远超过互联网,目前部署TRS系统2000多套当前33页,总共46页。SMAS的用户当前34页,总共46页。国家质检总局2012.1蒙牛致癌门2012.2苏泊尔质量门2012.3辽源注水肉2012.3
315质量报告2012.4含氯可口可乐2012.4蜜饯质量问题2012.5菲律宾香蕉质量2012仅在2012年上半年,xxx运营团队就为质检总局在产品质量、食品安全方面提供超过40余项服务,借助数据中心的大数据与云服务平台,进行全面的整合、统计与分析。当前35页,总共46页。国家质检总局质检总局的服务依托云服务平台(SMAS),从媒体调性、平台分布、网民意见、趋势发展等多种角度进行解析,结合系统的自动分析与分析团队的整合,最终以专题报告的方式,第一时间呈现,为质检总局在公共服务的决策提供重要参考。当前36页,总共46页。国家药监局2012年4月15日央视曝光的“毒胶囊”事件掀起药品行业的巨大波澜,SMAS运营团队对该事件进行了长时间的跟踪与分析,并用一系列的数据、图表和报告捕获了网络数据里的真相与民意。当前37页,总共46页。国家药监局关键人物传播趋势主流观点关键地区SMAS分析团队连续30天跟踪毒胶囊事件,从整体传播趋势、观点、人物、地区等视角,还原了这起颇具影响力的公共事件。-----毒胶囊事件-------当前38页,总共46页。北京市环保局PM2.5分析报道量排行高低两会代表委员热议PM2.5“京V”排放标准首规定PM限值珠三角成首个公布PM2.5城市群珠三角PM2.5严重超标环保局回应PM2.5数据质疑借助数据中心的大数据与云服务平台,从区域分布的角度对PM2.5的相关信息进行归类,进行全面的整合、统计与分析,得到上图分析内容。当前39页,总共46页。北京市环保局PM2.5分析PM2.5均匀分布,监测点为何不均匀分布?PM2.5监测不能背离公众感受PM2.5监测,关键词是“真实”20亿元清单,能否换来清新?微博TOP10意见领袖排行郑渊洁微博原文作家通过SMAS平台的抽样分析,提取网民热点话题内容,得到TOP10意见领袖排行。对意见领袖的代表性微博进行传播链分析,可知“意见领袖”巨大的传播影响力。第一层第二层第三层第四层第五层第六层传播了712次占转发数百分比:54.39%传播了432次占转发数百分比:33.00%
博主自身的二次转发当前40页,总共46页。北京市环保局PM2.5分析当前41页,总共46页。气象舆情监测对气候的影响三峡工程长江中下游干旱台风
梅花日本核辐射极端天气频发,有多少是人为之祸?公众对气象部门的气象服务有了全新的期待。依托数据中心与云服务平台,xxx运营团队还原热点气象事件引发的网络舆情,总结气象部门应对气象危机的得失,为气象部门开拓气象服务新领域、提升气象服
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024版船舶贷款融资合同
- 二零二四年BIM模型在建筑可视化领域的应用合同
- 2024年度销售代理合同including销售区域与业绩指标
- 二零二四年度平房转让合同
- 二零二四年度广告发布合同标的及投放要求
- 二零二四年度影视制作项目合作合同
- 超期产品封存处理方案
- 2024年度广告投放合同中广告效果评估与费用结算
- 钢厂贸易合同范本
- 2024年度高新技术产品研发与销售合同
- 文学短评三百字
- 小学美术-点彩游戏-苏少版
- 民法典买卖合同
- 人工智能在环境保护与资源管理中的应用与创新
- 冬奥会饮食健康知识讲座
- 2024年的大数据与人工智能
- 热塑性树脂课件
- 劳务外包服务方案(技术方案)
- 血常规报告单
- 房产赠与协议书电子可打印范本
- 《初中语文教材解析》
评论
0/150
提交评论