




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、大数据技术典型应用案例东软集团技术战略与发展部2015年7月Copyright 2015 Neusoft Corporation典型应用一:实时监测数据统一采集管理平台数据应用需求1、随着传感器、通信技术的发展以及智能电子设备的广泛使用,企业生产现场产生的实时信息量大幅度增长;2、对现存的自动化孤岛进行整合需要统一的实时数据采集管理平台;3、需要接入的智能设备、控制器、自动化系统种类庞杂,过去针对某几种特定设备、仅限于满足具体项目需求的前置系统难以复用,迫切需要能够广泛适应多种系统接入的实时数据采集平台;4、不管是电网运行管理还是电厂生产运营,要求有全方位的实时数据去支撑企业实时决策、敏捷制造
2、;5、企业只有将自动化系统和管理信息系统进行融合,才能充分发挥信息化的作用;数据特点分析采集测点900万低压用户,未来会达到2300万(每用户一个测点)20万高压用户,未来会达到100万(每用户40个测点)30万终端设备,未来会达到100万终端设备采集频率6小时内采集成功率要求达到98%,每两小时采集一轮(每天每个测点保证成功入库一次)未来可能针对部分高压用户的重要测点需要每15分钟集一轮数据量每天1700万数据入库,未来会达到63008000万每年16.2T,未来会达到每年60T80T数据关键架构决策点复杂事件引擎StormS4分布式消息队列kafkaMetaQ海量数据存储HBaseMong
3、oDB分布式缓存RedisMemcached技术架构数据采集用电信息采集物联网类银行联网类第三方系统采集Agent采集Agent采集Agent采集Agent电能表通讯规约电力负荷管理数据通讯规约网省集抄规约、东软集抄规约ModBus PlusModNetDNP 3.0IEC101/104规约非标协议自编程Socket 集成应用安全生产监控系统输变电状态监测系统用电信息采集系统实时信息监控系统管网监控运维系统召测召测召测结果采集持续计算消息队列(流数据)BoltBoltBoltBoltBoltBoltBolt格式转换数据处理数据库NoSQL关系型数据库量测模型业务模型采集数据海量日志业务处理加密
4、数据解密服务监控数据入库数据分析数据过滤Bolt数据预警Bolt数据加密案例总结Storm-0.9.0.1ZeroMQ or netty?:Storm新版节点间通信采用netty实现,不稳定,经常出现连接中断,更换成ZeroMQ后正常消息去重:从业务上去重【如:消息上增加业务标识】Kafka-2.8.0消息确认机制选择(不确认、Leader确认、Leader和Follower确认),不确认性能最高同步写文件策略选择(批量写:消息数量和时间间隔)Redis-2.8.6通过批量key获取数据性能最好ZooKeeper-3.4.5单独独立部署:Zookeeper和Storm均涉及大量IO,存在资源争
5、抢问题Hadoop-2.3.0-CDH5.0搭建专门的dns服务器时钟同步密钥文件在共享存储中集中管理IO(磁盘、网络):千兆网络以上Hbase-0.96.1禁止自动文件拆分典型应用二:中国移动X省大数据平台建设方案数据应用需求业务人员可根据日常工作需求快速创建分析报表,提供灵活的过滤、筛选、分组及钻取能力,适用于个性化主题分析的快速创建。用户通过指标筛选后进行分析,针对指标按不同维度下钻,包括:时间维度、空间维度、区域维度等普通用户可以通过(类)SQL接口自行数据报表开发高级用户也可以直接使用MR、scala等语言,进行复杂的专题分析设计与应用以网络业务体系为基础的指标导航数据特点分析目前每
6、日数据量接近4T,2015年将达到7T。当前已建立完成覆盖近30万频道和27亿网页(含WAP)的URL地址库,形成2463个互联网分类标签和27万关键词库。通过与主流市场和APP厂商合作,能够解析覆盖用户产生流量95%以上的手机应用。分类数据源数据描述网络话务网管 GSM、TD网络性能和动态资源数据。数据网管 WLAN网络性能和动态资源数据。网优平台 邻区数据综合资源 静态资源数据业务CRMBOSSVGOPESOP经分 语音、GPRS、WLAN话单数据;小区级月收入汇总;用户基础信息月汇总用户Gn监测 用户上网Gn话单数据A+Abis信令 用户A接口话单数据上网日志 用户上网日志位置位置系统
7、轨迹管理管理信息系统 财务、ERP等互联网 互联网网页 网页内容爬取关键架构决策点数据处理将构建基于Hadoop+Spark+MPP混搭架构,并尝试探索利用Spark的高速交互迭代计算技术取代MPP商用数据库实现数据分析与挖掘去IOE的可行性。研究验证在事务处理和高并发机制场景下吗,利用MySQL取代Oracle的可行性,验证HDFS+Spark+Mysql全开源,完全去IOE架构的应用情况。技术架构大规模明细数据话单信令HDFS分布式文件存储详单和基于详单的细粒度汇聚结果以及数据挖掘的结果自助分析(Impala ) &批量处理(Spark、Hive)&数据挖掘(Spark、Mahout)大数
8、据的清洗、轻度汇聚、计算与挖掘实时流处理与计算引擎综合采集平台汇总数据应用数据库(MySQL)专题分析的结果数据,按照专题分库存储数据同步上层专题应用、即席查询与分析MySQL数据查询代理大数据采集大数据即席查询 与分析(Impala)数据共享告警数据仓库(MPP)结构化、维度化、详单与网管数据关联后的,面向分析主题的明细分析数据。多维度即席查询 与分析(SQL)性能资源终端网优MR营帐经分案例总结Hadoop与MPP如何分工协作,充分发挥各自的优势Hadoop擅长处理那些海量的,处理逻辑相对固定的数据,如对信令CDR进行预处理和简单的关联汇聚处理,可以有针对性的对处理程序进行优化MPP适合对
9、大量的数据进行复杂的统计与分析,提供很好的人机SQL界面,适合快速变化的分析需求和对大量数据进行即席查询的场景通过统一的作业调度将Hadoop和MPP的作业穿插结合起来,将两个平台的数据处理作业结合在一起形成一个整体的数据处理流程Hadoop与MPP数据同步的效率问题Sqoop适用于中小数据量,对于大数据量就会存在性能问题M/R程序在各个数据节点本地生成文件,在各个数据节点本地将文件装载到MPP数据库中案例总结多条件详单查询的效率问题详单数据存放在Hadoop中,简单按照号码和日期查询一个用户的详单很快,但是如果通过多个查询条件查询符合这些条件的用户的详单就会很慢对海量详单数据建立有效的二级索
10、引,来实现多条件多用户的快速详单查询Hadoop集群数据分布不均的问题集群在运行一段时间后,各个数据节点的数据会出现不均衡的现象,影响整体集群的运行效率定期在闲时进行数据的重分布操作海量信令数据如何进行快速处理引入Spark,用Spark对信令话单数据进行预处理和简单的关联汇聚处理后续根据Spark的成熟情况逐渐将Spark的应用场景扩大到复杂的数据统计和分析中,逐渐替换MPP的一些工作典型应用三:企业信用公示大数据应用实践数据应用需求2013年国务院在推进公司注册资本登记制度改革时强调:推行注册资本登记制度改革,就是要按照便捷高效、规范统一、宽进严管的原则,创新公司登记制度,降低准入门槛,强
11、化市场主体责任,促进形成诚信、公平、有序的市场秩序。会议明确,将企业年检制度改为年度报告制度,任何单位和个人均可查询,使企业相关信息透明化。企业信用数据公示需求省数据中心信用公示库数据同步索引文档库检索引擎公示服务数据获取建索引企业明细检索企业公众查询数据特点分析数据量大强关系查询为主异构和多样性业务交易数据全省工商数据登记、年检、股东、分支机构等对外提供检索服务图片、PDF、Word等外部采集数据网上申报数据外部交换数据内外接口多共享、交换、同步关键架构决策点1243大数据平台Hadoop发行版Hbase vs MongoDBHbase 数据模型安全数据集成Oracle到HBaseHbase
12、到SolrDataExchange vs SqoopUniEAP 集成UniEAP v4版本Hbase 访问接口封装Solr RESTful服务接口封装检索引擎开源与商业产品Solr vs ElasticSearch索引实时性并发访问性能技术架构数据源省工商数据中心省综合业务交易数据其它部门共享数据公示平台HDFS公示库(HBase)检索库(Solr)DataExchange年报库(Oracle)initCDC实时(lily)批量(DataExchange)批量文件系统/共享存储管理监控业务应用资源监控(Aclome)集群管理(ClouderaManager)安全(Kerberos)公示系统年
13、报系统关系数据非关系数据案例总结1、DataExchange往HBase大批量加载数据时,RegionServer出现不响应问题。解决办法:预先创建Region,并停止 WAL日志,改善批量加载性能。2、Solr在初始化批量索引时,使用lily构建索引,容易引起HBase GC时间过长,导致zookeeper强制其下线。解决办法:构建索引使用两种方式,一种是批量索引使用import方式导入,一种是增量索引场景,从 HBase使用lily增量近实时构建索引。3、索引及业务数据一致性验证缺乏有效手段,解决办法:定期做一遍索引的全量更新。4、分词词库选择,IK有效性、准确性还有待提高。5、在该平台基
14、础上可以进一步引入Streaming 处理,机器学习等技术,实现更高效的企业黑名单识别、企业族谱的建立等应用决策场景。6、安全方面目前实现基于Kerberos的安全认证,下一步可以结合Sentry实现细粒度授权。典型应用四:基于社会化媒体分析的精准营销数据应用需求精准营销人口统计兴趣喜好客户价值客户需求社会化隐性显性消费基因关联分析规则匹配SEO向上营销交叉营销流失预警流失挽留趋势预测意见领袖情感分析情感统计热门主题主题跟踪社交图谱知识图谱兴趣图谱数据特点分析数据价值查询频率数据规模关系复杂数据格式社会化媒体数据7X24小时不间断采集或爬取海量数据,数亿用户用户行为数据。领域数据非结构化、数据
15、多样多维度、噪音大、重复数据多价值密度低,浪里淘沙却又弥足珍贵具有准确性数据按日更新最大限度保证数据的时效性知识图谱、兴趣图谱、社交图谱响应时间处理速度快,秒级响应关键架构决策点兴趣图谱分布式存储 业务需求:海量数据,查询条件复杂,包含groupby、sort等条件多条件查询无响应内存资源占用大分布式版与单机版查询性能相差不大两个条件到五个条件查询3050s个兴趣词响应时间大约在510s之间横向扩展能力可以应对兴趣-人关系数据的增长Neo4jembedd不稳定导入数据时间长,有timeout异常Neo4jrestserver技术架构数据资源层内容数据社交媒体数据客服中心数据行为数据网站、App
16、、设备业务交易业务主数据CRM数据资源数据领域数据维基百科、百度百科、Freebase企业知识库数据数据存储层数据抓取Weblech(网页爬取)WeiboSDK(开放API)数据预处理数据存储层HBase(列存储数据库)HDFS(分布式文件系统)数据整合数据去重数据转换数据过滤大数据管理Ozzie(工作流调度)Zookeeper(系统协调)Cloudera Manager日志管理分布式并行计算框架YARN数据分析挖掘自然语言处理中文分词特征提取潜在语义文本挖掘文本滤重情感分析标签传播训练模型模型构建模型训练模型优化分类算法聚类算法关联分析特征选择主题提取标签传播社交图谱兴趣图谱知识图谱安全管理数据访问层Solr(分布式搜索)Redis(分布式缓存)离线算法评估案例总结 选取数据构建模型时,需要考虑业务产品是否具有季节性,比如银行的考核有季度性带来业务上的一些优惠等措施,对流失率影响比较大,所以在选取数据构建模型时都应该有所考虑。选取的训练样本应考虑各影响因子。不同业务场景数据分析周期不同,合理考虑框架模型,根据业务选取线上和线下分析,选取流计算框架或分布式计算框架。对于社交化媒体数据这种
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 竹篱墙施工方案
- 直击隐患现场安全生产违章行为解析
- 大学课件高等数学曲线积分与曲面积分
- 2025广东广州劳动合同模板
- 细化知识点的证券从业资格证试题及答案
- 2025年景观设计合同补充协议书
- 2024年农作物种子繁育员资格考试经典试题及答案
- 行政管理师考试答题技巧与常见题型分析试题及答案
- 产业关联度分析重点基础知识点
- 2024农业植保员考试的创新点和试题及答案
- 江苏省2024年中职职教高考文化统考烹饪专业综合理论真题试卷
- 2025年电力人工智能多模态大模型创新技术及应用报告-西安交通大学
- T-CBIA 009-2022 饮料浓浆标准
- 事故隐患内部举报奖励制度
- 离婚协议书电子版下载
- 苏教版二年级数学下册《第2单元 练习二》教学课件PPT小学公开课
- 长期购销合作协议书参考
- 入团志愿书(2016版本)(可编辑打印标准A4) (1)
- 警棍盾牌术基本动作
- 撰写课题申请书的五个关键(课堂PPT)
- 英语作业分层设计案例
评论
0/150
提交评论