新媒体云平台建设-大数据分析中心方案_第1页
新媒体云平台建设-大数据分析中心方案_第2页
新媒体云平台建设-大数据分析中心方案_第3页
新媒体云平台建设-大数据分析中心方案_第4页
新媒体云平台建设-大数据分析中心方案_第5页
已阅读5页,还剩327页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

21技术方案建议书 51.1项目背景与需求理解 6 6 6省委省政府的战略决策 6广电总局的技术发展方向 6XX客户对新媒体的发展规划 7 8战略目标 8项目目标 9 9承办单位概况 现状描述 合理化建议 标准化与模块化 21 21可靠性与稳定性 21先进性与兼容性 2安全性 221.2平台设计方案 231.2.1总体技术架构 24建设思路 24总体体系架构 24 25系统技术架构 28系统数据流转和周边关系 29 1.2.2大数据分析平台和用户数据中心 1.3项目进度计划 1.3.1团队组织保障与管理 项目组织概述 200团队沟通管理 1.3.2质量管控方案 质量控制体系 质量控制计划 质量控制措施 2121.3.3项目实施计划 2171.4技术支持和售后服务 2211.4.1技术服务能力及承诺 技术咨询和运维支持服务 22 系统升级服务 新增功能开发服务 故障救援服务 24 224建立维护档案服务 0资料定期传送及专题讨论服务 25 售后服务具体措施 应急措施 271技术方案建议书1.1项目背景与需求理解◆资源共享◆全面开放能部门7个,龟山广播电视发射台等所属单位7个。台(集团)内容部门19个,拥有46家企事业单位(包括35家企业单位,7家转企改制单位,4家事业单位)整合为16家。员工总数1.2万人,总资产102.52亿元。现状描述xxx年2月29日,我省委书记李鸿忠主持召开省委常委会会议,传达学习2月19对外web服务器集群2基础数2基础数据存储域防病毒服务82台检家服务82台发布服务82台引1草86台编目工作站12日虚C化引1服务82甘台目前现场有2个刀箱,每个刀箱内有7个刀片,共14台刀片服务器。每个刀片内存为128G。若每台服务器使用8G,每个刀片能虚拟16台服务器。每个刀箱能虚拟112台,两个刀箱总共虚拟出224台。目存储总容量为389TB,已使用12TB,计划扩容的服务器为26台(包括8片刀服务器)。和实施方案。投标人须在2016年8月31日前,妥善完成原有平台数据迁移、全部合理化建议互联网域数据中心数据层数据中心交换层高可用对比表虚拟机在线迁移(无停机)有有有FC-SAN的外部自动负载均衡有有有需要第三方工具宕机后的自动转移(有短暂停机)有有利用MSCSFC-SAN的外部宕机后的自动转移(无停机)有有有无停机)有有有无兼容性对比表机支持64位的服务器是是是是支持有虚拟化指令的处理器(Intel-VT,AMD-V)是是是是支持所有Windows是是部分支持。不支持及更早的0S不支持2000/NT及更早的0S是是是支持其他OS,如SCO、是是否否1)在线扩容在集群中的两台服务器上部署Namenode实例(一主一备),而集群中的其它机器和NameNode使用相同的配置(可以直接从NameNode复制),修改2)负载均衡3)在线升级>应用系统采用了什么开发模式,C/S还是B/S模式。建设思路构建一个平台和三级支撑,实现统一部署、统一维护、客户端长江云政务新媒体融合平台内容、服务提供方省级提供方县级提供方省级提供方县级提供方省级业务运营平台地市级业务运营平台县级业务运营平台入融合管理平台微一删融合管理平台微一县级内容、服务融总体体系架构两微一端两微一端部期过AP一开发附试平台丹基础设施层(IaaS)统一运维监控平台大数据分析平台务能内容生大致调分折平台基础设施层是支撑整个平台的硬件设备和网络平台,建立统、安全系统、存储系统和系统基础软件等系统,并通过虚拟化等技术手段合理组织、分配和管理基础资源,为平台支撑层和应用运营层软件平台支撑层(PaaS)园运开发测试平台来来建纳容统一运维监控平台(安全、监控、维护)互存视生产务2)建设统一的媒体内容发布平台3)建设统一的政务民生服务接入平台5)建设统一的运营支撑平台实现跨终端的用户个性化内容推荐,提升用7)建设云服务总线接口能力,提供标准接入及管理规范,支撑对内8)建设统一运维监控平台9)建设移动客户端汇聚全省两微一端产品和第三方数据资源,针对地市县的动客户端,有效支持个性化需求,并部署开通。APP手机客户端据运营推广的要求,完成APP手机客户端的各项功能的定制开发。未来建设内容(蓝色部分)3)建设能力开放API标准,具备对外服务衔接能力;建设统一的开发测试平台,有效管控内部信息资源的应用开发流程,形成标准化作业和上下线各类应用。系统技术架构C服务籍堤营商、商业服务层应用层流媒体平台视级值曾须信源图文横源资源库内容生产资源采集层户能力、数据汇总能力;批处理场景采取Hadoop的Map/R成;流式数据处理采用Sparkstreaming和Sparksql实现,高效查询服务基于Hbase及redis缓存技术实现。整体架构可分为资源采集层、中央厨房层、应用层、服务层。数据文件等提供高效的数据、文件采集技术。通过Flume计算框架,实现日志文件(如web日志、APP日志等)采集与解析;通过FTP方式实现对数据文件的采集;采用Kafka数据存储与计算方面,基于分布式文件系统实现海量采用分布式文件系统提供统一的大数据数据存储,满足全Yarn提供跨平台的资源管理,满足资源的统一调度与管理;采用Hadoop和Spark实现统一认证和监权统一认证和监权新观体应用应用咳入开发测试、服务管理、安全管理合们开渡生活务架图文.营视揭件数据处理数演理本台节直外地方编辑作日单、直增数据资源云服务总线:内部共享开放经视守台业机构教基中央厨房互联号数据民生数据欢务数据作开发效务类服务应用国情监则生产>内容生产平台收录本台节目直播信号和地方台流信号。3)新媒体云平台内部数据流转的关系1.2.2大数据分析平台和用户数据中心数据加载处理数据处理系统针对新媒体云平台用户行为数据采用定时(一小时一次或者2小时一次)采集的方式,首先通过前端采集,采集新媒体云平台用户行为数据,采集过来后通过Socket/Ftp把数据传送给数据处理系统,数据处理系统根据应用要求对数据进行处理(过滤、去重、清洗等)直接传送给相关应用与数据库。BDPEBDPE(预处理)采前端采集字段分拆记录合并更多根据应用要求对数据进行处理(过滤、去重、清洗等)直接传送给相关应用与数据库。库Kfska在进行集群扩展时(如增加节点),不应对现有节点造成影响。数据解密.1.3公司数据抽取与转换工具产品从技术层面来看系统将遵循S0A架构思想进行构建,按照软件架构设计分层理服务层作为产品的核心中枢主要承担ETL作业组织、任务调度、作业状态跟进、作业监控管理、异常处理与服务质量管理、集群资源管理等核心服执行层作为产品的计算任务承担点,产品中核心的数据处而应用层则侧重于从核心业务诉求基础之上进行高度总结抽象后形成独立的应用控件,产品允许用户可根据自身业务诉求采用参数化配置的方式起来形成一个完整的数据处理流程,在技术层面上主要运用指教慧指教慧任t注表工atbeat展现层服务层应用层等5大功能模块。公司BDPE软件还根据业务应用诉求特点将ETL数据处理流程中主要组件在系统中的动态注册管理,依赖注册手段实现组件与ETL服务层之间建立起联动关系。在实际使用过程中允许ETL开发人员运用图形化的界面配用执行的状态与数据流转情况。另外在ETL应用实现过程中还会开放相应API访问调用支持基于工作日历的任务调度,如如:定义国庆节假能够兼容IBMDataStage、Informatica、kettle等第三方工具,可产品采用Master-Slave模式、组件化开发,能很好的实现容量、计算能力及应用环节信息以日志文件的形式记录相关操作过程,为后续数据稽..1功能说明1.默认情况下提供基础通用的抽取功能,支持从不同2.选择抽取方式进行配置,假设为批量抽取则需要指明相应数据抽取数据源描述信息,如果设置为单次抽取则需要提供抽取数据特征前将获取到相应的配置规则再结合不同数据源特征开启相应的数据抽取作业。1支持手工和自动两2与策略定义3支持对数据压缩包能够对数据压缩包文件进行抽取,支持对数据压缩包的4具备灵活的数据源定义管理能力支持对数据源的统一管理,对可支持的各种不同类型的数据源,允许以统一方式进行配置并获取访问5行数据抽取口,现阶段主要支持的数据源包括:各种主流的关系型数据库如Teradata、分布式数据库、文本文件、任意格式XML文件、HDFS文件、网页文件等6支持使用包括专用数据库驱动接口、JDBC、ODBC接口等数据库连接方式7支持基于日志的增量数据捕获能力具备对日志进行增量数据捕获抽取能力,能够在变化数据捕捉和数据清洗过程进行无缝连接且提供图形化界面设计和监控变化数据的过程8提供丰富的数据抽取作业执行状态监控管理能力提供丰富的图形化界面设计和监控数据抽取过程执行状态9具备数据抽取容错处理机制提供对错误数据的进行检测和处理能力,如进行记录的过滤,能将发生错误的数据记录到响应的错误表中。例如对文件的输入,可以过滤不符合规范的数据并且捕获这些数据数据抽取过程日志支持在数据抽取过程中对数据记录条数、开始时间、完成时间,错误信息等信息进行记录保存支持文件批量采集,能够按照指定周期进行采集,如分钟、小时、日等实时采集支持实时采集,包括对文件中增量数据抽取、消息数据的实时采集等。压缩文件不解压读取支持对于包括.rar,.zip,.gz等压缩文件数据的不解压(五)流式(实时)数据抽取(三)采集控件ETLETL平台U2.抽取规则设置采集指令采集指令执行结果执行结果2.Agent管理端接收到Sever端采集指令后,会对指令进行分拆并进行相应的资源消耗评估,并将指令转换为可执行程序命令,并将输3.执行程序不断扫描存储可执行程序命令队列,并逐一调起相应的数据抽取作业任务进行数据抽取作业,并将抽取到的数据通过管道提交给Agent管理进行汇公司BDPE产品在实现过程中通过批量数据抽取与流式(实时)数据抽取二种模式述文件FS实时据不填件统一作业调度管理中心(自动/手动作业)-采集(“落地”)方式将无法较好地满足应用诉求,因此建议采用流式(实时)数据抽取来提升采集能力。流式(实时)数据抽取过程的技术实现思路如下图所示:Franelork(基链技米组件,解决,流控,并发,上下文数据处理通神分在流式(实时)数据抽取过程的主要工作步骤如下:完成数据处理等业务问题(分为Reader、Writer、Process三大类插件);(输出)数据源.够及时适应接口的变更和异常处理;而数据校验依附在数据抽取取过程可能产生的异常错误信息,总体来看数据校验是ETL过程保障数据质量的重要手1数据校验记录文件获取与信息解析支持对数据抽取过程中记录的日志文件进行获取,并输入数据;2提供丰富的数据异常值校验、按照用户定义的逻辑规则校验等3提供灵活的数据支持对数据校验规则进行灵活定义,可以自定义数据校验规则结构;提供图形化数据校验规则设置功能,允许对校验规则进行维护、优化等处理4依托数据校验提供全面的数据质能够根据设置的数据校验与监控规则或算法,对接口级、字段级执行相应校验检查,并依据稽核和检查过程中发现的数据质量异常情况进行告警过程。记录级校验:主要包括提供字段类型、字段长度、数字精度、取值范围、1数据清洗规则2数据处理过程支持对数据处理过程的日志记录,记录的信息主要包括:元数据记录、转换后数据记录、运用的转换规则、转换的时间等内3内置丰富的数据处理组件的转换、字符编码转换;支持实时流数据的合并与计算;支持批量小文件合并;支持任意合理的数据类型转换;支持数据内容转换,如通过关联关系,将A数据源中的数据清洗为数据源B中的数据;支持多字段的混合运算,运算规则可灵活配置,包括但不限于:sum、max、min、avg等;支持各种字符操作,包括但不限于:字符替字符连接;支持记录和字段的抽取,支持对抽取的数据进行聚合。保证转换后的误差在规定的范围内;支持空值处理:捕获空值,根据规则替换为对应数据;支持数据格式化:统一数据源中同类数据的格式,具体包括时间、数值、字符、计量单位等数据;支持数据替换:根据规则用标准数据替换原来的数据,支持各种码表映射,例如用标准编码替换业务系统自定的编支持复杂条件过滤,过滤条件可灵活配置;支持数据去重处理,产品可按照用户定义的规则自动判断重复数据,并按照用户定义的规则处理重复的数据。;支持记录间合并、支持将一条记录按照可配置的规则拆分为多条记录;支持行、列变换;支持Flume等开源技术实现数据清洗;支持一个数据表中多个列的合并;支持数据脱敏,支持定制化的加密算法;支持跨异构数据库的关联;支持将多个异构数据表合并为一个表;支持将一个数据表拆分为多个数据表;支持多种规则排序;支持多种统计方式;具备度量衡等常用的转换函数;在转换过程中支持数据比较的功能;支持数据清洗及标准化;支持按行、按列的分组聚合;具备良好的参数处理机制等;ETL处理过程支持各种字符集的转换;支持敏感数据使用定制化加密算法;支持海量数据处理引擎,如Hive、MPP、Spark等4数据清洗异常处理支持定义外部数据记录的错误限制,如超过一定条数记录就抛出异常,中断处理流程;支持校验点,当外部数据记录特别庞大时,如果因为某种原因发生故障中断后,可以从最近的校验点开始恢复处理接口表元数据:《..4打破以往ETL过度依赖库内计算能力的来实现数据清洗操作的状况,依托并行计算硬编码图1.2-1公司BDPE产品基于硬编码实现数据清洗实现思路示意图码表映射;>统一字符集转换2.基于库外计算进行数据清洗围绕库外计算+并行处理来实现对大数据量、转换规模复杂类型转换处理应用场景字段分拆格式转换字符转换实时计算中心(流式计算引擎)接口机复杂类型转换处理库外计算+并行处理转换M/R0新建;遇用命等新建;遇用命等添加自部销据交支持主流关系型数据库DB2、Oracle、Teradata等、支持主流的MPP数据库Greenplum、Aster、Gbase、Vertica等、支持Hadoop生态的HDFS、HBase等2支持数据批量加载支持数据批量进行加载3支持多种加载模式与策略定义具备全量、实时、双加载;允许灵活定义加载策略;4支持文件落地和不落地两种存储落地加载是将数据源保存在ETL物理服务器中,进行中,不在物理机上保存而实现的加载。5支持自动和手工时,应提供操作界面以人工干预的方式来重新启动数6支持多任务并行具备支持数据的并行加载,即支持多个数据库连接同一加载任务的并发执行。7支持加载对象的具备加载对象的参数配置功能,将数据加载过程中需要设置的命令、参数、规则进行配置,控件会自动生成相应的可执行代码,来完成作业。8过滤具备基于数据属性值的过滤加载。9支持脚本加载事在加载实现过程中支持提供SQL、HQL、SHELL等不同类别的行为定义脚本,数据加载执行组件将根据定义行为脚本类型调起相应的脚本执行来加载到数据。支持数据加载对目标表的操作支持数据加载对目标表的追加、更新、删除等支持异构目标库多加载支持数据加载的错误限制支持数据加载的错误限制,如发现最多1000条错误数据记录时停止加载支持文件推送功能支持文件推送功能,具备将文件通过FTP/SFTP推送到外部系统,例如CRM/BOSS等提供丰富的数据态监控管理能力提供丰富的图形化界面设计和监控数据加载过程执行状态数据加载过程日志记录支持在数据加载过程中对数据记录条数、开始时间、(二)流式(实时)数据加载PO0.库内稻核巧和模功能说明1断点续传2一致性保证在数据加载过程中支持对信息集成器联合体服务器,源源OO1)文件到数据库当当方案时文件程FTP2)文件到HDFS当当新方案方案3)文件到HBase方案二:5)数据库到数据库可可案新方案三新方案四当前方案新方案6)数据库到HDFS当前方案新方案新方案当前方案:通过Sqoop读取数据写入HDFS,并做数据清洗,借助DISTCP将HDFS拷贝到目标HDFS。新方案一:通过高性能导出组件并行调用数据库底层接口抽取数据,借助HDFS高新方案二:通过Sqoop读取数据写入HDFS,并借助Spark做数据清洗,再写入目需要将数据库中的数据抽取加载到HBase中。当前的云化ETL不支持对流处理平台的数据加载,需要引入新技术支持此场景。案新方案一通过高性能抽取组件并行调用数据库底层接口抽取数据,在Spark中做数据清洗,新方案二通过Sqoop读取数据写入HDFS,借助HTLOAD做数据清洗并加载到HBase。1)流数据到数据库流处理新方案新方案新方案一2)流数据写入流流数据流数据KAFKA流数据3)流数据到HDFS需要引入新技术支持此场景。流处理案新方案新方案一流处理平台直接将数据写入HDFS。新方案二流数据处理平台将数据推送到kafka,借助Flume将Kafka中的消息写入4)流数据到HBase将流处理平台的数据加载到HBase。当前的云化ETL不支持对流处理平台的数据加新方案流处理平台将数据发送到kafka,用Flume来将Kafka中的数据写入HDFS,通过5)文件到流流转,支撑实时应用需求。当前的云化ETL不支持对流处理平台的数据加载,需要引入新方案:通过Flume实时监控采集文件数据,通过消息中间件Kafka将消息数据推6)流数据到文件统一调度通用调度YARN调度ETL调度1)流程配置基存ct0ctathtalmut/mC//m3m2C1.0Tspitisal//Drdulols-attpi//w..otahatat-tpe'atalstederalet*daralpet'd…suran"noui/Aaeaalato-1catsotdetaultbegroan0是>字典参数:参数来源是字典表中的某个字段值,有sql语句表示,系统可以自己替换,并生成多条命令并列执行。3)策略配置1)调度权限Job权限管理支持将多个相近job流程可以划分为一Job组333>Jo调度1Jal组333(2)人李超群个Job1权限读写人李超人李超读读读会工程组2)调度配置管理3)消息定制时),然后选择通知方式(邮件或短信);当job流程发生错误时,后台程序会自动的1)调度脚本置中和面孵物目胶新建:通用命令显1到1共1记录品显示前数值参数顺序参数类型是否显示前缀参数格式参数值2)调度存储过程3)调度外部程序系统公告展示区域JOBID[374]NAMECMD_远程执行OBID[374]NAMECMD_远程执行命令功能]02015-05-0510:41:27JOBID[469]NAMEFTP_采集_大批前台请求停止运行序列号(20150505102810952015-05-0510:29:27JOBID[443]NAMEORACLE_装载_3JOBID[443]NAMEORACLE_装载_多JOBID[374]NAMECMD_远程执行0执行一个程序开发管理平台开发配置的函数系统封装好的函数资源情况、心跳反馈资源反馈,心跳反馈到消息总线机制执行一个操作系统的命令清晰转换的功能文件记录级清新转换跨平台(aster、spark、不同的平台需要一些个性化的函数任务积压,异常管理agent宕机,重启等..10任务状态更新当agent执行完一个任务会给消息总线发送一个事件或外部系统给消息总线发送后续任务的状态的更新算法如下:后续任务依赖的前置的任务的状态全部为完..11任务运行报告00t所有入员日王晓段4个入*城#入,加入入度入入,入率#入率入4x46个,入城#入支持主Server和备用Server通过前台页面点击添加节点,选择节点类型(备用Server或者Agent),选择及从Agent。执行命令在执行任务过程中,如果主ServerA异常,当备用ServerB启动后,Magent根返回B想要知道的任务执行情况,从而B可以接管A的所有工作,从而实现代理的异常..22Agent监听是指Server定时发送消息给Magent,Agent如果处于正常活动状态,Magent会立刻返回消息作为应答,告诉Server当前Agent运行正常;如果Agent运行Agent监听时序图如下:程运行进度日志是实时的,需要用户在设定执行命令时,增加日从Agent分为进程执行agent和日志获取agent;从agent运行时存放在线程池中,线程池最大线程数可以在第一次安装agent时设定;进程执行=从agent是调用进程执要查询相应日志时才启动。线程池中的活跃线程会实时的被magent获取并返回给开始开始返回日志包装日志度点和12点执行。1J重4J个4本件8器关田关田jobl生处时间2014年05月23日094923失处时间jpb1与条件触发关系:2013年01月01日0949.23保关田提供临时调度方式(用于测试、调优、重新执行),由用户手工执行。消息服务器<如果用户选择了Job流程类定制,还需要选择定制级别(提示,告警,错误,延时),然后选择通知方式(邮件或短信);当Job流程发生错误时,后台程序会自动的根据用调度API。2.对外接口ETL系统需要对面提供调度和ETL处理过程能力,外部系统可以通过API,表接口等方式和ETL系统完成功能衔接。ETL系统需要通过API接口对外提供调度与ETL处理能力,输入参数:函数名称功能说明执行调度执行一个存在的调度新建一个调度2)表配置接口ETL系统可以通过表接口方式对外提供功能调度字段名字段类型Soapurl:http://IP:port/etl/servce调用输入参数:名称类型job编码周期类型开始时间下次开始时间o经分主库工作C区jobC1jobD1事件前触发是指某一个任务/作业流程依赖于外部数据插进行触发。当外部数据插入事件触发表后,同时系统对任务/作业事件后触发是指外部系统程序的启动依赖于任务/作业流完成,当任务/作业流程中该执行任务节点执行完成后,..30条件依赖是指某一个任务/作业流程依赖于一个或几通过后,依赖的任务/作业流程根据调度系统中的流程id和数据日期立即执行一次调度u度朵件发调务,日可以执行;月依赖日,即日完成每月最后一天的调循环调度指在生效时间内,任务/作业运行完毕后又重新运行,进行循环操作,直生效时间:2014年01月01日00:00:00失效时间:2014年01月01日00:00:002.为了满足一个任务/作业的执行可以依赖多种组合调度就是将几种触发方式按照与或两种关与表示各个触发条件都满足,该任务/作业才能触发执行,或表示各个触发条件只需要满足其中一个,任务/作业就可以触发执行,同时与和或的关系也可以同时设定,与的关系,同时和事件触发组成或的关系,事件触发条件满足时,该任务/作业流程可jpojpo-Weaanng加条件job-wendang-011J0Bjobwendang20制,如配置了最早运行时间是9:00,最迟运行时间是12:00,则如果当前时间BBPE大数据处理与交换平台t□dQ921核1s6210os日10os目10os日2015-的n30002015-0-1s11.3002213-.000006213-01.0000098150501.0000062015-52015-0490400002013--2015-5.0410.2013-05-02013-050910442013--0JobJob监控详细信息停Be节点重2014-08-2615:43:31正在与服务器建立连接2014-08-2615:43:32与服务器连接建立成力,请等待回数据…)xyjob40所在位匮系统公告展示区域时标为已读标为未读信息生成时问JOBID[374]NAME[CMD_远程执JOBID[374]NAME[CMD_远程执JOBID[469]NAME[FTP_采集_大前台请求停止运行序列号[2015050510281095JOBID[443]NAME[ORACLE_装载_JOBID[443]NAME[ORACLE_装载_JOBID[374]NAME[CMD_远程执4第1>正在运行:这种状态是最正常的,表示流程正在调度中。>运行成功:任务正常运行成功。2013年09月25日12.56.09区行状历史信息环境/参具件上线上线.产品首页集中展现了包括作业监控、任务监控、流程监控控、主机运行状况以及我所关注的JOB在内的信息。用户可通过首页快速、直观获取相停停2示1邪共seO0开发前台北京法量系练E机开发专用1)流程设计2)调度配置08m20+选:星否可以开行言可手工+选:星否可以开行言可手工3)流程管理通过流程管理模块实现对流程的查询、删除、加锁/解锁操作,并实现对JOB执行*s44)流程监控通过流程监控的可视化界面实现对JOB组及重点现JOB总数、运行数、完成数、挂起数、延时数等信息。通过可查询JOB作业的状态、进度、节点总数、成功数等信息。可通过手工田口92控系**5)集群监控数据处理与交换平台2015年06月9目10-21:6412013年09月25日12.56.09今m件运状R历史信息6)系统管理组管理、FTP管理、系统设置、应用管理、JOB流程审批、日志查询等管理功能。系统0理中率加用用国iT开x号8.nn试用H0具口m理7)模板管理BDPE产品通过构建和利用模版高效建立job流程,提升系统job构建流程。ETL模板是一个特殊的job流程,不可运行。新建模板新建模板×其摩相板其摩相板显子0致0,#记录旦旦Q1)事前数据质量监控2)事中任务执行监控寻找出指标处理路径上的程序、接口节点,在根据每个处理过程节点的质量监控检测,发现有问题的处理环节,以帮助快速定位,能帮助运维人员快速处理。BDPE产品可以记录告警信息,告警信息可以在日志文件中被查看到,或通过图形化界面的方式展示。告警记录具体信息应包括:告警名称、类别、严重性、告警具体内容等。告警信息可通过短信、邮件等方式及时发送给监控人员。同时,提供对数据处理流程中所有的任务总数、运行数、完成数、挂起数、延时数等信息进行监控分析和对调度中心的集群监控功能实现对Server、Agent服务器的监控,如服务器的内存使用率、I/0吞吐量、CPU使用率、物理机器资源占用等信息进行分析3)事后分析日志监控提供对所有操作的日志记录及查看功能,如应支持审计日志、错误诊断日志、跟踪日志(会话级)等日志类型,并提供针对整个数据处理过程的基于日志的数据统计与分析。…1一………1111!11…气a在进行集群扩展时(如增加节点),不应对现有节点造成影响。访问控制区只可工作区jobB1jobB2jobC2作业调度关系,即可实现多系统、多用户的协同调度。目前公司BDPE软件提供时间触时间触发R循环触发插环接作,直至obt到失效时间条件触发几个的置的job施程的完周进行校发盈事件触发外配入性触发表,后台根组合触发提供同时置多个腔发规则,触发则间提供与成关系..4支持对于包括.rar,.zip,.gz等压缩文件数据的不解压读取,减少压缩与解压带布式处理,首先将依据事先设定的文件拆分策略(策略也可以人工调整),将大数据文件进行拆分,并给各个节点,然后对拆分后的所有小文件同时进行采集、转换和加载,FTP采集FTP采集哦1.不落地加载PO0.处理深度分析云接口机ETL平台库内相核库内稻核源源订回aa499t调度调度监控流程组件Hadoop组件计算组件功能组件√支持脏读;√支持数据去重;√支持记录拆分;√支持字段拆分;√支持行列变换;√支持多种规则排序;√支持多种统计运算;√支持数据预览;√支持参数化配置;√支持各种字符集;√执行性能统计;√显示任务调度状态;√系统资源使用情况;√错误与异常信息;在进行集群扩展时(如增加节点),不会对现有节点造成影响;时间(MTTR)需小于2小时;可为用户解决把内容推荐给谁的问题,即使是仅基于用户注册信息(如:兴趣爱好)的1.提升用户需求的深度洞察能力2.提升视频、新闻等内容的精准推荐能力3.提升面向客户的产品精细化运营和服务能力4.提升产品的用户体验、用户粘性、用户规模用户面信管理慕统用户断查海内容推醇累统应用体系数据处理数据√挖掘信息:身份特征(家庭主妇、外籍人士等);人生阶段(大学青年、);从事职业(教育专家、);个人爱好(党史迷、电影达人等)。社会属性指用户近三个月使用公司产品时(例如观看点播视频):1)80%(含)以上的视频均是该视频上架后的24小时(含)内被该用户观看,得满分10分;2)80%(含)以上的视频均是该视频上架后超过96小时(含)被该用户观看,得0分;1)直接映射的方式2)规则判断的方式平台支持通过界面编辑标签值提取规则(正则表达式),历史视频中只有1次的时间差(视频上映时间与用户实际观看时间)为1周以内(假设一般次数至少要3次以上(具体多少次要根据业务对准确性的要求决定)。2)集中度史视频中有8次的时间差在1周以内,2次的时间差在1周以上,则可以把该用户“追体系),但不知道每个标签的具体统计口径(规则)的情况。模型挖掘类标签生成属于的构建和社会属性类标签的构建。仍以“追新型”标签的生成为例,假设开始并不知1)通过设定正负样本数据,利用决策树算法找出正样本数据的关键特征规则。为数据定义为负样本,然后通过决策树算法,找出正样本(“追新型”用户群)的关键特征规则,最后将这些关键特征规则自动转换成“追2)通过关联分析或协同过滤算法,预测用户是否为某标签的潜在用户。主要用于利用用户的历史行为数据内容无法直接用用用户的历史行为数据判断某个用户是否为“阿里旺旺的潜在用户”,这时可以采用协有潜在需求为例。先统计购买Iphone6的人群接着又购买了什么(假设大部分人都会购买Iphone6手机壳、手机贴膜),然后建立Iphone6与这些物品(Iphone6手机壳、手机贴膜)之间的关联度,最后将购买了Iphone6,但没有购买与Iphone6关联度高的其“Iphone6手机贴膜潜在用户”。生成分析图选一个或析一个或确定分析主属性编码属性名称属性描述属性类型备注唯一标示TOP02绵这道舌动,0元的机¥★近6个月ARIU:234,243,423,42食据过出用户近6个月几A平均使用时长(份钟)12580营兴百科15元半年也即将到期用户频繁升级投雨用户好友计规错在客户期抉机过的月户是换三流终端后使用时间在4-6个月★中异动客户在同时长一午九个月以内tt当前用户为:VIP用户标等分营数据层计算晨功能慧客户分听所 a健(MoicoDB)用户的类生成机器学习&法09写地目分言,员工99+相·/·础营销导航标答市营销导航标答市0产品订的餐分责凌量订购加订购用户日上月件订购户月查询标签分类新建标签分类数据状态为已生效(无子标签)可以进行删除操作。标签检索新建标签标签编辑①①标签②部门滕导审批(③信息市核④款据处理⑤t5成标签删除新增标签gg签8户经■中思8户经■中思诉答停用标签下线标签修改标签修改标签修改标签删除标签搜索O0度创建客户群早已选4个创建客户群u画w-r的用户群。创建为一个用户群。可导入清单的附加属性。静入的建言广丽静入的建言广丽客户分向:@相似用户群ynunL0413_001清章列康的建客户懈-0413-条伴设置×已选条件[已选青单:101405]喜户样男性(翻译)[已选青单:301405]l已选择录件抗州师范学院首乐美×学院物江教学院机州师范字院古汤校区用户群剔除ynh_0413.000_清单列用户群:2喀户群已选青单:20145]且用户群:富户群胜()已选清单:211405]且所在学校已选条件:0X支付类型单个存支付类型记选择条件:1,248,16,3.64,128,256,512]0X2选择标基2个用户群抽样最置现则最置现则厂金能和r日期200年月户姓明1>用户群清单霉户事力级人键1-11共辈省中心操作通财付通控卡0件Ct器卡查州二进制8组合保存客户料力红人:2015-0417170841管理员11-1组房1非共罩1作·大于小于0001女效u:户e1分研服分析口w用户可以将多个自助分析工作表保存为分析报告,分析报告可以被该用户群套用以生成不同周期清单的分析结果,分析报告也可以被其他规则相似的用户群套用。..20用户画像p数据库中,Hbase本身能够提供大数据量结构化和非结构化数据的高速读写操作,为高了用户画像查询的速度。在在1亿用户情况下,画像结果查询速度不超过2秒。全用户全用户通设更多排行榜基强M门标答系统熟门客户器最新发布标签最新发布右广器基强M门标答系统熟门客户器最新发布标签最新发布右广器2结移动我据上F量(月)互研月-份应用访量(月)基本露的生效口#(月)MA-级内音访用户(月)i静#vLA6J购用户日)显示所有当前用户设置收藏的标签和用户群。默认显示按照收藏时间从近到远排列。显示信息和操作功能列表与标签和用户群搜索列表相同。并提供取消收藏的功能。6E客户器收藏操消息管理产品提供系统消息及公告的管理功能。该功能模块为登录人提供个人的业务信息查看功能,包含系统公告、个人通知等。用户登录系统后可在消息管理页面查看到所有发送给自己的个人通知和系统公告,系统公告的类型包括:标签发布、新功能上线、标签下线。系统还提供个人消息通知设定功能。用户可自行选择是否接收某类消息。内西内西个人通知em0mt系统帮助系统各页面均提供帮助悬浮功能,提供进入“我的收藏”快速链接;提供“30s操作”,帮助用户快速了解如何使用系统;提供“返回顶部”功能。“30s会操作”功能,是采用下一步提示图片结合备注文字,指导用户如何使用系统快速创建用户群,快速帮助用户了解用户群生成全流程。验,外部如电信行业(典型企业如中国移动等运营商);内部如传媒业(典型企业如各(内容管理系统)剪切(视频管理)文件属性:内在属性b1内在属性a2关系属性A2关系属性文件属性内在属性b2相同/相近关内容所属的又件标识及状态标识从内容制作、修改,到尼终审核发布的各节点时间内容的制作入、编辑、责任人等相关干系人信息内容出版单位、授权人等相关版权信息内容码率、播放时长等制作信息从内容原文口提炼出的用于描述内容的相关信息,包活:人物、时间、地点等基于内容描述信息定义的内容题材分类,包括政治、军事、财经等基于内容描述信息定义的内容情节分类,包括爱情、喜剧等基于内容描述信息定义的内容形态分类,包括新闻、赛事、纪录片等内容的从属关系,如:旧属栏目、归属频道等内容描述信息中存在相同值或相近值的内容基于自定义规则从而存在相关性内容;基于数据挖据发现的相关内容标识信息时间信息干系人信息制作信息资料提供人(来源)简介副标题短语引语地点人物数字语言政治环保外交教育工业环境农业汽车能源艺术贸易动漫财经亲子人事公益读书文史武保战争历史家庭警匪神话悬疑穿越谈话动画谈话动画电视剧真人秀从属关系相同/相近关系相关关系归属频道自定义相关规则(如:快乐大本营与何灵)归属栏目挖掘相关规则(如:啤酒和尿布)以上仅是从三个层面界定内容标签库,部分标签还可以根据实际情况进行逐级细化至原子化标签。内容标签框架文作属性内在属性标识信息时间信息于系入信息版权信息内容操述村政内容题材体育甲阿森的科教关系属性内容情节和同/相透关系相关关系分类标引人名标引地名标引短文本标引引语标引时间标引数字标引机构标引1.单条数据标引新媒体云平台CMS在发布新内容页(图文内容、音频内容、视频内容等)时,会2.历史数据回溯首先,新闻网资源池推送给标引服务的所有内容页描述数据,构成了新媒体云平利用最新业务规则分析历史数据库中的所有数据,所有符合ngsmf0ngsmf0大客户应用端大数据新闻可视化应用系统大数据新闻可视化应用系统结构化标签数据存储数据结构化服务系统知识库互联网数据监拉采集外部数据API传入知识管理特征库运营系统非结构化数据存储大数据新闻素材库标引系统数据传入库通用库.■特征词姓氏目收录各类事件标引所需要的关键特征词,先按事件的类型分为:社会事件库事件库一水灾流量特征词水_件随灾害水_灾后疫情防控水灾水灾类别自二水灾助汛物资作用■本体实例库金融业目■体实例库批发和零售业目标引识别引擎API接口上传下传3)推荐的用户:新用户(区分登录用户和未登录用户)、老用户(区分登录用户和未登录用户);4)推荐的场景:具备登录后、播放后、加载页面后(底层页)等不同场景下的5)推荐计算结果:可视化;7)推荐效果:可评估、可优化;8)推荐计算实时性:热点/个性化/关联推荐结果按天.4.3.1(实时更新)推荐列表b滤偏好匹配关联匹配个按比例权重过按热度过滤dC/a荐列表;4.将存在关联关系的内容标签与用户偏好进行匹配,生成基于用户偏好的个性化关联内容推荐列表。非首次陆/访问权重内容abCde品内容列表进行组合推荐;组合推荐功能模块支持对推荐场景的扩展需求,针对不同场景的特点,可在后台进行组合推荐规则设置,同时可以配置在推荐结果中保存的字段信息(如:内容ID、内容关于推荐结果选取权重动态调整规则——以首次播放推荐的场景为例:说明初始比例设定:关联内容推荐列表(R)初始比例设定:新上架内容清单(N)第1次推荐个数:关联内容推荐列表(R)第1次推荐个数:新上架内容清单(N)3推荐N次后的内容转化率:关联内容推荐列表(R)分子:R中点击的内容个数(万个)分母:R中推荐的内容总数(万个)推荐N次后的内容转化率:新上架内容清单(N)分子:N中点击的内容个数(万个)分母:N中推荐的内容总数(万个)计算公式:(Xo+Xn)/(Xo+Xn+Yo+Yn)计算公式:(Yo+Yn)/(Xo+Xn+Yo+Yn)第N+1次推荐个数:关联内容推荐列表(R)四舍五入第N+1次推荐个数:新上架内容清单(N)5四舍五入(一)登录推荐用户无浏览记录:新品推荐结果(不存在冷启动)+热门推荐结果(不存在冷启动);>用户有浏览记录:新品推荐结果(同上)+热门推荐结果(同上)+个性化推(二)播放后推荐>用户无浏览记录:关联推荐结果(存在冷启续产生结果);新品推荐结果(不存在冷启动)+热门推荐结果(不存在冷启动),作为补充>用户有浏览记录:关联推荐结果(存在冷启动第一次不产生推荐结果,后续按算法产生结果);新品推荐(同上)+热门推荐(同上),作为补充。.4.3.6推荐通过设定规则,包括:去重、关键词过滤、敏感词过滤、用户浏览/播放记录过滤(按场景)个(按场景)个推荐系统根据配置的过滤规则,对待推荐列表中的内容进行过滤,输出推荐结果;当生成的最终推荐效果小于一定数量时(如10个),支持重新读取待推荐列表将.4.3.7推荐结果并发查询全量推荐结果写入Hbase活跃用户推荐结果缓存在Redis中,与Hbase全量数据进行关联同步。优势劣势数据)储数据)(推荐方案)(热点数据)复上片20327.8TAB页显示详列明4.系统自身原因(I0、内存溢出等)导致数据处理异常时,进行.4.4.1应用层推荐计算数据源数据指标集通过数据预处理程序输出的基于政务云用户内容标签用户标签度建立用户标签体系,对用户进行精准画像,画像结果支撑内容推荐计算。个性化推荐基于用户的内容偏好,使用协同过滤算法生成热门推荐>推荐结果查询服务个性化推荐组合推荐景(登录后、播放后等)生成待推荐列表推荐效果评估推荐结果优化1.3项目进度计划为有效地进行资源、进度和质量等方面的控制,确顾问共同组成咨询和实施小组,按照项目管理的原则进行实施,建立一套科学、系统、项目组具体分为项目经理、技术总监、项目管理双方参与人员项目领导小组XX客户高层与公司高层管理人员各一名项目开发和实施过程中重大事件的决策。项目管理组公司负责项目的进度跟踪、质量控制、层领导汇报项目进展。公司项目技术负责人术指导和整体把握。项目执行机构项目经理与公司高级项目经理各一名进行本项目的具体管理和实施工作。双方参与人员公司全面负责整个项目的质量管理、工等的制定。公司全面负责建立和维护项目配置库、制、负责变更管理、版本管理和发布管理。需求分析组公司、XX客户各

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论