




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2.1规范定义 62.2投标方所提供的所有系统设备(包括软、硬件)应满足以下技术标准要求 72.3对投标方的建议书要求 82.4配置原则 3项目概述 3.1项目背景 3.2项目目标 4总体技术要求 4.1总体要求 4.2.1基本要求 功能性要求 15系统应具备高可靠性 系统应具备安全性 17开放性要求 系统应易于使用 系统可维护性要求 系统完备性要求 系统可测试性要求 系统易安装性要求 210设备其他要求 21 212设备安全性要求 223设备供电及运行环境 5详细技术要求 275.3.1大数据处理子平台要求 5.3.3外部服务能力子平台要求 55 585.3.5其他要求 675.4集成方案要求 6软硬件要求 6.1软件要求 7项目管理要求 7.1项目组织 75 767.3文件文档 76 8.1安装和调试 77 78 9.1技术服务 9.2技术培训 10进度安排 11技术文件 2.2海量数据存储 2.3并行计算能力 4.1功能模块总述 4.2大数据处理子平台 4.2.1多租户能力 934.2.2标签服务 4.3数据汇聚子平台 4.3.1宽带DP/数据采集清洗 4.3.236DP/数据采集清洗 4.3.3AAA数据采集清洗 4.3.40/DD数据采集清洗 4.3.50DS数据采集清洗 4.3.6数据脱敏 1094.3.7数据加密 4.3.8数据ETL处理 4.4.1标签查询服务 4.4.2DSP厂商程序接入 4.4.3厂商作业性能优化 4.4.4交互式SQL查询 4.4.5在线报表 4.1.信息推送子平台 4.1.1.流量分发模块 1154.1.2.流量分发规则 4.1.3.广告提单管理 4.1.4.广告引导管理 1214.1.5.广告计划检索 4.1.6.内部业务支撑 1、服务简述 3、服务原则 139 6、服务明细 6.1服务类型 6.2日常服务 6.3现场服务 随着移动互联网的快速发展,TB~PB级别交易数据、网络流量、运营日志等海量数据已经诞生,如何分析海量规模、结构多样和流量超大的数据,电信运营商面临巨大的挑战。●技术革命势在必行C/S以及B/S架构的第二代数据处理技术,无法胜任大数据时代的要求。C/S以及B/S架构的弊端显而易见,它导致了服务器数量大幅增加、资金和运营成本的急剧攀升。越来越复杂的数据中心很难快速配置和有效管理以满足不断变化的需求。而且由于应用程序的工作负载是不断变化的,专用于单一应用程序的服务器通常得不到充分利用。分布式云计算第三代数据处理技术,采用分散存储和并行计算等革命性技术,为海量数据处理提供最佳解决方案。云计算的核心就是数据中心,实现云计算的硬件设备主要是成千上万的工业标准服务器,通过这些服务器之间的协同工作,提高服务器的使用效率,并改变传统的IT交付方式,使客户可以按需、自助地使用IT资源。●浙江电信大数据运营平台中国电信作为一个领先的互联网运营商,参与互联网广告行业的优势在于:广告业需求的用户全局唯一标识的资源;拥有用户全局的HTTP访问请求及返回的最细数据粒度;拥有强大的计算资源;拥有高速带宽资源。浙江电信根据中国电信市场[2013]86号文《关于开展“大数据RTB广告业务”试点工作通知》,要求按照RTB试点业务要求,完成浙江电信大数据运营平台建设,为广告媒体运营提供高并发、快速响应的数据服务能力。1技术规格偏离表应答序号货物名称招标文件条目号投标规格偏离说明无无无 2.2投标方所提供的所有系统设备(包括软、硬件)应满足以下技术标准要求2.3对投标方的建议书要求2.4配置原则2.5报价要求三方。经中国电信股份有限公司浙江分公司书面许可,应标商才允3项目概述3.1项目背景3.2项目目标8)投标人应根据买方的业务需求及相关的技术规划要求,提出完整的项目1)要求采用Hadoop分布式处理架构,符合未来大数据管理技术的发展潮2)具有支持结构化、半结构化以及非结构化数据处理能力,支持多种多样3)支持多语种,支持UNICODE标准满足中文及多字节编码需要,支持中文功能性要求5)支持文本分析处理技术,能够存储、索引和分析大规模的非结构化文本6)具有机器学习与数据挖掘的能力。7)支持多种运算框架和接口,如MapReduce,支持JDBC,ODBCdriver,能系统应具备高可靠性1)投标方应向需求方提供成熟的、容错性和易恢复性俱佳的系统。2)具有软件容错机制,包括数据库、日志镜像、自动恢复和集群机制,具3)系统必须支持连续7×24小时不间断地工作,不存在单点故障的问题。4)系统应具备静态过负荷控制和动态过负荷控制两种过负荷控制的能力,5)软件故障情况下,系统应具备故障守护恢复机制,即当发生一般性软件6)系统能够正确识别外围系统发的错误请求及重复请求,避免出现一些不1)系统需要划分安全域并进行隔离,同时建立完善的网络安全机制,这些2)系统必须采取数据访问控制等措施来保证数据的安全。系统对用户数据3)系统应具备访问权限的识别和控制功能,根据不同的应用需求提供多级4)有良好的错误处理和恢复机制,以保证数据的完整性和一致性。5)支持数据传输通道和数据加密等保密机制,企业级安全认证机制支持随6)支持第三方的成熟商业安全审计系统集成与监管。开放性要求系统应易于使用1)系统应易于安装和使用,具备风格一致用户界面,且用户界面应为中文2)系统应具备完善的联机帮助功能。3)随系统提交的产品文件必须包括完善的、针对不同级别用户的应用系统4)应用系统必须提供一致性的图形用户界面风格。5)应用系统必须支持同时打开多个管理窗口以对不同任务进行并行的操6)应用系统应该支持通过Tab键或回车键可以访问到同一个窗口的所有控7)应用系统应该支持对于常用功能设置快捷键以方便功能间的切换;快捷8)在导致系统数据发生变化的操作执行之前,系统应该弹出提示窗口供用9)应用系统功能菜单必须按照功能域、功能组的分类方法进行组织。10)系统必须提供在线帮助功能,对于每一个操作功能都能查找到相应的详系统易安装性要求0设备其他要求1网管要求2)要求支持分级网管和虚拟网管,要求支持本地控制口以及远程配置和管2设备安全性要求3设备供电及运行环境(1)温度:10~30℃(2)相对湿度:20%~80%(1)对于投标人提供的落地型设备,当体积较大、重量较大且易滑动或易倾倒,设备应具备抗震加固特性。本项目抗震设防烈度按8度考虑。投标人应(2)投标人须在点对点应答中详细说明各种投标设备的尺寸。(3)投标人须在点对点应答中详细说明各种设备的重量(Kg)及对机房地1)引入实时数据采集技术(如Flume等)2)引入实时流处理消息中间件(如Kafka等)3)引入实时流处理技术(如Storm等)4)引入实时消息(数据)同步技术。>支持DSP厂商>10个数据批处理时间<5小时>3GDPI数据保存6个月5.2方案要求5.3平台要求5.3.1大数据处理子平台要求多租户能力要求.1平台安全要求数据访问控制(Token)1.系统支持基于多租户的资源管理,可以为每个租户分配独立的存储空间(HDFS)和计算资源(MRSlot),实现资源独立,如下图所示:答复:满足。2.HDFS管理,可以配置用户的HDFS信息。HDFS信息包括:2)可用文件数3)空间限额4)可用空间5)用户目录7)文件数8)文件总大小3.MapReduce管理,可以增加、删除或修改队列信息。队列信息包括:2)容量设置3)可用容量4)最大容量5)是否支持job优先级6)用户资源百分比限制7)用户可占队列容量系数8)队列中并发task上限值9)每个用户并发task上限值10)每个队列中可容纳job总数的系数11)初始化后并发执行的job数4.资源套餐管理,系统可以设置资源套餐,套餐内容包含存储空间(HDFS)和计>字段级访问权限答复:满足。1)表名2)所属数据库3)操作权限,包括八种权限:—Alter(修改表结构)—Update(修改数据)—Create(创建)—Lock(锁定或解除表)—Select(访问数据)—Drop(删除)—Index(创建索引)—ShowDataBase(查看可用数据库)答复:满足。Hbase表权限管理内容包括:用户不能查看Hbase中非授权表的内容。答复:满足。●多个用户可以同时操作同一个指定的表;答复:满足。答复:满足。●用户可以增加/修改/删除HBASE表里的字段,也可以增加/修改/删除HBASE表里字段的内容。●Hbase表权限管理内容包括:1)表名3)操作权限,包括四种权限:—R(只读)—W(可写)—C(创建修改删除)系统通过授权文件Token可以实现字段级控制,如下图所示:SourceRequestURLDestinationIPhttp:///.4平台统一管理要求.4.1集群参数配置集群参数包含:—集群名称—备机名称—备机IP.4.2节点参数配置—节点名称一节点地址.4.3组件参数配置1)用户名称2)群组名称.5集中监控告警管理要求.5.1节点运行状态监控—内存使用率—硬盘使用率。1)查看HDFS概况,包括:剩余容量:当集群HDFS处于运行状态时显示,记录当前集群的剩余数据存数据节点:当前集群的HDFS配置的总数据节点数量及当前正在运显示HDFS文件系统的文件参数(名称/用户/组/权限/文件大小/修改日期/1)查看HIVE概况,包括:2)业务表浏览1)节点磁盘空间不足:系统在出现某个节点磁盘空间不足的情况报警。2)群集HDFS磁盘不足:群集中单个节点空间足够,但群集HDFS磁盘空间不足时4)节点内存不足:节点在内存不足情况报警。5)服务异常告警:监测HDFS,HIVE,HBASE,Zookeeper等各个关键服务的运行状7)网络故障告警:当发现某些节点的网络连接异常,将输出网络故障信息。1.数据出售类产品通过对电信数据资源进行脱敏、加行出售。这类数据产品根据数据所涉及的地理属性,分为全国性数据和2.数据咨询类产品通过对数据的分析、挖掘,面向不同的行业提供咨询类4.解决方案产品这类产品只面向合作伙伴,因为解决方案类产品需要结合.6.4结算管理结算管理应涵盖以下功能:1.外部结算管理对合作伙伴的结算管理,根据合同,收入完成情况等要素对合作伙伴进行费用结算。2.内部结算依据考核计划、考核结果、关联收入完成情况、数据使用情况等进行收入结算。答复:满足。3.结算包括现金结算、转账结算、结算公式管理、结算期限管理等。答复:满足。结算的费用种类包括了两大类:大数据平台查询服务费用结算和大数据平台资源使用费用结算。>大数据平台的查询服务可按照查询次数或者包月服务来计费;答复:满足。>大数据平台的资源使用包括了存储、运算和数据三类,其中数据资源根据字段和使用记录数来计费,存储和运算资源则可以采用租费的结算方式。答复:满足。1.宽带DPI数据流经过实时数据处理后,支持多个同步标签的服务程序。3.通过字段级Token控制,实现离线标签数据处理可以访问的字段类型,从而厂商3厂商4厂商64、宽带DPI数据流输出要求:大数据平台实时采集清洗宽带DPI数据流,处理流程如下图所示:处理流程说明如下:1.Kafka消息系统实时接收前端宽带DPI数据流;2.Kafka消息系统将接收到的宽带DPI数据流分发至同步标签和实时入库3.同步标签模块采用Storm组件实时处理宽带DPI数据流,为宽带DPI数据流打上标签。4.实时入库模块采用Storm组件将宽带DPI数据流以文件形式写入云平台HDFS,后续可以对宽带DPI文件进行离线标签处理。1、3GDPI数据采集清洗网络架构如下:3GDPI设备大数据平台答复:满足。2、系统通过FTP方式采集3GDPI文件。AAA数据采集清洗IP地址和AD账号的数据原始信息,完成用户上网记录身份的辨识。PairsUserNameFramedIPAddressAcctStatusTypeOIDD数据采集清洗_ _ lnformationdatatypeprodinstnum starttime basestationstringstringstringstringstringstring#DetailedTablelnformationDatabase:oiddODS数据采集清洗3、ODS文件通过分布式ETL工具Kettle写入HDFS答复:满足。__guangwangflagaconnectcollegeagrmntconstexpdtbalancepisubstattpupdatestatusIstupdatetmplng(帐号<加密>)(用户年龄)(用户性别)(用户类型)(用户所属区域)(费用范围描述)(宽带访问类型)(活跃操作频度)(套餐类型)(是否光钎标记)(协议有效日期)(是否在用)(更新状态)(最后更新日期)(经度)lnformationdatatype#DetailedTablelnformationDatabase:ods从实现手段上看,针对不同的数据内容Hadoop需脱脱敏后宽带设备号实际adsha加密结果(该算法不可反实际年龄年龄段信息,如5年一段,取起始数值显示,如25表示25-29用户地址实际地址,精确到户小区、楼盘或商圈信息,如大宁商圈位置经纬度实际经纬度精确到0.001,约1000平方米,注:Ing*lat=0.001*0.001(度)=约95.18_用户姓名实际姓名仅保留用户姓氏用户消费情况实际消费金额每150元一档:0(表示0-149),…解密数据HDFSHDFSHDFSHDFSHDFS数据块数据块数据块数据块数据块2.数据加密不修改HDFS内核,不影响将来HDFS的升级维护。3.数据加密后,保证HDFS数据透明SQL8.平台提供ETL作业管理功能,管理操作包括新增、修改、删除、重命名、发答复:满足。1.话单数据抽取:保证抽取效率以及稳定性,能够在大数据量处理能力的情况下保证系统的连续性,对异常进行容错性处理,对处理不了的异常也要有完整的日志记录以便后续的查证。答复:满足。2.非话单数据抽取:满足多种数据类型的处理能力、另外在作业调度上也要有完善的调度机制、以及一旦发生问题之后的数据隔离能力。答复:满足。.1.2数据清洗1.不完整的数据:如果缺失的字段是关键字段如设备标示、访问url等信息,则进行过滤并返回给源系统;如果是一些非关键字段则直接入库。答复:满足。2.错误的数据:如果是类似全角数字字符、字符串数据后面有一个回车操作、日期格式不正确等可修复的错误数据,直接修复后入库;如果是设备标示位数不够等不可修复的错误数据,进行过滤并记录错误日志。答复:满足。是所有字段重复的数据,对于这两类数据都需要进行数据过滤,针对第一类数据还需要向源数据系统进行反复确认后再补数据入库。答复:满足。1.需要实现基于hadoop的数据转换和处理,目前的hadoop数据仓库处理手段还是比较丰富的,有pighsqlmapreduce1.将完成转换的伪CDR话单数据并发写入HIVE/HBASE数据库。1)基本的数据库查询2)判断表以及列、操作系统文件是否存在3)从URL接收查询4)使用Web服务查询信息5)使用数据流中的值作为参数来执行一个数据库查询6)流查询:从转换中其他流里查询值1)值映射、分组、去重、拆分字段、行列转换2)复制行3)正则表达式2)写日志3)发送邮件4)从POPServer获取邮件并保存在本地5)比较文件夹、文件6)创建、复制、移动、删除、压缩文件7)从HTTP获取或者上传文件8)操作延迟等待作业智能排队调度要求.1作业灵活调度.2资源智能调整5.3.3外部服务能力子平台要求总体要求标签查询服务.1分布式K-V数据库5.系统管理采用基于Token(令牌)的用户身份验证机制,使用户在访问受保护的2)携带已获取的Token查询有权限的数据标签可以设置,缺省设置为30分钟。5.3.4信息推送子平台要求根据业务需要,精确控制将符合业务需要的流量转发到特定服务器上进行处理,同时可以实现同一份流量根据配置转发多份到不同的服务器上。具体的流量转发规则可以灵活设置。可以配置只转发特定域名或url的报文,实现流量的精细化控制。同时,域名和URL支持加*实现模糊匹配。◆转发总流量控制通过设置预算的方式,可以控制转发的总流量大小。例如希望只转发50CPM的百度搜索流量到server1上,可以设置预算为50元,每CPM出价1元,精确控制只往server1上转发50个CPM。◆频次控制系统支持根据ADSL或IP进行频次控制,即可以控制每个ADSL用户或每个IP用户的流量只被转发1次到特定server上。◆定向策略控制系统提供了多种定向策略,实现流量的差异化控制,如地域定向、人群定向。其中地域定向,可以实现根据IP判断网民所在地区,实现只将特定地区的用户流量进行分发。如杭州某企业用户可能只希望了解杭州地区的网民搜索行为,可以通过地域设置只转发杭州的流量到该企业的服务器上进行数据分析,一方面减轻了下游企业的服务器压力,另一方面最大限度保护了其他地区的用户隐私,降低运营商数据的流量浪费。答复:满足。◆黑名单控制可以通过配置IP和ADSL黑名单的策略,实现不转发特定IP或ADSL用户的流量,保障这部分用户的体验和隐私数据。答复:满足。广告推送模块是该系统的核心模块,根据各种设置项实现运营商流量的广告营销策略,帮助运营商实现流量变现。答复:满足。◆广告主账号管理管理员账号可以管理系统中的所有广告。同时,为了便于广告主对自己的营销策略进行控制,通过为广告主创建私有账号。广告主可以用自己的账号提交广告订单,并对广告的营销效果进行跟踪、调整等。答复:满足。广告主所提交的广告都需要提交管理员进行审核,只有通过审核的广告才可以进入实际推送系统。这样做的目的是为了保障系统推送的广告的合法性,避免非法广告给网民和广告平台带来干扰。答复:满足。3、用户群(人群定向);4、营销内容(广告素材);5、展现方式(系统支持配置多种展现形式,包括替换、弹窗、嵌入式、无线底通等);6、营销方式;7、系统每10分钟会对推送日志进行一次统计,并在业务系统中的报表中显示广告引导系统对用户上网请求的HTTPGET报文进行分析,符合广告推送条件的流量会添加一条广告引导JS,并连同用户的请求报文一起发送到客户广告引导系统只负责判断用户的Get报文是否符合推送条件并对符合条件的告状态、广告形式(嵌入式、浮窗)和广告尺寸等约束条件的限制。Cookiemapping主要用户将百川自有cookie与运营商流量中的其他域名cookie进行关联。如taobaocookie、百度cookie等,通过cookiemapping技术打通用户在不同域名上的行为,从而更全面刻画用户行为。频次控制用于限制每个用户广告推送的最大次数,及同一广告两次推送时的时间间隔。其中根据用户身份标示不同,分为cookie、IP、ADSL频次控制三种。Cookie频次控制,是指每个cookie只推送设定的次数(如一次);IP频次控制指每个IP只推送预订次数,而无论该IP下有多少台终端设备;ADSL频次是根据运营商AD账号,每个账号仅推送预订次数(每个ADSL可能会动态更新多个◆标签定向基于DPI的数据,根据用上网时间段的习惯特征,分析每个用户上网的主要时间段,通过自定义标签属性(例如关注房产类用户、母婴用品类用户等),定义用户特征属性。系统会定期离线对DPI数据进行分析挖掘,分析每个用户的兴趣标签,并将分析结果导入标签库。也支持第三方自定义标签的离线导入,从而可以利用电信已经积累的BI数据进行广告投放。由于用户兴趣的多样性,支持每个用户有多个标签。标签库用redis进行管理,支持key-value结构数据的快速查询。◆状态控制用户账号、广告计划、广告策略、广告素材三个层级均有自己的状态,只有每个层级的状态均有效时,广告才可以真正能够推送出去。每天投放的时段范围,如限定每天早晨8点到晚上10点投放。启用状态用于手重定向跳转),才可以推送。户上个月访问体育类视频网站的业务流量占了包月套餐数据流量的50%(可配置),系统可对用户推荐专门的体育视频套餐包供用户选购。1)内存数据库查询2.系统提供MapReduce定制服务,当SQL语句效率不高时,可以将SQL语2.系统兼容标准的SQL语法,可以通过SQL语句访问查询4.系统支持ODBC连接方式,适合WIN应用5.系统提供CLI命令接口,适合UNIX应用在线报表要求5.4集成方案要求6.1软件要求6.1.1软件总体要求当有新软件版本时,投标方应承诺免费更新软件版本(软件终身免费升级),6.1.2软件详细要求10)应用软件系统的各个软件功能模块应满足本规范书和中国电信浙江公司12)应用软件应采用友好的图形化窗口的用户操作界面,可操作性强,而且13)应用软件应具备一套完备的数据管理系统和进程调度系统,以保证系统14)应用软件支持分布式数据管理,支持多数据源间的访问连接,能方便地15)应用程序还应采用参数驱动的设计思想,在应用程序中,凡是不能确定17)投标方在向甲方推荐软件产品时,必须根据所提供的软件产品对每个组18)投标方提供的软件在不同时期软件版本应能向下兼容,软件版本易于升19)投标方应说明目前所使用软件的实际运行时间以及升级完善的计划进度6.2硬件要求型号(宽×深×重量(KG)(满配置)电源路数电压(V)电流(A)设备电源线7项目管理要求7.1项目组织1~2名的专家人员(专家不少于3年Hadoop相关工作经验,以及不少于一家省的工作方式(现场操作/远程技术支持),及其工作时长(按小时计算)。在工甲方主要职责、配合职责(针对各环节)投标方主要职责、配合职责(针对各环节)第三方职责(如果存在需要)(1)投标方提供的书面技术资料应能满足确保系统正常运行所需的管理、(2)在现场调试和试运行过程中投标方如果对软件、硬件作了改动,则必(3)要求每个节点提供全套技术文件五份。2)在保修期内硬件应免费更换和维修,投标能超过4小时,所有这些都应是免费的。(2)在现场调试和试运行过程中投标方如果对软件、硬件作了改动,大数据平台是第三代数据处理技术HadoopHadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不对外部客户机而言,HDFS就像一个传统的分级文件系统。可以创建、删除、移动或重命名文件,等等。但是HDFS的架构是基于一组特定的节点构建的,这是由它自身的特点决定的。这些节点包括:NameNode,它在HDFS内部提供元存储在HDFS中的文件被分成块,然后将这些块复制到多个计算机中(DataNode)。这与传统的RAID架构大不相同。块的大小(通常为64MB)和复制的块数量在创建文件时由客户机决定。NameNode可以控制所有文件操作。HDFS内部的所有通信都基于标准的TCP/IP协议。NameNode是一个通常在HDFS实例中的单独机器上运行的软件。它负责管理文件系统名称空间和控制外部客户机的访问。NameNode决定是否将文件映射到DataNode上的复制块上。对于最常见的3个复制块,第一个复制块存储在同一机架的不同节点上,最后一个复制块存储在不同机架的某个节点上。实际的I/0事务并没有经过NameNode,只有表示DataNode和块的文件映射的元数据经过NameNode。当外部客户机发送请求要求创建文件时,NameNode会以块标识和该块的第一个副本的DataNodeIP地址作为响应。这个NameNode还会通知其他将要接收该块的副本的DataNode。NameNode在一个称为Fslmage的文件中存储所有关于文件系统名称空间的信息。这个文件和一个包含所有事务的记录文件(这里是EditLog)将存储在DataNode也是一个通常在HDFS实例中的单独机器上运行的软件。DataNode通常以机架的形式组织,机架通过一个交换机将所有系统连接起来。Hadoop的一个假设是:机架内部节点之间的传输速度快于机架间节点的传输速度。DataNode响应来自HDFS客户机的读写请求。它们还响应创建、删除和复制将采取修复措施,重新复制在该节点上丢失的块。HDFS的主要目的是支持以流的形式访问写入的大型文件。如果客户机想将文件写到HDFS上,首先需要将该文件缓存到本地的临时存储。如果缓存的数据DataNode标识和目标块响应客户机。同时也通知将要保存文件块副本的DataNode。当客户机开始将临时文件发送给第一个DataNode时,将立即通过管道方式将块内容转发给副本DataNode。客户机也负责创建保存在相同HDFS名称件创建提交到它的持久化元数据存储(在EditLog和Fslmage文件)。函数和一个main函数。main函数将作业控制和文件输入/输出结合起来。在这点上,Hadoop提供了大量的接口和抽象类,从而为Hadoop应用程序开发人员提供许多工具,可用于调试和性能度量等。MapReduce本身就是用于并行处理大数据集的软件框架。MapReduce的根源是函数性编程中的map和reduce函数。它由两个可能包含有许多实例(许多Map和Reduce)的操作组成。Map函数接受一组数据并将其转换为一个键/值对列表,输入域中的每个元素对应一个键/值对。Reduce函数接受Map函数生成的列表,然后根据它们的键(为每个键生成一个键/值对)缩小键/值对列表。这里提供一个示例,帮助您理解它。假设输入域是上运行Map函数将得出以下的键/值对列表:浙江电信大数据运营平台系统架构如下:分析和运典分析,云计算|移动应用|安全性整个大数据平台分为五个层次:●信息整合与治理主要职能就是完成数据的采集和清洗工作包括Hadoop系统以及流式计算,包括数据仓库等数据出路组件利用国际最新的Spark并行处理架构,通过内存缓存的技术,实现批处理作业的加速,提高数据分析作业的处理效率。包括数据可视化以及应用程序开发与作业调度,同时提供了完备的系统管理功能。支持BI智能分析、行业分析、DSP厂商等各种大数据分析应用浙江电信大数据运营平台功能模块如下:AAA数据采集清洗OIDD数据采集清洗ODS数据采集清洗>系统采用文件方式采集清洗3GDPI数据>系统采用文件方式采集清洗ODS数据>系统可以灵活调度作业资源,已保证每个作业都能获得相应的系统资>系统采用KDC(KeyDistributionCenter)安全认证中心实现用户安>系统提供SQL语句优化及MapReduce定制服务,优化厂商作业性能。统统一用户管理系统可以根据流量分发规则,对数据流量进行精确控制分发。系统对符合广告推送条件的流量进行广告引导推送。4.2大数据处理子平台平台安全管控系统支持基于多租户的资源管理,可以为每个租户分配独立的存储空间3)空间限额2)容量设置3)可用容量4)最大容量8)队列中并发task上限值11)初始化后并发执行的job数●资源套餐管理系统可以设置资源套餐,套餐内容包含存储空间(HDFS)和计算资源(MRSlot)。用户开通业务时,只需选择相应的套餐即可。平台数据授权系统提供基于多租户的数据授权,可以控制各租户的数据访问权限,包括:1.hive表数据访问权限Hive表权限管理内容包括:●系统可以设置用户的HIVE表访问权限,并允许用户访问授权的HIVE表,用户不能使用非授权的HIVE表。●用户没有创建/删除HIVE表的操作权限。HIVE表只能由系统管理员统一创建/删除。●用户可以增加/修改/删除HIVE表里的字段,也可以增加/修改/删除HIVE表里字段的内容。●HIVE表权限管理内容包括:1)表名2)所属数据库3)操作权限,包括八种权限:2.hbase表数据访问权限用户不能查看Hbase中非授权表的内容。●多个用户可以同时操作同一个指定的表;●用户可以增加/修改/删除HBASE表里的字段,也可以增加/修改/删除3)操作权限,包括四种权限:—R(只读)—W(可写)—C(创建修改删除)—A(控制)3.字段级访问权限系统通过授权文件Token可以实现字段级控制,如下图所示:UserAgentDestinatio2012080109:13:00/61.152.10866ck¹=;tg=0;平台统一管理包括集群参数配置、节点参数配置、组件参数配置和用户管理。1.集群参数配置集群参数包含:一集群名称一备机名称—节点名称—节点地址—网卡设备—广播地址Bcast—状态等信息。一组件配置类型选择,提供Hadoop,Hbase,Hive,zookeeper—组件配置文件选择等信息。平台用户管理包含用户管理和群组管理,可以增加删除hadoop用户群组信1)用户名称2)群组名称1)基本信息2)用户名3)所在用户组5)文件数限额6)空间限额8)所属队列集中监控告警管理1.节点运行状态监控通过图形化界面直观显示节点运行状态和性能数据,包括节点负荷、存储能—1分钟负荷—5分钟负荷—15分钟负荷—CPU使用率—内存使用率—硬盘使用率。1)查看HDFS概况,包括:一状态:当前集群的HDFS运行状态。—总容量:当前集群的HDFS配置的数据存储空间的总容量。—剩余容量:当集群HDFS处于运行状态时显示,记录当前集群的剩余数—数据节点:当前集群的HDFS配置的总数据节点数量及当前正在运行的—显示HDFS文件系统的文件参数(名称/用户/组/权限/文件大小/修改一双击任务查看任务详细信息,包括作业类型、作业进度、作业数、待1)查看HIVE概况,包括:2)业务表浏览3)合同执行情况管理:合同执行状态、合同执行进度、合同执行偏差评估1)数据出售类产品:通过对电信数据资源进行脱敏、加工、进行出售。这类数据产品根据数据所涉及的地理属性,2)数据咨询类产品:通过对数据的分析、挖掘,面向不同的行业提供咨询4)解决方案产品:这类产品只面向合作伙伴,因为解决方合行业合作伙伴,整合自有数据、自有渠道、合作伙伴渠道2)内部结算依据考核计划、考核结果、关联>大数据平台的查询服务可按照查询次数或者包月服务来计费;>大数据平台的资源使用包括了存储、运算和数据三类,其中数据资源根据字离线标签服务4.3数据汇聚子平台浙江电信11个地市的宽带DPI数据通过CN2网络汇聚到大数据平台。如下干兆带DP接口服务器5大数据平台不仅支持宽带DPI文件汇聚,同时支持宽带DPI数据流实时汇大数据平台实时采集清洗宽带DPI数据流,处理流程如下图所示:文件1.Kafka消息系统实时接收前端宽带DPI数据流;2.Kafka消息系统将接收到的宽带DPI数据流分发至同步标签和实时入库两3.同步标签模块采用Storm组件实时处理宽带DPI数据流,为宽带DPI数据>一类是非浏览器发起的http请求;另一类是浏览器发起的非用户点击请求;发起的任意主动点击行为)。通过清洗规则的设定,实现“用户有效点击”的规则库1:根据后缀过滤图片、脚本等"js?""jpg""jpegpnggifcssswf规则库2:过滤带有指定特征字符串的urlallyescomcprobaiducomcachegoogcomadma规则库3:过滤重复包针对多条URL请求的规则规则库4:识别非页面类型请求(包含Js发出的请求)针对单条URL的规则规则库5:保留白名单中的请求针对单条URL的规则httpwwwbaiducomhttpcnbingcomsearchhttpw.hk/search系统通过FTP方式采集3GDPIGDPI大数据平台获取Radius数据,将用户上网拨号AAA过程中IP和AD信息的导入,匹配用户实现独立运行的AAAradius解报文模块,实时提取AAA报文中的AttributeValuePairs中的对应报文段UserNameFramedIPAddress数据采集清洗软件数据采集清洗软件OIDD文件通过分布式ETL工具Kettle写入HDFS。码)__(用户号(开始时间)(基站)(上电标记)#DetailedTablelnformationDatabase:oiddprodinstnum_starttime___datelabe|stringstringstringstringstring(用户号码)(开始时间)(基站)(扇区)(上电标记)4.3.50DS数据采集清洗系统通过FTP方式采集ODS文件,ODS数据采集清洗网络架构如下:大数据平台ODS文件通过分布式ETL工具Kettle写入HDFS_stringstringstringstring(帐号<加密>)(用户年龄)(用户性别)(用户类型)_guangwangflagaconnectcollegeagrmntconstexpdtstringstringstringstringstringstringstringstringstringstringstringstringstringstring(宽带访问类型)(活跃操作频度)(最后更新日期)lnformationdatatype#DetailedTablelnformationDatabase:ods数据脱敏也被称为数据混淆、数据保密、数据消毒、数据扰频、数据匿名化和数据认证。采用数据脱敏技术,可以帮助大数据平台提高安全性和保密等级,以防止其数据被滥用,同时满足集团对数据安全性的规范要求,以及由管理/审计机关所要求的隐私标准。从实现手段上看,针对不同的数据内容,会有多种数据脱敏方式。在Hadoop平台上,利用采集清洗及流处理的功能,可以实现对各个字段,针对性的脱敏处理,并且保证在数据进入hadoop之前已经是脱敏之后的数据。另外针对AD的脱敏尤为关键,AD是唯一能将DPI数据关联到ODS客户数据的字段,我们对所有进入大数据平台的AD都统一采用sha-1的加密方式,转换成只有大数据平台能够认识的客户唯一标示。需要进行脱敏处理的信息如下:脱敏后宽带设备号实际adsha加密结果(该算法不可反解)用户年龄实际年龄年龄段信息,如5年一段,取起始数值显示,如25表示25-29用户地址实际地址,精确到户小区、楼盘或商圈信息,如武林商圈位置经纬度实际经纬度精确到0.001,约1000平方米,注:Ing*lat=0.001*0.001(度)=约95.18米*111.32米 用户姓名实际姓名仅保留用户姓氏用户消费情况实际消费金额每150元一档:0(表示0-149),大数据平台以HDFS为基础,利用HDFS驱动提供的Format功能,实现解密数据数据加密后,保证HDFS数据透明访问,同时支持SQL查询服务。4.3.8数据ETL处理4.3.9作业智能排队调度4.4外部服务能力子平台4.4.1标签查询服务5.系统管理该模块基于nginx+ApacheMINA的框架开发。其中nginx提供高并发的对外服务,而ApacheMINA是一个高性能和高可采用基于Token(令牌)的用户身份验证机制,使用户在访问受保护的服对于通过WebApplication访问查询服务的1)用户凭借自身的账户向电信申请和获取Token。2)携带已获取的Token查询有权限的数据标签4.4.3厂商作业性能优化系统支持SQL语句优化,可以解决数据倾斜的问题。系统提供MapReduce定制服务,当SQL语句效率不高时,可以将SQL语句转化成高效的MapReduce作业直接执行。我们提供MapReduce定制服务,当SQL语句效率不高时,可以将SQL语句转化成高效的MapReduce作业直接执行。SQL语句会产生大量的中间数据,从而影响作业执行效率。MapReduce不产生中间数据。MapReduce作业和SQL语句相比较,作业执行效率可以提高3~7倍。4.4.4交互式SQL查询用户可以通过图形化界面定义查询参数,执行自己的查询任务。系统接口如下:●系统兼容标准的SQL语法,可以通过SQL语句访问查询。●系统支持JDBC连接方式,适合JAVA应用。●系统支持ODBC连接方式,适合WIN应用。●系统提供CLI命令接口,适合UNIX应用。●系统支持Corba协议,适合IDL服务对象接口。●系统支持SOAP协议,适合远程RPC调用。生成的报表可输出各种文件格式,如EXCEL、HTMLXMLRTF4.1.3.广告提单管理首页首页动态定向洞家产品案例分享数据技术关于我们开通平台登录新用户注册密码找回首页动态定向洞察产品.广告提单投放管理包括序号、创意组名称、所选模板、尺寸(已上传尺寸数和未上传尺寸数)和审8A已上带10末上历21过组的审核状态上,显示该创意组创意审核情况;点击指定创意组右侧的“设置”按钮进行创意组设置;点击指定创意组右侧的"删除"按钮删除该创意组,如果面对该创意组新建推广单元设置投放策略。投放管理通过投放管理-投放管理,进入投放管理页面。在投放管理页面可按时间维度查看到推广单元趋势图和推广单元列表,时间维度包括今天、昨天、本周、上周、本月、上月和近30天,也可点击时间对话框通过时间控件点击指定日期自定义查看单元列表信息。本周本周日周一周二周三周四周五周六周日周一周二周三周四周五周六推广单元趋势图可通过下拉框选择全部推广计划或者指定某个推广单元,还可定义趋势图表展示的指标,包括花费、展现数、点击数、平均点击率和平均点推广单元列表展示该指定时间内的所有推广计划,包括推广单元名称、状态、有效期、每日预算、展现数、点击数、点击率、总费用、平均成本、本页总计和全部总计,可输入指定推广计划名称进行查询。鼠标放到推广单元名称上,点击出现的“铅笔”图标可在弹出的对话框中修改推广单元名称和出价;点击推广单元名称可查看该投放单元对应的创意组创意列表,也可对该创意组进行编辑;点2014-12-19-无结率时间2014-12.20-无结束时间2014-12-20-无结束时间000000000000aY2可通过“昨天”、“本周”、"上月"和“本月”按钮快捷查询对应时间范围内11十月2014十月2014→3展示特定指标数据趋势;图形报表按照指定的查看方式(6种之一)罗列具体数银国国区山今日0国营π出率室受保护的现面MicrosoftExcelF9好借好证二期2(14216412HRS两扩经地5207HK0I通过对接DPI底层数据,可以获取用户上网请求的HTTPGET报文,对报文码。新的请求会连同报文发送到客户端,客户端会解析执行JS代码,这个时候4.1.5.广告计划检索人群标签管理支持私有人群(访客找回)的管理,包括查询、新建和编辑操内访问过(或未访问过)模糊匹配(或者完全匹配)某个url的人群,选择“或”天内访问过模糊匹配√不含流量套餐用户提醒大数据处理子平台产品配置清单如下:产品描述1宽带DPI数据采集清洗支持文件方式和数据流实时处理方式采集清洗宽带DPI数据23GDPI数据采集清洗采用文件方式采集清洗3GDPI数据3采用文件方式采集清洗AAA数据4采用文件方式采集清洗OIDD数据5采用文件方式采集清洗ODS数据6采用数据脱敏技术,提高大数据平台安全性和保密等级7数据加密利用HDFS驱动提供的Format功能,实现hadoop云平台系统级、业务级数据加密8采用分布式ETL并行处理架构,提高数倍“数十倍ETL速度9作业智能排队调度可以灵活调度作业资源,已保证每个作业都能获得相应的系统资源。产品描述1采用KDC(KeyDistributionCenter)安全认证中心实现用户安全访问2可以为每个租户分配独立的存储空间(HDFS)和计算资源(MRSlot),实现资源独立3提供基于多租户的数据授权,可以控制各租户的数据访问权限4提供平台参数配置和用户管理5提供平台运行状态监控和告警管理6提供客户管理、合同管理、基础产品管理、结算管理等业务管理功能。7标签服务支持多个同步标签的服务程序和多个离线标签的服务程序。1标签查询服务采用分布式K-V数据库存放标签结果数据并提供提供高并发查询服务2支持多个DSP厂商程序算法模型加载和数据访问产品描述3厂商作业性能优化服务提供SQL语句优化及MapReduce定制服务,优化厂商作业性能。4支持交互式SQL查询,用户可以通过图形化界面定义查询参数,执行自己的查询任务。5提供在线WEB报表制作发布服务。产品描述1可以根据流量分发规则,对数据流量进行精确控制分发。2可以根据运营商流量的广告营销策略进行广告推送。3提供广告提单功能。4对符合广告推送条件的流量进行广告引导推送。5通过cookie定向、IP分析等用户分析技术实现广告的精准推送。6内部业务支撑提供用户流量提醒,并通过用户流量消费分析可进行流量经营营销。>系统采用文件方式采集清洗3GDPI数据>系统采用文件方式采集清洗AAA数据>系统采用文
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 西医临床传染病知识试题及答案
- 系统管理师考试试题及答案的关键点
- 药剂网络学习平台试题及答案
- 激光行业中的市场监管分析试题及答案
- 液压实操考试题及答案
- 激光照明技术的未来展望试题及答案
- 新课改瘦专用2025版高考历史一轮复习历史上重大改革回眸第1讲古代历史上的重大改革讲义含解析选修1
- 医院分流考试题及答案
- 文化产业管理考试准备试题及答案
- 六年级语文下册语文乐园七第1课时教案语文A版
- 前列腺癌护理个案查房课件
- 全国导游考试(面试)200问及面试内容(附答案)
- 旋挖钻机施工安全操作规程与注意事项
- 涉密计算机安全策略
- 2023年国家公务员招聘考试行测逻辑推理专项训练题库(含答案)
- 雨污水施工组织设计
- 当前宏观经济形势分析课件
- (6.3)-第三节 种子净度分析
- 汉语言文学专业自评报告
- 陕09J02 屋面标准图集
- 中建项目目标成本测算操作指南
评论
0/150
提交评论