版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据计算平台建设方案需求概述根据应用,这个项目数据量30T,企业数据量非常大,需要大量并发,网络爬虫爬取的企业数据信息存储在数据中心此数据量跟企业记录相关。同时需要对清洗后的记录和计算好的推荐结果进行存储但是这些数据不放在数据中心此项目之后会做成实时计算需要用到流式计算的相关计算和调度。计算量很大,可以多部署DCS进程,提高计算并发度,作业调度也要采用分部署调度架构。总体设计云数据采集中心与大数据计算平台的关系是云数据采集中心提供存储和计算资源通过PI的方式访问资源大数据计算平台主要实现核心算法包括图像匹配算法,挖掘算法,智能推荐算法,知识学习算法等等,也能够通过API的方式建立统计应用智能推荐应用等等大数据计算平台的需要的数据包括网上实时爬取得二次计算分析而获取的等等都通过通用接口存储在云数据采集中心的分布式存储平台(分布式文件系统(DF、分布式数据库(DB计算时候,通过接口发起作业,由云数据采集中心的作业调度服务进(J负责调度由数据计算服务进(D)负责计算处理并把结果反馈给大数据计算平台的各个应用根据2小节对DFS分布式文件系统的详细介绍本章节就不重复叙述,由于要增加新的存储设备,对于新设备上安装分布式文件系统是否继续选用还是HDFS,我们需要回答以下几个问题:第一,预算增加及扩展问题要部署DF还得单独购买两台高性能设备作为DFS的元数据库服务(注两台设备构成主备配置不能比我们现在选择的设备配置差,不然就会成为瓶颈,如果差了,数据节点就扩展不了几台第二,学习成本及进度问题:要使用HDFS,必须熟悉它的带来的整个DFS集群部署维护等工作这个与可利用的团队资源相提供标准的协议接口,应用程序代码不需作任么统一接口的底层必须要写两种代码第一是对面DF第二是面对HDFS。新增加了开发、维护、测试的时间。第三,空间浪费及孤岛问题:S2DFS与HDFS是两套不同体系的文件系统,他们之间设备及存储空间是不能共用的后面增加的6台,设备存储与前面部署的0台设备通过对原始数据处理压缩后,存储空间还有多余。二者构成了孤岛,同时造成空间浪费。第四,应用场景问题DFS对存储网页等文件比较友好毕竟它的基因就。数据模型设计数据模型主要主企业数据模型与投资商数据模型两个部分。1.1.1企业数据模型字段名备注name公司名称econ_kind企业类型regist_capi注册资本scope经营范围term_start营业开始日期term_end营业结束日期belong_org所属工商局oper_name法人start_date成立日期status在业employees.job_title主要人员职位employees.sex主要人员性别主要人员姓名分支机构名称changerecords.change_item变更项目changerecords.change_date变更日期changerecords.before_content变更前内容changerecords.after_content变更后内容partners.stock_name股东姓名partners.stock_type股东类型partners.identify_type证照/证件类型partners.identify_no证照/证件号码partners.should_capi_items.shoud_capi认缴出资额partners.should_capi_items.invest_type出资方式partners.should_capi_items.should_capi_date出资时间partners.real_capi_items.real_capi实缴出资额partners.real_capi_items.invest_type出资方式partners.real_capi_items.real_capi_date实缴时间1.1.2投资商数据模型字段名备注name投资商名称econ_kind企业类型regist_capi注册资本scope经营范围term_start营业开始日期term_end营业结束日期belong_org所属工商局oper_name法人start_date成立日期status在业employees.job_title主要人员职位employees.sex主要人员性别主要人员姓名分支机构名称changerecords.change_item变更项目changerecords.change_date变更日期changerecords.before_content变更前内容changerecords.after_content变更后内容partners.stock_name股东姓名partners.stock_type股东类型partners.identify_type证照/证件类型partners.identify_no证照/证件号码partners.should_capi_items.shoud_capi认缴出资额partners.should_capi_items.invest_type出资方式partners.should_capi_items.should_capi_date出资时间partners.real_capi_items.real_capi实缴出资额pa
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 沈阳理工大学《变频控制技术》2022-2023学年期末试卷
- 合同法第52条5项
- 新入职员工的意识培训
- 2025版高考英语一轮复习第1部分人与自我主题群1生活与学习主题语境5认识自我丰富自我完善自我2教师用书教案
- 新高考2025届高考政治小题必练1神奇的货币
- 大班音乐尝葡萄课件
- 2024年拉萨客运资格证答题软件下载
- 2024宾馆转让合同范文
- 2024屋顶防水合同范文
- 2024小额贷款担保合同范本
- 浅议小升初数学教学衔接
- 设备安装应急救援预案
- 深基坑工程降水技术及现阶段发展
- 暂堵压裂技术服务方案
- 《孔乙己》公开课一等奖PPT优秀课件
- 美的中央空调故障代码H系列家庭中央空调(第一部分多联机)
- 物料承认管理办法
- 业主委员会成立流程图
- (完整版)全usedtodo,beusedtodoing,beusedtodo辨析练习(带答案)
- 广联达办公大厦工程施工组织设计
- 疑难病例HELLP综合征
评论
0/150
提交评论