




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
图像数据存储与管理
实验手册
学员用书
目录
1参考资料及工具.........1
1.1参考资料及工具..............................................................................1
2图像数据存储与管理.............................2
2.1课程介绍....................................................................................2
2.2教学目地....................................................................................2
2.3案例背景....................................................................................2
2.4任务........................................................................................2
演练场景1:业务需求分析.........................................................................2
演练场景2:项目实施.............................................................................3
演练场景3:项目结果验收.........................................................................7
2.5评分表......................................................................................8
图像数据存储与管理实验手册第1页
1参考资料及工具
1.1参考资料及工具
文档中所列出地命令以及参考文档,请根据实际环境中地不同产品版本使用对应地命令
以及文档。
参考文档:
1.《Hadoop官方文档》
2.《HBase官方文档中文版》
3.《华为云MapReduce帮助文档》
软件工具:
编号工具名称版本
(公有云)MapReduce服务HBasc集群
1
(物理机)ApacheHadoopHadoop2.7.3+HBase1.3.1
2Java开发工具IntelliJIDEA(推荐)或Eclipse
图像数据存储与管理实验手册第2页
2图像数据存储与管理
2.1课程介绍
随着信息技术地发展,人们生产,收集数据地能力大大增强,数据类型也向多元化地趋势发
展,在传统结构化数据地基础上,增加了半结构化数据与非结构化数据。而关系型数据库受严格
地数据模型限制,对复杂类型地数据处理能力较差。
HBase作为分布式NoSQL数据库,适用于大量非结构化数据地存储.如文本,图像以及视频
文件,本次课程将主要介绍HBase地图像存储与管理,
2.2教学目地
•能够掌握使用HBaseShell操作表地常用方法;
•能够掌握使用Java操作HBase数据库方法:
•能够掌握HBaseAPI处理图像数据地序列化方法。
2.3案例背景
说明:本文所涉及地案例仅为样例、实际操作中请以真实设备环境为准,具体配置步骤请参
考对应地产品文档。
某互联网公司需要大量地图像数据进行人工智能模型训练,传统地数据存储方式成本较
高,大数据工程师A需要选择一个相对经济,高效地数据存储方案并实施该方案,具体需要完成
以下步骤:
•业务需求分析;
•项目实施;
•项目测试。
2.4任务
演练场景1:业务需求分析
背景
公司需要存储大量地图像数据.同时算法部门需要利用图像数据进行分析建模工作,大数
据工程师B需要设计一个数据存储方案,在经济性地基础上,保证算法部门能高效地提取数据。
图像数据存储与管理实验手册第3页
思考
请举例说明常用NoSQL数据库有哪些?
参考答案
•MongoDB;
•HBase;
•Cassandrao
任务一NoSQL数据库方案选型
请在下列表格中填写常用地NoSQL存储模式与具有代表性地数据库产品。
表24NoSQL数据库
编号存储模式代表性数据库产品
1
2
3
4
问题研讨
请描述4种NoSQL存储模式地适用场景分别是什么?
任务二图像数据导入方式设计
假设公司将采集数据存放在HDFS文件系统中.请根据任务一中所选数据库方案,设计图
像数据地导入方式.并在下面框中简单叙述操作步骤:
问题研讨
HBasc地数据导入有哪几种方式?
演练场景2:项目实施
苔皇
目乐
大数据工程师A决定使用基于HDFS地HBase作为图像存储数据库,并根据图像数据导
入方式设计进行项目开发。
思考
请描述将图像数据转化为SequenceFile有哪几点优势?
图像数据存储与管理实验手册第4页
任务一项目配置
配置项目依赖文件。
项目初始化完成后,在项目依赖包管理文件pom.xml中添加相应依赖酒己置内容如下:
•dependencies标签中包含需要导入地依赖包信息;
•build标签中包含需要安装地JDK插件信息。
<?xmlversion="1.0"encoding="UTF-8"?>
<projectxinlns="/POM/4.0.0"
xmlns:xsi="http://./200l/XMLSchema-instance"
xsi:schemaLocation="/POM/4.0.0http://maven.apache.Org/xsd/maven-4.0.0.xsd">
<mo<lelVersion>4.0.0</niodelVersion>
<groupld>bigdata</groupld>
<artiftictld>hbase</artifactld>
<version>1.0-SNAPSHOT</version>
<name>hbase</name>
<url>htcp://</url>
<properties>
<project.build.sourceEncoding>UTF-8</project.btild.sourceEncoding>
</properlies>
<dependencies>
<dependency>
<groupld>junit</groupld>
<artifactld>junit</artifactld>
<vcrsion>3.S.1</vcrsion>
<scopc>lcst</scopc>
〈/dependency>
<dependency>
<groupld>org.apache.hbase</groupld>
<artifactld>hbase-server</artifactld>
<vcrsion>1.3.1</vcrsion>
〈/dependency〉
(dependency>
<groupld>hbase-client</groupld>
<artifactld>1.3.1</artifactId>
〈/dependency〉
</dcpcndcncies>
<build>
<plugins>
<plugin>
<groupld>org.apache.maven.plugins</groupld>
<arliliKlld>mavcn-pilcr-plugin</artifactld>
<configuration>
<saurce>1.8</source>
图像数据存储与管理实验手册第5页
<target>1.8</target>
々configuration〉
</plugin>
</plugins>
</build>
</project>
问题研讨
Java工程中pom.xml文件与sctting.xml文件配置地主要差异是什么?
任务二在HBase中创建表
使用HBaseShell在HBase中创建表、建表命令为:
•img:自定义地数据库表名;
•(NAME=>'architectureWERSIONS=>5,BLOCKCACHE=>true):定义列族信息冽
族名为architecture.VERSIONS表示对于同一个cell保留最近5个历史版
本,BLOCKCACHE设置为true表示缓存。
crcaie'img',{NAME=>'archiieclure',VERSIONS=>5,BLOCKCACHE=>lrue}
使用list结果查看表创建结果:
TABLE
img
ns_blog:contenl
ns_blog:following
ns_hlog:relationship
4row(s)in0.0300seconds
使用describe命令查看表信息:
hbase(main):003:0>describe'img'
TableimgisENABLED
img
COLUMNFAMILIESDESCRIPTION
{NAME=>'architecture,.BLOOMFILTER=>RO\V\VERSIONS=>'5'.IN_MEMORY=>'fa
Ise',KEEP_DELETED_CELLS=>'FALSE',DATA_BLOCK_ENCODING=>NONE',TTL=>FORE
VER'.PRESSION=>NONE',MIN_VERS1ONS=>'O',BLOCKCACHE=>'true',BLOCKSIZ
E=>'65536\REPLICATION-SCOPE=>'0'}
1row⑸in3.3810seconds
问题研讨
如何控制HBase数据版本信息?
任务三建立表连接
HBase地meta表存放在Zookeeper中,所以与HBase建立连接前需要访问Zooke叩er集群。
创建全局变量:conf与connectiono
•conf():用于描述Zookeeper访问地址;
•img:在HBase中创建用于存放图像数据地表名。
图像数据存储与管理实验手册第6页
ConfigurationhbaseConf=HBaseConfiguration.createO;
//hbaseConf.se【("periy.clieniPorr',’端口号)
//hbaseConf.setStringsC'hbase.zookeeper.quorum","ip地址");
table=newHTable(hbaseConf,"img");
〃Tabiclable=conncciion.gclTable(TablcNamK.valucOf('img'));
问题研讨
HBase与Zookeeper地关系?
任务四生成序列化文件
读取HDFS文件系统中inpath路径下地文件.即原始图像数据文件地存放目录.实例化
writer对象并对inpath路径下所有文件进行遍历序列化操作,完成之后读取序列化文件并写入
HBase中。
Configurationconf=newConfiguration();
URIuri=newURI(inpath);
FileSystemfileS)stem=FileSystem.get(uri,conf,"hdfs,);
writer=SequenceFile.crea(eWriter(fileSystem,conf,newPath(outpath),Text.class,BytesWritable.class);
listFileAndWriteToSequenceFiie(fileSystem,inpath);
org.apache.hadoop.io.IOUtils.closeStream(writer);
〃读取所有文件
URIseqURI=newURI(outpath);
FileSystemfileSysteniSeq=FileSystem.get(seqURI,conf);
SequenceFile.Readerreader=newSequenceFile.Reader(fileSystemSeq.newPath(outpath),conf);
publicstaticvoidListScqucnccFile(FiIcSystemfileSystcm,Stringpath)throwsException{
finalFilcStatus[]listStatuscs=filcSystcm.lisiStalus(newPath(path));
for(FileStatusfileStatus:listStatuses){
if(fileStatus.isFile()){
TextfileText=newText(fileStatus.getPath().toString());
System.out.println(fileText.toStringO);
FSDatalnputStrcamin=filcSystein.opcn(ncwPaih(filcTcxt.toStringO));
byte|]buffer=lOUtils.toByteArray(in);
in.read(bufter);
BytesWritablevalue=newBytesWritable(buffer);
writcr.append(fileText,value);
}
if(fileStatus.isDirectory()){
ListSequenceFile(fileSystem,fileStatus.gelPatli(),toStringO);
}
____________)
图像数据存储与管理实验手册第7页
问题研讨
Hadoop中实现序列化地接口是什么?
演练场景3:项目结果验收
背景
已经根据业务需求完成项目开发,现在大数据工程师A需要对代码进行测试,验证项目结
果是否能够满足业务要求。
任务一启动HBase
注:若HBase已正常运行,可跳过该任务。
启动HBase前请确认环境中已安装Hadoop并已启动。进入HBase安装目录地bin目录
下,执行start-hbasc.sh启动HBaseo
HBase启动后使用jps命令查看服务进程,若进程中包含HMaster进程,则HBase已正常启
动。
18709DataNode
18806SecondaryNameNode
34391HMaster
18633NameNode
34442Jps
33742Launcher
问题研讨
HBase与Hadoop地依赖关系是什么?
任务二代码测试
运行代码.完成后变用HBaseShell命令查看数据导入结果。从结果图中能够看出.图像数
据以二进制形式地文件保存在HBase中。
hbase(main):002:0>scan'img,
ROWCOLUMN+CELL
4ef44576ed4cb3f058b8column-architecture:content,timestamp-1582203982905,valu
al
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 藏族民间舞蹈的风格特点
- 八年级英语下册 Module 8 Time off Unit 3 Language in use第五课时教学设计(新版)外研版
- 高中化学人教版 (2019)选择性必修1第一节 反应热教案配套
- 九年级历史下册 第一单元 第1课《“电气时代”的到来》教学设计3 华东师大版
- 2025智能家居安防监控系统合同范本
- 2025年物流行业运输合同
- 会议组织合同范本
- 二手车辆贷款抵押合同
- 2025版食堂外包合同范本
- 2025年居民委员会环境整治承包合同
- 篮球协会章程和规章制度
- 技师学院高层次人才引进和管理办法
- 水轮机选型毕业设计及solidworks建立转轮模型
- 无创正压通气急诊临床实践专家共识
- 【精选】人教版四年级下册数学《脱式计算》(含简便运算)专项练习题
- 常用检验项目的医学决定水平
- 急诊及重症医学-机械通气
- YY/T 1248-2014乙型肝炎病毒表面抗体测定试剂(盒)(化学发光免疫分析法)
- 重症医学科各项规章制度汇编
- 平面位置(轴线)测量记录表
- 处分通报范文员工处分通报范文4篇
评论
0/150
提交评论