《大数据技术实战案例教程》课件教学课件-第5章部署本地模式Hive和Hive实战_第1页
《大数据技术实战案例教程》课件教学课件-第5章部署本地模式Hive和Hive实战_第2页
《大数据技术实战案例教程》课件教学课件-第5章部署本地模式Hive和Hive实战_第3页
《大数据技术实战案例教程》课件教学课件-第5章部署本地模式Hive和Hive实战_第4页
《大数据技术实战案例教程》课件教学课件-第5章部署本地模式Hive和Hive实战_第5页
已阅读5页,还剩86页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

【第4章回顾】1.了解ZooKeeper功能、起源和应用场景。2.理解ZooKeeper体系架构和工作原理。(重点,难点)3.理解ZooKeeper数据模型。(重点)4.掌握ZooKeeper部署要点,包括运行环境、运行模式和配置文件zoo.cfg、myid等。(重点)5.掌握ZooKeeperShell命令(重点),了解ZooKeeper四字命令和ZooKeeperJavaAPI。6.熟练掌握在Linux环境下部署ZooKeeper集群、使用ZooKeeperShell服务端命令、客户端命令。(重点)【课程内容】开学第一课(理论1学时)第1章部署全分布模式Hadoop集群(理论3学时+实验2学时)第2章HDFS实战(理论4学时+实验2学时)第3章MapReduce编程(理论4学时+实验2学时)第4章部署ZooKeeper集群和ZooKeeper实战(理论4学时+实验2学时)第5章部署本地模式Hive和Hive实战(理论4学时+实验2学时)第6章Flume实战(理论4学时+实验2学时)第7章Kafka实战(理论4学时+实验2学时)第8章Spark集群部署和基本编程(理论4学时+实验2学时)第9章Flink集群部署和基本编程(选修)第5章部署本地的模式Hive和Hive实战5.1初识Hive5.2Hive体系架构(重点)5.3Hive数据类型5.4Hive数据模型(重点)5.5Hive函数(重点,难点)5.6Hive部署要点(重点)5.7Hive接口(重点,难点)5.8综合实战:部署本地模式Hive和Hive实战(实验)5.1初识HiveHive是一个基于Hadoop的数据仓库工具,它可以将结构化的数据文件映射为一张表,并提供了类SQL查询语言HiveQL(HiveQueryLanguage)。Hive由Facebook公司开源,主要用于解决海量结构化日志数据的离线分析。Hive的本质是将HiveQL语句转化成MapReduce程序,并提交到Hadoop集群上运行。Hive让不熟悉MapReduce编程的开发人员直接编写SQL语句来实现对大规模数据的统计分析操作,大大降低了学习门槛,同时也提升了开发效率。Hive处理的数据存储在HDFS上,Hive分析数据底层的实现是MapReduce,执行程序运行在YARN上。Hive基本工作流程Hadoop集群Hiveselectcity,count(1)pvfromad_tablewheredata='20191001'groupbycityMapReduceYARNHDFSuser/hive/warehouse/ad_table/data='20191001'/log-20191001生成MR调度MR运行MR读取数据5.1初识Hive优点:(1)操作接口采用类SQL语法,简单易学,提供快速开发的能力。(2)避免编写MapReduce应用程序,减少开发人员的学习成本。(3)Hive支持用户自定义函数,用户可以根据需求来实现自己的函数。缺点:(1)Hive执行延迟比较高,常用于对实时性要求不高的海量数据分析场合中。(2)Hive的HiveQL表达能力有限,例如迭代式算法无法表达,不擅长数据挖掘等。(3)Hive效率比较低,例如Hive自动生成的MapReduce作业,通常情况下不够智能化,另外Hive粒度较粗,调优比较困难。5.2Hive体系架构1.客户端组件1)CLI(CommmandLineInterface)2)JDBC/ODBC3)HWI(HiveWebInterface)2.服务端组件1)ThriftServer2)元数据(Metastore)3)驱动器(Driver)HiveHadoop集群MapReduceYARNHDFS驱动器(Driver)元数据(Metastore)CLIThriftServerHWIJDBCODBC解析器(SQLParser)编译器(PhysicalPlan)优化器(QueryOptimizer)执行器(Execution)5.2Hive体系架构元数据(Metastore)Metastore组件用于存储Hive的元数据,表名、表所属的数据库(默认是default)、表的拥有者、列/分区字段、表的类型(是否是外部表)、表的数据所在目录等。Hive元数据默认存储在自带的Derby数据库中,推荐使用MySQL存储Metastore。元数据对于Hive十分重要,因此Hive支持把Metastore服务独立出来,安装到远程的服务器集群里,从而解耦Hive服务和Metastore服务,保证Hive运行的健壮性。Hive元数据通常有三种存储位置形式:嵌入式元数据、本地元数据和远程元数据,根据元数据存储位置的不同,Hive部署模式也不同。5.3Hive数据类型1.基本数据类型2.集合数据类型1.基本数据类型数据类型长度说明数字类TINYINT1字节有符号整型,-128~127SMALLINT2字节有符号整型,-32768~32767INT4字节有符号整型,-2,147,483,648~2,147,483,647BIGINT8字节有符号整型,-9,223,372,036,854,775,808~9,223,372,036,854,775,807FLOAT4字节有符号单精度浮点数DOUBLE8字节有符号双精度浮点数DOUBLEPRECISION8字节同DOUBLE,Hive2.2.0开始可用DECIMAL--可带小数的精确数字字符串NUMERIC--同DECIMAL,Hive3.0.0开始可用日期时间类TIMESTAMP--时间戳,内容格式:yyyy-mm-ddhh:mm:ss[.f...]DATE--日期,内容格式:YYYY­MM­DDINTERVAL--存储两个时间戳之间的时间间隔字符串类STRING--字符串VARCHAR字符数范围1-65535长度不定字符串CHAR最大的字符数:255长度固定字符串Misc类BOOLEAN--布尔类型TRUE/FALSEBINARY--字节序列2.集合数据类型数据类型长度说明ARRAY--数组,存储相同类型的数据,索引从0开始,可以通过下标获取数据MAP--字典,存储键值对数据,键或者值的数据类型必须相同,通过键获取数据,MAP<primitive_type,data_type>STRUCT--结构体,存储多种不同类型的数据,一旦结构体被声明,其各字段的位置不能改变,STRUCT<col_name:data_type[COMMENTcol_comment],...>UNIONTYPE--联合体,UNIONTYPE<data_type,data_type,...>5.4Hive数据模型Hive没有专门的数据存储格式,也没有为数据建立索引,用户可以非常自由的组织Hive中的表,只需创建表时告诉Hive数据中的列分隔符和行分隔符,Hive就可以解析数据。Hive中所有的数据都存储在HDFS中,根据对数据的划分粒度,Hive包含以下数据模型:表(Table)、分区(Partition)和桶(Bucket)。表→分区→桶,对数据的划分粒度越来越小。数据库表表桶桶分区分区桶桶倾斜数据正常数据1.表(Table)Hive的表和关系数据库中的表相同,具有各种关系代数操作。1)内部表(Table)Hive默认创建的表都是内部表,因为这种表,Hive会(或多或少地)控制着数据的生命周期。默认情况下Hive会将这些表的数据存储在由配置项hive.metastore.warehouse.dir(例如/user/hive/warehouse)所定义的HDFS目录的子目录下,每一个Table在该数据仓库目录下都拥有一个对应的目录存储数据。当删除一个内部表时,Hive会同时删除这个数据目录。内部表不适合和其它工具共享数据。2)外部表(ExternalTable)Hive创建外部表时需要指定数据读取的目录,外部表仅记录数据所在的路径,不对数据的位置做任何改变,而内部表创建时就把数据存放到默认路径下,当删除表时,内部表会将数据和元数据全部删除,而外部表只删除元数据,数据文件不会删除。外部表和内部表在元数据的组织上是相同的,外部表加载数据和创建表同时完成,并不会移动数据到数据仓库目录中。2.分区(Partition)分区表通常分为静态分区表和动态分区表,前者导入数据时需要静态指定分区,后者可以直接根据导入数据进行分区。分区表实际上就是一个对应HDFS文件系统上的独立的文件夹,该文件夹下是该分区所有的数据文件。Hive中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据集。分区的好处是可以让数据按照区域进行分类,避免了查询时的全表扫描。3.桶(Bucket)分桶就是将同一个目录下的一个文件拆分成多个文件,每个文件包含一部分数据,方便获取值,提高检索效率。分区针对的是数据的存储路径,分桶针对的是数据文件。分区提供一个隔离数据和优化查询的便利方式,但并非所有的数据集都可形成合理的分区;分桶是将数据集分解成更容易管理的若干部分的另一种技术。用户可以将分区或者未分区的表数据按某列的HASH函数值分配到桶中。事实上,每个桶通常是一个分区或者表目录下的一个文件。例如,将分区划分为n个桶,则将在分区目录下产生n个文件。Hive通过某列的HASH值取模来决定桶的分配。使用桶分配数据的原因有两个方面:第一,方便JOIN连接操作,连接时要求属于同一个连接键的数据在一个分区中,假设分区Key和连接Key不同,则可以使用连接的键将表数据分桶,然后在桶内进行连接。第二,分桶使采样过程更高效,从而降低Hive的查询时间。【案例:表Student在Hive中的分区、分桶存储】5.5Hive函数内置运算符内置函数自定义函数1.内置运算符类型运算符说明算术运算符+、-、*、/加、减、乘、除%求余&、|、^、~按位与、或、异或、非关系运算符=、!=(或<>)、<、<=、>、>=等于、不等于、小于、小于等于、大于、大于等于ISNULL、ISNOTNULL判断值是否为“NULL”LIKE、RLIKE、REGEXPLIKE进行SQL匹配,RLIKE进行Java匹配,REGEXP与RLIKE相同逻辑运算符AND、&&逻辑与OR、|逻辑或NOT、!逻辑非复杂运算符A[n]A是一个数组,n为int型。返回数组A的第n个元素,第一个元素的索引为0M[key]M是Map,关键值是key,返回关键值对应的值S.xS为struct,返回x字符串在结构S中的存储位置2.内置函数(字符串函数)函数说明length(stringA)返回字符串的长度reverse(stringA)返回倒序字符串concat(stringA,stringB…)连接多个字符串,合并为一个字符串,可以接受任意数量的输入字符串concat_ws(stringSEP,stringA,stringB…)链接多个字符串,字符串之间以指定的分隔符分开substr(stringA,intstart)substring(stringA,intstart)从文本字符串中指定的起始位置后的字符substr(stringA,intstart,intlen)substring(stringA,intstart,intlen)从文本字符串中指定的位置指定长度的字符upper(stringA)ucase(stringA)将文本字符串转换成字母全部大写形式lower(stringA)lcase(stringA)将文本字符串转换成字母全部小写形式trim(stringA)删除字符串两端的空格,字符之间的空格保留ltrim(stringA)删除字符串左边的空格,其他的空格保留rtrim(stringA)删除字符串右边的空格,其他的空格保留regexp_replace(stringA,stringB,stringC)字符串A中的B字符被C字符替换regexp_extract(stringsubject,stringpattern,intindex)通过下标返回正则表达式指定的部分parse_url(stringurlString,stringpartToExtract[,stringkeyToExtract])返回URL指定的部分2.内置函数(字符串函数)函数说明get_json_object(stringjson_string,stringpath)selecta.timestamp,get_json_object(a.appevents,‘$.eventid’),get_json_object(a.appenvets,‘$.eventname’)fromloga;space(intn)返回指定数量的空格repeat(stringstr,intn)重复N次字符串ascii(stringstr)返回字符串中首字符的数字值lpad(stringstr,intlen,stringpad)返回指定长度的字符串,给定字符串长度小于指定长度时,由指定字符从左侧填补rpad(stringstr,intlen,stringpad)返回指定长度的字符串,给定字符串长度小于指定长度时,由指定字符从右侧填补split(stringstr,stringpat)将字符串转换为数组find_in_set(stringstr,stringstrList)返回字符串str第一次在strlist出现的位置。如果任一参数为NULL,返回NULL;如果第一个参数包含逗号,返回0sentences(stringstr,stringlang,stringlocale)将字符串中内容按语句分组,每个单词间以逗号分隔,最后返回数组ngrams(array>,intN,intK,intpf)SELECTngrams(sentences(lower(tweet)),2,100[,1000])FROMtwitter;context_ngrams(array>,array,intK,intpf)SELECTcontext_ngrams(sentences(lower(tweet)),array(null,null),100,[,1000])FROMtwitter;2.内置函数(日期函数)函数说明from_unixtime(bigintunixtime[,stringformat])UNIX_TIMESTAMP参数表示返回一个值YYYY-MM-DDHH:MM:SS或YYYYMMDDHHMMSS.uuuuuu格式,这取决于是否是在一个字符串或数字语境中使用的功能。该值表示在当前的时区unix_timestamp()如果不带参数的调用,返回一个Unix时间戳(从“1970-01-0100:00:00”到现在的UTC秒数)为无符号整数unix_timestamp(stringdate)指定日期参数调用UNIX_TIMESTAMP(),它返回参数值“1970-01-0100:00:00”到指定日期的秒数。unix_timestamp(stringdate,stringpattern)指定时间输入格式,返回到1970年秒数to_date(stringtimestamp)返回时间中的年月日to_dates(stringdate)给定一个日期date,返回一个天数(0年以来的天数)year(stringdate)返回指定时间的年份,范围在1000到9999,或为“零”日期的0month(stringdate)返回指定时间的月份,范围为1至12月,或为“零”月份的0day(stringdate)dayofmonth(date)返回指定时间的日期hour(stringdate)返回指定时间的小时,范围为0到23minute(stringdate)返回指定时间的分钟,范围为0到59second(stringdate)返回指定时间的秒,范围为0到59weekofyear(stringdate)返回指定日期所在一年中的星期号,范围为0到53datediff(stringenddate,stringstartdate)两个时间参数的日期之差date_add(stringstartdate,intdays)给定时间,在此基础上加上指定的时间段date_sub(stringstartdate,intdays)给定时间,在此基础上减去指定的时间段【案例:使用命令describefunction查看函数帮助】8.6.3自定义函数普通自定义函数(UDF)表生成自定义函数(UDTF)聚集自定义函数(UDAF)5.6Hive部署要点5.6.1Hive运行环境5.6.2Hive部署模式5.6.3Hive配置文件5.6.1Hive运行环境1)操作系统Hive支持不同平台,在当前绝大多数主流的操作系统上都能够运行,例如Unix/Linux、Windows等。2)Java环境Hive使用Java语言编写,因此它的运行环境需要Java环境的支持。3)HadoopHive需要Hadoop的支持,它使用HDFS进行存储,使用MapReduce进行计算。5.6.2Hive部署模式1)内嵌模式(EmbeddedMetastore)2)本地模式(LocalMetastore)3)远程模式(RemoteMetastore)5.6.2Hive部署模式1)内嵌模式(EmbeddedMetastore)内嵌模式是HiveMetastore最简单的部署方式,使用Hive内嵌的Derby数据库来存储元数据。但是Derby只能接受一个Hive会话的访问,试图启动第二个Hive会话就会导致Metastore连接失败。Hive官方并不推荐使用内嵌模式,此模式通常用于开发者调试环境中,真正生产环境中很少使用。5.6.2Hive部署模式2)本地模式(LocalMetastore)本地模式是Metastore的默认模式。该模式下,单Hive会话(一个Hive服务JVM)以组件方式调用Metastore和Driver,允许同时存在多个Hive会话,即多个用户可以同时连接到元数据库中。常见JDBC兼容的数据库如MySQL都可以使用,数据库运行在一个独立的Java虚拟机上。5.6.2Hive部署模式3)远程模式(RemoteMetastore)远程模式将Metastore分离出来,成为一个独立的Hive服务,而不是和Hive服务运行在同一个虚拟机上。这种模式使得多个用户之间不需要共享JDBC登录帐户信息就可以存取元数据,避免了认证信息的泄漏,同时,可以部署多个Metastore服务,以提高数据仓库可用性。5.6.3Hive配置文件Hive所有配置文件位于$HIVE_HOME/conf下文件名称描述hive-env.shBash脚本,设置Linux/Unix环境下运行Hive要用的环境变量,主要包括Hadoop安装路径HADOOP_HOME、Hive配置文件存放路径HIVE_CONF_DIR、Hive运行资源库路径HIVE_AUX_JARS_PATH等hive-default.xmlXML文件,Hive核心配置文件,包括Hive数据存放位置、Metastore的连接URL、JDO连接驱动类、JDO连接用户名、JDO连接密码等配置项,hive-site.xmlXML文件,其配置项会覆盖默认配置hive-default.xml配置文件hive-site.xml涉及的主要参数配置参数功能hive.exec.scratchdirHDFS路径,用于存储不同map/reduce阶段的执行计划和这些阶段的中间输出结果,默认值为/tmp/hive,对于每个连接用户,都会创建目录“${hive.exec.scratchdir}/<username>”,该目录的权限为733hive.metastore.warehouse.dirHive默认数据文件存储路径,通常为HDFS可写路径,默认值为/user/hive/warehousehive.metastore.uris远程模式下Metastore的URI列表javax.jdo.option.ConnectionURLMetastore的连接URLjavax.jdo.option.ConnectionDriverNameJDO连接驱动类javax.jdo.option.ConnectionUserNameJDO连接用户名javax.jdo.option.ConnectionPasswordJDO连接密码hive.hwi.war.fileHWI的war文件所在的路径5.7Hive接口5.7.1HiveShell5.7.2HiveWebInterface(HWI)5.7.3HiveAPI5.7.1HiveShellHiveShell命令是通过$HIVE_HOME/bin/hive文件进行控制的,通过该文件可以进行Hive当前会话的环境管理,Hive表管理等操作。Hive命令需要使用“;”进行结束标示。在Linux终端下通过命令“hive-H”或“hive--servicecli--help”可以查看帮助信息。usage:hive-d,--define<key=value> VariablesubstitutiontoapplytoHivecommands.e.g.-dA=Bor--defineA=B--database<databasename> Specifythedatabasetouse-e<quoted-query-string> SQLfromcommandline-f<filename> SQLfromfiles-H,--help Printhelpinformation--hiveconf<property=value>Usevalueforgivenproperty--hivevar<key=value> VariablesubstitutiontoapplytoHivecommands.e.g.--hivevarA=B-i<filename> InitializationSQLfile-S,--silent Silentmodeininteractiveshell-v,--verbose Verbosemode(echoexecutedSQLtotheconsole)“hive”命令支持的主要参数选项参数说明-d,--define<key=value>给当前Hive会话定义新的变量--database<databasename>指定当前Hive会话使用的数据库名称-e<quoted-query-string>执行查询语句-f<filename>从文件执行Hive查询-H,--help显示帮助信息--hiveconf<property=value>设置当前Hive会话的配置属性--hivevar<key=value>和-d参数相同-i<filename>从文件中初始化Hive会话-S,--silent设置安静模式,不提示日志信息-v,--verbose打印当前执行的HiveQL指令1.HiveShell基本命令HiveShell常用的基本命令主要包含退出客户端、添加文件、修改/查看环境变量、执行linux命令、执行dfs命令等。当不使用-e或-f参数时,默认进入交互模式,所有的命令都以分号结束。交互模式下,Hive支持以下命令。(1)quit/exit:离开Hive命令行。(2)setkey=value:设置配置参数信息,单独使用set命令可以显示所有配置参数列表。(3)set-v:显示所有配置参数值。(4)reset:重置所有配置参数值为默认值。(5)addFILE[S]<file>*,addJAR[S]<file>*,addARCHIVE[S]<file>*:添加文件到Hive缓存中。(6)listFILE[S]<file>*,listJAR[S]<file>*,listARCHIVE[S]<file>*:检查是否add命令添加过指定文件。(7)deleteFILE[S]<file>*,deleteJAR[S]<file>*,deleteARCHIVE[S]<file>*:删除add命令添加的文件。(8)dfs<dfscommand>:执行HDFS命令。(9)<query>:执行查询命令,并输出结果。(10)sourceFILE<file>:执行给定文件中的HiveShell命令。2.HiveQL除了HiveShell的基本命令外,其他的命令主要是DDL、DML、select等HiveQL语句,HiveQL简称HQL,是一种类SQL的查询语言,绝大多数语法和SQL类似。1)HiveQLDDLHiveQLDDL主要有数据库、表等模式的创建(CREATE)、修改(ALTER)、删除(DROP)、显示(SHOW)、描述(DESCRIBE)等命令,详细参考官方文档/confluence/display/Hive/LanguageManual+DDL。DDLOverview、CREATEDATABASECREATETABLECREATETABLECREATETABLE:创建一个指定名字的表。如果相同名字的表已经存在,则抛出异常;用户可以用IFNOTEXISTS选项来忽略这个异常。EXTERNAL:让用户创建一个外部表,在建表的同时指定一个指向实际数据的路径(LOCATION)。COMMENT:为表和列添加注释。PARTITIONEDBY:创建分区表。CLUSTEREDBY:创建分桶表。ROWFORMAT:指定数据切分格式。DELIMITED[FIELDSTERMINATEDBYchar[ESCAPEDBYchar]][COLLECTIONITEMSTERMINATEDBYchar][MAPKEYSTERMINATEDBYchar][LINESTERMINATEDBYchar][NULLDEFINEDASchar]|SERDEserde_name[WITHSERDEPROPERTIES(property_name=property_value,property_name=property_value,...)]用户在建表的时候可以自定义SerDe或者使用自带的SerDe。如果没有指定ROWFORMAT或者ROWFORMATDELIMITED,将会使用自带的SerDe。在建表的时候,用户还需要为表指定列,用户在指定表的列的同时也会指定自定义的SerDe,Hive通过SerDe确定表的具体列的数据。STOREDAS:指定存储文件类型。常用的存储文件类型:SEQUENCEFILE(二进制序列文件)、TEXTFILE(文本)、RCFILE(列式存储格式文件)。LOCATION:指定表在HDFS上的存储位置。2.HiveQL2)HiveQLDMLHiveQLDML主要有数据导入(LOAD)、数据插入(INSERT)、数据更新(UPDATE)、数据删除(DELETE)等命令,详细参考官方文档(网站是最新版本Hive的参考文档)/confluence/display/Hive/LanguageManual+DML

。数据导入(LOAD)语句LOADDATA[LOCAL]INPATH'filepath'[OVERWRITE]INTOTABLEtablename[PARTITION(partcol1=val1,partcol2=val2...)]LOADDATA[LOCAL]INPATH'filepath'[OVERWRITE]INTOTABLEtablename[PARTITION(partcol1=val1,partcol2=val2...)][INPUTFORMAT'inputformat'SERDE'serde'](3.0orlater)2.HiveQL3)HiveQLSECLETHiveQLSECLET用于数据查询,详细参考官方文档/confluence/display/Hive/LanguageManual+Select。5.7.2HiveWebInterface(HWI)HiveWebInterface(HWI)是Hive自带的一个Web-GUI,功能不多,可用于效果展示。由于Hive的bin目录中没有包含HWI的页面,因此需要首先下载源码从中提取jsp文件并打包成war文件到Hive安装目录下lib目录中;然后编辑配置文件hive-site.xml,添加属性参数“hive.hwi.war.file”的配置;这时在浏览器中输入<IP>:9999/hwi会出现错误“JSPsupportnotconfigured”以及后续的“Unabletofindajavaccompiler”,究其原因,需要以下4个jar包:commons-el.jar、jasper-compiler-X.X.XX.jar、jasper-runtime-X.X.XX.jar、jdk下的tools.jar,将这些jar包拷贝到Hive的lib目录下;最后使用命令“hive--servicehwi”启动HWI,在浏览器中输入<IP>:9999/hwi即可看到HiveWeb页面。5.7.3HiveAPIHive支持Java、Python等语言编写的JDBC/ODBC应用程序访问Hive,HiveAPI详细参考官方文档/javadocs/,其中有各种版本的HiveJavaAPI。Java想要访问Hive,需要通过beeline的方式连接Hive,HiveServer2提供了一个新的命令行工具beeline,HiveServer2对之前的HiveServer做了升级,功能更加强大,它增加了权限控制,要使用beeline需要先启动HiveServer2,再使用beeline连接。5.8综合实战:部署本地模式Hive和Hive实战规划Hive部署本地模式Hive验证Hive使用HiveQL5.8.1规划Hive主机名IP地址运行服务软硬件配置master30NameNodeSecondaryNameNodeResourceManagerJobHistoryServerMySQLHive内存:4GCPU:1个2核硬盘:40G操作系统:CentOS7.6.1810Java:OracleJDK8u191Hadoop:Hadoop2.9.2MySQL:MySQL5.7.27Hive:Hive2.3.4Eclipse:EclipseIDE2018-09forJavaDevelopersslave131DataNodeNodeManager内存:1GCPU:1个1核硬盘:20G操作系统:CentOS7.6.1810Java:OracleJDK8u191Hadoop:Hadoop2.9.2slave232DataNodeNodeManager内存:1GCPU:1个1核硬盘:20G操作系统:CentOS7.6.1810Java:OracleJDK8u191Hadoop:Hadoop2.9.25.8.1规划Hive软件名称软件版本发布日期下载地址VMwareWorkstationProVMwareWorkstation14.5.7ProforWindows2017年6月22日/products/workstation-pro.htmlCentOSCentOS7.6.18102018年11月26日/download/JavaOracleJDK8u1912018年10月16日/technetwork/java/javase/downloads/index.htmlHadoopHadoop2.9.22018年11月19日/releases.htmlMySQLConnector/JMySQLConnector/J5.1.482019年7月29日/downloads/connector/j/MySQLCommunityServerMySQLCommunity5.7.272019年7月22日/get/mysql57-community-release-el7-11.noarch.rpmHiveHive2.3.42018年11月7日/downloads.html5.8.2部署本地模式Hive1.初始软硬件环境准备(1)准备三台机器,安装操作系统,编者使用CentOSLinux7。(2)对集群内每一台机器,配置静态IP、修改机器名、添加集群级别域名映射、关闭防火墙。(3)对集群内每一台机器,安装和配置Java,要求Java1.7或更高版本,编者使用OracleJDK8u191。(4)安装和配置Linux集群中主节点到从节点的SSH免密登录。(5)在Linux集群上部署全分布模式Hadoop集群,编者采用Hadoop2.9.2。5.8.2部署本地模式Hive1.初始软硬件环境准备(1)准备三台机器,安装操作系统,编者使用CentOSLinux7。(2)对集群内每一台机器,配置静态IP、修改机器名、添加集群级别域名映射、关闭防火墙。(3)对集群内每一台机器,安装和配置Java,要求Java1.7或更高版本,编者使用OracleJDK8u191。(4)安装和配置Linux集群中主节点到从节点的SSH免密登录。(5)在Linux集群上部署全分布模式Hadoop集群,编者采用Hadoop2.9.2。5.8.2部署本地模式Hive1.初始软硬件环境准备(1)准备三台机器,安装操作系统,编者使用CentOSLinux7。(2)对集群内每一台机器,配置静态IP、修改机器名、添加集群级别域名映射、关闭防火墙。(3)对集群内每一台机器,安装和配置Java,要求Java1.7或更高版本,编者使用OracleJDK8u191。(4)安装和配置Linux集群中主节点到从节点的SSH免密登录。(5)在Linux集群上部署全分布模式Hadoop集群,编者采用Hadoop2.9.2。5.8.2部署本地模式Hive2.安装和配置MySQLMySQL在Linux下提供多种安装方式,例如二进制方式、源码编译方式、YUM方式等,其中YUM方式比较简便,但需要网速的支持。1)下载MySQL官方的YumRepositoryCentOS7不支持MySQL,其Yum源中默认没有MySQL,为了解决这个问题,需要先下载MySQL的YumRepository。读者可以直接使用浏览器到下载链接/get/mysql57-community-release-el7-11.noarch.rpm下进行下载,或者使用命令wget完成,假设当前目录是“/home/xuluhui/Downloads”,下载到该目录下。[root@masterDownloads]#wget/get/mysql57-community-release-el7-11.noarch.rpm5.8.2部署本地模式Hive2.安装和配置MySQL2)安装MySQL官方的YumRepository使用以下命令安装MySQL官方的YumRepository。rpm-ivhmysql57-community-release-el7-11.noarch.rpm安装完这个包后,会获得两个MySQL的yumrepo源:/etc/yum.repos.d/mysql-community.repo和/etc/yum.repos.d/mysql-community-source.repo。3)查看提供的MySQL版本yumrepolistall|grepmysql使用yumrepolist查看有哪些版本MySQL5.8.2部署本地模式Hive2.安装和配置MySQL4)安装MySQL例如采用默认的MySQLX.X进行安装,使用以下命令安装mysql-community-server,其他相关的依赖库mysql-community-client、mysql-community-common和mysql-community-libs均会自动安装。yuminstall-ymysql-community-server当看到“Complete!”提示后,MySQL就安装完成了,接下来启动MySQL并进行登录数据库的测试。5.8.2部署本地模式Hive2.安装和配置MySQL5)启动MySQLsystemctlstartmysqld还可以使用命令“systemctlstatusmysqld”查看状态。5.8.2部署本地模式Hive2.安装和配置MySQL6)测试MySQL(1)使用root和空密码登录测试使用root用户和空密码登录数据库服务器。mysql-uroot–p系统报错,这是因为MySQL5.7调整了策略,新安装数据库之后,默认root密码不是空的了。在启动时随机生成了一个密码,可以/var/log/mysqld.log中找到临时密码,使用命令“grep‘temporarypassword’/var/log/mysqld.log”查找临时密码。5.8.2部署本地模式Hive2.安装和配置MySQL6)测试MySQL(2)使用root和初始化临时密码登录测试使用root和其临时密码再次登录数据库,此时可以成功登录,但是不能做任何事情,这是因为MySQL5.7默认必须修改密码之后才能操作数据库。5.8.2部署本地模式Hive2.安装和配置MySQL6)测试MySQL(3)修改root的初始化临时密码ALTERUSER'root'@'localhost'IDENTIFIEDBY'xijing’;出错,这是由于MySQL5.7默认安装了密码安全检查插件(validate_password),默认密码检查策略要求密码必须包含:大小写字母、数字和特殊符号,并且长度不能少于8位。MySQL5.7默认密码检查策略MySQL密码策略中相关参数说明(部分)参数说明validate_password_dictionary_file指定密码验证的密码字典文件路径validate_password_length固定密码的总长度,默认为8,至少为4validate_password_mixed_case_count整个密码中至少要包含大/小写字母的个数,默认为1validate_password_number_count整个密码中至少要包含阿拉伯数字的个数,默认为1validate_password_special_char_count整个密码中至少要包含特殊字符的个数,默认为1validate_password_policy指定密码的强度验证等级,默认为MEDIUM。validate_password_policy的取值有3种:0/LOW:只验证长度1/MEDIUM:验证长度、数字、大小写、特殊字符2/STRONG:验证长度、数字、大小写、特殊字符、字典文件5.8.2部署本地模式Hive2.安装和配置MySQL6)测试MySQL(3)修改root的初始化临时密码可以通过修改密码策略使密码“xijing”有效,步骤如下:①设置密码的验证强度等级“validate_password_policy”为“LOW”,注意选择“STRONG”时需要提供密码字典文件。方法是:修改配置文件/etc/f,在最后添加“validate_password_policy”配置,指定密码策略,为了使密码“xijing”有效,编者选择“LOW”,具体内容如下所示。validate_password_policy=LOW②设置密码长度“validate_password_length”为“6”,注意密码长度最少为4。方法是:继续修改配置文件/etc/f,在最后添加“validate_password_length”配置,具体内容如下所示。validate_password_length=6③保存配置/etc/f并退出,重新启动MySQL服务使配置生效,使用的命令如下所示。systemctlrestartmysqld5.8.2部署本地模式Hive2.安装和配置MySQL6)测试MySQL(4)再次修改root的初始化临时密码使用root和初始化临时密码登录MySQL,再次修改root密码,如新密码为“xijing”,密码“xijing”符合当前的密码策略。使用命令“flushprivileges;”刷新MySQL的系统权限相关表。5.8.2部署本地模式Hive2.安装和配置MySQL6)测试MySQL(5)使用root和新密码登录测试5.8.2部署本地模式Hive3.在MySQL中创建Hive所需用户和数据库并授权(1)在MySQL中创建用户hive,密码为xijing,使用的命令如下所示。createuser'hive'identifiedby'xijing';(2)创建数据库hive,使用的命令如下所示。createdatabasehive;(3)将数据库hive的所有权限授权于用户hive,使用的命令如下所示。grantallprivilegesonhive.*to'hive'@'localhost'identifiedby'xijing';(4)刷新权限,使其立即生效,使用的命令如下所示。flushprivileges;5.8.2部署本地模式Hive3.在MySQL中创建Hive所需用户和数据库并授权(5)使用hive用户登录,并查看是否能看到数据库hive。5.8.2部署本地模式Hive4.获取HiveHive官方下载地址为/downloads.html,建议读者下载stable目录下的当前稳定版本。编者采用的Hive稳定版本是2018年11月7日发布的Hive2.3.4,其安装包文件apache-hive-2.3.4-bin.tar.gz例如存放在master机器的/home/xuluhui/Downloads中。5.8.2部署本地模式Hive5.安装Hive并设置属主(1)在master机器上,切换到root,解压apache-hive-2.3.4-bin.tar.gz到安装目录如/usr/local下,依次使用的命令如下所示。surootcd/usr/localtar-zxvf/home/xuluhui/Downloads/apache-hive-2.3.4-bin.tar.gz(2)由于Hive的安装目录名字过长,可以使用mv命令将安装目录重命名为hive-2.3.4,使用以下命令完成。此步骤可以省略,但下文配置时Hive的安装目录就是“apache-hive-2.3.4-bin”。mvapache-hive-2.3.4-binhive-2.3.4(3)为了在普通用户下使用Hive,将Hive安装目录的属主设置为Linux普通用户例如xuluhui,使用以下命令完成。chown-Rxuluhui/usr/local/hive-2.3.45.8.2部署本地模式Hive6.将MySQL的JDBC驱动包复制到Hive安装目录/lib(1)获取MySQL的JDBC驱动包,并保存至/home/xlh/Downloads下,下载地址为/downloads/connector/j/。编者使用的版本是2019年7月29日发布的MySQLConnector/J5.1.48,文件名是mysql-connector-java-5.1.48.tar.gz(2)将mysql-connector-java-5.1.48.tar.gz解压至如/home/xlh/Downloads下,使用的命令如下所示。cd/home/xlh/Downloadstar-zxvf/home/xuluhui/Downloads/mysql-connector-java-5.1.48.tar.gz(3)将解压文件下的MySQLJDBC驱动包mysql-connector-java-5.1.48-bin.jar移动至Hive安装目录/usr/local/hive-2.3.4/lib下,并删除目录mysql-connector-java-5.1.41,依次使用的命令如下所示。mvmysql-connector-java-5.1.48/mysql-connector-java-5.1.48-bin.jar/usr/local/hive-2.3.4/librm-rfmysql-connector-java-5.1.485.8.2部署本地模式Hive7.配置Hive1)配置文件hive-env.sh环境配置文件hive-env.sh用于指定Hive运行时的各种参数,主要包括Hadoop安装路径HADOOP_HOME、Hive配置文件存放路径HIVE_CONF_DIR、Hive运行资源库路径HIVE_AUX_JARS_PATH等。(1)使用命令“cphive-env.sh.templatehive-env.sh”复制模板配置文件hive-env.sh.template并命名为“hive-env.sh”。(2)使用命令“vimhive-env.sh”编辑配置文件hive-env.sh。①配置HADOOP_HOME。将第48行HADOOP_HOME注释去掉,并指定为个人机器上的Hadoop安装路径,例如,修改后的内容如下所示。HADOOP_HOME=/usr/local/hadoop-2.9.2②配置HIVE_CONF_DIR。将第51行HIVE_CONF_DIR注释去掉,并指定为个人机器上的Hive配置文件存放路径,例如,修改后的内容如下所示。exportHIVE_CONF_DIR=/usr/local/hive-2.3.4/conf②配置HIVE_AUX_JARS_PATH。将第51行HIVE_AUX_JARS_PATH注释去掉,并指定为个人机器上的Hive运行资源库路径,例如,修改后的内容如下所示。exportHIVE_AUX_JARS_PATH=/usr/local/hive-2.3.4/lib5.8.2部署本地模式Hive7.配置Hive2)配置文件hive-default.xml使用命令“cphive-default.xml.templatehive-default.xml”复制模板配置文件为hive-default.xml,这是Hive默认加载的文件。5.8.2部署本地模式Hive7.配置Hive3)配置文件hive-site.xml新建hive-site.xml,写入MySQL的配置信息。读者请注意,此处不必复制配置文件模板“hive-default.xml.template”为“hive-site.xml”,模板中参数过多,不宜读。<?xmlversion="1.0"encoding="UTF-8"standalone="no"?><?xml-stylesheettype="text/xsl"href="configuration.xsl"?><configuration><property><name>javax.jdo.option.ConnectionURL</name><value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true&useSSL=false</value></property><property><name>javax.jdo.option.ConnectionDriverName</name><value>com.mysql.jdbc.Driver</value></property><property><name>javax.jdo.option.ConnectionUserName</name><value>hive</value></property><property><name>javax.jdo.option.ConnectionPassword</name><value>xijing</value></property></configuration>5.8.2部署本地模式Hive8.初始化HiveMetastore此时,启动HiveCLI,若输入HiveShell命令例如“showdatabases;”,会出现错误,告知不能初始化HiveMetastore。5.8.2部署本地模式Hive8.初始化HiveMetastore使用命令“schematool-initSchema-dbTypemysql”初始化元数据,将元数据写入MySQL中,若出现信息“schemaToolcompleted”,即表示初始化成功。5.8.2部署本地模式Hive9.在系统配置文件目录/etc/profile.d下新建hive.sh另外,为了方便使用Hive各种命令,可以在Hive所安装的机器上使用“vim/etc/profile.d/hive.sh”命令在/etc/profile.d文件夹下新建文件hive.sh,并添加如下内容。exportHIVE_HOME=/usr/local/hive-2.3.4exportPATH=$HIVE_HOME/bin:$PATH重启机器,使之生效。此步骤可省略。5.8.3验证Hive1.启动Hadoop集群Hive的运行需要Hadoop集群,因此需要首先启动全分布模式Hadoop集群的守护进程,只需在主节点master上依次执行以下3条命令即可。start-dfs.shstart-yarn.shmr-jobhistory-daemon.shstarthistoryserver5.8.3验证Hive2.启动HiveCLI启动HiveCLI测试Hive是否部署成功,使用HiveShell的统一入口命令“hive”进入,并使用“showdatabases”等命令测试。5.8.3验证Hive当HiveCLI启动时,在master节点上会看到多一个进程“RunJar”,若启动两个HiveCLI,会多出2个进程“RunJar”。5.8.3验证Hive读者也可以查看HDFS文件,可以看到在目录/tmp下生成了目录hive,且该目录权限为733。5.8.4使用HiveQL【案例5-1】已知一个关于电影评分的本地文件/usr/local/hive-2.3.4/testData/movie.csv,该文件内容以下所示:tt13462900,长津湖,陈凯歌/徐克/林超贤,吴京/易烊千玺/段奕宏,剧情/历史/战

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论