版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Parquet文件SparkSQL-Parquet文件示例/01SparkSQL-Parquet文件SparkSQL-Parquet文件Parquet是一种柱状格式,由许多数据处理系统支持。具有柱状存储的优点如下:1、列存储限制IO操作。2、列式存储可以获取您需要访问的特定列。3、列式存储占用更少的空间。4、列式存储提供更好的摘要数据,并遵循类型特定的编码。SparkSQL提供对读取和写入自动捕获原始数据模式的镶木地板文件的支持。像JSON数据集一样,parquet文件遵循相同的过程。让我们再看一下名为employee.parquet的员工记录数据放在spark-shell正在运行的同一目录中的相同示例。/02示例
给定数据-不要将员工记录的输入数据转换为镶木地板格式。我们使用以下命令将RDD数据转换为Parquet文件。
放置employee.json文档,我们在之前的示例中用作输入文件。示例(一)
无法显示拼贴文件。它是一个目录结构,您可以在当前目录中找到它。如果要查看目录和文件结构,请使用以下命令。
以下命令用于读取,注册到表以及对其应用一些查询。
打开SparkShell
使用以下示例启动Sparkshell示例(二)创建SQLContext对象
使用以下命令生成SQLContext。这里,sc表示SparkContext对象。从文本文件读取输入
通过使用以下语句从名为employee.parquet的parquet文件读取数据来创建RDDDataFrame示例(三)示例(四)将DataFrame存储到表中
使用以下命令将DataFrame数据存储到名为employee的表中。在这个命令之后,我们可以应用所有类型的SQL语句。员工表已准备就绪。现在让我们使用SQLContext.sql()方法在表上传递一些SQL查询。
选择DataFrame上的查询
使用以下命令从employee表中选择所有记录。这里,我们使用变量allrecords来捕获所有记录数据。要显示这些记录,请调用show()方法。要查看allrecords数据源的结果数据,请使用以下命令。要查看allrecords数据源的结果数据,请使用以下命令。输出:
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年物联网设备管理系统开发合同2篇
- 二零二四年墙体广告租赁合同涵盖广告位更新维护责任3篇
- 2025年房地产项目委托产权登记及过户服务合同3篇
- 二零二五年度卫生间清洁保养服务合同3篇
- 二零二五年房地产物业管理服务委托合同模板3篇
- 2025年度生态环保型建筑材料采购合同3篇
- 二零二五年服装店库存管理师聘用合同样本3篇
- 2025年度网络安全防护技术解决方案定制合同3篇
- 二零二五年度河堤施工环境保护与污染防治合同3篇
- 二零二五年度环保材料买卖合同规范文本2篇
- 农民工工资表格
- 【寒假预习】专题04 阅读理解 20篇 集训-2025年人教版(PEP)六年级英语下册寒假提前学(含答案)
- 2024年突发事件新闻发布与舆论引导合同
- 地方政府信访人员稳控实施方案
- 小红书推广合同范例
- 商业咨询报告范文模板
- 2024年智能监狱安防监控工程合同3篇
- 幼儿园篮球课培训
- AQ 6111-2023个体防护装备安全管理规范知识培训
- 老干工作业务培训
- 基底节脑出血护理查房
评论
0/150
提交评论