版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
DataFrame与SparkSQL编程DataFrame与SparkSQLnameage第1步:制作“表头”第2步:制作“表中的记录”“Grace”29“Andy”30“John”19第3步:将表头和表中的记录拼装在一起nameage“Grace”29“Andy”30“John”19DataFrame与SparkSQL1导入相应的包scala>importorg.apache.spark.sql.types._importorg.apache.spark.sql.types._
scala>importorg.apache.spark.sql.Rowimportorg.apache.spark.sql.Row
DataFrame与SparkSQL2加载文件生成RDD//生成RDDscala>valpeopleRDD=spark.sparkContext.textFile("file:///usr/local/spark/examples/src/main/resources/people.txt")DataFrame与SparkSQL3制作表头
scala>valschemaString="nameage"
//根据模式字符串生成模式scala>valfields=schemaString.split("").map(fieldName=>StructField(fieldName,StringType,nullable=true))scala>valschema=StructType(fields)//从上面信息可以看出,schema描述了模式信息,模式中包含name和age两个字段
DataFrame与SparkSQL4对peopleRDD的每一行元素进行解析,将表头和表记录拼装起来scala>valrowRDD=peopleRDD.map(_.split(",")).map(attributes=>Row(attributes(0),attributes(1).trim))rowRDD:org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]=MapPartitionsRDD[3]atmapat<console>:29
scala>valpeopleDF=spark.createDataFrame(rowRDD,schema)DataFrame与SparkSQL5注册为临时表供SQL查询使用//必须注册为临时表才能供下面查询使用scala>peopleDF.createOrReplaceTempView("people")scala>valresults=spark.sql("SELECTname,ageFROMpeople")results:org.apache.spark.sql.DataFrame=[name:string,age:string]
scala>results.map(attributes=>"name:"+attributes(0)+","+"age:"+attributes(1)).show()DataFrame与SparkSQL6显示查询结果一个小例子1导入相应的包importorg.apache.spark.sql.SparkSessionimportorg.apache.spark.sql.types.{IntegerType,StringType,StructField,StructType}一个小例子2制作表头valspark=SparkSession.builder().master("local").appName("dateprocess").getOrCreate()valschema=StructType(List(StructField("user_id",IntegerType),StructField("item_id",IntegerType),StructField("category_id",IntegerType),StructField("behavior",StringType)))一个小例子3生成DataFramevaldf=spark.read.format("com.databricks.spark.csv").schema(schema).option("header","false").load("hdfs://localhost:9000/dbtaobao/dataset/user_behavior/UserBehavior.csv")一个小例子4注册为临时表供SQL查询使用//必须注册为临时表才能供下面查询使用df.createOrReplaceTempView("user_behavior")//统计页面浏览量valbehavior_df=spark.sql("selectuser_id,count(if(beha
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026浙江台州市中医院招聘心电图诊断医生(编外)1人备考题库含答案详解(培优b卷)
- 2026河南黄金叶投资管理有限公司所属企业大学生招聘18人备考题库及一套完整答案详解
- 2026重庆市铜梁区维新镇第一批公益性岗位人员招聘1人备考题库附参考答案详解(培优)
- 2026黎明职业大学招聘编制内博士研究生学历学位教师24人备考题库(福建)附参考答案详解(综合卷)
- 2026黑龙江哈尔滨工业大学机电工程学院机械设计系招聘备考题库含答案详解(黄金题型)
- 2026江苏苏州市常熟市莫城街道(服装城)国有(集体)公司招聘13人备考题库及答案详解【名师系列】
- 2026年河北省中考模拟考试-化学试卷
- 安然世通安达信分析三颗巨星坠洛
- 家政服务合同
- 工厂焊接方案
- 第四节喀斯特地貌最全课件
- 成都职业技术学院教师招聘考试历年真题
- 断绝亲情关系协议书
- 产褥期母婴的护理-产褥期妇女的生理变化(妇产科护理学课件)
- 安徽马鞍山市横望人力资源有限公司招考聘用劳务外包人员笔试题库含答案解析
- 四川省高等教育自学考试毕业生登记表【模板】
- 低压电工试题库-含答案
- 森林抚育技术规程
- 健康管理师资料:健康管理概论
- 大学物理考试题库(二)
- 2019新人教高一英语必修第三册-课本听力与视频材料文本
评论
0/150
提交评论