BAT数据工程师面试原题(共4页)_第1页
BAT数据工程师面试原题(共4页)_第2页
BAT数据工程师面试原题(共4页)_第3页
BAT数据工程师面试原题(共4页)_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、精选优质文档-倾情为你奉上SQL面试题1. 用一条SQL 语句 查询出每门课都大于80 分的学生姓名(5分)name kecheng fenshu 张三 语文 81张三 数学 75李四 语文 76李四 数学 90王五 语文 81王五 数学 100王五 英语 90答案:2.按照分数对数据进行排序 (5分)表名 scoresnumnamescore111tom100114nick89112rouse95113jery89116miss83排序结果:namescoreranktom1001rouse952nick893jery893miss835答案:3.hive表tmp_row_num, 按mui

2、d分组,然后同muid组内按muid,time排序 (10分)muidchannelostimeY1androidY2iOSY1androidY3iosY1androidY4ios预期结果:channelmuidtimerankY11Y42Y41Y22Y13Y21Y12答案:4. 请说明hive中 Sort By,Order By,Cluster By,Distrbute By各代表什么意思(5分)5. hive一行变多行 (5分)表名 tb_splitdateABaa7|8|5bb9|10|11预期结果:dateABaa7aa8aa5bb9bb10bb11答案:6.自动统计分布:(10分)t

3、able :包含订单id和每个订单的预估时长(eta)单位minorder_id eta1234 102455 151355 30实现结果:得到订单的eta分布且左边的eta的分段按照大小排列,分段要求小于30分钟按照每5min间隔分段>=30min&<60min按照每10分钟分段,大于60分钟-300分钟 按照每30分钟分段,最后>=300分钟:结果: 0, 5) 订单数 5, 10) 订单数. 30, 40) 订单数. 60, 90 ) 订单数. 300, + 订单数7. group by ,With ROLLUP, With CUB

4、E有什么作用 (10分)8. 按比例抽样 抽样10% 抽样50% (10分)1. 怎么理解皮尔逊相关系数2. 什么是辛普森悖论,怎么避免辛普森悖论?3. 什么是闵科夫斯基距离,怎么理解4. 什么是:协同过滤、n-grams, map reduce、余弦距离?每个人的发展都是动态的,但也各自核心的特质。就我来说,我最大的性格特点是稳重,包容性强,积极主动。我相信人的不断进步是通过不断突破自己的安全边界来实现的。日常生活中我一直对周围环境保持着好奇与开放的态度,乐于与不同领域的人交流学习,不管是出租车司机还是教授,与不同领域的人交流后产生的思想火花经常会为我打开一个看待世界的新角度。同时在处理日常问题时,我倾向于以宏观的思维来提前预估事物可能的发展趋势与不同风险,在有一定把握后再进行实施。而且一旦我认准了一件事,就会全力以赴把它做好。但这样有时也

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论