![知乎23届校招数据分析试题_第1页](http://file4.renrendoc.com/view9/M00/0F/2F/wKhkGWc3Zv2AIK5NAAIM3TGa_RU292.jpg)
![知乎23届校招数据分析试题_第2页](http://file4.renrendoc.com/view9/M00/0F/2F/wKhkGWc3Zv2AIK5NAAIM3TGa_RU2922.jpg)
![知乎23届校招数据分析试题_第3页](http://file4.renrendoc.com/view9/M00/0F/2F/wKhkGWc3Zv2AIK5NAAIM3TGa_RU2923.jpg)
![知乎23届校招数据分析试题_第4页](http://file4.renrendoc.com/view9/M00/0F/2F/wKhkGWc3Zv2AIK5NAAIM3TGa_RU2924.jpg)
![知乎23届校招数据分析试题_第5页](http://file4.renrendoc.com/view9/M00/0F/2F/wKhkGWc3Zv2AIK5NAAIM3TGa_RU2925.jpg)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
知乎23届校招数据分析试题1.现在想筛选出一些优质的内容,筛选的标准是:内容作者的评级大于5级、或者尽管内容作者评级小于5级,但内容本身的评级大于5级或者内容获得的喜欢数大于1000,同时,所筛选出来的内容类型要求为1,下列SQL中,where条件可行的是()A.whereauthor_level>5or(author_level<=5and(content_level>5orlike>1000))andtype=1B.where(author_level>5orauthor_level<=5)and(content_level>5orlike>1000)andtype=1C.where(author_level>5or(author_level<=5andcontent_level>5orlike>1000))andtype=1D.where(author_level>5orauthor_level<=5and(content_level>5orlike>1000))andtype=1正确答案:D解析:这道题考查SQL语句中筛选条件的逻辑。优质内容的筛选有明确规则,D选项准确涵盖了所有条件:作者评级大于5级,或作者评级小于等于5级但内容本身评级大于5级或喜欢数大于1000,同时内容类型为1。A、B、C选项在条件组合或表述上存在偏差,不符合题目要求。
2.如果想监控一段时间内,不同活跃频次的用户贡献的APP时长的比例变化,下列哪中展现形式更好()A.堆积面积图B.饼图C.条形图D.直方图正确答案:A解析:这道题考察的是对数据可视化图表的理解和应用。要监控不同活跃频次用户贡献的APP时长比例变化,需要一种能清晰展示各部分占比及其随时间变化的图表。堆积面积图能很好地展示不同类别数据随时间的变化趋势和占比,适合本题需求。饼图主要用于展示静态的比例关系,条形图用于比较不同类别的数据大小,直方图则用于展示数据的分布情况,均不适合本题需求。因此,A选项堆积面积图是最合适的展现形式。
3.有下列两张表,表1记录着每个作者的id和这个作者的等级,表2记录着每个等级对应等阶划分,现想在表1中添加C列,记录该作者的对应的等阶,在EXCEL中,可以在C列输入哪个函数()A.=vlookup(B:B,D:E,2,1)B.=IF(B1="1","初级",B1="2","初级",B1="3","中级",B1="4","中级",B1="5","高级")C.=vlookup(A:B,D:E,2,1)D.=IF(B:B=D:D,E:E,0)正确答案:A解析:暂无解析
4.A、B、C三个人在五一假期外出旅行的概率分别为1/2、1/3、1/4,假设三个人的行动相互之间没有有影响,那这三人中至少有一个在五一假期外出旅游的概率是()A.1/24B.11/24C.2/3D.3/4正确答案:D解析:这道题考查概率的计算。三人都不外出旅行的概率为:(1-1/2)×(1-1/3)×(1-1/4)=1/4。至少有一人外出旅行的概率用1减去都不外出的概率,即1-1/4=3/4。选项A明显过小,B也不符合计算结果,C也不正确,所以答案是D。
5.假设有一种病毒,它的携带率为1/2000。有一种化验方法可以精准地检测到这种病毒,也就是说,如果一个人携带这种病毒,一定可以被检测出来。但是该项化验的假阳性率为1%,即健康人接受该项化验,会有1%的可能性被误诊为病毒携带者。假设从人群中随机选择一人进行检测,化验结果为阳性(阳性意味着受检者可能是该病毒携带者)。那么,在不考虑其它变量的情况下,此人携带该病毒的概率最接近下列哪个数据?()A.99%B.5%C.2%D.1%正确答案:B解析:这道题考察的是对概率论中贝叶斯定理的应用。首先,我们知道病毒的携带率为1/2000,即0.0005,假阳性率为1%,即0.01。根据贝叶斯定理,我们可以计算出在化验结果为阳性的情况下,此人真正携带病毒的概率。这个概率等于(携带率*检测准确率)/(携带率*检测准确率+健康率*假阳性率),即(0.0005*1)/(0.0005*1+0.9995*0.01),计算后得到的结果最接近5%。
6.从随机数字表抽得50个(各取两位数字)随机数作为两个样本,求得则理论上()A.B.作两方差齐性的F检验,必然方差齐C.做两样本均数的t检验,检验必得出无差别的结论D.分别从两样本求出的总体均数的95%的置信区间,很可能有重叠正确答案:D解析:暂无解析
7.某个工程开展6天之后,因突发状况停工4天,之后工程队提速20%,并按原计划完成了工作,则原计划工期为()A.27天B.30天C.36天D.45天正确答案:B解析:这道题考查工程问题中的工作效率和时间的关系。设原计划每天完成的工作量为1,提速20%后每天完成1.2的工作量。工程开展6天后停工4天,剩下的工作按提速后的效率完成,与原计划时间相同。通过设原计划工期为x天,可列方程求解,计算得出原计划工期为30天。
8.有AB两组用户,A组有4人,B组有5人,现在从AB两组用户中共抽取3个用户进行用户访谈,抽取时要保证两组用户都至少有1人参加访谈,这种情况下,有多少种抽取方法()A.105B.90C.80D.70正确答案:D解析:暂无解析
9.假设随机变量X,Y相互独立,且X~N(25,16),Y~N(25,9),则Z=2X+3Y+10的分布为()A.N(25,145)B.N(25,59)C.N(135,145)D.N(135,59)正确答案:C解析:本题考察的是正态分布的性质,特别是相互独立的正态分布随机变量的线性组合的分布。已知随机变量X和Y是相互独立的,且分别服从N(25,16)和N(25,9)的正态分布。根据正态分布的性质,两个相互独立的正态分布随机变量的线性组合仍然服从正态分布,其期望和方差可以通过线性组合的系数来计算。对于Z=2X+3Y+10,其期望E(Z)=2E(X)+3E(Y)+10=2*25+3*25+10=135,方差D(Z)=2^2*D(X)+3^2*D(Y)=4*16+9*9=145。因此,Z的分布为N(135,145),选项C正确。
10.假设总体X的概率分布为其中,是未知参数,利用总体X的如下样本值3,1,3,0,3,1,2,3求θ的矩估计值()A.1B.1/2C.1/4D.1/8正确答案:C解析:暂无解析
11.下列关于线性回归说法错误的是()A.多重共线性会使得参数估计值方差变小B.在违背基本假设时,普通最小二乘法估计量不再是最佳线性无偏估计量C.可以用DW检验残差是否存在序列相关性D.自变量和残差要相互独立正确答案:A解析:这道题考察的是线性回归模型的相关知识点。首先,多重共线性是一个常见问题,它会导致参数估计值的方差变大,而不是变小,所以A选项的说法是错误的。其次,普通最小二乘法估计量在违背基本假设时,确实不再是最佳线性无偏估计量,B选项正确。再次,DW检验是用来检验残差是否存在序列相关性的常用方法,C选项正确。最后,自变量和残差要相互独立是线性回归模型的一个基本假设,D选项正确。综上所述,A选项是错误的。
12.通过监督学习进行二分类模型训练过程中,可能会遇到正负样本数量不平衡的情况(比如正样本有10万但是负样本有100万),以下哪个方法最不恰当的?()A.对正样本进行重复抽B.从100万负样本中随机抽取10万C.将所有数据加入训练集,充分利用全部数据D.正样本的权重设置为10,负样本权重设置为1正确答案:C解析:这道题考察的是处理不平衡数据集的方法。在机器学习中,当正负样本数量不平衡时,直接将所有数据加入训练集可能会导致模型偏向于多数类(即负样本),从而影响模型的性能。A选项提出对正样本进行重复抽样,这是一种过采样技术,可以增加正样本的数量,使其与负样本数量接近,从而改善模型性能。B选项提出从100万负样本中随机抽取10万,这是一种欠采样技术,可以减少负样本的数量,使其与正样本数量接近,同样有助于改善模型性能。D选项提出对正样本和负样本设置不同的权重,这是一种权重调整方法,可以通过增加少数类(即正样本)的权重来抵消多数类(即负样本)的影响,从而改善模型性能。相比之下,C选项提出将所有数据加入训练集,充分利用全部数据,这种方法在不进行任何处理的情况下直接训练模型,很可能会导致模型偏向于多数类,因此是最不恰当的方法。
13.这个商店的竞争对手宣称,该商店在以那些价钱甩卖那些衬衫的过程中,既没有赚到任何利润,也没有收支平衡。所以顾客们必定能够以低于商店成本的价钱买到衬衫。上述推理的错误推理模式与下面哪一个论证的模式最为相似?A.规则规定,参赛者既要被考察外在形式又要被考察精确性。最后的获胜者在上述两项中都不是最高的,因此,必定会有另外一个可以自由使用的判定标准。B.产品说明上确定,这种杀虫剂对于人和宠物都是安全的。所以,这种杀虫剂对于鹿和野兔这样的野生哺乳动物也是安全的。C.博物馆的值夜班的保安坚持认为,盗窃那幅名画的人没有从地面上或者高于地面的任何地方进入博物馆,因此,窃贼就必定是从地底下进入博物馆的。D.如果这次人口普查要获得人们的信任,那么已婚男子的百分比就会高于已婚女子的百分比。于是,这次人口普查必定显示出,男人的数量多于女人。正确答案:C解析:这是一道识别论证模式的问题。我们需要先理解背景信息和问题核心,再仔细分析每个选项,并将其与问题中给出的信息进行对比。理解背景信息:首先,理解题干中的推理模式——商店的竞争对手宣称商店在甩卖衬衫的过程中没有赚到利润也没有收支平衡,所以顾客们必定能够以低于商店成本的价钱买到衬衫。这是一种排除法的逻辑谬误,即因为否定了两种可能性(赚到利润和收支平衡),就错误地推断出第三种可能性(低于成本价销售)必定为真。理解问题核心:我们需要找出与题干论证模式最为相似的选项。接下来,我们逐一分析选项:-A选项(规则规定参赛者要考察两项,获胜者在两项中都不是最高的,所以必定有另外一个判定标准):这个选项的推理是基于规则的解读,并未使用排除法来推断出另一种可能性,所以与题干的论证模式不同。-B选项(产品说明确定杀虫剂对人和宠物安全,所以也对野生哺乳动物安全):这个选项的推理是基于一种类比,即认为如果某物对一类生物安全,那么对另一类相似的生物也安全,并未使用排除法,所以与题干的论证模式不同。-C选项(保安认为窃贼没有从地面或高于地面的地方进入博物馆,所以窃贼必定是从地底下进入的):这个选项的推理是:否定了两种可能性(从地面或高于地面的地方进入),然后错误地推断出第三种可能性(从地底下进入)必定为真,这与题干的论证模式完全一致。-D选项(如果人口普查要获得信任,那么已婚男子的百分比会高于已婚女子,所以人口普查必定显示出男人多于女人):这个选项的推理是基于一种假设的条件关系,并未使用排除法,所以与题干的论证模式不同。综上所述,C选项(博物馆的值夜班的保安坚持认为,盗窃那幅名画的人没有从地面上或者高于地面的任何地方进入博物馆,因此,窃贼就必定是从地底下进入博物馆的)的推理模式与题干中的推理模式最为相似,都使用了排除法来错误地推断出第三种可能性。
14.只要待在学术界,小说家就不能变伟大。学院生活的磨炼所积累起来的观察和分析能力对小说家非常有用。但是,只有沉浸在日常生活中,才能靠直觉把握生活的种种情感,而学院生活显然与之不相容。以下哪项陈述是上述论证所依赖的假设A.伟大的小说家都有观察和分析能力。B.对日常生活中情感的把握不可能只通过观察和分析来获得。C.没有对日常生活中情感的直觉把握,小说家就不能成就其伟大。D.伴随着对生活的投入和理智的观察,会使小说家变得伟大。正确答案:C解析:根据题干可知,待在学术界会积累观察和分析能力,但会失去对日常生活中情感的直觉把握,而要成为伟大的小说家,需要同时具备这两种能力。据此,我们可以推测出,题干中的论证基于以下假设:没有对日常生活中情感的直觉把握,小说家就不能成就其伟大。A项与题干信息不符,题干中并未提及伟大的小说家都有观察和分析能力;B项不能作为假设,因为题干中并没有否认可以通过观察和分析获得对日常生活中情感的把握;D项也与题干信息不符,题干中并未表明对生活的投入和理智的观察会使小说家变得伟大。因此,正确答案是C。
15.我们对分享面板进行了优化,预期提升用户的分享意愿,以下指标中,你认为哪个指标可以衡量该优化的效果()A.人均分享次数B.阅读到分享的转化率C.分享人数占阅读人数比例D.以上均可正确答案:D解析:这道题考察的是对衡量分享功能优化效果的指标的理解。在评估分享功能的优化效果时,我们需要关注那些能够直接反映用户分享行为的指标。-人均分享次数(A选项)可以反映用户分享的频率,优化后如果此指标提升,说明用户更愿意分享。-阅读到分享的转化率(B选项)表示在阅读内容后,有多少比例的用户进行了分享,这也是衡量优化效果的一个重要指标。-分享人数占阅读人数比例(C选项)反映了在阅读的用户中,有多少人进行了分享,同样可以衡量优化对用户分享意愿的影响。由于这三个指标都能从不同角度衡量分享功能的优化效果,所以D选项“以上均可”是正确的。
16.现有下列三张表,现在想统计出粉丝CTR,请写出对应的SQL语句;15分注:①CTR为点击率,总阅读次数/总曝光次数②表a:是创作者和粉丝关系表;表b:是创作者和内容关系表;表c:是粉丝在内容上的行为明细表正确答案:暂无答案解析:暂无解析
17.有下列三张表,现在想统计出「粉丝CTR」,请写出对应的SQL语句;15分注:①CTR为点击率,总阅读次数/总曝光次数②表a:是创作者和粉丝关系
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- LY/T 3419-2024自然教育评估规范
- LY/T 3414-2024绿色工厂评价要求人造板及其制品
- 2025年造纸完成工段智能装备合作协议书
- 浙教版数学七年级下册《1.2 同位角、内错角、同旁内角》听评课记录3
- 粤教版道德与法治八年级下册5.3《宪法保障公民权利》听课评课记录
- 环境评估公司合并合同(2篇)
- 一年级苏教版数学下册《认识图形(二)》听评课记录
- 统编版八年级下册道德与法治第三课 公民权利2课时 听课评课记录
- 部审人教版九年级数学下册听评课记录27.2.1 第4课时《两角分别相等的两个三角形相似》
- 人教版数学七年级下册听评课记录7.1.1《 有序数对》
- 《金属加工的基础》课件
- 运输行业春节安全生产培训 文明驾驶保平安
- 体验式沙盘-收获季节
- 老年护理陪护培训课件
- 2019年420联考《申论》真题(山西卷)试卷(乡镇卷)及答案
- 医院投诉纠纷及处理记录表
- YY/T 0698.5-2023最终灭菌医疗器械包装材料第5部分:透气材料与塑料膜组成的可密封组合袋和卷材要求和试验方法
- 酱香型白酒工厂设计
- 【深度教学研究国内外文献综述2100字】
- 牵引管道孔壁与管道外壁之间注浆技术方案
- 新人教版四年级下册数学教材解读课件
评论
0/150
提交评论