大数据考试复习试题含答案

上传人：喝*** IP属地：广西上传时间：2024-12-16 格式：DOC 页数：33 大小：63.93KB 积分：30 举报 版权申诉

已阅读5页，还剩28页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第页大数据考试复习试题含答案1.se=pd.Series(range(6,10),index=[3,0,1,2])Se1=se.reindex([0,1,3,2,5])则se1的值排序顺序为A、7.08.06.09.0B、6.07.08.09.0C、7.08.06.09.0NaND、9.08.07.06.0NaN【正确答案】：C2.下列函数中,用于对URL进行解码的是()。A、encodeB、urlencodeC、unquoteD、decode【正确答案】：B3.对于数组:[[1,0,0],[0,1,2]]下列描述错误的是:A、该数组的维度是2B、该数组长度为(2,3)C、该数组长度为(3,2)D、该数组第1维的长度为2【正确答案】：C4.层次化索引能够提供哪一种数据操作的优势?A、更高效的数据插入与更新B、更容易地处理重复索引C、更直观地执行分组、合并和透视表操作D、自动填充缺失数据【正确答案】：C5.date_index=pd.date_range('2024/02/14',periods=5)Timer_ser=pd.Series(np.arange(5),index=date_index)Se=timer_ser.shift(-1)则se的值为A、"[0,1,2,3,NaN]"B、"[1,2,3,4,NaN]"C、"[NaN,1,2,3,4]"D、"[NaN,1,2,3]"【正确答案】：B6.下列选项中,用来表示数组维度的属性是()。A、ndimB、shapeC、sizeD、dtype【正确答案】：B7.matplotlib能绘制()图A、直方图B、散点图C、柱状图D、以上都是【正确答案】：D8.下列选项中,描述不正确的是。()A、数据清洗的目的是为了提高数据质量B、异常值一定要删除C、可使用drop_duplicates()方法删除重复数据D、concat()函数可以沿着一条轴将多个对象进行堆叠【正确答案】：B9.下列不属于数据分析应用场景的是()。A、产品销量分析B、码头货物吞吐量预测C、计算机硬盘使用寿命预测D、某人一生的命运预测【正确答案】：D10.下列选项中,可以删除缺失值或空值的是。()A、isnull()B、notnull()C、dropna()D、fillna()【正确答案】：C11.在NumPy中,numpy.array()函数的作用是什么?A、计算数组中的最大值B、创建一个数组对象C、对数组进行排序D、计算数组的标准差【正确答案】：B12.对于[1,3,9,5,7,6]这组数值,若采用(n-1)法,且插值方法采用平均值的方法,则其中位数为:A、6B、5C、6.5D、5.5【正确答案】：D13.请阅读下面一段程序:importpandasaspdser_obj=pd.Series(range(1,6),index=[5,3,0,4,2])ser_obj.sort_index()执行上述程序后,最终输出的结果为()。

A、-B、-C、-D、-【正确答案】：B14.index=pd.date_range('2/14/2024',periods=6,freq='H')series=pd.Series(range(6),index=index)则,series.resample('2H').mean()的值为A、[1,3,6]B、[0.5,2.5,4.5]C、[4.5,2,0.5]D、[1,5,9]【正确答案】：B15.arr=np.array([[1,2,3],[4,5,6],[7,8,9]])Arr[0:2,0:2]的结果为A、array([[1,2,3],[4,5,6]])B、array([[1,2,],[4,5],[7,8]])C、array([[1,2,],[4,5]])D、array([[2,3],[5,6]])【正确答案】：C16.下列关于广播机制描述正确的是:A、广播机制将用0来补全缺失元素B、广播机制将用NaN来补全缺失元素C、广播机制将通过”复制“的方法来填充缺失元素D、在任何条件下,广播机制都可以将两个形状不同的数组扩展为形状相同的数组【正确答案】：C17.创建一个3x3并且值从1到9的矩阵()A、m=np.arange(9).reshape(3,3)B、m=np.arange(1,10).reshape(3,3)C、m=np.arange(0,9).reshape(3,3)D、m=np.range(1,10).shape(3,3)【正确答案】：B18.下列选项中,描述不正确的是()。A、Pandas中只有Series和DataFrame这两种数据结构B、Series是一维的数据结构C、DataFrame是二维的数据结构D、Series和DataFrame都可以重置索引【正确答案】：A19.关于层次化索引,以下描述正确的是A、只有层次化行索引B、只有层次化列索引C、行索引和列索引都可以是层次化的D、层次索引的每一级都可以有一个编号,其中内层索引编号为0【正确答案】：C20.下列关于李四在11.5-11.11这段时间与RFM模型相关知识描述正确的是:①李四的最近一次消费时间间隔(R)是2天(11月11号-11月9号)②李四的最近一次消费时间间隔(R)是6天(11月11号-11月5号)③李四的消费频率(F)是总共消费的次数,即3次④李四的消费频率(F)是每隔两天一次,即每天平均0.5次⑤李四的消费金额(M)是三天的消费金额总和2400元⑥李四的消费金额(M)是三天的消费金额平均值800元A、①③⑤B、①③⑥C、②③⑥D、②④⑥【正确答案】：A21.下列哪个函数可以通过笛卡尔积的形式生成层次化索引?A、pd.MultiIndex.from_product()B、pd.MultiIndex.from_arrays()C、pd.MultiIndex.from_tuples()D、pd.Index.cross_join()【正确答案】：A22.请阅读下面一段程序:FrompandasimportSeriesImportpandasaspdFromnumpyimportNaNSeries_obj=Series([None,4,NaN])Pd.isnull(series_obj)执行上述程序后,最终输出的结果为()。

A、-B、-C、-D、-【正确答案】：A23.下面代码中,创建的是一个3行3列数组的是()。A、arr=np.array([1,2,3])B、arr=np.array([[1,2,3],[4,5,6]])C、arr=np.array([[1,2],[3,4]])D、np.ones((3,3))【正确答案】：D24.下列函数中,可以用于创建等差数组的函数是()。A、empty()B、arange()C、zeros()D、ones()【正确答案】：B25.下列选项中,描述正确是()。A、Series是一维数据结构,其索引在右,数据在左B、DataFrame是二维数据结构,并且该结构具有行索引和列索引C、Series结构中的数据不可以进行算术运算D、sort_values()方法可以将Series或DataFrame中的数据按照索引排序【正确答案】：B26.下列选项中,不属于ndarray对象属性的是()A、shapeB、dtypeC、ndimD、map【正确答案】：D27.se=pd.Series(range(6,10),index=[3,0,1,2])Se1=se.reindex([0,1,3,2,5],fill_value=3)则se1的值排序顺序为A、3.07.08.06.09.0B、7.08.06.09.03.0C、7.08.06.09.0NaND、9.08.07.06.03.0【正确答案】：B28.pd.date_range(start='2/9/2024',end='2/14/2024')以上函数调用后生成的DatetimeIndex对象包含几个时间点?A、4B、5C、6D、3【正确答案】：C29.arr=np.array([['a','b','c'],['d','e','f']])Df=pd.DataFrame(arr)对于df,其行索引和列索引分别为A、[0,1,2]B、[0,1]C、[0,1,2]D、[0,1,2]【正确答案】：B30.下列代码中绘制直方图的是()。A、plt.hist(x,y)B、plt.scatter(x,y)C、plt.legend('bottom')D、plt.label(散点图)【正确答案】：A31.下列选项中,描述不正确是。()A、concat()函数可以沿着一条轴将多个对象进行堆叠B、merge()函数可以根据一个或多个键将不同的DataFrame进行合并C、可以使用rename()方法对索引进行重命名操作D、unstack()方法可以将列索引旋转为行索引【正确答案】：D32.以下数据属于连续性数据的是:A、掷一个骰子可能的出现的点数B、一个学校每个班级的学生人数C、一个学校开设的课题题目D、降雨量【正确答案】：D33.importnumpyasnpArr=np.array([[1,2,3],[4,5,6]])如何定义一个布尔掩码,用于选择数组中大于3的元素A、mask=arr>3B、mask=[arr>3]C、mask=['arr>3']D、mask=np.mask(arr)>3【正确答案】：A34.se=pd.Series(range(10,15),index=[5,3,1,3,2])Se_sorted=se.sort_values()以下描述错误的是:A、sort_values是按”值“排序B、se_sorted的结果为[10,11,12,13,14]C、se_sorted的结果为[14,13,12,11,10]D、如果需要调整升降序,可以通过ascending参数来调整【正确答案】：C35.se=pd.Series([1,2,3],index=['a','b','c'])以下哪种方案不能访问数值2A、se[b]B、se['b']C、se.bD、se[1]【正确答案】：A36.以下描述错误的是A、ndarray是numpy中最基本的对象B、numpy.array将返回一个ndarray对象C、ndim表示数组的长度D、shape表示数组的形状【正确答案】：C37.下列关于文本数据预处理,表述错误的是:A、文本预处理包括分词->词形归一化->(词性标注)->删除停用词等步骤B、NLTK主要用于中文分词C、通常,由于中文分词没有类似英文的空格,所以中文分词比英文分词难度要大D、可以基于规则、统计和理解进行分词【正确答案】：B38.pandas对数据列进行排序的函数是A、set_indexB、sort_valuesC、sort_indexD、truncate【正确答案】：B39.arr=np.array([[1,2,3],[4,5,6],[7,8,9]])Arr[:2]的结果为A、array([[1,2,3],[4,5,6]])B、array([[1,2,],[4,5],[7,8]])C、array([[1,2,],[4,5]])D、array([[2,3],[5,6]])【正确答案】：A40.Numpy提供()支持以及相应的高效处理函数,是Python数据分析的基础A、元祖B、数据C、数组D、字典【正确答案】：C41.请你选出以下选项中错误的一项:A、给R、F、M各值打分时,不是按指标的数值大小打分,而是对指标的价值打分B、阈值只能通过“分区域评分,计算平均值”的方式获得C、RFM值的打分区间不一定是1~5【正确答案】：B42.se1=pd.Series(range(10,12),index=range(2))Se2=pd.Series(range(20,23),index=range(3))Se_plus=se1.add(se2,fill_value=3)则se_plus的值为A、[30,32,3]B、[3,30,32]C、[30,32,25]D、[25,30,32]【正确答案】：C43.importnumpyasnpArr=np.array([[6,2,7],[3,6,2],[4,3,2]])Arr.sort(axis=1)Arr其打印结果为:A、array([[2,6,7],[2,3,6],[2,3,4]])B、array([[2,3,4],[2,3,6],[2,6,7]])C、array([[3,2,2],[4,3,2],[6,6,7]])D、array([[2,3,6],[2,3,4],[2,6,7]])【正确答案】：A44.ser=pd.Series([1,2,3,4,5],index=['a','b','c','d','e'])则ser[2]与ser['d']的值分别为A、3和4B、2和4C、2和3D、3和'd'【正确答案】：A45.数据分析流程中,不包含以下哪个阶段?()。A、明确目的与思路B、数据展示C、数据分析D、数据存储【正确答案】：D46.绘制饼图的函数是()。A、plot()B、pie()C、barh()D、bar()【正确答案】：B47.在pandas中,用于检测DataFrame或Series中重复值的函数是哪个?A、pd.duplicated()B、pd.unique()C、pd.find_duplicates()D、pd.is_repeated()【正确答案】：A48.下列不属于Python优势的是()A、语法简洁,程序开发速度快B、拥有大量的第三方库,能够调用C艹+、Java语言C、程序的运行速度在所有计算机语言中最快用类多等D、开源免费【正确答案】：C49.关于all()函数与any()函数,下列选项中描述正确的是()。A、all()用于判断整个数组中的元素的值是否全部满足条件,如果满足条件返回True,否则返回FalseB、any()用于判断整个数组中的元素的值是否全部满足条件,如果满足条件返回False,否则返回TrueC、any()函数用于判断整个数组中的元素至少有一个满足条件,如果满足返回False,否则就返回TrueD、all()函数用于判断整个数组中的元素至少有一个满足条件就返回False,否则就返回True【正确答案】：A50.在Pandas中,用于计算DataFrame某一列(如'column1')平均值的方法是?A、df.mean('column1')B、df['column1'].mean()C、df.aggregate('mean',column='column1')D、df.column1.agg()【正确答案】：B51.请阅读下面一段程序:Arr=np.arange(6).reshape(1,2,3)Print(arr.transpose(2,0,1))执行上述程序后,最终输出的结果为()。A、[[[25]][[03]][[14]]]B、[[[14]][[03]][[25]]]C、[[[03]][[14]][[25]]]D、[[[0][3]][[1][4]][[2][5]]]【正确答案】：C52.s=pd.Series([1,2,3,4,5])S.replace(1,5)的结果为A、[5,2,3,4,5]B、[1,2,3,4,1]C、[1,5,3,4,5]D、[1,2,3,5,5]【正确答案】：A53.若要对DataFrame按照某一列(例如'Age')进行排序,应使用哪个方法?A、df.sort_values('Age')B、df.order_by('Age')C、df.sort_column('Age')D、df.sort_key('Age')【正确答案】：A54.若要创建一个全为零且形状为(3,4)的二维数组,应使用下列哪个命令?A、np.zeros((4,3))B、np.empty((3,4),fill_value=0)C、np.ones((4,3))∗0D、np.zeros((3,4))【正确答案】：D55.下列关于重采样相关描述错误的是:A、重样是指将常规时间序列重新采样,往往会对频率进行转换B、降采样的时间颗粒会变大,比如原来按天统计,现在按周统计C、升采样的时间颗粒会变小D、降采样的总体数据量会变大【正确答案】：D56.下面构建RFM模型的步骤,正确顺序应该是①将用户的RFM值与平均值进行对比,标记用户的RFM高低值,对用户进行分类②给用户的RFM值进行打分③分别计算R、F、M各打分值的平均值④获取含有RFM的用户数据,计算R、F、M的值⑤给R、F、M各值按价值划分打分区间A、④③⑤②①B、④⑤③②①C、④⑤②③①D、⑤④②③①【正确答案】：C57.关于Pandas中数据排序,下列说法正确的是()。A、即可以按照行索引排序,也可以按照列索引排序B、sort_index()方法表示按照值进行排序C、sort_values()方法表示按照索引进行排序D、默认情况下,sort_index()方法按照降序排列【正确答案】：A58.l=[[1,2,3],[1,6,4],[2,1,3],[1,2,2]]Df=pd.DataFrame(l,columns=["a","b","c"])Df.groupby(by=["b"])可以将df分成几组A、2B、1C、3D、4【正确答案】：C59.以下哪一项描述的问题无法使用RFM模型进行分析A、某广告投放专员小凡被老板要求减少广告成本,但又不能对总体广告带来的收益影响太大,小凡头很大B、某银行业务员小刘最近想发展几个潜力客户,可看着一大叠客户名单,不知道要针对哪些客户,小刘很苦恼C、某游戏运营专员小杰发现最近游戏中新增用户减少,想推出活动吸引新用户D、某电商运营专员小龙发现最近用户流失率有所增加,他要想办法找到那些可能流失的用户,采取挽留措施【正确答案】：C60.Echarts是()公司开发的产品。A、阿里巴巴B、谷歌C、百度D、腾讯【正确答案】：C61.对于[1,3,5,6,7,9,10]这组数值,若采用(n-1)法,且插值方法采用”平均值“的方法,其下四分位数为:A、3B、3.5C、4D、5【正确答案】：C62.df=pd.DataFrame(np.array([[0,1,2],[3,4,5],[8,6,-4]]),index=['f','b','e'])Df_sorted=df.sort_values(by='e',axis=1)以下描述错误的是:A、by='e'指按照索引'e'进行值排序B、axis=1表示按照水平方向进行排序C、默认将按照升序进行排序D、sort_values()是按照索引进行排序【正确答案】：D63.请阅读下面一段程序:Arr_2d=np.array([[11,20,13],[14,25,16],[27,18,9]])Print(arr_2d[1,:1])执行上述程序后,最终输出的结果为()。A、"[14]"B、"[25]"C、"[14,25]"D、"[20,25]"【正确答案】：A64.df=pd.DataFrame({"A":[1,2,3],"B":[4,5,6]})Df_re=df.rename(columns={"A":"a","B":"c"})此时,df_re的列索引为A、该方法抛出异常,因为索引不能被改变B、["a","c"]C、["a","b"]D、["A","B","a","c"]【正确答案】：B65.pd.cut(np.array([1,7,5,4,6,3]),3)则下属描述错误的是A、该方法将数组区间分为等宽的3段B、默认分隔的区间是左闭右开的C、左端点取值默认会有一个偏差,通常偏差在1%内D、上述结果中,数字5将落在(3.0,5.0]这个区间内【正确答案】：B66.list_tuples=[('A','A1'),('A','A2'),('B','B1'),('B','A2'),('B','B3')]Result=MultiIndex.from_tuples(tuples=list_tuples)对于以上代码,描述错误的是A、外层索引为['A','B']B、内层索引为['A1','A2','B1','A2','B3']C、result是一个MultiIndex对象D、A2的父级索引是A【正确答案】：D67.下列函数中,用于计算整数的绝对值的是()。A、square()B、sqrt()C、abs()D、floor()【正确答案】：C68.关于DataFrame.stack(),其作用描述正确的是:A、将行索引转换为列索引B、将列索引转换为行索引C、将行列索引互换D、将整个DataFrame旋转90度【正确答案】：B69.在进行算术运算时,如果希望一次性输出多个统计指标可以使用()方法。A、statistics()B、describe()C、all()D、results()【正确答案】：B70.下列选项中,不属于Seaborn库特点的是()。A、基于网格绘制出更加复杂的图像集合B、SeabornMatplotlib是基于的视化库C、可以处理大量的数据流D、多个内置主题及颜色主题【正确答案】：C71.假设有一个数组:Array([[0.,1.,2.,3.],[1.,2.,3.,4.],[2.,3.,4.,5.],[3.,4.,5.,6.]])Arr[[0,3]]的打印结果为:A、array([[0.,1.,2.]])B、array([[0.,1.,2.,3.],[1.,2.,3.,4.],[2.,3.,4.,5.]])C、array([[0.,1.,2.,3.],[3.,4.,5.,6.]])D、array([[0],[1],[2],[3]])【正确答案】：C72.df=pd.DataFrame(np.arange(25).reshape(5,5),index=list('abcde'),columns=list('ABCDE'))则以下描述错误的是:A、iloc仅可以接收整数作为参数B、df.iloc[1]的取值为[5,6,7,8,9]C、df.loc['a']的取值为[0,1,2,3,4]D、df.iloc[0]的取值为[0,5,10,15,20]【正确答案】：D73.下列关于数组轴的描述错误的是:A、通常,数组的每个轴都有一个编号B、由于三维坐标系通常用x轴、y轴和z轴表示,所以数组的轴编号不可能超过3C、对于一个二维数组,纵向轴(y轴)编号为0,水平轴(x轴)编号为1D、高维数组在执行转置操作时,通常需要指定数组的维度编号【正确答案】：B74.关于Series和DataFrame下列描述错误的是:A、Series主要由数据和索引构成B、DataFrame主要由行、列索引以及数据构成C、创建DataFrame时,必须显式传入行索引和列索引D、在创建Series时,如果不传入索引,则默认生成0到n的索引【正确答案】：C75.对于以下DataFrame当调用drop_duplicates()后,其行索引为:A、[1,2,3,4]B、[0,2,3,4]C、[0,2]D、[1,3,4]【正确答案】：B76.importnumpyasnpArr=np.empty((3,3))Foriinrange(3):Arr[i]=np.arange(i,i+3)该程序生成的数组arr为:A、array([[1.,2.,3.],[2.,3.,4.],[4.,5.,6.]])B、array([[0.,1.,2.],[1.,2.,3.],[2.,3.,4.]])C、array([[0.,2.,4.],[1.,3.,5.],[2.,5.,7.]])D、array([[0.,3.],[1.,4.],[2.,5.]])【正确答案】：B77.请阅读下面一段程序:importnumpyasnpimportpandasaspdser_obj=pd.Series([4,np.nan,6,5,-3,2])ser_obj.sort_values()执行上述程序后,最终输出的结果为()。

A、-B、-C、-D、-【正确答案】：A78.Matplotlib是python中的()A、绘图工具库B、分析方法C、建表D、以上都不是【正确答案】：A79.pandas用于分组的函数是A、applyB、meanC、groupbyD、describe【正确答案】：C80.arr=np.arange(8)Arr[1:6:2]以上代码结果为_____A、list([1,2,3,4,5,6])B、list([1,3,5])C、array([1,3,5])D、array[1,2,6]【正确答案】：C81.根据下面的代码,df_g['b']的结果为:L=[[1,2,3],[1,None,4],[2,1,3],[1,2,2]]Df=pd.DataFrame(l,columns=["a","b","c"])Df_g=df.groupby(by="a").sum()A、[4,1]B、[2,1]C、[1,3]D、[5,2]【正确答案】：A82.下列关于shape属性描述错误的是A、shape表示数组的形状B、shape属性返回一个元组C、shape属性返回元组的长度等于数组的维度(ndim)D、一个2X3的矩阵的shape属性为(3,2)【正确答案】：D83.下列选项中哪个方法表示将Excel中的数据读取出来,转换成DataFrame展示?()A、read_excel()B、to_DataFrame()C、write_DataFrame()D、excel_write()【正确答案】：A84.下面列出的数据分析库中,用于绘制数组的2D图形的是()A、NumPyB、PandasC、MatplotlibD、NLTK【正确答案】：C85.arr=np.array([[1,2,3],[4,5,6],[7,8,9]])Arr[1,2]关于arr[1,2]的返回结果描述正确的是A、返回结果是一个一维数组B、返回结果是一个二维数组C、返回结果为6D、返回结果为数组[[1,2,3],[4,5,6]]【正确答案】：C86.对于应用3σ原则的数据,必须要求数据分布服从(或逼近):A、离散数据B、连续数据C、正态分布D、数据是分桶的【正确答案】：C87.df=pd.DataFrame(np.arange(9).reshape(3,3),index=[4,3,5])Df_sorted=df.sort_index()Df_sorted[2][3]的值为A、1B、5C、4D、6【正确答案】：B88.pandas提供的去掉重复值的方法是A、drop_dup()B、drop_duplicates()C、duplicates()D、drop()【正确答案】：B89.arr=np.array([[1,2,3],[4,5,6],[7,8,9]])Arr[:2]关于arr[:2]的返回结果描述正确的是A、返回结果是一个一维数组B、返回结果为数组[1,2]C、返回结果为数组[7,8,9]D、返回结果为数组[[1,2,3],[4,5,6]]【正确答案】：D90.numbers=[0,1,2]Colors=['green','purple']以上两个集合,进行笛卡尔积运算,其总共的组合有:A、4种B、6种C、5种D、2种【正确答案】：B91.下列选项中,不能创建一个Series对象的是()。A、ser_obj=pd.Series([1,2,3,4,5])B、ser_obj=pd.Series({2001:17.8,2002:20.1,2003:16.5})C、ser_obj=pd.Series((1,2,3,4))D、ser_obj=pd.Series(1,2)【正确答案】：D92.s1=pd.Series(['a','b'])S2=pd.Series(['c','d'])Con=pd.concat([s1,s2])以下结果描述错误的是A、con的结果为['a','c','b','d']B、con的结果为['a','b','c','d']C、concat()函数用于进行轴向堆叠数据D、concat()可以用于合并两个Series,也可以用于合并两个DataFrame【正确答案】：A93.关于Pandas中两个DataFrame的连接方式,描述错误的是:A、inner表示内连接B、outer表示外连接C、inner表示两个集合的交集D、outer表示两个集合的交集【正确答案】：D94.数据清洗方法不包括()。A、删除原始数据中的无关数据B、重复数据处理C、逻辑错误处理D、处理缺失值与异常值等【正确答案】：C95.下列关于Series说法错误的是()A、Series是一个类似一维数组的数据结构B、Series可以保存任何类型的数据C、Series由数据和索引构成D、Series必须显式设置索引【正确答案】：D96.下面那个方法是计算算数平均值:()A、sumB、minC、meanD、min【正确答案】：C97.分辨出这个Series对象中,数据指的是哪一部分?QQ截图20221213155225.jpgA、0,'赵'B、0,1,2,3C、'赵','钱','孙','李'D、3,'李'【正确答案】：C98.分辨下图DataFrame对象中,列索引指的是什么?Image.pngA、0,1,2B、'年龄','岗位','年购买量'C、23,22,21D、'客服','运营','公关'【正确答案】：B99.下列函数或方法中,用来表示矢量化三元表达式的是()。A、where()B、cumsum()C、sort()D、unique()【正确答案】：A100.Series对象类似于ndarray数组对象,也可以进行矢量运算。对一个值为[1,2,3]的Series对象进行Series∗2的操作,结果为:A、Series([1,2,3,1,2,3])B、Series([2,4,6])C、Series([2,4,6,2,4,6])D、Series([0,6])【正确答案】：B1.下列关于Pandas数据排序说法正确的是()。A、sort_values()可以按值排序B、sort_values()可以按索引排序C、sort_index()可以按索引排序D、sort_index()可以按值排序【正确答案】：AC2.关于dataframe正确的是A、两维数据结构B、一维数据结构C、index表示行索引D、list表示列索引E、columns表示列索引【正确答案】：ACE3.pandas的to_datetime函数可以将以下哪些类型数据转换成时间对象A、字典B、SeriesC、字符串D、list【正确答案】：ABCD4.arr=np.arange(12).reshape(3,4)Df=pd.DataFrame(arr,index=['a','b','c'],columns=['a','b','c','d'])Df[0:2]关于df[0:2]以下描述正确的是A、取第0行和第1行B、取第0列和第1列C、结果是一个DataFrameD、结果是一个Series【正确答案】：AC5.pandas中常见的数据异常值鉴别方法有:A、3σ原则B、β分布C、离散原则D、箱型图【正确答案】：AD6.NumPy数组的转置可以通过()实现。A、transpose()B、reshape()C、TD、transform()【正确答案】：AC7.pandas中主要的数据结构有A、SeriesB、NdarrayC、NumpyDataFrame【正确答案】：AD8.下列说法正确的是()A、散点图的x轴刻度必须为数值B、折线图可以用做查看特征间的趋势关系C、柱状图可以用做查看各分类之间的数据对比D、饼图可以用做查看各分类在总和中的占比【正确答案】：BCD9.关于箱线图分析法正确的是A、位于上下四分位数之外的就是属于异常值B、位于上下四分位数之内的就是属于异常值C、小于QL-1.5IQR属于异常值D、大于QU+1.5IQR属于异常值【正确答案】：CD10.关于arr=np.arange(5,8)以下描述正确的是A、arr中包含5,但不包含8B、arr中包含8,但不包含5C、对于arange函数,其生成的数组区间是左闭右开的D、对于arange函数,其生成的数组区间是左开右闭的【正确答案】：AC11.创建一个3∗3的数组,下列代码中正确的是()A、np.ones((3,3))B、np.random.random([3,3,3])C、np.zeros((3,3))D、np.arange(0,9).reshape(3,3)【正确答案】：ACD12.下列函数中,可以创建NumPy数组的是()。A、array()B、zeros()C、empty()D、ones()【正确答案】：ABCD1.使用describe()方法会输出Pandas对象的多个统计指标。A、正确B、错误【正确答案】：A2.在箱形图中超出上界和下界的值称为异常值。()A、正确B、错误【正确答案】：A3.在DataFrame中每列的数据都可以看作是一个Series对象。A、正确B、错误【正确答案】：A4.字典中的值只能够是字符串类型。()A、正确B、错误【正确答案】：B5.pd.MultiIndex.from_arrays()既可以通过数组创建层次索引对象,也可以通过列表创建A、正确B、错误【正确答案】：A6.NumPy数组不需要循环遍历,即可对每个元素执行批量的算术运算操作。A、正确B、错误【正确答案】：A7.read_csv()函数和read_table()函数没有区别可以随意替换使用。()A、正确B、错误【正确答案】：B8.pandas中idxmin函数用于获取最大值的行索引A、正确B、错误【正确答案】：B9.在使用merge()函数进行合并时,不需要指定合并键。()A、正确B、错误【正确答案】：B10.1.根据3σ判断原则,对于一组数据,若μ表示平均值,σ表示标准差,则某些分布在(μ-σ,μ+σ)区间外的数值会被判定为异常值A、正确B、错误【正确答案】：B11.使用describe()方法会输出多个统计指标。()、A、正确B、错误【正确答案】：A12.当通过布尔数组索引操作数组时,返回的数据是布尔数组中False对应位置的值。()A、正确B、错误【正确答案】：B13.数组之间的任何算术运算都会将运算应用到元素级。()A、正确B、错误【正确答案】：A14.数组的维度也称为轴(axes)A、正确B、错误【正确答案】：A15.pandas是一个基于Numpy的Python库A、正确B、错误【正确答案】：A16.图表时,可以使用subplot函数创建多个子图。A、正确B、错误【正确答案】：A17.DataFrame的结构是由索引和数据组成的。A、正确B、错误【正确答案】：A18.可以通过np.arrage(12).reshape(3,4),构建一个3行4列的数组A、正确B、错误【正确答案】：A19.Series对象不存在层次化索引。()A、正确B、错误【正确答案】：B20.通过empty()函数创建的数组,该数组中没有任何的元素。()A、正确B、错误【正确答案】：B21.se=pd.Series([1,3,9,5,7,6])Se.describe()的返回结果中,25%、50%、75%

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据考试复习试题含答案

文档简介

温馨提示

最新文档

评论

大数据考试复习试题含答案

文档简介

温馨提示

最新文档

评论

相关文档