版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第页大数据统计与分析复习测试卷含答案1.数据质量包含的要素有()A、准确性、完整性B、一致性、可解释性C、时效性、可信性D、以上所有要素【正确答案】:D2.numpy中向量转成矩阵使用()A、reshapeB、revalC、arangeD、random【正确答案】:A3.在下列选项中可以进行主键合并的是()。A、append()B、combine_first()C、concatD、merge【正确答案】:D4.导入pymysql数据的命令是()A、importdatabaseB、importSQLC、importpymysqlD、pipinstallMysql【正确答案】:C5.以下哪个不是Pandas连接数据库时的常见步骤?()A、导入必要的库(如Pandas和SQLAlchemy)B、创建数据库连接对象C、执行SQL查询并读取结果到DataFrameD、使用to_sql()函数将DataFrame写回数据库【正确答案】:D6.数据合并有()、主键合并和重叠合并三种。A、重复合并B、横向合并C、堆叠合并D、纵向合并【正确答案】:C7.代码“np.arange(0,1,0.2)”的运行结果为()。A、[0.2,0.4,0.6,0.8]B、[0.,0.2,0.4,0.6,0.8]C、[0.,0.2,0.4,0.6,0.8,1.0]D、[0.2,0.4,0.6,0.8,1.0]【正确答案】:B8.我们在使用pandas时需要导入什么模块。()A、importpandasaspdB、importsysC、importmatplotlibD、importpymysql【正确答案】:A9.下列关于Python数据分析库的描述正确的是()。A、pandas能够实现数据的整理工作B、Numpy的在线安装不需要其他任何的辅助工具C、Scipy的主要功能是可视化图表D、scikit-learn包含所有算法【正确答案】:A10.以下分组操作中不涉及原始对象的是()。A、应用一个函数B、分割对象C、聚合数据D、结合结果【正确答案】:C11.在下列选项中可以进行重叠合并的是()A、combine_first()B、concatC、mergeD、append()【正确答案】:A12.以下是回归模型评估指标的是()。A、均方根误差(RootMeanSquarError,RMS)B、准确率(Accuracy)C、精确率(Precision)D、召回率(Recal1)【正确答案】:A13.在下列选项中可以进行哑变量处理的是()。A、dummies函数B、get_cut函数C、get_dummies函数D、cut函数【正确答案】:C14.skleam转换器的主要方法不包括()。A、transform()B、fit_transform()C、fit()D、fit_transforms()【正确答案】:D15.下列算法中属于分类方法的是()。A、SVC算法B、K-MEDOIDS算法C、CLARANS算法D、CLIOU算法【正确答案】:A16.下列关于分析与建模流程的说法错误的是()A、分析与建模的模型选择要根据需求确定B、分析与建模丁作是数据分析的核心C、分析和建模时可以选择多个模型,同时分析D、传统的统计对比分析不属于分析与建模流程【正确答案】:D17.下列关于pandas数据读/写说法错误的是()A、read_csv能偶够读取所有文本文档的数据B、read_sql能够读取数据库的数据C、to_csv函数能够将结构化数据写入.csv文件D、to_excel函数能够将结构化数据写入Excel文件【正确答案】:A18.sklearn中用于对特征进行归一化的函数是()。A、StandardScalerBinarizerC、MinMaxScalerD、Normalizer【正确答案】:D19.关于iloc的说法不正确的是()A、既可以行索引,又可以列索引B、不能使用标签索引C、当传入的行索引位置或列索引位置为区间时,其为前闭后开区间D、可以接收Series【正确答案】:D20.pyplot模块中显示图例的函数是哪个?()A、plt.legend()B、plt.show()C、plt.title()D、plt.plot()【正确答案】:A21.numpy中,生成给定上下限范围的随机数函数是:()A、randomB、randC、randnD、randint【正确答案】:D22.获取DataFrame后10行,可以用以下哪个()A、df.loc[10]B、df[:-10]C、df[-10:]D、df.tail()【正确答案】:C23.以下哪种方法可以用于比较不同机器学习模型的性能?()A、交叉验证B、数据增强C、特征工程D、超参数调整【正确答案】:A24.改变数组的操作是()A、切片B、索引C、转置D、堆叠【正确答案】:A25.下列关于数据和数据分析的说法正确的是()A、数据就是数据库中的表格B、文字、声音和图像都是数据C、数据分析只能是对过去发生事情的描述和分析D、数据分析的数据只能是结构化的【正确答案】:B26.对Apriori算法,下列选项中表达有误的是()。Apriori算法是关联分析中最常用的算法之一。B、应用Apriori算法,需要先设定模型的最小支持度、最小置信度等阈值。C、应用Apriori算法时,输入的数据可以是连续型数据也可以是离散型数据。D、Aprior算法扫描数据库的次数依于最大频繁项集中项的数量。【正确答案】:C27.下列loc.iloc属性的用法正确的是()A、df.loc[‘列名’,‘索引名’];df.iloc[‘索引位置’,‘列位置’]B、df.loc[‘索引名’,‘列名’];df.iloc[‘索引位置’,‘列名’]C、df.loc[‘列名’,‘索引名’,];df.iloc[‘索引位置’,‘列名’]D、df.loc[‘索引名’,‘列名’];df.iloc[‘索引位置’,‘列位置’]【正确答案】:D28.Numpy中创建全为0的矩阵使用()A、zerosB、onesC、emptyD、arrange【正确答案】:A29.以下关于pandas数据预处理说法正确的是()。A、pandas没有做哑变量的函数B、在不导入其他库的情况下,仅仅使用pandas就可实现聚类分析离散化C、pandas可以实现所有的数据预处理操作D、cut函数默认情况下做的是等宽法离散化【正确答案】:D30.计算numpy中元素个数的方法()A、np.sqrt()B、np.size()C、np.identity()D、np.count()【正确答案】:B31.以下函数中不具备排序功能的是()A、sortB、argsortC、lexsortD、extract【正确答案】:D32.创建一个3×3的数组,下列代码中错误的是()A、np.arange(0,9).reshape(3,3)B、np.eyes(3)C、np.random.random([3,3,3])D、np.mat(“1,2,3;4,5,6;7,8,9”)【正确答案】:C33.在处理数据缺失值时,如果某特征的缺失值比例较小,以下哪种填充方法较为合适()A、均值填充B、中位数填充C、删除含有缺失值的样本D、用固定值填充【正确答案】:A34.假设有命令(P)importnumpyasnpbArray=np.array([[1,2,3],[4,5,6]])则,bArray.ndim的结果是A、1B、2C、3D、4【正确答案】:B35.下列关于pandas中drop_duplicates()方法的说法正确的是()。A、drop_duplicates()方法不会改变原数据的排列B、drop_duplicates()是常用的主键合并方法,能够实现左连接和右连接C、drop_duplicates(方法只对DataFrame有效D、drop_duplicates()方法仅支持单一特征数据去重【正确答案】:A36.假设有命令importnumpyasnpArray1=np.linspace(1,5,3,dtype=int)print(Array1)则,执行结果是(A、[135]B、[125]C、[1.3.5.]D、[1.2.5.]【正确答案】:A37.下列图形常用于分析各分组数据在总数据中所占比例的是()A、箱线图B、柱形图C、饼图D、折线图【正确答案】:C38.在Pandas中,用于从SQL数据库中读取数据到DataFrame的函数是?()A、pd.read_csv()B、pd.read_sql()C、pd.read_excel()D、pd.read_table()【正确答案】:B39.下列说法不正确的是()。A、柱形图可以用于查看整体数据的数量分布B、散点图可以用于查看数据中的离群值C、箱线图可以用于查看特征间的相关关系D、折线图可以用于查看数据的数量差异和变化趋势【正确答案】:C40.下列关于groupby方法说法正确的是()A、groupby能够实现分组聚合B、groupby方法的结果能够直接查看C、groupby是pandas提供的一个用来分组的方法D、groupby方法是pandas提供的一个用来聚合的方法【正确答案】:C41.下列不能创建数组的函数是()A、linspacB.zerosC、onesD、twos【正确答案】:D42.下列选项中,哪个是分类器效果验证指标中准确率的正确表述。()A、预测为正的数据在总数据中的比例B、预测正确的数据在总数据中的比例C、预测为正的数据中实际为正的数据所占比例D、实际为正的数据中被预测为正的数据所占比例【正确答案】:C43.以下关于数据分析预处理的过程描述正确的是()。A、数据清洗包含了数据标准化、数据合并和缺失值处理B、数据合并按照合并轴方向主要分为左连接、右连接、内连接和外连接C、预处理过程主要包括数据清洗、数据合并、数据标准化和数据转换,它们之间存在交叉,没有严格的先后关系D、数据标准化的主要对象是类别型的特征【正确答案】:C44.下面哪一个获取DataFrame结构的属性?()A、df.shapeB、df.ndimC、df.sizeD、df.dtypes【正确答案】:A45.numpy中,random函数生成的数值在()之间A、[0,1]B、(0,1)C、[0,1)D、(0,1]【正确答案】:C46.在K-Means聚类算法中,K值的选择通常会影响什么?()A、聚类的结果和模型的复杂度B、数据的预处理方式C、聚类的速度D、数据的特征选择【正确答案】:A47.下列不属于Python优势的是()A、拥有大量的第三方库,能够调用C++Jav语言B、开源免费C、语法简洁,程序开发速度快D、程序的运行速度在所有计算机语言中最快【正确答案】:D48.以下哪种学习方式不需要标记数据?()A、监督学习B、无监督学习C、强化学习D、半监督学习【正确答案】:B49.plt.xlabel('×坐标轴’,fontproperties='simHei',fontsize=20)()A、设置坐标轴标签的大小B、设置坐标轴标签的字体,以正确显示中文C、设置坐标轴标签的颜色D、设置坐标轴标签的风格【正确答案】:B50.假设某DataFrame中有一列名name,如何获取该列()A、B、df."name"C、df(name)D、df("name")【正确答案】:A51.K-Means聚类算法的目标是?()A、最小化类内距离之和B、最大化类内距离之和C、最小化类间距离之和D、最大化类间距离之和【正确答案】:A52.下列与标准化方法有关的说法中错误的是()。A、离差标准化简单易懂,对最大值和最小值敏感度不高B、常用的标准化方法,又名零一均值标准化C、小数定标标准化实质上就是将数据按照一定的比例缩小D、多个特征的数据的KMeans聚类不需要对数据进行标准化【正确答案】:A53.统计图形中,常用于检查异常值的是()。A、Q-Q图B、箱型图C、帕累托图D、气泡图【正确答案】:B54.下列语句中pyplot是什么含义?importmatplotlib.pyplotaspltA、matplotlib的子库B、matplotlib的子函数C、matplotlib的类D、matplotlib的方法【正确答案】:A55.逻辑回归模型的输出是?()A、一个确切的类别B、一个连续的数值C、属于某一类别的概率D、一个区间【正确答案】:C56.以下关于缺失值检测的说法中,正确的是()A、null和notnull可以对缺失值进行处理B、dropna方法既可以删除观测记录,也可以删除特征C、fillna方法中用来替换缺失值的值只能是数据框D、pandas库中的interpolate模块包含多种插值方法【正确答案】:B57.使用哪个函数可以给整个坐标系增加标题?()A、plt.text()B、plt.annotate()C、plt.title()D、plt.label()【正确答案】:C58.以下函数中,计算name列平均值的是()A、df[“name”].mean()B、df[“name”].std()C、df[“name”].max()D、df[“name”].min()【正确答案】:A59.在使用pd.read_sql()函数时,如果你想要将查询结果中的某一列作为DataFrame的索引,应该使用哪个参数?()A、index_colB、set_indexC、keyD、id【正确答案】:A60.下列关于数据分析流程的说法错误的是()A、需分析是数据分析最重要的一部分B、数据预处理是能够建模的前提C、模型评估能评价模型的优劣D、声音和图像无法用数据分析【正确答案】:D61.pandas中提供了()函数用来识别缺失值。A、isnullB、notnullC、nullD、dropna【正确答案】:A62.下列关于concat函数、append方法、merge函数和join方法的说法正确的是()。A、concat是最常用的主键合并的函数,能够实现内连接和外连接B、append方法只能用来做纵向堆叠,适用于所有纵向堆叠情况C、merg是最常用的主键合并的函数,能够实现左连接和右连接D、join是常用的主键合并方法之一,但不能够实现左连接和右连接【正确答案】:C63.numpy提供了两种基本对象,一种是ndarray,一种是()A、arrayB、ufuncC、matrixD、Series【正确答案】:B64.脏数据是指()。A、污染的数据B、不规则的数据C、存在计算机内的数据D、异常值、缺失值【正确答案】:D65.在下列选项中不属于检测与处理缺失值的方法的是()A、插值法B、替换法C、哑变量处理D、删除法【正确答案】:C66.数据标准化的常用方法不包括以下哪种?()A、Min-Max标准化B、Z-scor标准化C、对数变换D、独热编码【正确答案】:D67.下列关于特征去重的说法错误的是()。A、corr()方法可通过相似度矩阵去重B、可通过equals()方法进行特征去重C、相似度矩阵去重可对任意类型的重复特征去重D、相似度矩阵去重只能对数值型的重复特征去重【正确答案】:C68.关于AUC的说法中正确的是()A、ROC曲线上的面积大小B、是精准率和召回率的调和平均值C、用来评价分类模型效果的重要指标D、分类正确的正样本个数占真正的正样本个数的比例【正确答案】:C69.如何查看DataFrame的基本信息(列名、列类型、是否有缺失值等()A、B、()C、df.describe()D、df.describe【正确答案】:B70.下列关于pandas支持的数据结构的说法错误的是()。A、pandas支持Series和DataFrameB、Series被定义为能够存储各种类型数据的一维数组C、pandas只支持Series数据结构D、DataFram可与带有标记轴(行和列)的二维数组一起使用【正确答案】:C71.在下列选项中可以进行横向堆叠的是()。A、join()B、concatC、combine_first()D、merge【正确答案】:B72.在使用pd.read_sql()函数时,哪个参数用于指定数据库连接对象?()A、sqlB、conC、index_colD、columns【正确答案】:B73.下列参数中调整后显示中文的是()A、lines.linestyleB、lines.linewidthC、font.sans-serifD、axes.unicode_minus【正确答案】:C74.pandas中提供了()函数来完成缺失值填充的功能。A、fillB、fillnaC、dropnaD、interpolate【正确答案】:B75.importpandasaspddf=pd.DataFrame({'a':[1,2,3]})print(df.shape)输出结果是:()A、(3,)B、(3,1)C、(,3)D、(3)【正确答案】:B76.哪个选项不属于大数据4V特点?()A、VolumeB、ValidC、VarietyD、Value【正确答案】:B77.下列用于横向组合数组的函数是()A、vstackB、hsplitC、vsplitD、hstack【正确答案】:D78.下列关于插值法的说法错误的是()A、线性插值通过求解线性方程得到缺失值B、常见的线性插值有拉格朗日插值和牛顿插值C、常见的插值法有线性插值、多项式插值和样条插值D、pandas中的interpolate()方法可进行插值操作【正确答案】:B79.numpy包中,计算标准差的函数是:()A、numpy.meanB、numpy.medianC、numpy.varD、numpy.std【正确答案】:D80.绘制折线图的函数是下面哪个?()A、pyplot.scatter()B、pyplot.plot()C、pyplot.grid()D、pyplot.show()【正确答案】:B81.在下列选项中可以进行特征删除的是()。A、dropna()方法B、notnull()方法C、fillna()方法D、isnull()方法【正确答案】:A82.下列关于分组聚合的说法错误的是()。A、pandas分组方法只有一个groupby()方法B、pandas分组聚合操作能够实现组内标准化C、使用pandas的groupby()方法进行分组时,只能对列进行操作D、pandas聚合时能够使用agg()、apply()、transform()方法【正确答案】:C83.使用哪个函数可以给坐标系增加横轴标签?()A、plt.xlabel("标签”)B、plt.label(x,"标签”)C、plt.label(y,"标签”)D、plt.ylabel("标签”)【正确答案】:A84.关于Series索引方式错误的是()A、s[0:2]B、s[2]C、s[s>2]D、s[s=2]【正确答案】:D85.在下列选项中可以进行缺失值替换的是()。A、fillna()方法B、notnull()方法C、dropna()方法D、isnull()方法【正确答案】:A86.下列代码中能够为图形添加图例的是()。A、plt.xticks([0,1,2,3,4])B、plt.plot(x,y)C、plt.title('散点图')D、plt.legend('y=cosx')【正确答案】:D87.下列不属于数据分析应用场景的是()A、计算机硬盘使用寿命预测B、码头货物吞吐量预测C、某人一生的命运预测D、产品销售分析【正确答案】:C88.以下关于drop_duplicates函数的说法中错误的是()。A、仅对DataFram和Series类型的数据有效B、仅支持单一特征的数据去重C、数据重复时默认保留第一个数据D、该函数不会改变原始数据排列【正确答案】:B89.pandas提供了对各种格式数据文件的读取和写入工具,其中不包括哪种?()A、CSV文件B、文本文件C、工作簿文件D、EXE文件【正确答案】:D90.有一份数据,需要查看数据的类型,并将部分数据做强制类型转换,以及对数值数据做基本的描述性分析。下列的步骤和方法正确的是()A、dtypes查看类型,astype转换类别,describe描述性统计B、astype查看类型,dtypes转换类别,describ描述性统计C、describe查看类型,astype转换类别,dtypes描述性统计D、dtypes查看类型,describe转换类别,astyp描述性统计【正确答案】:A91.不列不属于数组的常用统计函数的是()A、split(分割字符串)B、sumC、meanD、std【正确答案】:A92.存在关联规则为A→B,此规则的confidence为80%,则代表()。A、买B商品的顾客中有80%的顾客会同时购买AB、同时购买A,B两商品的顾客占所有顾客的80%C、买A商品的顾客中有80%的顾客会同时购买BD、两商品A,B在交易数据库中同时被购买的机率为80%【正确答案】:C93.numpy中矩阵转成向量使用()AreshapeB、resizeC、arangeD、random【正确答案】:B94.classification_report函数用于输出分类模型评价报告,其内容不包括()。A、true_postive_rateB、fl-scoreC、recallD、precision【正确答案】:A95.利用()函数可以删除一列或者一行元素。A、deleteB、dropC、clearD、cut【正确答案】:B96.大数据的最显著特征是()A、数据规模大B、数据类型多样C、数据处理速度快D、数据价值密度高【正确答案】:A97.在数据挖掘中,如果发现买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?()A、关联规则发现B、聚类C、分类D、自然语言处理【正确答案】:A98.在pyplot子模块中创建画布的是下面哪个函数?()A、figure()B、legend()C、subplots()D、random()【正确答案】:A99.如果你想根据某个列的值对DataFrame进行排序,你应该使用哪个方法?()A、sort()B、sort_values()C、order()D、arrange()【正确答案】:B100.在处理时间序列数据时,如果你想将DataFrame的索引设置为日期时间类型,你应该使用哪个方法?()A、set_index()B、to_datetime()C、asfreq()D、resample()【正确答案】:B101.pandas的常用类不包括()A、SeriesB、DataFramC.PanelD、Index【正确答案】:C102.能删除行或列数据的命令是()A、selectB、popC、updateD、drop【正确答案】:D103.数据预处理对机器学习是很重要的,下面说法正确的是()A、数据预处理的效果直接决定了机器学习的结果质量B、数据噪声对神经网络的训练没什么影响C、对于有问题的数据都直接删除即可D、预处理不需要花费大量的时间【正确答案】:A104.numpy包中,用来计算中位数的函数是:()A、numpy.meanB、numpy.medianC、numpy.varD、numpy.std【正确答案】:B105.在使用Pandas连接MySQL数据库时,常用的数据库驱动是?()A、psycopg2B、pymysqlC、sqlite3D、cx_Oracle【正确答案】:D106.下列哪种不是处理缺失值的方法()A、删除缺失值B、填充缺失值C、设置默认值D、利用插值法【正确答案】:C107.在Seaborn中,哪个函数用于绘制热力图,展示数据集中不同变量之间的相关性?()A、sns.heatmap()B、sns.pairplot()C、sns.clustermap()D、sns.jointplot()【正确答案】:A108.对于DataFrame对象,以下说法错误的是:()A、DataFrame对象是一个表格型的数据结构B、DataFrame对象的列是有序的C、DataFrame对象列与列之间的数据类型可以互不相同DataFrame对象每一行都是一个Series对象【正确答案】:D109.下列属于NumPy提供的基本对象的是()A、ndarrayB、listC、matrixD、tuple【正确答案】:A110.下列关于模型评价与优化的说法正确的是()A、模型评价的目的是为了确认模型的有效性B、所有的模型评价方法相同C、模型评价结果良好,模型一定可用,不需要重构D、模型构建完成就可以使用【正确答案】:A111.最简单的Series是由()的数据构成A、一个数组B、两个数组C、三个数组D、四个数组【正确答案】:A112.importpan
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度坂田二期消防设施设备租赁服务合同3篇
- 2025年度智能家居产品营销与渠道拓展合同2篇
- 二零二五年度中外合作文化艺术交流合同2篇
- 2025版股权质押贷款合同模板大全3篇
- 二零二五年度个人住宅二手房买卖合同(含装修改造及实际使用)3篇
- 会计职责具体内容(2篇)
- 消防工作奖惩制度范文(2篇)
- 治安保卫队队长安全生产责任制范文(2篇)
- 2025年安全防范产品定制研发采购合同
- 2025版岗亭智能安防系统集成合同
- 商业天然气灶具用气量明细
- 物业公司合规管理与风险防控全书
- 部编版五年级语文上册作文总复习课件
- 八年级历史期末考试试卷质量分析试卷分析
- 烟草专业个人简历模板
- 【机械手】-YAMAHA机械手手持编程说明
- 体育集体备课记录
- 五年级语文备课组工作总结三篇
- 三年级道德与法治下册第一单元我和我的同伴教材解读新人教版
- 社区工作者考试考前必背300题
- GB/T 6478-2015冷镦和冷挤压用钢
评论
0/150
提交评论