Python数据分析与应用题库

上传人：w*** IP属地：天津上传时间：2022-07-30 格式：DOCX 页数：50 大小：49.95KB 积分：15 举报 版权申诉

已阅读5页，还剩45页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、Python数据分析与应用题库下列nltk模块中，可以对句子实现分词操作的是（）。单选题*A、nltk.corpusB、nltk.tokenize（正确答案）C、nltk.stemD、nltk.tag答案解析：暂无解析下列函数中，用于打开NLTK下载器的是（）。单选题*A、download（）（正确答案）B、load（）C、open（）D、install（）答案解析：暂无解析下列选项中，NLTK用来标记形容词的是（）。单选题*A、JJ（正确答案）B、RBC、CCD、DT答案解析：暂无解析关于词性归一化的说法中，下列描述正确的是（）。单选题*A、词干提取和词形还原最终都会得到词根B、词干提取能够

2、捕捉基于词根的规范单词形式C、词形还原需要删除不影响词性的词缀得到词干D、词形还原能够捕捉基于词根的规范单词形式(正确答案)答案解析：暂无解析下列选项中，用于控制jieba.cut()分词模式的是()。单选题*A、dataB、HMMC、is_allD、cut_all(正确答案)答案解析：jieba.cut()函数共接收三个参数，其中第一个为需要分词的字符串， cut_all参数用来控制是否采用全模式，HMM参数用来控制是否使用HMM模型。下列方法中，用于返回出现相对较频繁的单词的是()。单选题*A、word_tokenize()B、pos_tag()C、most_common()(正确答案)D

3、、cosine_distance()答案解析：word_tokenize()函数基于空格或标点对文本进行分词；pos_tag()S数用于给单词标注词性；cosine_distance(1S数用于求两个向量的夹角余弦值。下列选项中，用于标注词语词性的模块是()。单选题*A、nltk.corpusB、nltk.tokenizeC、nltk.stemD、nltk.tag(正确答案)答案解析：暂无解析下列分词模式中，可以将句子中所有成词词语都扫描出来的是（）。单选题*A、精确模式B、全模式（正确答案）C、搜索引擎模式D、模糊搜索模式答案解析：暂无解析如果希望还原单词的基本形式，则需要使用 import

4、语句导入哪个模块？（）单选题*A、nltk.corpusB、nltk.tokenizeC、nltk.stem（正确答案）D、nltk.tag答案解析：暂无解析关于文本预处理的过程，下列描述错误的是（）。单选题*A、文本分词是预处理过程中必不可少的一个操作B、词干提取是一个很粗略的去除单词两端词缀的过程C、词形还原是一个去除曲折的词缀且返回词典中包含的词的过程D、文本中的每个单词都能够表明文本的特征（正确答案）答案解析：文本中包含一些停用词，这些词是无法表明文本特征的。通过date_range（）8数创建DatetimeIndex对象时，如果只是传入了开始日期，则还需要用（）参数指定产生多少个

5、时间戳。单选题*A、freqB、endC、periods(正确答案)D、start答案解析：暂无解析请阅读下面一段程序：单选题*运行上述程序，它最终输出的结果为(A)。(正确答案)2015201420132012答案解析：暂无解析下列方法中，能够转换时期频率的是()。单选题*A、shift()B、rolling。C、asfreq(X正确答案)D、resample()答案解析：shift()方法用于沿着时间轴方向将数据进行前移或后移；rolling()方法用于滑动窗口； resample()一个对常规时间序列数据重新采样和频率转换的便捷的方法。下列方法中，用来创建一个滑动窗口的是()。单选题

6、*A、shift()B、rolling。(正确答案)C、asfreq()D、resample()答案解析：暂无解析请阅读下面一段程序：运行程序，它最终执行的结果为（）单选题*A、4B、3（正确答案）C、2D、1答案解析：暂无解析创建一个 Datetimeindex对象的代码如下：pd.date_range（2018/08/10, 2018/08/15）单选题*默认情况下，该对象中时间戳的频率为（B）。（正确答案）A、HB、DC、SD、T答案解析：暂无解析下列选项中，用来表示时间序列中的频率为每周六的是（），单选题*A、WOM-2MONB、W-FRIC、W-SUND、W-SAT （正确答案）答

7、案解析：暂无解析下列选项中，用来表示Pandas中的时期的是（）。单选题*A、Period（正确答案）B、TimestampC、IntervalD、Series答案解析：暂无解析通过date_range（）数创建Datetimeindex对象时，可以设置哪个参数指定终止日期？（）单选题*A、freqB、periodsC、enc（正确答案）D、start答案解析：在date_range（）S数中，freq参数用来指定计时单位；periods参数表示产生多少个时间戳索引值；end表示终止日期；start表示起始日期。仓建 Datetimeindex对象的代码如下：pd.date_range（st

8、art=2018/2/1, end=2018/2/28, freq=）如果希望生成的时间戳为每周日，则下列选项中可以填写到横线处的是（）。单选题*A、WOM-2MONB、W-FRIC、W-SUN（正确答案）D、W-SAT答案解析：暂无解析通过date_range（）数创建Datetimeindex对象时，可以设置哪个参数来改变计时单位？（）单选题*A、freq（正确答案）B、periodsC、endD、start答案解析：在date_range（）S数中，freq参数用来指定计时单位；periods参数表示产生多少个时间戳QI值；end表示终止日期；start表示起始日期。请阅读下面一段

9、程序：运行上述程序，它最终执行的结果为（）。单选题*A、Timestamp（2018-11-08 00:00:001正确答案）B、Timestamp（2018-10-08 00:00:00）C、Timestamp（2018-11-08）D、Timestamp（2018-10-08）答案解析：DatetimeIndex对象是由一组时间戳构成的索引，它里面的每个标量值都是一个Timestamp对象。当使用resample（方法重新采样时，下列哪个参数可以确定采样的闭合区问？（）单选题*A、labelB、fill_methodC、howD、closed正确答案）答案解析：暂无解析关于降采样的说法中，

10、下列描述错误的是（）o单选题*A、降采样是将高频率数据聚合到低频率数据B、降采样的时间颗粒会变大C、降采样的数据量是增加的（正确答案）D、降采样就相当于另外一种形式的分组聚合操作单选题*答案解析：暂无解析卜列方法中，能够对常规时间序列数据重新采样的是（）A、shift()B、rolling()C、asfreq()D、resample(X正确答案)答案解析：暂无解析通过date_range()S数创建DatetimeIndex对象时，可以设置哪个参数指定产生多少个时间戳索引值？()单选题*A、freqB、periods(正确答案)C、endD、start答案解析：在date_range()S数中

11、，freq参数用来指定计时单位；periods参数表示产生多少个时间戳索引值；end表示终止日期；start表示起始日期。通过date_range()S数创建DatetimeIndex对象时，可以设置()参数来规范时间戳。单选题*A、normalize(正确答案)B、periodsC、endD、freq答案解析：在date_range()S数中，(6) normalize参数用来规范时间戳；periods参数表示产生多少个时间戳索引值；end表示终止日期；start表示起始日期。通过date_range()8数创建DatetimeIndex对象时，可以设置哪个参数指定起始日期？()单选题*

12、A、freqB、periodsC、endD、start（正确答案）答案解析：在date_range（）8数中，freq参数用来指定计时单位；periods参数表示产生多少个时间戳哀I值；end表示终止日期；start表示起始日期。关于时间序列的移动，下列说法错误的是（）。单选题*A、移动是指沿着时间轴方向将数据进行前移或后移B、时间序列移动后，索引也会发生变化（正确答案）C、数据移动后会出现边界情况D、无论时间序列的数据怎么移动，索引是不会发生任何变化的答案解析：暂无解析请阅读下面一段程序：运行上述程序，它最终输出的结果为（）o单选题*A、17B、-17（正确答案）C、-18D、18答案解析

13、：暂无解析下列图表中，能够识别异常值的是（）。单选题*A、箱形图（正确答案）B、折线图C、饼图D、散点图答案解析：暂无解析卜列选项中，用于绘制单变量分布的函数是（）单选题*A、displot()(正确答案)B、.joinplot()C .pairplot()D、.boxplot()答案解析：暂无解析下列关于Bokeh库描述不正确的是（）。单选题*A、针对浏览器使用的交互式可视化库.提供优雅、简洁的通用图形构建.不适用于大量的数据集（正确答案）.能够快速地、轻松地创建交互图答案解析：暂无解析下列关于常见图表说法正确的是（）。单选题*A、散点图不能在子图中绘制.散点的x轴刻度必须为数值.折线图可以

14、用作查看特征间的趋势关系（正确答案）.箱形图可以用来查看特征间的相关关系答案解析：暂无解析卜列选项中，用于绘制双变量分布的函数是（）单选题*A、displot()B、.joinplot()(正确答案)C .pairplot()D、.boxplot()答案解析：暂无解析下列代码中，绘制散点图的是()。单选题*A、plt.scatter(x,y)(正确答案)B、.plt.plot(x,y)C .plt.legend(upper left)D、.plt.xlabel(散点图)答案解析：暂无解析下列函数中，可以设置当前图形 x轴范围的是()o单选题*A、xlabel()B、xlim()(正确答案)C、

15、title()D、legend()答案解析：暂无解析下列选项中不属于Seaborn中分类数据可视化库的是()。单选题*A、分类数据散点图.分类数据的分布图.分类数据的统计估算图.分类数据的直方图(正确答案)答案解析：暂无解析下列函数中，可以为图表设置标题的是()。单选题*A、xlim()B、xlabel()C title()(正确答案)D、legend()答案解析：暂无解析下列函数中，可以为图表设置图例的是()。单选题*A、legend()(正确答案)B、xlabel()C、title()D、xlim()答案解析：暂无解析在创建Figure对象时，可以指定哪个参数来给画布添加背景颜色？()单选

16、题*A、numB、dpiC、figsizeD、facecolor(正确答案)答案解析：暂无解析下列选项中，可以一次性创建多个子图的是()。单选题*A、figure()(正确答案)B、subplot()C、add_subplot()D、subplots()答案解析：暂无解析下列pyplot模块的函数中，可以绘制散点图的是()。单选题*A、bar()B、hist()C、pie（）D、scatter（X正确答案）答案解析：暂无解析下列图表中，可以清晰地反映出各数据系列的百分比情况的是（）。单选题*A、直方图B、折线图C、饼图（正确答案）D、散点图答案解析：饼图可以显示一个数据序列（图表中绘制的相关数

17、据点）中各项的大小与各项总和的比例，每个数据序列具有唯一的颜色或图形，并且与图例中的颜色是相对应的。下列图表中，适用于比较跨类别数据的是（）o单选题*A、直方图B、折线图C、饼图D、散点图（正确答案）答案解析：暂无解析下列pyplot模块的函数中，可以绘制直方图的是（）o单选题*A、bar（）B、hist（）（正确答案）C、pie（）D、scatter（）答案解析：暂无解析卜列参数中，调整后显示中文的是（）单选题*A、lines.kinestyle.lines.linewidth.font.sans-seri（正确答案）.axes.unicode_minus答案解析：暂无解析下列pyplo

18、t模块的函数中，可以绘制饼图的是（）o 单选题*A、bar（）B、hist（）C、pie（）（正确答案）D、scatter（）答案解析：暂无解析关于Matplotlib的说法中，下列描述正确的是（）。单选题*A、Matplotlib 是一个 Python 3D绘图库B、它使用简单，仅用几行代码就能生成各种图表（正确答案）C、仅仅适用于IPython平台D、只能输出PNG或PDF格式答案解析：Matplotlib是一个Python 2D绘图库，作图风格接近 MATLAB ,它已经成为Python中公认的数据可视化工具，适用于各种平台上。在创建Figure对象时，可以指定哪个参数来设置画布的尺寸

19、？（）单选题*A、numB、dpiC、figsize（正确答案）D、facecolor答案解析：暂无解析关于分组聚合过程的说法中，下列描述不正确的是()。单选题*A、拆分是指将数据集按照一些标准拆分为若干个组B、应用是指将某个函数或方法应用到每个分组C、合并是指将产生的新值整合到结果对象中D、只能对纵轴方向上的数据进行分组(正确答案)答案解析：拆分操作是在指定轴上进行的，既可以对横轴方向上的数据进行分组，也可以对纵轴方向上的数据进行分组。关于agg()方法的使用中，下列描述错误的是()。单选题*A、agg()方法中func参数只能传入一个函数(正确答案). agg()方法中func参数可以传

20、入多个函数. agg()方法中func参数可以传入自定义函数. agg()方法不能对产生的标量值进行广播答案解析：暂无解析下列关于groupby()方法的说法中，描述正确的是()。单选题*A、用于将数据集实现分组与聚合操作B、调用groupby()方法返回一个 DataFrameBy对象C、调用groupby()方法返回一个GroupBy对象(正确答案)D、groupby()方法只能将数据集按照纵轴方向进行分组答案解析：在Pandas中，可以通过groupby()方法将数据集按照某些标准划分成若干个组。通过groupby()方法执行分组操作，会返回一个 GroupBy对象，该对象实际上并没

21、有进行任何计算，只是包含一些关于分组键的中间数据而已。关于agg()方法的用法中，下列描述错误的是()。单选题*A、可以对每列数据应用同一个函数.可以对一列数据应用不同的函数.每列的数据只能使用相同的函数（正确答案）.可以对不同的列使用不同的函数答案解析：暂无解析下列选项中，不属于groupby（）方法分组方式的是（）。单选题*A、列表或数组B、DataFrame中某列的名称C字典或SeriesD、集合（正确答案）答案解析：暂无解析关于transform。方法的说法中，下列描述错误的是（）。单选题*A、transform。方法可以使用广播.使用transform。方法可以返回一个与分组大小相等

22、的数组.transform。方法只能使用内置方法对数据进行转换操作（正确答案）.transform。方法对 DataFrame和 Series都适用答案解析：暂无解析请阅读下面一段程序：import pandas as pdpr in t （pd. DataFrame （ 2, 3, + 3, columns =A,）. apply （Is执行上述程序后，最终输出的结果为（）。单选题*A、A B0 3 21 3 22 3 2. A B0 2 31 2 32 2 3. A B0 3 41 3 42 3 4. A B0 4 31 4 32 4 3（正确答案）答案解析：暂无解析关于apply()方法

23、的功能，下列选项中说法正确的是()。单选题*A、apply()方法是对DataFrame(正确答案).apply()方法能够实现所有agg方法的功能.apply()方法和map方法都能够进聚合操作.apply()方法只能够对行列进行操作答案解析：暂无解析关于groupby。方法的返回值，下列说法错误的是()。单选题*A、groupby()方法返回的是一个 GroupBy对象B、返回的GroupBy对象采用的是惰性计算C、使用for循环可以遍历该对象中的分组信息D、groupby()方法没有返回值(正确答案)答案解析：暂无解析关于apply()方法的说法中，下列描述正确的是()。单选题*A、ap

24、ply()方法是对DataFrame(正确答案)B、apply()方法能够实现所有agg方法的功能C、apply()方法和map方法都能够进聚合操作D、apply()方法只能够对行列进行操作答案解析：暂无解析请阅读下面一段程序:import pandas as pddf = pd. DataFrame (keyl ： A, A1 , B T 1 Bdatal*:3、3, 5, 8 ,*data2: L3r 5, None, 7)print (df. groupby (1 keyl1 . man ()行上述程序后，最终输出的结果为()。单选题*A、程序出现异常. data2key1 A 4.0B

25、 7.0(正确答案). datal data2key1 A 3.0 4.0B 6.5 7.0. data1 data2key1 B 6.5 7.0答案解析：暂无解析下列选项中，用于删除缺失值的方法是()。单选题*A、isnull()B、delete()C、dropna(X正确答案)D、fillna()答案解析：isnull方法用于检测，当返回结果中有 True时，表示有重复的数据; fillna方法用于填充缺失数据。关于预处理的说法中，下列选项中描述不正确是()。单选题*A、concat()函数可以沿着一条轴将多个对象进行堆叠B、merge()函数可以根据一个或多个键将不同的DataFrame

26、进行合并C、可以使用rename()方法对索引进行重命名操作D、unstack()方法可以将列索引旋转为行索引(正确答案)答案解析：unstack()方法可以将行索引旋转为列索引。单选题*下列选项中，关于剂na()方法描述正确的是()A、剂na()方法只能填充替换值为NaN的数据 B、只支持前向填充方式C、默认可支持填充的最大数量为1D、fillna()方法可以填充替换值为 NaN和None的数据(正确答案)答案解析：暂无解析关于数据重塑的说法中，下列选项描述错误的是()。单选题*A、数据重塑可以将 DataFrame转换为SeriesB、stack()方法可以将列索引转换为行索引C、对一个D

27、ataFrame使用stack()方法后返回的一定是一个 Series(正确答案)D、.unstack()方法可以将行索引转换为列索引答案解析：当一个DataFrame具有层次索引时，使用stack()方法会返回一个 DataFrame 对象。请阅读下面的程序：执行上述程序后，最终输出的结果为()。单选题*A、0 Falsel False2 True正确答案).0 Truel True2 False.0 Falsel False2 False.0 Truel True2 True答案解析：暂无解析下列选项中，关于drop_duplicates()方法描述错误的是()。单选题*A、仅支持单一特征

28、数据的去重(正确答案)B、.仅对Series和DataFrame对象有效C、数据去重时默认保留第一个数据D、该方法不会改变原始数据排列答案解析：暂无解析关于异常值的说法，下列选项中描述错误的是（）。单选题*A、异常值是指样本中明显偏离其余观测值的个别值（正确答案）B、可以使用3 b原则检测异常值C、可以使用Pandas中的箱线图检测异常值D、异常值可以使用其它的值来替换答案解析：异常数据并不一定是数据错误，所以会根据实际情况下选择删除或保留。下列选项中，关于dropna（）方法描述正确的是（）。单选题*A、dropna（）方法只会删除值为NaN的数据B、dropna（）方法不会删除值为Non

29、e的数据C、dropna（）方法会删除值为None和NaN的数据（正确答案）D、dropna（）方法只会检测缺失数据和空值答案解析：dropnaC认删除None或NaN,但是可以指定参数，对轴进行删除关于哑变量的说法中，下列选项描述错误的是（）。单选题*A、哑变量是人为虚设的变量B、哑变量在转换成指标矩阵后，其值通常为0或1C、PnadaS get_dummies（）函数可以对类别进行哑变量处理D、哑变量的使用没有实际意义（正确答案）答案解析：暂无解析下列关于数据预处理的说法中，描述不正确的是（）。单选题*A、数据清洗的目的是为了提高数据质量B、异常值不一定要删除C、通过drop_duplic

30、ates（）方法可以删除重复数据D、concat（）函数可以根据一个或多个键将不同的DataFrame进行合并（正确答案）答案解析：concat（）函数可以沿着一条轴将多个对象进行堆叠。下列选项中，关于duplicated。方法描述正确的是（）。单选题*A、duplicate。方法用于删除重复值B、duplicate。方法用于标记重复值（正确答案）C、duplicate。方法会改变原始数据D、duplicate。方法会将重复的数据标记为 False答案解析：暂无解析关于Series结构，下列描述正确的是（）。单选题*A、Series是一个类似于二维数组的对象B、Series由一组数据和与之相关

31、的索引两部分构成（正确答案）C、Series只能保存整数和字符串类型的数据D、Series的索引默认是从1开始答案解析：暂无解析Pandas执行算术运算时，没有对齐的位置会使用（）进行补齐。单选题*A、NullB、0（正确答案）C、NaND、null_values答案解析：暂无解析卜列关于Pandas库的说法中正确的是（）单选题*A、Pandas中只有两种数据结构B、Pandas支持读取文本数据C、Pandasl在NumPy基础上建立的新程序库(正确答案)D、.Pandas中Series和DataFrame可以解决数据分析中一切的问题答案解析：除了书中介绍的两种常见数据结构，Pandas中还有

32、另一种数据结构 Panel在进行算术运算时，如果希望一次性输出多个统计指标可以使用()方法。单选题*A、statistics()B、describe()(正确答案)C、all()D、results()答案解析：暂无解析下列方法中，可以将元组转换为 Multiindex对象的是()。单选题*A、from_tuples()(正确答案).from_arrays().from_product().from_list()答案解析：from_tuples()是将元组列表转换为Multiindex对象；from_arrays()是将数组列表转换为Multiindex对象；from_product()是从多

33、个集合笛卡尔积中创建一个 Multiindex 对象请阅读下面一段程序:执行上述程序后，最终输出的结果为()。单选题*A、0 1 2 30 4 -1 -3 01 2 6 -1 -72 8 6 -5 1. 0 1 2 30 4 -1 -3 01 2 6 -1 -72 8 6 -5 1正确答案）. 0 1 2 32 8 6 -5 11 2 6 -1 -70 4 -1 -3 0. 3 2 1 00 0 -3 -1 41 -7 -1 6 22 1 -5 6 8答案解析：暂无解析关于Pandas中数据排序，下列说法正确的是（）。单选题*A、即可以按照行索引排序，也可以按照列索引排序（正确答案）.sor

34、t_index（）方法表示按照值进行排序.sort_values（方法表示按照索引进行排序D、默认情况下，sort_index（）方法按照降序排列答案解析：暂无解析关于Pandas层次化索引，下列说法错误的是（）。单选题*A、层次化索引是指Pandas对象在一个轴方向上具有多层索引B、层次化索引至多只能有两层索引（正确答案）C、可以使用swaplevel（）方法对层次化索引的位置交换顺序D、使用sort_index（）可以对索引进行排序答案解析：Pandas次化索引没有具体的层数限制请阅读下面一段程序：执行上述程序后，最终输出的结果为（）o单选题*A、a 3.0d 2.0c 1.0b NaN.

35、a 3.0b NaNc 1.0d 2.q正确答案）.程序出现异常.c 1d 2a 3答案解析：暂无解析下列关于DataFrame说法正确的是（）。单选题*A、DataFrame结构是由索引和数据组成（正确答案）B、DataFrame的行索引位于最右侧C、创建一个DataFrame对象时需要指定索引D、DataFrame每列的数据类型必须是相同的答案解析：暂无解析请阅读下面一段程序执行上述程序后，最终输出的结果是（）。单选题*A、5 13 20 34 42 5.0 32 53 24 45 1（正确答案）.5 14 43 22 50 3.2 54 40 33 25 1答案解析：暂无解析下列选项中

36、，不属于ndarray对象属性的是（）。单选题*shape.dtype.ndim.map（正确答案）答案解析：暂无解析请看如下代码：对代码中的NumPy数组执行sort（）方法结果正确的是（）。单选题*A、2 6 7 2 3 6（正确答案）.2 6 7 6 3 2.7 6 2 6 3 2.7 6 2 2 3 6答案解析：暂无解析下列关于ndarray对象描述正确的是（）。单选题*A、ndarray对象中可以存储不同类型的元素.ndarray对象中存储元素的类型必须是相同的（正确答案）. ndarray对象不支持广播操作.ndarray对象不具备矢量运算能力答案解析：根据ndarry的特点可知，

37、该对象中元素的类型必须是相同的下列选项中，用来表示矢量化三元表达式的是（）。单选题*A、where（）（正确答案）B、.cumsum（）C .sort（）D、.unique（）答案解析：暂无解析请阅读下列一段示例程序：运行上述程序，那么最终输出的结果为（）0单选题*A、（3, 2）（正确答案）.（2, 3）.（3, 0）.（2, 0）答案解析：暂无解析在NumPy通用函数中，用于计算元素级最大值的函数是（）。单选题*A、maxB、.maximum（正确答案）C、.minD、.maximal答案解析：暂无解析在创建ndarray对象时，可以使用()参数来指定元素类型。单选题*A、dtype(正确

38、答案).dtypes.type.types答案解析：暂无解析关于创建ndarray对象。下列描述错误的是()。单选题*A、使用list()函数可以创建一个ndarray对象(正确答案).通过ones()函数创建元素值都为1的数组.ndarray对象可以使用array()函数创建.通过zeros()函数创建元素值都是0的数组答案解析：list()函数不可以创建一个ndarry对象，不过可以将一个列表做为参数传入array()函数中创建一个 ndarray对象在NumPy模块中表示生成随机种子的函数是()。单选题*A、seed(X正确答案)B、rand()C、beta()D、randint()单选

39、题*答案解析：暂无解析要想创建一个3 *4的数组，下列选项正确的是()A、np.arange(12).reshape(4, 3止确答案).np.arange（12）.reshape（3, 4）.np.arange（7）.reshape（4, 3）.np.arange（7）.reshape（3, 4）答案解析：暂无解析下列关于数据分析概念的描述错误的是（）。单选题*A、使用适当的统计分析方法对收集来的大量数据进行分析.数据分析可以从数据中提炼出有用的信息并形成结论.数据分析可以对数据进行更深层的研究.数据分析不能够在杂乱无章的数据中提取有用的数据（正确答案）下列选项中，用于搭接数据仓库和保证数据

40、质量的是（）。单选题*A、数据收集.数据处理（正确答案）.数据分析.数据展现关于数据分析的说法，下列描述错误的是（）o单选题*A、数据分析可以通过计算机工具和数学知识处理数据.可以做出具有针对性的决策.数据分析没有实际的使用意义（正确答案）.在大数据环境下，数据分析能够挖掘出更有价值的信息关于Anaconda的组件中，可以编辑文档且展示数据分析过程的是（）。单选题*A、Anaconda Navigator. Anaconda Prompt. Spyder. Jupyter Notebook（正确答案）答案解析：Jupyter Notebook可以重现整个分析过程，并将说明文字、代码、图表、公

41、式和结论都整合在一个文档中数据分析的一般流程为（）o单选题*A、明确目的和思路、数据收集、数据处理、数据分析、数据展现（正确答案）.明确目的和思路、数据收集、数据分析、数据展现.数据收集、数据处理、数据分析、数据展现.明确目的和思路、数据处理、数据分析、数据展现文本分词是预处理过程中必不可少的一个操作。判断题*对（正确答案）错答案解析：暂无解析余弦相似度与向量的幅值无关，只与向量的方向相关。判断题*对（正确答案）错答案解析：暂无解析Anaconda中默认已经安装了 NLTK库，可以用import导入使用。判断题*对（正确答案）错答案解析：暂无解析词干提取能够捕捉基于词根的规范单词形式判断题*对

42、错（正确答案）答案解析：暂无解析若某个词在这些文本中出现的次数最多，则表示这个单词比较具有代表性。判断题*对（正确答案）错答案解析：暂无解析如果将cut（）函数的cut_all参数设为Falser则表示的是按照精确模式进行分词，判断题*对（正确答案）错答案解析：暂无解析nltk.classify是一个用于类别标签标记的模块。判断题*对（正确答案）错答案解析：暂无解析文本数据可以直接用来分析，不需要做任何处理。判断题*对错（正确答案）答案解析：文本数据并不能直接被用来分析，而是要进行一系列的预处理操作，主要包括分词、词形统一化、删除停用词等。中文并没有一个形式上的分界符。判断题*对（正确答案）

43、错答案解析：暂无解析我们可以直接使用pip命令安装jieba库。判断题*对（正确答案）错答案解析：暂无解析如果两个向量的夹角越小，则表示它们越不相似。判断题*对错（正确答案）答案解析：暂无解析如果将cut（）函数的cut_all参数设为False,则表示按照全模式进行分词。判断题 *对错（正确答案）答案解析：暂无解析NLTK是一套基于Python的自然语言处理工具包。判断题*对（正确答案）错答案解析：暂无解析NLP主要是实现人与计算机之间用英文进行有效沟通。判断题*对错（正确答案）答案解析：暂无解析在NLTK中，如果希望给单词标注词性，则需要先确保已经下载了averaged_perceptro

44、n_tagg瞅块。判断题*对（正确答案）错答案解析：暂无解析最基本的时间序列就是以时间戳为索引的Series对象。判断题*对（正确答案）错答案解析：暂无解析若调用shift（）方法时传入一个正数，则表明时间序列中的数据会沿着纵轴方向移动一次。判断题*对（正确答案）错答案解析：暂无解析如果把年份字符串作为索引使用，则可以获取到属于这一年的所有数据。判断题*对（正确答案）错答案解析：暂无解析时间序列的基础频率后面还可以跟着一个日期偏移量。判断题*对（正确答案）错答案解析：暂无解析在使用date_range（由数创建Datetimeindex对象时，必须要保证同时指定 start、 end peri

45、ods、freq中至少三个参数。判断题*对（正确答案）错答案解析：暂无解析降采样的时间颗粒会变大。判断题*对（正确答案）错答案解析：暂无解析通过date_range（）8数创建Datetimeindex对象时，如果只是传入了开始日期或结束日期，则还需要用periods参数指定产生多少个时间戳。判断题*对（正确答案）错答案解析：暂无解析如果是将低频率数据转换到高频率数据，则称为降采样。判断题*对错（正确答案）答案解析：暂无解析在时间序列中，默认生成的时间戳是按天计算的。判断题*对（正确答案）错答案解析：暂无解析若调用shift（）方法时传入一个正数，则表明时间序列中的数据会沿着纵轴反方向移动一

46、次。判断题*对错（正确答案）答案解析：暂无解析如果Period对象加上或者减去一个整数，则会根据具体的时间单位进行位移操作判断题*对（正确答案）错答案解析：暂无解析Period对象不支持参与数学运算。判断题*对错（正确答案）答案解析：Period对象能够参与数学运算。如果 Period对象加上或者减去一个整数，则会根据具体的时间单位进行位移操作。在降采样时，时间序列的数据量是增加的。判断题*对错（正确答案）答案解析：暂无解析在操作时间戳索引时，可以直接使用任何日期字符串来选取子集。判断题*对错（正确答案）答案解析：在操作时间戳索引时，可以直接使用一个日期字符串（符合可以被解析的格式）进行获

47、取。时间序列的移动是指沿着纵轴方向将数据进行前移或后移。判断题*对错（正确答案）答案解析：暂无解析Periodindex是用来指代一系列时间段的索引结构。判断题*对（正确答案）错答案解析：暂无解析起始日期与结束日期定义了时间序列索引的严格边界。判断题*对（正确答案）错答案解析：暂无解析时间序列分析没有任何硬性的要求。判断题*对错（正确答案）开采样的时间颗粒是变小的判断题*答案解析：暂无解析对（正确答案）错答案解析：暂无解析时间序列是不能使用位置索引来获取数据。判断题*对错（正确答案）答案解析：最简单的选取时间序列子集的方式，是直接使用位置索引来获取具体的数据。位于左上角的子图编号为1。判断

48、题*对（正确答案）错答案解析：暂无解析每调用一次add_subplot（）方法会规划画布划分子图，且只会添加一个子图。判断题*对（正确答案）错答案解析：暂无解析Figure对象允许划分为多个绘图区域。判断题*对（正确答案）错答案解析：Figure对象允许划分为多个绘图区域，每个绘图区域都是一个Axes对象，它拥有属于自己的坐标系统，被称为子图。subplot(323)和 subplot(3,2,3)是等价的。判断题*对（正确答案）错答案解析：暂无解析散点图包含的数据点越少，比较的效果就会越好。判断题*对错（正确答案）答案解析：散点图是指数据点在直角坐标系平面上的分布图，通常用于比较跨类别的数

49、据。散点图包含的数据点越多，比较的效果就会越好。如果希望一次性创建一组子图，则可以通过 subplot（）函数进行实现。判断题*对错（正确答案）答案解析：暂无解析直方图可以利用方块的高度来反映数据的差异。判断题*对（正确答案）错答案解析：暂无解析Figure对象可以理解为一张空白的画布，用于容纳图表的各种组件。判断题*对（正确答案）错答案解析：暂无解析我们可以调用new（）函数构建一张新的空白画布。判断题*对错(正确答案)答案解析：如果不希望在默认的画布上绘制图形，则可以调用巾gure()函数构建一张新的空白画布。pyplot模块中默认拥有一个Figure对象。判断题*对(正确答案)错答案解析

50、：暂无解析agg()方法可以使用用户自定义的函数。判断题*对(正确答案)错答案解析：通过agg()方法进行聚合时，func参数既可以接收Pandas中的内置方法，也可以接收自定义的函数，同时，这些方法与函数可以作用于每一列，也可以将多个函数或方法作用于同一列，还可以将不同函数或方法作用于不同的列。使用agg()方法进行聚合运算会对产生的标量值进行广播。判断题*对错(正确答案)答案解析：暂无解析通过agg()方法进行聚合时只能接收单个函数。判断题*对错(正确答案)答案解析：通过agg()方法进行聚合时，func参数既可以接收Pandas中的内置方法，也可以接收自定义的函数，同时，这些方法与

51、函数可以作用于每一列，也可以将多个函数或方法作用于同一列，还可以将不同函数或方法作用于不同的列。groupby()方法不能使用函数做为分组键。判断题*对错（正确答案）答案解析：暂无解析使用Series对象做为分组键时，必须保证Series对象的长度与被分组数组的长度相等。判断题*对错（正确答案）答案解析：如果S如果Series对象的索引长度与PandasX寸象的索引长度不相同时，则只会将部分（具有相同索引长度）数据进行分组，而不会将全部的数据进行分组。eries对象的索引长度与PandasX寸象的索引长度不相同时，则只会将部分（具有相同索引长度）数据进行分组，而不会将全部的数据进行分组

52、。使用字典做为分组键时，字典的键必须和数据中的列名相映射。判断题*对（正确答案）错答案解析：暂无解析只要使用groupby（）方法分组，就会产生一个 DataFrameGroupby对象判断题*对错（正确答案）答案解析：一般，使用Series调用groupby（）方法返回的是SeriesGroupBy对象，而使用DataFrame调用groupby（）方法返回的是 DataFrameBy对象。使用transform。方法进行聚合运算，所得对象的行索引与被分组对象的行索引大小一定相等。判断题*对（正确答案）错答案解析：暂无解析apply（）方法可以将某个函数应用到 DataFrame对象的每个

53、数据。判断题*对错（正确答案）答案解析：暂无解析groupby（）方法可以将DataFrame中的某个列名做为分组键。判断题*对（正确答案）错答案解析：暂无解析在箱形图中超出上界和下界的值称为异常值。判断题*对（正确答案）错答案解析：暂无解析具有多层索引的DataFrame对象经过stack（）重塑后，返回的是一个 Series对象判断题*对错（正确答案）答案解析：暂无解析使用merge（）函数进行数据合并时，不需要指定合并键。判断题*对错（正确答案）答案解析：暂无解析fillna（）方法处理缺失数据时可以使用 Series对象填充，但不可以使用DataFrame对象填充。判断题*对错（正确答

54、案）答案解析：暂无解析dropna（）方法可以删除数据中所有的缺失值。判断题*对（正确答案）错答案解析：暂无解析drop_duplicated（）方法可以删除重复值。判断题*对错（正确答案）答案解析：暂无解析rename（方法可以重命名索引名。判断题*对（正确答案）错答案解析：暂无解析缺失数据是人为有意造成的。判断题*对错（正确答案）答案解析：暂无解析通过merge（）函数合并数据时可以指定多个键。判断题*对（正确答案）错答案解析：暂无解析join（）方法可以使用左连接和右连接两种方式连接数据。判断题*对（正确答案）错答案解析：暂无解析read_html（）函数可以读取网页中所有的数据。判断题

55、*对错（正确答案）答案解析：read_html（）方法只能读取网页中table标签中的数据Series是一个类似于一维数组的对象。判断题*对（正确答案）错答案解析：暂无解析Series和DataFrame都支持切片操作。判断题*对（正确答案）错答案解析：暂无解析describe（方法可以一次性输出多个统计指标。判断题* 对（正确答案）错答案解析：暂无解析层次化索引可以交换分层顺序。判断题*对（正确答案）错判断题*答案解析：暂无解析在操作DataFrame对象时，可以通过指定索引名的方式获取数据对（正确答案）错答案解析：暂无解析PandasH有Series和DataFrame两种数据结构。判断题

56、*对错（正确答案）答案解析：PandasW Series、DataFrame. Panel三种数据结构DataFrame的结构是由索引和数据组成的。判断题*对（正确答案）错答案解析：暂无解析Panda姒可以按照索引排序也可以按照数据排序。判断题*对（正确答案）错答案解析：暂无解析通过from_arrays（）方法可以将元组列表转换为 Multiindex对象。判断题*对错（正确答案）答案解析：暂无解析ndarray对象的数据类型可以通过type（）方法进行转换。判断题*对错（正确答案）答案解析：ndarray对象的数据类型可以通astype（方法进行转换如果两个数组的形状不同，则它们是无法执行

57、算术运算的。判断题*对错（正确答案）答案解析：当数组满足某一维度等长或满足其中一个数组为一维数组时，便可以通过广播机制进行运算。ndarray对象中的swapaxes（方法可以将两个轴进行转换。判断题*对（正确答案）错答案解析：暂无解析假设当前有一个3行3列的ndarray数组，如果想要获取第3行第2列的元素，可以使用ndarray3,2。判断题*对错（正确答案）答案解析：索引从0开始计数NumPy支持比Python更多的数据类型。判断题*对（正确答案）错答案解析：暂无解析NumPy数组不需要循环遍历，即可对每个元素执行批量的算术运算操作。判断题*对（正确答案）错答案解析：暂无解析通过em

58、pty（）函数创建的数组中所有元素值都是 NaN。判断题*对错（正确答案）答案解析：暂无解析通用函数会对数组中的每一个元素都进行操作。判断题*对错（正确答案）答案解析：暂无解析如果希望创建一个数组，则只能用 array（）函数实现。判断题*对错（正确答案）答案解析：暂无解析sort（）方法可以对任何轴上的数据进行排序判断题*对（正确答案）错答案解析：暂无解析Seaborn是Python中基于Matplotlib的数据可视化工具，它提供了很多高层封装的函数。判断题*对（正确答案）错数据分析是一个有目的地收集和整合数据的过程。判断题*对错（正确答案）答案解析：数据分析的目的在于，将隐藏在一大批看

59、似杂乱无章的数据信息集中提炼出来有用的数据，以找出所研究对象的内在规律，并非只对数据进行收集和整理。NLTK库适用于处理文本分析。判断题*对（正确答案）错如果要卸载指定环境中的包，则直接使用 remove命令移除即可。判断题*对（正确答案）错Jupyter Notebook的优点是可以重现整个分析过程，并将说明文字、代码、图表、公式和结论都整合在一个文档中。判断题* 对（正确答案）错使用pip命令也可以查看Anconda安装的包。判断题*对（正确答案）错Anconda是完全免费的。判断题*对（正确答案）错conda是一个在 Windows Mac OS、和Linux上运行的开源软件包管理系

60、统和环境管理系统。判断题*对（正确答案）错Pandas一个基于NumPy的数据分析包，它是为了解决数据分析任务而创建的。判断题*对（正确答案）错Jupyter Notebook可以将文件保存为ipynb格式。判断题*对（正确答案）错下列选项中，关于分组聚合描述正确的是（）。*A、拆分是将数据集按照一些标准拆分为若干个组（正确答案）.应用是将某个函数或方法（内置和自定义均可）应用到每个分组（正确答案）.合并是将产生的新值整合到结果对象中（正确答案）.应用函数时只能使用pandas内置的函数答案解析：暂无解析下列关于apply（）方法说法不正确的是（）。*A、apply（）方法是对DataFra

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

Python数据分析与应用题库

文档简介

温馨提示

最新文档

评论

Python数据分析与应用题库

文档简介

温馨提示

最新文档

评论

相关文档