版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一章测试目前,数据密集型科学研究的范式也称为科学研究的()。
A:第二范式
B:第三范式
C:第四范式
D:第一范式
答案:C在DrewConway提出的数据科学韦恩图中,危险区是指()。
A:忽视专业领域知识的掌握
B:重视机器学习算法的掌握
C:缺乏数学解释的能力
D:忽视计算机编程的能力
答案:C以下不属于数据离散程度统计指标的是()。
A:方差
B:极差
C:标准差
D:数学期望
答案:D随着大数据、人工智能的发展,数据科学与()建立了本质性的联系。
A:机器学习
B:深度学习
C:统计学
D:数据挖掘
答案:DIBM提出的大数据“5V”理论,增加了()特征。
A:Value(价值密度低)
B:Velocity(速度快)
C:Veracity(真实性)
D:Variety(多样性)
答案:C随着大数据的广泛应用和技术的不断创新,人们的思维模式也发生了很大的变化,以下不属于大数据思维的是()。
A:总体性思维
B:相关性思维
C:因果性思维
D:容错性思维
答案:C当今大数据区别于传统的小数据,其主要差异不包括()。
A:应用需求
B:数据特点
C:数据来源
D:技术框架
答案:C目前,对大数据分析技术面临的主要挑战,描述错误的是()。
A:数据处理分析算法需要在实时性和准确率之间做出平衡
B:数据往往伴有噪声,对数据的管理和评价容易出现偏差
C:数据分布广泛,只有在集成后才能更好地处理和分析
D:数据生存环境是动态变化的,具有很强的不确定性
答案:C大数据技术生态中,使用流处理模式,适用于大型互联网服务日志采集的系统是()。
A:SparkSQL
B:Kafka
C:RabbitMQ
D:RocketMQ
答案:B以下不属于大数据分析和挖掘技术平台的是()。
A:TensorFlow
B:Impala
C:ApacheDrill
D:ZooKeeper
答案:D目前,数据的来源主要包括_、_和非结构化数据三种类型。
答案:根据要分析的数据对象的类型,数据分析分为_和_两大类型。
答案:从一般意义上来说,NoSQL是指___。
答案:常用的关系型数据库中表示和存储的数据,属于___数据。
答案:在大数据处理时,有价值的数据所占比例很小,而收集、存储和分析大数据的成本往往偏高,说明大数据具有___的特征。
答案:采集大数据时,按照数据来源的不同,主要有系统日志、___、数据库和传感设备等四种不同的形式。
答案:数据清洗主要包括缺失值处理、___和异常值处理。
答案:用于大数据存储和管理的典型技术工具主要有___、NoSQL数据库系统、数据仓库系统三种类型。
答案:大数据的处理模式,主要有批处理模式、___和混合处理模式三种类型。
答案:数据挖掘是一种深层次的数据分析方法,常用方法主要有分类、回归分析、___和关联规则等。
答案:大数据和数据科学既有联系、又有区别。()
A:对
B:错
答案:A在大数据分析和挖掘技术中,TensorFlow是目前最热门的机器学习框架平台。()
A:对
B:错
答案:A从用户的角度,数据可视化可以更好地发现数据中存在的价值和模式。()
A:错
B:对
答案:B大数据中潜在的价值越来越受到人们的关注,但数据本身的价值密度很低。()
A:错
B:对
答案:BHadoopYARN是一种通用的资源管理系统,但不能协调资源和任务之间的调度。()
A:对
B:错
答案:B未来,数据科学与人工智能的结合将越来越紧密。()
A:错
B:对
答案:BTableau属于可编程的数据可视化分析工具。()
A:对
B:错
答案:BPython技术不支持大数据的处理和分析。()
A:错
B:对
答案:A大数据时代,数据量呈指数级增长,数据中的价值也会随之相应增长。()
A:对
B:错
答案:B在数据量的度量单位中,EB和TB是1000倍的关系。()
A:对
B:错
答案:B第二章测试使用pip命令可以下载安装Python的()。
A:自定义库
B:标准库
C:外部扩展库
D:内置库
答案:C使用Python的import命令不可以导入()。
A:numpy
B:bulitins
C:math
D:pandas
答案:BPython的注释不可以使用()。
答案:A关于Python语言,以下说法不正确的是()。
A:严格使用缩进来表示程序代码的逻辑关系
B:一条语句可以使用续行符“”在多行上书写
C:一种解释性高级语言
D:一行只能有一条语句
答案:D执行语句sum(list(range(1,10,2)))之后,显示的运算结果是()。
A:45
B:25
C:20
D:[1,3,5,7,9]
答案:B在Python环境中执行语句i=3;i+=3后,变量i的值是()。
A:0
B:3
C:不确定
D:6
答案:D已知x=[1,1],y=[2,2],则x+y的结果是()。
A:[1,1]
B:[3,3]
C:[1,1,2,2]
D:[2,2]
答案:C执行语句age=[18,20,19,17];age.pop()之后,显示的结果为()。
A:19
B:17
C:20
D:18
答案:B执行语句x=[1,2,3]*3之后,语句x.index(2)的运算结果是()。
A:1
B:0
C:2
D:3
答案:A执行语句list(zip([‘i’,‘j’,‘k’],[1,2]))之后,生成的列表为()。
答案:D表达式sum([x*xforxinrange(5)])的计算结果是()。
A:20
B:5
C:30
D:15
答案:C表达式tuple(enumerate(range(3)))的计算结果是()。
A:(0,1,2)
B:((1,1),(2,2),(3,3))
C:(1,2,3)
D:((0,0),(1,1),(2,2))
答案:D执行语句系列g=(i2foriinrange(1,4));list(g);next(g),最后的显示结果为()。
A:报错
B:[1,2,3]
C:(1,4,9)
D:[1,4,9]
答案:A**执行语句系列x,y,z={1:“a”,2:“b”,3:“c”};x,y=y,z之后,则变量y的值为()。
A:2
B:1
C:3
D:“c”
答案:C关于Python中字典的使用,以下说法不正确的是()。
A:字典中的“键”允许重复
B:字典中的每个元素以“键:值”形式表示
C:可使用字典对象的values属性访问字典的所有值
D:字典的标识符为{}
答案:APython严格使用缩进来表示程序代码的逻辑关系,一般用空格或___键来实现。
答案:Python中用来定义函数的关键字是___。
答案:要定义Python的全局变量,可使用关键字___进行声明。
答案:要强制中断Python循环过程的执行,可以使用___语句来实现。
答案:若定义Python的匿名函数func=lambdax,y:y-xifx>yelsex+y,则语句func(12,20)的返回值是___。
答案:设s=“0123456789”,要得到s中奇数字符的倒序,则应使用___对字符串进行切片。
答案:语句print(“%3.2f”%23)显示输出的结果为___。
答案:表达式len(“中国”.center(10,‘’).strip(’’))的运算结果为___。
答案:在Python的自定义函数中,可以使用___语句使得函数调用时有相应的返回值。
答案:Python中类的构造方法是___,在类实例化产生对象时会自动调用。
答案:Python是一种强类型动态语言,变量的类型可以随时变化。()
A:错
B:对
答案:BPython中的range对象是可迭代对象,常用在for循环中控制循环的次数。()
A:对
B:错
答案:A执行语句x=y=3后,变量x、y指向同一个内存地址。()
A:错
B:对
答案:BPython对标识符严格区分大小写。()
A:对
B:错
答案:A在Python中定义函数时,必须要声明函数返回值的类型。()
A:错
B:对
答案:APython中函数的形式参数与实际参数的个数必须一致。()
A:错
B:对
答案:APython表达式Trueor1/0的运算结果为True。()
A:对
B:错
答案:APython中的生成器对象具有惰性求值的特点,每次可以访问其中的任意一个元素。()
A:错
B:对
答案:APython中没有字符类型,只有字符串类型。()
A:对
B:错
答案:APython的一个常量、变量、数据类型或函数等都可以看作是一个对象。()
A:对
B:错
答案:A以下属于Python内置序列对象的有()。
A:列表(list)
B:集合(set)
C:元组(tuple)
D:字典(dict)
答案:ABCD序列结构是Python的一种重要数据结构,以下属于可变序列的有()。
A:元组(tuple)
B:列表(list)
C:字典(dict)
D:集合(set)
答案:BCDPython程序常用的基本控制结构有()。
A:迭代结构
B:循环结构
C:顺序结构
D:分支结构
答案:BCD在Python的选择和循环结构中,以下条件表达式的值可以解释为True的有()。
答案:BC在Python中定义函数时,允许使用的函数参数形式有()。
A:关键字参数
B:默认值参数
C:可变长度参数
D:位置参数
答案:ABCD关于Python类的实例属性,以下说法正确的是()。
A:类的实例属性只能在类的构造方法中定义
B:同一个类生成的多个对象,其实例属性互不影响
C:类的每个实例对象都拥有该类实例属性的副本
D:在定义类时,以“self.属性名称”格式访问其实例属性
答案:BCD在Python中定义类的成员方法时,可以采用的不同形式有()。
A:类方法
B:静态方法
C:实例方法
D:抽象方法
答案:ABC以下能够使用切片方式访问其中部分成员的对象有()。
A:元组
B:字典
C:列表
D:字符串
答案:ACD在使用Python的内置函数open打开文件时,能够指定的文本解码方式有()。
A:GBK
B:UTF-8
C:BIG-5
D:CP936
答案:ABD当Python函数的实际参数个数不确定时,可以使用*或定义可变长度参数,则可以传递的实际参数类型有()。
A:无限制
B:默认值参数
C:位置参数
D:关键字参数
答案:CD**请自行查阅资料或参考以下ppt中的内容,采用冒泡排序或快速排序算法实现一组数据的升序排序。要求使用Python3.x版本语言编写程序代码,采用“用例1”的输入、输出,程序代码要完整,能够正常运行。用例1:输入:33,82,31,60,14,8,44,80,39,57输出:8,14,31,33,39,44,57,60,80,82
答案:使用Python3.x版本的语言编写程序,产生一个随机密码并显示。要求密码的长度为8至16个字符,且必须含有小写英文字母、大写英文字母、数字及特殊符号。
答案:第三章测试设numpy数组arr=np.arange(10),要将该数组中偶数选择处理,以下正确的是()。
A:arr[arr%2==True]
B:np.where(arr%2==0)
C:arr[arr%2==0]
D:arr[::2]
答案:A使用numpy的split函数分割数组arr,如果该函数的第二个参数为[3,5],则表示要划分arr为()个子数组。
A:4
B:2
C:1
D:3
答案:D设数组a、b均为1行3列的一维数组,使用numpy.stack函数连接数组a和b时,若参数axis=-1,则()。
A:不允许,将提示错误
B:按默认的轴方向进行连接
C:连接轴为行,等价于axis=0
D:连接轴为列,等价于axis=1
答案:D设数组a、b均为1行6列的一维数组,若执行赋值语句a=b;b.shape=2,3,则以下说法正确的是()。
A:数组a和b具有不同的存储单元地址
B:数组a和b均变为2行3列
C:数组a和b的形状均保持不变
D:数组b的形状改变,而数组a形状不变
答案:Bndarray对象是numpy库的核心数据结构,关于该对象的说法,以下不正确的是()。
A:每个元素的存储空间大小不同
B:元素的下标默认从0开始
C:元素的数据类型相同
D:是一个N维数组
答案:A使用numpy库的array函数分别创建数组a和b,其中,则a+b的运算结果是()。
A:不能运算,报错
B:
C:
D:
答案:C在Numpy库提供的线性代数子模块linalg中,专门用于计算方阵特征值和特征向量的函数是()。
A:eig
B:eigvals
C:eigvalsh
D:eigh
答案:A使用numpy.sort方法对数据序列进行排序时,其参数kind可以指定的排序类别不包括()。
A:归并排序(mergesort)
B:堆排序(heapsort)
C:快速排序(quicksort)
D:冒泡排序(bubblesort)
答案:D设数组x=numpy.arange(1,9,2),则表达式x[numpy.where(x<5,x,-1)]的运算结果为()。
A:array([3,0,0,0])
B:array([1,3,-1,-1])
C:array([3,1,1,1])
D:array([3,7,7,7])
答案:D设数组x=numpy.linspace(-2,2,3),则表达式numpy.piecewise(x,[x<0,x>=0],[lambdax:-x,lambdax:x])的运算结果为()。
A:array([-1.,0.,-1.])
B:array([1.,0.,1.])
C:array([2.,0.,2.])
D:array([-2.,0.,-2.])
答案:C设有numpy数组arr=np.arange(9).reshape(3,3),则arr[:,::-1]的作用是()。
A:行列互换
B:列倒序
C:行倒序
D:数组保持不变
答案:B设有numpy数组arr=np.arange(9).reshape(3,3),则要交换该数组的第1、第2行,以下表达式正确的是()。
A:arr[[0,2,1],:]
B:arr[:,[1,0,2]]
C:arr[[1,0,2],:]
D:arr[:,[0,2,1]]
答案:C形状兼容时,numpy可以进行广播操作,以下运算中没有广播操作的是()。
A:a=np.arange(3).reshape(3,1);b=np.arange(3);a+b
B:a=np.random.randn(2,3);a3
C:a=np.ones((3,2));b=np.arange(3);ab
D:a=np.ones((2,3));b=np.arange(3);a+b
答案:C设numpy数组arr=np.arange(10),要将该数组中的偶数选择出来,以下表达式不正确的是()。
A:arr[::2]
B:np.where(np.mod(arr,2))
C:np.where(arr%2==0)
D:arr[arr%2==0]
答案:Bnumpy提供了random随机模块,使用该模块可产生标准正态分布随机数的是()。
A:rand
B:normal
C:randn
D:radom
答案:C使用Numpy的reshape方法,可以改变数组的维数,但不能改变数组的大小。()
A:对
B:错
答案:A使用Numpy的resize方法,既可以改变数组的维数,也可以改变数组的大小。()
A:对
B:错
答案:A如果两个数组的维度相同,但大小不同,则这两个数组不能进行算术运算。()
A:错
B:对
答案:A设数组a=np.arange(9).reshape(3,3),则表达式a[:,[1,0,2]]的作用是交换数组a的两列。()
A:对
B:错
答案:A如果两个由数值数据组成的数组进行点积运算的结果为0,则表示这两个数组对应的向量垂直。()
A:对
B:错
答案:A一个两行三列的数组可以看作为两个三维的向量。()
A:对
B:错
答案:A在计算数据集的中心倾向时,均值对数据中的异常值不敏感。()
A:错
B:对
答案:A百分位数常用于描述一组有序数据中的各数据项如何在最小值和最大值之间分布。()
A:错
B:对
答案:B数据离散度的计算很容易受到其中一小部分异常值的影响。()
A:错
B:对
答案:A当计算数据的标准差结果为0时,表示数据聚集在一起。()
A:对
B:错
答案:Anumpy库中使用的ndarray数组要求数据类型必须一致。()
A:错
B:对
答案:A设数组a=np.arange(6).reshape(3,2),则表达式a[::-1]的作用是翻转数组a的两列。()
A:对
B:错
答案:A计算数据之间的相关性,可以使用numpy库的corrcoef函数。()
A:对
B:错
答案:A使用numpy库random子模块的randint函数每次只能生成一个随机整数。()
A:对
B:错
答案:B使用numpy库的amax函数可以对多维数组的每一行求最大值。()
A:对
B:错
答案:A在计算机上使用数值近似解方法解决实际问题时,不可避免地会引入误差,其主要来源类型有()。
A:舍入误差
B:观测误差
C:截断误差
D:模型误差
答案:ABCD对Numpy库的描述,以下正确的是()。
A:是基于Python环境的科学计算基础包
B:是Python的外部扩展库
C:只支持数值类型的运算
D:其核心功能的实现受ndarray对象的支持
答案:ABD对Numpy库中ndarray对象的描述,以下说法正确的是()。
A:是一个多维数组
B:对象中每个元素的存储空间大小相同
C:元素可使用下标索引方式访问
D:对象中元素的数据类型必须相同
答案:ABC使用Numpy库可以创建单位矩阵形式数组的函数有()。
A:zeros
B:ones
C:identity
D:eye
答案:CD可以创建三角矩阵的Numpy库函数有()。
A:tri
B:diag
C:tril
D:triu
答案:ACD在numpy环境中执行语句序列a=np.array([1,2,3]);b=np.unique(np.append(a,2))后,以下说法正确的是()。
A:数组a的内容没有改变
B:数组a和b的内容相同
C:数组b的内容为array([1,2,3])
D:数组a和b是同一个数组
答案:ABC将二维数组转换为一维数组,可以使用的方法有()。
A:numpy.ravel
B:ndarray.resize
C:numpy.flatten
D:ndarray.reshape
答案:ABD使用numpy创建数组a=np.random.randint(1,10,[3,3]),则执行语句b=a[:,::-1]后,以下说法正确的是()。
A:数组a中的元素按列倒置后得到数组b
B:数组a和b的形状相同
C:数组a中的元素按行倒置后得到数组b
D:数组a的内容保持不变
答案:ABDNumpy库提供了线性代数子模块linalg,支持的运算包括()。
A:求解矩阵的特征值
B:矩阵的分解和规范化
C:矩阵和矢量的基本运算
D:求解线性方程组
答案:ABCD常用的矩阵分解方法包括()。
A:正交分解
B:奇异值分解(SVD)
C:QR分解
D:三角分解(LU)
答案:BCD使用索引访问数组中的元素时,索引的形式可以是()。
A:布尔数组索引
B:字段名称索引
C:整数数组索引
D:切片索引
答案:ABCD设arr是一个3行3列的numpy数值型数组,则以下操作返回原始对象视图的有()。
A:arr.view()
B:arr[:]
C:arr+2
D:arr.flatten()
答案:AB以下属于numpy库子模块的有()。
A:random
B:linalg
C:matlib
D:ma
答案:ABCDnumpy库中的linalg子模块可以用来()。
A:求解线性方程组
B:求两个向量的欧式距离
C:计算两个矩阵的乘法
D:计算矩阵的行列式
答案:ABCD设有numpy数组arr=np.random.uniform(0,10,10),以下方法中能提取该数组中整数部分的方法是()。
A:arr-arr%1
B:np.floor(arr)
C:np.trunc(arr)
D:arr.astype(int)
答案:ABCD要访问ndarray对象的维数,可以使用对象的___属性。
答案:Numpy库提供的幂运算函数是___。
答案:设Numpy库的别名为np,执行语句a=np.array([1,2,3]);b=np.array([3,3,3]);a.dot(b),则运算结果为___。
答案:Nd([[1,2],[3,4]])的运算结果为___。
答案:两个离散数据序列的卷积是将一个序列翻转并平移,然后与另一个序列进行___运算的结果。
答案:若有numpy数组x=np.array([2,4,7]),则使用np.gradient(x,2)计算其梯度,计算的结果为___。
答案:在Numpy库中,用来计算数据序列加权平均值的函数是___。
答案:设有numpy二维数组x=np.arange(6).reshape(2,3),则表达式np.var(x)的运算结果(保留两位小数)为___。
答案:在numpy中空值表示为_,无穷大表示为_。
答案:矩阵A的逆矩阵等于A的转置矩阵,则矩阵A一定是___。
答案:课程“学习资源”中提供了鸢尾花的文本数据文件“iris.csv”,请自行下载并观察其中的数据组成规律,分别统计计算不同种类(species)鸢尾花的萼片(sepal)、花瓣(petal)的长(length)和宽(width)的均值、中位数、标准差的值,将计算结果格式化显示,并判断萼片、花瓣的长度和宽度之间是否存在相关性,请使用Python3.x编程实现。提示:(1)文本文件的读取可以使用numpy库的genfromtxt函数;(2)要注意numpy中数据类型的转换;(3)均值、中位数、标准差、相关系数的计算,请使用numpy库内置的相关函数;(4)相关系数的绝对值大于等于0.5时数据具有相关性;(5)要保证程序代码能够正确执行。
答案:第四章测试对pandas库的描述,以下说法错误的是()。
A:只支持一维和二维的数据处理分析
B:是一种高效且功能强大的数据分析包
C:是Python的外部扩展库,需要预先下载和安装
D:非常适合于关系型和标记型数据的处理和分析
答案:A关于DataFrame对象的描述,以下不正确的是()。
A:对象大小可变
B:等价于二维的ndarray对象
C:存储异构数据
D:元素值可变
答案:B关于Series对象的描述,以下不正确的是()。
A:对象中的元素值是可变的
B:对象的大小是可变的
C:对象中的数据是均匀的
D:是一个带标签的一维数组
答案:BDataFrame对象使用一种行列交叉的表格结构,则以下描述不正确的是()。
A:每一列允许使用不同的数据类型
B:行和列允许增加或删除
C:每一行和列都具有相应的标签作为标识
D:缺省情况下,默认的行、列标识都从0开始
答案:A假设执行s=pd.Series(np.random.randn(5))语句,已经创建了一个Series对象,则以下允许的操作有()。
A:执行s[0]=True,同时修改元素的值和数据类型
B:执行s[:]=s[:]+1,修改所有元素的值
C:执行s.size=6,改变对象的大小
D:执行s.index=list(“abcde”),改变对象的索引标识
答案:C创建Series对象时,不可以作为其输入数据的是()。
A:标量值,如数字3
B:Python的集合对象
C:Python的字典对象
D:numpy的ndarray对象
答案:B若DataFrame对象是一个由10行4列组成的数值型数据集,则要使用DataFrame对象的sum函数统计每一行的总和,应设置参数()。
A:axis=False
B:axis=0
C:axis=True
D:axis=1
答案:D设df是一个由100行5列组成的DataFrame对象,其中第5列标识为“Species”,数据类型是字符串型,要统计该列中每个字符串的长度,以下表达式正确的是()。
A:len(df[“species”])
B:df[“species”].map(lambdas:len(s))
C:df[“species”].count()
D:map(lambdas:len(s),df[“species”])
答案:B假设一个DataFrame对象df的第1列标识为“Species”,由不同物种名称的字符串组成,要统计该列中不同类别物种的个数,以下表达式正确的是()。
A:df[“species”].count().unique()
B:df.value_counts(“species”).unique()
C:count(df[“species”].unique())
D:len(df[“species”].unique())
答案:D假设df为已经创建的DataFrame对象,且其列标识分别为“A”、“B”、“C”、“D”,则语句df.sort_values(by=[“B”,“D”])的作用是()。
A:先按B列降序排序,B列相同时再按D列降序排序
B:分别按B列、D列降序排序
C:先按B列升序排序,B列相同时再按D列升序排序
D:分别按B列、D列升序排序
答案:C在进行数据预处理时,可以被pandas理解为缺失值的有()。
A:其余选项都是
B:pandas模块提供的NaN
C:Python内置的None
D:numpy模块提供的nan
答案:A若DataFrame对象df中存在重复数据,执行该对象的drop_duplicates方法,则以下说法不正确的是()。
A:可以将df中所有的重复数据真正删除
B:只能删除df中行完全重复的所有数据
C:删除重复数据后,行索引保持不变
D:可以删除df中指定列完全重复的所有数据
答案:B若DataFrame对象df存储的数据集中存在不同程度的缺失值NaN,则执行该对象的dropna方法删除这些缺失值时,以下说法正确的是()。
A:若参数axis=1且每列都存在缺失值,df将成为一个空的DataFrame对象
B:对象df中的原数据会始终保持不变
C:若参数axis=0且每行都存在缺失值,df将成为一个空的DataFrame对象
D:若参数axis=0,只要某行中存在缺失值,该行数据将被全部删除
答案:B使用3σ原则检测数据集中的异常值时,其中的σ是指()。
A:标准差
B:均值
C:方差
D:极差
答案:A以下属于二进制文件格式的有()。
A:MSEXCEL
B:XML
C:TXT
D:JSON
答案:A在pandas库与时间相关的类中,带有时区信息,表示某个具体时间点的类是()。
A:Timedelta
B:Period
C:Datetime
D:Timestamp
答案:D在时间序列的处理和分析中,目前不考虑时区因素而作为国际通用时间标准的是()。
A:GMT
B:UTC
C:DST
D:EST
答案:B在Python环境中,汇编世界时区信息,且封装在pandas库中,为时区信息的使用带来极大便利的第三方库是()。
A:pytz
B:Dateutil
C:datetime
D:PyTime
答案:A数据分类是有效提高大数据集分析时空效率的必要手段,则以下关于数据分类的说法不正确的是()。
A:数据分类的时间代价较大时,分类是不必要的
B:对分类数据的操作速度会更快
C:分类数据通常用整数编码
D:分类数据通常占用更少的内存
答案:A使用DataFrame对象的sort_values方法对其中存储的数据进行排序时,以下允许的操作是()
A:设置要排序的顺序
B:设置要排序的列名
C:设置要排序的轴向
D:设置要排序的索引标识
答案:D使用DataFrame对象的concat()方法,可以将两个数据集合并成一个数据集。()
A:对
B:错
答案:B使用DataFrame对象的groupby()方法,可以按分组进行统计计算。()
A:对
B:错
答案:A使用Pandas的read_csv()函数,不仅可以读取CSV格式的文件,而且可以解析文件中的数据内容。()
A:错
B:对
答案:BFuzzyWuzzy是Python环境下对字符串模糊匹配的第三方库,它默认使用Python的标准库difflib进行字符串匹配。()
A:错
B:对
答案:B对数据进行标准差标准化后,数据的值限定在[0,1]之间。()
A:错
B:对
答案:A使用层次化索引可以直接访问DataFrame对象的内层元素。()
A:对
B:错
答案:ASeries对象只有一个轴,不能使用分层索引。()
A:对
B:错
答案:B使用DataFrame对象的stack()方法,可以将其中的列转换为行,得到一个具有多层索引的Series对象。()
A:对
B:错
答案:B若两个数据子集的列数分别为n1、n2,则使用Pandas的merge方法按主键合并这两个数据子集时,合并后的结果数据集中的列数为n1+n2。()
A:对
B:错
答案:B使用Series对象的索引标签,可以按照字典的方式访问和操作对象中的元素。()
A:错
B:对
答案:B使用DataFrame对象的head方法,仅能查看数据集中前5行的数据。()
A:对
B:错
答案:B可以通过对DataFrame对象的shape属性重新赋值的方式改变其形状。()
A:对
B:错
答案:B使用DataFrame对象的reindex方法重构索引时,若该对象中原来没有索引标识“h”,则索引“h”对应的行将填充为NaN。()
A:对
B:错
答案:A使用DataFrame对象的iloc方法选取行数据时,只能使用整数形式的索引标识。()
A:错
B:对
答案:BPython的外部扩展库pandas不具有图表绘制的功能。()
A:对
B:错
答案:B在使用DataFrame对象的groupby方法进行分组计算时,若分组键是列标识的列表,则分组的结果会以层次化索引表示和存储。()
A:错
B:对
答案:BJSON格式的数据是以键-值对形式存储的序列化文本类型数据,可以使用pandas库的read_json和to_json方法读写。()
A:错
B:对
答案:B如果数据集中表示日期时间的数据是一个很大的整数,一般是指在内部从新纪元Epoch开始的秒数。()
A:错
B:对
答案:B在表示时间序列的频率中,WOM-3FRI表示每月第3个星期五。()
A:对
B:错
答案:A以协调世界时UTC形式表示的时间戳值是带有时区信息的,在进行运算时需要进行时区的转换。()
A:对
B:错
答案:B创建pandas库的Series对象时,以下可以作为其数据参数的有:()
答案:ABD假设已经创建列标识分别为“A”、“B”、“C”、“D”共4列的DataFrame对象df,则以下语句中能够同时访问C列、D列所有数据的是()
答案:ABC执行语句序列data=[[4,5,6],[4,5,6],[4,5,6]];df=pd.DataFrame(data,columns=list(“ABC”))创建DataFrame对象df,则以下可以将df中值为5的数据修改为数值10的语句是()。
A:df.loc[:,“B”]=5
B:df[“B”]=10
C:df.replace(5,10,inplace=True)
D:df[df.values==5]=10
答案:ABCD使用pandas库可以直接读取的外部文件格式包括()。
A:HTML格式文件
B:XML格式文件
C:CSV格式文件
D:Excel格式文件
答案:ABCD使用DataFrame对象的groupby方法对数据分组时,以下说法正确的是()。
A:分组后的结果可以直接显示查看
B:一般遵循拆分、应用、合并的过程
C:函数作为分组键时,函数的返回值作为分组的名称
D:分组生成的GroupBy对象包含数据分组的所有信息
答案:BCD对时间序列数据的重采样,以下说法正确的是()。
A:对以日期为索引的时间序列升采样时目标频率必须是源频率的超时期
B:升采样时会产生大量的缺失值
C:本质上是频率转换的过程
D:降采样时一般要进行相应的聚合运算
答案:BCD在进行时间序列分析时,以时间顺序排列构成的观测样本序列数据集,一般具有的基本特性包括()。
A:趋势性
B:季节性变化
C:随机性
D:周期性
答案:ABCD对时间序列的分析和预测,可以通过移动窗口并在窗口上进行统计计算的方式。Pandas应用于移动窗口计算的常用函数有()。
A:shift
B:rolling
C:ewm
D:expanding
答案:BCD在Pandas环境中使用分类数据,以下说法正确的是()。
A:分类数据通常占用少的多的内存空间
B:可以人为指定分类数据的整数编码
C:操作分类对象Categorical的方法是通过其cat属性提供的
D:支持分类类型的底层算法采用整数编码数组,速度更快
答案:ABCD在Python环境中,可以使用链式编程思想的场景有()。
A:关系运算表达式
B:对数据集进行一系列变换
C:闭包函数的调用
D:自定义类成员方法的调用
答案:ABCD在pandas的数据合并方法中,既可以按行合并,又可以按列合并的方法有()。
A:join
B:append
C:concat
D:merge
答案:ACD以下属于pandas库自带的基本数据结构的是()。
A:list
B:DataFrame
C:Series
D:ndarray
答案:BC假设执行df=pd.DataFrame(np.random.randn(4,3),index=range(4),columns=[“one”,“two”,“three”])语句已经正确创建了一个DataFrame对象,则以下允许的操作有()。
A:执行df.iloc[2]选择第三行
B:执行df.pop(“two”)删除第二列
C:执行df[“four”]=df[“one”]+df[“three”]添加一列
D:执行df.index=list(“abcd”)改变对象的索引标识
答案:ABCD使用DataFrame对象的describe方法,可以查看数据集的()。
A:每个数值列的数据项个数
B:每个数值列的标准差
C:每个非数值列的类别数
D:每行的最大值和最小值
答案:ABC使用DataFrame对象的groupby方法对数据进行分组后,得到一个GroupBy对象,则以下关于GroupBy对象的说法正确的是()。
A:该对象包含要进行分组计算的所有信息
B:该对象包含对数值列的分组计算结果
C:可以通过该对象直接查看分组的结果
D:是一个可迭代对象,由分组键值和对应的数据块组成
答案:AD采用分组机制对数据进行计算时,以下对分组聚合和解封的说法正确的是()。
A:可以直接在分组对象上执行统计计算
B:只能对数据集中的数值型数据进行计算
C:transform方法是对分组解封后的数据转换运算
D:apply方法是在各个分组结果上的聚合运算
答案:ABCD在使用pandas库的get_dummies方法对分类特征进行哑变量处理以满足某些回归分析模型对数值型输入的要求时,以下说法正确的是()。
A:get_dummies可以接收DataFrame对象的一列作为要处理的哑变量
B:哑变量的数值没有数量大小的意义,一般为0或1
C:哑变量处理后的数据变得更加稀疏,因此降低了模型的运算速度
D:某一输入特征有n种分类时,可以设置n-1个哑变量
答案:ABD在进行数据处理分析时,对数据进行离散化处理的原因主要有()。
A:模型算法的要求
B:减少数据量,降低算法的时空开销
C:提高算法对样本的抗噪声能力
D:简化数据结构,更容易理解
答案:ABCD在进行数据的处理分析时,要求对原始数据进行标准化处理,其主要原因有()。
A:消除数据特征之间量纲的差异
B:保证算法的准确性
C:消除评价指标之间的数量级差异
D:保证结果的可靠性
答案:ACD在pandas库的数据组织方式上,允许使用层次化索引,以使得在同一个轴上可以拥有多个索引级别,其主要原因有()。
A:数据子集的选取和访问更加简单
B:能够以低维方式处理高维数据
C:更容易实现不同层次的数据交换和排序
D:使得DataFrame对象可以存储和操作三维的数据
答案:ABCD数据转换主要指数据类型转换,数据映射、和,其主要目的是降低内存消耗。
答案:使用pandas进行数据预处理时,比较常用的处理包括_、_、___等。
答案:在Pandas能够读写的二进制文件格式中,HDF5格式是一种全新的_数据格式,其文件是_和___两种基本数据对象的容器。
答案:在Python环境中,如果已经建立了与数据库的连接,使用连接对象的execute方法,可以使用_和_两种方式执行数据库的相关操作。
答案:对GroupBy对象的数据聚合,可以使用该对象的聚合函数、_方法或_方法。
答案:使用Pandas的concat方法,既可以进行数据集的_连接合并,又可以进行数据集的_连接合并。
答案:对于时间序列中不带时区信息的朴素时区,可以使用时间序列的___方法将其转换为本地敏感时区。
答案:设锚定频率为“Q-FEB”,时期对象为Period(‘2020Q1’,freq=‘Q-FEB’),则使用该对象的asfreq方法将其转换为日频,则默认的结果为___。
答案:对时间序列的重采样,一般可以使用DataFrame对象的___方法来实现。
答案:使用平滑法可以削弱或消除短期随机波动对时间序列的影响,使序列得以平滑,常用的平滑模型方法有简单移动平均、_和_等方法。
答案:第五章测试Matplotlib库中用于实现绘图功能的最主要模块是()。
A:figure
B:animation
C:pylot
D:style
答案:C使用matplotlib库绘制图表时,关于画布和坐标轴,即figure对象和axes对象的描述,以下不正确的是()。
A:一个figure对象可以包含多个axes对象
B:调用plot方法绘制图形时,会自动创建一个figure对象和一个axes对象
C:一个axes对象只能在一个figure对象中使用
D:在同一个figure对象上绘制的多个图形只能共用一个axes对象
答案:D为保证数据集中的数据点值能够在坐标轴上全部画出,使得坐标轴的大小适应数据的显示,可以使用Matplotlib库绘图模块的()函数实现。
A:axis
B:plot
C:autoscale
D:set_axes
答案:C使用matplotlib库绘制图表,要在图表中添加注解,应调用pyplot模块的()方法来实现。
A:figure
B:legend
C:annotate
D:plot
答案:C使用matplotlib.pyplot模块的subplot方法在画布上绘制子图时,在调用subplot(2,1,1)之后,若再调用subplot(2,3,4),则创建的子图是()。
A:第2行的第4个子图
B:第2行的第3个子图
C:第2行的第2个子图
D:第2行的第1个子图
答案:D使用matplotlib.pyplot模块绘制柱形图和直方图时,以下说法不正确的是()。
A:柱形图中只有柱子的高度有意义
B:直方图中用柱子的宽度和高度均有意义
C:柱形图和直方图所表示的数据均应具有连续性
D:绘制柱形图和直方图时,柱子的宽度均可以不同
答案:C制作词云图时,以下可以用来分词的模块是()。
A:echarts
B:WordCloud
C:jieba
D:wordcloud2
答案:C绘制三维线框图,可以使用mplot3d模块的()方法。
A:plot
B:plot3d_wireframe
C:plot3d
D:plot_wireframe
答案:D使用Axes3D对象的bar3d(x,y,z,dx,dy,dz)函数绘制三维柱状图时,其中的参数x、y和z表示()。
A:柱子的大小
B:柱子的形状
C:柱子的体积
D:柱子锚点的坐标
答案:D三翼面图的绘制,可以使用Axes3D对象的()函数。
A:plot_surface
B:plot_wireframe
C:contourf
D:plot_trisurf
答案:D使用matplotlib库绘制图表时,若要将y轴的刻度设置为对数形式,应使用坐标轴对象axes的方法是()。
A:set_title
B:set_yticks
C:set_yscale
D:set_ylabel
答案:C使用绘图模块pyplot的bar方法绘制柱形图时,要在同一个绘图区上绘制多个柱形图,且保证这些柱形图不重叠,正确的做法是()。
A:设置不同的x坐标位置
B:同时调整柱形图的宽度和x轴上的坐标位置
C:设置柱子不同的对齐方式
D:设置柱子具有不同的宽度
答案:B使用绘图模块pyplot的hist方法绘制直方图时,参数histtype用来设置要绘制的直方图类型,其值不可以设置为()。
A:barstacked
B:stepfilled
C:barplot
D:step
答案:C使用pyplot模块的legend方法在绘图区添加图例时,参数loc用来指定图例框的位置,其取值有()种可能。
A:10
B:11
C:8
D:9
答案:A对常用的二维图表,以下说法不正确的是()。
A:直方图既能表现分组的大小,又能表现各分组的频率高低
B:饼图用来表现特征的占比情况,且对数量的比较更容易辨识
C:柱状图只能在一个维度上进行比较
D:散点图可以用来推断数据特征之间的相关性
答案:Bmatplotlib是可以直接在Python环境中使用的标准库,无须事先安装。()
A:错
B:对
答案:A在使用matplotlib.pyplot模块中的plot()函数绘制折线图时,matplotlib会自动创建一个绘图区(figure)。()
A:错
B:对
答案:B堆积图可以表示不同部分对总量的数量贡献,只能表现事物的总体趋势。()
A:错
B:对
答案:A散点图可以用来判断不同数据集之间是否存在相关性。()
A:错
B:对
答案:B使用matpotlib.pyplot模块的xcorr方法绘制互相关图时,会通过numpy库的correlate函数自动计算数据之间的相关性。()
A:错
B:对
答案:B自相关图可以用来表现同一个数据集在不同时间周期内的相似度。()
A:对
B:错
答案:A使用matplotlib.animation模块的FuncAnimation类绘制动画时,每一帧的绘制都需要回调创建构成帧的绘图对象函数。()
A:对
B:错
答案:A使用matplotlib.animation模块的ArtistAnimation类绘制动画时,必须预先创建构成动画的每一帧图像。()
A:错
B:对
答案:BOpenGL是一种开放式图形库,独立于硬件和操作系统平台。()
A:错
B:对
答案:BNetworkX库提供了网络的可视化功能,因此使用NetworkX库绘制网络图时,不需要导入matplotlib库的绘图模块pyplot。()
A:错
B:对
答案:APyLab模块不属于matplotlib库,它能够单独导入到Python环境并实现基本图表的绘制。()
A:错
B:对
答案:B使用matplotlib库既可以在平面直角坐标系下绘图,又可以在极坐标系下绘图。()
A:错
B:对
答案:Bmplot3d是专门用来绘制三维图形的工具包,可以使用frommatplotlibimportmplot3d语句导入到Python环境。()
A:错
B:对
答案:Aanimation模块是属于matplotlib库的一个子模块,可以使用frommatplotlibimportanimation语句导入到Python,并使用其中的接口类生成动画。()
A:错
B:对
答案:B散点图可以用于表示三维特征的分布情况。()
A:对
B:错
答案:A以下属于图表基本组成的有()。
A:绘图区
B:坐标轴
C:图例
D:图表标题
答案:ABCD在Python环境下制作词云图时,第三方库jieba的使用是非常关键和必要的,其主要功能包括()。
A:子模块posseg可以进行词性分析
B:以不同模式对文本进行分词
C:子模块analyse可以进行关键词提取
D:对分词结果进行词频统计
答案:ABC在matplotlib的pyplot模块中,可以用来创建图表中的子区的方法有()。
A:subplot2grid
B:subplot
C:GridSpecPlot
D:subplots
答案:ABD使用matplotlib的pyplot模块,可以用来创建极坐标系的方法有()。
A:调用subpl
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年福州货运从业资格试题答案解析
- 2025年武汉货运从业资格证考试模拟考试题及答案
- 2025年塔城货运资格证培训考试题
- 战略管理能力课件
- 2024年标准委托服务代理合同模板版B版
- 2024年爬架租赁合同:铝合金框架出租
- 2024全新智能喷泉控制系统研发与安装合同3篇
- 《膀胱癌治疗及护理》课件
- 2025私营企业用工合同模板
- 2025工程工期延误合同
- 2024年新青岛版(六三制)六年级上册科学全册知识点
- YC-T 591-2021 烟草行业实验室安全管理要求
- 2024(新高考2卷)英语试题详解解析 课件
- 信托公司保密管理策略
- 烟酒行转让合同范本
- 报告文学研究
- 5.2《大学之道》课件+2024-2025学年统编版高中语文选择性必修上册
- 弃土综合利用协议
- 案例2-5 节能效果对比讲解
- 荆楚民艺智慧树知到期末考试答案章节答案2024年湖北第二师范学院
- SH/T 3065-2024 石油化工管式炉急弯弯管工程技术规范(正式版)
评论
0/150
提交评论