融优学堂python大数据分析(山东大学)章节测验答案_第1页
融优学堂python大数据分析(山东大学)章节测验答案_第2页
融优学堂python大数据分析(山东大学)章节测验答案_第3页
融优学堂python大数据分析(山东大学)章节测验答案_第4页
融优学堂python大数据分析(山东大学)章节测验答案_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

青春须早为,岂能长少年。©解忧书店,严禁转载,违者必究!2/2python大数据分析(山东大学)解忧书店JieYouBookshop2python数据分析概述1.【判断题】数据分析的数据一般都是结构化的、半结构化的。正确答案:错误我的答案:正确2.【单选题】关于python语言的特点,说法错误的是()APython代表了简单思想的语言,语法简单,容易上手Bpython具有强大的标准库,完善的基础代码库。这些库覆盖了网络通信、文本处理、数据库接口、图形系统、XML处理等大量的内容Cpython具有良好的可扩展性,有大量的第三方的模块和他进行对接,而且覆盖的领域也非常众多Dpython语言是免费开源的,但是无法移植到其他语言中正确答案:D我的答案:A3.【单选题】python中,常见的结构化数据不包括()A表格型数据B多维数组C通过关键列相互联系的多个表D序列E图像数据正确答案:E我的答案:A4.【单选题】下列不是数据分析的方法有()A描述性分析B诊断性分析C预测型分析D指令型分析E回顾性分析正确答案:E我的答案:A5.【判断题】分析和建模就是指通过对比分析、分组分析、交叉分析、回归分析等等这些分析方法,以及聚类、分类、关联规则、智能推荐等模型与算法,最后发现数据中有价值的信息,然后得出结论的过程。正确答案:正确我的答案:正确6.【多选题】下面哪种为可用于python的开发环境()APyDevBMSvisualstudioCPyCharmDSpyder正确答案:ABCD我的答案:A7.【单选题】下列说法错误的是()APython和R相比速度;B在理论的统计、理论的研究和一些前沿科学研究方面是Python比R更胜一筹的;CPython的工程化应用是强于R语言的;DPython的应用场景也大于R语言正确答案:C我的答案:A8.【单选题】对以下建模过程,正确顺序为()1评估2部署3数据预处理4分析5需求分析6优化7建模8数据获取A1-5-7-8-3-4-6-2B5-8-3-7-4-1-6-2C5-8-3-4-7-1-6-2D8-5-3-7-4-6-1-2正确答案:B我的答案:A3Numpy基础1.【多选题】下列哪些不是创建ndarray的函数:()AarrangeBzerosConesDemptyEeyeFfullGlinespaceHlogspace正确答案:EFH我的答案:A2.【单选题】下列切片表达错误的是()

A

B

C

D正确答案:C我的答案:A3.【单选题】以下代码的运行结果错误的是

A

B

C

D正确答案:C我的答案:A4.【单选题】

A

B

C

D正确答案:B我的答案:A5.【单选题】

A

B

C

D正确答案:A我的答案:A4Pandas基础介绍1.【判断题】DataFrame既有行索引也有列索引,它可以被看做由Series组成的字典(共用同一个索引)。正确答案:正确我的答案:正确2.【判断题】DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔值等),每列的类型可以不同。正确答案:错误我的答案:正确3.【单选题】关于Seriese的说法错误的是()A如果没有为数据指定索引,seriese会自动创建一个0到N-1(N为数据的长度)的整数型索引,如果指定索引,就不必自动创建这个索引B可以将Series看成是一个定长的有序字典,因而可以用在许多原本需要字典参数的函数中C如果数据被存放在一个Python字典中,也可以直接通过这个字典来创建SeriesDSeries最重要的一个功能是,它会根据运算的索引标签自动对齐数据,类似于数据库的join操作正确答案:A我的答案:A4.【判断题】Series是一种类似于一维数组的对象,它由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成。正确答案:正确我的答案:正确5数据的加载和存储1.【判断题】ORM技术指的是对象关系映射技术,它是把关系数据库的表结构映射到对象上,然后通过使用描述对象和数据库之间映射的元数据,将程序中的对象自动持久化到关系数据库中。在Python中,最有名的ORM框架是SQLAlchemy

正确答案:

正确

我的答案:

正确2.【判断题】Pandas中,read_table语法基本上和read_csv相同,只是它的分隔符的默认值是\t,

read_csv默认分隔符为逗号

正确答案:

正确

我的答案:

正确3.【单选题】Pandas提供三种方式来访问数据库,下列哪个语句不是访问数据库的语句(

Aread_sql_table

Bread_sql_query

Cread_json

Dread_sql正确答案:C

我的答案:A4.【单选题】关于json的使用,下列说法错误的是:(

APython里面,json基本类型有对象(字典)、数组(列表)、字符串、数值,没有布尔值和null。

Bjson对象中所有的键都必须是字符串,通过json.loads即可将JSON字符串转换成Python形式

C可以将一个Json字符串先转成字典,再通过字典来创建dataframe

Dpandas.read_json可以自动将JSON数据集转换为Series或DataFrame正确答案:A

我的答案:A5.【单选题】关于JSON的描述,正确的为(

AJSON是JavaObjectNotation的缩写

BJSON是一种复杂的数据交换格式

CJSON已经成为了通过HTTP请求在Web浏览器和其他应用程序之间发送数据的标准格式之一

DJSON的数据格式不如表格型的文本灵活正确答案:C

我的答案:A6数据的清洗和准备1.【判断题】pandas可以用dropna和fillna来处理缺省值的函数,前者删除缺省值的行或者列。后者fillna是填充缺省值

正确答案:

正确

我的答案:

正确2.【判断题】pandas一般是使用整型的值,叫NAN,就是notanumber的缩写来表示缺失数据,所以这种缺失数据也叫做哨兵值,它可以非常方便的被检测出来

正确答案:

错误

我的答案:

正确3.【判断题】数据清洗主要是包括处理重复的数据、缺失的数据以及异常的数据

正确答案:

正确

我的答案:

正确4.【单选题】不属于数据转换的方法是(

A利用函数或映射

B计算哑变量来处理类别型的数据转换。

C离散化

D回归法

正确答案:D

我的答案:A5.【单选题】Python中,不属于异常值的处理方式的是:(

A直接把含有异常的记录给删掉。

B将异常值变成缺省值,按照缺省值的处理方法来处理

C推理法

D把异常值都用某个值,如平均值来进行修正正确答案:C

我的答案:A6.【单选题】

A

B

C

D正确答案:C

我的答案:A7.【单选题】

A

B

C

D正确答案:B

我的答案:A8.【单选题】下列哪种方法不是常用的异常值检测方法(

A简单统计分析法,当然是通过我们提供的一些统计函数。

B决策树法

C3σ原则

D箱线图分析法正确答案:B

我的答案:A9.【单选题】

A

B

C

D

正确答案:D

我的答案:A10.【单选题】

A

B

C空

D正确答案:A

我的答案:A7数据规整:聚合,合并和重聚1.【单选题】下列说法错误的是(

Apandas.merge可根据一个或多个键将不同DataFrame中的行连接起来。

B

pandas.concat可以沿着一条轴将多个对象堆叠到一起。

Cpandas.append方法,它也可以实现纵向堆叠

D重叠合并主要使用DataFbine_first函数实现正确答案:C

我的答案:A2.【判断题】正确答案:

正确

我的答案:

正确8数据的可视化1.【多选题】绘制折线图时,如果要设定点为star,大小为10,需要设定rc的哪些参数(

)

Alines.linewidth

Blines.linestyle

Clines.marker

Dmarkersize

正确答案:

CD

我的答案:

A2.【单选题】绘制箱型图用函数___

Ascatter

Bboxplot

Cplot

Dpie正确答案:B

我的答案:A9数据的聚合与分组运算1.【判断题】用groupby分组后的结果是一个groupby对象,并不能直接用frame打印出来查看,它会被存在于内存中,所以说最终要输出的时候,输出的是一个内存地址。

正确答案:

正确

我的答案:

正确2.【判断题】对于某dataframe类型数据df,其数据列有id1,data1,data2,如果按照id1进行分组,求解在data1上的平均值,可以写为grouped=df['data1'].groupby(df['id1'])。

正确答案:

错误

我的答案:

正确3.【多选题】

Apieces['a']

Bpieces['a','one']

Cpieces[('a','one')]

Dpieces['a','b']正确答案:

BC

我的答案:

A4.【单选题】下列函数与其他选项不等效的是(

Adf.groupby('key1')[['data2']].sum()

Bdf.groupby('key1')[['data2']].aggregate(['sum'])

Cdf.groupby('key1')[['data2']].agg(['sum'])

Ddf.groupby('key1').agg({'data2':'sum'})

Edf.groupby('key1')[['data2']].agg({'data2':'sum'})

正确答案:E

我的答案:A5.【单选题】

Adf.groupby('key1')['data1'].mean()

Bdf.groupby('key1')[['data2']].mean()

Cdf.groupby(['key1','key2'])['data1','data2'].mean()

Ddf.groupby(['key1','key2'])['data1']['data2'].mean()

正确答案:D

我的答案:A10时间序列1.【单选题】

A2011-11-01

B2012-10-01

C2012-01-01

D2012-12-31正确答案:A

我的答案:A2.【单选题】

Ap1+5

Bp1-5

Cp1-p2

Dp1-p3正确答案:C

我的答案:A3.【单选题】

ATimestamp('2017-11-0100:00:00')

B

Timestamp('2017-12-3013:00:12')

CTimestamp('2017-11-3013:00:12')

D

Timestamp('2017-11-0113:00:12')正确答案:C

我的答案:A4.【单选题】

A1,2,3

B3,1,2

C2,1,3

D3,2,1正确答案:A

我的答案:A5.【单选题】下列不能正确执行的语句是

Aindex=pd.date_range('2012-04-01','2012-05-01',periods=20)

Bindex=pd.date_range(start='2012-04-01',periods=20)

Cindex=pd.date_range(end='2012-05-01',periods=20)

Dindex=pd.date_range('2012-04-01','2012-05-01')正确答案:A

我的答案:A6.【单选题】

Ats[0]

Bts.index[0]

Cts['2017-6-26']

Dts['2017/6/26']

Ets['6/26/2017']

Fts['26/6/2017']正确答案:B

我的答案:A7.【判断题】正确答案:

错误

我的答案:

正确8.【单选题】

APeriod('2007-05','M')

BPeriod('2006-06','M')

CPeriod('2006-01','M')

DPeriod('2007-01','M')正确答案:B

我的答案:A9.【单选题】关于pandas的时间类,以下说法错误的是?

A.Timestamp,这是最基础的时间类,在绝大多数的场景中,时间的数据都是Timestamp形式的,可以采用python的函数to_datetime形成Timestamp

BPeriod表示时间段

CTimedelta表示不同单位的时间,例如1天,1.5小时,3分钟,4秒等,而非具体的某个时间段

DDatetimeIndex和PeriodtimeIndex,是一组Index,可以用来作为Series或者DataFrame的索引正确答案:A

我的答案:A10.【多选

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论