Python数据分析与应用-从数据获取到可视化(第2版)习题_第1页
Python数据分析与应用-从数据获取到可视化(第2版)习题_第2页
Python数据分析与应用-从数据获取到可视化(第2版)习题_第3页
Python数据分析与应用-从数据获取到可视化(第2版)习题_第4页
Python数据分析与应用-从数据获取到可视化(第2版)习题_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据分析概述填空题数据分析按照复杂度和深度可以分为、诊断性分析、预测性分析和规范性分析共4个层次。包含了Conda、Python在内的超过180个科学计算包及其依赖项。JupyterNotebook是一个支持代码、数学方程、可视化和Markdown的Web应用程序。JupyterNotebook支持代码和这两种类型的单元格。是Python开源的科学计算库,能够实现高维数组与矩阵运算。判断题数据分析是一个有目的地收集和整合数据的过程。()Python能够“粘连”其它语言的组件,便于开发人员操作其它语言编写的库。()如果要卸载指定环境中的包,则可以直接使用condaremove命令移除。()数据处理在一定程度上保证了分析工作中数据的质量。()Anaconda工具安装了数据分析用到的全部库,无需另行安装。()选择题下列选项中,属于数据分析中用于搭接数据仓库和保证数据质量的是()。数据收集数据处理数据分析数据展现关于Anaconda工具的说法中,下列描述错误的是()。Anaconda是一个可以对包和环境进行统一管理的工具。Anaconda是完全开源的、付费的Anaconda支持Linux、Windows、macOS操作系统Anaconda避免了单独安装包时需要配置或兼容等各种问题下列选项中,关于JupyterNotebook的描述正确的是()。安装Anaconda工具后会自动拥有JupyterNotebookJupyterNotebook只能通过命令行的方式启动JupyterNotebook首页的根目录是不能修改的JupyterNotebook不能将脚本文件导出为HTML文件下列选项中,用于实现数据可视化功能的库是()。NumPypandasMatplotlibNLTK下列选项中,用于查看当前环境下所有包信息的命令是()。conda--versioncondalistcondainstalljiebacondaupdate--all简答题什么是数据分析?请简述数据分析的基本流程。第2章科学计算库NumPy填空题在NumPy中,可以使用数组对象________执行一些科学计算。如果ndarray.ndim执行的结果为2,则表示创建的是_____维数组。NumPy中________是由一个类型名和元素位长的数字组成。如果两个数组的形状不同,则它们进行算术运算时可能会触发________机制。NumPy中________是指用整数数组或整数列表作为数组的索引。判断题通过empty()函数创建的数组,该数组中没有任何的元素。()若使用ones()函数创建数组时没有明确地指明元素的数据类型,则默认数据类型为float64。()数组之间的任何算术运算都会将运算应用到数组的每个元素上。()NumPy中,可以混合使用切片与整数索引来获取二维数组的元素。()当通过布尔索引操作数组时,返回的数据是布尔数组中False对应位置的值。()选择题下列选项中,用来表示数组维度元组的属性是()。ndimshapesizedtype下面选项中,创建的是3行3列数组的是()。arr=np.array([1,2,3])arr=np.array([[1,2,3],[4,5,6]])arr=np.array([[1,2],[3,4]])np.ones((3,3))请阅读下面一段程序:arr_2d=np.array([[11,20,13],[14,25,16],[27,18,9]])print(arr_2d[1,:1])执行上述程序后,最终输出的结果为()。[14][25][14,25][20,25]请阅读下面一段程序:arr=np.arange(6).reshape(1,2,3)print(arr.transpose(2,0,1))执行上述程序后,最终输出的结果为()。[[[25]][[03]][[14]]][[[14]][[03]][[25]]][[[03]][[14]][[25]]][[[0][3]][[1][4]][[2][5]]]下列选项中,用于表示矢量化三元表达式的是()。where()cumsum()sort()unique()简答题简述NumPy数组的轴。简述广播机制需要满足哪些条件。编程题创建一个数组,数组的shape为(5,0),元素都是0。创建一个表示国际象棋棋盘的8*8数组,其中,棋盘白格用0填充,棋盘黑格用1填充。数据分析库pandas基础填空题pandas中主要有Series和两种数据结构。Series结构由和组成。采用行列的形式组织数据。函数用于从CSV或TXT文件中读取数据。是在一个轴方向上具有两层或两层以上的索引。判断题DataFrame的每列数据可以看作一个Series类的对象。()使用describe()方法会输出多个统计指标。()from_arrays()方法是将元组列表转换为MultiIndex类的对象。()read_csv()和read_table()函数没有任何区别,可以随意替换使用。()Series类的对象不能有分层索引。()选择题下列关于Series和DataFrame的描述,错误的是()。Series是一维的数据结构DataFrame是二维的数据结构Series既有行索引又有列索引Series和DataFrame都可以重置索引下列关于索引对象的描述错误的是()。位置索引或标签索引都属于Index类的对象索引对象一旦创建是不可以被修改的索引对象的值是可以重复的Series和DataFrame默认的索引是位置索引下列方法中,用于根据元组创建MultiIndex类对象的是()。from_tuples()from_arrays()from_product()from_list()下列选项中,哪个方法可以一次性输出DataFrame类对象的的多个统计指标?()describe()mean()median()sum()请阅读下面一段程序:importpandasaspdser_obj=pd.Series(range(1,6),index=[5,3,0,4,2])ser_obj.sort_index()执行上述程序后,最终输出的结果为()。5132034425032532445151443225032544033251简答题简述Series和DataFrame的特点。简述分层索引。编程题现有如下图所示的数据,请根据这些数据进行以下操作:根据上图的结构创建一个DataFrame类的对象。以B列为准,降序排列DataFrame类对象的数据。将排序后的数据写入到write_data.csv文件。数据预处理填空题pandas中缺失值一般使用None或np.nan表示,统一标记为________。________指的是沿着某个轴的方向将两个或两个以上的对象按照一定的逻辑关系进行合并。________又称虚拟变量,用来反映某个变量的不同类别。________是指数据集中的个别值明显偏离它所属数据集的其余值。________()方法用于将DataFrame的列索引旋转为行索引。判断题使用dropna()方法可以删除缺失值。()3σ原则只适用于符合或近似正态分布的数据集。()使用to_numeric()函数转换字符串时一定会导致程序报错。()当使用stack()方法将有分层索引的DataFrame进行重塑操作后,一定会返回一个Series类的对象。()当使用merge()函数合并对象时,不需要指定合并键。()选择题下列选项中,描述错误的是。()数据清洗的目的是提高数据的质量异常值被检测出来无需确认可以直接删除使用drop_duplicates()方法可以删除重复值concat()函数可以沿着一条轴将多个对象进行堆叠合并请阅读下面一段程序:frompandasimportSeriesimportpandasaspdfromnumpyimportNaNseries_obj=Series([None,4,NaN])pd.isnull(series_obj)执行上述程序后,最终输出的结果为()。0True1False2True0True1True2False0False1True2True0True1True2True下列选项中,可以删除缺失值的是()。isnull()notnull()dropna()fillna()下列选项中,描述错误是()。concat()函数可以沿着一条轴将多个对象进行堆叠merge()函数可以根据一个或多个键将不同DataFrame进行合并使用rename()方法对索引进行重命名操作unstack()方法可以将对象的列索引旋转为行索引请阅读下面一段程序:importnumpyasnpimportpandasaspdser_obj=pd.Series([4,np.nan,6,5,-3,2])ser_obj.sort_values()执行上述程序后,最终输出的结果为()。4-3.052.004.035.026.01NaN1NaN26.035.004.052.04-3.052.004.035.026.04-3.01NaN04.01NaN26.035.04-3.052.0简答题简述异常值。简述数据合并的几种方式。编程题现有如下面所示的两组数据A和B,其中A组中B列数据存在缺失值,并且该列数据为int类型,B组中的数据均为str类型。请按照要求操作图中的数据,具体要求如下:根据A组和B组的结构分布创建两个DataFrame类的对象。使用B组的数据填充A组的缺失值,并保持数据类型一致。将合并后的结果中A组的索引key重命名为D。数据聚合与分组运算填空题分组与聚合的基本过程分别是、应用和合并。在groupby()方法中,参数决定了按照什么样的标准对数据进行分组。GroupBy对象是一个对象。使用GroupBy对象的属性可以查看分组的具体信息。当对DataFrame对象进行分组后会返回一个对象。判断题分组应用的函数只能是用户自定义的函数。()使用print()函数可以直接查看GroupBy对象的具体信息。()使用agg()方法进行聚合运算会对产生的标量值进行广播。()使用transform()方法聚合后产生的结果与原对象的形状可以相同。()apply()方法不能实现聚合功能。()选择题下列关于groupby()方法的说法,错误的是()。分组键可以是列表或数组,但长度不需要与待分组轴的长度相同可以根据DataFrame类对象的列标签进行分组可以根据函数进行分组可以根据Series或字典进行分组下列关于agg()方法的描述,错误的是()。agg()方法中func参数只能传入一个函数agg()方法中func参数可以传入多个函数agg()方法中func参数可以传入自定义函数agg()方法不能对聚合后产生的标量值进行广播下列关于transform()方法的说法,正确的是()。不会与原对象保持相同形状会对产生的标量值进行广播操作func参数只能接收内置函数func参数可以接收多个内置函数下列关于apply()的说法,错误的是()。可以接收用户自定义的函数可以接收多个函数可以实现聚合功能返回的结果一定与原对象的形状相同请阅读下面一段程序:importpandasaspdpd.DataFrame([[2,3],]*3,columns=['A','B']).apply(lambdax:x+1)执行上述程序后,最终输出的结果为()。AB032132232AB023123223AB034134234AB043143243简答题简述分组聚合的流程。简述常用的分组方式。编程题现有如上图所示的学生信息,请根据图中的学生信息完成以下操作:根据学生信息表的结构创建一个DataFrame类的对象。根据年级一列对DataFrame类对象的数据进行分组,并输出大一学生的分组信息。分别找出大一到大四这四个年级中身高最高的同学。计算大一学生与大三学生的平均体重。数据可视化填空题由一系列高度不等的矩形条或线段组成,用于反映数据的分布和波动情况。箱形图利用最小值、第一四分位数、、第三四分位数和最大值这几个统计量描述一组数据。Matplotlib的模块封装了快速绘制图表的函数。二维直方图主要用于显示落在六边形区域内的观察值的计数。是一个用于生成Echarts图表的开源库。判断题Seaborn是基于Matplotlib的绘图库。()直方图与柱形图没有任何区别。()饼图在识别异常值方面有一定的优越性。()Matplotlib默认支持中文显示。()Matplotlib不能绘制2D图表。()选择题在Matplotlib中,用于展示图表的函数是()。plot()bar()hist()show()下列选项中,关于Pyecharts库的描述正确的是()。Pyecharts库生成图表不能与用户交互Pyecharts库无需安装便可以直接使用Pyecharts库是基于Seaborn进行封装的Pyecharts库可以绘制柱形图下列选项中,说法错误的是。()distplot()函数用于绘制直方图和核密度估计曲线distplot()函数默认不使用密度观察条stripplot()函数用于绘制直方图swarmplot()函数用于绘制数据点不重叠的散点图在Matplotlib中,用于给图表添加标题的函数是()。xlabel()title()legend()text()下列选项中,关于图表的描述错误的是()。气泡图用于展示三个变量之间的关系核密度曲线图通过线段的倾斜程度显示数据的变化情况饼图显示一个数据序列中的各项的大小与各项总和的比例柱形图使用矩形条的高度反映不同分类数据之间的差异情况简答题简述图表有哪些辅助元素以及这些元素的作用。列举6种图表类型,并简要描述这些图表的特点。编程题现有如上图所示的汽车搜索指数信息,请按要求完成以下操作:根据汽车搜索指数信息创建一个DataFrame类的对象。以汽车品牌为x轴,热搜指数为y轴,使用Matplotlib库绘制一张柱形图。给y轴添加标签,标签名称为“热搜指数”。给图表添加标题,标题名称为“不同品牌汽车的热搜指数”。在柱形上方添加注释文本,文本的内容是热搜指数的值。时间序列分析填空题________是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列。________是指带时区的特定的日期时间。pandas中的频率是由________和倍数组成的。________是指将时间序列从一个频率转换到另一个频率的处理过程。在pandas中,使用________类表示一个标准的时期。判断题最基本的时间序列是以时间戳为索引的对象。()如果相同频率的两个Period对象进行数学运算,那么计算结果为它们的单位数量。()任何类型的pandas对象都可以进行重采样。()DatetimeIndex是由一组时间戳组成的索引。()降采样时可能会导致一些时间戳没有对应的数据。()选择题下列选项中,不能用作pandas对象索引的是()。PeriodDatetimeIndexPeriodIndexMultiIndex请阅读下面一段程序:importpandasaspdperiod1=pd.Period('2015/6/1')print(period1+50)执行上述程序,最终输出的结果为()。2015-07-182015-07-192015-07-202015-07-21请阅读下面一段程序:importpandasaspdimportnumpyasnpdate_index=pd.date_range(start="2018/08/10",periods=5)date_se=pd.Series(np.arange(5),index=date_index)sorted_se=date_se.sort_index()print(sorted_se.truncate(after='2018-8-11'))执行上述程序,最终输出的结果为()。2018-08-1222018-08-1332018-08-1222018-08-1332018-08-1442018-08-1002018-08-1112018-08-1222018-08-1002018-08-111下列函数中,创建DatetimeIndex对象有固定频率的是()。shift()date_range()period_range()asfreq()关于重采样的说法中,下列描述错误的是()。重采样是将时间序列从一个频率转到另一个频率升采样的时间颗粒是变小的时间序列数据在降采样时,总体的数据量是增加的时间序列数据在降采样时,总体的数据量是减少的简答题简述时间戳、时间差和时期。简述降采样和升采样。程序分析题阅读下面的程序,分析代码是否能够编译通过。如果能编译成功,请列出运行的结果,否则请说明编译失败的原因。代码一:importpandasaspddate_index=pd.date_range('2018/08/10')ser_obj=pd.Series(11,date_index)print(ser_obj)代码二:importpandasaspdperiod1=pd.Period('2017/1')period2=pd.Period('2017/6')print(period2-period1)代码三:date_index=pd.date_range('2018/09/10','2018/09/13')ser_obj=pd.Series(11,date_index)ser_obj['2018\09\12']文本数据分析填空题词形归一化包括词干提取和________,它们会将派生词转化为基本形式。________是指为单词标注一个正确的词性。________是在处理自然语言文本之前或之后会自动过滤掉的没有具体意义的字或词。________是一套基于Python的自然语言处理工具包。jieba库支持________模式、全模式、搜索引擎模式共三种分词模式。判断题在对文本数据进行分析之前不需要进行任何处理。()文本分词的目的在于使用单词来表示文本特征。()停用词表中可以随意添加任何词。()词干提取和词性还原的作用完全相同。()jieba库只能用于中文分词。()选择题下列选项中,关于NLTK库的描述错误的是()。NLTK擅长处理英文文本NLTK包括分词、词性标注、命名实体识别及句法分析等功能NLTK是一个免费的、开源的库NLTK库安装完成后会自动下载语料库下列选项中,属于英文文本预处理流程的是()。(多选)分词词性标注词性归一化删除停用词下列选项中,不属于jieba库支持的分词模式的是()。精确模式全模式搜索引擎模式繁体分词模式请阅读下面一段程序:fromnltk.corpusimportstopwordsimportnltksentence='Lifeisshort,youneedPython.'words=nltk.word_tokenize(sentence)stop_words=stopwords.words('english')remain_words=[]forwordinwords: ifwordnotinstop_words: remain_words.append(word)print(remain_words)执行上述程序,最终输出的结果为()。['Life','short',',','need','Python','.']['Life','short','need','Python',]['Life','is','short',',','need','Python','.']['Life','s

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论