Python数据分析与应用从数据获取到可视化配套资源课后习题及答案

上传人：咫*** IP属地：北京上传时间：2023-05-27 格式：DOCX 页数：43 大小：91.06KB 积分：30 举报 版权申诉

已阅读5页，还剩38页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第1章习题填空题目标在于将隐藏在一大批看似杂乱无章数据信息集中提炼出来有用数据。中包含了conda、Python在内超出180个科学包及其依赖项。JupyterNotebook是一个支持代码、数学方程、可视化和MarkdownWeb应用程序。判断题数据分析是一个有目标地搜集和整合数据过程。（）Python是一门胶水语言，能够轻松地操作其它语言编写库。（）假如要卸载指定环境中包，则直接使用remove命令移除即可。（）选择题以下选项中，用于搭接数据仓库和确保数据质量是（）。数据搜集数据处理数据分析数据展现关于Anaconda说法中，以下描述错误是（）。Anaconda是一个能够对包和环境进行统一管理发行版本。Anaconda包含了conda、Python在内超出180个科学包及其依赖项Anaconda是完全开源、付费Anaconda防止了单独安装包时需要配置或兼容等各种问题关于Anaconda组件中，能够编辑文档且展示数据分析过程是（）。AnacondaNavigatorAnacondaPromptSpyderJupyterNotebook下面列出数据分析库中，用于绘制数组2D图形是（）。NumPyPandasMatplotlibNLTK简答题什么是数据分析？请简述数据分析基本过程。Python做数据分析有哪些优势？第2章习题填空题在NumPy中，能够使用数组对象________执行一些科学计算。假如ndarray.ndim执行结果为2，则表示创建是_____维数组。NumPy数据类型是由一个类型名和元素________数字组成。假如两个数组大小（ndarray.shape）不一样，则它们进行算术运算时会出现________机制。花式索引是NumPy一个术语，是指用整数________进行索引。判断题经过empty()函数创建数组，该数组中没有任何元素。（）假如没有明确地指明数组中元素类型，则默认为float64。（）数组之间任何算术运算都会将运算应用到元素级。（）多维数组操作索引时，能够将切片与整数索引混合使用。（）当经过布尔数组索引操作数组时，返回数据是布尔数组中False对应位置值。（）选择题以下选项中，用来表示数组维度属性是（）。ndimshapesizedtype下面代码中，创建是一个3行3列数组是（）。arr=np.array([1,2,3])arr=np.array([[1,2,3],[4,5,6]])arr=np.array([[1,2],[3,4]])np.ones((3,3))请阅读下面一段程序：arr_2d=np.array([[11,20,13],[14,25,16],[27,18,9]])print(arr_2d[1,:1])执行上述程序后，最终输出结果为（）。[14][25][14,25][20,25]请阅读下面一段程序：arr=np.arange(6).reshape(1,2,3)print(arr.transpose(2,0,1))执行上述程序后，最终输出结果为（）。[[[25]][[03]][[14]]][[[14]][[03]][[25]]][[[03]][[14]][[25]]][[[0][3]][[1][4]][[2][5]]]以下函数或方法中，用来表示矢量化三元表示式是（）。where()cumsum()sort()unique()简答题什么是矢量化运算？实现数组广播机制需要满足哪些条件？程序题创建一个数组，数组shape为(5,0)，元素都是0。创建一个表示国际象棋棋盘8*8数组，其中，棋盘白格用0填充，棋盘黑格用1填充。第3章习题填空题Pandas是一个基于Python库。Pandas中有两个主要数据结构分别为和。Series结构由和组成。能够使用和创建一个Series对象。数据排序能够分为和。判断题在DataFrame中每列数据都能够看做是一个Series对象。（）使用describe()方法会输出多个统计指标。（）from_arrays()方法是将元组列表转换为MultiIndex对象。（）read_csv()函数和read_table()函数没有区分能够随意替换使用。（）Series对象不存在层次化索引。（）选择题以下选项中，描述不正确是（）。Pandas中只有Series和DataFrame这两种数据结构Series是一维数据结构DataFrame是二维数据结构Series和DataFrame都能够重置索引以下选项中，描述正确是（）。Series是一维数据结构，其索引在右，数据在左DataFrame是二维数据结构，而且该结构具备行索引和列索引Series结构中数据不能够进行算术运算sort_values()方法能够将Series或DataFrame中数据按照索引排序以下方法中，能够将元组转换为MultiIndex对象是（）。from_tuples()from_arrays()from_product()from_list()以下选项中，哪个方法能够一次性输出多个统计指标（）。describe()mean()median()sum()请阅读下面一段程序： importpandasaspd ser_obj=pd.Series(range(1,6),index=[5,3,0,4,2]) ser_obj.sort_index()执行上述程序后，最终输出结果为（）。5132034425032532445151443225032544033251简答题简述Series和DataFrame特点。简述什么是层次化索引。程序题现有以下列图所表示数据，请对该数据进行以下操作：使用DataFrame创建该数据。将图中B列数据进行按降序排序。将排序后数据写入到csv文件，并命名为write_data.csv。第4章习题填空题数据清洗目标是让数据具备、、、、、等特点。产生缺失值或空值原因有和。stack()方法能够将转换为。concat()函数堆叠方式有和，连接方式有和。拉依达标准在检测异常值时必须确保数据恪守。判断题rename()方法能够重命名索引名。（）drop_duplicated()方法能够删除重复值。（）在箱形图中超出上界和下界值称为异常值。（）当一个具备多层次索引DataFrame对象经过stack()后，会返回一个Series对象。（）在使用merge()函数进行合并时，不需要指定合并键。（）选择题以下选项中，描述不正确是。（）数据清洗目标是为了提升数据质量异常值一定要删除可使用drop_duplicates()方法删除重复数据concat()函数能够沿着一条轴将多个对象进行堆叠请阅读下面一段程序：frompandasimportSeriesimportpandasaspdfromnumpyimportNaNseries_obj=Series([None,4,NaN])pd.isnull(series_obj)执行上述程序后，最终输出结果为（）。0True1False2True0True1True2False0False1True2True0True1True2True以下选项中，能够删除缺失值或空值是。（）isnull()notnull()dropna()fillna()以下选项中，描述不正确是。（）concat()函数能够沿着一条轴将多个对象进行堆叠merge()函数能够依照一个或多个键将不一样DataFrame进行合并能够使用rename()方法对索引进行重命名操作unstack()方法能够将列索引旋转为行索引请阅读下面一段程序： importnumpyasnp importpandasaspd ser_obj=pd.Series([4,np.nan,6,5,-3,2]) ser_obj.sort_values()执行上述程序后，最终输出结果为（）。4-3.052.004.035.026.01NaN1NaN26.035.004.052.04-3.052.004.035.026.04-3.01NaN04.01NaN26.035.04-3.052.0简答题请简述数据预处理惯用操作。惯用数据合并操作有哪些？程序题现有以下列图所表示两组数据，其中A组中B列数据存在缺失值，而且该列数据为int类型，B组中数据均为str类型。接下来，请对这些数据进行以下操作：使用DataFrame创建这两组数据。现在需要使用B组中数据对A组中缺失值进行填充并保持数据类型一致。将合并后A组中索引名为key索引重命名为D。第5章习题填空题分组聚合流程分为、、。分组键形式能够有、、、。transform()方法会对产生标量值进行操作。当对一个DataFrame对象进行分组后会返回一个对象。判断题分组聚合原理通常分为拆分-应用-合并。（）只要使用groupby()方法分组就会产生一个DataFrameGroupby对象。（）使用agg()方法进行聚合运算会对产生标量值进行广播。（）使用transform()方法进行聚合运算，其结果能够保持与原数据形状相同。（）apply()方法能够使用广播功效。（）选择题以下选项中，关于groupby()方法说法不正确是。（）分组键能够是列表或数组，但长度不需要与待分组轴长度相同能够经过DataFrame中列名值进行分组能够使用函数进行分组可使用series或字典分组以下选项中，关于agg()方法使用不正确是。（）agg()方法中func参数只能传入一个函数agg()方法中func参数能够传入多个函数agg()方法中func参数能够传入自定义函数agg()方法不能对产生标量值进行广播以下选项中，关于transform()方法说法正确是。（）不会与原数据保持相同形状会对产生标量值进行广播操作func参数只能传入内置函数func参数能够传入多个内置函数以下选项中，关于apply()说法不正确是。（）能够使用自定义函数能够接收多个函数能够使用广播功效返回结果一定与原数据形状相同请阅读下面一段程序： importpandasaspd (pd.DataFrame([[2,3],]*3,columns=['A','B'])).apply(lambdax:x+1)执行上述程序后，最终输出结果为（）。AB032132232AB023123223AB034134234AB043143243简答题请简述分组聚合流程。请简述惯用分组方式。程序题现有以下列图所表示学生信息，请依照图中信息完成以下操作：依照年级信息为分组键，对学生信息进行分组，并输出大一学生信息。分别计算出四个年级中身高最高同学。计算大一学生与大三学生平均体重。第6章习题填空题bokeh是针对使用交互式可视化库。数据可视化常见统计图表有、、。（写出3个即可）在使用Matplotlib绘制图表时，需要导入模块。在直方图中通常使用横轴表示，用纵轴表示。在使用Matplotlib绘制柱状图时能够使用pyplot模块中函数。判断题seaborn是基于Matplotlib关键库。（）Figure对象能够划分多个绘图区域，每个绘图区域都是一个Axes对象。（）绘制图表时，能够使用subplot()函数创建多个子图。（）Matplotlib默认支持汉字显示。（）Matplotlib生成图表能够保留在当地。（）选择题以下选项中，关于Matplotlib库说法不正确是。（）Matplotlib是一个Python3D绘图库可输出PNG、PDF等格式渐进、交互方式实现数据可视化使用简单以下选项中，不属于Seaborn库特点是。（）Seaborn是基于Matplotlib可视化库基于网格绘制出愈加复杂图像集合多个内置主题及颜色主题能够处理大量数据流以下选项中，关于boken库说法不正确是。（）boken是一个专门针对Web浏览器使用交互式可视化库Plotting接口用于构建各种组装图形元素Models接口能够为开发者提供最大灵活性Charts库可直接使用，不需要单独安装以下函数中，能够绘制散点图函数是。（）hist()scatter()bar()pie()以下选项中，描述不正确是。（）箱形图能够提供关于数据分散情况信息，能够很直观地查看数据四分位分布折线图是用直线段将数据连接起来而组成图形，以折线方式显式数据改变饼图显示一个数据序列中各项大小与各项总和百分比条形图是由一系列高度不等纵向条纹或线段表示数据分布情况程序题现有如图6-40所表示股票数据，依照图中数据，完成以下需求：股票数据使用DataFrame创建该股票数据。以证券简称为x轴，最新价为y轴使用条形图展示，将生成条形图图以shares_bar.png为文件名保留在桌面上。第7章习题填空题________是指多个时间点上形成数值序列。ARIMA模型是一个用于时间序列________常见统计模型。Pandas中频率是由一个________和一个乘数组成，比如7D。________是指将时间序列从一个频率转换到另一个频率处理过程。在Pandas中，使用________类表示一个标准时间段或时期。判断题最基本时间序列类型是以时间戳为索引Series对象。（）假如相同频率两个Period对象进行数学运算，那么计算结果为它们单位数量。（）任何类型Pandas对象都能够进行重采样。（）DatetimeIndex是一个用来指代一系列时间戳索引结构。（）降采样时可能会造成一些时间戳没有对应数据。（）选择题以下选项中，不能够用做Pandas对象索引是（）。PeriodDatetimeIndexPeriodIndexMultiIndex请阅读下面一段程序：importpandasaspdperiod1=pd.Period('/6/1')print(period1+50)执行上述程序，最终输出结果为（）。-07-18-07-19-07-20-07-21请阅读下面一段程序：importpandasaspdimportnumpyasnpdate_index=pd.date_range(start="/08/10",periods=5)date_se=pd.Series(np.arange(5),index=date_index)sorted_se=date_se.sort_index()print(sorted_se.truncate(after='-8-11'))执行上述程序，最终输出结果为（）。-08-122-08-133-08-122-08-133-08-144-08-100-08-111-08-122-08-100-08-111以下函数中，用于创建固定频率DatetimeIndex对象是（）。shift()date_range()period_range()asfreq()关于重采样说法中，以下描述错误是（）。重采样是将时间序列从一个频率转到另一个频率升采样时间颗粒是变小时间序列数据在降采样时，总体数据量是增加时间序列数据在降采样时，总体数据量是降低简答题时间序列数据有哪几个？什么是降采样？什么是升采样？程序分析题阅读下面程序，分析代码是否能够编译经过。假如能编译成功，请列出运行结果，不然请说明编译失败原因。代码一：importpandasaspddate_index=pd.date_range('/08/10')ser_obj=pd.Series(11,date_index)print(ser_obj)代码二：importpandasaspdperiod1=pd.Period('/1')period2=pd.Period('/6')print(period2-period1)代码三：date_index=pd.date_range('/09/10','/09/13')ser_obj=pd.Series(11,date_index)ser_obj['\09\12']第8章习题填空题常见情感极性分析方法主要有和方法。文本相同度检测是依照公式进行检测。余弦相同度与向量幅值，与向量方向。文本分类属于机器学习。文本分类步骤包含、、、。判断题导入文本数据不需要任何处理就能够进行分析。（）文本分词目标在于使用单词来表示文本特征。（）能够在停用词表中随意添加停用词。（）词干提取和词性还原目标是相同。（）jieba分词只能用于汉字分词。（）选择题以下选项中，关于nltk库描述不正确是（）。nltk擅优点理英文文本nltk包含分词、词性标注、命名实体识别及句法分析等nltk是一个无偿、开源、小区驱动项目nltk库只能处理英文文本依照汉字特点以下不属于分词算法是（）。基于规则分词方法基于统计分词方法基于了解分词方法基于动态分词方法以下选项中，不属于jieba分词模式（）。支持精准模式支持全模式支持搜索引擎模式支持繁体分词模式阅读下面一段程序： fromnltk.corpusimportstopwords importnltk sentence='Lifeisshort,youneedPython.' words=nltk.word_tokenize(sentence) stop_words=stopwords.words('english') remain_words=[] forwordinwords: ifwordnotinstop_words: remain_words.append(word) print(remain_words)执行上述程序，最终输出结果为（）。['Life','short',',','need','Python','.']['Life','short','need','Python',]['Life','is','short',',','need','Python','.']['Life','short',',','you','need','Python','.']阅读下面一段程序： importjieba sentence='人生苦短，我用Pyhton' terms_list=jieba.cut(sentence,cut_all=True) print(''.join(terms_list))执行上述程序，最终输出结果为（）。人生苦短我用Pyhton人生苦短我用Pyhton人生苦短我用Pyhton人生苦短我用Pyhton简答题什么是文本分析？请简述惯用文本情感分析方法。请简述检测文本相同度流程。

课后习题答案第1章填空题数据分析Anaconda实时判断题错对错选择题BCDC简答题数据分析是指，用适当统计分析方法对搜集来大量数据进行分析，从中提取有用信息和形成结论，并加以详细研究和概括总结过程。明确目标和思绪、数据搜集、数据处理、数据分析、数据展现。（1）语法简单精炼，适合初学者入门；（2）拥有一个巨大且活跃科学计算小区；（3）拥有强大通用编程能力；（4）人工智能时代通用语言；（5）方便对接其它语言。第2章填空题ndarray二维位长广播数组或列表判断题错对对对错选择题BDACA简答题答案：NumPy数组不需要循环遍历，即可对每个元素执行批量算术运算操作，这个过程叫做矢量化运算。答案：两个数组某一维度等长，或其中一个数组为一维数组。程序题答案：importnumpyasnparr=np.zeros(5)print(arr)答案：importnumpyasnparr=np.zeros((8,8),dtype=int)arr[1::2,::2]=1arr[::2,1::2]=1print(arr)第3章填空题NumpySeriesDataFrame索引数据列表字典按置排序按索引排序判断题对对错错错选择题ABAAB简答题Series是一个类似于一维数组对象，它能够保留任何类型数据，主要由一组数据和与之相关索引两部分组成。DataFrame是一个类似于二维数组对象，它每列数据能够是不一样数据类型。DataFrame结构也是由索引和数据组成，而且DataFrame索引有行索引和列索引。层次化索引是在单层索引基础上进行延伸，它能够在一个轴上存在多层索引，而且能够以低纬度形式表示高维度数据。程序题答案： importnumpyasnp importpandasaspd df_data=np.array([[1,5,8,8],[2,2,4,9], [7,4,2,3],[3,0,5,2]])#创建数组 col_data=np.array(['A','B','C','D'])#创建数组 #基于数组创建DataFrame对象 df_obj=pd.DataFrame(columns=col_data,data=df_data) df_obj答案： sort_values_data=df_obj.sort_values(by=['B'],ascending=False) sort_values_data答案： sort_values_data.to_csv(r'E:\数据分析\write_data.csv') '写入完成'第4章填空题完整性唯一性权威性正当性一致性人为原因机械原因列索引行索引横向堆叠纵向堆叠内连接外连接正态分布判断题对错对错错选择题BACDA简答题在数据预处理过程中会依照数据实际情况选择适宜处理方法，惯用预处理操作有数据清洗、数据合并、数据重塑、数据转换等，在这几个操作中又分别含有不一样数据处理方法，比如在数据清洗过程中含有空值和缺失检测、重复值处理、异常值处理等。在Pandas中惯用数据合并操作有：concat()函数表示沿着一条轴将多个对象进行堆叠、merge()函数表示依照一个或多个键将不一样对象进行合并、join()方法表示依照索引或指定列来合并数据、combine_first()方法表示填充合并数据。程序题答案： importpandasaspdimportnumpyasnpgroup_a=pd.DataFrame({'A':[2,3,5,2,3],'B':['5',np.nan,'2','3','6'],'C':[8,7,50,8,2],'key':[3,4,5,2,5]})group_b=pd.DataFrame({'A':[3,3,3],'B':[4,4,4],'C':[5,5,5]})print(group_a)print(group_b)答案： group_a=group_bine_first(group_b) group_a答案： group_a.rename(columns={'key':'D'})第5章填空题拆分应用合并列表或数组DataFrame对象某列名称字典或Series对象函数广播DataFrameGroupBy判断题对错错对对选择题AABCD简答题分组聚合流程通常为拆分、应用、合并。拆分是将数据集按照一定规则分成若干组；应用是对这些分组数据进行一系列操作过程；合并是将这些执行操作后结果进行整合。惯用分组方式主要有4种，分别为：列表或数组，列表或数组长度需要与带分组轴长度一致、DataFrame中某列名称、字典或Series对象、函数。程序题答案： importpandasaspdstudnets_data=pd.DataFrame({'年级':['大一','大二','大三','大四','大二','大三','大一','大三','大四'],'姓名':['李宏卓','李思真','张振海','赵鸿飞','白蓉','马腾飞','张晓凡','金紫萱','金烨'],'年纪':[18,19,20,21,19,20,18,20,21],'身高':[175,165,178,175,160,180,167,170,185],'体重':[65,60,70,76,55,70,52,53,73]})data=studnets_data.groupby('年级')Freshman=dict([xforxindata])['大一']print(Freshman)答案：data=data.apply(max)deldata['年级']print(data)答案：Junior=dict([xforxindata])['大三']print(Freshman['体重'].apply('mean'))print(Junior['体重'].apply('mean'))第6章填空题浏览器直方图饼图折线图pyplot数据类型分布情况bar判断题对对错错对选择题ADDBD程序题答案： importpandasaspdstock_data=pd.DataFrame({'证券代码':['000609','000993','002615','000795','002766','000971','000633','300173','300279','000831'],'证券简称':['中迪投资','闽东电力','哈尔斯','英洛华','索菱股份','高升控股','

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

Python数据分析与应用从数据获取到可视化配套资源课后习题及答案

文档简介

温馨提示

最新文档

评论

Python数据分析与应用从数据获取到可视化配套资源课后习题及答案

文档简介

温馨提示

最新文档

评论

相关文档