版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第1章数据分析概述填空题描述性分析Anaconda实时MarkdownNumPy判断题×√√√×选择题BBACB简答题数据分析是指使用适当的\t"/item/%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90/_blank"统计分析方法对收集到的大量数据进行分析,从这些数据中提取有用信息和形成结论,并加以详细研究和概括总结的过程。数据分析大致分为五个阶段,分别是明确目的和思路、数据收集、数据处理、数据分析、数据展现。第2章科学计算库NumPy一、填空题ndarray。二数据类型广播花式索引二、判断题×√√√×三、选择题BDACA四、简答题轴其实就代表维度。数组的维度不同,它对应的轴的数量也不同。一维数组只有一个轴,轴的编号为0;二维数组有沿行方向和列方向的两个轴,其中沿行方向的轴编号为0,沿列方向的轴编号为1;三维数组有沿着行、列方向,以及由行列组成的平面的三个轴,这三个轴的编号分别为0、1、2。数组的形状是否兼容。以两个数组为例,这两个数组的形状右对齐,之后沿着从右向左的顺序逐个比较同一纬度是否满足任意一种情况:(1)维度相等;有一方维度为1。如果数组形状的每个维度都满足上述任意一种情况,说明两个数组的形状兼容,可以直接进行算术运算。五、编程题答案:importnumpyasnparr=np.zeros(5)print(arr)答案:importnumpyasnparr=np.zeros((8,8),dtype=int)arr[1::2,::2]=1arr[::2,1::2]=1print(arr)数据分析库pandas基础填空题DataFrame索引,数据DataFrameread_csv()分层索引判断题√√×××选择题CDAAB简答题Series是类似于一维数组的数据结构,主要由一组数据和与之相关的索引两部分组成,其中数据可以是任意类型的;DataFrame是一个类似于二维数组或表格的数据结构,它由索引和数据两部分组成,既有行索引又有列索引,每列数据可以是不同的数据类型。分层索引可以理解为单层索引的延伸,即在一个轴方向上具有两层或两层以上的索引。编程题答案:(1)importnumpyasnpimportpandasaspddf_data=np.array([[1,5,8,8],[2,2,4,9],[7,4,2,3],[3,0,5,2]])col_data=np.array(['A','B','C','D'])df_obj=pd.DataFrame(columns=col_data,data=df_data)df_obj(2)sort_values_data=df_obj.sort_values(by=['B'],ascending=False)sort_values_data(3)sort_values_data.to_csv(r'write_data.csv')print('写入完毕')数据预处理填空题NaN堆叠合并哑变量异常值pivot()判断题√√×××选择题BACDA简答题异常值是指数据集中的个别值明显偏离它所属数据集的其余值,这些数值是不合理的或错误的。pandas中提供了几种数据合并的方式,分别是堆叠合并、主键合并、根据索引合并、合并重叠数据。编程题答案:(1)importpandasaspdimportnumpyasnpgroup_a=pd.DataFrame({'A':[2,3,5,2,3],'B':['5',np.nan,'2','3','6'],'C':[8,7,50,8,2],'key':[3,4,5,2,5]})group_b=pd.DataFrame({'A':[3,3,3],'B':[4,4,4],'C':[5,5,5]})print(group_a)print(group_b)(2)group_a=group_bine_first(group_b)group_a(3)group_a.rename(columns={'key':'D'})数据聚合与分组运算填空题拆分by可迭代groupsDataFrameBy判断题×××√×选择题AABDC简答题分组与聚合主要根据一定的拆分标准将原数据拆分成若干个分组,然后对每个分组应用统计运算,并把运算后的结果合并到一起。按照列标签分组、按照Series类的对象分组、按照字典分组、按照函数分组。编程题答案:(1)importpandasaspdstudnets_data=pd.DataFrame({'年级':['大一','大二','大三','大四','大二','大三','大一','大三','大四'],'姓名':['李宏卓','李思真','张振海','赵鸿飞','白蓉','马腾飞','张晓凡','金紫萱','金烨'],'年龄':[18,19,20,21,19,20,18,20,21],'身高':[175,165,178,175,160,180,167,170,185],'体重':[65,60,70,76,55,70,52,53,73]})studnets_data(2)group_data=studnets_data.groupby('年级')freshman=group_data.get_group('大一')freshman(3)new_data=group_data.apply(max)delnew_data['年级']new_data(4)junior=dict([xforxingroup_data])['大三']print(freshman['体重'].apply('mean'))print(junior['体重'].apply('mean'))数据可视化填空题直方图中位数pyplot六边形Pyecharts判断题√××××选择题DDCBB简答题答案:图表常用的辅助元素包括坐标轴、标题、图例、网格、参考线、参考区域、注释文本,其中坐标轴是用于界定图表绘图区的一组直线,用作度量的参照框架;标题是图表的说明性文本,用于描述图表的大致内容;图例是集中在图表一角或一侧的方框,主要作用是标识为图表中的数据系列或分类指定的图案或颜色;网格是从坐标轴的刻度线开始、贯穿绘图区域的若干条线,作为估算图形所示值的标准;参考线是标记坐标轴上特殊值的一条直线;参考区域是标记坐标轴上特殊范围的一块区域;注释文本表示对图形的一些注释和说明。答案:(1)直方图,由一系列高度不等的矩形条或线段组成,用于反映数据的分布和波动情况。(2)折线图是用直线段将各数据点连接起来而组成的图形,以线条的方式显示数据的变化趋势。(3)柱形图是由一系列宽度相等的纵向矩形条组成的图表,它使用矩形条的高度表示数据的多少,以此反映不同分类数据之间的差异。(4)饼图是一种用于了解数据中各分类占比情况的图表,它使用圆表示数据的总量,组成圆的扇面表示数据各项占总量的比例大小。(5)散点图是由若干组数据点组成的图表,主要用于判断两变量之间是否存在某种关联,或者总结数据点的分布模式。(6)箱形图是利用数据中的5个统计量——最小值、第一四分位数、中位数、第三四分位数和最大值——描述数据的一种图表,主要用于反映一组或多组数据的对称性、分布程度等信息。编程题答案:importmatplotlib.pyplotaspltplt.rcParams['font.sans-serif']=['SimHei']#正常显示中文标签x_axis=stock_data['汽车品牌']y_axis=stock_data['热搜指数']rect_hot=plt.bar(x_axis,y_axis)plt.ylabel('热搜指数')plt.title('不同品牌汽车的热搜指数')#添加注释文本defautolabel(rects):"""在每个柱形上方添加注释文本"""forrectinrects:rect_height=rect.get_height()#获取每个柱形的高度rect_x=rect.get_x()#获取每个柱形的x值rect_width=rect.get_width()#获取每个柱形的宽度plt.text(rect_x+rect_width/2,rect_height+30,s='{}'.format(rect_height),ha='center',va='bottom',fontsize=9)autolabel(rect_hot)plt.show()时间序列分析填空题时间序列时间戳基础频率重采样Period判断题√√×√×选择题ADDBC简答题时间戳表示带时区的特定的日期时间;时间差表示绝对的持续时间;时期是由时间点及其相关频率定义的时间跨度。如果是将高频率数据聚合到低频率,比如将每日采集的频率变成每月采集,则称为降采样;如果将低频率数据转换到高频率数据,比如将每月采集的频率变成每日采集,则称为升采样。编程题答案:代码一:运行产生ValueError异常,主要是因为date_range()函数中必须传入start、end、periods、freq中至少三个参数,而代码中只传入了start和freq参数。代码二:运行结果为5代码三:运行出现异常,因为日期字符串的格式不能够被正确解析。文本数据分析填空题词形还原词性标注停用词NLTK精确判断题×√×××选择题DABCDDAB简答题文本预处理的基本流程包括分词、词形统一化、删除停用词。(1)对文本进行分词操作,从中找出正向情感词、负向情感词、否定词以及程度副词。(2)判断每个情感词之前是否有否定词及程度副词,将它之前的否定词和程度副词划分为一组。如果存在否定词,则将情感词的情感权值乘以-1;如果有程度副词,就乘以程度副词的程度值。(3)将所有组的得分加起来,得分大于0的归于正向,小于0的归于负向。机器学习入门填空题机器学习样本监督学习最值归一化网格搜索判断题√××√×选择题DAACA简答
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 吉利学院《动物微生物与免疫学》2023-2024学年第一学期期末试卷
- 吉安幼儿师范高等专科学校《国家安全教育》2023-2024学年第一学期期末试卷
- 展览馆墙地砖铺贴施工方案
- 惠州经济职业技术学院《媒介社会学》2023-2024学年第一学期期末试卷
- 惠州工程职业学院《传输原理基础》2023-2024学年第一学期期末试卷
- 玻璃天窗防水施工技术方案
- 现场施工安全管理制度
- 农场劳务外包合同的基本条款
- 石油化工施工项目计量管理制度
- 桥梁工程施工方案与技术措施
- 三年级下册口算天天100题(A4打印版)
- 妇产科学之异常分娩护理课件
- 肺腺癌护理查房
- 设备部常用维修工具使用课件
- 重大事故隐患检查表
- 公路工程资料整理
- 顶管工程施工中的施工质量控制
- 广东省广州市白云区2023-2024学年九年级上学期期末化学试题
- 《美术的主要分类》课件
- 《晶体缺陷》课件
- 2024年内蒙古包钢集团招聘笔试参考题库含答案解析
评论
0/150
提交评论