Python数据预处理微课版汪静课后参考答案_第1页
Python数据预处理微课版汪静课后参考答案_第2页
Python数据预处理微课版汪静课后参考答案_第3页
Python数据预处理微课版汪静课后参考答案_第4页
Python数据预处理微课版汪静课后参考答案_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

单元1一、填空题1、数据2、10TB3、数据质量4、数据变换5、Python二、判断题1❌。2❌。3✔4✔5❌。三、单选题1、C2、D3、A4、C5、D6、D四、问答题① 数据合并主要是将存储在多张表中的数据合并为一张表,便于进行数据分析。通过数据合并,可以将关联的数据信息存入一张表中。② 数据清洗就是对“脏”数据进行的检查与纠正,目的包括处理缺失的值,解决数据的重复和不一致性等。③数据变换主要是将数据变换成便于数据分析的形式。数据变换是将数据从一种类型/格式变换为另一种类型/格式,或按照指定的映射变换为另一种数据的过程。单元2一、填空题1、SeriesDataFrame2、标签3、切片4、字典5、标签下标二、判断题1✔2❌。Series是一种类似于一维数组的对象,DataFrame是一种二维表格型的数据结构。3✔4✔5❌。DataFrame是由行索引、列标签和数据组成的三、单选题1、A2、D3、C4、B四、编程题importpandasaspddf=pd.DataFrame({'age':[25,30,22,28],'gender':['male','female',None,'male'],'salary':[4000,8000,3000,5000]})df[df.isnull().T.any()]#筛选出包含空值的行df.loc[2:2,['gender']]='female'#任务=1\*GB3①df.loc[4]=[35,'male',10000]#任务=2\*GB3②#任务=3\*GB3③df.sort_values(by='salary',axis=0,ascending=False,inplace=True)df.head(3)#任务=4\*GB3④df.sort_index(axis=0,ascending=True,inplace=True)#按行索引排序df[df['gender']=='male']df.loc[3:4,['gender','salary']]#任务=5\*GB3⑤单元3一、填空题1、聚焦网络爬虫,主题网络爬虫2、深层网页3、Request(请求)和Response(响应)4、CSV(或Comma-SeparatedValues)5、JSON对象,JSON数组二、判断题1✔2✔3❌4❌5✔三、单选题1、A2、D3、D4、D5、C四、编程题importpandasaspdnme=['abc','xyz']cla=['1','2']ag=[15,16]#创建字典dict={'name':nme,'class':cla,'age':ag}df=pd.DataFrame(dict)#保存dataframedf.to_csv('name.csv')单元4一、填空题1、堆叠合并主键合并重叠合并2、横向堆叠合并纵向堆叠合并交叉堆叠合并3、左连接右连接内连接外连接二、判断题1❌。缺失的数据用NaN填充。2✔。3✔。4✔。5❌。内连接是以左右表的键值的交集进行合并。6❌。用一张表的数据来填充另一张表的缺失数据的方法就叫重叠合并。三、单选题1、B2、D3、A4、C5、D四、编程题importpandasaspddf_users=pd.read_csv('data/nums.csv',encoding='gbk')#读取用户使用数量df_popu=pd.read_csv('data/population.csv',encoding='gbk')#读取人口总量#按地区合并用户数量和人口总量df_all=df_users.merge(df_popu,on="地区")#计算人口占比df_all['人口占比']=(df_all['用户数量']/df_all['人口数'])*100#按人口占比进行降序排列df_all.sort_values(by='人口占比',axis=0,ascending=False,inplace=True)df_all.head()#查看人口占比前五的地区结论:人口占比前五的地区是北京、上海、天津、海南和广东,但是广东的人口是北京的6倍,所以选择在广东进行新产品推广活动的价值最高。单元5课后习题答案填空题缺失值处理重复值处理异常值处理格式不一致数据处理duplicated()最大最小值法标准差法箱线图法to_datetime()二、判断题1❌。在pandas中,缺失值一般用NaN表示。2、错。dropna()方法的参数inplace默认为False不改变原数据,inplace=True,才表示删除操作直接修改原数据。3✔。4❌。异常值不处理会影响后续数据分析的结果。5✔。6✔。7❌。箱线图中任何在上限和下限之间的数据是正常值,任何高于上限或低于下限的数据认为是异常值。三、单选题1、C2、B3、A4、D5、A四、编程题importpandasaspdscores=pd.read_excel('data/scores.xls')#1.缺失值处理scores[scores.isnull().T.any()]#查看包含缺失值的行#通过loc定位缺失值,并填充scores.loc[1,'gender']='female'scores.loc[7,'gender']='male'#2.重复值处理scores.duplicated().sum()#统计重复值的数量#ignore_index=True重新分配行标签scores.drop_duplicates(inplace=True,ignore_index=True)#3.异常值处理scores.describe()#查看异常值scores[scores['score']<0]#筛选出scores小于0的数据scores.loc[4,'score']=80#对异常值重新赋值#4.格式不一致数据处理#将'name'的首字母全部转换成大写字母scores['name']=scores['name'].map(str.title)#统一'birthday'的日期格式scores['birthday']=pd.to_datetime(scores['birthday'])单元6课后习题答案填空题数据类型变换数据格式变换数据映射小数位数百分号千位分隔符int64float64apply()applymap()to_numeric()二、判断题1✔。2✔。3❌。map()方法是Series对象的方法,返回值也是Series对象。4❌。将数据格式变换为带千位分隔符的数据,变换后的数据类型为Object。5❌。apply()方法既可以使用自定义函数,也可以使用lambda匿名函数作用于DataFrame对象的行或列数据变换。三、选择题1、A2、B3、D4、C5、D6、B编程题importpandasaspdimportnumpyasnpdf=pd.read_excel('data/height.xls')df['身高'].replace({'厘米':''},regex=True,inplace=True)#去除'厘米'df['身高']=df['身高'].astype('int64')#转换为整数df['身高']=df['身高'].apply(lambdax:x/100)#转换成米avg=float('%.2f'%np.mean(df['身高']))#计算平均身高,保留2位小数单元7课后习题答案填空题groupby()matplotlib折线图方差标准差饼图二、判断题1✔。2❌。中位数的计算方法不一样。当数据个数为奇数时,可以通过把数据的所有值高低排序后找出正中间的一个作为中位数。当数据个数为偶数时,通常取最中间的两个数值的平均数作为中位数。3✔。4❌。分位数一般可以取0到1之间的任意值。5❌。利用DataFrame对象的plot()方法绘制条形图,可以纵向也可以横向排列。三、选择题1、A2、CBDC编程题importpandasaspddf=pd.read_csv('data/user.txt')#按性别分组,并分别计算男、女的体重均值、最大和最小值。df2=df.groupby('性别').agg({'体重':['mean','max','min']})df2.columns=['平均值','最大值','最

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论