Python数据预处理应用技术千锋习题答案

上传人：大*** IP属地：四川上传时间：2024-05-25 格式：DOCX 页数：37 大小：393.64KB 积分：25 举报 版权申诉

已阅读5页，还剩32页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

初识Python数据预处理习题填空题JupyterNotebook启动后默认的端口号是_8888_。答案解析：跳转到的网址：http://localhost:8888/tree（其中localhost表示你的计算机，8888是服务器的默认端口）。数据预处理主要的方法有数据清洗、数据集成、数据变换和数据规约。答案解析：数据预处理5大流程：初始数据获取、数据清洗、数据集成、数据变换、数据规约。Numpy的主要数据类型是_ndarray对象_，用于计算的主要数据类型是_dtype。答案解析：Numpy的主要数据类型是ndarray格式，主要包括整数、浮点数、复数、布尔值、字符串、python等对象类型，NumPy数值类型是dtype（数据类型）对象的实例。Pandas的数据结构可以分为2类，分别为_series_与_DateFrame_。答案解析：Pandas的数据结构主要可以分为两类：series和DataFrame。Series类似于数组；DataFrame类似于表格。_Anaconda_中包含了conda、Python在内的超过180个科学包及其依赖项。答案解析：Anaconda拥有个人版、商业版、团队版、企业版，除个人版不收费外，其他版本都需要付费，这是一个开源的Python发行版本，其包含了conda、Python等180多个科学包及其依赖项。JupyterNotebook是一个支持__执行_代码、数学方程、可视化和Markdown的Web应用程序。答案解析：Jupyter是一个集Python编程语言以及其他编程语言的、交互式集成开发环境，可以将代码执行、文本、数学、情节和富媒体组合到一个文档中。选择题关于Python的说法中错误的是（C）Python是一种面向对象的语言Python元组中的元素不可改变Python列表中的元素数据类型必须一致Python的字符串可以以一对英文双引号（“”）括起来答案解析：A项，Python是一种面向对象的脚本语言。B项，Python元组写在小括号()里，元素之间用逗号隔开，且元素不能修改。D项，Python的字符串可以使用一对英文单引号'‘或双引号“”括起来。C项，写在方括号[]之间、用逗号分隔开的元素列表，元素可以是字符、数字、字符串等不同类型，故C项说法错误。下面代码的运行结果是（A）importnumpyasnpa=np.array([1,2,3])b=np.array([4,5,6])np.concatenate((a,b))array([1,2,3,4,5,6])[1,2,3,4,5,6][5,7,9]array([1,2,3],[4,5,6])答案解析：np.concatenate()的功能是对两个数组数据进行拼接，np.concatenate((a,b))是对array进行拼接的函数，a、b是待拼接的数组。影响数据质量的因素有哪些（D）准确性、完整性、一致性相关性、时效性可信性、可解释性以上都是答案解析：数据质量是指数据的一组固有属性满足数据消费者要求的程度。数据质量的表述：准确性、完整性、一致性、相关性、时效性和可信性可解释性等。以下说法错误的是（B）数据预处理的主要流程为数据清理、数据集成、数据变换和数据规约。数据清理、数据集成、数据变换、数据规约这些步骤在数据预处理活动中必须顺序使用。冗余数据的删除既是一种数据清理格式，也是一种数据规约。整个预处理过程要尽量人机结合，尤其要注重和客户以及专家多交流。答案解析：A项，数据预处理的主要流程包括获取初始数据、数据清洗、数据集成、数据变换和数据规约。B项，数据清理、数据集成、数据变换、数据规约这些步骤在数据预处理活动中可以不需要全部使用，也不需要顺序使用，只要能达到希望的“干净”数据就可以啦，故B项说法错误。C项，冗余数据是指同一属性多次出现或者同一属性命名不一致导致重复，删除冗余属性属于数据清理的格式，也属于一种数据规约的形式，降低数据规模。D项，整个预处理过程要尽量人机结合，尤其要注重和客户以及专家多交流，这些都是为了得到更为合适的数据集，并且提高数据分析或挖掘等操作的效率。以下关于数据分析预处理的过程描述正确的是（C）数据清洗包括了数据标准化、数据合并和缺失值处理。数据合并按照合并轴方向主要分为左连接、右连接、内连接和外连接。数据分析的预处理过程主要包括数据清洗、数据合并、数据标准化和数据转换，他们之间存在交叉，没有严格的先后关系。数据标准化的主要对象是类别型的特征。答案解析：数据清洗包括缺失值、重复值和异常值的处理，数据标准化属于数据变换的操作，数据合并属于数据集成的操作。故A项说法错误。数据合并按照合并轴方向可以分为横向合并和纵向合并，左连接、右连接、内连接和外连接是merge函数使用how参数的不同参数进行分类。故B项说法错误。数据标准化的主要特征是数值型类别的特征，故D项说法错误。有一份数据，需要查看数据的类型，并将部分数据做强制类型转换，以及对数值型数据做基本的描述型分析。下列的步骤和方法正确的是(A)dtypes查看类型，astype转换类别，describe描述性统计。astype查看类型，dtypes转换类别，describe描述性统计。describe查看类型，astype转换类别，dtypes描述性统计。dtypes查看类型，describe转换类别，astype描述性统计。答案解析：dtypes查看类型，astype转换类别，describe描述性统计。JupyterNotebook不具备的功能是（B）。JupyterNotebook可以直接生成一份交互式文档。JupyterNotebook可以安装Python库。JupyterNotebook可以导出HTML文件。JupyterNotebook可以将文件分享给他人。答案解析：在JupyterNotebook中开始使用IPython，IPython本身专注于交互式Python，其中一部分是为Jupyter提供Python内核。包括了Python的库，不需要安装。【多选】下列关于JupyterNotebook的描述错误的是（BCD）。JupyterNotebook有两种模式。JupyterNotebook有两种单元形式。JupyterNotebookMarkdown无法使用LaTeX语法。JupyterNotebook仅仅支持Python语言。答案解析：JupyterNotebook有4种单元形式，可以分为：代码、Markdown、原生NBconvert、标题。JupyterNotebook还支持LaTeX语法、R语言和Python等。在Jupyternotebook的cell中安装包语句正确的是（C）pipinstall包名condainstall包名!pipinstall包名!condainstall包名答案解析：在Jupyternotebook的cell中安装包语句为：!pipinstall包名。【多选】下列关于Python数据分析库的描述错误的是（ABD）。NumPy的在线安装不需要其他任何辅助工具SciPy的主要功能是可视化图表pandas能够实现数据的整理工作scikit-learn包含所有算法答案解析：NumPy的在线安装可以借助pip或conda等辅助工具。SciPy的主要功能是从各种文件格式比如CSV、JSON、SQL、MicrosoftExcel导入数据，还可以对各种数据进行运算操作，比如归并、再成形、选择、数据清洗和数据加工特征。scikit-learn包含了常用的机器学习算法，比如回归、分类、聚类、支持向量机、随机森林等，同时使用NumPy库进行高效的科学计算，比如线性代数、矩阵等，并不是包含所有算法。【多选】下列属于Anaconda主要特点的是（ABC）。包含了众多流行的科学、数学、工程、数据分析的Python包。完全开源和免费。支持Python2.6、2.7、3.4、3.5、3.6，可自由切换。额外的加速和优化是免费的。答案解析：略创建一个3×3的数组，下列代码中错误的是（C）。np.arange(0,9).reshape(3,3)np.eye(3)np.random.random([3,3,3])np.mat(“123;456;789”)答案解析：正确的数组形式如下：np.random.random((3,3,3))。简答题Numpy中的reshape()函数的主要作用是什么？答：arr.reshape()将在不更改数据的情况下为数组提供新形状。简述Series与DataFrame的特点。答：Series

是一种类似于一维数组的对象，它由一组数据以及索引（index）组成。DataFrame

是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔型值）。DataFrame既有行索引也有列索引，它可以被看做由Series组成的字典（共同用一个索引）。操作题创建如下数组。注意：使用正确的数据类型。[[4,3,4,3,4,3],[2,1,2,1,2,1],[4,3,4,3,4,3],[2,1,2,1,2,1]]答：程序如下：importnumpyasnparr=np.array([[4,3,4,3,4,3],[2,1,2,1,2,1],[4,3,4,3,4,3],[2,1,2,1,2,1]])print(arr)生成范围在0～1、服从均匀分布的10行5列的数组。importnumpyasnparr=np.random.rand(10,5)arr生成两个2×2矩阵，并计算矩阵乘积。importnumpyasnpmatr1=np.mat("23;45")matr1matr2=np.mat("56;78")matr2思考与拓展P31思考：为什么NumPy比列表快？参考答案：Numpy与列表不同，NumPy数组存储在内存中的一个连续位置，因此进程可以非常有效地访问和操纵它们。这种行为在计算机科学中称为引用的局部性。这是NumPy比列表更快的主要原因。Numpy还经过了优化，可与最新的CPU体系结构一同使用。P44大家运用学过的知识将上述结果可视化展现。fromscipyimportoptimizeimportmatplotlib.pyplotasplt#梯度下降优化算法deff(x):returnx**2-4*xinitial_x=0optimize.fmin_bfgs(f,initial_x)plt.plot(x,f(x))plt.show()数据获取与存储习题填空题大数据领域主流有三种数据类型，分别是_结构化数据、_半结构化数据_和__非结构化数据_。答案解析：按照数据类型分类，可将数据分为结构化数据、半结构化数据、非结构化数据，这是大数据领域主流的三种数据类型。pandas.read_csv()函数中，如果读取的文件中含有中文，则encoding常设置为_utf-8_。答案解析：encoding：通常设置encoding=”utf-8”，指定字符集类型。如果文件名中有中文，容易导致乱码。engine="python"可以避免文件路径中有中文，encoding="utf_8_sig"可以使读取的内容中有中文。网络爬虫的基本执行流程的三个过程：_请求数据、解析数据与保存数据。答案解析：网络爬虫的基本执行流程可以总结为三个过程：请求数据、解析数据与保存数据。数据请求：请求的数据除了HTML之外，还有json数据、字符串数据、图片、视频、音频等。解析数据：当一个数据下载完成后，对数据中的内容进行分析，并提取出需要的数据，提取到的数据可以以多种形式保存起来，数据的格式有非常多种，常见的有csv、json、pickle等。保存数据：最后将数据以某种格式（CSV、JSON）写入文件中或存储到数据库（MySQL、MongoDB），同时保存为一种或者多种。常见的文本文件可分为三种：_CSV_、_TXT_与_PDF_。答案解析：常见的文本文件有TXT文件、CSV文件和PDF格式文件。Python处理JSON文件的函数有json.dumps、json.loads、json.dump与json.load。答案解析：Python处理JSON文件的函数有json.dumps、json.loads、json.dump与json.load。函数作用json.dumps对数据进行编码,将Python中的字典转换为JSON字符串json.loads对数据进行解码,将JSON字符串转换为Python中的字典json.dump将Python中的字典数据写入json文件中json.load打开json文件，并把字符串转换为Python的字典数据选择题下面有关SQL说法不正确的是（B）删除表可用drop修改表结构可用update增加数据可用insertinto切换数据库可用use答案解析：修改表结构可用ALTER，update用于更新表中的数据。以下说法错误的是（C）可能通过pymysql.connect(host，user，password，database)连接到mysql数据库cursor.execute(sq)执行SQL语句cursor.fetch.all()获取一行执行结果若改变了数据库里的数据，需要调用commit()来提交答案解析：cursor.fetch.all()从数据库取数据，返回多个元组，即返回多个记录(rows),如果没有结果则返回()。fetchone()：返回单个的元组，也就是一条记录(row)，如果没有结果则返回None。下列关于pandas数据读/写说法错误的是（A）。read_csv能够读取所有文本文档的数据read_sql能够读取数据库的数据to_csv函数能够将结构化数据写入.csv文件to_excel函数能够将结构化数据写入Excel文件答案解析：read_csv能够读取所有CSV格式的文本文档的数据。数据的存储方式有（ABC）ExcelCSV数据库Python答案解析：数据的存储方式有Excel、CSV、Word、JSON、XML与数据库等。阅读下面一段程序：importjiebasentence='人生苦短，我用Python'terms_list=jieba.cut(sentence,cut_all=True)print(''.join(terms_list))执行上述程序，最终输出的结果为（D）。人生苦短我用Python人生苦短我用Python人生苦短我用Python人生苦短我用Python答案解析：jieba.cut()为jieba全模式，把句子中所有可能是词语的都扫描出来，所以需要将词语都分开。互联网的数据获取有哪些不足（C）?大数据时代很难获得大量的有效数据大数据获取的速度比较慢大数据时代的数据也不是百分之百的真实有效地挖掘数据中隐含的关联关系有一定难度答案解析：互联网数据获取的优缺点分别如下，优点：1.高效、便捷2.信息传播渠道多速度快，减少了信息不对称3.部分公司或个人抓住风口创业成功。缺点：1.不良信息2.有效信息不易找。【多选】三维地图数据获取的技术手段（ABCD）。大地测量与工程测量技术三维激光扫描测量技术SAR与InSAR技术真实性摄影测量与遥感技术答案解析：三维地图数据获取的技术手段有多种，如大地测量技术、摄影测量技术、三维激光扫描技术等，合成孔径雷达（SyntheticApertureRadar，SAR）是一种能够产生高分辨率图像的雷达系统。合成孔径雷达干涉测量（InterferometricSyntheticApertureRadar，InSAR)是最具潜力的空间对地观测技术之一，是对SAR技术的一种扩展，其工作原理是利用SAR对相同地区拍摄两幅影像，经过干涉获得该区域的干涉条纹图，干涉条纹图中则包含该区域的地形信息。数据预处理的初始数据获取，包括（AB）。文件数据库网页大数据平台答案解析：数据预处理的初始数据获取，包括文件、数据库等。下列不属于常见爬虫类型的是（C）。增量式网络爬虫通用网络爬虫浅层网络爬虫聚焦网络爬虫答案解析：网络爬虫按照系统结构和实现技术，大致可以分为以下几种类型：通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫。故选择C项。网络数据采集法，主要通过网络爬虫或网站公开API的方式获取，网络爬虫从网页的（C）开始获取。HTMLWWWURLXML答案解析：网络数据采集法，主要通过网络爬虫或网站公开API的方式获取，网络爬虫从网页的URL开始获取。简答题常用的Excel解析数据包分别是什么，各有什么作用？答：Python库有一个汇总在线目录，叫作PyPI（/pypi），里面保存了大量的Python包及其元数据和文档。解析Excel文件用的是xlrd库，主要是用Python处理Excel文件。xlwt 向Excel文件写入，并设置格式。xlutils 一组Excel高级操作工具（需要先安装xlrd和xlwt）。简述XML数据与HTML数据的区别。答：XML不是HTML的替代，XML是对HTML的补充。概念不同。XML是可扩展标记语言，而HTML超文本标记语言。目的不同。XML被设计用来传输和存储数据，重点是数据的内容。HTML被设计用来显示数据和编辑网页，重点是数据的外观。语法有所不同。XML语法比较严谨而HTML语法比较松散。HTML旨在显示信息，而XML旨在传输信息。操作题利用Pandas读取本地文件：~\Desktop\data\list2文件夹中的的《上海餐饮数据.xlsx》，并写入CSV文件，保存在本地位置：~\Desktop\data\list2文件夹；名称为：上海餐饮分析.csv。数据清洗习题填空题导入数据集时，读取CSV文件的函数为__read_csv()_。检测异常值的常用的两种方式为__3σ原则__和_箱型图_。常见的缺失值的三种处理方式为：_填充缺失值_、_删除_和___插补_____。删除、填充、插补缺失值的函数分别是_dropna()_、_fillna()_和_interpolate()_。3σ准则（拉依达准则）只适用于检测符合或近似符合__正态分布____的数据集。检查重复值和删除重复值的函数分别是_duplicated()_和___drop_duplicates()_。选择题下面程序运行的结果是（B）importdatetimex=datetime.datetime.now()print(x)2022/8/2417:30:562022-08-2417:30:56.9170848/24/202217/30/5608-24-202217:30:56.917084答案解析：datetime.datetime.now([tz])表示返回一个表示当前本地时间的datetime对象，如果提供了参数tz，则获取tz参数所指时区的本地时间；默认日期间隔符号为“-”，显示顺序为“年-月-日”，时间为“时:分:秒”格式，最后添加后缀表示系统时间。now()：读取的时间是系统的本地时间。关于为什么要做数据清洗，下列说法不正确的是?(D)数据有重复数据有缺失数据有错误数据量太大答案解析：数据清洗的原因有：可以让数据更容易存储、搜索和复用。目标：格式标准化，异常数据清除，错误纠正，重复数据的清除。故D项错误，数据量太大时，需要对数据进行规约操作。以下说法错误的是（A）数据清洗能完全解决数据质量差的问题数据清洗在数据分析过程中是不可或缺的一个环节数据清洗的目的是提高数据质量可以借助pandas来完成数据清洗工作答案解析：数据清洗通过填写缺失的值、光滑噪声数据、识别或删除离群点并解决不一致性来“清理”数据，但是对于有些数据集，还需要进行数据集成、变换和规约等操作后才能达到理想的状态，故A项说法错误。以下关于缺失值检测的说法中，正确的是(B)null和notnull可以对缺失值进行处理dropna方法既可以删除观测记录，亦可以删除特征fillna方法中用来替换缺失值的值只能是数据库pandas库中的interpolate模块包含了多种插值方法答案解析：缺失值检测函数包括isnull()、isna()、notnull()和notna()四个方法，故A项错误。dropna方法用于删除缺失值所在的一行或一列数据，并返回一个删除缺失值后的新对象，故B项正确。fillna方法用于填充缺失值。故C项错误。SciPy库中的interpolate模块包含了多种插值方法，故D项错误。以下关于异常值检测的说法中错误的是(B)3σ原则利用了统计学中小概率事件的原理使用箱线图方法时要求数据服从或近似正态分布基于聚类的方法可以进行离群点检测基于分类的方法可以进行离群点检测答案解析：异常值检测的方法中，与3σ准则不同，箱型图并不局限于正态分布，任何数据集都可以用箱型图来检测异常值。故选择B项。以下关于drop_duplicates函数的说法中错误的是(B)仅对DateFrame和Series类型的数据有效。仅支持单一特征的数据去重。数据重复时默认保留第一个数据。该函数不会改变原始数据排列。答案解析：drop_duplicates函数不仅支持单一特征的数据去重，还支持多个特征去重。下列关于时间相关类错误的是（D）。Timestamp是存放某个时间点的类。Period是存放某个时间段的类。Timestamp数据可以使用标准的时间字符串转换得来。两个数值上相同的Period和Timestamp所代表的意义相同。答案解析：period是表示一段时间，timestamp表示一个时刻，因此两个数值上相同的Period和Timestamp所代表的意义不同。下列选项中，描述不正确的是。（B）数据清洗的目的是为了提高数据质量异常值一定要删除可使用drop_duplicates（）方法删除重复数据concat（）函数可以沿着一条轴将多个对象进行堆叠答案解析：对于含有异常值的数据，可以直接删除含有异常值的记录；也可以视为缺失值，利用缺失值处理的方法进行处理；还可以使用平均值进行修正，有时也可以不处理：直接在具有异常值的数据集上进行数据挖掘。下列选项中，可以删除缺失值或空值的是（C）isnull()notnull()dropna()fillna()答案解析：可以删除缺失值或空值的函数为dropna()。isnull()与notnull()用于检测缺失值。fillna()用于填充缺失值。下列选项中，描述不正确是（D）concat（）函数可以沿着一条轴将多个对象进行堆叠merge（）函数可以根据一个或多个键将不同的DataFrame进行合并可以使用rename（）方法对索引进行重命名操作unstack（）方法可以将列索引旋转为行索引答案解析：unstack（）方法可以将行索引旋转为列索引。简答题简述使用3σ原则检测异常值的思路。答：检测异常值的思路如下：确认数据集是否为正态分布，正态分布的数据集才能继续。计算需要检验的数据列的平均值mean_data和标准差std_data；写一个3σ检测函数，传入一个DataFrame对象的一个列，方法中，先看数据列的每个值，小于μ-3σ或大于μ+3σ的数据均为异常值，返回异常值系列。如果是真实异常值，则剔除异常值，得到规范的数据。操作题打开本地文件《2020年各省人口数量.xlsx》文件，检测其中的缺失值和异常值，并利用均值填充缺失值数据。思考与拓展练习：使用时间日期格式化符号，使用不同格式来表示时间日期格式。格式化成2022-04-2608:08:06形式。格式化成TueApr2608:08:062022形式。将格式字符串转换为时间戳。答案：#!/usr/bin/python#-*-coding:UTF-8-*-importtime#格式化成2022-04-2608:08:06形式print(time.strftime("%Y-%m-%d%H:%M:%S",time.localtime()))#格式化成TueApr2608:08:062022形式print(time.strftime("%a%b%d%H:%M:%S%Y",time.localtime()))#将格式字符串转换为时间戳a="SatMar2808:08:242022"print(time.mktime(time.strptime(a,"%a%b%d%H:%M:%S%Y")))数据集成习题填空题数据集成过程中，可能出现的问题有__实体识别__、___冗余属性识别_、_元组重复__、_数据值冲突__。答案解析：数据集成通俗的说，就是将多个数据源合并存放在一个一致的数据存储中的过程。这一过程中需要着重解决三个问题：模式匹配、数据冗余、数据值冲突检测与处理。实体识别中常见的矛盾有：__同名异义_、__异名同义__、单位不统一___。答案解析：实体识别是指从不同数据源识别出现实世界的实体，它的任务是统一不同源数据的矛盾之处，常见形式有：同名异义：数据源A的某个数据特征的名称和数据源B的某个数据特征是一样的但是表示的内容不一样。数据源A中的属性ID和数据源B中的属性ID分别描述的是菜品编号和订单编号，即描述的是不同的实体。异名同义：数据源A的某个特征的名称和数据源B的某个特征名称不一样，但是表达的内容不一样。例如，数据源A中的sales_dt和数据源B中的sales_date都是描述销售日期的，即A.sales_dt=B.salesdate。单位不统一：不同地数据源记录的单位不一样，比如统计身高、一个数据源以m为单位，一个使用英尺为单位。描述同一个实体分别用的是国际单位和中国传统的计量单位。写出2个常见的合并数据的函数。(1)merge()(2)join()答案解析：本书重点讲解了merge()、join()、concat()、combine()、append()、concatenate()函数等。主键合并数据需要指定一个或多个__键_来对两组数据进行连接；答案解析：\t"/m0_47384542/article/details/_blank"主键合并类似于关系型数据库的连接方式，它是指根据一个或多个键将不同的DataFrame对象连接起来，大多数是将两个DataFrame对象重叠的列作为合并都是键。merge()函数支持4种连接合并方式，即内连接、左外连接、右外连接和全外连接。它们对应的参数设置分别是how='___inner___'，how='__left__'，how='__right_'，how='__outer__'。答案解析：merge()函数要执行的合并类型，从

{'left',

'right',

'outer',

'inner'}中取值，默认为“inner”内连接。选择题数据集成的过程中需要处理的问题有(D)实体识别冗余与相关性分析。数据不一致以上都是答案解析：数据集成主要的问题有：冗余属性识别、实体识别和数据不一致的问题，故正确答案选D。下列合并多个数据集说法误的是?（D）pandas.merge基于一个或多个键连接多个DataFrame中的行。pandas.concat按行或按列将不同的对象叠加。pandas.merge默认的合并操作使用的是innerjoin，通过传递how参数修改为outerjoin。concat函数的axis参数值为0，表示沿着横轴串接，生成一个新的Series对象。答案解析：concat函数默认axis=0表示行方向，也就是横向拼接；将Series与DataFrame对象组合在一起，用于沿横轴执行连接操作。下列关于concat函数、append方法、merge函数和join方法的说法正确的是(D)concat是最常用的主键合并的函数，能够实现内连接和外连接。append方法只能用来做纵向堆叠，适用于所有纵向堆叠。merge是常用的主键合并的函数，但不能够实现左连接和右连接。join是常用的主键合并方法之一，但不能够实现左连接和右连接。答案解析：merge是最常用的主键合并的函数，能够实现内连接和外连接。故A、C项错误。join是常用的主键合并方法之一，且能够利用how参数实现左连接和右连接。append方法只能用来做纵向堆叠，适用于所有纵向堆叠。故B项正确。下列关于train_test_split函数的说法正确的是(D)train_test_split能够将数据集划分为训练集、验证集和测试集生成的训练集和测试集在赋值的时候可以调换位置，系统能够自动识别train_test_split每次的划分结果不同，无法解决traintest_split函数可以自行决定训练集和测试集的占比答案解析：train_test_split函数的作用为自行设置训练集和测试集的占比，故D项正确。【多选】数据集成的ETL是指（BCD）退出抽取转化加载答案解析：ETL过程包括了提取（Extract）、转换（Transform）和加载（Load）三个过程。（A）是数据集成的重要问题。数据冗余数据完整数据完备数据有效答案解析：数据冗余是数据集成的重要问题。【多选】数据集成的合并类型，包括(ABC)。主键合并数据重叠合并数据堆叠合并数据数据拆分答案解析：数据集成的合并类型，包括主键合并数据、重叠合并数据和堆叠合并数据。【多选】数据集成可能产生的问题有(ABC)。属性冗余元组冲突数据值冲突属性值缺失答案解析：数据集成的目的是指维护数据源整体上的数据一致性，解决企业“信息孤岛”的问题，提高信息共享和利用的效率。集成多个数据源时，会出现冗余数据，常见的有属性重复、属性相关冗余和元组重复等，还需要考虑实体识别数据不一致等问题。故答案选择ABC项。关于数据集成的描述，说法错误的是（C）。数据集成的目的是增大数据量数据集成可以把不同格式的文件数据合并数据集成时不需要考虑实体识别、属性冗余、数据值冲突等问题数据集成主要是把多个数据源合并成一个数据源的过程答案解析：数据集成时需要考虑实体识别、属性冗余、数据值冲突等问题。【多选】数据集成需要注意的三个基本问题有（ABC）。模式集成数据冗余冲突检测和消除数据错误答案解析：数据集成需要注意的三个基本问题有模式集成、数据冗余和冲突检测与消除。简答题简述数据集成的意义。答：数据集成的目的是指维护数据源整体上的数据一致性，解决企业“信息孤岛”的问题，提高信息共享和利用的效率。“信息孤岛”是指不同软件间，尤其是不同部门间的数据信息不能共享，造成系统中存在大量冗余数据、垃圾数据，无法保证数据的一致性，严重地阻碍了企业信息化建设的整体进程。简述merge()函数和concat()函数的区别和联系。答：联系：concat()函数能将Series与DataFrame对象组合在一起，用于沿某个特定的轴执行连接操作。Merge（）函数指的是将两个DataFrame数据表按照指定的规则进行连接，最后拼接成一个新的DataFrame数据表。区别：主要用于基于指定列的横向合并拼接（类似SQL的inner

join等）；可用于横向和纵向合并拼接，操作题importpandasaspddf_left=pd.DataFrame({'学号':['S01','S02','S03','S04','S05','S06'],'姓名':['怠涵','婉清','溪榕','漠涓','祈博','孝冉'],'籍贯':['山东','河南','湖北','陕西','山东','河南']})df_right=pd.DataFrame({'学号':['S01','S02','S03','S04','S05','S06'],'性别':['女','女','男','女','男','女'],'年龄':[23,22,25,23,19,21],'籍贯':['山东','河南','湖北','陕西','山东','河南']})#以学号为主键，采用内连接的方式合并数据result_inner=pd.merge(df_left,df_right,on='学号',how="inner")print(result_inner)数据变换习题填空题在Pandas中DataFrame类对象可以使用_pivot()或_melt()方法实现轴向旋转操作。答案解析：在Pandas中，pivot()方法能根据列值进行转置。使用指定索引/列中的唯一值形成返回数据框架的轴。该函数不支持数据聚合，多数值将导致多重索引。同时会根据给定的行索引或列索引重新组织一个DataFrame对象。分组和聚合的操作大致分为三个步骤：(1)拆分(2)应用(3)合并答案解析：分组与聚合的基本过程如下：拆分(split)：将数据集按照一些标准拆分为若干个组。拆分操作是指在指定轴上进行的，既可以对横轴方向上的数据进行分组，也可以对纵轴方向上的数据进行分组。应用(apply)：将某个函数或方法(内置和自定义均可)应用到每个分组。合并(combine)：将产生的新值整合到结果对象中。聚合操作除了内置的统计方法外，还可以使用_agg()、_tranform()、_apply()方法。答案解析：Pandas中的agg()函数为aggregate的缩写，是一个功能非常强大的函数，在Pandas中可以利用agg()对Series、DataFrame以及groupby()后的结果进行聚合操作。transform()是一个严格的条件的特殊函数，具有转换值、组合groupby()、过滤数据、在组级别处理缺失值等功能。apply会将待处理的对象拆分为多个片段，然后对各片段调用传入的函数，最后尝试将各个片段组合在一起。哑变量又称虚拟变量，是_人为虚设_的变量，用来反映某个变量的__不同类别__。答案解析：为了将类别类型的数据转换为数值类型的数据，类别类型的数据在被应用之前需要经过“量化”处理，从而转换为哑变量。哑变量，又称虚拟变量，是人为虚设的变量，用来反映某个变量的不同类别，常用取值为0和1，0代表否，1代表是。哑变量(DummyVariables)用以反映质的属性的一个人工变量，是量化了的自变量。面元划分中，默认划分的区间是后_闭__前__开__的。答案解析：为了便于分析，连续数据常常被离散化或拆分为“面元”（bin），用cut()函数可以实现。cut()函数的right参数定义了面元区间范围，默认为True，即“左开右闭”，修改为False，则“左闭右开”。选择题下列方法不是数据变换的有(B)小波变换抽样规范化属性构造答案解析：数据变换的常见操作有：简单函数变换、连续数据离散化、属性构造、小波变换和数据规范化等。而数据抽样也叫数据采样。数据抽样是选择数据子集对象的一种常用方法。假设12个销售价格记录组已经排序如下：5,10,11,13,15,35,50,55,72,92,204,215使用如下每种方法将它们划分成四个箱。等频（等深）划分时，15在第几个箱子内？(B)A、第一个B、第二个C、第三个D、第四个答案解析：根据数据的频率分布进行排序，然后按照频率进行离散，好处是数据变为均匀分布，但是会更改原有的数据结构。采用等频（等深）划分时，将属性的值域分成具有相同宽度的区间，即将连续型变量的取值范围均匀划分成n等份，每份的间距相等。故正确答案为B选项。假设有这么一组排序后的数据4，8，15，21，21，24，25，28，34，划分为等频的箱。箱1：4，8，15；箱2：21，21，24：箱3：25，28，34，要求：箱1用平均值，箱2用中位值，箱3用箱边界三种方法来光滑噪声数据，下面哪个选项是正确的?（C）A、9，9，9：22，22，22：25，25，34B、8，8，8：22，22，22：25，25，34C、9，9，9：21，21，21：25，25，34D、4，4，15：21，21，21：25，25，25答案解析：采用等频（等深）划分时，将属性的值域分成具有相同宽度的区间，即将连续型变量的取值范围均匀划分成n等份，每份的间距相等。箱1三个数据的平均值为9，箱2三个数据的中位值为21，箱3使用箱边界方法光滑噪声数据就是用较小的数据替代箱中的每一项数据。箱中的最大和最小值同样被视为边界。箱中的每一个值被最近的边界值替换。结果为25,25,34。下列数据特征缩放的公式中，正确的是（C）A.数据中心化公式为：B.数据标准化公式为：C.Max-ABS缩放公式为：D.Robust缩放公式为：答案解析：数据中心化公式为：，故A项错误。数据标准化公式为：，故B项错误。Max-ABS缩放公式为：，故C项正确。Robust缩放公式为：，故D项错误。下列关于哑变量的名称中，不正确的是(D)。二分类变量虚拟变量0-1型变量数值型变量答案解析：哑变量，又称虚拟变量、虚设变量、名义变量或哑变量，是人为虚设的变量，用来反映某个变量的不同类别，常用取值为0和1，0代表否，1代表是。所以又可以成为0-1型变量或者二分类变量。哑变量(DummyVariables)用以反映质的属性的一个人工变量，是量化了的自变量，而代表特征的数据不一定都是数值类型的，其中一部分是类别型的。故D项错误。以下关于pandas数据预处理说法正确的是(D)pandas没有做哑变量的函数。在不导入其他库的情况下，仅仅使用pandas就可实现聚类分析离散化。pandas可以实现所有的数据预处理操作。cut函数默认情况下做的是等宽离散法。答案解析：Pandas中使用get_dummies()函数对类别数据进行哑变量处理，并在处理后返回一个哑变量矩阵。故A项说法错误。聚类离散法使用k-means将样本进行离散处理。故B项说法错误。Pandas可以对各种数据进行运算操作，比如归并、再成形、选择、数据清洗和数据加工特征，但不支持如数据规约、离散化的数据预处理操作。故C项说法错误。Pandas的cut方法是将数值数据转换为分类数据的方法，对离散量进行区间划分，即cut函数默认情况下做的是等宽离散法。故D项正确。下列与标准化方法有关的说法错误的是(A)离差标准化简单易懂，对最大值和最小值敏感度不高。标准差标准化是最常用的标准化方法，又称零—均值标准化。小数定标标准化实质上就是将数据按照一定的比例缩小。多个特征的数据的K-Means聚类不需要对数据进行标准化。答案解析：Min-max规范化（最小-最大规范化）也称为离差标准化，是对原始数据的线性变换，将数据值映射到［0,1］之间，若数据集中且某个数值很大，则规范化后各值会接近于0，并且将会相差不大。故A项说法错误。Z-Score规范化（零-均值规范化）也称标准差标准化，经过处理的数据的均值为0，标准差为1。故B项说法正确，小数定标规范化就是通过移动小数点的位置来进行规范化，用于消除单位影响，最终取值范围是[-1,1]。故C项说法正确。聚类离散包括两个过程：选取聚类算法（K-Means算法）将连续属性值进行聚类；处理聚类之后得到k个簇并得到每个簇对应的分类值（类似这个簇的标记），将在同一个簇内的属性值做为统一标记。因此，多个特征的数据的K-Means聚类不需要对数据进行标准化，D项说法正确。关于标准差标准化，下列说法中错误的是(B)经过该方法处理后的数据均值为0，标准差为1。可能会改变数据的分布情况。Python中自定义该方法实现函数defStandardScaler(data):data=(data-data.mean())/data.std()returndata计算公式为X答案解析：标准差标准化，经过处理的数据的均值为0，标准差为1。故A项正确。计算公式为：X∗下列关于groupby方法说法正确的是（C）。groupby能够实现分组聚合groupby方法的结果能够直接查看groupby是pandas提供的一个用来分组的方法groupby方法是pandas提供的一个用来聚合的方法答案解析：groupby方法能够完成数据的分组操作，不能实现聚合操作，A项说法错误。groupby方法通过调用groups属性查看分组结果，故B项说法错误。groupby方法位于Pandas库中，故C项说法正确、D项说法错误。下列关于apply方法说法正确的是（D）。apply方法是对DataFrame每一个元素应用某个函数的apply方法能够实现所有aggregate方法的功能apply方法和map方法都能够进行聚合操作apply方法只能够对行列进行操作答案解析：apply方法可以作用于数据集的每一行每一列元素，故A项说法错误。apply方法对DataFrame应用单个函数时，agg()的结果与apply()的结果等效，Series对象在agg()中传入单个函数，聚合结果为标量值，也就是单个数据，apply方法专注于将方法应用于pandasSeries中的每个元素以及pandasDataFrame的每一行/列，故D项说法正确，C项说法错误。使用map可以将已有的一行/列元素进行替换，也可以创建新的行/列。不仅仅可以使用字典对映射关系进行界定，还可以使用函数对各个元素进行变换。故C项说法错误。下列关于分组聚合的说法错误的是（A）。pandas提供的分组和聚合函数分别只有一个pandas分组聚合能够实现组内标准化pandas聚合时能够使用agg、apply、transform方法pandas分组函数只有一个groupby答案解析：pandas提供的分组函数有：groupby；聚合函数：agg、mean、sum、size、count、std、var、sem、describe、apply、transform等方法。故A项说法错误，CD项说法正确，pandas分组聚合的基本过程为拆分、应用与聚合，能够实现组内标准化，B项说法正确。使用pivot_table函数制作透视表用下列（A）参数设置行分组键。indexrawvaluesData答案解析：使用pivot_table函数制作透视表，参数index表示行索引，参数columns表示列索引，参数values表示某一列的值。故答案选择A项。使用其本身可以达到数据透视功能的函数是（D）。groupbytransformcrosstabpivot_table答案解析：pivot_table函数可以制作透视表，支持重复元素的聚合操作，故选择D项。判断题在数据预处理时，数据集包含变量的数量不能发生变化。(B)答案解析：数据规约的过程中，属性规约的目的就是去除冗余属性，也就是减少变量的数量，故说法错误。Min-Max缩放可以将数据缩放至任意给定的范围内。（A）答案解析：Min-Max缩放也可以称为离差标准化，该方法可以将数据缩放至指定的区间，故说法正确。但是通常情况下这一指定区间为[0,1]。模型预测准确度总是随着样本数量的增加而同比例增加。(B)答案解析：模型准确度影响因素：数据质量、数据科学家的水平。如果输入数据是连续型数据，使用分类模型时，就需要将连续型变量离散化为定性变量使用。（A）答案解析：如果输入数据是连续型数据，使用分类模型时，就需要将连续型变量离散化为定性变量使用。连续属性的离散化就是在数据的取值范围内设定若干个离散的划分点，将取值范围划分为一些离散化的区间，最后用不同的符号或整数值代表落在每个子区间中的数据值。数据离散化指的是将连续型变量在保留其基本数据含义的基础上转换为定性变量的操作。(A)答案解析：数据离散化指的是将连续型变量在保留其基本数据含义的基础上转换为定性变量的操作。数据离散化是指将连续的数据进行分段，使其变为一段段离散化的区间。也就是定性变量的操作。简答题简述数据属性离散化的意义。答：数据离散化是指将连续的数据进行分段，使其变为一段段离散化的区间。连续属性的离散化就是在数据的取值范围内设定若干个离散的划分点，将取值范围划分为一些离散化的区间，最后用不同的符号或整数值代表落在每个子区间中的数据值。简述数据规范化的方法。最小-最大规范化也称为离差标准化，是对原始数据的线性变换，将数值值映射到［0,1］之间。均值规范化也称标准差标准化，经过处理的数据的均值为0，标准差为1。小数定标规范化就是通过移动小数点的位置来进行规范化。用于消除单位影响。小数点移动多少位取决于属性A的取值中的最大绝对值。最终取值范围是[-1,1]。使用正则化的适用可以降低模型的复杂度。正则化的本质就是对某一问题加以先验的限制或约束以达到特定目的的一种手段或操作。操作题根据以下表格，完成下面的程序。namescoreoption_courseJohn82PHPHelen98PythonSona91JavaElla87C将数据应用一个聚合函数求平均值。#导入pandas和numpyimportpandasaspdimportnumpyasnp#创建DataFrame，并重命名为datadata={'name':['John','Helen','Sona','Ella'],'score':[82,98,91,87],'option_course':['PHP','Python','Java','C']}df=pd.DataFrame(data)grouped=df.groupby('name')#按照“name”列分组#应用一个聚合函数求均值print(grouped['score'].agg(np.mean))#求“score”列的平均值将数据应用多个聚合函数求平均值和标准差。#求“score”列的平均值与标准差print(grouped['score'].agg([np.size,np.mean,np.std]))思考思考与拓展思考1：数据规范化、归一化、标准化是同一个概念么？答：数据规范化是更大的概念，它指的是将不同渠道的数据，都按照同一种尺度来进行度量，这样做有两个好处，一是让数据之间具有可比较性；另一个好处就是方便后续运算，因为数据在同一个数量级上规整了，在机器学习迭代的时候，也会加快收敛效率。数据归一化和数据标准化都是数据规范化的方式。不同点在于数据归一化会让数据在一个[0,1]或者[-1,1]的区间范围内。而数据标准化会让规范化的数据呈现正态分布的情况，所以你可以这么记：归一化的“一”，是让数据在[0,1]的范围内。而标准化，目标是让数据呈现标准的正态分布。思考2：什么时候用到数据规范化？答：进行数据规范化有两个作用：一是让数据之间具有可比较性，二是加快后续算法的迭代收敛速度。在数据挖掘算法中，是否都需要进行数据规范化呢？一般情况下是需要的，尤其是针对距离相关的运算，比如在K-Means、KNN以及聚类算法中，我们需要有对距离的定义，所以在做这些算法前，需要对数据进行规范化。另外还有一些算法用到了梯度下降作为优化器，这是为了提高迭代收敛的效率，也就是提升找到目标函数最优解的效率。我们也需要进行数据规范化，比如逻辑回归、SVM和神经网络算法。在这些算法中都有目标函数，需要对目标函数进行求解。梯度下降的目标是寻找到目标函数的最优解，而梯度的方法则指明了最优解的方向，如下图所示。当然不是所有的算法都需要进行数据规范化。在构造决策树的时候，可以不用提前做数据规范化，因为我们不需要关心特征值的大小维度，也没有使用到梯度下降来做优化，所以数据规范化对决策树的构造结果和构造效率影响不大。除此之外，还是建议你在做数据挖掘算法前进行数据规范化。思考3：如何使用Z-Score规范化，将分数变成正态分布？答：假设A与B的考试成绩都为80分，A的考卷满分是100分（及格60分），B的考卷满分是500分（及格300分）。这里假设A和B的考试成绩都是成正态分布，可以直接采用Z-Score的线性化规范化方法。有个同学提出了“Z-Score”的非线性计算方式，大家可以一起了解下：先按公式计算出百分等级。百分等级（年级）=100-(100x年级名次-50)/有效参加考试人数。这里百分等级是每个学生在该批学生中的相对位置，其中百分等级是按照正态分布图的所占面积比例求得的；按照百分等级数去标准正态分布表中查询得出Z-Score值，这样最终得出的Z分便是标准的正态分布，能够将偏态转化成标准正态。因为在很多情况下，数值如果不是正态分布，而是偏态分布，直接使用Z-Score的线性计算方式无法将分数转化成正态分布。采用以上的方法可以解决这一个问题，大家可以了解下。这里偏态分布指的是非对称分布的偏斜状态，包括了负偏态，也就是左偏态分布，以及正偏态，也就是右偏态分布。数据规约习题填空题数据规约的常见操作有_维规约_、_数量归约_和_数据压缩_。答案解析：数据归约的常见种类包括维归约、数量归约和数据压缩。降采样常见于__时间类型_的数据。答案解析：降采样就是降低采样频率，即将高频率采集的数据规约到低频率采集的数据，常用于时间序列类型的数据。重塑分层索引是pandas中简单的_维度规约___操作，最简单的方式为_stack___和_unstack_。答案解析：重塑分层索引是pandas中简单的维度规约操作，该操作主要会将DataFrame类对象的列索引转换为行索引，生成一个具有分层索引的结果对象。stack：将数据的列”旋转“为行，也就是将二维表转化为一维表（默认操作最内层）。unstack：将数据的行“旋转”为列，也就是将一维表转化为二维表（默认操作最内层）。PCA的主要目的是找出数据里最主要的方面代替原始数据。答案解析：PCA的主要目的是找出数据里最主要的方面代替原始数据。新的低维数据集尽可能保留原始数据的变量，是最常用的一种降维方法。数据规约的途径包括_属性规约_和_数值规约_。答案解析：数据归约主要有两个途径：属性规约和数值规约，分别针对原始数据集中的属性和记录，也可以称作属性选择和数据采样。选择题数据归约的方法有(D)维归约数量归约数据压缩以上都是答案解析：数据归约的常见种类包括维归约、数量归约和数据压缩，故选D项。下面哪一项不是属于数据归约的策略?（D）维归约数量归约数据压缩属性构造答案解析：数据归约的常见种类包括维归约、数量归约和数据压缩。而属性构造是数据集成的常见操作之一。故答案选D项。以下说法错误的是(C)主成分分析、属性子集选择为维归约方法直方图、聚类抽样和数据立方体聚集为数量归约方法。用于规约的时间可以超过或抵消在规约后的数据上挖掘节省的时间。数据归约的目的用于帮助从原有庞大数据集中获得一个精简的数据集合，并使这一精简数据集保持原有数据集的完整性，这样在精简数据集上进行数据挖掘显然效率更高，并且挖掘出来的结果与使用原有数据集所获得结果是基本相同。答案解析：维规约可以分为属性子集选择、小波变换和主成分分析三类操作，故A项正确。直方图、聚类、抽样和数据立方体聚类属于非参数方法的数量规约方法，故B项正确。数据规约类似数据集的压缩，它的作用主要是从原有数据集中获得一个精简的数据集，这样可以在降低数据规模的基础上，保留了原有数据集的完整特性。这样，在归约后的数据集上挖掘将更有效，并产生相同(或几乎相同)的分析结果，故D项正确。用于数据归约的时间不应当超过或“抵消”在归约后的数据上挖掘节省的时间归约得到的数据比原数据小得多，但可以产生相同或几乎相同的分析结果数据规约方法，故C项说法错误，选择C项。(D)的目的缩小数据的取值范围，使其更适合于数据挖掘算法的需要，并且能够得到和原始数据相同的分析结果。数据清洗数据集成数据变换数据归约答案解析：数据规约类似数据集的压缩，它的作用主要是从原有数据集中获得一个精简的数据集，这样可以在降低数据规模的基础上，保留了原有数据集的完整特性。这样，在归约后的数据集上挖掘将更有效，并产生相同(或几乎相同)的分析结果。故答案选择D项。将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务？(C)A.频繁模式挖掘B.分类和预测C.数据预处理D.数据流挖掘答案解析：数据预处理的基本流程可以分为五步：数据获取、数据清洗、数据集成、数据变换和数据规约，而数据规约又可以分为属性规约和数值规约，其中属性规约又被称为维度规约。故答案选择C项。关于数据重塑的说法中，下列选项描述错误的是（C）。数据重塑可以将DataFrame转换为Seriesstack（）方法可以将列索引转换为行索引对一个DataFrame使用stack（）方法后返回的一定是一个Seriesunstack（）方法可以将行索引转换为列索引答案解析：对一个DataFrame使用stack（）方法后返回的一定是Series，但不一定是一个。故C项说法错误，A项说法正确。数据重塑指的是将数据重新排列，也叫轴向旋转，使用stack是将数据的列“旋转”为行，即将二维表转化为一维表，故B项说法正确。unstack是将数据的行“旋转”为列，即将一维表转化为二维表，故D项说法正确。数据规约的目的是（C）。填补数据中的空缺值集成多个数据源的数据得到数据集的压缩表示规范化数据答案解析：数据规约是指在尽可能保持数据原貌的前提下，最大限度地精简数据量保持数据的原始状态，通过产生更小但保持元数据完整性的新数据集的过程。故答案选C。【多选】数据规约技术包括（ABC）。维规约数量规约数据压缩数据清理答案解析：数据规约的常见种类包括维规约、数量规约和数据压缩。故答案为ABC项。【多选】以下属于数据规约方法的是（AD）数据立方体聚集数据标准化噪声数据识别题数据压缩答案解析：数据规约的常用方法包括维规约、数量规约和数据压缩。数据立方体类似于非参数化数据规约的直方图方法，故答案为AD。数据标准化属于数据变换的方法，而噪声数据识别属于数据清洗的方法。【多选】下面哪些是数据规约的策略（ABD）维归约数量归约螺旋式方法数据压缩答案解析：数据规约的策略就是常见的数据规约的类型，数据规约的常见类型包括维规约、数量规约和数据压缩。故答案选择ABD项。简答题简述数据重塑的stack和unstack方法。答：数据重塑指的是将数据重新排列，也叫轴向旋转。重塑(reshape)层次化索引，可分为最简单的stack和unstack。stack：将数据的列”旋转“为行，也就是将二维表转化为一维表（默认操作最内层）。unstack：将数据的行“旋转”为列，也就是将一维表转化为二维表（默认操作最内层）。简述主成分分析降维的原理。答：主成分分析(PCA)是一种无监督学习的多元统计分析方法。PCA分析的主要原理是将高维数据投影到较低维空间，提取多元事物的主要因素，揭示其本质特征。它可以高效地找出数据中的主要部分，将原有的复杂数据降维处理。PCA的主要目的是找出数据里最主要的方面代替原始数据。新的低维数据集尽可能保留原始数据的变量，是最常用的一种降维方法。操作题实例：使用PCA()对一个10x4维的随机矩阵进行主成分分析。fromsklearn.decompositionimportPCAD=np.random.rand(10,4)pca=PCA()pca.fit(D)PCA(copy=True,n_components=None,whiten=False)pca.components_#返回模型的各个特征向量pca.explained_variance_ratio_#返回各个成分各自的方差百分比程序运行结果：返回模型的各个特征向量。array([[-0.73862979,0.09195812,0.4288488,0.51191645],[-0.26925935,-0.49850207,-0.7539009,0.33260866],[-0

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

Python数据预处理应用技术千锋习题答案

文档简介

温馨提示

最新文档

评论

Python数据预处理应用技术千锋习题答案

文档简介

温馨提示

最新文档

评论

相关文档