ch08基于Python的数据导入与导出_第1页
ch08基于Python的数据导入与导出_第2页
ch08基于Python的数据导入与导出_第3页
ch08基于Python的数据导入与导出_第4页
ch08基于Python的数据导入与导出_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于Python的数据导入与导出新工科建设之路·数据科学与大数据系列样本数据处理第八章01PandasSeries是一种类似于数组的一维数据结构,它包含一系列的元素及元素对应的标签。元素的标签被称为index。使用Pandas的功能之前,需要先导入Pandas模块。本章的Python代码运行环境为IPython,版本是6.1.0,对应的Python版本为3.6.3。SeriesSeries对象输出的左边一列是索引(index),右边一列是对应的元素值,最下面一行是元素的类型。由于代码中创建Series对象时没有指定index,默认创建的index是0~N-1的整数值,其中N是Series对象的元素个数。除了把Series看成一种类似于数组的数据结构,还可以把它看成一种定长且有序的map,map的key是index,value是Series的元素值。因此,许多map的操作可以应用在Series上。SeriesSeries对象的index也可以通过赋值来改变。SeriesSeries对象是可变的,这意味着通过赋值能够改变它。DataFrameDataFrame是一种带标签的二维数据结构,有行索引、列索引,其中各列可以存储不同的数据类型。为了帮助理解,可以将一个DataFrame对象想象为Excel中的一张表或数据库中的一张表。DataFrame也可以看作Series的集合,DataFrame是Pandas中最常用的数据结构。构造一个DataFrame对象有多种方式,其中常用的一种方式是基于dict构造。DataFrame的各列是有序排列的,可以在创建时传递columns参数调整顺序,而index参数为每一行指定了一个index。columns参数中指定的列如果不存在,那么创建的DataFrame对象中的对应列值均为NaN,表示一个不可用的值。使用类似于获取dict值的语法,能够获取DataFrame对象的一列,存放在Series对象中。DataFrame02文本文件的导入与导出CSV(CommaSeparatedValues,逗号分隔的值).CSV文件是一种比较简单的文本,广泛用于存储表格式的行列数据,可以直接使用Excel软件打开。Pandas提供了read_csv函数,用于导入CSV文件,并得到一个DataFrame对象。此外,Pandas还提供了read_table函数,能够导入用其他分隔符的类CSV文件。在IPython中,可以使用!语法运行外部命令。cat是Linux上的一个命令,用于将文件内容显示在屏幕上,在Windows环境下可以用type命令显示文件。导入CSV文件可以使用read_csv函数将文件内容读入一个DataFrame对象。Pandas还提供另外一个函数read_table函数,可以用于读入CSV文件。testl.csv文件的第一行指定了各列的名称,但是很多时候CSV文件没有这样的名称行。导入CSV文件Pandas也提供了反向的操作,能够将DataFrame导出为CSV格式的文件。read_csv函数的返回值是一个DataFrame对象,它具有to_csv方法,能够达到导出的目的。导出CSV文件DataFrame中的缺失值默认使用空字符串,narep参数可以改变这一行为。to_csv的默认行为会输出index列和标题行,如果不希望输出这些,可以将index和header均设置为False。如果不希望输出所有列,可以使用columns参数选择只输出一部分。导出CSV文件JSON格式数据的导入与导出JSON(JavaScriptObjeetNotation,JS对象简谱)格式在Web中使用非常广泛,常用于前端网页的JavaScript脚本和后端Web服务器交换数据。与表格型的数据相比,JSON格式的数据更加复杂和灵活,能够表达类似于树结构的数据。现存多种库和工具用于JSON格式数据的处理。对常规的任务,使用Python语言内置的JSON模块是最方便的。在使用JSON模块之前应先导入它。JSON模块的load函数能够导入JSON数据,返回值是一个dict对象。JSON模块的dump函数提供了反向的功能,将一个dict对象导出为JSON格式的文件。JSON格式数据的导入与导出03Excel文件的导入与导出Excel是微软的经典之作,在日常工作中的数据整理、分析和可视化方面,有其独到的优势。但如果数据量超大,Excel的劣势也就随之而来,甚至因为内存溢出无法打开文件,后续的分析更是难上加难。本节介绍使用Python的Pandas解决此问题,即通过Pandas完成读/写Excel。Excel文件的导入与导出Pandas会默认读取Excel文件中的第1个工作表,也就是默认名为Sheetl的工作表。Excel文件的导入与导出Pandas读取Excel可以通过readexcel函数将工作表读取成DataFrame。04数据库的导入与导出将关系数据库的表格数据导入成Pandas的DataFrame并不难理解。Pandas连接关系数据库需要Python连接对应数据库的客户端,以MySQL数据库为例,Python连接它的库有几种,最常用的是PyMySQL,用户可以通过pip或者Anaconda方式进行安装。关系数据库的导入与导出非关系数据库(NoSQL)具有多种多样的存储方式和产品实现。其中,MongoDB是一种广泛使用的NoSQL。本节以MongoDB为例进行讲述。MongoDB的基本存储单元是一种类似于dict的对象。类似于常见的关系数据库,MongoDB采用了客户-服务器架构,作为用户,首先需要建立与服务端的连接。这里使用PyMongo(包)与MongoDB服务端进行交互,这是MongoDB官方提供的模块,用户可以通过pip或者Anac

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论