版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
《Python数据挖掘实战》✩精品课件合集《Python数据挖掘实战》
第二章Python数据挖掘模块二、
Panda一、Numpy主要内容三、Matplotlib四、Scikit-learn4
Numpy是NumericalPython的简称,是高性能计算和数据分析的基础包。Numpy主要提供以下几个主要功能:Ndarray数据对象:Numpy的多维数组对象,用于存储和处理数据。提供可用于对数组数据进行快速运算的数学函数。提供可用于读写磁盘数据的工具。提供常用的线性代数、傅里叶变化和随机数操作。提供可调用C/C++和Fortran代码的工具。提供能够无缝、快速地与各种数据库集成的工具。一、Numpy5
1.Ndarray数组的创建
Ndarray是一个快速、灵活的数据容器,是由同质元素(指几乎所有元素的类型和大小都相同)组成的多维数组。Ndarray数组的常用创建方法有:array()、arange()、linspace()、ones()、zeros()以及各种随机生成函数。(1)array()函数
可以将Python的列表、元组或者其他序列类型数据转化为一个Ndarray数组。一、Numpy6(2)arrange()函数
用于创建一个等差数组,基本函数语法为:arange([start,]stop[,step],dtype=None)
它在区间[start,stop)上以start为起点,以step为步长构建一个等差数组。一、Numpy7(2)arrange()函数
用于创建一个等差数组,基本函数语法为:arange([start,]stop[,step],dtype=None)
它在区间[start,stop)上以start为起点,以step为步长构建一个等差数组。一、Numpy8(3)linespace()函数
用于创建一个等差数组,基本函数语法:linspace(start,stop,num=50,endpoint=True,dtype=None)
该函数可以将区间[start,stop]等分为具有num个元素的等差数组。其中,endpoint参数用于控制所生成的数组是否包含stop。一、Numpy9(4)zeros()、ones()、zeros_like()、ones_like()函数
用于生成一个指定形状,且初始值全为0或者1的数组。zeros():生成全0数组,参数为一个指示数组形状的元组ones():生成全1数组,参数为一个指示数组形状的元组zeros_like():生成全0数组,参数为一个现有数组ones_like():生成全1数组,参数为一个现有数组一、Numpy10(5)随机生成函数
Numpy的random模块提供了多种随机数组构造函数,用于生成指定形状且符合特定分布的随机Ndarray数组,包括:Numpy.random.rand(d0,d1,…):生成一个值在区间[0,1)上均匀分布的随机数组。数组的形状由d0,d1等参数给定。Numpy.random.randn(d0,d1,…):生成一个符合标准正态分布的随机数组,数组的形状由d0,d1等参数给定。Numpy.random.randint(low,high=None,size=None):生成一个在区间[low,high)上均匀分布,形状为size的整数数组。一、Numpy11
2.Ndarray数组的属性
多维数组Ndarray有3个重要的属性:(1)dtype属性Ndarray的数据类型包括:一、Numpy12(1)dtype属性
在创建Ndarray数组时,均可通过设置dtype参数指定其数据类型。也可以使用astype()函数对数组对象的类型进行转化。一、Numpy13(2)ndim和shape属性ndim属性用来参看数组对象的维数,即具有多少个维度。shape属性可以获得数组对象的形状,即在每个维度的具体大小。一、Numpy143.索引和切片
Numpy可以通过下标索引的方式获取Numpy数组中的某个元素,或者通过切片的方式获取数组中的一块数据。(1)普通索引Numpy可以将每个维度的索引值单独放到一个中括号“[]”,拼接多个维度的索引值来获得某一个元素值。一、Numpy15(2)切片
Numpy中的切片用于获取Numpy数组的一块数据,其操作方式与Python列表中的切片很相似,均使用“[]”指定下标实现。
其中,每个维度上使用冒号“:”分割起始位置、截止位置(切片时不包含该位置)与步长,逗号“,”用于区分不同维度上的切片操作,用省略号“…”表示切片操作遍历剩余所有的维度。一、Numpy164.排序
Numpy提供了排序函数sort()实现数组对象的排序。并且,它可以使用axis参数来指定在指定维度(轴)上进行排序。
在Numpy中,调用sort()函数的方式有两种:np.sort(Ndarray数组对象)Ndarray数组对象.sort()区别在于:前一种方式会返回一个排序好的新数组,不会对原数组的顺序做修改。后一种调用方式会直接在原数组上进行重新排序。一、Numpy175.Numpy的数组运算(1)数组与数值的算术运算Numpy支持数组和数值之间进行加、减、乘、除、求余、乘方等算术运算。(2)数组与数组的算术运算Numpy数组与数组进行运算时,如果两个数组的形状相同,则运算过程为两个数组对应位置的元素进行相应算术运算。如果形状不同,则要利用Numpy的“广播”特性进行计算。一、Numpy186.Numpy的统计函数Numpy支持一组统计函数对数组进行统计分析一、Numpy19Pandas是基于Numpy构建的一个数据分析模块,它也是Python语言中最强大也最重要的数据分析和处理模块之一。Pandas是一个专门为处理表格和混杂数据而设计的高效模块,而Numpy更适合处理统一的数值数据。
二、Pandas20Pandas是基于Numpy构建的一个数据分析模块,它也是Python语言中最强大也最重要的数据分析和处理模块之一。Pandas是一个专门为处理表格和混杂数据而设计的高效模块,而Numpy更适合处理统一的数值数据。
可以在Anaconda命令行终端中使用pip命令或者conda命令进行安装,如下所示。pipinstallpandas#pip安装方式
condainstallpandas#Anaconda安装方式二、Pandas21Pandas的数据结构
Pandas提供了两种重要的数据结构:Series和DataFrame。
(1)SeriesSeries由一组数据(可以是不同数据类型)和与之对应的索引值所组成。创建一个Series对象时,可以通过向pd.Series传递一个Python列表、字典或者Numpy一维数组来实现。二、Pandas22
(2)DataFrame
一个DataFrame对象由多个列组成,每列的数据类型可以不同(数值、文本等)。
创建DataFrame对象的典型方法是向pd.DataFrame()方法传入二维列表、字典或者二维数组。二、Pandas232.查看和获取数据
(1)数据查看和设置
在创建一个DataFrame对象后,可以使用对象的一些内置函数和属性对它的基本信息进行观察和设置。常用的操作包括。获取df的行数:df.shape[0]或者len(df)。获取df的列数:df.shape[1]。获取df的维数:df.shape。获取df的列名或者行名:df.columns或df.index。重新定义列名字:df.columns=[‘A’,‘B’,‘C’]。更改某些列的名字:df.rename(columns={‘x’:‘X’},inplace=True)查看df的概要信息:()查看df中前n行的数据信息:df.head(n)查看df最后n行的信息:df.tail(n)二、Pandas24(2)数据获取
Pandas也支持使用索引和切片等方式获取DataFrame中的值,进而进行计算或者修改。Pandas进行数据索引和切片的方式通常有以下三种:
通过列索引获得对象中的一列或者多列。通过对象的loc[]函数或iloc[]函数获取指定行索引、列索引位置上的数据。使用条件索引获得满足条件的部分数据或切片。二、Pandas25(2)数据获取
二、Pandas263.Pandas的算术运算Pandas支持将Series或DataFrame对象当作一个整体进行算术运算。Pandas提供了两种算术运算方法。第一种是直接采用“+”、“-”、“*”、“/”等算术运算符实现;第二种方法是使用add()、sub()、mul()、div()、mod()等函数实现算术运算。Pandas在对两个对象进行算术运算时,只有对应索引(行索引和列索引)相同的两个数据才可以进行算术运算;而不同索引的数据不能直接进行算术运算,但默认情况下,它们会以NaN出现在计算结果中。二、Pandas273.Pandas的算术运算二、Pandas284.Pandas的统计汇总函数二、Pandas295.Pandas读写文件Pandas可以方便地读取本地文件如CSV、TXT和XLSX等。
(1)读CSV文本文件Pandas使用read_csv()函数读入一个CSV文件,并将所读取的数据存入到一个DataFrame对象中。
read_csv(filepath_or_buffer,sep,delimiter=",",
header=0,encoding="gbk")
主要参数的含义是:filepath_or_buffer:文件路径名,也可以是存储数据的URL地址。sep:读取CSV文件时指定的分隔符,默认为逗号。delimiter:定界符,备选分隔符。header:设置导入DataFrame的列名称。如果设置为0,则表示文件的第0行为列名称。encoding:文件的编码方式,常用的有utf8,ansi和gbk等。二、Pandas30(2)写CSV文本文件
数据处理完毕以后,可以使用to_csv()函数将DataFrame格式的数据保存为CSV文件。to_csv()函数的完整形式如下:
to_csv(path_or_buf,sep,na_rep,index,header,encoding)
主要参数的含义是:path_or_buf:所要保存的文件路径名。sep:数据保存时,不同项目之间的分隔符。na_rep:数据保存时,空值的存储形式。index:bool型值,其中True表示将行索引存入文件,False表示不存储header:可以设置为字符串或布尔列表,默认为True,此时写出列encoding:文件的编码方式,常用的有utf-8,ansi和gbk等。二、Pandas31(1)读Excel文件Pandas可以读写扩展名为.xls或.xlsx的Excel文件。
read_excel(io,sheetname=0,header=0,index_col=None)
主要参数的含义是:io:Excel文件的路径名。sheetname:默认值为0,此时返回Excel中第一个表;也可设置为str,int,list或None。header:指定哪一行作为列名的,默认是第0行。index_col:作用是指定用哪一列作为行索引。二、Pandas32(2)写Excel文件
使用to_excel()函数将DataFrame格式的数据保存为Excel文件。
to_excel(excel_writer,sheetname=None,na_rep="",
header=True,index=True)
二、Pandas33(2)写Excel文件
使用to_excel()函数将DataFrame格式的数据保存为Excel文件。
to_excel(excel_writer,sheetname=None,na_rep="",
header=True,index=True)
主要参数的含义是:excel_writer:所要保存的Excel文件路径名或者Excel_writer对象。sheetname:str类型参数,存放数据的表格名称。na_rep:数据保存时,空值的存储形式,默认为空字符串。header:可设置为bool型或者字符串列表;默认为Truebool型值,其中True表示将行索引存入文件,False表示不存储行索引二、Pandas34
Matplotlib是Python的基础绘图模块,可以绘制多种样式的图形,如线图、直方图、饼图、散点图、三维图形等。
安装Matplotlib模块,可以使用pip或者conda命令:pipinstallmatplotlib
#使用pip安装matplotlibcondainstallmatplotlib#使用conda安装
三、Matplotlib351Matplotlib绘图元素
在Matplotlib中,整个图形是一个画布(Figure)对象。使用Matplotlib进行绘图,实质上是在调用各种函数在画布上添加各种基本绘图元素,并通过设置函数的参数来控制各元素的外形。
三、Matplotlib36设置坐标轴参数所需的函数
三、Matplotlib三、Matplotlib参数名称解释取值linewidth线条宽度取0-10之间的数值,默认为1.5。linestyle线条样式可取“-”“--”“-.”“:”四种。默认为“-”。marker线条上点的形状可取“o”“D”“h”“.”“,”“S”等20种,默认为None。markersize点的大小取0-10之间的数值,默认为1。Matplotlib中图形的参数linestyle取值意义linestyle取值意义-实线-.点线--长虚线:短虚线382常用Matplotlib图形的绘制(1)折线图
使用plot()函数进
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 加强社会主义法制建设
- 中国古代建筑艺术赏析
- 2024年茶艺师(初级)考试题及答案
- 2025届许昌市重点中学高考仿真卷数学试题含解析
- 2025届云南省曲靖市富源六中高考语文四模试卷含解析
- 四川省成都经开区实验高级中学2025届高考仿真卷英语试题含解析
- 2025届山西省浑源县第五中学高考英语押题试卷含解析
- 《solidworks 机械设计实例教程》 课件 任务9.1 台虎钳装配体的设计
- 《放射性衰变》课件
- 2025届新疆师范大学附属实验高中高考数学三模试卷含解析
- 乙状结肠癌学习课件
- 商贸流通培训课件
- DB11T 381-2023 既有居住建筑节能改造技术规程
- 锂电池回收项目投资计划书
- 热网系统培训资料
- 开放系统10862《人文英语(4)》期末机考真题及答案(第105套)
- 独立基础计算(带公式)
- 人教部编版六年级语文上册小古文阅读专项训练含答案
- 新闻摄影培训
- 茶叶店食品安全管理元培训内容
- 电路理论:星形联接与三角形联接的电阻的等效变换
评论
0/150
提交评论