Python数据分析与应用课件汇 (周元哲) 第6-13章 Python网络爬虫- Sklearn

上传人：y*** IP属地：山东上传时间：2024-12-14 格式：PPTX 页数：215 大小：3.51MB 积分：40 举报 版权申诉

Python数据分析与应用课件汇 (周元哲) 第6-13章 Python网络爬虫- Sklearn_第2页

Python数据分析与应用课件汇 (周元哲) 第6-13章 Python网络爬虫- Sklearn_第3页

Python数据分析与应用课件汇 (周元哲) 第6-13章 Python网络爬虫- Sklearn_第4页

Python数据分析与应用课件汇 (周元哲) 第6-13章 Python网络爬虫- Sklearn_第5页

已阅读5页，还剩210页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第6章Python网络爬虫《Python数据分析与应用》网络爬虫网络爬虫(WebSpider)，又被称为网页蜘蛛或网络机器人，通过一定的规则自动地抓取网络信息。网络爬虫就是根据网址获取网页信息。例如，当输入网址：/，浏览器向DNS服务器发出请求，经过解析，将发送给浏览器的HTML、JS、CSS等文件解析出来，便成了百度内容。爬虫流程爬取

Python提供了requests等库实现HTTP请求操作，获取网页的源代码。

Requests

方法解释requests.get()获取html的主要方法requests.head()获取html头部信息的主要方法requests.post()向html网页提交post请求的方法requests.put()向html网页提交put请求的方法requests.patch()向html提交局部修改的请求requests.delete()向html提交删除请求Requests

importrequestsr=requests.get(url='http://www……')#GET请求print(r.status_code)#获取返回状态print(r.url)print(r.text)#打印解码后的返回数据解析从网页源代码中提取有用的信息。方法1：采用正则表达式提取，但是在构造正则表达式时比较复杂且容易出错。方法2：由于网页的结构有一定的规则，可以利用BeautifulSoup、pyquery、lxml等库提取网页节点属性、CSS选择器等网页信息。

存储将提取到的数据保存到某处以便后续处理和分析，可以保存为TXT文本或JSON文本，也可以保存到MySQL和MongoDB等数据库。正则表达式

正则表达式，又称正规表示法、常规表示法，是指通过事先定义好的特定字符（“元字符”）组成的“规则字符串”，对字符串进行过滤逻辑。凡是符合规则的字符串，认为“匹配”，否则，不“匹配”。

正则表达式

采用正则表达式判断一个字符串是否包含合法的Email，需要创建一个匹配Email的正则表达式，然后通过该正则表达式去判断。正则表达式元字符含义输入输出.匹配任意字符

a.cAbc^匹配开始位置^abcAbc$匹配结束位置abc$Abc*

匹配前一个元字符0到多次abc*ab;abccc+匹配前一个元字符1到多次abc+abc;abccc?匹配前一个元字符0到1次abc?ab;abcre模块fIndall()compile()match()search()replace()split()Python中的re模块提供了一个正则表达式引擎接口，允许将正则表达式编译成模式对象，通过这些模式对象执行模式匹配搜索和字符串分割、子串替换等操作。Findall（）>>>importre>>>p=pile(r'\d+')>>>print(p.findall('o1n2m3k4'))['1','2','3','4']search（）>>>importre>>>a="123abc456">>>print(re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(0))123abc456>>>print(re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(1))123>>>print(re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(2))abc>>>print(re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(3))456Match()>>>importre>>>print(re.match('www','').span())#在起始位置匹配(0,3)>>>print(re.match('com',''))#不在起始位置匹配Nonesplit()1）只传一个参数，默认分割整个字符串>>>str="a,b,c,d,e";>>>str.split(',');["a","b","c","d","e"]split()2）传入两个参数，返回限定长度的字符串>>>str="a,b,c,d,e";>>>str.split(',',3);["a","b","c"]

split()3）使用正则表达式匹配，返回分割的字符串>>>str="aa44bb55cc66dd";>>>print(re.split('\d+',str))["aa","bb","cc","dd"]BeautifulSouplxml作为BeautifulSoup库解析器BeautifulSoup

BeautifulSoup将HTML文档转换成一个复杂的树形结构，每个节点都是Python对象BeautifulSoupfromurllib.requestimporturlopenfrombs4importBeautifulSoup#导入BeautifulSoup对象html=urlopen('/new100.html')#打开url,获取html内容bs_obj=BeautifulSoup(html.read(),'html.parser')#把html内容传到BeautifulSoup对象

text_list=bs_obj.find_all("a","navmore")#找到”class=navmore”的a标签fortextintext_list:print(text.get_text())#打印标签的文本html.close()#关闭文件动态网页的内容由JavaScript动态加载生成，而Request模块不能执行JS和CSS代码。一般采用Selenium抓取动态网页的数据,Selenium最初是Web的测试工具，可以操作浏览器，像BeautifulSoup一样得到html页面元素。SeleniumSeleniumphantomjs不同的浏览器，如IE、Chrome、Firefox等，WebDriver需要不同的驱动来实现。

在Firefox浏览器webdriver驱动下载网址/mozilla/geckodriver/releases，下载geckodriver.exe文件。

Selenium Scrapy是Python开发的抓取框架，用于抓取web站点并从页面中提取结构化的数据。在anacondaPrompt下使用命令：pipinstallScrapy进行安装爬虫框架ScrapyScrapy是爬取网站数据的应用框架，可以进行定制化爬取。爬虫框架Scrapy爬取网站数据的应用框架，可以进行定制化爬取。步骤1：创建一个Scrapy项目

步骤2：设置数据存储模板，填写Item.py文件步骤3：编写爬取网站的

spider，填写meiju.py文件步骤4:编写settings.py配置文件步骤5:编写数据处理的Pipeline.py文件，存储提取到的Item数据爬虫框架Scrapy第7章Python与数据分析《Python数据分析与应用》啤酒与尿布“啤酒与尿布”。该故事产生于20世纪90年代的美国沃尔玛超市，超市管理人员分析销售数据时发现了一个令人难于理解的现象——“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在年轻的父亲的同一个购物篮。这是由于在美国有婴儿的家庭中，母亲留在家中照看婴儿，父亲去超市购买尿布。父亲在购买尿布的同时，往往会顺便为自己购买啤酒。至此，超市人员将属于食品饮料的“啤酒”和属于生活用品的“尿布”摆放在一处，从而致使两种商品的销售量直线上升。数据分析流程（1）明确目标（2）获取数据（3）清洗数据（4）特征工程（5）构建模型（6）模型评估。明确目标这是数据分析与挖掘的第一步，即明确数据分析的对象、目标、或任务。此环节应该跟业务需求方多次沟通与合作，把握最终要解决的问题。规划哪些数据可能会影响到这些问题的答案，这一步就称为数据的获取过程。数据获取数据清洗为确保数据分析或挖掘结果的准确性，往往需要对数据做一些基本的清洗和整理，如数据的一致性检验、缺失值和异常值的处理等。特征工程通过Scipy、Pandas、Sklearn等分析库对数据进行统一量纲等标准化处理，对数据进行离散化处理，采用哑变量、独热编码进行数据重编码，实施特征工程。模型评估通常情况下，在模型搭建好后，并不意味着分析或挖掘任务的结束，还需要对模型的拟合效果做评估，其目的就是不断优化模型，使最终的模型能够更好地反映数据的真实性。构建模型建模的目的主要是为了预测，例如使用线性回归模型预测产品的销售额；利用决策树模型预测用户是否具有欺诈行为；利用朴素贝叶斯模型预测邮件是否为垃圾邮件。Python数据分析库库名简

介Numpy提供数组支持，以及相应的高效处理函数Matplotlib强大的数据可视化工具、作图库Pandas强大的数据分析、数据处理和数据清洗工具seaborn数据可视化工具、作图库Scipy提供矩阵支持，以及矩阵相关的数值计算模块sklearn经典的机器学习库NumpyNumPy是Python的数据分析的基本库，是在Python的Numeric数据类型的基础上，引入Scipy模块中针对数据对象处理的功能，用于数值数组和矩阵类型的运算、矢量处理等。MatplotlibMatplotlib具有两个重要的模块——pylab和pyplot。Pylab实现了MATLAB的绘图功能，就是MATLAB的Python版本。pyplot主要用于将NumPy统计结果可视化，可以绘制线图、直方图、饼图、散点图以及误差线图等各种图形。Pandas

Pandas的名称来源于面板数据（PanelData）和Python数据分析（DataAnalysis），作为Python进行数据分析和挖掘时的数据基础平台和事实上的工业标准，支持关系型数据的增、删、改、查，具有丰富的数据处理函数，支持时间序列分析功能，灵活处理缺失数据等。seabornSeaborn是图形可视化python包，作为matplotlib的补充，在其基础上进行了更高级的API封装，高度兼容numpy与pandas数据结构以及scipy等统计模式，能做出具有吸引力的图。ScipyScipy是2001年发行的类似于Matlab和Mathematica等数学计算软件的Python库，用于统计、优化、整合、线性代数模块、傅里叶变换、信号和图像处理等数值计算。scipy具有stats（统计学工具包）、erpolate（插值，线性的，三次方）、cluster（聚类）、signal（信号处理）等模块。SklearnSklearn（又称为scikit-learn）是简单高效的数据挖掘和数据分析工具，基于python语言的NumPy、SciPy和matplotlib库之上，是当前较为流行的机器学习框架。数据分类定类数据：表示个体在属性上的特征和类别上的不同变量，只是一种标志，没有次序关系，不可以直接测量的数据。如外貌，出生地等。定序数据：表示个体在某个有序状态中所处的位置，不能直接做四则运算。如学历分为初中、高中、大学、硕士、博士等。定量数据：定量数据又称为定距数据，具有间距特征的变量，可以直接测量的数据，如身高、体重、气温等。数据统计量（1）极差极差又称范围误差或全距，用来衡量指定变量间差异变化范围，是最大值与最小值的差距，用于标志值变动的最大范围。通常极差越大，样本变化范围越大。（2）平均数平均值用于测量数据集中趋势，计算公式是所有数据之和除以数据的个数。数据统计量（3）中位数中位数是指将样本数值集合划分为数量相等或相差1的上下两部分。对于有限的数集，可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个，通常取最中间的两个数值的平均数作为中位数。（4）众数众数是样本观测值在频数分布表中频数最多的那组数。例如：1，2，2，2，3，3，4的众数是2。如果所有数据出现的次数都一样，那么这组数据没有众数。例如：1，2，3，4，5没有众数。数据统计量（5）方差方差是实际值与期望值之差平方的平均值，方差是在概率论和统计方差衡量随机变量或一组数据是离散程度的度量。（6）协方差协方差用于衡量两个变量的总体误差，两个变量是否相对它们各自平均值有一致行为。1）如果两个变量同时处于平均值之上或之下，两个变量就是正关联性。2）如果两个变量一个处于平均值之上，另一个处于平均值之下，就是负关联性。当两个变量相同时，协方差就是方差。数据统计量皮尔森相关系数度量两个变量之间的相关程度其值介于-1与+1之间，表示两变量存在一定程度的相关，越接近1，两变量间线性关系越密切；越接近于0，表示两变量的线性相关越弱

数据可视化数据可视化是指将大型数据集中的数据以统计图表和图形图像形式呈现，表现抽象或复杂的概念、技术和信息，并利用数据分析和开发工具发现其中未知信息的处理过程。数据可视化起源于1960年代计算机图形学，通过计算机创建图形图表，将数据的各种属性和变量呈现出来，通过饼图、直方图、散点图、柱状图等原始的统计图表将数据可视化是最基础和常见应用。折线图折线图又名线形图，或折线统计图，是以折线的上升或下降表示数量变化的统计图。折线图不仅可以表示数量的多少，而且反映同一事物在不同时间里数据的变化趋势。

饼图饼图属于最传统的统计图形之一，通过各扇形面积的大小反映部分与部分，部分与总体的比例关系。但不擅长对比差异不大或水平值过多的离散型变量。散点图散点图又称为散点分布图，和折线图需要的数组非常相似，区别是折线图会将各数据点连接起来；而散点图则只是描绘各数据点，并不会将这些数据点连接起来。直方图直方图又称质量分布图，由一系列高度不等的纵向条纹和线段表示数据分布形态，一般用横轴表示数据所属类别，纵轴表示数量或者占比。条形图条形图是统计图资料分析中最常用的图形，又名柱状图，可以清楚地表明各种数量的多少，用来描述各个类别之间的关系。箱线图箱线图又称箱形图或盒式图，主要用于分析数据内部的分布状态或分散状态，不同于折线图、柱状图或饼图等传统图表只是数据大小、占比、趋势的呈现。箱线图包含统计学的均值、分位数、极值等统计量，用于分析不同类别数据平均水平差异，展示属性与中位数离散速度，并揭示数据间离散程度、异常值、分布差异等。箱线图是一种基于“五位数”摘要显示数据分布的标准化方法热力图热力图又称为热点图，也称为交叉填充表，展示两个离散变量的组合关系，通过每个单元格颜色的深浅代表数值的高低以及差异情况。第8章

Numpy《Python数据分析与应用》NumPy NumPy是Python的开源数字扩展，定义了数值数组和矩阵类型以及基本运算的语言扩展，用于矩阵数据、矢量处理等。 Numpy的官方网址/NumPyndarray属性名含义ndarray.ndim数组的轴（维度）的数量ndarray.shape数组的维度。为一个整数元组，表示每个维度上的大小。对于一个n行m列的矩阵来说，shape就是（n，m）。shape元组的长度就是秩（或者维度的数量）ndim。ndarray.size数组的元素的总个数。这等于shape元素的乘积。ndarray.dtype用来描述数组中元素类型的对象。ndarray.itermsize数组的每个元素的字节大小。例如，一个类型为float64的元素的数组itemsize为8。ndarray.data该缓冲区包含了数组的实际元素。python提供array模块，但是array不支持多维，也没有各种运算函数，不适合做数值运算。

而numpy提供的同质多维数组ndarray正好弥补以上不足。创建数组ArrayArangeLinspacelogspace1.array创建数组importnumpyasnp#引入numpy库a=np.array([[1,5],[4,5,7]])#创建数组，将元组或列表作为参数a5=np.array(([1,5,3,4,5],[6,7,8,9,5]))#创建二维的narray对象print(type(a))#a的类型是数组print(type(a5))print(a)print(a5)2.arange函数创建数组importnumpyasnpa=np.arange(15)#利用arange函数创建数组print(a)a5=np.arange(1,5,0.1)#arang函数和range函数print(a5)3.linspace用于创建指定数量等间隔的序列，实际生成一个等差数列importnumpyasnpa=np.linspace(0,1,15)#从0开始到1结束，共15个数的等差数列print(a)4.logspace用于生成等比数列importnumpyasnpa=np.logspace(0,5,5)#生成首位是10的0次方，末位是10的5次方，含5个数的等比数列print(a)查看数组importnumpyasnp#引入numpy库a=np.array([[1,5],[4,5,7],3])#创建数组，将元组或列表作为参数a5=np.array(([1,5,3,4,5],[6,7,8,9,5]))#创建二维的narray对象print(type(a))#a的类型是数组print(a)print(a5)print(a.dtype)#查看a数组中每个元素的类型print(a6.dtype)#查看a5数组中每个元素的类型查看数组importnumpyasnp#引入numpy库a=np.array([[1,5],[4,5,7],3])a5=np.array(([1,5,3,4,5],[6,7,8,9,5]))#创建二维narrayprint(a.shape)#查看数组的行列，3行print(a6.shape)#查看数组的行列，返回5行5列print(a.shape[0])#查看a的行数print(a6.shape[1])#查看a5的列数print(a.ndim)#获取数组的维数print(a6.ndim)print(a6.T)#简单转置矩阵ndarray索引和切片importnumpyasnpa=np.array([[1,5,3,4,5],[6,7,8,9,5]])print(a)print(a[:])#选取全部元素print(a[1])#选取行为1的全部元素print(a[0:1])#截取[0,1)的元素print(a[1,5:5])#截取第二行第[5,5）的元素[895]print(a[1,:])#截取第二行,返回[67895]print(a[1,5])#截取行号为一，列号为5的元素8print(a[1][5])线性代数函

数z说明函

数说

明np.zeros生成零矩阵np.ones生成所有元素为1的矩阵np.eye生成单位矩阵np.transpose矩阵转置np.dot计算两个数组的点积np.inner计算两个数组的内积np.diag矩阵主对角线与一维数组间转换np.trace矩阵主对角线元素的和np.linalg.det计算矩阵行列式np.linalg.eig计算特征根与特征向量np.linalg.eigvals计算方阵特征根np.linalg.inv计算方阵的逆np.linalg.pinv计算方阵的Moore-Penrose伪逆np.linalg.solve计算Ax=b线性方程组解np.linalg.lstsq计算Ax=b的最小二乘解np.linalg.qr计算QR分解np.linalg.svd计算奇异值分解np.linalg.norm计算向量或矩阵的范数四则运算importnumpyasnpimportnumpy.linalgaslg#求矩阵的逆需要先导入numpy.linalga1=np.array([[1,2,3],[4,5,6],[5,4,5]])a5=np.array([[1,5,4],[3,4,7],[7,5,6]])print(a1+a5)#相加print(a1-a5)#相减print(a1/a5)#对应元素相除，如果都是整数则取商print(a1%a5)#对应元素相除后取余数print(a1**5)#矩阵每个元素都取n次方矩阵运算importnumpyasnpimportnumpy.linalgaslg#求矩阵的逆需要先导入numpy.linalga1=np.array([[1,2,3],[4,5,6],[5,4,5]])a5=np.array([[1,5,4],[3,4,7],[7,5,6]])print(a1.dot(a5))#点乘满足：第一个矩阵的列数等于第二个矩阵的行数print(a1.transpose())#转置等价于print(a1.T)print(lg.inv(a1))#用linalg的inv函数来求逆特征根和特征向量importnumpyasnparr=np.array([[1,2,5],[3,6,7],[4,2,9]])print('计算3×3方阵的特征根和特征向量：\n',arr)print('求解结果为：\n',np.linalg.eig(arr))多元一次方程组importnumpyasnp#多元线性方程组a=np.array([[1,3,5],[2,5,-1],[2,4,7]])b=np.array([10,6,4])x=np.linalg.solve(a,b)print(x)统计量函

数说明函

数说

明min(arr,axis)最小值cumsum(arr,axis)轴方向计算累计和max(arr,axis)最大值cumprod(arr,axis)轴方向计算累计乘积mean(arr,axis)平均值argmin(arr,axis)轴方向最小值所在的位置median(arr,axis)中位数argmax(arr,axis)轴方向最大值所在的位置sum(arr,axis)和corrcoef(arr)计算皮尔逊相关系数std(arr,axis)标准差cov(arr)计算协方差矩阵var(arr,axis)方差

平均值importnumpyasnpX=np.array([160,165,157,122,159,126,160,162,121])#方法1：num=len(X)sum=sum(X)mean=sum/numprint(mean)#方法2：mean=np.mean(X)print(mean)最值importnumpyasnpX=np.array([160,165,157,122,159,126,160,162,121])MIN=np.min(X)MAX=np.max(X)print(MIN)print(MAX)中位数importnumpyasnpX=np.array([160,165,157,122,159,126,160,162,121])median=np.median(X)print(median)极差importnumpyasnpa=np.array([[3,2,5],[7,4,3],[2,4,9]])print('数组是：',a)print('调用ptp()函数：',np.ptp(a))print('沿轴1调用ptp()函数：',np.ptp(a,axis=1))print('沿轴0调用ptp()函数：',np.ptp(a,axis=0))方差importnumpyasnpX=np.array([1,5,6])var=X.var()print(var)协方差importnumpyasnpX=np.array([[1,5,6],[4,3,9],[4,2,9],[4,2,2]])cov=np.cov(X)print(cov)第9章

Matplotlib

《Python数据分析与应用》MatplotlibMatplotlib发布于2007年，在其函数设计时参考MATLAB相关函数，故命名以“Mat”开头，“Plot”表示绘图，“Lib”为集合。Matplotlib可以绘制线图、直方图、饼图、散点图以及误差线图等各种图形，主要用于将NumPy统计计算结果可视化。Matplotlib官方网址为：/Matplotlib绘图步骤Matplotlib画图流程大致分为如下步骤：步骤1：figure函数创建画布，决定是否创建子图。步骤2：使用plot函数绘制图形。步骤3：设置绘图对象的各种属性。importmatplotlib.pyplotaspltfig=plt.figure()ax=fig.add_subplot(111)ax.set(xlim=[0.5,4.5],ylim=[-2,8],title='AnExample Axes‘,ylabel='Y-Axis',xlabel='X-Axis')plt.show()

绘图函数Matplotlib中绘图函数为plot，使用语法如下：plt.plot(x,y,color,marker,linestyle,**kwargs)参数接收值说明默认值x，yarray表示x轴与y轴对应的数据；无colorstring表示折线的颜色；Nonemarkerstring表示折线上数据点处的类型；Nonelinestylestring表示折线的类型；-linewidth数值线条粗细：linewidth=1.=5.=0.31alpha

0~1之间的小数表示点的透明度；Nonelabelstring数据图例内容：label=‘实际数据’None子图Matplotlib提供如下三种方式绘制子图：（1）通过plt的subplot；（2）通过figure的add_subplot；（3）通过plt的subplots。子图subplot(233)表示在当前画布的右上角创建一个两行三列的绘图区域，选择在第3个位置绘制子图二维图函数名称描述函数名称描述Bar绘制条形图Polar绘制极坐标图Barh绘制水平条形图Scatter绘制x与y的散点图Boxplot绘制箱型图Stackplot绘制堆叠图Hist绘制直方图Stem绘制二维离散数据(“火柴图”）his2d绘制2D直方图Step绘制阶梯图Pie绘制饼状图Quiver绘制一个二维按箭头线性图使用plot函数实现画线。plot函数的第一个数组是横轴的值，第二个数组是纵轴的值,最后一个参数表示线的颜色。importmatplotlib.pyplotaspltplt.plot([1,2,3],[3,6,9],'-r')plt.plot([1,2,3],[2,4,9],':g')plt.show()

散点图

scatter函数用来绘制散点图。scatter函数也需要两组配对的数据指定x和y轴的坐标。importmatplotlib.pyplotaspltimportnumpyasnp

N=20

plt.scatter(np.random.rand(N)*100,np.random.rand(N)*100,c='r',s=100,alpha=0.5)plt.scatter(np.random.rand(N)*100,np.random.rand(N)*100,c='g',s=200,alpha=0.5)plt.scatter(np.random.rand(N)*100,np.random.rand(N)*100,c='b',s=300,alpha=0.5)

plt.show()饼状图pie函数用来绘制饼状图,用来表达集合中各个部分的百分比。importnumpyasnplabels=['Mon','Tue','Wed','Thu','Fri','Sat','Sun']data=np.random.rand(7)*100plt.pie(data,labels=labels,autopct='%1.1f%%')plt.axis('equal')plt.legend()plt.show()条形图bar函数用来绘制条形图,用来描述一组数据的对比情况，例如：一周七天，每天的城市车流量。直方图直方图用hist函数用来绘制,看起来与条形图有些类似。但它们的含义是不一样，直方图描述了某个范围内数据出现的频度。箱线图importnumpyasnpimportpandasaspdimportmatplotlib.pyplotaspltnp.random.seed(2)df=pd.DataFrame(np.random.rand(5,4),columns=['A','B','C','D'])#生成0~1的5*4维度数据并存入4列DataFrame中

df.boxplot()plt.show()#显示图像三维图三维图创建主要有如下两种方式：（1）利用关键字projection='3d’来实现（2）通过从mpl_toolkits.mplot3d导入对象Axes3D来实现三维曲线图frommpl_toolkitsimportmplot3dimportmatplotlib.pyplotaspltimportnumpyasnp

ax=plt.axes(projection='3d')

#三维线的数据zline=np.linspace(0,15,1000)xline=np.sin(zline)yline=np.cos(zline)ax.plot3D(xline,yline,zline,'gray')三维散点图importmatplotlib.pyplotaspltimportnumpyasnp

ax=plt.axes(projection='3d')

zdata=15*np.random.random(100)xdata=np.sin(zdata)+0.1*np.random.randn(100)ydata=np.cos(zdata)+0.1*np.random.randn(100)ax.scatter3D(xdata,ydata,zdata,c=zdata,cmap='Reds')三维等高线图frommpl_toolkitsimportmplot3dimportmatplotlib.pyplotaspltimportnumpyasnp

deff(x,y):returnnp.sin(np.sqrt(x**2+y**2))x=np.linspace(-6,6,30)y=np.linspace(-6,6,30)X,Y=np.meshgrid(x,y)Z=f(X,Y)

fig=plt.figure()ax=plt.axes(projection='3d')ax.contour3D(X,Y,Z,50,cmap='binary')ax.set_xlabel('x')ax.set_ylabel('y')ax.set_zlabel('z')#俯仰角设为60度，把方位角调整为35度ax.view_init(60,35)动态图matplotlib画图有阻塞和交互两种显示模式：（1）阻塞模式：采用plt.show显示图片，且图片关闭之前代码将阻塞在该行（2）交互模式：采用plt.plot显示图片，且不阻塞代码的继续运行。Matplotlib中默认是使用阻塞模式。

matplotlib的animation模块实现动态图较为繁琐。而交互式绘图和暂停功能较为简单，通过“画图-->清理-->画图”的循环实现动态效果。相关函数如下所示：plt.ion()：打开交互模式plt.ioff()：关闭交互模式plt.clf()：清除当前的Figure对象plt.cla()：清除当前的Axes对象plt.pause()：暂停功能概率分布泊松分布正态分布均匀分布二项分布泊松分布importnumpyasnpimportmatplotlib.pyplotaspltlist=np.random.poisson(9,10000)plt.hist(list,bins=8,color='b',alpha=0.4,edgecolor='r')plt.show()正态分布importnumpyasnpimportmatplotlib.pyplotaspltlist=np.random.normal(0,1,10000)plt.hist(list,bins=8,color='r',alpha=0.5,edgecolor='r')plt.show()均匀分布importnumpyasnpimportmatplotlib.pyplotasplt

list=np.random.uniform(0,10,10000)plt.hist(list,bins=7,color='g',alpha=0.4,edgecolor='b')plt.show()二项分布importnumpyasnpimportmatplotlib.pyplotaspltlist=np.random.binomial(n=10,p=0.5,size=10000)plt.hist(list,bins=8,color='g',alpha=0.4,edgecolor='b')plt.show()三维图三维图创建主要有如下两种方式利用关键字projection='3d’来实现通过从mpl_toolkits.mplot3d导入对象Axes3D来实现三维曲线图frommpl_toolkitsimportmplot3dimportmatplotlib.pyplotaspltimportnumpyasnp

ax=plt.axes(projection='3d')

#三维线的数据zline=np.linspace(0,15,1000)xline=np.sin(zline)yline=np.cos(zline)ax.plot3D(xline,yline,zline,'gray')三维散点图importmatplotlib.pyplotaspltimportnumpyasnp

ax=plt.axes(projection='3d')

zdata=15*np.random.random(100)xdata=np.sin(zdata)+0.1*np.random.randn(100)ydata=np.cos(zdata)+0.1*np.random.randn(100)ax.scatter3D(xdata,ydata,zdata,c=zdata,cmap='Reds')第10章Pandas

《Python数据分析与应用》pandaspandas是基于NumPy的数据分析工具，官方网址是。pandas提供了快速，灵活和富有表现力的数据结构，目的是使“关系”或“标记”数据的工作既简单又直观。Pandas用于数据清洗，对噪音等数据进行处理，从而便于机器学习和数据分析。pandaspandas常用6个类Series：基本数据结构，一维标签数组，能够保存任何数据类型DataFrame：基本数据结构，一般为二维数组，是一组有序的列Index：索引对象，负责管理轴标签和其他元数据（比如轴名称）groupby：分组对象，通过传入需要分组的参数实现对数据分组Timestamp：时间戳对象，表示时间轴上的一个时刻Timedelta：时间差对象，用来计算两个时间点的差值Pandas2个重要类创建Series

创建Series对象的函数是Series，它的主要参数是data和index，其基本语法格式如下。pandas.Series(data=None,

index=None,

name=None)

参数说明如下：data：接收array或dict。表示接收的数据。默认为None。index：接收array或list。表示索引，必须与数据长度相同name：接收string或list。表示Series对象的名称。默认为None。通过ndarray创建Seriesimportpandasaspdimportnumpyasnpprint('通过ndarray创建的Series为：\n',pd.Series(np.arange(5),index=['a','b','c','d','e'],name='ndarray'))通过dict创建Seriesdict的键作为Series的索引，dict的值作为Series的值，无须传入index参数。通过dict创建Series对象，代码如下所示：importpandasaspddict={'a':0,'b':1,'c':5,'d':3,'e':4}print('通过dict创建的Series为：\n',pd.Series(dict))通过list创建Seriesimportpandasaspdlist1=[0,1,5,3,4]print('通过list创建的Series为：\n',pd.Series(list1,index=['a','b','c','d','e'],name='list'))Series属性Series拥有8个常用属性，如下所示。values：以ndarray的格式返回Series对象的所有元素index：返回Series对象的索引dtype：返回Series对象的数据类型shape：返回Series对象的形状nbytes：返回Series对象的字节数ndim：返回Series对象的维度size：返回Series对象的个数T：返回Series对象的转置访问Series的属性importpandasaspdseries1=pd.Series([1,5,3,4])print("series1:\n{}\n".format(series1))print("series1.values:{}\n".format(series1.values))#数据print("series1.index:{}\n".format(series1.index))#索引print("series1.shape:{}\n".format(series1.shape))#形状print("series1.ndim:{}\n".format(series1.ndim))#维度访问Series数据通过索引位置访问Series的数据与ndarray相同，importpandasaspdseries5=pd.Series([1,5,3,4,5,6,7],index=["C","D","E","F","G","A","B"])#通过索引位置访问Series数据子集print("series5位于第1位置的数据为:",series5[0])#通过索引名称（标签）也可以访问Series数据print("Eis{}\n".format(series5["E"]))更新Seriesimportpandasaspdseries1=pd.Series(list1,index=['a','b','c','d','e'],name='list')print("series1:\n{}\n".format(series1))#更新元素series1['a']=3print('更新后的Series1为：\n',series1)追加Series和插入单个值importpandasaspdseries1=pd.Series(list1,index=['a','b','c','d','e'],name='list')print("series1:\n{}\n".format(series1))series1=pd.Series([4,5],index=['f','g'])#追加Seriesprint('在series插入series1后为：\n',series.append(series1))删除Series元素importpandasaspdseries=pd.Series(list1,index=['a','b','c','d','e'],name='list')print("series:\n{}\n".format(series))#删除数据series.drop('e',inplace=True)print('删除索引e对应数据后的series为：\n',series)。DataFrameDataFrame是pandas基本数据结构，类似数据库中的表。DataFrame既有行索引，也有列索引，可以看作是Series组成的dict，每个Series是DataFrame的一列

创建DataFrameDataFrame函数用于创建DataFrame对象，其基本语法格式如下pandas.DataFrame(data=None,

index=None,

columns=None,

dtype=None,

copy=False)参数说明如下所示：data：接收ndarray、dict、list或DataFrame。表示输入数据。默认为None。index：接收Index，ndarray。表示索引。默认为None。columns：接收Index，ndarray。表示列标签（列名）。默认为None。通过dict创建DataFrameimportpandasaspddict1={'col1':[0,1,5,3,4],'col5':[5,6,7,8,9]}print('通过dict创建的DataFrame为：\n',pd.DataFrame(dict1,index=['a','b','c','d','e']))通过list创建DataFrameimportpandasaspdlist5=[[0,5],[1,6],[5,7],[3,8],[4,9]]print('通过list创建的DataFrame为：\n',pd.DataFrame(list5,index=['a','b','c','d','e'],columns=['col1','col5']))通过Series创建DataFrameimportpandasaspdnoteSeries

pd.Series(["C",

"D",

"E",

"F",

"G",

"A",

"B"],

index=[1,

7])weekdaySeries

pd.Series(["Mon",

"Tue",

"Wed",

"Thu","Fri",

"Sat",

"Sun"],

index=[1,

7])df4

pd.DataFrame([noteSeries,

weekdaySeries])print("df4:\n{}\n".format(df4))DataFrame属性values：以ndarray的格式返回DataFrame对象的所有元素index：返回DataFrame对象的Indexcolumns：返回DataFrame对象的列标签dtypes：返回DataFrame对象的数据类型axes：返回DataFrame对象的轴标签ndim：返回DataFrame对象的轴尺寸数size：返回DataFrame对象的个数shape：返回DataFrame对象的形状更新DataFrameimportpandasaspddf=pd.DataFrame({'col1':[0,1,5,3,4],'col5':[5,6,7,8,9]},index=['a','b','c','d','e'])print('DataFrame为：\n',df)#更新列df['col1']=[10,11,15,13,14]print('更新列后的DataFrame为：\n',df)插入和删除DataFrameimportpandasaspddf3=pd.DataFrame({"note":["C","D","E","F","G","A","B"],"weekday":["Mon","Tue","Wed","Thu","Fri","Sat","Sun"]})print("df3:\n{}\n".format(df3))df3["No."]=pd.Series([1,5,3,4,5,6,7])#采用赋值的方法插入列print("df3:\n{}\n".format(df3))deldf3["weekday"]#删除列的方法有多种，如del、pop、dropprint("df3:\n{}\n".format(df3))Index

（1）

隐式创建

创建Series或DataFrame等对象时，索引会转换为Index对象

（2）显式创建

Index对象可以通过pandas.Index()函数创建

。

plotMatplotlib绘制一张图表需要各个基础组件对象，工作量较大。而pandas中使用行标签和列标签以及分组信息，较为简便的完成图表的制作。散点图

importnumpyasnpimportpandasaspdwdf=pd.DataFrame(np.arange(20),columns=['W'])wdf['Y']=wdf['W']*1.5+2wdf.iloc[3,1]=128wdf.iloc[18,1]=150wdf.plot(kind='scatter',x='W',y='Y')

条形图importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltdf2=pd.DataFrame(np.random.rand(10,4),columns=['a','b','c','d'])df2.plot.bar()plt.show()

直方图与密度图importpandasaspdimportnumpyasnp

n1=np.random.normal(loc=10,scale=5,size=1000)n2=np.random.normal(loc=50,scale=7,size=1000)n=np.hstack((n1,n2))s=pd.DataFrame(data=n)s.plot(kind='hist',bins=100,density=True)s.plot(kind='kde')

箱线图importnumpyasnpimportpandasaspd

wdf=pd.DataFrame(np.arange(20),columns=['W'])wdf['Y']=wdf['W']*1.5+2wdf.iloc[3,1]=128wdf.iloc[18,1]=150importmatplotlib.pyplotaspltplt.boxplot(wdf)plt.show()面积图importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltdf=pd.DataFrame(np.random.rand(10,4),columns=['a','b','c','d'])df.plot.area()

plt.show()数据转换函数名说

明df.replace(a,b)df.replace(a,b)是指用b替换a值df['col1'].map()对指定列进行函数转换，用于Series。pd.merge(df1,df2)用于合并df1和df2，按照共有的列连接bine_first(df2)用df2的数据补充df1的缺失值。

pandas.cut将连续数据进行离散化数据分组与聚合函数名说

明df.groupby数据分组Df.agg数据聚合数据处理函数名说

明df.fillna缺失值填充df.dropna缺失值删除df.duplicated()df.drop_duplicates()重复值清洗读取外部数据函数名说

明pd.read_excel操作Excel读取文本文件的命令是

read_csv或者

read_table，将

DataFrame写入CSV文件命令为

df.to_csv操作文本文件Pandas操作mysql数据库，使用pymysql模块的read_sql读取数据，使用read_sql_query（）函数查询数据，to_sql（）函数写入数据到数据库。操作数据库第11章scipy

《Python数据分析与应用》ScipyScipy用于统计、优化、整合、线性代数模块、傅里叶变换、信号和图像处理等，常用的scipy工具有stats（统计学工具包）、erpolate（插值，线性的，三次方）、cluster（聚类）、signal（信号处理）等。安装scipy之前必须安装numpyScipy官方网址。ScipyScipy功能函数功能函数积分egrate线性代数scipy.linalg信号处理scipy.signal稀疏矩阵scipy.sparse空间数据结构和算法scipy.spatial统计学scipy.stats最优化scipy.optimize多维图像处理scipy.ndimage插值erpolate聚类scipy.cluster曲线拟合scipy.curve_fit文件输入/输出scipy.io傅里叶变换scipy.fftpack稀疏矩阵

在矩阵中，若数值为0的元素数目远远多于非0元素的数目，并且非0元素分布没有规律时，则称该矩阵为稀疏矩阵。coo_matrix()用于创建稀疏矩阵,语法如下所示。

coo_matrix((data,(i,j)),[shape=(M,N)])矩阵运算fromscipy.linalgimport*importnumpyasnp

A=np.matrix('[1,2;3,4]')print(A)print(A.T)#转置矩阵print(A.I)#逆矩阵[[12][34]][[13][24]][[-2.1.][1.5-0.5]]线性方程组求解

fromscipyimportlinalgimportnumpyasnpa=np.array([[1,3,5],[2,5,-1],[2,4,7]])b=np.array([10,6,4])x=linalg.solve(a,b)print(x)非线性方程组求解

fromscipy.optimizeimportfsolvefrommathimportsindeff(x):

x0,x1,x2=x.tolist()

return[5*x1+3,4*x0*x0-2*sin(x1*x2),x1*x2-1.5]

#f计算方程组的误差，[1,1,1]是未知数的初始值result=fsolve(f,[1,1,1])

print(result)print(f(result))函数最值

fromscipy.optimizeimportminimizeimportnumpyasnp

#计算1/x+x的最小值deffun(args):a=argsv=lambdax:a/x[0]+x[0]returnvif__name__=="__main__":args=(1)#ax0=np.asarray((2))#初始猜测值res=minimize(fun(args),x0,method='SLSQP')print(res.fun)print(res.success)print(res.x)最小二乘法

最小二乘法可以理解为就是通过最小化误差的平方和来寻找最佳的匹配函数，常用于曲线拟合。一般情况下拟合的曲线为k*x+b函数，即寻找最好的k、b值实现分类效果。 scipy的leastsq函数用于最小二乘法的拟合

scipy.optimize.leastsq(func,x0,args=())数据分布泊松分布正态分布指数分布均匀分布正态分布正态分布（Normaldistribution），也称“常态分布”，又名高斯分布（Gaussiandistribution），正态曲线呈钟型，两头低，中间高，左右对称因其曲线呈钟形，又称之为钟形曲线。scipy.norm实现正态分布。binomial=stats.binom.pmf(k,n,p)指数分布

指数分布描述的是事件发生的时间间隔，主要用于描述电子元器件的寿命。

scipy.expon实现指数分布。泊松分布#平均值,方差,偏度,峰度mean,var,skew,kurt=poisson.stats(mu,moments='mvsk')泊松分布用于描述单位时间/面积内，随机事件发生的次数。例如，譬如：某一服务设施一定时间内到达的人数、一个月内机器损坏的次数等。指数分布指数分布描述的是事件发生的时间间隔，主要用于描述电子元器件的寿命。scipy.expon实现指数分布。统计量统计量包括平均数、中位数、众数、样本均值（即n个样本的算术平均值），样本方差（即n个样本与样本均值之间平均偏离程度的度量）等，用于数据进行分析、检验的变量。

众数是指在统计分布上具有明显集中趋势点的数值，是出现次数最多的数值，代表数据的一般水平。scipy.stats提供mode函数实现求众数。scipy.stats模块提供了pearsonr函数计算皮尔森相关系数，语法如下所示：fromscipy.statsimportpearsonrpearsonr(x,y)参数解释如下：x为特征，y为目标变量。图像处理图像处理和分析通常被看作是对二维值数组的操作。scipy.ndimage提供了许多通用的图像处理和分析功能，支持图像矩阵变换、图像滤波、图像卷积等功能。图像旋转Scipy提供ndimage.rotate函数用于旋转图像。rotate_flower=ndimage.rotate(flower,45)plt.imshow(rotate_flower)plt.title('rotate_flower')图像平滑

图像平滑是一种区域增强的算法，用于突出图像的低频成分、主干部分或抑制图像的噪声和干扰高频成分，使图像亮度平缓渐变、减少突变梯度，改善图像质量的图像处理方法。图像平滑分为：高斯滤波中值滤波高斯滤波scipy.ndimage模块提供gaussian_filter函数。fromscipyimportndimageimportmatplotlib.imageasmpimgimportmatplotlib.pyplotaspltflower=mpimg.imread('d://flower.jpg')flower1=ndimage.gaussian_filter(flower,sigma=3)plt.imshow(flower1)plt.show()scipy.ndimage模块的median_filte函数实现中值滤波。fromscipyimportndi

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

Python数据分析与应用课件汇 (周元哲) 第6-13章 Python网络爬虫- Sklearn

文档简介

温馨提示

最新文档

评论

Python数据分析与应用 课件汇 (周元哲) 第6-13章 Python网络爬虫- Sklearn

文档简介

温馨提示

最新文档

评论

相关文档

Python数据分析与应用课件汇 (周元哲) 第6-13章 Python网络爬虫- Sklearn