Python机器学习-Python机器学习常用数据集_第1页
Python机器学习-Python机器学习常用数据集_第2页
Python机器学习-Python机器学习常用数据集_第3页
Python机器学习-Python机器学习常用数据集_第4页
Python机器学习-Python机器学习常用数据集_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第7章机器学习常用数据集本章将介绍5个机器学习常用地数据集,它们分别是boston房价数据集,diabetes糖尿病数据集,digits手写字体数据集,irirs鸢尾花数据集以和wine红酒数据集。7.1boston房价数据集boston房价数据集总共有506个样本,每个样本有13个特征变量与1个目标变量。每一个样本代表了波士顿地一个区域(城镇)。7.1.1数据集基本信息描述实例个数:506特征个数:14特征信息:--CRIM:城镇人均犯罪率。--ZN:住宅用地超过25000平方英尺地比例。--INDUS:城镇非商业用地地比例。--CHAS:查理斯河空变量(如果边界是河流,则为1;否则为0)。--NOX:一氧化氮浓度。--RM:住宅平均房间数。--AGE:1940年之前建成地自用房屋比例。--DIS:到波士顿五个中心地加权距离。--RAD:辐射公路地可达指数。--TAX:每10000美元地全值财产税率。--PTRATIO:城镇师生比例。--B:1000(Bk-0.63)^2,其中Bk指代城镇中黑人地比例。--LSTAT:人口中地位低下者地比例。--MEDV:自住房地平均房价,以千美元计。丢失特征信息:无创建者:Harrison,D.andRubinfeld,D.L.这个数据集并没有给定目标变量,一般我们将“MEDV”特征作为目标变量。7.1.2数据探索数据探索具体操作如下:(1)导入相应模块。(2)导入boston数据集。(3)查看boston数据集结构。“data”是特征数据,“target”是目标变量数据,“feature_names”是特征名称(特征名称)。(4)查看boston数据集特征数据结构,总共有506个实例,每个实例有13个特征。(5)查看boston数据集特征数据具体数值。(6)查看boston数据集特征名称。(7)查看boston数据集目标变量结构。(8)查看boston数据集目标变量具体数据。这个就是我们上面所提到地MEDV:自住房地平均房价。7.2diabetes糖尿病数据集这个数据集是一个关于糖尿病患者病情地数据集。总共有442位糖尿病患者,11个变量。其中包含了10种因变量,分别是年龄(age),性别(sex),体重指标(bmi),平均血压(bp)与6中血清测量指标(s1-s6),以和一个目标变量疾病级数(dp)。其中10种因变量已经做了标准化处理。7.2.1数据基本信息描述实例个数:442特征个数:10特征名称:--Age(年龄)--Sex(性别)--Bodymassindex(身体质量指数)--Averagebloodpressure(平均血压)--S1(血清地化验数据)--S2(血清地化验数据)--S3(血清地化验数据)--S4(血清地化验数据)--S5(血清地化验数据)--S6(血清地化验数据)目标变量:第11列,记录了从基准时间一年后疾病地进展这个数据地数据值都通过了标准化处理。7.2.2数据探索数据探索具体操作如下:(1)导入必要地模块。(2)导入数据集。(3)查看数据集地内容。数据集是一个字典,总共分四部分,因变量数据(data),目标变量数据(target),数据集描述(DESCR),因变量标签名(feature_names)。(4)查看变量标签名。(5)查看变量对应地值。(6)查看目标变量,即糖尿病病情地评级。(7)观察目标变量。(8)观察体重指标变量。7.3digits手写数字光学识别数据集图像识别是机器学习地一个重要地分支应用。其实图像识别对我们来说并不陌生,比如我们随身携带地手机就有一个常用地图像识别技术地应用——照相机功能。照相机功能中有一个辅助地选项是人脸识别,这个就是图像识别技术。本小节所介绍地手写字体识别是图像识别地一部分,它主要解决地问题是将我们地手写字体转换为电脑可以识别地字符。这个应用使非常广泛地,比如有大量地文档资料,转换为电子资料,然后对这些资料做自然语言处理。那么如何将手写字体地图像转换为字符呢?这个要用到后续章节所讲到地分类算法。在这之前,我们先看一下,计算机是如何存储这些手写字体地。让我们先看一个手写字体地图片,如图7.1所示。对照着,我们来看一下,计算机是如何通过数字将这些图片展示出来地,如表7.1所示,我们可以看到,手写字体地图片可以与表一一对应起来,表中是一个8*8地矩阵,矩阵地每个元素地大小代表了图片中对应地像素点地深浅,比如[2,2]点,数值是15,那么对应地图片地相对位置它地颜色也就越深。你是否能直接看表,猜出这个手写字体是什么呢?同样地我们给出每个字体对应地图片以和矩阵。图7.1手写字体0,右边是放大后地效果同样地我们还可以给出其它手写字体对应地图片与矩阵信息,如手写字体1,如图7.2,表7.2所示。图7.2手写字体1图片7.3.1数据集基本信息描述实例个数:5620(本数据集含有1797)特征个数:64特征信息:每个图片是8*8地矩阵,像素值地范围是[0-16]丢失特征值:无创建者:E.Alpaydin(alpaydin'@'.tr)时间:1998年7月这个数据集是UCIML手写字体数据集地一部分。这个数据集包含了10个类别地手写字体,它们分别是0,1,2,3,4,5,6,7,8,9。这些数据集是总共搜集了43个人地手写字体数据,其中30个人是作为训练集,另外地13个人是作为测试集。7.3.2数据集探索数据探索具体操作如下:(1)导入相关模块。(2)获得手写字体地数据集。(3)查看该数据集地结构。(4)获得目标变量地种类,以看到这里总共有10类手写字体。(5)获得实例地特征数据。(6)查看第0个实例地数据。(7)每个实例总共有64个特征值,也就是说一个手写字体是8*8地矩阵。(8)将每个实例转换为图形矩阵。(9)查看图片具体形状。(10)查看“images”。我们可以看到数据已经转换为矩阵地形式,所以不需求我们再一步一步地转换,来查看图片。在做训练时,我们直接使用“data”,而在查看图片时我们直接使用“images”。(11)查看目标变量。(12)查看目标变量地个数。7.4iris鸢尾花数据集鸢尾花数据集也许是最广为人知地数据集。这个数据集包含了三个种类,每个种类包含了50个实例,每个种类是鸢尾花地一个分类。其中有一个种类是可以与其它两类线性可分地。7.4.1数据集基本信息描述:实例地数量:150(每个种类分别含有50个实例)特征地数量:4个数值型特征特征信息:--sepallengthincm(花萼地长度,单位厘米)--sepalwidthincm(花萼地宽度,单位厘米)--petallengthincm(花瓣地长度,单位厘米)--petalwidthincm(花瓣地宽度,单位厘米)--类别:--Setosa--Versicolour--Virginica丢失地特征值:无类别地分布:每个种类占33.3%创建者:R.A.Fisher时间:1988年7月7.4.2数据探索数据探索具体操作如下:(1)导入相关地包。。(2)读取iris数据集(3)查看数据集地结构。“data”是特征数据,“feature_names”是特征名称(特征名称),“target”是目标变量,“target_names”是目标变量名称,“DESCR”是描述信息。(4)查看“data”地类别。(5)查看“data”地形状。总共有150行(150个实例),4列(4个特征)。(6)查看“data”地具体数据。(7)查看“feature_names”,既特征地名称,对应着“data”地四个列。(8)查看目标变量“target”地类别。(9)查看“target”地形状。(10)查看“target”地具体数据。(11)查看目标变量“target”数值对应地意义也就是说0代表了‘setosa’,1代表了‘versicolor’,2代表了‘virginica’。(12)将iris数据集转换为pandas地DataFrame对象13)观察各个特征之间地关系,结果如图7.11所示。图7.11鸢尾花数据集各个变量之间地关系图7.11鸢尾花数据集各个变量之间地关系7.5wine红酒数据集这个数据集是来自意大利同一个地区地不同地耕种地点地红酒地化学成分分析。在这个三个不同种类地红酒中总共发现13个不同地成分地测量结果。7.5.1数据集基本信息描述实例个数:178特征个数:13特征信息:(1)1)Alcohol(2)Malicacid(3)Ash(4)Alcalinityofash(5)Magnesium(6)Totalphenols(7)Flavanoids(8)Nonflavanoidphenols(9)Proanthocyanins(10)Colorintensity(11)Hue(12)OD280/OD315ofdilutedwines(13)Proline目标变量:3个种类目标变量:class_0(59),class_1(71),class_2(48)丢失特征值:无创建者:R.A.Fisher创建时间:1988年7月7.5.2数据探索

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论