非结构化数据分析与应用 课件 第3、4章 非结构化数据描述性分析、经典模型与分析方法_第1页
非结构化数据分析与应用 课件 第3、4章 非结构化数据描述性分析、经典模型与分析方法_第2页
非结构化数据分析与应用 课件 第3、4章 非结构化数据描述性分析、经典模型与分析方法_第3页
非结构化数据分析与应用 课件 第3、4章 非结构化数据描述性分析、经典模型与分析方法_第4页
非结构化数据分析与应用 课件 第3、4章 非结构化数据描述性分析、经典模型与分析方法_第5页
已阅读5页,还剩106页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章非结构化数据描述性分析3.1数据的描述3.2数据的可视化3.3数据的质量目录和内容3.1文本数据的描述文本的自然描述文本是由文字和标点组成的字符串。字组成词、词组,形成句子、段落和文档。对于只能理解0和1的计算机来说,寻找一种能够让机器接收的表示方法就是描述文本描述成为理解非结构化数据的关键。文字和表情混用

如图展示了电影《美丽人生》海报和用户在豆瓣APP上对电影进行的评价。网络社交圈子中,除了文字之外,还有丰富的表情包、新生的颜文字,通过卡通表情来叙述自己的态度。中英文混杂缩写DIY:DoItYourself的缩写,自己动手做的意思。例句:清欢太坏了,青眉电脑坏了找他修,他让青眉DIY。SOHO:SmallOfficeHomeOfficer的简称,意思是“在家办公”。

例句:《游侠秀秀》的作者小非是SOHO一族啊。BUG:原意是“臭虫”,后来把跟电脑有关的故障都称之为“BUG”。例句:每回侠客社区出现BUG,青眉都急得跳脚。I服了U:我服了你……周星星片子里的经典台词。例句:你居然能让清欢不对你说“不”,I服了U!EMO:“我抑郁了”,“我网抑云了”,“我颓了”“我傻了”谐音短语:数字谐音快速表达某些短语,如下:

3166:沙哟娜拉,日语,再见886:拜拜喽,再见3Q:ThankYou,谢谢7456:气死我了9494:就是就是表情包emoji:表情包是直接、快速的现代表达方式挖掘emoji信息帮助提升评论的情感分析文本数字化描述构建文本表示模型,如何选取要素来表示文本文本表示模型:词袋模型N-gram文本数值化描述基于频次词嵌入方法大模型文本表示模型词袋模型BagofWords(BOW)词袋模型将整个语料库以词为单位进行切分,形成一个不包含重复对象的词集合。例如有语料库:“今天一直下雨,明天会不会一直下雨”。利用BOW词袋模型建模,获得集合:(今天,明天,一直,下雨,会不会)。该方法十分简单,容易理解忽略了句子中词语的出现顺序没有将不同词之间的相关性、是否是近义词考虑进去表示稀疏N元语言模型N-gram

基于统计语言模型的算法,将文本按照字节进行大小为N的滑动窗口操作,形成了长度是N的字节片段序列。基于假设:第N个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。具体操作是将N个词之间的组合看作一个词,生成一个不包含重复对象的词组合集合。例如:“今天一直下雨,明天会不会一直下雨”,当N=2时,获得(今天一直,一直下雨,明天会不会,会不会一直)N-gram同样非常稀疏,且随着N的增加,N-gram模型的维数迅速膨胀。文本数值化将文本按照相应表示模型转化成集合后,对其进行数值化将模型中的每个元素以数值代替。

频次编码CountVector:通过计数来生成词向量的。举例说明:包含2个文档的语料库:“我爱浙大”、“我爱中国,非常爱”。语料库中共有5个词出现,首先使用文本表示方法转换为词袋:(我,爱,浙大,中国,非常)则该语料库的这两个文档都使用维度为5的CountVector来表示:第一个文档中,“我”出现1次,计数为1;第二个文档中“爱”出现了2次,计数为2。以此类推:共现矩阵共现矩阵是一个对称矩阵,用来分析词与词之间基于上下文的相似性指在中心词的左右某个窗口大小的范围内,某两个词共同出现的次数如果窗口大小为1,则计算中心词与前后1个位置的词的共现次数对于语料库:“我爱浙大”、“我爱中国,非常爱”中的文档“我爱浙大”,滑动窗口大小为1,寻找每一个词前后的两个词如“爱”前后为“我”和“浙大”,在对应位置标注1即可得到共现矩阵为下:Index我爱浙大中国非常我01000爱10100浙大01000中国00000非常00000示例语料库文档“我爱浙大”的共现矩阵A/D转换器镜头CCD传感器滤波器CFA插值

白平衡、伽马校正数据压缩、存储成像系统的内部构成相机拍照后选择存储格式3.2图像数据的描述图像的自然描述数字图像是用传感器将物体在光照下拍照获得的手机和相机等光学传感器获取图像的系统框图有高度和宽度、以像素为基本单元顺序的图像数据图像数据的描述-参数图像大小:图像文件的大小决定了图像文件所需的磁盘存储空间,一般以字节(byte)来度量,其计算公式为:字节数=(位图高×位图宽×图像深度)/8。图像分辨率:指单位打印长度上的图像像素的数目,表示图像数字信息的数量或密度,决定了图像的清晰程度。一张照片的分辨率为:1920*1080(dpi,全称为dotperinch),1920是照片的宽度,1080是图像的高度。图像颜色:一种记录图像颜色的方式,将某种颜色表现为数字形式的模型。有RGB模式、RGBA模式、CMYK模式、位图模式、灰度模式、索引颜色模式、双色调模式等。位深:存储每个像素所用的位数。图像的每一个像素对应的数据通常可以是1位(bit)或多位字节,用于存放该像素的颜色、亮度等信息,数据位数越多,对应的图像颜色种类越多。如RGB的深度就是28*3=256*3=768,此图像的深度为768,每个像素点都能够代表768中的颜色。色调:指各种图像色彩模式下图像的原色的明暗度。例如,RGB模式的图像的原以为R、G、B的3种明暗度,色调的调整就是对明暗度的调整。饱和度:指图像颜色的深度,它表明了色彩的纯度,决定于物体反射或投射的特性。图像数字化描述

图像的数字化描述是能够在计算机上存储和容易分析的图像形式可根据特性分为位图和矢量图。位图通常使用数字阵列来表示,常见的格式有BMP、JPEG、GIF等。用数字照相机得到的图像都是位图图像,位图图像由像素组成,每个像素都被分配一个特定位置和颜色值数字化描述方式,灰度图像、二值图像、彩色图像和比特平面分层图像等矢量图有矢量数据库表示,常见的是PNG图形位图的矩阵描述将一幅图像视为一个二维函数f(x,y)其中x和y是空间坐标,在x-y平面中的任意一对空间坐标(x,y)上的幅值f用来表示一幅图像具有两个连续变量x和y的连续图像函数,该函数可以是该点的灰度、亮度或者强度。灰度图像RGB彩色图像自然界几乎所有颜色都可以由红绿蓝三种颜色组合而成,称为RGB三原色彩色图像的每个像素通常是由红(R)、绿(G)、蓝(B)三个分量来表示的红、绿、蓝每一种颜色各有256级亮度,256级的RGB色彩总共能组合出约1678万种色彩对于图像的每个像素,通过控制RGB三原色的合成比例,则可决定该像素的显示颜色

比特平面分层比特平面分层代替突出灰度级的范围,突出特定的比特对整个图像做出的贡献像素是比特组成的数字,一幅8比特的图像可以认为是8个1比特的平面构成平面1包含图像中所有像素的最低阶比特,平面8包含图像中所有像素的最高阶比特低阶的比特平面含有原图的灰度细节高阶的比特平面则包含了大多数的图像的数据可以使用高阶的几层比页面重建原图,减少图像存储量《蒙娜丽莎的微笑》图像的比特平面分层示例分层的作用:通过对特定位面提高亮度,改善图像质量分层观察图像进行图像差异化的描述分析较高位(如前4位)包含视觉重要数据较低位(如后4位)对图像小细节有作用可以分析每一位在图像中的相对重要性

彩色图像的比特平面分层彩色图像的比特面分层只是在红、蓝、绿三个分量上分别进行分层如图3.12中红色通道上的一个像素用8比特的字节表示,二进制数存储在不同的比特面层次的低层到高层中,则二进制11001010=十进制202最后彩色图像上该像素的幅度值为RGB三个彩色分量上8比特字节的组合

图像描述(ImageCaption)看图说话:输入是一幅图像,输出是对该幅图像文字描述3.3视频数据的描述视频的自然描述视频指连续的图像序列是人肉眼可观察到的连续画面经过捕捉和存储后,可重复播放的信息形式用帧、镜头、场景、故事单元等元素来描述视频的内部内容衡量视频的质量,用清晰度、分辨率、色彩空间以及峰值信噪比来量化视频表现的时序动作信息

视频数字化描述每个视频都是一个图像序列,其内容比一张图像丰富的多,表现力更强。视频具有层次化结构,由场景、镜头和帧三个逻辑单元组成。对视频的分析通常是基于视频帧,通过视频解码后得到的视频流中包含的I帧、B帧、P帧等。关键帧定义:把图像坐标系中每个“视频帧”都叠加在一起,这时镜头中视频帧的特征矢量会在空间中呈现出一个轨迹的状态,而与轨迹中特征值进行对应的“帧”即可称之为关键帧。在构成一段动画的若干帧中,起到决定性作用的往往是2-3帧。通常关键帧通常是1秒动画的第一帧和最后一帧,因此,提取视频的关键帧至关重要视频流中的I帧、B帧、P帧和关键帧的信息抽取

百度智能云媒体内容分析过程百度智能云媒体内容分析MCA(MediaContentAnalysis)是一款基于多维AI技术的计算型产品,为用户提供音视频及直播的内容分析能力。视频语音、文字、公众人物、物体、场景等多个维度进行识别后输出对视频的场景、公众人物、地点、实体和关键词的结构化标签信息提高搜索准确度和用户推荐视频的曝光量。

视频描述(VideoCaptioning)3.4音频数据的描述音频的自然描述音频信号(Audio)是带有语音、音乐和音效的有规律的声波的频率、幅度变化信息载体。不同类型的音频具有不同的内在特征和自然描述,物理特征级、声学特征级别和语义级。物理样本级描述包含的特征有采样频率、时间刻度、样本等;声学特征级描述包含音调、音高、旋律、节奏等;语义级描述则包括音频的叙事、音频对象描述、语音识别文本等。

语音“我爱北京天安门”的时域信号语音:随时间播放音乐:唱歌乐曲随时间播放音频数字化过程音频数字化描述采样率是指录音设备在单位时间内对声音信号的采样次数,主流采样率分为三个等级:22.05KHz、44.1KHz、48KHz。44.1KHz理论上是CD音质的界限,这也是MP3具有的采样率。量化是声音信号在幅值的数字化,主要是将幅度上连续取值的每一个样本转换为离散值表示,其量化过后的样本用二进制表示。二进制的位数反映了度量声音波形幅度的精度。精度越大,声音的质量就越好。通常的精度有8bit,16bit,32bit等,质量越好,需要的储存空间就越大。音频数据的时域和频域表示音频数据的时域和频域表示数据率是音频数字化的基本技术参数,数据率为每秒bit数,其总数据量与计算机的存储空间有直接关系。未经压缩的数字音频数据率可按下式计算:数据率=采样频率(Hz)×量化位数(bit)×声道数(bit/s)3.5数据的可视化可视化技术通常会将数据分析内容集成在一个图形界面上,展示一个或多个可视化视图。非结构数据特征多,需要降维以缓解维数灾难。可以对数据去冗余、降低信噪比,方便可视化。因此非结构数据可视化需要首先提取特征,在分解和降维之后再进行可视化,分析和揭示数据的规律。文本的可视化分析词云WordCloud使用Python,调用wordcloud库中的方法来简单制作词云图,步骤如下:收集语料:语料可以是某一类新闻,某一篇小说,某一篇报道,人物描述,公司描述,物品描述等等,通过某个语料,获取该语料的主题。数据读取:对于爬虫得到的数据需要去掉空行,对不规范的内容进行处理,对于规范的文本可以直接调用jieba库进行分词。去停止词:分词后需去掉停止词,停止词的词频很大,影响结果。统计词频:使用wordcloud制作成词云B站词云的案例bilibili网站下视频弹幕文本的词云图经过爬取bilibili网站下视频“建党百年主题MV《少年》”下出现的高频弹幕,并制作词云图可以清晰地展示大众在该视频下的弹幕评论高频词汇:“吾辈”、“当自强”、“中国”等。词云可以很好地表现每个单词在特定文本体中被提及的频率(即词频分布)通过使用不同的颜色和大小来表示不同级别的相对显着性。TIARA可视化方法TIARA结合了标签云,通过主题分析技术(latentdirichletallocation,LDA),将文本关键词根据时间点放置在每条色带上用词的大小来表示关键词在该时刻出现的频率。因此用TIARA可以帮助用户快速分析文本具体内容随时间变化的规律。如图3.24在可视化中,每一层代表一个主题,由一组关键字描述。此处显示了总共18个主题中的前8个主题。这些主题关键字随时间分布,总结了内容随时间的演变。x轴编码时间,y轴编码每个主题的强度。对于每个主题,高度编码了特定时间主题的电子邮件。从每个话题的高度及其随时间分布的内容,用户可以观察到话题随时间的演变。FaceAtlas气泡图FaceAtlas结合了气泡集和节点-链接图两种视图,用于表达文本各层面信息内部和外部的关联。每个节点表示一个实体,用KDE方法刻画出气泡图的轮廓,然后用线将同一层面的实体链接起来,一种颜色代表一种实体。下图是基于医疗健康文档,展示了与HIV相关的病名、病因、症状、诊断方案等多层面的信息,“无症状HIV感染”中(右上角),显示了更多相关疾病(以红色圆圈突出显示)。情感分析可视化情感分析是指从文本中挖掘出心情、喜好、感觉等主观信息。分析文本能掌握人们对于一个事件的观点或情感的发展。图3.25是基于矩阵视图的客户反馈信息的可视化工作,其中的行是指用户观点的载体,列是用户的评价,颜色表达的是用户评价的倾向程度,红色代表消极,蓝色代表积极,每个方格内的小格子代表用户评价的人数,评价人数越多小格子越大。文本的知识图谱知识图谱旨在用结构化的形式描述真实世界中存在的各种实体或概念之间的关系,简化成三元组模式,即:实体-关系-实体。最终呈现的是一张的关系网,网中每个节点代表某种实体或概念,而关系则是展现两者之间的关联文本数据知识图谱技术以最契合社会行为的形式表达复杂的社会结构,适合分析具有关联关系的数据。图表示知识图谱助力新冠肺炎抗疫,在大量的数据中抽取出轨迹的关键点信息、新冠肺炎特征、预防措施、治疗方案等信息,将数据进行信息化和知识化处理,经过前期抽样的人工校验后作为疫情大脑的数据来源。CNN特征图可视化深度神经网络性能很高,但其内部的工作方式错综复杂,研究人员难以理解其中是如何得出结果的。

如下图示出简化的深度卷积神经网络结构,如何将红色虚线框中的黑盒打开,用可视化方式展示网络内部各种层级结构,对黑箱的CNN进行可解释对分析决策是非常重要的。

CNN特征图可视化

类别激活映射(CAM)解释CNN分类结果(图像来源:BoleiZhouetalLearningDeepFeaturesforDiscriminativeLocalization.CVPR2016)交互式可视化学习CNN使用CNNExplainer观察CNN运作过程(图像来源:CNNExplainer(poloclub.github.io))特征降维PCAt-SNE降维与可视化与PCA的性能相比,t-SNE的表现更好。t-SNE算法将不同的手写数字聚类,没有任何重叠,PCA难以将手写数字图像进行完美分类。与PCA不同,t-SNE可以更好地应用于线性和非线性良好聚类的数据集,并产生更有意义的聚类。尽管t-SNE在可视化分离良好的群集方面非常出色,但大多数情况下它无法保留数据的整体几何形状。3.6数据的质量数据质量问题直接影响分析的结果高质量数据应该是对现实世界的真实反映高质量数据=?文本数据的质量文本数据的描述,经过爬取和收集的生数据集(rawdata)中常常包含大量来自于网络的文本,无可避免的需要面对一些不规范的文本表达问题。社交网络中常出现的颜文字、表情符号等图像数据的质量标签噪声自行车图像清晰度质量低环境照度图像(下图a)模糊不清图像(下图b)雨雾天图像(下图c,d)远距离分辨率低图像压缩倍数大质量低都将会影响图像分析的结果音频数据的质量干扰场景:实际中声音检测主要是处于干扰环境中的背景音以及声音的混响例如使用Siri的时候会发现,如果周围环境噪声过大,Siri就会出现误判,主要的原因是人说话的语音信号与手机麦克风所采拾的环境噪声之间信噪比(SNR)较小,噪声影响了正常识别系统的性能。远场场景:远场场景都是比较复杂的场景,这主要是因为麦克风距离远,语音信号到达麦克风时衰减严重,使得环境噪音、混响、音乐等背景干扰信号,以及其他人声的影响难以被忽略。实用中识别系统在训练数据具有多重干扰时,尤其是多人人声和干扰的环境下的鲁棒性仍需解决。数据的偏差影响很多人认为,只要数据集的样本足够多,就能够训练得到在真实世界中性能同样出众的模型这种观点的前提假设是训练集的样本分布与真实世界的分布一致。事实上,数据集与真实世界存在数据分布偏差,不同数据集之间也存在样本分布偏差。有偏见的数据集不能准确地表示模型的用例,从而导致结果偏斜,准确性水平低、分析结果错误。样本偏差当数据集不能反映模型将在其中运行的环境的实际情况时,就会发生样本偏差。在2018年夏天,英国媒体就报道过,由于人脸识别技术的误判,导致一名年轻黑人男性被误认为嫌疑犯,在公众场合被警察搜身。一些用于面部识别系统的数据集大部分都由白人构成,这样的偏见会在AI系统中形成错判。这些模型对妇女和不同种族的人的准确率要低得多,此偏差的另一个名称是选择偏差,可能导致学习算法的泛化能力变差。亚马逊AI识别深色女性人种的正确率更低(图片来源:/archives/451383)数据的偏差影响只要数据样本足够多,就能够训练出性能同样的模型?这观点的前提假设是训练集的样本分布与真实世界的分布一致事实上,数据集与真实世界存在数据样本分布偏差有偏见的数据集不能准确地表示模型的用例导致结果偏斜,准确性水平低、分析结果错误测量偏差收集的数据与现实世界中收集的数据有可能不同不同人、不同设备、不同角度的采集发生这种偏差训练数据用一类相机收集的,测试数据是用另一种照相机不同人拍摄同样建筑获得不同的图可能产生测量偏差在项目数据标记阶段,注释不一致也会导致测量偏差。观察者偏差观察者偏差是一种认知偏差,这是基于人们倾向于寻找与他们先前持有的信念相一致的信息。当研究人员在有意识或无意识的情况下,对自己的研究有主观意识嵌入到项目里。例如当标签制作者有自己的直觉习惯,制作的标签就存在主观思想的控制,会导致数据不准确。数据集间偏差数据集之间同样也存在着偏差任务不同,每一个数据集收集到的图像风格会受到影响不同数据集之间同一目标的图像其拍摄角度、风格等各异一般的模型无法泛化所有的图像数据集在遇到来自于其他数据集图像,会出现误判,准确率明显下降。谢谢大家勤学/修德/明辨/笃实第四章经典模型与分析方法4.1模型评价与模型选择4.2集成树模型4.3线性模型4.4K近邻法4.5支持向量机4.6K均值聚类4.7层次聚类法目录和内容监督学习versus

无监督学习决策树随机森林XGBoost线性回归逻辑回归线性判别分析k近邻法支持向量机感知器神经网络K均值聚类层次聚类法章节内容概述目录和内容4.1模型评价与模型选择4.2集成树模型4.3线性模型4.4K近邻法4.5支持向量机4.6K均值聚类4.7层次聚类法

4.1.1模型评价准则

错误率和精度以二分类问题为例,将样本的真实类别和预测类别分为四种组合:真正例(TruePositive)、假正例(FalsePositive)、真反例(TrueNegative)和假反例(FalseNegative),假设这四种组合对应的样本个数分别为TP、FP、TN和FN,则TP+FP+TN+FN=N。查准率和召回率真实情况预测结果正例反例正例TPFN反例FPTN

受试者工作特征曲线

以TPR为纵轴,FPR为横轴即可画出ROC曲线,模型对应的ROC曲线下围成的面积(AreaUnderROCCurve,AUC)越大意味着模型更优。ROC曲线下围成的面积回归问题评价指标

4.1.2模型评价方法-留出法令S为数据样本,若在S较为充分的情况下,可以将数据集划分为训练集TR、测试集TE和验证集VA三个互斥部分,且满足:训练集、测试集、验证集划分按照通常做法,训练集、测试集和验证集三部分的比例一般取6:2:2。训练模型时,在训练集和测试集上进行模型参数调整,并在验证集上进行模型泛化能力的检验。交叉验证法在实际应用中,有许多场合获得的数据样本量偏少,没有足够的数据进行训练。为了能够训练出好的模型,较常使用的方法是S交叉验证法(S-foldCrossValidation)。这里以5-fold交叉验证为例,4.1.3过拟合和欠拟合模型学习能力过强,将训练样本的某些偏差当作样本特征,会导致其在面对新样本时表现不佳(相对训练样本而言),即泛化能力较弱,这种情况称为过拟合(Overfitting)。与过拟合相对应的是欠拟合(Underfitting),其表现为模型不能充分学习训练样本的特征,遗漏了较多样本信息,导致模型训练效果较差。正确的拟合形式过拟合和欠拟合的对比4.1.4模型参数调整机器学习模型包含许多参数,在用这些模型解决实际问题时,一般需要先对参数进行设定,这类需要事先设定的参数称为“超参数”(Hyperparameter)。参数调优的目标是选择合适的参数以使模型能够达到令人满意的效果。常见方法网格搜索(GridSearch)随机搜索(RandomSearch)这些参数调优方法均已被封装为工具包,读者在实战中可根据具体问题选择合适的调优方法并调用相应的工具包。目录和内容4.1模型评价与模型选择4.2集成树模型4.3线性模型4.4K近邻法4.5支持向量机4.6K均值聚类4.7层次聚类法4.2.1基本的树模型决策树(DecisionTree)是一种非参数的机器学习算法,常用来解决分类和回归问题。以二叉树为例。一棵决策树由结点和边构成,结点包括一个根结点(代表样本集合),多个内部结点(代表属性)和多个叶结点(代表结果),边代表分裂过程。根据属性分裂准则的不同,决策树可以分为ID3算法(使用信息增益选择分裂属性)C4.5算法(使用增益率选择分裂属性)CART算法(使用基尼指数选择分裂属性)信息增益

信息增益率

基尼指数

随机森林为了克服决策树泛化能力弱的特点,LeoBreiman在2001年提出了随机森林(RandomForest)算法,结合多棵决策树进行预测。随机森林主要具有以下优点:(1)通过对训练样本和特征进行随机抽样,防止过拟合,提高模型的泛化能力;(2)多棵树的训练相互独立,可以通过并行计算,提高训练速度。但是它也存在以下缺点:部分决策树因为样本类别不平衡、重复抽样等原因预测表现比较差,会降低整个随机森林的预测表现。4.2.2XGBoost算法Chen

Tianqi在2016年提出了XGBoost算法,克服了随机森林算法的缺点。XGBoost(ExtremeGradientBoosting,极限梯度提升)算法属于集成学习算法,它是对Boosting算法和GradientBoosting算法的进一步改进。Boosting算法通过迭代优化,将多个弱学习器组合成一个强学习器,提高预测准确性。GradientBoosting算法是Boosting算法的改进,令损失函数在迭代过程中沿梯度方向下降。目标函数

目录和内容4.1模型评价与模型选择4.2集成树模型4.3线性模型4.4K近邻法4.5支持向量机4.6K均值聚类4.7层次聚类法4.3.1基本线性模型

样本序号11.11.023.44.132.02.544.23.755.05.067.26.978.18.3逻辑回归

逻辑回归

Logistic分布的分布函数曲线和概率密度函数曲线逻辑回归

参数估计参数估计

4.3.2线性判别分析

两个类别投影后的效果距离计算

算例本小节试图通过LDA模型判断图像类别是否为猫,数据及参考代码来源于Kaggle公开数据集(数据来源:/mriganksingh/cat-images-dataset;参考代码来源:/gamerplayer/classification-using-logistic-regression-sklearn)。数据集中训练集样本数为209,包含72个正例,即72张图像为猫的图像;测试集大小为50,包含33个正例。其中,正例标记为1,反例标记为0。首先导入所需代码包,并确定数据集所在位置:算例导入数据集:算例训练集第8张图像是猫的图像,结果显示如下:将数据处理成模型可识别的形式,并进行标准化:调用sklearn.discriminant_analysis函数库中的LinearDiscriminantAnalysis()函数进行模型训练:4.3.3常用策略和方法

k与权值的关系4.3.3常用策略和方法

目录和内容4.1模型评价与模型选择4.2集成树模型4.3线性模型4.4K近邻法4.5支持向量机4.6K均值聚类4.7层次聚类法4.4.1算法介绍k近邻法(K-nearestNeighbor,KNN)是一种常用的机器学习算法,属于监督学习。工作原理:输入训练样本后,定义某种特定的距离算法,在训练样本中寻找k个和待预测样本数据点最接近的样本,即找到测试样本点在训练样本点中的k个“邻居”,并利用这些邻居的表现预测测试样本的表现。k近邻法既可以用于分类问题,又可以用于回归问题。4.4.2距离度量方式

4.4.3近邻点搜索算法在应用k近邻算法时,最大挑战在于如何提高寻找训练样本中k个最近邻点的搜索速度。当特征空间的维数升高或者训练样本数据量过大时,这个问题变得非常重要。kdtree算法就是一种快速实现近邻点搜索的算法。在R2空间中根据以下数据集建立一个平衡kdtree:S={(1,1),(3,5),(4,2),(5,4),(6,0.5),(6.5,1),(7,3)}kdtree示意4.4.4KNN算例数据集:Sort_1000pics选择卡车、花朵、马和山峰共400张图片,将数据集随机分为训练集和测试集,比例为7:3,进行图片多分类识别

precisionrecallF1-scoresupport卡车0.860.970.9133花朵0.840.70.7630马0.651.00.7926山峰10.580.7331

Accuracy

0.81120Macroavg0.840.810.80120Weightedavg0.850.810.80120

算法表现:目录和内容4.1模型评价与模型选择4.2集成树模型4.3线性模型4.4K近邻法4.5支持向量机4.6K均值聚类4.7层次聚类法4.5.1SVM算法介绍

二分类图示支持向量机基本原理示意4.5.2线性可分支持向量机训练数据集D中,有T个训练样本,每个训练样本由特征向量X和类别Y组成,写作:D={(x1,y1),(x2,y2),...,(xT,yT)}线性可分支持向量机中的样本可以被超平面完全分割,且能够完全分割的超平面可能不唯一,因此希望能够找到一个最佳的超平面,以获得最优的分类效果,使得出错概率最小。以二分类问题为例,对i=1,2,...,T,令yi∈{-1,+1},如果特征向量X只有A和B两个属性的话,存在如下超平面进行分割:多个分割超平面示意4.5.2线性可分支持向量机为了得到最优超平面,定义“带宽”。因此目标转化为寻找最大带宽的超平面。超平面可以描述为:该超平面可以将所有样本正确分类为+1和-1,正负临界平面定义如下:①正临界平面:②负临界平面:(a)小带宽

(b)大带宽正负临界超平面示意4.5.3线性支持向量机在线性可分支持向量机中,一个重要的假定是所有的样本均可被一个分割超平面分开,但在许多情况下,尽管可以找到一个超平面较好地对数据样本进行分类,却因为噪声和干扰的存在无法对所有点进行准确分类。线性不可分解决该问题的一个非常重要的方法是软间隔法,即允许支持向量机在部分数据的分类上不满足约束,即出现错误(线性可分支持向量机不允许出现错误),但是需要尽可能减少样本的错误4.5.3线性支

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论