《物联网基础技术及应用》课件第4章-智能处理基础技术修改02_第1页
《物联网基础技术及应用》课件第4章-智能处理基础技术修改02_第2页
《物联网基础技术及应用》课件第4章-智能处理基础技术修改02_第3页
《物联网基础技术及应用》课件第4章-智能处理基础技术修改02_第4页
《物联网基础技术及应用》课件第4章-智能处理基础技术修改02_第5页
已阅读5页,还剩254页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

如果从应用层的角度来看物联网,物联网可以看作是一个基于通信网、互联网或专用网络的,以提高物理世界的运行、管理、资源使用效率等水平为目标的大规模信息系统。时效特征数据实时采集自助智能协同不可预见性事件高度并发基于海量信息的数据挖掘信息系统特征4.1大数据技术4.1大数据技术4.1.1大数据的基本概念4.1.3大数据处理流程4.1.2大数据价值探讨什么是“大数据”?大数据很抽象,表示数据规模的庞大。大数据泛指巨量的数据集,因可从中挖掘出有价值的信息而受到重视。《华尔街日报》将大数据时代、智能化生产、无线网络革命称为引领未来繁荣发展的重大技术变革。目前对大数据尚未有一个公认的定义,不同的定义基本上是从特征出发,试图给出大数据的定义。4.1.1大数据的基本概念

最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡。

麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”4.1.1大数据的基本概念4.1.1大数据的基本概念维基百科中将大数据定义为:所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理,并整理成为帮助企业经营决策更积极目的的资讯。4.1.1大数据的基本概念IDC将大数据定义为:为更经济地从高频率的、大容量的、不同结构和类型的数据中获取价值而设计的新一代架构和技术。4.1.1大数据的基本概念信息专家涂子沛在著作《大数据》中认为:”大数据”之”大”,并不仅仅指”容量大”,更大的意义在于通过对海量数据的交换、整合和分析,发现新的知识,创造新的价值,带来”大知识”、”大科技”、”大利润”和”大发展”信息专家涂子沛4.1.1大数据的基本概念1982年世界预测大师、未来学家约翰·奈斯比特(JohnNaisbitt)在他的著作Megatrends:Tennewdirectionstransfor-mingourlive一书中所提到的:“我们现在大量生产信息,正如过去我们大量生产汽车一样”、“人类正被信息淹没,却饥渴知识”,等等诸如此类的预言均在当下得到了充分的证实,这也恰恰说明,世界正处于一个信息爆炸的时代。JohnNaisbitt4.1.1大数据的基本概念2009年,谷歌推出“流感趋势预测“项目,在甲型H1N1流感暴发的几周前,“谷歌流感趋势”成功预测了流感在美国境内的传播,其分析结果甚至具体到特定的地区和州,并且非常及时,令公共卫生官员备感震惊。4.1.1大数据的基本概念2014年,百度大数据预测团队通过对海量赛事信息的挖掘和分析,对2014年巴西世界杯全部64场比赛的胜负结果,以及冠军和黑马进行预测。无论是四分之一决赛还是16强淘汰赛,百度预测结果准确率都达到100%!13硬件成本的降低网络带宽的提升云计算的兴起网络技术的发展智能终端的普及电子商务、社交网络、电子地图等的全面应用物联网大数据时代到来的必然性:4.1.1大数据的基本概念4.1.1大数据的基本概念

物联网产生的大数据

就物联网本质而言,人与物、物与物的交互,大都是为了实现人与人之间的信息交互而产生的。在这种信息交互的过程中,催生了从信息传送到信息感知再到面向分析处理的应用。目前,物联网在智能工业、智能农业、智能交通、智能电网、节能建筑、安全监控等行业都有应用。巨大连接的网络使得网络上流通的数据大幅度增长,从而也催生了大数据的出现。15全球流量累计达到1EB(即10亿GB)的时间一年(2001)一个月(2004)一周(2007)一天(2013)一天产生的信息量可刻满1.88亿张DVD光盘全球网民平均每月使用流量:1M(1998)10M(2000)100M(2003)1G(2008)10G(2014)大数据有多“大”?4.1.1大数据的基本概念16我国网民数量居世界之首,每天产生的数据量也位于世界前列淘宝网站单日数据产生量超过5万GB存储量4000万GB百度公司目前数据总量10亿GB存储网页1万亿页每天大约要处理60亿次搜索请求一个8Mbps的摄像头一小时能产生3.6GB的数据一个城市每月产生的数据达上千万GB医院一个病人的CT影像数据量达几十GB全国每年需保存的数据达上百亿GB4.1.1大数据的基本概念17从数据库(database,DB)到大数据(bigdata,BD)“池塘捕鱼”VS“大海捕鱼”

“鱼”是待处理的数据数据规模小(以MB为处理单位)大(以GB、TB、PB为处理单位)数据类型单一(结构化为主)繁多(结构化、半结构化、非结构化)模式和数据的关系先有模式后有数据(先有池塘后有鱼)先有数据后有模式模式随数据增多不断演变处理对象数据(池塘中的鱼)(“鱼”,通过某些“鱼”判断其他种类的“鱼”是否存在)处理工具OnesizefitsallNosizefitsall4.1.1大数据的基本概念18

大数据就如同蜜蜂,其主要价值是传播花粉,自己生产的蜂蜜价值并不大

2013年世界范围内狭义的大数据产业产值只有186亿美元,但广义的大数据应用几乎覆盖所有产业。据麦肯锡公司预测,开放数据仅在教育、保健等7个行业便可释放3.2万亿~5.4万亿美元的经济价值。4.1.2大数据的价值探讨19

大数据是什么?投资者眼里是金光闪闪的两个字:资产。比如,Facebook上市时,评估机构评定的有效资产中大部分都是其社交网站上的数据。如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。4.1.2大数据的价值探讨20

1.Target超市以20多种怀孕期间孕妇可能会购买的商品为基础,将所有用户的购买记录作为数据来源,通过构建模型分析购买者的行为相关性,能准确的推断出孕妇的预产期,这样Target的销售部门就可以有针对的在每个怀孕顾客的不同阶段寄送相应的产品优惠卷。4.1.2大数据的价值探讨典型案例

2.通过采集驾驶员手机的GPS数据,就可以分析出当前哪些道路正在堵车,并可以及时发布道路交通提醒;通过采集汽车的GPS位置数据,就可以分析城市的哪些区域停车较多,这也代表该区域有着较为活跃的人群,这些分析数据适合卖给广告投放商。维克托·迈尔-舍恩伯格提过的一个很有指导意义的观点:通过找出一个关联物并监控它,就可以预测未来。21

1.手握大数据,但是没有利用好;比较典型的是金融机构,电信行业等。4.1.2大数据的价值探讨从大数据的价值链条来分析,存在三种模式2.没有数据,但是知道如何帮助有数据的人利用它;比较典型的是IT咨询和服务企业,比如,埃森哲,IBM,Oracle等。3.既有数据,又有大数据思维;比较典型的是Google,Amazon,Mastercard等。22

1.拥有大数据思维的人,这种人可以将大数据的潜在价值转化为实际利益;4.1.2大数据的价值探讨未来在大数据领域最具有价值的是两种事物2.还未有被大数据触及过的业务领域。这些是还未被挖掘的油井,金矿,是所谓的蓝海。23

1.拥有大数据思维的人,这种人可以将大数据的潜在价值转化为实际利益;4.1.2大数据的价值探讨未来在大数据领域最具有价值的是两种事物2.还未有被大数据触及过的业务领域。这些是还未被挖掘的油井,金矿,是所谓的蓝海。24●

医疗机构将实时的监测用户的身体健康状况;●教育机构更有针对的制定用户喜欢的教育培训计划;●服务行业为用户提供即时健康的符合用户生活习惯的食物和其他服务;●社交网络能为你提供合适的交友对象,并为志同道合的人群组织各种聚会活动;●政府能在用户的心理健康出现问题时有效的干预,防范自杀,刑事案件的发生;●金融机构能帮助用户进行有效的理财管理,为用户的资金提供更有效的使用建议和规划;●道路交通、汽车租赁及运输行业可以为用户提供更合适的出行线路和路途服务安排;4.1.2大数据的价值探讨大数据展望4.1.3大数据处理流程传统意义上的数据处理方式数据挖掘数据仓库联机分析处理(OLAP)......大数据处理流程数据采集数据处理与集成数据解释数据分析大数据处理流程中最基础的一步对数据信息用户来讲至关重要的一步。主要是完成对于已经采集到的数据进行适当的处理、清洗去噪以及进一步的集成存储。整个大数据处理流程里最核心的部分,因为在数据分析的过程中,会发现数据的价值所在。12344.1.2大数据处理流程4.1.2大数据处理流程

数据采集是大数据处理流程中最基础的一步,目前常用的数据采集手段有传感器收取、射频识别(RFID)、数据检索分类工具如百度和谷歌等搜索引擎,以及条形码技术等。1.数据采集2.数据处理与集成将整理好的数据进行集成和存储过滤掉离群数据设计数据过滤器4.1.2大数据处理流程4.1.2大数据处理流程3.数据分析(核心)Google作为互联网大数据应用最为广泛的公司,于2006年率先提出了”云计算”的概念,其内部各种数据的应用都是依托Google自己内部研发的一系列云计算技术,例如分布式文件系统GFS、分布式数据库BigTable、批处理技术MapReduce,以及开源实现平台Ha-doop等。这些技术平台的产生,提供了对大数据进行处理、分析很好的手段。4.1.2大数据处理流程4.数据解释

为了提升数据解释、展示能力,现在大部分企业都引入了”数据可视化技术”作为解释大数据最有力的方式。通过可视化结果分析,可以形象地向用户展示数据分析结果,更方便用户对结果的理解和接受。

常见的可视化技术有基于集合的可视化技术、基于图标的技术、基于图像的技术、面向像素的技术和分布式技术,等等。4.1.2大数据处理流程4.2云计算技术4.2.5云计算在物联网中的应用4.2.3云计算的关键技术4.2.4云计算平台搭建4.2.2云计算的服务模式4.2.1云计算的特点云计算(CloudComputing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需提供给计算机和其他设备。云其实是网络、互联网的一种比喻说法。云计算的核心思想,是将大量用网络连接的计算资源统一管理和调度,构成一个计算资源池向用户按需服务。提供资源的网络被称为”云”。狭义云计算指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需资源;广义云计算指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需服务。云计算发展路线并行计算集群计算网格计算云计算*密不可分的大数据与云计算商业模式驱动应用需求驱动云计算本身也是大数据的一种业务模式大数据是落地的云云计算的模式是业务模式,本质是数据处理技术。数据是资产,云为数据资产提供存储、访问和计算。当前云计算更偏重海量存储和计算,以及提供的云服务,运行云应用,但是缺乏盘活数据资产的能力,挖掘价值性信息和预测性分析,为国家、企业、个人提供决策和服务,是大数据核心议题,也是云计算的最终方向。动态可扩展虚拟化技术按需部署高灵活性高性价比高可靠性4.2.1云计算的特点动态可扩展虚拟化技术按需部署高灵活性高性价比高可靠性4.2.1云计算的特点虚拟化技术是云计算最强调的特点,包括资源虚拟化和应用虚拟化。每一个应用部署的环境和物理平台是没有关系的。通过虚拟平台进行管理达到对应用进行扩展、迁移、备份,操作均通过虚拟化层次完成。动态可扩展虚拟化技术按需部署高灵活性高性价比高可靠性通过动态扩展虚拟化的层次达到对应用进行扩展的目的。可以实时将服务器加入到现有的服务器机群中,增加”云”的计算能力。4.2.1云计算的特点动态可扩展虚拟化技术按需部署高灵活性高性价比高可靠性用户运行不同的应用需要不同的资源和计算能力。云计算平台可以按照用户的需求部署资源和计算能力。4.2.1云计算的特点动态可扩展虚拟化技术按需部署高灵活性高性价比高可靠性现在大部分的软件和硬件都对虚拟化有一定支持,各种IT资源,例如,软件、硬件、操作系统、存储网络等所有要素通过虚拟化,放在云计算虚拟资源池中进行统一管理。同时,能够兼容不同硬件厂商的产品,兼容低配置机器和外设而获得高性能计算。4.2.1云计算的特点动态可扩展虚拟化技术按需部署高灵活性高性价比高可靠性虚拟化技术使得用户的应用和计算分布在不同的物理服务器上面,即使单点服务器崩溃,仍然可以通过动态扩展功能部署新的服务器作为资源和计算能力添加进来,保证应用和计算的正常运转。4.2.1云计算的特点动态可扩展虚拟化技术按需部署高灵活性高性价比高可靠性云计算采用虚拟资源池的方法管理所有资源,对物理资源的要求较低。可以使用廉价的PC组成云,而计算性能却可超过大型主机。4.2.1云计算的特点宽带的发展为云计算提供了硬件基础0512Kbps1Mbps5Mbps10Mbps100MbpsHongKongSouthKoreaSingaporeTaiwanAustraliaChinaIndiaGermanyU.K.FranceCanadaU.S.A.主流速度高速网络2Mbps1GbpsJapan最大下载速度4.2.1云计算的特点互联网发展:从硬件到社区MySpaceFacebook开心网校内网……4.2.1云计算的特点互联网用户的新需求为云计算提供了服务基础4.2.1云计算的特点当今互联网用户的需求:•接入能力可以从任何地点、任何设备接入服务和数据•共享能力数据的建立和存储共享容易方便•自由不希望受数据的影响•简单容易学会,容易使用•安全相信数据不会丢失或不会被不允许的人看到4.2.2云计算的服务模式SaaSPaaSIaaS云计算的三个服务模式(DeliveryModels)是:SaaS、PaaS和IaaS4.2.2云计算的服务模式SaaSPaaSIaaSSaaS(Software-as-a-Service):软件即服务。提供给客户的服务是运营商运行在云计算基础设施上的应用程序,用户可以在各种设备上通过瘦客户端界面访问,如浏览器。消费者不需要管理或控制任何云计算基础设施,包括网络、服务器、操作系统、存储,等等。4.2.2云计算的服务模式PaaS(Platform-as-a-Service):平台即服务。提供给消费者的服务是把客户采用提供的开发语言和工具(例如Java、Python、.Net等)开发的或收购的应用程序部署到供应商的云计算基础设施上。客户不需要管理或控制底层的云基础设施,包括网络、服务器、操作系统、存储等,但客户能控制部署的应用程序,也可能控制运行应用程序的托管环境配置。SaaSPaaSIaaS4.2.2云计算的服务模式SaaSPaaSIaaSIaaS(Infrastructure-as-a-Service):基础设施即服务。提供给消费者的服务是对所有设施的利用,包括处理、存储、网络和其他基本的计算资源,用户能够部署和运行任意软件,包括操作系统和应用程序。消费者不管理或控制任何云计算基础设施,但能控制操作系统的选择、储存空间、部署的应用,也有可能获得有限制的网络组件(例如,防火墙、负载均衡器等)的控制。4.2.2云计算的服务模式共性优势风险无浪费费用即时扩展安全可靠APIs用户花费低减少底层管理职责允许意想不到的资源装载业务应用实现迅速安全性宕机问题接入问题独立性协同互动问题IaaS、PaaS&SaaS总结4.2.3云计算的关键技术编程模型MapReduce是Google开发的java、Python、C++编程模型,它是一种简化的分布式编程模型和高效的任务调度模型,用于大规模数据集(大于1TB)的并行运算。严格的编程模型使云计算环境下的编程十分简单。海量数据分布存储技术云计算系统中广泛使用的数据存储系统是Google的GFS和Hadoop团队开发的GFS的开源实现HDFS。海量数据管理技术云计算系统中的数据管理技术主要是Google的BT(BigTable)数据管理技术和Hadoop团队开发的开源数据管理模块HBase。虚拟化技术通过虚拟化技术可实现软件应用与底层硬件相隔离,它包括将单个资源划分成多个虚拟资源的裂分模式,也包括将多个资源整合成一个虚拟资源的聚合模式。云计算平台管理技术云计算系统的平台管理技术能够使大量的服务器协同工作,方便的进行业务部署和开通,快速发现和恢复系统故障。4.2.4云计算平台搭建Ubuntu14.04系统HadoopSSH框架Hadoop是一个开源的可运行于大规模集群上的分布式并行编程框架,其最核心的设计包括:MapReduce和HDFS。基于Hadoop,可以轻松地编写可处理海量数据的分布式并行程序,并将其运行于由成百上千个结点组成的大规模计算机集群上。4.2.4云计算平台搭建Hadoop系统原理Hadoop是一个开源的可运行于大规模集群上的分布式并行编程框架,其最核心的设计包括:MapReduce和HDFS。4.2.4云计算平台搭建MapReduce是Hadoop的核心技术之一,为分布式计算的程序设计提供了良好的编程接口,并且屏蔽了底层通信原理,使得程序员只需关心业务逻辑本事,就可轻易的编写出基于集群的分布式并行程序。从它名字上来看,大致可以看出个两个动词Map和Reduce,“Map”就是将一个任务分解成为多个子任务并行的执行,“Reduce”就是将分解后多任务处理的结果汇总起来,得出最后的分析结果并输出。4.2.4云计算平台搭建MapReduce运行机制mapreduce作业执行涉及4个独立的实体:客户端(client):编写mapreduce程序,配置作业,提交作业,这就是程序员完成的工作;JobTracker:初始化作业,分配作业,与TaskTracker通信,协调整个作业的执行;TaskTracker:保持与JobTracker的通信,在分配的数据片段上执行Map或Reduce任务,TaskTracker和JobTracker的不同有个很重要的方面,就是在执行任务时候TaskTracker可以有n多个,JobTracker则只会有一个(JobTracker只能有一个就和hdfs里namenode一样存在单点故障,我会在后面的mapreduce的相关问题里讲到这个问题的)Hdfs:保存作业的数据、配置信息等等,最后的结果也是保存在hdfs上面4.2.4云计算平台搭建4.2.4云计算平台搭建(1)修改机器名:打开/etc/hostname文件,将/etc/hostname文件中的Ubuntu改为用户设置的机器名。(2)安装ssh服务:在terminal窗口中输入:Sudoaapt-getinstallopenssh-server;建立ssh无密码登录本机在terminal窗口中输入:ssh-keygen-tdsa-P''-f~/.ssh/id_dsacat~/.ssh/id_dsa.pub>>~/.ssh/authorized_keysHadopp系统部署4.2.4云计算平台搭建Hadopp系统部署(3)登录localhost:在terminal窗口中输入:bin/start-all.sh(4)安装Hadoop:下载Hadoop安装包并解压,打开Hadoop/conf/Hadoop.sh文件,配置conf/Hadoop.sh:找到#exportJAVA_HOME=...一行,去掉#,然后加上本机JDK的路径。打开conf/core-site.XML文件,加入如下代码:<configuration><property><name></name><value>hdfs://localhost:9000</value></property></configuration>打开conf/mapred-site.XML文件,编辑如下:<configuration><property><name>mapred.job.tracker</name><value>localhost:9001</value></property></configuration>打开conf/masters文件和conf/slaves文件,添加secondary的主机名,作为单机版环境,这里只需填写localhost就Ok了。4.2.4云计算平台搭建Hadopp系统部署4.2.4云计算平台搭建基于MapReduce的分布式云计算实验云计算实验结果普通PC机实验结果5倍4.2.5云计算在物联网中的应用(1)可用性:云计算数据管理技术中的存储资源采用集中存放管理、分布式调度,能够大大地提高物联网数据的存取速度。(2)可靠性:主要是从对数据存储的安全性方面来说的。云计算数据管理技术通过以下两种方法来保证物联网数据存储的可靠性:一是加强数据管理系统的容错性,增加备份数据;二是通过全网全资源监控管理来保障系统各环节的健壮性。(3)数据资源共享:云计算数据管理技术通过将收集到的海量感知信息按照物联网的应用需求统一存放在不同的数据中心中,这种集中存放的模式通过高速传输的互联网使得物联网平台的数据共享更为方便,并可提高物联网平台共享数据的访问速度。4.3机器学习技术4.3.5人工神经网络4.3.1机器学习基本简介4.3.2聚类分析4.3.3贝叶斯分类器4.3.4决策树吴恩达,AndrewNg,斯坦福大学副教授,前“百度大脑”的负责人与百度首席科学家GeoffreyHinton,加拿大多伦多大学的教授,如今被聘为“Google大脑”的负责人YannLeCun,纽约大学教授,如今是Facebook人工智能实验室的主任4.3.1机器学习基本简介机器学习是专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。其中,系统S是我们研究的对象,它在给定一个输入X的情况下,得到一定的输出Y,LM是我们所求的学习机,其输出为Y'。4.3.1机器学习基本简介典型的机器学习系统框图人类对生活中的经验进行“归纳”,获得了生活的“规律”。当人类遇到未知的问题或者需要对未来进行“推测”的时候,人类使用这些“规律”,对未知问题与未来进行“推测”,从而指导自己的生活和工作。机器学习中的“训练”与“预测”过程可以对应到人类的“归纳”和“推测”过程。4.3.1机器学习基本简介无监督学习有监督学习强化学习在没有老师的情况下,学生自学的过程;在机器学习中,基本上都是计算机在互联网中自动收集信息,并从中获取有用信息利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也称为监督训练或有教师学习是通过自主学习,不断尝试错误,目的是为了获得更高的奖励4.3.1机器学习基本简介4.3.1机器学习基本简介有监督的学习(用于分类)-模型的学习在被告知每个训练样本属于哪个类的“监督”下进行-新数据使用训练数据集中得到的规则进行分类无监督的学习(用于聚类)-每个训练样本的类编号是未知的,要学习的类集合或数量也可能是事先未知的-通过一系列的度量、观察来建立数据中的类编号或进行聚类有监督的学习VS.无监督的学习4.3.1机器学习基本简介数据集训练集(用于构建模型)测试集(用于评估建好的模型)在机器学习过程中,把每个数据集分成两个子集。4.3.1机器学习基本简介过拟合与欠拟合例用x1表示房间大小。通过线性回归,在横轴为房间大小,纵轴为价格的图中,画出拟合曲线。回归的曲线方程为:4.3.1机器学习基本简介

若定义特征集合为:x1表示房子大小,x2表示房子大小的平方,使用相同的算法,拟合得到一个二次函数,在图中即为一个抛物线,即:

以此类推,若训练集有7个数据,则可拟合出最高6次的多项式,可以找到一条完美的曲线,该曲线经过每个数据点。但是这样的模型又过于复杂,拟合结果仅仅反映了所给的特定数据的特质,不具有通过房屋大小来估计房价的普遍性。而线性回归的结果可能无法捕获所有训练集的信息。

所以,对于一个监督学习模型来说,过小的特征集合使得模型过于简单,过大的特征集合使得模型过于复杂。对于特征集过小的情况,称之为欠拟合(underfitting);对于特征集过大的情况,称之为过拟合(overfitting)4.3.1机器学习基本简介机器学习评价指标混淆矩阵是用来评价监督式学习模型的精确性,矩阵的每一列代表一个类的实例预测,而每一行表示一个实际的类的实例。以二类分类问题为例,如下表所示:P(PositiveSample):正例的样本数量。N(NegativeSample):负例的样本数量。TP(TruePositive):正确预测到的正例的数量。FP(FalsePositive):把负例预测成正例的数量。FN(FalseNegative):把正例预测成负例的数量。TN(TrueNegative):正确预测到的负例的数量。

预测的类实际的类类=1类=0类=1TPFNP类=0FPTNN4.3.1机器学习基本简介准确度(Accuracy)指的是正负样本分别被正确分类的概率4.3.1机器学习基本简介精确率(Precision)指的是模型判为正的所有样本中有多少是真正的正样本4.3.1机器学习基本简介召回率(Recall)指的是所有正确样本有多少被模型判为正样本4.3.1机器学习基本简介虚警率(FPrate)指的是所有负样本有多少被模型错判为正样本4.3.1机器学习基本简介微积分线性代数概率论统计学离散数学模糊数学机器学习数学基础1.微积分

(1)非线性函数在以后的神经网络学习中具有重要作用。由于这些非线性函数的帮助,神经网络才能对线性和非线性模型进行学习。非线性激活函数要求处处可微,主要有Logistic函数和双曲正切函数。

4.3.1机器学习基本简介在机器学习和数据分析领域,微积分是很多算法的理论基础4.3.1机器学习基本简介Logistic函数定义为:双曲正切函数定义为:

4.3.1机器学习基本简介1.微积分(2)梯度。梯度是一个向量场,标量场中某一点上的梯度指向标量场增长最快的方向,梯度的长度是这个最大的变化率。定义为:4.3.1机器学习基本简介线性代数理论是计算技术的基础,在机器学习、数据分析、数学建模领域有着重要的地位,这些领域往往需要应用线性方程组、矩阵、行列式等理论,并通过计算机完成计算。下面是几个应用线性代数的例子。4.3.1机器学习基本简介2.线性代数4.3.1机器学习基本简介(1)内积(Innerproduct)任何满足如下条件的关于向量和的标量函数都可以定义为一个内积:①②③,当且仅当是零向量时。对于中的向量而言,其标准内积为当然,内积的形式并不是唯一的。因为满足内积定义的表达形式有许多种。5/18/2024沿向量的二阶导数为:(2)方向导数(Directionalderivative)给定多变量函数,为n维向量空间内沿所求导数方向上的一个向量,此方向一阶导数为:4.3.1机器学习基本简介5/18/2024例

给定函数,沿向量方向求在点处的导数。解首先求函数在处的梯度4.3.1机器学习基本简介5/18/2024然后求沿的导数:根据内积的定义可知,方向导数的分子是函数在处的梯度向量与方向向量的内积。由于为零,说明与正交。4.3.1机器学习基本简介(3)人口模型

描述人口系统中人的出生、死亡和迁移随时间变化的情况,以及它们之间定量关系的数学方程式或方程组,分为连续模型和离散模型。其中离散模型适合于计算机仿真。在人口离散模型中,用x0(t),x1(t),x2(t),…,xm(t)表示t时刻的年龄构成,其中xi(t)表示t年代年满i周岁但不到i+1周岁的人口数,写成向量形式如下:4.3.1机器学习基本简介则离散人口模型可写成:式中H(t),B(t)为以下相应维数的矩阵:式中为按龄死亡率,m为人类能活到的最高年龄。4.3.1机器学习基本简介在这个模型中,通过矩阵的形式,将时间、出生、死亡和迁移4个因素及它们之间的定量关系进行完全描述。(4)自回归模型模型

自回归模型是统计上一种处理时间序列的方法,从回归分析中的线性回归发展而来,用同一变量例如x的前期进行预测(即x1至xt-1预测本期xt的表现),并假设它们为线性关系,模型中X的当前值Xt等于若干个后期值的线性组合,加常数项,加随机误差,其公式定义为:其中:c是常数项;p是阶数,i为1到p的值;φi是自相关系数;εt被假设为平均数等于0、标准差等于σ的随机误差值;σ被假设为对于任何的都不变,即独立于t。4.3.1机器学习基本简介可以写成向量的形式4.3.1机器学习基本简介概率论是研究随机性或不确定性现象的数学,用来模拟实验在同一环境下会产生不同结果的情况。4.3.1机器学习基本简介3.概率论4.3.1机器学习基本简介古典概率拉普拉斯试验中,事件A在事件空间S中的概率P(A)为:条件概率:一事件A在一事件B确定发生后会发生的概率称为B给之A的条件概率,定义为:知识点回顾:4.3.1机器学习数学基础概率分布包括二项分布、几何分布、伯努利分布、泊松分布、均匀分布、正态分布、指数分布等。

样本空间随机变量的概率分布可用累积分布函数和概率密度函数进行分析。随机变量X的累积分布函数定义为:其中,x为任意实数;P(X≤x)表示随机变量小于或者等于某个数值的概率。设X为连续型随机变量,其累积分布函数为Fx(x),若存在fX(x),满足:则fX(x)是它的概率密度函数。知识点回顾:4.3.1机器学习数学基础4.统计学

统计学是收集、分析、表述和解释数据的科学,作为数据分析的一种有效工具,统计方法已广泛应用于社会科学和自然科学的各个领域。统计学与概率论联系紧密,前者以后者为理论基础。统计学主要分为描述统计学和推断统计学。5.离散数学

离散数学是数学的几个分支的总称,研究基于离散空间而不是连续的数学结构,其研究内容非常广泛,主要包括数理逻辑、集合论、信息论、数论、组合数学、图论、抽象代数、理论计算机科学、拓扑学、运筹学、博弈论、决策论等。离散数学广泛应用于机器学习、算法设计、信息安全、数据分析等领域。4.3.2聚类分析

聚类就是将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。1.数据的距离和相似性度量

聚类分析按照样本点之间的亲疏远近程度进行分类。为了使类分得合理,必须描述样本之间的亲疏远近程度。刻画聚类样本点之间的亲疏远近程度主要的方法是利用距离度量的方法,常用的距离度量方法有欧几里德距离、余弦距离和马氏距离等。4.3.2聚类分析距离与度量相关距离闵可夫斯基距离欧氏距离曼哈顿距离切比雪夫距离改进闵可夫斯基距离标准化欧氏距离(加权)马氏距离相似度度量余弦相似度改进:调整余弦相似度皮尔森相关系数Jaccard相似系数欧式距离和余弦相似度的比较4.3.2聚类分析一般而言,定义一个距离函数d(x,y),需要满足下面几个基本准则:1)d(x,x)=0

//到自己的距离为0

2)d(x,y)>=0

//距离非负

3)d(x,y)=d(y,x)//对称性:如果A到B距离是a,那么B到A的距离也应该是a

4)d(x,k)+d(k,y)>=d(x,y)

//三角形法则:(两边之和大于第三边)4.3.2聚类分析即:所有点的对应维度之差的平方的求和再开方。欧式距离相似度算法需要保证各个维度指标在相同的刻度级别,比如对身高、体重两个单位不同的指标使用欧氏距离可能使结果失效。欧式距离4.3.2聚类分析曼哈顿距离来源于城市区块距离,是将多个维度上的距离进行求和后的结果曼哈顿距离4.3.2聚类分析切比雪夫距离(Chebyshevdistance)是向量空间中的一种度量,二个点之间的距离定义为其各坐标数值差的最大值。从一个位置走到其他位置需要的步数恰为二个位置的切比雪夫距离,因此切比雪夫距离也称为棋盘距离。切比雪夫距离4.3.2聚类分析闵可夫斯基距离(Minkowskidistance)不是一种距离,而是一组距离的定义。该距离最常用的p是2和1,无穷大P=2是欧几里得距离(Euclideandistance),P=1是曼哈顿距离(Manhattandistance)。当p趋近于无穷大时,闵可夫斯基距离转化成切比雪夫距离(Chebyshevdistance)闵可夫斯基距离4.3.2聚类分析缺点:举个例子二维样本(身高,体重),其中身高范围是150~190,体重范围是50~60,有三个样本:a(180,50),b(190,50),c(180,60)。那么a与b之间的闵氏距离(无论是曼哈顿距离、欧氏距离或切比雪夫距离)等于a与c之间的闵氏距离,但是身高的10cm等价于体重的10kg吗?因此用闵氏距离来衡量这些样本间的相似度有问题。简单说来,闵氏距离的缺点主要有两个:

1.将各个分量的量纲(scale),也就是“单位”当作相同的看待了。

2.没有考虑各个分量的分布(期望,方差等)可能是不同的。4.3.2聚类分析引入标准化欧式距离的原因是一个数据xi的各个维度之间的尺度不一样。

比如v1=(100,10,30),v2=(500,40,10)。对所有维度分别进行处理,使得各个维度分别满足标准正态分布。

如果将方差的倒数看成是一个权重,这个公式可以看成是一种加权欧氏距离(WeightedEuclideandistance)。标准化欧氏距离4.3.2聚类分析无量纲化标准化归一化使不同规格的数据转换到同一规格标准化:对不同特征维度的伸缩变换的目的是使得不同度量之间的特征具有可比性。同时不改变原始数据的分布。特点:1、保持各个特征维度对目标函数的影响权重

2、对目标函数的影响体现在几何分布上

3、在已有样本足够多的情况下比较稳定。归一化(区间缩放):基于边界值(最大值,最小值),将值的区间缩放到某个特点的范围,如[0,1]

特点:1、对不同特征维度进行伸缩变换

2、改变原始数据的分布。使各个特征维度对目标函数的影响权重是一致的)

3、对目标函数的影响体现在数值上

4、把有量纲表达式变为无量纲表达式。列行4.3.2聚类分析马式距离若协方差矩阵是单位矩阵(各个样本向量之间独立同分布),则公式就成了:则Xi与Xj之间的马氏距离等于他们的欧氏距离。即:若协方差矩阵是对角矩阵,公式变成了标准化欧氏距离。标准化欧氏距离是在假设数据各个维度不相关的情况下,利用数据分布的特性计算出不同的距离。如果维度相互之间数据相关(例如:身高较高的信息很有可能会带来体重较重的信息,因为两者是有关联的),就要用到马氏距离4.3.2聚类分析相似度度量

相似度度量(Similarity),即计算个体间的相似程度,与距离度量相反,相似度度量的值越小,说明个体间相似度越小,差异越大。4.3.2聚类分析两个向量越相似,向量夹角越小,余弦值的绝对值越大;值为负,两向量负相关。应用:文本的相似度和推荐系统等。余弦相似度4.3.2聚类分析举个简单例子:句子A:这只皮靴号码大了。那只号码合适句子B:这只皮靴号码不小,那只更合适怎样计算上面两句话的相似程度?基本思路:如果这两句话的用词越相似,它们的内容就应该越相似。因此,可以从词频入手,计算它们的相似程度。第一步,分词。句子A:这只/皮靴/号码/大了。那只/号码/合适。句子B:这只/皮靴/号码/不/小,那只/更/合适。第二步,列出所有的词。这只,皮靴,号码,大了。那只,合适,不,小,很4.3.2聚类分析第三步,计算词频。句子A:这只1,皮靴1,号码2,大了1。那只1,合适1,不0,小0,更0句子B:这只1,皮靴1,号码1,大了0。那只1,合适1,不1,小1,更1第四步,写出词频向量。

句子A:(1,1,2,1,1,1,0,0,0)句子B:(1,1,1,0,1,1,1,1,1)第五步,使用公式计算相似度

计算结果:夹角的余弦值为0.81,非常接近于1,所以,上面的句子A和句子B是基本相似的4.3.2聚类分析pearson是一个介于-1和1之间的值,用来描述两组线性的数据一同变化移动的趋势。相关系数>0,表明它们之间是正相关的。即当一个变量增大,另一个变量也增大;相关系数<0,表明它们之间是负相关的,如果一个变量增大,另一个变量却减小,;如果相关系数=0,表明它们之间不存在线性相关关系。皮尔森相关系数上面是总体相关系数,估算样本的协方差和标准差,可得到样本相关系数(样本皮尔逊系数),常用英文小写字母r代表:

4.3.2聚类分析Jaccard相似系数(JaccardCoefficient)Jaccard系数主要用于计算符号度量或布尔值度量的个体间的相似度,因为个体的特征属性都是由符号度量或者布尔值标识,因此无法衡量差异具体值的大小,只能获得“是否相同”这个结果,所以Jaccard系数只关心个体间共同具有的特征是否一致这个问题。如果比较X与Y的Jaccard相似系数,只比较xn和yn中相同的个数,公式如下:4.3.2聚类分析2.聚类方法(1)基于层次的聚类方法

通过将数据组织为若干组并形成一个相应的树来进行聚类的。层次聚类算法分裂的层次聚类凝聚的层次聚类自底向上自顶向下4.3.2聚类分析

采用自底向上的策略,首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到所有的对象都在一个簇中,或者某个终结条件被达到要求。大部分的层次聚类方法都属于一类,它们在簇间的相似度的定义有点不一样。凝聚的层次聚类分裂的层次聚类

采用自顶向下的策略,它首先将所有对象放在一个簇中,然后慢慢地细分为越来越小的簇,直到每个对象自行形成一簇,或者直达满足其他的一个终结条件,例如满足了某个期望的簇数目,又或者两个最近的簇之间的距离达到了某一个阈值。(2)基于距离度量的方法1)单连锁(SingleLinkage),又称最近邻(NearestNeighbor)方法。指两个不一样的簇之间任意两点之间的最近距离。这里的距离是表示两点之间的相异度,所以距离越近,两个簇相似度越大。4.3.2聚类分析在凝聚和分裂的层次聚类之间,依据计算簇间的距离的不同,分为下面的几类方法:

这种方法最善于处理非椭圆结构。却对于噪声和孤立点特别的敏感,取出距离很远的两个类之中出现一个孤立点时,这个点就很有可能把两类合并在一起。4.3.2聚类分析2)全连锁(CompleteLinkage),又称最远邻(FurthestNeighbor)方法。指两个不一样的簇中任意的两点之间的最远的距离。它面对噪声和孤立点很不敏感,趋向于寻求某一些紧凑的分类,但是,有可能使比较大的簇破裂。3)组平均方法(GroupAverageLinkage),定义距离为数据两两距离的平均值。4.3.2聚类分析

其中是两个类,为对象和之间的距离,分别为的对象个数。这个方法倾向于合并差异小的两个类,产生的聚类具有相对的鲁棒性。4)平均值方法(CentroidLinkage),先计算各个类的平均值,然后定义平均值之差为两类的距离。4.3.2聚类分析

其中是两个类,为对象和之间的距离,分别为的对象个数,分别为类的平均值。4.3.2聚类分析(3)基于划分的聚类方法

给定数据集其中zp是Nd维特征空间中的一个特征向量,而Np是特征空间Z中特征向量的个数,以及数目K的即将生成的簇,一个划分类的算法将对象分为K个划分,其中,这里的每个划分分别代表一个簇,并且K≤Np。其中的K需要人为指定。K-means

核心思想:以空间中K个点为中心进行聚类,即K类:,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。该算法的迭代的终止条件是直至中心点收敛。4.3.2聚类分析需要优化的目标函数:其中隶属函数和权重分别定义为:为聚类中心,

4.3.2聚类分析流程b图,红叉和蓝叉为初始聚类中心,c图,根据样本到初始聚类中心的距离对样本分类,d图,根据分类后的样本,得到新的聚类中心,这个新的聚类中心由各类样本的中心(横纵坐标的平均值)确定。e图是重复c图的步骤,对样本再次分类,f图是重复d图的步骤,划分新的聚类中心,不断重复这两个步骤直到满足某个终止条件。4.3.2聚类分析流程给定一组输入数据{x(1),x(2),...,x(n)}和预分类数k,算法如下:首先随机指定k个类的中心μ1~μk,然后迭代地更新该centroid。其中,C(i)表示第i个数据离那个类中心最近,也就是将其判定为属于那个类,然后将这k各类的中心分别更新为所有属于这个类的数据的平均值。4.3.2聚类分析流程4.3.2聚类分析流程4.3.2聚类分析流程4.3.2聚类分析流程4.重复2~3直到K个簇的质心点不再发生变化或准则函数收敛例构造了一个二维的数据集,并划分为2个类别,选取O1和O5为两个初始簇心4.3.2聚类分析OXY1112223344445554.3.2聚类分析然后计算剩余的每条记录,根据其与各个簇中心的距离将它划分给最近的簇:对于:所以因为,所以这条记录分给了类,4.3.2聚类分析对于:因为,所以这条记录分给了类对于:4.3.2聚类分析因为

,所以这条记录分给了类,因此我们得到了一个新的分类簇4.3.2聚类分析然后计算平方误差:所以总体的平均方差是:这一轮结束,然后我们再迭代一次4.3.2聚类分析计算新的簇心:然后我们重复上面计算距离的步骤;得到将和分给,,和分给了得到:4.3.2聚类分析计算平方误差:所以总体的平均方差是:从第一次迭代后总体平均误由:9~2.3467,大幅度的得到了减少,然后再计算簇心:4.3.2聚类分析由于簇心未发生变化,迭代停止;这就是我们常用的聚类算法K-MEANS4.3.2聚类分析习题:亚洲15只球队在2005年-2010年间大型杯赛的战绩,并且对数据进行[0,1]规格化用k-means算法进行聚类。设k=3,即将这15支球队分成三个集团。现抽取日本、巴林和泰国的值作为三个簇的簇心,以欧氏距离进行度量,进行聚类。

分类问题4.3.3贝叶斯分类器4.3.3贝叶斯分类器知识回顾贝叶斯知识4.3.3贝叶斯分类器1.样本空间的划分4.3.3贝叶斯分类器2.全概率公式全概率公式4.3.3贝叶斯分类器图示证明化整为零各个击破4.3.3贝叶斯分类器说明

全概率公式的主要用途在于它可以将一个复杂事件的概率计算问题,分解为若干个简单事件的概率计算问题,最后应用概率的可加性求出最终结果.4.3.3贝叶斯分类器称此为贝叶斯公式.

3.贝叶斯公式4.3.3贝叶斯分类器证明条件概率的概念乘法定理:4.3.3贝叶斯分类器由以往的数据分析得到的概率,叫做先验概率.而在得到信息之后再重新加以修正的概率叫做后验概率.先验概率与后验概率4.3.3贝叶斯分类器简单的说,贝叶斯定理是基于假设的先验概率、给定假设下观察到不同数据的概率,提供了一种计算后验概率的方法。在人工智能领域,贝叶斯方法是一种非常具有代表性的不确定性知识表示和推理方法。贝叶斯理论4.3.3贝叶斯分类器贝叶斯定理:P(A)是A的先验概率或边缘概率。之所以称为“先验”是因为它不考虑任何B方面的因素。P(A|B)是已知B发生后A的条件概率,也由于得自B的取值而被称作A的后验概率。P(B|A)是已知A发生后B的条件概率,也由于得自A的取值而被称作B的后验概率。P(B)是B的先验概率或边缘概率,也作标准化常量(normalizedconstant).4.3.3贝叶斯分类器贝叶斯公式在概率论方面的贝叶斯公式是在乘法公式和全概率公式的基础上推导出来的,它是指设是样本空间的一个分割,即互不相容,且,如果,则这就是贝叶斯公式,为后验概率,为先验概率,一般是已知先验概率来求后验概率,贝叶斯定理提供了”预测”的实用模型,即已知某事实,预测另一个事实发生的可能性大小。

贝叶斯分类器是一种比较有潜力的数据挖掘工具,它本质上是一种利用概率统计知识进行分类的算法。4.3.3贝叶斯分类器4.3.3贝叶斯分类器机器学习中的贝叶斯公式为:1.机器学习中的贝叶斯法则c表示的是随机事件发生的一种情况。x表示的就是证据(evidence)\状况(condition),泛指与随机事件相关的因素。P(c|x):在x的条件下,随机事件出现c情况的概率。(后验概率)P(c):(不考虑相关因素)随机事件出现c情况的概率。(先验概率)P(x|c):在已知事件出现c情况的条件下,条件x出现的概率。(后验概率)P(x):x出现的概率。(先验概率)4.3.3贝叶斯分类器学习器考虑候选假设集合H并在其中寻找给定数据D时可能性最大的假设,称为MAP假设,记为hMAP,则4.3.3贝叶斯分类器

贝叶斯分类器是用于分类的贝叶斯网络。贝叶斯分类器的优势不仅仅在于高分类准确率,更重要的是,它会通过训练集学习一个因果关系图(贝叶斯网络)。在面对未知问题的情况下,可以从该因果关系图入手分析,而贝叶斯分类器此时充当的是一种辅助分析问题领域的工具。2.贝叶斯网络

贝叶斯网是一个带有概率注释的有向无环图(DirectedAcyclicGraph,DAG),图中的每一个结点均表示一个随机变量(类别和特征),图中两结点间若存在着一条弧,则表示这两结点相对应的随机变量是概率相依的,反之则说明这两个随机变量是条件独立的。网络中任意一个结点X均有一个相应的条件概率表(ConditionalProbabilityTable,CPT),用以表示结点X在其父结点取各可能值时的条件概率。若结点X无父结点,则X的CPT为其先验概率分布。贝叶斯网络的结构及各结点的CPT定义了网络中各变量的概率分布。4.3.3贝叶斯分类器概念:4.3.3贝叶斯分类器

贝叶斯网络有一条极为重要的性质,就是我们断言每一个节点在其直接前驱节点的值制定后,这个节点条件独立于其所有非直接前驱前辈节点。贝叶斯网络是模拟人的认知思维推理模式,用一组条件概率函数以及有向无环图对不确定性的因果推理关系建模,因此其具有更高的实用价值。性质:4.3.3贝叶斯分类器构造与训练贝叶斯网络:确定随机变量间的拓扑关系,形成DAG12训练贝叶斯网络4.3.3贝叶斯分类器例检测某网络社区中的不真实账号,我们的模型中存在四个随机变量:账号真实性R,头像真实性H,日志密度L,好友密度F。其中H,L,F是可以观察到的值,而我们最关系的R是无法直接观察的。这个问题就划归为通过H,L,F的观察值对R进行概率推理4.3.3贝叶斯分类器推理过程如下:1)形成DAG:

如图所示,每个节点代表一个随机变量,而弧则表示两个随机变量之间的联系,表示指向结点影响被指向结点。不过仅有这个图的话,只能定性给出随机变量间的关系,如果要定量,还需要一些数据,这些数据就是每个节点对其直接前驱节点的条件概率,而没有前驱节点的节点则使用先验概率表示。4.3.3贝叶斯分类器4.3.3贝叶斯分类器假设通过对训练数据集的统计,得到下表(R表示账号真实性,H表示头像真实性):R=0R=10.110.89表1账号真实性

H=0H=1R=00.90.1R=10.20.8表2头像真实性与账号真实性的关系

有了这些数据,不但能顺向推断,还能通过贝叶斯定理进行逆向推断。例如,现随机抽取一个账户,已知其头像为假,求其账号也为假的概率:4.3.3贝叶斯分类器

也就是说,在仅知道头像为假的情况下,有大约35.7%的概率此账户也为假。如果给出所有节点的条件概率表,则可以在观察值不完备的情况下对任意随机变量进行统计推断。上述方法就是使用了贝叶斯网络。4.3.3贝叶斯分类器4.贝叶斯分类器

贝叶斯分类器是用于分类的贝叶斯网络。该网络中应包含类结点C,其中C的取值来自于类集合(c1,c2,...cm),还包含一组结点X=(X1,X2,...Xn),表示用于分类的特征。

对于贝叶斯网络分类器,若某一待分类的样本D,其分类特征值为x=(x1,x2,...,xm)则样本D属于类别的概率应满足:4.3.3贝叶斯分类器根据贝叶斯公式:叶斯网络分类器的学习贝叶斯网络分类器的推理从样本数据中构造分类器计算类结点的条件概率,对分类数据进行分类4.3.3贝叶斯分类器例某个医院早上收了六个门诊病人,如下表症状职业疾病打喷嚏护士感冒打喷嚏农夫过敏头痛建筑工人脑震荡头痛建筑工人感冒打喷嚏教师感冒头痛教师脑震荡表3病人记录数据表现在又来了第七个病人,是一个打喷嚏的建筑工人。请问他患上感冒的概率有多大?4.3.3贝叶斯分类器解根据贝叶斯定理:

假定"打喷嚏"和"建筑工人"这两个特征是独立的,因此,上面的等式就变成了

可得:P(感冒|打喷嚏x建筑工人)=P(打喷嚏x建筑工人|感冒)xP(感冒)/P(打喷嚏x建筑工人)4.3.3贝叶斯分类器上式是可以计算的,即

P(感冒|打喷嚏x建筑工人)=0.66x0.33x0.5/(0.5x0.33)=0.66P(感冒|打喷嚏x建筑工人)=P(打喷嚏|感冒)xP(建筑工人|感冒)xP(感冒)/(P(打喷嚏)xP(建筑工人))因此,这个打喷嚏的建筑工人,有66%的概率是得了感冒。同理,可以计算这个病人患上过敏或脑震荡的概率。比较这几个概率,就可以知道他最可能得什么病。4.3.3贝叶斯分类器这就是贝叶斯分类器的基本方法:在统计资料的基础上,依据某些特征,计算各个类别的概率,从而实现分类。假设某个体有n项特征(Feature),分别为F1、F2、...、Fn。现有m个类别(Category),分别为C1、C2、...、Cm。贝叶斯分类器就是计算出概率最大的那个分类,也就是求下面这个算式的最大值:由于P(F1F2...Fn)对于所有的类别都是相同的,可以省略,问题就变成了求P(F1F2...Fn|C)P(C)的最大值。4.3.3贝叶斯分类器5.朴素贝叶斯分类器

朴素贝叶斯分类器则是更进一步,假设所有特征都彼此独立,因此上式等号右边的每一项,都可以从统计资料中得到,由此就可以计算出每个类别对应的概率,从而找出最大概率的那个类。虽然"所有特征彼此独立"这个假设,在现实中不太可能成立,但是它可以大大简化计算,而且有研究表明对分类结果的准确性影响不大。4.3.3贝叶斯分类器4.3.3贝叶斯分类器例根据某社区网站的抽样统计,该站10000个账号中有89%为真实账号(设为C0),11%为虚假账号(设为C1)。C0=0.89C1=0.11假定某一个账号有以下三个特征:F1:日志数量/注册天数F2:好友数量/注册天数F3:是否使用真实头像(真实头像为1,非真实头像为0)F1=0.1F2=0.2F3=0请问该账号是真实账号还是虚假账号?4.3.3贝叶斯分类器利用朴素贝叶斯分类器,计算下面这个计算式的值。

虽然上面这些值可以从统计资料得到,但是这里有一个问题:F1和F2是连续变量,不适宜按照某个特定值计算概率。一个技巧是将连续值变为离散值,计算区间的概率。比如将F1分解成[0,0.05]、(0.05,0.2)、[0.2,+∞]三个区间,然后计算每个区间的概率。在本例中,F1等于0.1,落在第二个区间,所以计算的时候,就使用第二个区间的发生概率。4.3.3贝叶斯分类器解根据统计资料,可得:

因此,可以看到,虽然这个用户没有使用真实头像,但是他是真实账号的概率,比虚假账号高出30多倍,因此判断这个账号为真。4.3.3贝叶斯分类器例下表是一组人类身体特征的统计资料性别身高(英尺)体重(磅)脚掌(英寸)男618012男5.9219011男5.5817012男5.9216510女51006女5.51508女5.421307女5.751509表4人类身体特征统计表已知某人身高6英尺、体重130磅,脚掌8英寸,请问该人是男是女?4.3.3贝叶斯分类器根据朴素贝叶斯分类器,计算下面这个式子的值。P(身高|性别)xP(体重|性别)xP(脚掌|性别)xP(性别)这里的困难在于,由于身高、体重、脚掌都是连续变量,不能采用离散变量的方法计算概率。而且由于样本太少,所以也无法分成区间计算。怎么办?4.3.3贝叶斯分类器

这时,可以假设男性和女性的身高、体重、脚掌都是正态分布,通过样本计算出均值和方差,也就是得到正态分布的密度函数。有了密度函数,就可以把值代入,算出某一点的密度函数的值。比如,男性的身高是均值5.855、方差0.035的正态分布。所以,男性的身高为6英尺的概率的相对值等于1.5789(大于1并没有关系,因为这里是密度函数的值,只用来反映各个值的相对可能性)。4.3.3贝叶斯分类器有了上述数据以后,就可以计算性别的分类了。解P(身高=6|男)xP(体重=130|男)xP(脚掌=8|男)xP(男)=6.1984xe-9P(身高=6|女)xP(体重=130|女)xP(脚掌=8|女)xP(女)=5.3778xe-4可以看到,女性的概率比男性要高出将近10000倍,所以判断该人为女性。4.3.3贝叶斯分类器例题:today=(Sunny,Hot,Normal,False)4.3.3贝叶斯分类器4.3.4决策树小Y和小M约好3点钟在某个麦当劳门口见面,但是小M是个不怎们守时的人。小Y决定采取一个策略解决他所担忧的问题。我现在出发合适么?我会不会又到了地点后,花上30分钟去等他?4.3.4决策树①采用知识:我搜寻能够解决这个问题的知识。但很遗憾,没有人会把如何等人这个问题作为知识传授,因此小Y不可能找到已有的知识能够解决这个问题。②询问他人:去询问他人获得解决这个问题的能力。但是同样的,这个问题没有人能够解答,因为可能没人碰上跟小Y一样的情况。③准则法:问自己的内心,有否设立过什么准则去面对这个问题?例如,无论别人如何,都会守时到达。但小Y不是个死板的人,他没有设立过这样的规则。4.3.4决策树小Y把过往跟小M相约的经历在脑海中重现一下,看看跟他相约的次数中,迟到占了多大的比例。来预测他这次迟到的可能性。如果这个值超出了我心里的某个界限,那我选择等一会再出发。假设我跟小M约过5次,他迟到的次数是1次,那么他按时到的比例为80%,我心中的阈值为70%,我认为这次小M应该不会迟到,因此我按时出门。如果小M在5次迟到的次数中占了4次,也就是他按时到达的比例为20%,由于这个值低于我的阈值,因此我选择推迟出门的时间。4.3.4决策树

这样的图就是一个最简单的机器学习模型,称之为决策树。决策树是一种通过对历史数据进行测算实现对新数据进行分类和预测的算法。简单来说决策树算法就是通过对已有明确结果的历史数据进行分析,寻找数据中的特征。并以此为依据对新产生的数据结果进行预测。决策树由3个主要部分组成,分别为决策节点,分支和叶子节点。其中决策树最顶部的决策节点是根决策节点。每一个分支都有一个新的决策节点。决策节点下面是叶子节点。每个决策节点表示一个待分类的数据类别或属性,每个叶子节点表示一种结果。整个决策的过程从根决策节点开始,从上到下。根据数据的分类在每个决策节点给出不同的结果。决策树定义4.3.4决策树在学习过

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论