版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一章人工智能概述本章目标了解人工智能的定义、分类及应用领域熟悉人工智能起源和发展掌握人工智能的技术框架
理解发展人工智能的战略意义1.1人工智能简介机器人索非亚获得沙特国籍AlphaGO战胜人类最强棋手人脸识别协助警方抓捕犯人手机多国语言在线翻译无人驾驶汽车种牙机器人超级震撼人工智能应用到城市生活、医疗、教育、通讯等领域,AI技术渐渐走进人们生活。1.1.1人工智能的定义
人工智能(AI,ArtificialIntelligence),是模拟实现人的抽象思维和智能行为的技术,即通过利用计算机软件模拟人类特有的大脑抽象思维能力和智能行为,如学习、思考、判断、推理等,以完成原本需要人的智力才可胜任的工作。1.1.2人工智能的分类低于人类智力水平AlphaGo特点:人类可以很好地控制其发展和运行和人类智力旗鼓相当,能够进行思考、计划、学习等特点:在人类设置的规则和轨道上发展超出人类智力水平西部世界(第三季)人工智能获得自主意识在几乎所有领域都比最聪明的人类大脑都聪明很多1.1.3人工智能起源和发展科幻电影中的人工智能人类的好帮手?人类的终结者?人类的朋友?如何与人工智能相处?60年代,星际迷航80年代,终结者21世纪,人工智能1.1.3人工智能起源和发展图灵测试图灵(AlanMathisonTuring,1912年6月23日—1954年6月7日)被称为计算机科学之父发表了一篇名为《计算机和智能》的论文1950年提出了著名的“图灵测试”让一位测试者分别与一台计算机和一个人进行交谈,测试者事先并不知道哪一个是人,哪一个是计算机。如果交谈后测试者分不出哪一个被测试者是人和哪一个是计算机,则认为这台被测试的计算机具有智能。图灵测试机器能思考吗?1.1.3人工智能起源和发展起源:1956年达特茅斯会议提出人工智能定义:使一部机器的反应方式就像是一个人在行动时所依据的智能。1.1.3人工智能起源和发展AI诞生的标志:1956年“人工智能”的名称和任务得以确定1.1.3人工智能起源和发展人工智能发展的六个阶段1.1.3人工智能起源和发展1、第一次热潮(1956-1976)人工智能主要用于解决代数、几何问题,以及学习和使用英语程序,研发主要围绕机器的逻辑推理能力展开。其中20世纪60年代自然语言处理和人机对话技术的突破性发展,大大地提升了人们对人工智能的期望,也将人工智能带入了第一波高潮。这个阶段产生了很多理论基石,这些不仅成为了人工智能的理论基石,还成为了计算机领域的基石。1.1.3人工智能起源和发展2、第一次寒冬(1976-1982)乐观的承诺一直无法兑现,而在实际中逻辑证明器、感知器、增强学习等只能做很简单、非常专门且很窄的任务。即使最杰出的AI程序也只能解决它们尝试解决的问题中最简单的一部分,也就是说所有的AI程序都只是“玩具”。受限于当时计算机算力不足,同时由于国会压力下美英政府于1973年停止向没有明确目标的人工智能研究项目拨款,人工智能研发变现周期拉长、行业遇冷。1.1.3人工智能起源和发展3、第二次热潮(1980-1987):专家系统专家系统只能模拟特定领域人类专家的技能,但这足以激发新的融资趋势。最活跃的是日本政府,意图创造第五代计算机。间接迫使美国和英国恢复对人工智能研究的资助。但需要一个巨型知识库。最早的专家系统是1968年由费根鲍姆研发的DENDRAL系统,可以帮助化学家判断某特定物质的分子结构;DENDRAL首次对知识库提出定义。1.1.3人工智能起源和发展3、第二次热潮(1980-1987):神经网络1982年英国科学家霍普菲尔德几乎同时与杰弗里·辛顿发现了具有学习能力的神经网络算法。
这使得神经网络一路发展,在后面的90年代开始商业化,被用于文字图像识别和语音识别。1986年出现了人工智能数学模型方面的重大发明,包括著名的多层神经网络和反向传播算法等,出现能与人类下象棋的高度智能机器。
1.1.3人工智能起源和发展4、第二次寒冬(1987-1997)1987年,个人电脑变得比人工智能多年的研究成果——专家系统(Lisp机器)更强大。专家系统最初取得的成功是有限的,它无法自我学习并更新知识库和算法,维护起来越来越麻烦,成本越来越高。1.1.3人工智能起源和发展5、复苏期(1997-2010):机器学习1997年国际商业机器公司(简称IBM)深蓝超级计算机战胜了国际象棋世界冠军卡斯帕罗夫。2001年,布雷曼博士提升随机森林2006年深度学习算法的提出2007年,在斯坦福任教的华裔科学家李飞飞,发起创建了ImageNet项目、2012年AlexNet在ImageNet训练集上图像识别精度取得重大突破,直接推升了新一轮人工智能发展的浪潮。机器学习是一种人工智能技术,它可以让计算机从数据中学习,并自动改进算法,以提高性能。这个时期的代表性机器学习算法包括决策树、神经网络和遗传算法。1.1.3人工智能起源和发展6、增长爆发期(2010-):深度学习2016年,李世石与AlphaGo总比分1比4告负,将公众的视注意力也大量投向了人工智能,真正地将人工智能推向了研究和公众视野的中心,人工智能收获了空前的关注度。1.1.3人工智能起源和发展6、增长爆发期(2010-):深度学习2020年代,自然语言处理和计算机视觉的技术得到了进一步的发展。自然语言处理方面,出现了一系列新的技术,如BERT、GPT和T5等预训练模型,以及GPT-3、GPT-4等生成式模型。计算机视觉方面,出现了一系列新的技术,如目标检测、图像分割和图像生成等。2022年11月底,人工智能对话聊天机器人ChatGPT推出,迅速在社交媒体上走红。ChatGPT是人工智能技术驱动的自然语言处理工具,它能够基于在预训练阶段所见的模式和统计规律,来生成回答,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码,写论文等任务。1.1.3人工智能起源和发展人工智能发展的应用方面近期重要事件1950年图灵测试1956年达特茅斯会议提出“人工智能”概念……2011年苹果语音助手Siri2012年Google无人驾驶汽车2014年微软智能助理小娜2016年AlphaGo战胜世界围棋冠军(2017年最强版AlphaGoZero)2020年GPT-3问世最先进的自然语言处理模型2022年多轮对话聊天机器人ChatGPT1.1.3人工智能起源和发展思政小课堂:向科学家们致敬人工智能之父有四个人,他们分别是艾伦·麦席森·图灵、约翰.麦卡锡、马文·明斯基、西摩尔·帕普特。具体贡献:(1)艾伦·麦席森·图灵,奠定了人工智能的逻辑,并且提出了图灵测试,计算机在5分钟之内回答的问题中,超过百分之三十被认为是人类做出的解答,让人工智能初步得到人们的认可。(2)约翰.麦卡锡,将批处理方式改进成了能够同时允许多人使用的分时方式。(3)马文·明斯基,发明了能够模拟人类活动的机器人,也是最早的能够模拟人类的机器人。(4)西摩尔·帕普特,将儿童和人工智能以非常有趣的方式结合在了一起,从这里开始,科技与教育开始融合,对后来的教育影响非常大。LOGO语言创始人。1.1.4人工智能应用领域1.2人工智能技术领域1.2人工智能技术领域脑:机器学习(神经网络…)、专家系统、情景感知计算眼:计算机视觉、视频识别、图像识别耳:语音识别、自然语言处理、实时翻译身:智能机器人口:自然语言处理、实时翻译1.2.1人工智能四要素人工智能的四个维度(四要素)1.2.2人工智能技术框架人工智能的技术框架按照产业生态通常可以划分为基础层、技术层、应用层三大板块。基础层提供了支撑人工智能应用的基础设施和技术,包括存储和处理大规模数据的能力,以及高性能的计算和通信基础设施;技术层提供了各种人工智能技术和算法,用于处理和分析数据,并提取有用的信息和知识;应用层是人工智能技术的最终应用领域,将技术层提供的算法和模型应用到具体的问题和场景中,实现智能化的决策和优化。1.2.2人工智能技术框架1.2.2人工智能技术框架1.2.3人工智能技术发展趋势l框架:更易用的开发框架l算法:性能更优,体积更小的算法模型l算力:端-边-云全面发展的算力l数据:更完善的基础数据服务产业,更安全的数据共享l场景:不断突破的行业应用1、更易用的开发框架各种AI开发框架都在朝易用、全能的方向演进,不断降低人工智能的开发门槛。1.2.3人工智能技术发展趋势2、体积更小的深度模型性能更优的模型往往有着更大的参数量,大的模型在工业应用时会有运行效率的问题。越来越多的模型压缩技术被提出,在保证模型性能的同时,进一步压缩模型体积,适应工业应用的需求。1.2.3人工智能技术发展趋势3、端-边-云全面发展的算力应用于云端、边缘设备、移动终端的人工智能芯片规模不断增长,进一步解决人工智能的算力问题。1.2.3人工智能技术发展趋势4、更安全的数据共享联邦学习在保证数据隐私安全的前提下,利用不同数据源合作训练模型,进一步突破数据的瓶颈。1.2.3人工智能技术发展趋势5、不断突破的应用场景随着人工智能在各个垂直领域的不断探索,人工智能的应用场景将不断被突破:p缓解心理问题:人工智能聊天机器人结合心理学知识,帮助缓解孤独症等心理健康问题。p自动车险定损:人工智能技术帮助保险公司实现车险理赔优化,通过图像识别等深度学习算法完成车险定损。p后端办公自动化:AI正在自动化管理工作,但数据的不同性质和格式使其成为一项具有挑战性的任务。尽管每个行业和应用都有其独特的挑战,但不同的行业正在逐步采用基于机器学习的工作流程解决方案。p……1.2.3人工智能技术发展趋势1.3人工智能的意义及挑战人工智能是引领未来的战略性技术人工智能是开启未来智能世界的密匙是未来科技发展的战略制高点是推动人类社会变革的第四次工业革命谁掌握人工智能,谁就将成为未来核心技术的掌控者。1.3.1发展人工智能的战略意义1.3.1发展人工智能的战略意义1.人工智能的战略意义表现在其对经济发展的推动作用。2.人工智能的战略意义还表现在其对社会生活的改变和提升作用。3.人工智能的战略意义还体现在其对国家安全和国防建设的重要作用。4.人工智能的战略意义还体现在其对全球竞争力的提升作用。思政小课堂:中国“1+N”政策体系十九大以来,国家陆续出台了“1+N”政策体系,为人工智能发展提供政策依据和制度保障。其中,“1”是指2017年国务院发布的《新一代人工智能发展规划》,这是我国在人工智能领域中的首个系统部署的文件,也是面向未来打造我国先发优势的顶层设计文件,将人工智能正式上升为国家战略,提出了面向2030年我国新一代人工智能发展的指导思想、战略目标、重点任务和保障措施。“N”是顶层设计出台之后,部委层面陆续出台的关于人工智能产业的发展规划、行动计划、实施方案等落地政策,其中工信部、科技部发布的政策主要涉及数实融合、场景创新、区域创新等内容,国家标准委、发改委围绕标准体系、伦理规范、基础设施建设等内容开展工作。1.3.1发展人工智能的战略意义1.3.2人工智能的挑战1、数据隐私和安全性问题2、人工智能的伦理和道德问题3、就业问题随着人工智能技术的发展,人们越来越关注人工智能的伦理和社会问题。在2020年代,研究人员和政策制定者也开始探讨如何确保人工智能的公正性、透明性和责任性,以及如何保护个人隐私和数据安全等问题。同时,人工智能的发展也带来了一些新的社会问题,如人工智能对就业和教育的影响,以及人工智能的道德和法律问题等。1.3.2人工智能的挑战随着计算机视觉的发展,图像及视频的可行信也越来越低。现在我们可以通过PS,GAN(生成对抗网络)等技术制作假图像,让人难分真伪。p通过PS,把犯罪嫌疑人P在一个从未去过的地方或将他与从未见过的人放在一起,以此来制造假证据。p通过PS,很多减肥药广告可以改变人物的外观以达到减肥前后的对比。p如Lyrebird是一个可以从几分钟录音样本中自动模仿人声音的工具,也可能会被不法分子利用。p利用GAN网络生成家居图像发布在租房和订酒店的平台。还能眼见为实吗?1.3.2人工智能的挑战从人类的发展进程上看,我们一直在寻求提高效率的途径,即以更少的资源获得更多。我们用尖锐的石头,更高效地狩猎和采集食物;用蒸汽机,减少了对马匹的需求。实现自动化的每一步都会改变工作生活。在AI的时代,哪些工作会被AI取代呢?AI会取代那些重复性强、创造性低,弱社交的工作。大家都会失业吗?1.4人工智能初体验EasyDL是百度大脑推出的零门槛AI开发平台,提供从数据采集、标注、清洗到模型训练、部署的一站式AI开发能力。EasyDL支持6大技术方向:(1)EasyDL图像:图像分类、物体检测、图像分割(2)EasyDL文本:文本分类-单标签、文本分类-多标签、文本实体抽取、情感倾向分析、短文本相似度(3)EasyDL语音:语音识别、声音分类(4)EasyDLOCR:文字识别(5)EasyDL视频:视频分类、目标跟踪(6)EasyDL结构化数据:表格预测1.4人工智能初体验【案例】百度EasyDL平台应用——猫狗分类/easydl/vision/1、人工智能(AI,ArtificialIntelligence)是模拟实现人的抽象思维和智能行为的技术,即通过利用计算机软件模拟人类特有的大脑抽象思维能力和智能行为,如学习、思考、判断、推理等,以完成原本需要人的智力才可胜任的工作。2、从发展程度的角度上,人工智能可以分为三大类:弱人工智能、强人工智能、超人工智能。3、达特茅斯会议是人类历史上第一次人工智能研讨,被认为是人工智能诞生的标志。1956年被认为是人工智能元年。4、人工智能四要素:数据、算力、算法、场景。5、人工智能的技术框架按照产业生态通常可以划分为基础层、技术层、应用层三大板块。6、随着人工智能尤其是近期大模型技术的快速发展,AIGC产业化应用加速,人工智能进一步向金融、艺术、新闻、创作等新领域渗透,使得人工智能监管技术不断升级和复杂化,如何正确处理好“监管”和“创新”将是未来人工智能发展的关键着力点。本章总结小组练习主题:人工智能的前世今生和未来要求:制作一个PPT,抽1-2组下节课演示时间5-10分钟感谢聆听第二章机器学习本章目标了解机器学习的应用领域掌握机器学习的分类掌握机器学习的流程掌握机器学习的算法理解机器学习的意义2.1机器学习简介人工智能、机器学习、深度学习三者之间的关系人工智能是目标,机器学习是手段,深度学习是方法。2.1.1机器学习定义
机器学习就是一种通过计算机系统利用数据进行自动学习的方法。目标就是要让计算机系统通过不断学习和优化,从数据中发现规律、提取特征,并能够在未来的数据中做出智能决策。定义一:汤姆·米切尔给出机器学习一个具象化定义假设用P(Performace)来评估计算机程序在某类任务T(Task)上的性能,若一个程序通过利用经验E(Experience)在T中任务上获得了性能改善,则我们就说关于T和P,该程序对E进行了学习。定义二:Nvidia给出机器学习定义最基本的机器学习是使用算法解析数据,从中学习,然后对世界上某事做出决定或预测的做法。定义三:斯坦福给出机器学习定义机器学习是让计算机在没有明确编程的情况下采取行动的科学。定义四:麦肯锡公司给出机器学习定义机器学习基于可以从数据中学习而不依赖于基于规则的编程的算法。定义五:卡内基梅隆大学给出机器学习定义机器学习领域旨在回答这样一个问题:”我们如何建立能够根据经验自动改进的计算机系统,以及管理所有学习过程的基本法则是什么?“2.1.1机器学习定义
机器学习使用大量的数据来“训练”,通过各种算法从数据中学习如何完成任务。
机器学习通过算法,使得机器能够从大量历史数据中学习规律,并利用规律对新的样本做智能识别或对未来做预测。2.1.1机器学习定义
机器学习与人类学习的对应关系
“人类的经验”对应于“机器的历史数据”,“人类通过经验归纳出的规律”对应于“机器通过历史数据训练出来的模型”,“人类利用规律解决新问题并预测未来”对应于“机器利用模型预测新数据对应的结果”。通过这样的对应可以发现,机器学习的思想并不复杂,仅仅是对人类在生活中学习、成长过程的一种模拟。2.1.2机器学习发展史知识推理期始于20世纪50年代中期,这时的人工智能主要通过专家系统赋予计算机逻辑推理能力,赫伯特·西蒙和艾伦·纽厄尔实现的自动定理证明了逻辑学家拉赛尔(Russell)和怀特黑德(Whitehead)编写的《数学原理》中的52条定理。20世纪70年代开始,人工智能进入知识工程期,费根鲍姆作为“知识工程之父”在1994年获得了图灵奖。2006年,辛顿发表了深度信念网络论文,本希奥等人发表了论文“GreedyLayer-WiseTrainingofDeepNetworks”(深层网络的贪婪层智慧训练),杨立昆团队发表了论文“EfficientLearningofSparseRepresentationswithanEnergy-BasedModel”(基于能量模型的稀疏表示的高效学习),标志着人工智能进入了深层网络的实践阶段。
机器学习的发展可分为知识推理期、知识工程期、浅层学习和深度学习几个阶段。在20世纪50年代,机器学习的研究代表性工作主要是罗森布拉特《基于神经感知科学提出的计算机神经网络(即感知机)》。在随后的10年中,浅层学习的神经网络曾经风靡一时,特别是马文·明斯基提出了著名的XOR问题和感知机线性不可分的问题。k近邻(K-NearestNeighbor,KNN)等算法的相继提出,浅层模型在模型理解、准确率、模型训练等方面被超越。云计算和GPU(GraphicsProcessingUnit,图形处理单元)并行计算为深度学习的发展提供了基础保障。2.1.2机器学习发展史
机器学习算法理论大致演变过程机器学习阶段年份主要成果代表人物人工智能起源1936自动机模型理论阿兰·图灵(AlanTuring)1943MP(McCulloch-Pitts)模型(神经元模型)沃伦·麦卡洛克(WarrenMcCulloch)、沃尔特·皮茨(WalterPitts)1951符号演算约翰·冯·诺依曼(JohnvonNeumann)1956人工智能约翰·麦卡锡(JohnMcCarthy)、马文·明斯基(MarvinMinsky)、克劳德·香农(ClaudeShannon)人工智能初期1958LISP约翰·麦卡锡1962感知机收敛理论弗兰克·罗森布拉特(FrankRosenblatt)1972GPS(General-ProblemSolver,通用问题求解程序)艾伦·纽厄尔(AllenNewell)赫伯特·西蒙(HerbertSimon)1975框架知识表示马文·明斯基进化计算1965进化策略英戈·雷兴贝格(IngoRechenberg)1975遗传算法约翰·霍兰(JohnHolland)1992基因计算约翰·科扎(JohnKoza)
专家系统和知识工程1965模糊逻辑、模糊集卢特菲·扎德(LotfiZadeh)1969DENDRAL、MYCIN爱德华·费根鲍姆(EdwardFeigenbaum)、布鲁斯·布坎南(BruceBuchanan)、约书亚·莱德伯格(JoshuaLederberg)1979ROSPECTOR杜达(Duda)神经网络1982霍普菲尔德神经网络约翰·霍普菲尔德(JohnHopfield)1982自组织网络图沃·科霍宁(TeuvoKohonen)1986BP算法鲁姆哈特(Rumelhart)、麦克莱兰(McClelland)1989LeNet杨立昆(YannLeCun)1997RNN(RecurrentNeuralNetwork,循环神经网络)、LSTM(LongShort-TermMemory,长短期记忆)
泽普·霍赫赖特(SeppHochreiter)、尤尔根·施米德胡贝(JurgenSchmidhuber)1998CNN(ConvolutionalNeuralNetwork,卷积神经网络) 杨立昆机器学习阶段年份主要成果代表人物分类算法1986ID3(IterativeDichotomiser3,迭代二叉树3代)算法罗斯·昆兰(RossQuinlan)1988Boosting算法约夫·弗雷德(YoavFreund)、迈克尔·卡恩斯(MichaelKearns)1993C4.5算法罗斯·昆兰1995AdaBoost算法弗雷德、罗伯特·夏普(RobertSchapire)1995支持向量机科琳娜·科尔特斯(CorinnaCortes)、万普尼克(Vapnik)2001随机森林利奥·布赖曼(LeoBreiman)、阿黛尔·卡特勒(AdeleCutler)深度学习2006深度信念网络杰弗里·辛顿(GeoffreyHinton)2012谷歌大脑吴恩达(AndrewNg)2014GAN(GenerativeAdversarialNetwork,生成对抗网络)伊恩·古德费洛(IanGoodfellow)2014注意力机制约书亚·本希奥(YoshuaBengio)2014VGG/GoolgleNet牛津大学和克里斯蒂安·塞格迪(ChristianSzegedy)2015ResNet何恺明等2017Transformer谷歌(Google)公司2018BERT(BidirectionalEncoderRepresentationsfromTransformers,基于转换器的双向编码表征)谷歌公司2.1.3机器学习的应用领域1.数据分析与挖掘2.计算机视觉3.自然语言处理4.语音识别
数据分析与挖掘技术是机器学习算法和数据存取技术的结合,是利用机器学习提供的统计分析、知识发现等手段分析,从大量的业务数据中挖掘隐藏、有用的、正确的知识促进决策的执行。计算机视觉的主要技术基础是图像处理和机器学习。自然语言处理是让机器理解人类语言的一门技术。语音识别是利用自然语言处理、机器学习等相关技术识别人类语言的技术。1.1.3人工智能起源和发展
机器学习是人工智能的重要研究方向,它包含着丰富的知识体系,因此按照一定的规则对其进行细分显得尤为必要。60年代,星际迷航80年代,终结者21世纪,人工智能2.2.1机器学习分类∙机器学习的主要分类有两种:
基于学习方式的分类和基于学习任务的分类。∙根据学习方式的不同可分为监督学习、无监督学习和强化学习。∙根据学习任务的不同可分为分类、回归、聚类和降维。
机器学习
强化学习
无监督学习
降维
聚类
回归
分类
监督学习
不同的分类方式彼此又存在着联系,分类和回归属于监督学习,而聚类和降维属于无监督学习。2.2.2机器学习基本术语1)模型
模型是机器学习中的核心概念。2)数据集
数据集就是样本的集合。3)样本&特征
样本指的是数据集中的数据,一行数据被称为“一个样本”,一个样本包含一个或多个特征。一行一样本,一列一特征2.2.2机器学习基本术语4)向量“向量”是机器学习的关键术语。5)矩阵矩阵是一个常用的数学术语,可以把矩阵看成由向量组成的二维数组,数据集就是以二维矩阵的形式存储数据的。6)假设函数和损失函数
假设函数和损失函数并非某个模块下的函数方法,而是根据实际应用场景确定的一种函数形式,就像解决数学的应用题目一样,根据题意写出解决问题的方程组。2.2.2机器学习基本术语①假设函数
假设函数(HypothesisFunction)可表述为:
y=f(x)
其中x表示输入数据,而y表示输出的预测结果。2.2.2机器学习基本术语②损失函数
损失函数(LossFunction)又叫目标函数,简写为L(x),x是假设函数得出的预测结果“Y”。
∙L(x)的返回值越大表示预测结果与实际偏差越大,越小则证明预测值越“逼近”真实值,这就是机器学习的最终目的。
损失函数就像一个度量尺,通过“假设函数”预测结果的优劣,做出相应的优化策略。2.2.2机器学习基本术语③优化方法“优化方法”可以理解为假设函数和损失函数之间的沟通桥梁。
f(x)假设函数
L(x)损失函数
输入数据通过L(x)可以得知假设函数输出的预测结果与实际值的偏差值,当该值较大时就需要对其做出相应的调整,这个调整的过程叫做“参数优化”。输出预测结果输出“偏差值”优化方法2.2.2机器学习基本术语7)拟合、过拟合和欠拟合欠拟合过拟合拟合2.2.3机器学习流程问题定义数据准备模型选择与开发模型训练和调优模型评估测试一个完整的机器学习流程包括:
问题定义、数据准备、模型选择与开发、模型训练和调优、模型评估测试等5个步骤。
分析问题,确定问题的类型。分析它是监督学习还是无监督学习,是分类问题还是回归问题等。
数据采集,数据预处理,特征提取,数据集拆分。
模型的作用是根据输入的特征给出输出的结果。选择合适的机器学习算法模型,编写对应的模型代码。
使用数据集对模型进行训练,调整模型参数,得到一个最优的函数,然后将待预测的特征自变量输入模型即可得到预测的结果。
对训练好的模型进行评估和测试,验证模型是否满足业务需求。2.2.4机器学习常用算法这些算法可以使用Python中的scikit-learn中内置的相应函数实现。机器学习常用的算法有K近邻、线性回归、逻辑回归、朴素贝叶斯、决策树、支持向量机、K均值聚类等。2.2.4机器学习常用算法1.K近邻(K-NearestNeighbor,KNN)
K近邻算法的核心思想就是距离的比较,即离谁近,就和谁属于同一分类。依据
K近邻算法,假设K代表邻居的个数:∙如果K=3,圆点最邻近的3个邻居是2个小三角形和1个小正方形,少数从服多数,基于统计的方法,判定圆点属于三角形一类。∙如果K=5,圆点最邻近的5个邻居是2个三角形和3个正方形,少数服从多数,基于统计的方法,判定圆点属于正方形一类。在KNN算法中,所选择的邻居都是已经正确分类的对象,对于新来的待分样本,只要找到离它最近的K个实例,按照少数服从多数原则,哪个类别多就把它归为哪一类。2.2.4机器学习常用算法2.线性回归(LinearRegression)
线性回归是一种用于建立变量之间线性关系的监督学习算法。它通过拟合一条直线来最小化预测值与实际值的差距。如果预测的变量是离散的,称之为分类;如果预测的变量是连续的,称之为回归。线性回归假设目标值与特征之间线性相关,即满足一个多元一次方程。在二维空间中,通过拟合一条直线建立自变量与因变量之间的关系,在三维空间中则拟合一个平面。
表示样本,表示每个样本都有个特征,其中是在第个特征上的取值。表示样本,每个样本都有个特征。2.2.4机器学习常用算法3.逻辑回归(LogisticRegression)逻辑回归是一种用于处理分类问题的监督学习算法。尽管名字中带有“回归”,但实际上逻辑回归是一种分类算法。二分类的逻辑回归的本质是用一个映射函数Sigmoid将一个线性模型得到的连续结果映射到离散模型上。逻辑回归的目的就是寻找一个非线性函数Sigmoid的最佳拟合参数,求解过程可以由最优化算法来完成。Sigmoid函数也称逻辑函数,该函数公式:
由Sigmoid函数的图像知:当z趋近于无穷大时,
趋近于1;当z趋近于无穷小时,
趋近于0。的值映射到(0,1)。当z趋近于无穷大时,趋近于1;当z趋近于无穷小时,趋近于0。2.2.4机器学习常用算法4.朴素贝叶斯(NaiveBayes)
朴素贝叶斯是一种基于贝叶斯定理与特征条件独立假设的分类算法。它假设所有特征相互独立、互不影响,每个特征同等重要。朴素贝叶斯算法是以贝叶斯定理为基础并且假设特征条件之间相互独立的方法,先通过已给定的训练集,以特征词之间独立作为前提假设,学习从输入到输出的联合概率分布,再基于学习到的模型,输入x求出使得后验概率最大的输出y。贝叶斯定理是描述随机事件A和B的条件概率(或边缘概率)的一则定理:由于
的大小是固定不变的,因此在比较后验概率时,只比较上式的分子部分即可。因此可以得到一个样本数据属于类别
的朴素贝叶斯计算式:2.2.4机器学习常用算法5.决策树(DecisionTree)决策树是一种基于树状结构进行决策的算法,它是一种监督学习,可用于分类和回归问题。决策树是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。2.2.4机器学习常用算法6.支持向量机(SupportVectorMachine,SVM)支持向量机是一种监督机器学习算法,可用于分类或回归任务。支持向量机使用一种称为内核技巧的技术来转换数据,然后基于这些转换找到可能输出之间的最佳边界。也就是找到一个超平面,最大化样本点到该超平面的间隔。如何将圆点数据与五角星数据进行分割?SVM的核函数能够将数据从二维空间投射至高维空间。∙如果将二维空间变成三维空间,如果圆点泡泡上浮,五角星下沉,这样就可以在浮起的圆点数据和沉下的五角星数据之间找到一个超平面将两类数据进行分割。2.2.4机器学习常用算法7.K均值聚类(K-MeansClustering)聚类算法是指将一堆没有标签的数据自动划分成几类的方法,属于无监督学习方法。1)k值如何确定?
采用“肘”方法(elbowmethod)确定k值。2)初始的k个质心怎么选?
第一种方法是选择彼此距离最远的点,先选第一个点;然后选离第一个点最远的点当第二个点;再选第三个点,第三个点到第一、第二两点的距离之和最大;以此类推,直到选出k个质心。第二种方法是先根据其他聚类算法得到聚类结果,再从结果中的每个分类选一个点。K-Means算法关键:2.2.4机器学习常用算法8.随机森林(RandomForest)随机森林是一种集成学习方法,通过组合多个决策树来进行预测。每个决策树都是在不同的数据子集上训练的,同时引入了随机性,使得每棵树都有差异。2.3深度学习与神经网络深度学习可以理解成用深度神经网络(DNN,DeepNeuralNetwork)来进行机器学习。深度学习的概念源于人工神经网络的研究,含多个隐藏层的多层感知器就是一种深度学习结构。2.3.1深度学习(DL,DeepLearning)深度学习从字面理解包含两个意思,“深度”和“学习”。为了模拟人脑中的“学习策略”和“学习方法”。学术界研究出使用计算机去模拟这一学习过程的方法,被称为“神经网络”。1)学习学习就是一个认知的过程,从学习未知开始,到对已知的总结、归纳、思考与探索。
“神经网络”这个词从字面上看和人脑有着一点关系。在人脑中负责活动的基本单元是“神经元”,它以细胞体为主体,由许多向周围延伸的不规则树枝状纤维构成的神经细胞。人脑中含有上百亿个神经元,而这些神经元互相连接成一个更庞大的结构,称为“神经网络”。2.3.1深度学习(DL,DeepLearning)深度学习从字面理解包含两个意思,“深度”和“学习”。
深度学习是一个复杂的机器学习算法,其模型使用包含大量层的神经网络。它是人为地使用不同层次不同任务目标的“分层”神经元,去模拟整个输入、输出过程的一种手段。2)深度
input_layer是输入层,hidden_layer_1到hidden_layer_n是隐藏层,output_layer是输出层。深度指的是隐藏的层数。2.3.1深度学习(DL,DeepLearning)深度学习模型:主要的思想就是模拟人的神经元,每个神经元接收到信息,处理完后传递给与之相邻的所有神经元。∙卷积神经网络(convolutionalneuralnetwork,CNN)∙深度置信网络(deepbelievenet,DBN)∙堆栈自编码网络(stackedauto-encodernetwork,SAEN)模型2.3.2神经网络
神经网络技术起源于20世纪50年代到20世纪60年代,经过许多科学家的努力,人脑神经元的这种处理信息模式最终演化为神经元模型,也叫感知机(perceptron)。它是一种多输入、单输出的非线性阈值器件,包含输入层、输出层和一个隐藏层。
在一个神经网络中,神经元是构成神经网络的最小单元,如果一个神经元的输出等于n个输入的加权和,则网络模型是一个线性输出。在每个神经元加权求和后经过一个激活函数(ActivationFunction),则引入了非线性因素,神经网络就可以应用到任意非线性模型中。2.3.2神经网络1.神经网络的原理2.3.2神经网络1.神经网络的原理
神经网络中,每一层都有不同的神经元,且每个神经元都会接收来自上一层神经元的信号,并且产生新的输出信号传到下一层神经元中。神经元接收上一层的输入并输出到下一层的方式被称为前向传播,这种神经网络被称为前馈神经网络或多层感知器(multilayerperceptron,MLP)。1)神经网络结构2.3.2神经网络2)激活函数
神经网络能解决复杂问题的能力主要取决于网络所采用的激活函数。
激活函数决定该神经元接收输入与偏差信号以何种方式输出,输入通过激活函数转换为输出。
常用的3种激活函数:2.3.2神经网络2.神经网络的决策1)决策因素2)权重设置3)设定阈值4)加入偏置项b思政小课堂:向着建设世界科技强国的伟大目标奋勇前进“中国要强盛、要复兴,就一定要大力发展科学技术,努力成为世界主要科学中心和创新高地。”中共中央总书记、国家主席、中央军委主席习近平在中国科学院第十九次院士大会、中国工程院第十四次院士大会上的重要讲话是新时代建设世界科技强国的新的“动员令”。从“向科学进军”到“迎来创新的春天”,从“占有一席之地”到“成为具有重要影响力的科技大国”……中国创新的旋律越来越激越、昂扬。“只有把关键核心技术掌握在自己手中,才能从根本上保障国家经济安全、国防安全和其他安全。”中国科协党组书记怀进鹏院士说,要以关键共性技术、前沿引领技术、现代工程技术、颠覆性技术创新为突破口,敢于走前人没走过的路,努力实现关键核心技术自主可控。参加大会的两院院士和科技工作者表示,要认真学习领会习近平总书记的重要讲话精神,肩负起历史赋予的重任,勇做新时代科技创新的排头兵,努力建设世界科技强国。2.3.2神经网络思政小课堂:中国在机器学习领域的突破浙江大学控制学院智能驾驶与未来交通中心主任、教授刘勇在中国人工智能大会上强调,近年来,随着传感器技术和SLAM理论的突破,自主移动机器人已经从研究迈向市场应用,涉及的领域包括无人驾驶、智慧城市、腿足机器人、火星车等等。谷歌、苹果、Meta等国际巨头重点关注这项技术,国内巨头华为、百度、腾讯、阿里等,也纷纷开展专项研究。同时,中国的科技公司和研究机构在深度学习框架和工具的开发上也有所突破,百度推出了PaddlePaddle深度学习框架,支持分布式训练和部署,为开发者提供了丰富的工具和库。华为提供了MindSpore深度学习框架,具有灵活的图模型、推理引擎和分布式训练等功能。目前,中国的人工智能专利申请量居世界首位。据中国信通院测算,2013年至2022年11月,全球累计人工智能发明专利申请量达72.9万项,我国累计申请量达38.9万项,占53.4%;全球累计人工智能发明专利授权量达24.4万项,我国累计授权量达10.2万项,占41.7%。2.3.2神经网络2.4.1线性回归——工资预测
案例1:通过员工工作年限与工资的对应关系表,找出二者之间的关系,并预测在指定的年限时工资会有多少。
分析:影响员工工资的要素有年龄、性别、学历、工作年限、综合能力等级(初级、中级、高级)等,对这些要素之间的相关性进行检验。往复N次“训练、测试”的轮回,找出平均误差最小的预测模型。2.4.2逻辑回归——预测期末考试能否及格
案例2:根据学生某门课程的复习时长和效率预测其期末考试是否能够及格。分析:本案例是根据学生某门课程的复习时长和效率预测其期末考试是否能够及格。首先构造逻辑回归模型并使用往年的调查结果数据对模型进行训练。然后对本届学生的复习情况做出预测,并给出在特定学习状态时考试及格和不及格的概率。
2.5本章小结本章主要介绍机器学习的概念、应用领域、机器学习的分类、机器学习的流程以及机器学习常用的算法。通过工资预测和期末考试成绩是否合格两个案例,详细介绍了机器学习库和机器学习流程,可帮读者掌握线性回归、逻辑回归等机器学习算法,理解机器学习的内涵和机器学习算法的具体应用,为后续进一步使用机器学习进行数据分析打下基础。
小组练习主题:收集某个城市过去7天的天气是否有雨,预测接下来的7天会不会下雨。说明:数据集如下,3人一组,通过机器学习算法进行天气预测。刮北风闷热多云天气预报有雨第1天否是否是第2天是是是否第3天否是是否第4天否否否是第5天否是是否第6天否是否是第7天是否否是感谢聆听第三章计算机视觉技术及应用本章目标了解计算机视觉技术的发展历程及应用领域熟悉基于深度学习的视觉技术掌握OpenCV框架的基本使用掌握人脸识别和车牌识别项目的开发流程3.1计算机视觉简介人脸识别自动驾驶医学影像分析工业质检ComputerVision-->CV视觉是人类获取信息最主要的方式,而计算机视觉就是一门研究如何使计算机系统具备视觉感知能力的学科。通过模仿人类视觉系统的工作方式,计算机视觉技术旨在使计算机能够理解、解释和处理图像或视频数据。3.1.1计算机视觉发展概述
计算机视觉的发展经历了从早期的模式识别到深度学习的飞跃,为人工智能的发展提供了强有力的支持。随着计算机视觉技术的不断进步,其在实际应用中取得了巨大成功。起步阶段20世纪50年代-70年代)模式识别的初步探索感知器模型被提出硬件和算法的限制使得计算机无法有效地处理大规模的图像数据图像处理的崛起20世纪80年代-90年代数字图像处理边缘检测、图像增强为后续的模式识别和目标检测打下了基础机器学习与深度学习2000年代初-2010年代支持向量机(SVM)卷积神经网络(CNN)随着机器学习和深度学习的兴起,计算机视觉取得了巨大的突破。图像生成与迁移学习2010年代-至今生成对抗网络(GAN)迁移学习计算机视觉逐渐向图像生成和迁移学习等方向发展。3.1.1计算机视觉发展概述思政小课堂:《新一代人工智能伦理规范》发布3.1.2计算机视觉实现原理通过摄像头、传感器或者其他图像采集设备捕捉到现实世界中的图像,将其转化为数字信号。1、图像获取3.1.2计算机视觉实现原理转换为数字信号后的图像,由一个个像素点组成,可以用像素矩阵来表示。每一个像素点都有一个对应的像素值。1、图像获取3.1.2计算机视觉实现原理转换为数字信号后的图像,由一个个像素点组成,可以用像素矩阵来表示。每一个像素点都有一个对应的像素值。1、图像获取3.1.2计算机视觉实现原理灰度图像只有一个通道,而彩色图像则由红绿蓝(RGB)三个通道组成(或者采用其他颜色模式,如CMYK等)。1、图像获取3.1.2计算机视觉实现原理彩色图像可以很容易转换为灰度图像,例如使用公式Y=0.3*R+0.59*G+0.11*B而给灰度图像“上色”则较为复杂。1、图像获取?3.1.2计算机视觉实现原理而给灰度图像“上色”则需要更加智能的技术。1、图像获取彩色4K修复版开国大典首现大荧幕:这清晰度绝了3.1.2计算机视觉实现原理获取到图像后,计算机会进行一系列的图像处理操作,以提取有用的信息。比如,在图像的预处理阶段,进行去噪、增强对比度等操作。在特征提取阶段,会突出图像中的关键特征,比如边缘、颜色等。这些处理有助于减小数据量并突显重要信息,以便后续的模式识别。2、图像处理3.1.2计算机视觉实现原理在图像处理的基础上,计算机进行模式识别,也就是理解图像中的内容。深度学习中的卷积神经网络(CNN)等模型在这一步骤中发挥了关键作用。它能够自动从图像中提取特征,并通过训练过程学习如何分类或识别图像中的目标。3、模式识别3.1.3计算机视觉典型应用人脸识别技术被广泛应用于交通、金融、安防、社交媒体等领域。通过定位人脸和分析面部特征,计算机能够准确辨识个体身份。1、人脸识别3.1.3计算机视觉典型应用计算机视觉在自动驾驶汽车中扮演着关键角色。通过摄像头获取车辆周围环境图像,计算机视觉算法系统能够实时识别道路、障碍物、交通标志等,从而智能地操控车辆。2、自动驾驶3.1.3计算机视觉典型应用在医学领域,计算机视觉用于分析医学影像,如CT扫描、MRI等。这有助于自动检测疾病迹象、辅助诊断,提高医疗水平和效率。3、医学影像分析3.1.3计算机视觉典型应用计算机视觉系统被广泛应用于工业生产中的质量控制。通过检测产品表面的缺陷、尺寸偏差等,保证产品质量并提高生产效率。4、工业质检3.1.3计算机视觉典型应用计算机视觉系统被广泛应用于工业生产中的质量控制。通过检测产品表面的缺陷、尺寸偏差等,保证产品质量并提高生产效率。4、工业质检3.1.3计算机视觉典型应用在视频监控和安防系统中,计算机视觉可用于检测和跟踪目标,帮助监测场景中的异常情况,极大地提升了安保效率,为维护社会治安做出了贡献。5、目标检测与跟踪3.1.3计算机视觉典型应用计算机视觉技术为增强现实技术提供支持,通过识别和追踪现实世界中的物体,将虚拟信息叠加到用户的视野中,拓展了交互和娱乐的可能性。6、增强现实(AR)3.1.3计算机视觉典型应用通过分析人体手部动作,计算机视觉能够识别手势并将其转化为控制命令,这在虚拟现实、智能家居等领域有广泛应用。7、手势识别3.1.3计算机视觉典型应用计算机视觉可以用于识别、提取文档中的文字信息,实现自动化的文档管理和信息检索。光学字符识别(OCR)技术是其中的关键组成部分。8、文档识别OCR3.1.3计算机视觉典型应用计算机视觉可以用于识别、提取文档中的文字信息,实现自动化的文档管理和信息检索。光学字符识别(OCR)技术是其中的关键组成部分。8、文档识别OCR3.1.3计算机视觉典型应用在零售业,计算机视觉被用于人流分析、货架管理、商品识别等,可以提升购物体验、减少盗窃,并优化库存管理。9、智慧零售3.2基于深度学习的视觉技术图像分类目标检测图像分割轨迹跟踪deeplearning深度学习的核心思想是通过模仿人脑神经网络结构,建立多层次的神经网络,使计算机能够模拟人类学习的方式,从而自动学习和提取复杂的特征。这种模型的引入为视觉任务带来了翻天覆地的变化,让计算机能够更深入、更准确地理解和处理图像数据。3.2.1图像分类1、图像分类的概念?
图像分类旨在将输入的图像划分为不同的预定义类别。这是一种将图像与事先训练好的分类模型相匹配的过程。3.2.1图像分类2、机器学习中图像分类的基本原理特征提取在传统方法中,图像分类的首要步骤是从图像中提取特征。这些特征可以包括颜色直方图、纹理、形状等,这些特征帮助模型捕捉图像中的关键信息。特征表示提取的特征需要被适当表示,以便计算机能够理解和处理。常用的表示方法包括向量或矩阵形式,以便输入到分类器中。分类器分类器是一个数学模型,用于根据输入的特征将图像分配到不同的类别。常见的分类器包括支持向量机(SVM)、决策树、随机森林等,这些分类器经过训练,能够学习如何将特征与类别关联起来训练和测试训练阶段使用已标记的图像数据集,通过训练分类器调整其参数,使其能够正确地将图像分到相应的类别。测试阶段则通过未标记的图像验证模型的性能,评估其在新数据上的泛化能力。3.2.1图像分类3、基于深度学习的图像分类技术卷积神经网络(CNN)CNN通过卷积层和池化层来逐层提取图像的局部和全局特征。这些特征在全连接层中被用于进行分类决策。CNN的层次结构使其能够逐渐抽象出更高级别的特征,从而提高模型对图像语义的理解能力。迁移学习利用在大规模数据集上预训练的深度学习模型,如在ImageNet上训练的模型,进行迁移学习。将预训练的模型的权重用于新的图像分类任务,使得模型能够更快速地收敛和获得更好的性能。激活函数和正则化深度学习中的图像分类网络通常使用非线性激活函数,如ReLU,以帮助网络学习更复杂的特征。正则化技术如Dropout也被广泛应用,以防止过拟合。3.2.1图像分类3、基于深度学习的图像分类技术LeNet-5于1998年被提出是卷积神经网络的先驱之一主要应用于手写数字的识别包含卷积层、池化层和全连接层虽然在当时并未引起广泛关注,但为后来更先进的网络奠定了基础作为经典的入门级神经网络,对于简单字符的识别效果尚可,然而,对于更加复杂的项目,如人脸、车牌识别等,LeNet的结构则过于简单了,可能无法得到较高的准确率目前,图像分类项目一般都会使用深度学习技术来实现。图像分类常用的经典卷积神经网络包括但不限于以下几种:3.2.1图像分类3、基于深度学习的图像分类技术AlexNet于2012年被提出是深度学习在图像分类中的重要突破在ILSVRC2012图像分类竞赛中取得了显著的胜利AlexNet采用了更深的网络结构,使用ReLU激活函数,引入了Dropout正则化利用GPU进行高效训练目前,图像分类项目一般都会使用深度学习技术来实现。图像分类常用的经典卷积神经网络包括但不限于以下几种:3.2.1图像分类3、基于深度学习的图像分类技术VGGNet于2014年被提出采用了非常深的网络结构包含16或19层卷积层,全部使用3x3的小卷积核,使得网络结构更加简洁而深入VGGNet的设计理念影响了后续深度学习模型的构建目前,图像分类项目一般都会使用深度学习技术来实现。图像分类常用的经典卷积神经网络包括但不限于以下几种:3.2.1图像分类3、基于深度学习的图像分类技术GoogLeNet(Inception)于2014年被提出引入了Inception模块通过并联多个不同大小的卷积核和池化层,提高了网络的宽度和深度该模型在参数数量相对较少的情况下取得了较好的性能目前,图像分类项目一般都会使用深度学习技术来实现。图像分类常用的经典卷积神经网络包括但不限于以下几种:3.2.1图像分类3、基于深度学习的图像分类技术ResNet(ResidualNetwork)于2015年被提出引入残差块(Residual),解决了深度网络训练中的梯度消失和梯度爆炸问题该结构允许网络层跳过连接,使得训练更加容易允许构建超深的网络目前,图像分类项目一般都会使用深度学习技术来实现。图像分类常用的经典卷积神经网络包括但不限于以下几种:3.2.1图像分类3、基于深度学习的图像分类技术MobileNet于2017年被提出设计用于移动设备上的实时图像处理采用深度可分离卷积,减少了参数数量和计算量在资源受限的设备上也能实现高效的图像分类目前,图像分类项目一般都会使用深度学习技术来实现。图像分类常用的经典卷积神经网络包括但不限于以下几种:3.2.1图像分类3、基于深度学习的图像分类技术EfficientNet于2019年被提出通过使用复合缩放方法,同时增加网络的深度、宽度和分辨率,达到更好的性能在参数相对较少的情况下,取得了与更大更深的模型相媲美的效果目前,图像分类项目一般都会使用深度学习技术来实现。图像分类常用的经典卷积神经网络包括但不限于以下几种:3.2.2目标检测1、目标检测的概念
目标检测旨在从图像或视频中识别和定位图像中的多个目标,并为每个目标分配相应的类别标签。与图像分类不同,目标检测不仅需要确定图像中是否存在目标,还需要准确地标定目标的位置3.2.2目标检测2、传统的目标检测算法HOG全称HistogramofOrientedGradients,使用图像中的梯度信息来描述图像的局部结构,尤其适用于描述物体的边缘和纹理。将图像划分为小的局部区域,计算每个区域内梯度的方向直方图,最终将这些直方图串联起来形成特征向量。SIFT全称Scale-InvariantFeatureTransform,具有尺度不变性和旋转不变性,对于图像中的局部特征点具有很好的描述能力。在图像中检测关键点,然后提取这些关键点周围的局部特征,通过描述子来表示这些特征。GLOH全称GradientLocation-OrientationHistogra,是SIFT的改进版本,增加了对光照和旋转的鲁棒性。在关键点周围计算梯度直方图,并使用多尺度的描述子来提高对尺度变化的适应性。DPM全称DeformablePartsModel,引入了“变形部分模型”来处理目标的非刚性形变。将目标分解为多个部分,每个部分用HOG描述,通过学习部分之间的相对位置关系来构建目标模型。SelectiveSearch是一种基于贪心策略的区域生成算法,用于生成候选区域。通过对图像进行分割、合并和其他操作,生成具有多样性的候选区域,然后使用分类器对这些区域进行检测。ICF全称IntegralChannelFeatures,使用积分图像进行快速特征计算,提高了算法的计算效率。利用图像的积分图像计算各种特征,如梯度特征、颜色特征等,用于目标检测。3.2.2目标检测3、基于深度学习的目标检测算法FasterR-CNN全称Region-basedConvolutionalNeuralNetwork,引入了区域提议网络和ROI池化层,实现了端到端的目标检测。RPN用于生成候选目标区域,然后通过ROI池化将这些区域转换为固定大小的特征图,最后通过全连接层进行分类和定位。YOLO全称YouOnlyLookOnce,通过将图像划分为网格,每个网格负责检测特定区域内的目标,实现实时目标检测。将目标检测任务视为回归问题,直接预测目标的坐标和类别,并在整个图像上进行端到端的训练和预测。SSD全称SingleShotMultiboxDetector,通过在不同层次的特征图上使用多个锚框进行检测,实现了对多尺度目标的有效检测。利用多个卷积层产生的特征图来进行目标检测,通过预测每个锚框的类别和边界框偏移来完成任务。MaskR-CNN在FasterR-CNN的基础上进一步增加了对实例分割的支持,同时能够输出每个检测到的目标的精确边界。在FasterR-CNN的基础上引入了额外的分割网络,用于生成每个目标的二进制掩码。RetinaNet采用了一种称为“FocalLoss”的损失函数,有效解决了类别不平衡问题,提高了对稀有目标的检测能力。在FasterR-CNN的基础上引入了特殊设计的损失函数,使得模型更关注难以分类的目标。EfficientDet结合了EfficientNet的轻量级设计和目标检测任务的需求,实现了高效而准确的目标检测。通过改进网络结构、特征金字塔网络(FeaturePyramidNetwork,FPN)等技术来提高模型的效率。3.2.3图像分割1、图像分割的概念
图像分割旨在将图像划分为若干个具有相似特征的区域。图像分割与目标检测不同,图像分割是一个像素级别的任务,目标是将图像分割成区域,每个像素都有一个标签;而目标检测是在物体级别上操作,关注点在于识别图像中存在的物体及其位置。3.2.3图像分割2、传统的图像分割算法阈值分割英文Thresholding,是一种简单而常用的方法,基于图像中像素的灰度值。通过设定一个阈值,将图像分为两个区域,其中像素值小于阈值的属于一个区域,大于等于阈值的属于另一个区域。阈值分割一般只适用于对比度较明显的图像。区域生长英文RegionGrowing,是一种基于像素相似性的分割方法,从种子像素开始,逐渐将相邻像素加入同一区域,直到不再满足相似性条件。区域生长算法适用于具有相对均匀区域的图像。区域分割英文RegionSplitandMerge,是一种自顶向下的分割方法,首先将整个图像视为一个区域,然后递归地分裂和合并区域,直到满足某些准则。该算法适用于具有不同纹理和结构的图像。边缘检测英文EdgeDetection,寻找图像中的边缘,通常使用梯度信息来定位图像中亮度变化较大的区域。边缘检测适用于强调图像中物体边界的分割。水平集方法英文LevelSetMethods,基于曲线演化理论,通过表示图像中的区域边界的曲线来进行分割。适用于复杂形状和拓扑结构的分割。3.2.3图像分割3、基于深度学习的图像分割算法U-Net是一种全卷积网络,设计用于生物医学图像分割。它包含一个编码器和一个解码器,并通过跳跃连接来保留高层次和低层次的特征。主要应用于医学图像分割,如细胞图像和医学影像。SegNet是一个基于CNN的图像分割网络,通过对图像中的每个像素进行分类来实现分割。它使用反卷积进行上采样,恢复图像的空间分辨率。适用于语义分割任务,如道路和场景理解。DeepLab系列是一系列图像分割算法,采用空洞卷积来扩大感受野,以更好地捕捉上下文信息。DeepLabv3+还引入了全局平均池化。广泛应用于语义分割任务,包括实例分割和物体检测MaskR-CNN是一种实例分割框架,基于FasterR-CNN,通过在目标检测的基础上增加分割分支,实现同时检测和分割物体实例。主要用于需要识别和分割多个对象实例的任务。FCNFullyConvolutionalNetwork,是一种将传统卷积神经网络转化为全卷积网络的方法,允许对输入图像进行像素级别的分类和分割。适用于语义分割任务,如将图像中的每个像素标记为不同的类别。。PSPNetPyramidSceneParsingNetwork,使用金字塔池化模块来捕捉不同尺度上的语境信息,从而提高分割性能。适用于需要全局上下文信息的场景,如城市场景分割。3.2.4轨迹跟踪1、轨迹跟踪的概念
轨迹跟踪目的是在视频序列中准确地追踪目标对象的运动轨迹。轨迹跟踪算法需要在连续的图像帧中检测目标,并将它们关联起来形成时间上的轨迹。轨迹跟踪的关键步骤包括目标检测、目标关联、轨迹生成、轨迹更新、处理遮挡和消失以及多目标跟踪。3.2.4轨迹跟踪2、传统的轨迹跟踪算法卡尔曼滤波KalmanFilter,卡尔曼滤波是一种递归的估计算法,通过对目标的当前状态和运动进行建模,结合观测数据,不断更新目标的状态估计。在轨迹跟踪中,卡尔曼滤波可用于预测目标的下一帧位置。最邻近跟踪NearestNeighborTracking,在每一帧中,使用距离度量(如欧氏距离)找到当前帧检测结果与上一帧跟踪目标的最邻近匹配。这种方法简单直观,但对于遮挡等情况可能不鲁棒。KLT跟踪器KLTTracker,基于光流的KLT(Kanade-Lucas-Tomasi)跟踪器使用局部图像区域的特征点,通过追踪这些特征点的运动来实现目标跟踪。适用于一定程度的目标运动和变形。中值流MedianFlow,算法利用检测框中的像素强度信息计算光流,并通过中值流场的方向和大小来更新目标的位置。适用于低速运动的目标。连通区域跟踪ConnectedComponentTracking,在二值化的图像中,通过检测连通区域(二值图像中相邻的白色像素)来跟踪目标。适用于目标边界清晰的情况。CAMShiftCAMShift算法基于MeanShift算法,通过不断调整搜索窗口的大小和方向,实现目标的跟踪。适用于目标尺寸和颜色较为一致的情况。3.2.4轨迹跟踪3、基于深度学习的轨迹跟踪算法DeepSORTDeepSimpleOnlineandRealtimeTracking,结合了目标检测和深度学习特征提取,使用卷积神经网络提取特征,并通过外观特征和运动信息来关联和跟踪目标。利用深度学习目标检测器检测目标,然后使用深度学习特征提取器提取目标外观特征,最后使用卡尔曼滤波进行轨迹预测和关联。MOTDTMultipleObjectTrackingwithDeepLearning,采用了深度学习的目标检测器和在线学习的轨迹跟踪器,通过CNN提取特征,使用卡尔曼滤波进行轨迹预测,并采用在线学习策略不断更新模型。在目标检测结果上应用CNN提取特征,然后使用在线学习策略不断更新外观模型,通过卡尔曼滤波来实现目标的轨迹跟踪DeepMOT基于深度卷积神经网络,将目标检测、特征提取和轨迹跟踪整合到一个统一的深度学习框架中,以提高端到端的性能。使用卷积神经网络提取图像特征,通过LSTM或Transformer等结构对序列信息建模,最终输出目标的轨迹。FairMOT采用了多任务学习的方法,同时预测目标的类别、位置和运动状态,提高了多目标跟踪的准确性。使用深度卷积神经网络同时处理目标检测和轨迹跟踪任务,通过多任务学习框架进行联合训练。SORTSimpleOnlineandRealtimeTracking,结合了目标检测和卡尔曼滤波,通过简单有效的方法实现实时目标跟踪。使用目标检测器(获取目标位置,然后使用卡尔曼滤波进行轨迹的预测和更新3.2.4轨迹跟踪思政小课堂:坚守高尚的道德情操,向非法技术滥用说不计算机视觉技术的快速发展给我们带来了很多益处,然而,一部分人却将这项技术用于非法或非道德用途。在数字图像处理技术发展之初,就有人使用PS技术炮制虚假照片,从而制造虚假新闻误导公众认知,或者用来诽谤、侮辱他人。在深度学习的加持下,计算机视觉技术更加强大,AI换脸、视频合成的效果有时甚至可以达到以假乱真的程度。这给一些不良团体或个人炮制虚假、低俗信息提供了便利。在社交媒体发达的今天,这些虚假的不良信息能够轻易被传播。一些不法分子甚至利用相关的技术,仿冒他人身份进行电信诈骗。作为一名人工智能技术的学习者,我们在增强自身技术能力的同时,也要不断提升自己的道德操守,拒绝技术滥用,抵制不良信息。3.3OpenCV基础图像处理实时视频处理计算机视觉工具包机器学习深度学习图像和视频的特征提取图像分割和轮廓检测OpenCVOpenCV(OpenSourceComputerVisionLibrary)是一个开源的计算机视觉库,旨在提供一套通用的计算机视觉和机器学习工具。OpenCV支持多个操作系统,包括Windows、Linux、macOS等,它由一系列高效且优化的C/C++函数组成,同时提供了Python、Java和其他语言的接口,使得开发者能够轻松使用这些功能。3.3.1OpenCV的安装60年代,星际迷航80年代,终结者21世纪,人工智能1、pip命令安装pipinstallopencv-pythonpipinstallopencv-python-i/simple请先确保python已安装并且配置了pip工具。打开一个终端命令窗口,输入以下命令:如果安装时网络异常或者安装包拉取速度较慢,可以输入以下命令:3.3.1OpenCV的安装21世纪,人工智能2、conda命令安装condainstallopencvcondainstall-c/menpoopencv如果您使用anaconda环境进行Python代码开发,那么可以使用conda命令安装OpenCV。打开anacondaprompt工具的终端界面,输入以下命令:或者:3.3.1OpenCV的安装80年代,终结者3、通过源代码构建cmakepath/to/opencv/sourcemakeinstall访问OpenCV官方GitHub仓库下载最新的源代码压缩包(源代码也可以从本书配套资源获取)。将下载的源代码解压到您选择的目录。在解压后的目录中创建一个新目录,用于存放构建文件。使用CMake配置构建。在终端或命令提示符中,导航到构建目录并运行以下命令:如果您需要
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024八年级地理上册第一章疆域和人口-从世界看中国学情评估晋教版
- 大学生心理健康教育(河南经贸职业学院版)学习通测试及答案
- 《金版学案》2022届高考政治一轮复习课时作业:必修2-4单元总结-
- 2025年人教版八年级数学寒假预习 第03讲 二次根式的加减(3个知识点+7大考点举一反三+过关测试)
- 2025年人教版七年级数学寒假复习 专题05 一元一次方程(4重点串讲+13考点提升+过关检测)
- 【状元之路】2022高考地理总复习随堂训练1-2-4全球气候变化和气候类型的判读-
- 【创新设计】2021高考化学(广东专用)二轮-微题型专练17
- 四川省绵阳2024-2025学年高二上学期数学期末模拟试题(五)(含答案)
- 【原创】江苏省2021届高三上学期第三次周测数学试题
- 部编版语文二年级下册第五单元综合素养测评 A卷(含答案)
- 提捞采油安全操作规程
- 建筑工程质量管理体系文件
- in、ing对比辨音练习.doc
- 乙丙橡胶电力电缆绝缘一步法硅烷交联工艺
- 中止施工安全监督申请书(范例)
- 光刻工艺光刻对准
- 世界各国标准钢号对照表
- 文化部鼓励参加的国际艺术比赛
- 输卵管性不孕诊治的中国专家共识
- 除尘器安装技术交底记录
- 【正能量校园心理剧剧本】校园心理剧剧本推荐
评论
0/150
提交评论