人工智能与大数据开发入门背景知识简介_第1页
人工智能与大数据开发入门背景知识简介_第2页
人工智能与大数据开发入门背景知识简介_第3页
人工智能与大数据开发入门背景知识简介_第4页
人工智能与大数据开发入门背景知识简介_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

主要内容

1 人工智能简介

1.1 AI的定义及研究目标 1.2 AI的产生与发展 1.3 AI研究中的三大学派 1.4 AI的两个不同层次 1.5 AI的应用

2 大数据简介

2.1 大数据的概念 2.2 大数据的特点 2.3 大数据面临的主要问题 2.4 大数据和人工智能的关系

3 相关算法基础 3.1 基于模拟机制的人工智能算法分类方法 3.2 人工智能知识网络系统总结 3.3 蒙特卡洛树搜索树算法简介

4 编程语言Python简介 4.1 认识Python 4.2 Python的应用领域第一页,共32页。主要内容 4.3 Python是人工智能首选语言

5 总结

第二页,共32页。

人工智能简介11.1 AI的定义及其研究目标

人工智能(ArtificialIntelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。

人工智能是计算机科学的一个分支,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

人类智能人工智能研究领域语言智能自然语言处理,如Siri,讯飞翻译逻辑判断机器证明及符号运算神经控制神经网络,如人机象棋视觉机器视觉和图像识别自然观察能力模式识别多种智能组合人工智能第三页,共32页。

人工智能简介11.2 AI的产生与发展

第四页,共32页。

人工智能简介1

诞生与早期研究 1950年,图灵发表了一篇划时代的论文,并提出著名的“图灵测试”:由艾伦·麦席森·图灵发明,指测试者与被测试者(一个人和一机器)隔开的情况下,通过一些装置(如键盘)向被测试者随意提问。进行多次测试后,如果有超出30%的测试者不能确定出被测试者是人还是机器,那么这台机器就通过了测试,并被认为具有人类智能 1956年,达特茅斯会议:AI的诞生 1957年,纽厄尔、肖(J.Shaw)和西蒙等人的心理学小组研制了称为逻辑理论机的数学定理证明程序。 1962年,由塞谬尔在IBM704计算机上研制的具有自学习和适应能力的西洋跳棋程序打败了一个州的冠军。

挫折和教训 1958年,西蒙曾预言:十年内,计算机将称为国际冠军;计算机将发现和证明有意义的数学定理;计算机将能谱写优美的乐曲;计算机将能实现大多数的心理学理论。后两个到目前为止都未能实现。

在博弈方面,塞谬尔的程序与世界冠军比赛时,5局输了4局

在定理证明方面,当时用归结原理证明两个连续函数之和还是连续函数时,推了10万步,也没有证明出来。第五页,共32页。

人工智能简介1

在神经生理学方面,发现人脑有10^12以上的神经元,用机器从结构上根本无法模拟

在其他方面,人工智能也遇到了不少的困难,因此那段时间,在全世界范围,人工智能陷入了低谷。

以知识为中心的研究

1972年,费根鲍勃开始研究MYCIN专家系统,并于1976年研制成功,它可以协助内科医生诊断细菌感染疾病并提供最佳处方。 1976年,斯坦福大学研制出地质勘探专家系统PROSPECTOR

这一时期同时发展的还有计算机视觉和机器人,自然语言理解和机器翻译翻译等

新的问题

专家系统所存在的知识领域狭窄、缺乏常识性知识、知识获取难、推理方法单一、没有分布式功能、不能访问现存数据库的问题逐渐暴露出来

第三次AI兴起浪潮 2006年后,大数据的广泛应用使得机器学习迅速发展,并进一步产生了深度学习 2016年3月,AlphaGo对战世界围棋冠军、职业九段选手李世石,并以4:1的总比分获胜。 2017年5月23日至27日在中国嘉兴乌镇进行的三番棋比赛,AlphaGo以总比分3比0战胜世界排名第一的柯洁。第六页,共32页。

人工智能简介11.3 AI研究中的三大学派

符号主义学派联结主义学派行为主义学派基于符号运算的人工智能学派。他们认为知识可以用符号来表示,认知可以通过符号运算来实现。如专家系统。从大脑和神经系统的生理背景出发模拟它们的工作机理和学习方式。之后,随着模糊逻辑和进化计算的逐步成熟,又形成了“计算智能”主要进行行为主义的模拟。如1991年,麻省理工学院布鲁克教授研究成功能较为自由活动的6条腿机器虫。奠基人:西蒙(CMU)奠基人:明斯基(MIT)奠基人:维纳(MIT)随着研究和应用的深入,人们逐渐意识到,三个学派各有所长,各有所短,如今的人工智能研究是将这三大学派的方法加以相互结合。第七页,共32页。

人工智能简介11.4 AI的两个不同层次

弱人工智能强人工智能令机器进行智能的行动。弱人工智能经常是擅长某一单方面的人工智能。比如能战胜围棋世界冠军的人工智能,但它只会下棋,你问它其他事情,它就无法处理。另一个典型代表是微软小冰。它不仅安装在Windows系统的pc上,它还担任着东方卫视《天气预报》主持人的角色。强人工智能:令机器像人一样思考。其基本定义为:人类制造出的具有自主推理和解决一般性问题的智能程序。此类程序具备知觉和自我意识,可以完成自我编程和开发新人工智能的工作。到目前为止,真正意义上的强人工智能还没有研制出来,并且很可能在最近几十年都还研制不出来第八页,共32页。

人工智能简介11.5 AI的应用

AI在互联网领域类的应用第九页,共32页。

人工智能简介1

人工智能对社会经济的影响

新时代下,机器人产业将迎来井喷式的增长,并开始充斥在社会的各个角落,成为推动社会进步的强大力量。可以预见,未来将会是商业、社会与机器人的联合大接轨。

人工智能机器人将会在如下方面改变着人们的生活。

(1)引领时尚生活的服务机器人:餐厅服务机器人、家庭扫地机器人、达芬奇手术机器人、助残机器人

(2)风靡制造业的工业机器人:比如海尔美的中的六轴串联机器人,负责搬运工作

(3)农业机器人:育苗、采摘、蔬果分级练选、户外载具、畜产机器人

(4)教育机器人,文化领域的助理

(5)特种机器人,深入险地,执行特种任务

(6)太空机器人,探索宇宙,开启神秘之旅

(7)云机器人:云计算与机器人的联合

(8)仿生机器人:仿鱼鸟等

(9)仿人机器人

对社会的影响

产业变革:人工智能的发展势必形成产业变革,很多商业模式开始重新洗牌,对创业者来说既是机遇也是挑战

第十页,共32页。

人工智能简介1

失业和社会保障问题:人工智能的大规模使用,尤其是机器人的出现,大量可重复性的工作将被机器人取代,导致很多人失业

贫富差距问题:将会进一步加大,利用人工智能,有钱人将会更有钱,而穷人因为失去工作变的更穷

地区发展不平衡问题:人工智能属于高科技产业,前期的投入非常大,一旦大规模市场化,则可以帮助所在地区提高生产效率,这意味着,缺乏人工智能技术的地区,发展速度会比拥有人工智能地区慢很多,两地发展不平衡的差距将会越来越大

产业结构调整:人工智能时代,人与机器的分工,会促进产业结构的调整

人工智能时代的服务业:服务升级,下岗人员可以从事贴心的关爱型服务,同时提升企业的收益

对个人的影响

失业和社会保障问题

心理层面的问题:人员的自我价值、人类的自我实现、人机协同时代的人类心理学

第十一页,共32页。

大数据简介22.1 大数据的概念

大数据(bigdata):指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

主要解决,海量数据的存储和海量数据的分析计算问题。2.2 大数据的特点

Volume(大量):截至目前,人类生产的所有印刷材料的数据量是200PB,而历史上全人类总共说过的话的数据量大约是5EB。当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量级。按顺序给出数据存储单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。

第十二页,共32页。

大数据简介2

Velocity(高速):

这是大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。

天猫双十一:2017年3分01秒,天猫交易额超过100亿第十三页,共32页。

大数据简介2

Variety(多样):

这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以数据库/文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。 Value(低价值密度):价值密度的高低与数据总量的大小成反比。比如公安部门的天网监控视频中,每天每一分钟每一秒都在存储数据,但是公安部门关心的仅仅是发生交通事故时的那么几分钟的事发过程的视频内容。第十四页,共32页。

大数据简介22.3 大数据面临的主要问题

大数据时代已经来临,全球数据量正呈指数级的增长,其主要原因如下:

(1)各种传感器的剧增及互联网产生的各类数据、高清晰度的图像和视频数据

(2)自然科学研究产生的数据量剧增。

(3)企业及商业活动产生的数据量剧增。

大数据处理的一般流程包括大数据获取、大数据预处理、大数据存储于管理、大数据分析与挖掘及大数据可视化。基于大数据处理流程,大数据面临的主要问题为:

获取问题、存储问题和管理问题

第一阶段即大数据的获取、存储和管理。其中,大数据获取是指针对海量数据进行智能化识别、定位、跟踪及采集。大数据存储和管理是指如何将采集到的大规模数据有效地存储起来,建立相应的存储机制,并进行管理和调用。

(1)网络爬虫搜索策略

(2)图像压缩编码问题

检索问题、挖掘问题和发现问题

第二个阶段是实现信息检索、数据挖掘和知识发现。这也是大数据处理流程的核心。

(1)特征向量降维:高维的文本特征向量增加了数据处理时间和复杂第十五页,共32页。

大数据简介2度,需要降维。

(2)挖掘方法效率和效果

(3)模式评价及优化:对挖掘出的模式进行评价

可视化和安全问题

大数据处理的最后阶段即实现数据可视化和确保数据的隐私和安全。面对海量的数据,如何将数据或从数据中挖掘的知识清晰明朗的展现给用户是大数据处理面临的巨大挑战;此外,如何在分享私人数据的同时,限制用户隐私的泄露,是大数据处理面临的另一个挑战。2.4 大数据与人工智能的关系

任何智能的发展,其实都需要一个学习的过程。而近期人工智能之所以能取得突飞猛进的进展,不能不说是因为这些年来大数据长足发展的结果。正是由于各类感应器和数据采集技术的发展,我们开始拥有以往难以想象的的海量数据,同时,也开始在某一领域拥有深度的、细致的数据。而这些,都是训练某一领域“智能”的前提。

如果我们把人工智能看成一个嗷嗷待哺拥有无限潜力的婴儿,某一领域专业的海量的深度的数据就是喂养这个天才的奶粉。奶粉的数量决定了婴儿是否能长大,而奶粉的质量则决定了婴儿后续的智力发育水平。第十六页,共32页。

相关算法基础33.1 基于模拟机制的人工智能算法分类方法

(1)有机机制模拟 ①基于个体的模拟 模糊计算:模拟人对客观世界认识的不确定性 神经网络:模拟人脑神经元 支持向量机:通过非线性变换将输入空间变换到一个高维空间,然后在这个新的空间中求取最优分类超平面 免疫计算:借鉴和利用生物免疫系统的信息处理机制而发展的信息处理技术

DNA计算:模拟生物分子DNA结构进行计算的新方法 ②基于种群的模拟 进化计算:基于生物进化的思想和原理来解决世界问题 群体智能:是一种在自然界生物群体行为的启发下提出的人工智能算法实现模式

粒群优化:一种基于群体搜索的算法,它建立在模拟鸟群社会的基础上 蚁群算法:是一种源于大自然中生物世界的新的仿生类算法 智能代理模型 多Agent系统

第十七页,共32页。

相关算法基础3

(2)无机机制模拟 模拟退火:如果说神经网络和进化计算是模拟有机界产生的计算方法,那么模拟退火是成功模拟无极界自然规律的结晶。 自然计算可以描述成所有新兴计算分支的交集的映射集合 量子计算 (3)人造机制模拟 粗糙集:作为一种处理不精确、不确定和不完全数据的新的数学计算理论,能够有效的处理各种不确定的信息 禁忌搜索 序数优化 粒度计算 混沌寻优算法 局部搜索算法 分形科学第十八页,共32页。

相关算法基础33.2 人工智能知识网络系统总结

数学基础

微积分、线代、概率论、信息论、集合论和图论、博弈论

计算机基础

计算机原理、程序设计语言(C++,Python,R)、操作系统、分布式系统、算法基础

机器学习算法

机器学习基础:估计方法、特征方程

线性模型:线性回归

逻辑回归

决策树模型:GBDT

支持向量机

贝叶斯分类器

神经网络:深度学习——MLP,CNN,RNN,LSTM,GAN(深度学习介绍见4.6)

聚类算法:K均值算法

机器学习分类

监督学习——分类任务、回归任务

无监督学习——聚类任务

迁移学习第十九页,共32页。

相关算法基础3

强化学习

神经网络

语言识别、字符识别——手写识别、机器视觉、自然语言处理——机器翻译、自动控制、游戏理论和人机对弈(象棋、围棋、德州扑克、星际争霸)、数据挖掘

机器学习架构

加速芯片:CPU、GPU、FPGA、ASIC——TPU

虚拟化:容器——Decker

分布式结构:Spark

库和计算框架:TensorFlow、scikt-learn、Caffe、MXNET、Theano、Torch、MicrosoftCNTK

可视化解决方案

云服务:AmazonML、GoogleCloudML、MicrosoftAzureML、阿里云ML

数据集和竞赛 ImageNet、MSCOCC、Kaggle、阿里天池

其他相关的人工智能技术

知识图谱、统计语言模型、专家系统第二十页,共32页。

相关算法基础33.3 蒙特卡洛树搜索树算法简介 3.3.1 介绍 蒙特卡洛树搜索是前里尔大学助理教授RemiCoulom在围棋程序Crazystone中首先引入的方法。从最直观的角度来看,蒙特卡洛树搜索有一个主要目的:给出一个【游戏状态】并选择【胜率最高的下一步】。事实上,蒙特卡洛树搜索是在完美信息博弈场景中进行决策的算法。简单来说,完美信息博弈是指每个玩家在任意时间点都具有关于之前发生过的所有事件行动的完美信息的博弈。这样的博弈案例有国际象棋、围棋和井子棋。但并不是说每一步行动都已知就意味着可以计算和推断出每一个可能的结果。比如,围棋中合法的可能局面的数量就超过了10^170。 3.3.2 基本概念 蒙特卡洛树搜索会多次模拟博弈,并尝试根据模拟结果预测最优的移动方案。蒙特卡洛树搜索的主要概念是搜索,即沿着博弈树向下的一组遍历过程。单次遍历的路径会从根节点(当前博弈状态)延伸到没有完全展开的节点,未完全展开的节点表示其子节点至少有一个未访问到。遇到未完全展开的节点时,它的一个未访问子节点将会作为单次模拟的根节点,随后模拟的结果将会反向传播回当前树的根节点并更新博弈树的节点统计数据。一旦搜索受限于时间或者计算力而终止,下一步行动将会基于收集到的统计数据进行决策。 在模拟中,行动可以通过rollout策略函数选择 蒙特卡罗算法:采样越多,越近似最优解;

第二十一页,共32页。

相关算法基础3图片展示了如何更新节点的胜率,选择胜率大的分支进行搜索(7/10->5/6->3/3),到了3/3叶子节点进行展开选择一个action,然后进行模拟,评估这个action的结果。然后把结果向上回溯到根节点。

第二十二页,共32页。

相关算法基础3节点的统计数据:包括模拟奖励Q(v)和总访问次数N(v),分别反映该节点的潜在价值(总模拟奖励)和它被探索的程度(总访问次数)。高奖励的节点是很好的可以利用候选,而那些访问次数很少的也可能是有价值的。

蒙特卡罗树搜索方法一共有四个步骤: 选举(selection)是根据当前获得所有子步骤的统计结果,选择一个最优的子步骤。 扩展(expansion)在当前获得的统计结果不足以计算出下一个步骤时,随机选择一个子步骤。 模拟(simulation)模拟游戏,进入下一步。 反向传播(Back-Propagation)根据游戏结束的结果,计算对应路径上统计记录的值。

第二十三页,共32页。

编程语言Python简介44.1 认识Python

Python(英国发音:/ˈpaɪθən/),是一种面向对象的解释型计算机程序设计语言,由荷兰人GuidovanRossum(吉多·范罗苏姆)于1989年发明,第一个公开发行版发行于1991年,已经有了28年的历史。 Python是纯粹的免费、开源软件。 Python语法简洁清晰,简单易学。 Python具有丰富和强大的库。常被称为胶水语言,能够把用其他语言制作的各种模块(尤其是C/C++)很轻松地联结在一起。很多人工智能相关库使用Python写的,因此Python是人工智能首选语言。2017年,全球编程语言排行中,Python语言排名第四第二十四页,共32页。

编程语言Python简介4

①一种脚本语言——与之对比,C是一种编译型语言。 编译型语言:就是需要用该语言的编译器将源代码编译为可执行程序,然后才能运行可执行程序的语言。即先将源代码编译为目标文件,然后把目标文件加上必要的库文件,最后再链接为最终的可执行文件。 脚本语言:无需用编译器编译源代码,可直接运行该源码形式脚本文件的语言。而能够直接运行脚本文件的背后,是当前环境中存在着此脚本的解析器。解析器负责读入此脚本源码,以及后续解析并执行的动作。

②一种解释型语言

这是因为脚本语言的天然特点之一就是解释性。解释器解析每一行的过程通俗讲就是:读一行,解释一行,执行一行。

③一种高级语言

低级语言:汇编(语言本身直接和硬件打交道,而缺少对计算机细节的抽象,相对而言不是那么好理解和使用)

高级语言:在本身的设计层面会考虑到对计算机细节的封装和抽象。Python也完全具有常用的基本元素,如各种普通变量、列表、函数等 Python能做其他高级语言做的事情——①可以像其他高级语言一样用来开发各种不同功能的软件;②和其他高级语言一样不能直接操作底层硬件。

第二十五页,共32页。

编程语言Python简介4

④一种面向对象的语言

什么是面向对象的(高级)语言:在设计该语言本身时,对于语言本身的基本元素是以对象的方式设计的,而不同的对象之间的交互则成为整个程序运行的主要表现形式。4.2 Python的应用领域

目前使用Python语言的企业有很多 1.著名的Google公司在其网络搜索系统中广泛应用Python语言。同时还聘用了Python之父(GuidovanRossum) 2.国外知名的YouTube视频分享网站,一些重要的服务也几乎都是用Python编写的程序;

3.P2P文件分享系统Bittorrent是一个Python程序。

4.Intel(英特尔)、Cisco(思科)、Hewlett-Packard(惠普)、Seagate(希捷)、Qualcomm(高通)和IBM也都使用Python进行硬件测试 5.JPMorganChase(摩根大通集团)、UBS(瑞士联合银行集团)、Getco和Citadel使用Python,经济市场预测领域也能看到Python的身影。 6.高科技含量的领域也有Python语言的身影,像是NASA(美国国家航空航天局)、LosAlamos(洛斯阿拉莫斯洛杉矶国家实验室)、Fermilab(费米实验室)、JPL(喷气推进实验室)等使用Python实现科学计算任务;第二十六页,共32页。

编程语言Python简介4 7.IRobot公司使用Python开发了商业机器人真空吸尘器; 8.NSA(美国国家安全局)在加密和智能分析中使用Python。

9.IronPort业界领先的互联网信息安全产品提供商,也在电子邮件服务器产品中使用了超过100万行的Python代码实现其工作;

10.Python在用户图形接口领域也很受欢迎

Python语言的简洁和快速的开发周期,让它十分适合开发GUI(图形用户界面)程序。Python内置的TKinter的标准面向对象接口TkGUIAPI,使Python程序可以生成可移植的本地观感的GUI。 Python编程语言应用领域非常广泛,像是游戏、图像、人工智能、XML、机器人等等。从语言本身来讲,它能实现其他主流语言能实现的所有功能,只是在难易程度及效率上略有差别。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论