云计算-大数据和人工智能层层剖析_第1页
云计算-大数据和人工智能层层剖析_第2页
云计算-大数据和人工智能层层剖析_第3页
云计算-大数据和人工智能层层剖析_第4页
云计算-大数据和人工智能层层剖析_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、终于有人把把云计算、大数据和和人工智能能讲明白了了! 今天跟大家家讲讲云计计算、大数数据和人工工智能。为为什么讲这这三个东西西呢?因为为这三个东东西现在非非常火,并并且它们之之间好像互互相有关系系:一般谈谈云计算的的时候会提提到大数据据、谈人工工智能的时时候会提大大数据、谈谈人工智能能的时候会会提云计算算感觉觉三者之间间相辅相成成又不可分分割。但如如果是非技技术的人员员,就可能能比较难理理解这三者者之间的相相互关系,所所以有必要要解释一下下。目录TOC o 1-3 h z u HYPERLINK l _Toc512697926 一、云计算最初的目标 PAGEREF _Toc512697926

2、h 1 HYPERLINK l _Toc512697927 二、云计算不光管资源,也要管应用 PAGEREF _Toc512697927 h 9 HYPERLINK l _Toc512697928 三、大数据拥抱云计算 PAGEREF _Toc512697928 h 14 HYPERLINK l _Toc512697929 四、人工智能拥抱大数据 PAGEREF _Toc512697929 h 23一、云计算算最初的目目标我们首先来来说云计算算。云计算算最初的目目标是对资资源的管理理,管理的的主要是计计算资源、网络资源源、存储资资源三个方方面。1管数据中中心就像配配电脑什么叫计算算、网络、存储

3、资源源?比如你要买买台笔记本本电脑,是是不是要关关心这台电电脑是什么么样的CPPU?多大大的内存?这两个就就被我们称称为计算资资源。这台电脑要要上网,就就需要有个个可以插网网线的网口口,或者有有可以连接接我们家路路由器的无无线网卡。您家也需需要到运营营商比如联联通、移动动或者电信信开通一个个网络,比比如1000M的带宽宽。然后会会有师傅弄弄一根网线线到您家来来,师傅可可能会帮您您将您的路路由器和他他们公司的的网络连接接配置好。这样您家家的所有的的电脑、手手机、平板板就都可以以通过您的的路由器上上网了。这这就是网络络资源。您可能还会会问硬盘多多大?过去去的硬盘都都很小,大大小如100G之类的的;

4、后来即即使5000G、1TT、2T的的硬盘也不不新鲜了。(1T是是10000G),这这就是存储储资源。对于一台电电脑是这个个样子的,对对于一个数数据中心也也是同样的的。想象你你有一个非非常非常大大的机房,里里面堆了很很多的服务务器,这些些服务器也也是有CPPU、内存存、硬盘的的,也是通通过类似路路由器的设设备上网的的。这时的的问题就是是:运营数数据中心的的人是怎么么把这些设设备统一的的管理起来来的呢?2灵活就是是想啥时要要都有,想想要多少都都行管理的目标标就是要达达到两个方方面的灵活活性。具体体哪两个方方面呢?举个例子来来理解:比比如有个人人需要一台台很小的电电脑,只有有一个CPPU、1GG内

5、存、110G的硬硬盘、一兆兆的带宽,你你能给他吗吗?像这种种这么小规规格的电脑脑,现在随随便一个笔笔记本电脑脑都比这个个配置强了了,家里随随便拉一个个宽带都要要100MM。然而如如果去一个个云计算的的平台上,他他要想要这这个资源时时,只要一一点就有了了。这种情况下下它就能达达到两个方方面灵活性性:时间灵活性性:想什么么时候要就就什么时候候要,需要要的时候一一点就出来来了;空间灵活性性:想要多多少就有多多少。需要要一个太很很小的电脑脑,可以满满足;需要要一个特别别大的空间间例如云盘盘,云盘给给每个人分分配的空间间动不动就就很大很大大,随时上上传随时有有空间,永永远用不完完,也是可可以满足的的。空

6、间灵活性性和时间灵灵活性,即即我们常说说的云计算算的弹性。而解决这这个弹性的的问题,经经历了漫长长时间的发发展。3物理设备备不灵活第一个阶段段是物理设设备时期。这个时期期客户需要要一台电脑脑,我们就就买一台放放在数据中中心里。物理设备当当然是越来来越牛,例例如服务器器,内存动动不动就是是百G内存存;例如网网络设备,一一个端口的的带宽就能能有几十GG甚至上百百G;例如如存储,在在数据中心心至少是PPB级别的的(一个PP是10000个T,一一个T是11000个个G)。然而物理设设备不能做做到很好的的灵活性:首先是它缺缺乏时间灵灵活性。不不能够达到到想什么时时候要就什什么时候要要。比如买买台服务器器

7、、买个电电脑,都要要有采购的的时间。如如果突然用用户告诉某某个云厂商商,说想要要开台电脑脑,使用物物理服务器器,当时去去采购就很很难。与供供应商关系系好的可能能需要一个个星期,与与供应商关关系一般的的就可能需需要采购一一个月。用用户等了很很久电脑才才到位,这这时用户还还要登录上上去慢慢开开始部署自自己的应用用。时间灵灵活性非常常差。其次是它的的空间灵活活性也不行行。例如上上述的用户户需要一个个很小很小小的电脑,但但现在哪还还有这么小小型号的电电脑?不能能为了满足足用户只要要一个G的的内存是880G硬盘盘的,就去去买一个这这么小的机机器。但是是如果买一一个大的,又又会因为电电脑大,需需要向用户户

8、多收钱,可可用户需要要用的只有有那么小一一点,所以以多付钱就就很冤。4虚拟化灵灵活多了有人就想办办法了。第第一个办法法就是虚拟拟化。用户户不是只要要一个很小小的电脑么么?数据中中心的物理理设备都很很强大,我我可以从物物理的CPPU、内存存、硬盘中中虚拟出一一小块来给给客户,同同时也可以以虚拟出一一小块来给给其他客户户。每个客客户只能看看到自己的的那一小块块,但其实实每个客户户用的是整整个大的设设备上的一一小块。虚拟化的技技术使得不不同客户的的电脑看起起来是隔离离的。也就就是我看着着好像这块块盘就是我我的,你看看着这块盘盘就是你的的,但实际际情况可能能我的这个个10G和和你的这个个10G是是落在

9、同样样一个很大大很大的存存储上。而而且如果事事先物理设设备都准备备好,虚拟拟化软件虚虚拟出一个个电脑是非非常快的,基基本上几分分钟就能解解决。所以以在任何一一个云上要要创建一台台电脑,一一点几分钟钟就出来了了,就是这这个道理。这样空间灵灵活性和时时间灵活性性就基本解解决了。5虚拟世界界的赚钱与与情怀在虚拟化阶阶段,最牛牛的公司是是VMwaare。它它是实现虚虚拟化技术术比较早的的一家公司司,可以实实现计算、网络、存存储的虚拟拟化。这家家公司很牛牛,性能做做得非常好好,虚拟化化软件卖得得也非常好好,赚了好好多的钱,后后来让EMMC(世界界五百强,存存储厂商第第一品牌)给收购了了。但这个世界界上还

10、是有有很多有情情怀的人的的,尤其是是程序员里里面。有情情怀的人喜喜欢做什么么事情?开开源。这个世界上上很多软件件都是有闭闭源就有开开源,源就就是源代码码。也就是是说,某个个软件做的的好,所有有人都爱用用,但这个个软件的代代码被我封封闭起来,只只有我公司司知道,其其他人不知知道。如果果其他人想想用这个软软件,就要要向我付钱钱,这就叫叫闭源。但世界上总总有一些大大牛看不惯惯钱都让一一家赚了去去的情况。大牛们觉觉得,这个个技术你会会我也会;你能开发发出来,我我也能。我我开发出来来就是不收收钱,把代代码拿出来来分享给大大家,全世世界谁用都都可以,所所有的人都都可以享受受到好处,这这个叫做开开源。比如最

11、近的的蒂姆伯伯纳斯李李就是个非非常有情怀怀的人。22017年年,他因“发明万维维网、第一一个浏览器器和使万维维网得以扩扩展的基本本协议和算算法”而获获得20116年度的的图灵奖。图灵奖就就是计算机机界的诺贝贝尔奖。然然而他最令令人敬佩的的是,他将将万维网,也也就是我们们常见的WWWW技术术无偿贡献献给全世界界免费使用用。我们现现在在网上上的所有行行为都应该该感谢他的的功劳,如如果他将这这个技术拿拿来收钱,应应该和比尔尔盖茨差不不多有钱。开源和闭源源的例子有有很多:例如在闭源源的世界里里有Winndowss,大家用用Winddows都都得给微软软付钱;开开源的世界界里面就出出现了Liinux。比

12、尔盖茨茨靠Winndowss、Offfice这这些闭源的的软件赚了了很多钱,称称为世界首首富,就有有大牛开发发了另外一一种操作系系统Linnux。很很多人可能能没有听说说过Linnux,很很多后台的的服务器上上跑的程序序都是Liinux上上的,比如如大家享受受双十一,无无论是淘宝宝、京东、考拉支撑双十十一抢购的的系统都是是跑在Liinux上上的。再如有Appple就就有安卓。Applle市值很很高,但是是苹果系统统的代码我我们是看不不到的。于于是就有大大牛写了安安卓手机操操作系统。所以大家家可以看到到几乎所有有的其他手手机厂商,里里面都装安安卓系统。原因就是是苹果系统统不开源,而而安卓系统统大

13、家都可可以用。在虚拟化软软件也一样样,有了VVMwarre,这个个软件非常常贵。那就就有大牛写写了两个开开源的虚拟拟化软件,一一个叫做XXen,一一个叫做KKVM,如如果不做技技术的,可可以不用管管这两个名名字,但是是后面还是是会提到。6虚拟化的的半自动和和云计算的的全自动要说虚拟化化软件解决决了灵活性性问题,其其实并不全全对。因为为虚拟化软软件一般创创建一台虚虚拟的电脑脑,是需要要人工指定定这台虚拟拟电脑放在在哪台物理理机上的。这一过程程可能还需需要比较复复杂的人工工配置。所所以使用VVMwarre的虚拟拟化软件,需需要考一个个很牛的证证书,而能能拿到这个个证书的人人,薪资是是相当高,也也可

14、见复杂杂程度。所以仅仅凭凭虚拟化软软件所能管管理的物理理机的集群群规模都不不是特别大大,一般在在十几台、几十台、最多百台台这么一个个规模。这一方面会会影响时间间灵活性:虽然虚拟拟出一台电电脑的时间间很短,但但是随着集集群规模的的扩大,人人工配置的的过程越来来越复杂,越越来越耗时时。另一方方面也影响响空间灵活活性:当用用户数量多多时,这点点集群规模模,还远达达不到想要要多少要多多少的程度度,很可能能这点资源源很快就用用完了,还还得去采购购。所以随着集集群的规模模越来越大大,基本都都是千台起起步,动辄辄上万台、甚至几十十上百万台台。如果去去查一下BBAT,包包括网易、谷歌、亚亚马逊,服服务器数目目

15、都大的吓吓人。这么么多机器要要靠人去选选一个位置置放这台虚虚拟化的电电脑并做相相应的配置置,几乎是是不可能的的事情,还还是需要机机器去做这这个事情。人们发明了了各种各样样的算法来来做这个事事情,算法法的名字叫叫做调度(Scheeduleer)。通通俗一点说说,就是有有一个调度度中心,几几千台机器器都在一个个池子里面面,无论用用户需要多多少CPUU、内存、硬盘的虚虚拟电脑,调调度中心会会自动在大大池子里面面找一个能能够满足用用户需求的的地方,把把虚拟电脑脑启动起来来做好配置置,用户就就直接能用用了。这个个阶段我们们称为池化化或者云化化。到了这这个阶段,才才可以称为为云计算,在在这之前都都只能叫虚

16、虚拟化。7云计算的的私有与公公有云计算大致致分两种:一个是私私有云,一一个是公有有云,还有有人把私有有云和公有有云连接起起来称为混混合云,这这里暂且不不说这个。私有云:把把虚拟化和和云化的这这套软件部部署在别人人的数据中中心里面。使用私有有云的用户户往往很有有钱,自己己买地建机机房、自己己买服务器器,然后让让云厂商部部署在自己己这里。VVMwarre后来除除了虚拟化化,也推出出了云计算算的产品,并并且在私有有云市场赚赚的盆满钵钵满。公有云:把把虚拟化和和云化软件件部署在云云厂商自己己数据中心心里面的,用用户不需要要很大的投投入,只要要注册一个个账号,就就能在一个个网页上点点一下创建建一台虚拟拟

17、电脑。例例如AWSS即亚马逊逊的公有云云;例如国国内的阿里里云、腾讯讯云、网易易云等。亚马逊为什什么要做公公有云呢?我们知道道亚马逊原原来是国外外比较大的的一个电商商,它做电电商时也肯肯定会遇到到类似双十十一的场景景:在某一一个时刻大大家都冲上上来买东西西。当大家家都冲上买买东西时,就就特别需要要云的时间间灵活性和和空间灵活活性。因为为它不能时时刻准备好好所有的资资源,那样样太浪费了了。但也不不能什么都都不准备,看看着双十一一这么多用用户想买东东西登不上上去。所以以需要双十十一时,就就创建一大大批虚拟电电脑来支撑撑电商应用用,过了双双十一再把把这些资源源都释放掉掉去干别的的。因此亚亚马逊是需需

18、要一个云云平台的。然而商用的的虚拟化软软件实在是是太贵了,亚亚马逊总不不能把自己己在电商赚赚的钱全部部给了虚拟拟化厂商。于是亚马马逊基于开开源的虚拟拟化技术,如如上所述的的Xen或或者KVMM,开发了了一套自己己的云化软软件。没想想到亚马逊逊后来电商商越做越牛牛,云平台台也越做越越牛。由于它的云云平台需要要支撑自己己的电商应应用;而传传统的云计计算厂商多多为IT厂厂商出身,几几乎没有自自己的应用用,所以亚亚马逊的云云平台对应应用更加友友好,迅速速发展成为为云计算的的第一品牌牌,赚了很很多钱。在亚马逊公公布其云计计算平台财财报之前,人人们都猜测测,亚马逊逊电商赚钱钱,云也赚赚钱吗?后后来一公布布

19、财报,发发现不是一一般的赚钱钱。仅仅去去年,亚马马逊AWSS年营收达达122亿亿美元,运运营利润331亿美元元。8云计算的的赚钱与情情怀公有云的第第一名亚马马逊过得很很爽,第二二名Racckspaace过得得就一般了了。没办法法,这就是是互联网行行业的残酷酷性,多是是赢者通吃吃的模式。所以第二二名如果不不是云计算算行业的,很很多人可能能都没听过过了。第二名就想想,我干不不过老大怎怎么办呢?开源吧。如上所述述,亚马逊逊虽然使用用了开源的的虚拟化技技术,但云云化的代码码是闭源的的。很多想想做又做不不了云化平平台的公司司,只能眼眼巴巴的看看着亚马逊逊挣大钱。Rackkspacce把源代代码一公开开,

20、整个行行业就可以以一起把这这个平台越越做越好,兄兄弟们大家家一起上,和和老大拼了了。于是Racckspaace和美美国航空航航天局合作作创办了开开源软件OOpenSStackk,如上图图所示OppenSttack的的架构图,不不是云计算算行业的不不用弄懂这这个图,但但能够看到到三个关键键字:Coomputte计算、Netwworkiing网络络、Stooragee存储。还还是一个计计算、网络络、存储的的云化管理理平台。当然第二名名的技术也也是非常棒棒的,有了了OpennStacck之后,果果真像Raacksppace想想的一样,所所有想做云云的大企业业都疯了,你你能想象到到的所有如如雷贯耳的的

21、大型ITT企业:IIBM、惠惠普、戴尔尔、华为、联想等都都疯了。原来云平台台大家都想想做,看着着亚马逊和和VMwaare赚了了这么多钱钱,眼巴巴巴看着没办办法,想自自己做一个个好像难度度还挺大。现在好了了,有了这这样一个开开源的云平平台OpeenStaack,所所有的ITT厂商都加加入到这个个社区中来来,对这个个云平台进进行贡献,包包装成自己己的产品,连连同自己的的硬件设备备一起卖。有的做了了私有云,有有的做了公公有云,OOpenSStackk已经成为为开源云平平台的事实实标准。9IaaaS,资资源层面的的灵活性随着OpeenStaack的技技术越来越越成熟,可可以管理的的规模也越越来越大,并

22、并且可以有有多个OppenSttack集集群部署多多套。比如如北京部署署一套、杭杭州部署两两套、广州州部署一套套,然后进进行统一的的管理。这这样整个规规模就更大大了。在这个规模模下,对于于普通用户户的感知来来讲,基本本能够做到到想什么时时候要就什什么什么要要,想要多多少就要多多少。还是是拿云盘举举例子,每每个用户云云盘都分配配了5T甚甚至更大的的空间,如如果有1亿亿人,那加加起来空间间多大啊。其实背后的的机制是这这样的:分分配你的空空间,你可可能只用了了其中很少少一点,比比如说它分分配给你了了5个T,这这么大的空空间仅仅是是你看到的的,而不是是真的就给给你了,你你其实只用用了50个个G,则真真

23、实给你的的就是500个G,随随着你文件件的不断上上传,分给给你的空间间会越来越越多。当大家都上上传,云平平台发现快快满了的时时候(例如如用了700%),会会采购更多多的服务器器,扩充背背后的资源源,这个对对用户是透透明的、看看不到的。从感觉上上来讲,就就实现了云云计算的弹弹性。其实实有点像银银行,给储储户的感觉觉是什么时时候取钱都都有,只要要不同时挤挤兑,银行行就不会垮垮。10总结到了这个阶阶段,云计计算基本上上实现了时时间灵活性性和空间灵灵活性;实实现了计算算、网络、存储资源源的弹性。计算、网网络、存储储我们常称称为基础设设施Inffrasttructture, 因而这这个阶段的的弹性称为为

24、资源层面面的弹性。管理资源源的云平台台,我们称称为基础设设施服务,也也就是我们们常听到的的IaaSS(Infrrastrructuure AAs A Servvice)。二、云计算算不光管资资源,也要要管应用有了IaaaS,实现现了资源层层面的弹性性就够了吗吗?显然不不是,还有有应用层面面的弹性。这里举个例例子:比如如说实现一一个电商的的应用,平平时十台机机器就够了了,双十一一需要一百百台。你可可能觉得很很好办啊,有有了IaaaS,新创创建九十台台机器就可可以了啊。但90台台机器创建建出来是空空的,电商商应用并没没有放上去去,只能让让公司的运运维人员一一台一台的的弄,需要要很长时间间才能安装装

25、好的。虽然资源层层面实现了了弹性,但但没有应用用层的弹性性,依然灵灵活性是不不够的。有有没有方法法解决这个个问题呢?人们在IaaaS平台台之上又加加了一层,用用于管理资资源以上的的应用弹性性的问题,这这一层通常常称为PaaaS(PPlatfform As AA Serrvicee)。这一一层往往比比较难理解解,大致分分两部分:一部分笔笔者称为“你自己的的应用自动动安装”,一一部分笔者者称为“通通用的应用用不用安装装”。自己的应用用自动安装装:比如电电商应用是是你自己开开发的,除除了你自己己,其他人人是不知道道怎么安装装的。像电电商应用,安安装时需要要配置支付付宝或者微微信的账号号,才能使使别人

26、在你你的电商上上买东西时时,付的钱钱是打到你你的账户里里面的,除除了你,谁谁也不知道道。所以安安装的过程程平台帮不不了忙,但但能够帮你你做得自动动化,你需需要做一些些工作,将将自己的配配置信息融融入到自动动化的安装装过程中方方可。比如如上面的例例子,双十十一新创建建出来的990台机器器是空的,如如果能够提提供一个工工具,能够够自动在这这新的900台机器上上将电商应应用安装好好,就能够够实现应用用层面的真真正弹性。例如Puuppett、Cheef、Annsiblle、Clloud Founndaryy都可以干干这件事情情,最新的的容器技术术Dockker能更更好的干这这件事情。通用的应用用不用安

27、装装:所谓通通用的应用用,一般指指一些复杂杂性比较高高,但大家家都在用的的,例如数数据库。几几乎所有的的应用都会会用数据库库,但数据据库软件是是标准的,虽虽然安装和和维护比较较复杂,但但无论谁安安装都是一一样。这样样的应用可可以变成标标准的PaaaS层的的应用放在在云平台的的界面上。当用户需需要一个数数据库时,一一点就出来来了,用户户就可以直直接用了。有人问,既既然谁安装装都一个样样,那我自自己来好了了,不需要要花钱在云云平台上买买。当然不不是,数据据库是一个个非常难的的东西,光光Oraccle这家家公司,靠靠数据库就就能赚这么么多钱。买买Oraccle也是是要花很多多钱的。然而大多数数云平台

28、会会提供MyySQL这这样的开源源数据库,又又是开源,钱钱不需要花花这么多了了。但维护护这个数据据库,却需需要专门招招一个很大大的团队,如如果这个数数据库能够够优化到能能够支撑双双十一,也也不是一年年两年能够够搞定的。比如您是一一个做单车车的,当然然没必要招招一个非常常大的数据据库团队来来干这件事事情,成本本太高了,应应该交给云云平台来做做这件事情情,专业的的事情专业业的人来做做,云平台台专门养了了几百人维维护这套系系统,您只只要专注于于您的单车车应用就可可以了。要么是自动动部署,要要么是不用用部署,总总的来说就就是应用层层你也要少少操心,这这就是PaaaS层的的重要作用用。虽说脚本的的方式能

29、够够解决自己己的应用的的部署问题题,然而不不同的环境境千差万别别,一个脚脚本往往在在一个环境境上运行正正确,到另另一个环境境就不正确确了。而容器是能能更好地解解决这个问问题。容器是 CContaainerr,Conntainner另一一个意思是是集装箱,其其实容器的的思想就是是要变成软软件交付的的集装箱。集装箱的的特点:一一是封装,二二是标准。在没有集装装箱的时代代,假设将将货物从 A运到 B,中间间要经过三三个码头、换三次船船。每次都都要将货物物卸下船来来,摆得七七零八落,然然后搬上船船重新整齐齐摆好。因因此在没有有集装箱时时,每次换换船,船员员们都要在在岸上待几几天才能走走。有了集装箱箱以

30、后,所所有的货物物都打包在在一起了,并并且集装箱箱的尺寸全全部一致,所所以每次换换船时,一一个箱子整整体搬过去去就行了,小小时级别就就能完成,船船员再也不不用上岸长长时间耽搁搁了。这是集装箱箱“封装”、“标准准”两大特特点在生活活中的应用用。那么容器如如何对应用用打包呢?还是要学学习集装箱箱。首先要要有个封闭闭的环境,将将货物封装装起来,让让货物之间间互不干扰扰、互相隔隔离,这样样装货卸货货才方便。好在 UUbunttu中的LLXC技术术早就能做做到这一点点。封闭的环境境主要使用用了两种技技术,一种种是看起来来是隔离的的技术,称称为 Naamesppace,也也即每个 Nameespacce中

31、的应应用看到的的是不同的的 IP地地址、用户户空间、程程号等。另另一种是用用起来是隔隔离的技术术,称为 Cgrooups,也也即明明整整台机器有有很多的 CPU、内存,而而一个应用用只能用其其中的一部部分。所谓的镜像像,就是将将你焊好集集装箱的那那一刻,将将集装箱的的状态保存存下来,就就像孙悟空空说:“定定”,集装装箱里面就就定在了那那一刻,然然后将这一一刻的状态态保存成一一系列文件件。这些文文件的格式式是标准的的,谁看到到这些文件件都能还原原当时定住住的那个时时刻。将镜镜像还原成成运行时的的过程(就就是读取镜镜像文件,还还原那个时时刻的过程程)就是容容器运行的的过程。有了容器,使使得 Paa

32、aS层对对于用户自自身应用的的自动部署署变得快速速而优雅。三、大数据据拥抱云计计算在PaaSS层中一个个复杂的通通用应用就就是大数据据平台。大大数据是如如何一步一一步融入云云计算的呢呢?1数据不大大也包含智智慧一开始这个个大数据并并不大。原原来才有多多少数据?现在大家家都去看电电子书,上上网看新闻闻了,在我我们80后后小时候,信信息量没有有那么大,也也就看看书书、看看报报,一个星星期的报纸纸加起来才才有多少字字?如果你你不在一个个大城市,一一个普通的的学校的图图书馆加起起来也没几几个书架,是是后来随着着信息化的的到来,信信息才会越越来越多。首先我们来来看一下大大数据里面面的数据,就就分三种类类

33、型,一种种叫结构化化的数据,一一种叫非结结构化的数数据,还有有一种叫半半结构化的的数据。结构化的数数据:即有有固定格式式和有限长长度的数据据。例如填填的表格就就是结构化化的数据,国国籍:中华华人民共和和国,民族族:汉,性性别:男,这这都叫结构构化数据。非结构化的的数据:现现在非结构构化的数据据越来越多多,就是不不定长、无无固定格式式的数据,例例如网页,有有时候非常常长,有时时候几句话话就没了;例如语音音,视频都都是非结构构化的数据据。半结构化数数据:是一一些XMLL或者HTTML的格格式的,不不从事技术术的可能不不了解,但但也没有关关系。其实数据本本身不是有有用的,必必须要经过过一定的处处理。

34、例如如你每天跑跑步带个手手环收集的的也是数据据,网上这这么多网页页也是数据据,我们称称为Datta。数据据本身没有有什么用处处,但数据据里面包含含一个很重重要的东西西,叫做信信息(Innformmatioon)。数据十分杂杂乱,经过过梳理和清清洗,才能能够称为信信息。信息息会包含很很多规律,我我们需要从从信息中将将规律总结结出来,称称为知识(KKnowlledgee),而知知识改变命命运。信息息是很多的的,但有人人看到了信信息相当于于白看,但但有人就从从信息中看看到了电商商的未来,有有人看到了了直播的未未来,所以以人家就牛牛了。如果果你没有从从信息中提提取出知识识,天天看看朋友圈也也只能在互互

35、联网滚滚滚大潮中做做个看客。有了知识,然然后利用这这些知识去去应用于实实战,有的的人会做得得非常好,这这个东西叫叫做智慧(IIntellligeence)。有知识并并不一定有有智慧,例例如好多学学者很有知知识,已经经发生的事事情可以从从各个角度度分析得头头头是道,但但一到实干干就歇菜,并并不能转化化成为智慧慧。而很多多的创业家家之所以伟伟大,就是是通过获得得的知识应应用于实践践,最后做做了很大的的生意。所以数据的的应用分这这四个步骤骤:数据、信息、知知识、智慧慧。最终的阶段段是很多商商家都想要要的。你看看我收集了了这么多的的数据,能能不能基于于这些数据据来帮我做做下一步的的决策,改改善我的产产

36、品。例如如让用户看看视频的时时候旁边弹弹出广告,正正好是他想想买的东西西;再如让让用户听音音乐时,另另外推荐一一些他非常常想听的其其他音乐。用户在我的的应用或者者网站上随随便点点鼠鼠标,输入入文字对我我来说都是是数据,我我就是要将将其中某些些东西提取取出来、指指导实践、形成智慧慧,让用户户陷入到我我的应用里里面不可自自拔,上了了我的网就就不想离开开,手不停停地点、不不停地买。很多人说双双十一我都都想断网了了,我老婆婆在上面不不断地买买买买,买了了A又推荐荐B,老婆婆大人说,“哎呀,BB也是我喜喜欢的啊,老老公我要买买”。你说说这个程序序怎么这么么牛,这么么有智慧,比比我还了解解我老婆,这这件事

37、情是是怎么做到到的呢?2数据如何何升华为智智慧数据的处理理分几个步步骤,完成成了才最后后会有智慧慧。第一个步骤骤叫数据的的收集。首首先得有数数据,数据据的收集有有两个方式式:第一个方式式是拿,专专业点的说说法叫抓取取或者爬取取。例如搜搜索引擎就就是这么做做的:它把把网上的所所有的信息息都下载到到它的数据据中心,然然后你一搜搜才能搜出出来。比如如你去搜索索的时候,结结果会是一一个列表,这这个列表为为什么会在在搜索引擎擎的公司里里面?就是是因为他把把数据都拿拿下来了,但但是你一点点链接,点点出来这个个网站就不不在搜索引引擎它们公公司了。比比如说新浪浪有个新闻闻,你拿百百度搜出来来,你不点点的时候,

38、那那一页在百百度数据中中心,一点点出来的网网页就是在在新浪的数数据中心了了。第二个方式式是推送,有有很多终端端可以帮我我收集数据据。比如说说小米手环环,可以将将你每天跑跑步的数据据,心跳的的数据,睡睡眠的数据据都上传到到数据中心心里面。第二个步骤骤是数据的的传输。一一般会通过过队列方式式进行,因因为数据量量实在是太太大了,数数据必须经经过处理才才会有用。可系统处处理不过来来,只好排排好队,慢慢慢处理。第三个步骤骤是数据的的存储。现现在数据就就是金钱,掌掌握了数据据就相当于于掌握了钱钱。要不然然网站怎么么知道你想想买什么?就是因为为它有你历历史的交易易的数据,这这个信息可可不能给别别人,十分分宝

39、贵,所所以需要存存储下来。第四个步骤骤是数据的的处理和分分析。上面面存储的数数据是原始始数据,原原始数据多多是杂乱无无章的,有有很多垃圾圾数据在里里面,因而而需要清洗洗和过滤,得得到一些高高质量的数数据。对于于高质量的的数据,就就可以进行行分析,从从而对数据据进行分类类,或者发发现数据之之间的相互互关系,得得到知识。比如盛传的的沃尔玛超超市的啤酒酒和尿布的的故事,就就是通过对对人们的购购买数据进进行分析,发发现了男人人一般买尿尿布的时候候,会同时时购买啤酒酒,这样就就发现了啤啤酒和尿布布之间的相相互关系,获获得知识,然然后应用到到实践中,将将啤酒和尿尿布的柜台台弄的很近近,就获得得了智慧。第五

40、个步骤骤是对于数数据的检索索和挖掘。检索就是是搜索,所所谓外事不不决问Goooglee,内事不不决问百度度。内外两两大搜索引引擎都是将将分析后的的数据放入入搜索引擎擎,因此人人们想寻找找信息的时时候,一搜搜就有了。另外就是挖挖掘,仅仅仅搜索出来来已经不能能满足人们们的要求了了,还需要要从信息中中挖掘出相相互的关系系。比如财财经搜索,当当搜索某个个公司股票票的时候,该该公司的高高管是不是是也应该被被挖掘出来来呢?如果果仅仅搜索索出这个公公司的股票票发现涨的的特别好,于于是你就去去买了,其其实其高管管发了一个个声明,对对股票十分分不利,第第二天就跌跌了,这不不坑害广大大股民么?所以通过过各种算法法

41、挖掘数据据中的关系系,形成知知识库,十十分重要。3大数据时时代,众人人拾柴火焰焰高当数据量很很小时,很很少的几台台机器就能能解决。慢慢慢的,当当数据量越越来越大,最最牛的服务务器都解决决不了问题题时,怎么么办呢?这这时就要聚聚合多台机机器的力量量,大家齐齐心协力一一起把这个个事搞定,众众人拾柴火火焰高。对于数据的的收集:就就IoT来来讲,外面面部署这成成千上万的的检测设备备,将大量量的温度、湿度、监监控、电力力等数据统统统收集上上来;就互互联网网页页的搜索引引擎来讲,需需要将整个个互联网所所有的网页页都下载下下来。这显显然一台机机器做不到到,需要多多台机器组组成网络爬爬虫系统,每每台机器下下载

42、一部分分,同时工工作,才能能在有限的的时间内,将将海量的网网页下载完完毕。对于数据的的传输:一一个内存里里面的队列列肯定会被被大量的数数据挤爆掉掉,于是就就产生了基基于硬盘的的分布式队队列,这样样队列可以以多台机器器同时传输输,随你数数据量多大大,只要我我的队列足足够多,管管道足够粗粗,就能够够撑得住。对于数据的的存储:一一台机器的的文件系统统肯定是放放不下的,所所以需要一一个很大的的分布式文文件系统来来做这件事事情,把多多台机器的的硬盘打成成一块大的的文件系统统。对于数据的的分析:可可能需要对对大量的数数据做分解解、统计、汇总,一一台机器肯肯定搞不定定,处理到到猴年马月月也分析不不完。于是是

43、就有分布布式计算的的方法,将将大量的数数据分成小小份,每台台机器处理理一小份,多多台机器并并行处理,很很快就能算算完。例如如著名的TTerassort对对1个TBB的数据排排序,相当当于10000G,如如果单机处处理,怎么么也要几个个小时,但但并行处理理209秒秒就完成了了。所以说什么么叫做大数数据?说白白了就是一一台机器干干不完,大大家一起干干。可是随随着数据量量越来越大大,很多不不大的公司司都需要处处理相当多多的数据,这这些小公司司没有这么么多机器可可怎么办呢呢?4大数据需需要云计算算,云计算算需要大数数据说到这里,大大家想起云云计算了吧吧。当想要要干这些活活时,需要要很多的机机器一块做做

44、,真的是是想什么时时候要就什什么时候要要,想要多多少就要多多少。例如大数据据分析公司司的财务情情况,可能能一周分析析一次,如如果要把这这一百台机机器或者一一千台机器器都在那放放着,一周周用一次非非常浪费。那能不能能需要计算算的时候,把把这一千台台机器拿出出来;不算算的时候,让让这一千台台机器去干干别的事情情?谁能做这个个事儿呢?只有云计计算,可以以为大数据据的运算提提供资源层层的灵活性性。而云计计算也会部部署大数据据放到它的的PaaSS平台上,作作为一个非非常非常重重要的通用用应用。因因为大数据据平台能够够使得多台台机器一起起干一个事事儿,这个个东西不是是一般人能能开发出来来的,也不不是一般人

45、人玩得转的的,怎么也也得雇个几几十上百号号人才能把把这个玩起起来。所以说就像像数据库一一样,其实实还是需要要有一帮专专业的人来来玩这个东东西。现在在公有云上上基本上都都会有大数数据的解决决方案了,一一个小公司司需要大数数据平台的的时候,不不需要采购购一千台机机器,只要要到公有云云上一点,这这一千台机机器都出来来了,并且且上面已经经部署好了了的大数据据平台,只只要把数据据放进去算算就可以了了。云计算需要要大数据,大大数据需要要云计算,二二者就这样样结合了。四、人工智智能拥抱大大数据1机器什么么时候才能能懂人心虽说有了大大数据,人人的欲望却却不能够满满足。虽说说在大数据据平台里面面有搜索引引擎这个

46、东东西,想要要什么东西西一搜就出出来了。但但也存在这这样的情况况:我想要要的东西不不会搜,表表达不出来来,搜索出出来的又不不是我想要要的。例如音乐软软件推荐了了一首歌,这这首歌我没没听过,当当然不知道道名字,也也没法搜。但是软件件推荐给我我,我的确确喜欢,这这就是搜索索做不到的的事情。当当人们使用用这种应用用时,会发发现机器知知道我想要要什么,而而不是说当当我想要时时,去机器器里面搜索索。这个机机器真像我我的朋友一一样懂我,这这就有点人人工智能的的意思了。人们很早就就在想这个个事情了。最早的时时候,人们们想象,要要是有一堵堵墙,墙后后面是个机机器,我给给它说话,它它就给我回回应。如果果我感觉不

47、不出它那边边是人还是是机器,那那它就真的的是一个人人工智能的的东西了。2让机器学学会推理怎么才能做做到这一点点呢?人们们就想:我我首先要告告诉计算机机人类的推推理的能力力。你看人人重要的是是什么?人人和动物的的区别在什什么?就是是能推理。要是把我我这个推理理的能力告告诉机器,让让机器根据据你的提问问,推理出出相应的回回答,这样样多好?其实目前人人们慢慢地地让机器能能够做到一一些推理了了,例如证证明数学公公式。这是是一个非常常让人惊喜喜的一个过过程,机器器竟然能够够证明数学学公式。但但慢慢又发发现其实这这个结果也也没有那么么令人惊喜喜。因为大大家发现了了一个问题题:数学公公式非常严严谨,推理理过

48、程也非非常严谨,而而且数学公公式很容易易拿机器来来进行表达达,程序也也相对容易易表达。然而人类的的语言就没没这么简单单了。比如如今天晚上上,你和你你女朋友约约会,你女女朋友说:如果你早早来,我没没来;你等等着,如果果我早来;你没来,你你等着!这这个机器就就比较难理理解了,但但人都懂。所以你和和女朋友约约会,是不不敢迟到的的。3教给机器器知识因此,仅仅仅告诉机器器严格的推推理是不够够的,还要要告诉机器器一些知识识。但告诉诉机器知识识这个事情情,一般人人可能就做做不来了。可能专家家可以,比比如语言领领域的专家家或者财经经领域的专专家。语言领域和和财经领域域知识能不不能表示成成像数学公公式一样稍稍微

49、严格点点呢?例如如语言专家家可能会总总结出主谓谓宾定状补补这些语法法规则,主主语后面一一定是谓语语,谓语后后面一定是是宾语,将将这些总结结出来,并并严格表达达出来不久久行了吗?后来发现这这个不行,太太难总结了了,语言表表达千变万万化。就拿拿主谓宾的的例子,很很多时候在在口语里面面就省略了了谓语,别别人问:你你谁啊?我我回答:我我刘超。但但你不能规规定在语音音语义识别别时,要求求对着机器器说标准的的书面语,这这样还是不不够智能,就就像罗永浩浩在一次演演讲中说的的那样,每每次对着手手机,用书书面语说:请帮我呼呼叫某某某某,这是一一件很尴尬尬的事情。人工智能这这个阶段叫叫做专家系系统。专家家系统不易

50、易成功,一一方面是知知识比较难难总结,另另一方面总总结出来的的知识难以以教给计算算机。因为为你自己还还迷迷糊糊糊,觉得似似乎有规律律,就是说说不出来,又又怎么能够够通过编程程教给计算算机呢?4算了,教教不会你自自己学吧于是人们想想到:机器器是和人完完全不一样样的物种,干干脆让机器器自己学习习好了。机器怎么学学习呢?既既然机器的的统计能力力这么强,基基于统计学学习,一定定能从大量量的数字中中发现一定定的规律。其实在娱乐乐圈有很好好的一个例例子,可见见一般:有一位网友友统计了知知名歌手在在大陆发行行的 9 张专辑中中 1177 首歌曲曲的歌词,同同一词语在在一首歌出出现只算一一次,形容容词、名词词

51、和动词的的前十名如如下表所示示(词语后后面的数字字是出现的的次数):如果我们随随便写一串串数字,然然后按照数数位依次在在形容词、名词和动动词中取出出一个词,连连在一起会会怎么样呢呢?例如取圆周周率 3.14155926,对对应的词语语是:坚强强,路,飞飞,自由,雨雨,埋,迷迷惘。稍微微连接和润润色一下:坚强的孩子子,依然前行在在路上,张开翅膀飞飞向自由,让雨水埋葬葬他的迷惘惘。是不是有点点感觉了?当然,真真正基于统统计的学习习算法比这这个简单的的统计复杂杂得多。然而统计学学习比较容容易理解简简单的相关关性:例如如一个词和和另一个词词总是一起起出现,两两个词应该该有关系;而无法表表达复杂的的相关

52、性。并且统计计方法的公公式往往非非常复杂,为为了简化计计算,常常常做出各种种独立性的的假设,来来降低公式式的计算难难度,然而而现实生活活中,具有有独立性的的事件是相相对较少的的。5模拟大脑脑的工作方方式于是人类开开始从机器器的世界,反反思人类的的世界是怎怎么工作的的。人类的脑子子里面不是是存储着大大量的规则则,也不是是记录着大大量的统计计数据,而而是通过神神经元的触触发实现的的,每个神神经元有从从其它神经经元的输入入,当接收收到输入时时,会产生生一个输出出来刺激其其它神经元元。于是大大量的神经经元相互反反应,最终终形成各种种输出的结结果。例如当人们们看到美女女瞳孔会放放大,绝不不是大脑根根据身

53、材比比例进行规规则判断,也也不是将人人生中看过过的所有的的美女都统统计一遍,而而是神经元元从视网膜膜触发到大大脑再回到到瞳孔。在在这个过程程中,其实实很难总结结出每个神神经元对最最终的结果果起到了哪哪些作用,反反正就是起起作用了。于是人们开开始用一个个数学单元元模拟神经经元。这个神经元元有输入,有有输出,输输入和输出出之间通过过一个公式式来表示,输输入根据重重要程度不不同(权重重),影响响着输出。于是将n个个神经元通通过像一张张神经网络络一样连接接在一起。n这个数数字可以很很大很大,所所有的神经经元可以分分成很多列列,每一列列很多个排排列起来。每个神经经元对于输输入的权重重可以都不不相同,从从

54、而每个神神经元的公公式也不相相同。当人人们从这张张网络中输输入一个东东西的时候候,希望输输出一个对对人类来讲讲正确的结结果。例如上面的的例子,输输入一个写写着2的图图片,输出出的列表里里面第二个个数字最大大,其实从从机器来讲讲,它既不不知道输入入的这个图图片写的是是2,也不不知道输出出的这一系系列数字的的意义,没没关系,人人知道意义义就可以了了。正如对对于神经元元来说,他他们既不知知道视网膜膜看到的是是美女,也也不知道瞳瞳孔放大是是为了看的的清楚,反反正看到美美女,瞳孔孔放大了,就就可以了。对于任何一一张神经网网络,谁也也不敢保证证输入是22,输出一一定是第二二个数字最最大,要保保证这个结结果

55、,需要要训练和学学习。毕竟竟看到美女女而瞳孔放放大也是人人类很多年年进化的结结果。学习习的过程就就是,输入入大量的图图片,如果果结果不是是想要的结结果,则进进行调整。如何调整呢呢?就是每每个神经元元的每个权权重都向目目标进行微微调,由于于神经元和和权重实在在是太多了了,所以整整张网络产产生的结果果很难表现现出非此即即彼的结果果,而是向向着结果微微微地进步步,最终能能够达到目目标结果。当然,这些些调整的策策略还是非非常有技巧巧的,需要要算法的高高手来仔细细的调整。正如人类类见到美女女,瞳孔一一开始没有有放大到能能看清楚,于于是美女跟跟别人跑了了,下次学学习的结果果是瞳孔放放大一点点点,而不是是放大鼻孔孔。6没道理但但做得到听起来也没没有那么有有道理,但但的确能做做到,就是是这么任性性!神经网络的的普遍性定定理是这样样说的,假假设某个人人给你某种种复杂奇特特的函数,ff(x):不管这个函函数是什么么样的,总总会确保有有个神经网网络能够对对任何可能能的输入xx,其值ff(x)(或或者某个能能够准确的的近似)是是神经网络络的输出。如果在函数数代表着规规律,也意意味着这个个规律无论论多么奇妙妙,多么不不能理解,都都是能通过过大量的神神经元,通通过大量权权重的调整整,表示出出来的。7人工智能能的经济学学解释这让我想到到了经济学学,于是比比较容易理理解了。我们把每个个神

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论