大数据改变未来继续教育考试94分教学课件_第1页
大数据改变未来继续教育考试94分教学课件_第2页
大数据改变未来继续教育考试94分教学课件_第3页
大数据改变未来继续教育考试94分教学课件_第4页
大数据改变未来继续教育考试94分教学课件_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大数据改变未来 继续教育考试94分课程前言 我们今天就聊聊一个比较热门的话题大数据。这个词啊Big data或者叫大数据,在中国现在真是非常非常的热。有人说它可能是一个泡沫,有人说它可能会改变世界,那么它到底会是什么样子呢?说它是泡沫的一般认为是这样子,就是说我们到目前为止,我们还没有看到,说这个大数据给我们产生多少的GDP,好象很多人也没有发现,就是说它跟我们人类生活到底有多大的相关性,因为亲身生活没有体验到这一点,那么是否真是这样子的话,我们不妨来看看什么是大数据?它真正的可怕之处在哪里?以及有了大数据我们的未来社会未来生活会是什么样子的?一、未来是数据为王的时代 在过去的五十年里,人类整

2、个的发展根本的这个动力从科技的角度来讲,就是一个摩尔定律,什么意思呢?就是在1965年的时候,英特网公司后来的创始人摩尔先生,他提出来在今后的十几年里,半导体处理器的性能,比如说容量、计算速度和复杂程度每18个月左右可以翻一番。他也没有预想到这件事一直发生了五十年。以至于人整个人类发生了天翻地覆的变化。可以这么讲,我们过去的整个的社会的科技进步工业进步以及这个GDP的提升都是靠这个摩尔定律,如果我们把这个摩尔定律带来的电信化从过去五十年中拿去,我们会发现我们可能GDP不但没有增加,而且还在减少。那么这是过去五十年的情况。 在今后二十年它又会往哪儿走呢?在未来的二十年里,什么决定世界经济发展的方

3、向?我认为如果说过去五十年是摩尔定律的时代,未来二十年就是数据为王的时代。 大数据会带来机器智能,也就是说让我们的计算机变得非常聪明,以至于它超过我们人类的智能。为什么这么说呢?我们刚才讲了,计算机的发展速度本身是一个指数增长,而我们人的智能的发展速度是一个线性增长,甚至还会稍微慢一点,那么一定在某一个时间点,它会重合。 今天可能就是这个重合的时间点,那可能你又会问了,为什么正好在这个时间点上,我们会有这么多的数据?一个是互联网的收集和积累,再有一个就是今天各种传感器,各种智能设备,各种监控设备,它们无时无刻地不在为我们提供大量的数据。而在我们过去,因为存储量计算量不够的时候,我们把这些数据都

4、抛弃掉了,不是说这些数据在过去不存在现在存在,只是说我们现在因为半导体事业的发展,我们有能力,有可能来存储和处理这样一些数据。 在讲这个机器智能以前,我们就首先要说说,什么是机器智能?我们都知道1946年人类第一台电子计算机诞生了,名字叫做ENIAC诞生。那台计算机其实计算速度只有一秒钟五千次,大概是你的手机计算速度差不多可能几十万分之一,那么计算机诞生后不久,人类其实就开始考虑,说既然这个计算机计算速度能这么快,它能不能产生一些智能? 所以五十年代初的时候,计算机老祖宗阿兰图灵就提出了一个叫图灵测试的概念。什么意思呢?就是说在屏幕后面,我放一台机器放一个人,然后我们谈一个问题,比如说天为什么

5、是蓝色的?计算机给一个,人给一个,给出的答案让我来判断,说哪一个计算机给的?哪个是人给的?如果我判断不出来,哪个答案是计算机给的或者是人给的,已经能够把这两个答案要混淆起来了,我就认为机器和人一样的智能。人类为这个目标做了20年,这20年的发展非常不顺利,到了1970年基本上计算机还做不了任何具有智能的事情。为什么会产生这样的问题呢?或者说这20年研究为什么会走弯路呢?主要是我们完全地按照人的方式去理解机器,没有完全按机器的方式理解人。 举一个例子,预测美国总统选举结果这么一个例子,比较著名的大家可能听说过盖洛普这样一个预测公司,那么它实际上是用一些传统的抽样的统计方法做一些预测,有时灵,有时

6、不灵。即使正确的时候,基本上误差两到三个百分点,在全国范围预测能准,但是你知道竞选是一个州一个州这么算选票,它不是一人一票制。 所以它从来没有做到过美国50个州全部做对的,到了2012年,有一个毛头小伙子,这个人从来以前没有名,也不是什么了不得的科学家,他就做了一件事儿,他就在互联网上比如社交网络上,比如脸书上推特上,地方的报纸上大家的BBS上等等。凡是他能找到信息的地方,他就把信息都搜集起来,然后他做一次2012年美国总统选举结果的预测,50个州,他全部预测对了。这件事在过去是不敢想象的,从这里头你可以看出当这个数据完备了以后是非常可怕的。二、大数据是一种思维方式 大家不知道有没有注意到这个

7、名字大数据Big data。为什么不叫large data?其实在英语里,它并不是说一开始随机的选这么一个词Big data就这么叫了,在英语里这个Big和Large虽然都是大的意思,但是有一个比较细微的差别,Big这个大是相对抽象一点的一个概念。Big Small大和小是这样子。那Large是体量大,比如我这张桌子很大,我说Large table。大数据所以更重要用big data,实际上它是指一种思维方式,一种抽象的概念。 它不仅仅是讲着我们数据的体量大。 那么既然说到它是一个思维方式,是什么样的思维方式呢?我给大家再举一个例子。你从中学开始到大学,你的老师就会教你说这个因果逻辑这个关系非

8、常重要,为什么呢?因为没有了这个因果逻辑,我们这个推理就进行不下去了。过去说知其然一定要知其所以然。刚才我们就讲了那个美国总统竞选预测的这件事儿,它实际上就告诉了你一个结果,你问他为什么是这样子?是哪个州的人喜欢某个候选人哪句话吗?不是,他说不出这原因。但是它就给了个结果。这就是现在说先有了结论,然后你可能反过来推这些其中的原因。 这是一个完全不同的思维方式。所以叫大数据,是指全新的这么一个思维方式。在2002年到2004年左右的时候,我在一家计算机公司做搜索,那么当时因为数据量变得很大,我们就观察了很多特点,你比如说你搜索了一个关健词,我们就说凤凰卫视大数据,这样一个关健词。用户老不点击第一

9、条结果,老点击第三条结果,这里头就有一个原因,肯定你第一条结果做得不好,第三条结果可能更好。那么你的思维方式是什么样的? 你是否接受说把第一条结果,我直接就搬到第一条去,按我们过去老师教我们的,这个因果关系你是不能这么做的,因为你不能跳过这个推理的过程来做这件事儿,但是大数据的思维告诉你这件事儿是可以做的。但是当我们的脑筋转换成这样的一种思路的时候,我们实际上就是一个开始具有某种大数据的思维,这时候也就是我们在变相的承认,计算机在有一些方面其实比我们因为有数据的作用做的更好。三、大数据对传统行业的帮助 我想说,为什么说大数据这个事这么重要?大数据加上机器智能,它可以把我们以前所有的行业,全部的

10、改造的一遍,或者我换一句话说,就是说所有未来公司,都是某种程度上的大数据公司,我们不妨看两个传统行业的例子。 第一个呢是关于一个意大利一个品牌服装公司的例子,大家知道可能如果你们去一些专卖店,你就会发现它把某一个衣裳,唉,有的放在前面,有的放在后面,这里头可能有一些道理,但是你有说不出什么道理。我和他们这些公司的销售人员做过一些了解,事实上像它们这些大牌的公司,在北京开一家这种专卖店,就是一比一的模型差不多要做三个,才能确定这个店里头的结构怎么布置。哪件衣裳放前头?哪件衣裳放后边更好? 即使如此,这完全靠过去营销人员的经验,也很难检测说,到底这样放合适不合适。有些衣裳放前面,它就是卖不出去,没

11、人知道什么原因。那么这家品牌服装,它做了一件很简单的事情。它就把这个衣裳的背后就是我们放防偷盗墨水那个地方放一个小芯片,如果谁拿了这个衣裳,到试衣间试衣服以后,试衣间再放一个传感器,能记录你什么时候进去的,在那里头试了多长时间这个衣裳,然后它就通过这个数据,就可以提高销售。 为什么呢?因为假设哪件衣裳又放在一个显眼的位置,如果大家不拿进试衣间去试,说明它在设计上肯定这个第一眼看上去就一定有什么一些什么问题。但是呢,如果很多衣裳,经常的拿到试衣间里去试,最后没人买,那可能在这个细节上有一些什么需要改进地方,这样它通过这么一件简单的事情,就能提高销售。这是一个非常传统的行业。 再另外的一个故事呢,

12、也是非常得有意思。在一家百货店,雇了一个学统计学的硕士,也不是什么一个非常大的科学家,就是一个学统计学的硕士。百货店每天有很多交易的数据,以前也不知道怎么办,后来就有了这个移动互联网以后,这个百货店就跟这个顾客讲说以前要给你打一张发票,你呢有时候也就扔掉了,有些时候你为了保存发票也麻烦,要不然你给我一个手机号码或给我一个邮箱,我给你发过去,我寄过去,那很多人就这么登记上了,在这个以前,你到百货店买东西,没人知道是谁买的。 那么,自从他把这个手机和发表联起以来以后,他就知道哪个人什么时候买了什么东西,然后这个硕士生他就做了些统计,就发现这个怀孕的妇女在不同的阶段买的这个产品它其实有一些共性,这就

13、是从大数据分析得到的。比如说一开始怀胎的时候要买比较胖的衣裳,然后后来以后要买宝宝服,要买尿裤、奶嘴等等这样,就基本上所有人都是走这么一个过程。然后呢,他就提前给这些客户发优惠券,这样销售就很有针对性,而且效果不错。我不知道大家有多少人,你们在每天用淘宝用微信支付,其实你相信不相信他们的主人,他们的公司可能比你更知道,下一单交易你会发生在哪里。四、用大数据解决智能问题 计算机到底现在能不能回答问题?你说有了大数据,计算机就有智能了。那到底是不是这样子呢?我们就看刚才那个例子,就是说要回答天为什么是蓝色的这样一个例子,这个是我自己本人做的一个项目,这个问题实际上很多大学,很多科学家花了很长的时间

14、,其实一直也做不出来,计算机回答简单的问题,比如说我们凤凰卫视是哪一年成立的?它的总部在哪儿?这样一些问题,就是说关于具体的一些事实的问题。那这个比较容易。那么难的问题有两种。一种是为什么的问题。一种是怎么做的问题。要回答为什么的问题就要回到我刚才讲说,原来我们中学和大学的老师教你就是叫做因果逻辑,你要回答为什么,你要一些基本的科学知识,然后根据一个个因果关系推导出答案,这是我们过被训练出来这样一个思维方式。 我刚才又讲,计算机来解决这个问题和人是不一样的。那么计算机解决这个问题的话呢,其实我们把它看成一个大数据的问题,很容易做一个测试,你就输入中文天为什么是蓝色的?你在某一个搜索引擎上你就搜

15、索一下子,然后你把那些广告、视频等等这些插入的结果删去,保存十条自然搜索结果,然后你把这十个网页打开,80%的问题,你就能找到你所需要的答案。但是如果你不看这十个网页内容,你只看这十条结果摘要,只有20%到30%的情况,你能找到这个问题答案。这就是过去机器智能和人的智能的大概一个差异。随着计算机处理能力越来越强,这个数据越来越完备。 我们所要做的一件事是什么事儿呢?我们不是根据物理性的原理,不是根据逻辑推理来回答天为什么是蓝色的。我们是把所有可能有这个答案的网页给找着,然后再分析每一句话,看看哪一句话像是这问题的答案,再把这些像是答案的话,重新的组合,重新的交换次序,构成一个段落作为一个回答,

16、然后我们把它送给用户做评测,我们就让他比较说,你觉得这个答案是否满意,那么对于80%的问题,用户说他们觉得这个答案都非常好,也就是说,在80%左右的问题上,这个计算机和人在这个复杂问题上,他们具有了同等智能。所以这就是用大数据解决智能问题的一个方法。 那我们再讲一个具体的例子,就是这个无人驾驶汽车,你可以把它当做一个机器人,说起来这也是一个非常有意思的事情。在2004年的时候,一些经济学家,他们当时就在考虑说,由于计算机变得越来越聪明,有一些问题人原来做的现在都被机器给拿去做了,人看来是变得好像好多工作会越来越丢掉,哪些事儿是人能做机器不能做的呢?他们想来想去就想了开车,为什么想这个呢? 因为

17、有两个原因:一个原因是我们本能地会觉得说这开车是一件蛮难的事,不信你们考车的时候有多少人是好几次才考过的,这个人要眼观六路,耳听八方。然后脑和手脚还要比较协调。2004年在美国还进行了一次无人驾驶汽车的拉力赛,第一名也跑了大概只有十几公里就挂掉了,剩下来的车呢不是提前撞了就是抛锚了,而且开车的速度比爬可能要会稍微快一点,还没有我们骑自行车快,就是这样的一个状态。 所以呢,经济学家信心满满觉得说可能这件事情是机器做不到的,但是就到了2010年,纽约时报的一个报道。那么他就说这个无人驾驶汽车已经在公路上也包括大街小巷也包括高速公路上跑了大概十几万公里快二十万,没有出现一次交通事故,当然出现了一次是

18、后面人撞到它了,不是它撞了别人,因为我们人有时候看到黄灯,本能的是要加速。而那个无人驾驶车,它不懂得违反交通规则,所以它就停在那了。 为什么做到这一点呢?其实可能大家知道,就是互联网公司,各个公司。中国的也好,美国的也好。它们都在做一件事,就是我们叫做扫街也好,把这地图做街景项目也好,无人驾驶汽车这个事,其实是这个街景项目的一个延伸。它能去的地方,是一定它扫过街的地方,它把全世界能够车走到的地方,全扫一遍,这就具备了数据的完备性。那么然后呢,它把这个数据上传,虽然它有几十个传感器在那不断的探测路况,其实它到了某一个点的时候,在前面有没有活动,在某个时间点,然后从什么方向去,路堵还是不堵等等这些

19、情况,平均的时速是多少,它一清二楚。五、大数据重塑未来世界 大家可能已经听说了中国广东,越来越多的工业机器人取代我们人在生产线上工作。甚至中国也出现了第一个完全由机器人操控的一个工厂。可以这么讲,就是说凡是这种简单,看上去要重复的工作,在未来的时代一定是机器做了比我们人更好。这一点是一个趋势,我们想挡可能也挡不住。那么可能还会有一些朋友讲说,没关系,我做的是一些高大上的一些工作,比如说我是当医生的,我是当律师的,那么这些情况会是怎么样。 我们就看具体的一个例子,就是讲讲医生的情况。在美国的医生中,最高大上的医生是放射科的医生,这是被认为是一个专科的医生。这个放射科医生,过去是怎么训练出来的呢?

20、美国是不能直接上医学院的,你一定要本科毕业,四年以后,你申请医学院,如果你非常有幸能够被医学院录取了,你大概再花四年的时间,你能得到医学博士。你可以想想啊,就是两个人,假设说你们原来是大学同班同学,他毕业有工作了,你上了医学院,四年以后呢,他工作像我们在中国发展这么快,可能已经小有成就了。 另外一个人呢,他刚刚的从医学院走出来,然后呢,接下来要做两年的住院医,这时做完住院医了,你还不能当放射科医生,因为这算是技能要求非常高的一个专科医生,那么怎么办呢?还需要两到四年的专科的这个实习,这时年龄你可以算出来有多大了吧?但是呢,有一点你可能很自豪,当你整个这一套流程走完的时候,你可以告诉你的同学,你

21、说最近我拿到了我的第一份工作,不过年薪是五十万美元。这是今天的放射科医生。未来的放射科医生是什么了?就是一个计算机,一个自动做影像识别的一个软件。 那么在很多领域,比如说在癌细胞的识别方面,计算机已经做的比我们有经验的放射科医生做得还好。而且更重要的是,它做东西非常的稳定,你比如人今天早上起的稍微晚一点,开车超速,被警察抓下来,罚了一点钱,你这一天就不高兴,你这一天整个水平就会大大受影响,那么机器是没有问题的。所以即使在像这样高大上的职业里,可能我们人类要慢慢的被机器取代。 未来的这个社会里,到底是人控制社会,还是机器控制着社会呢?我的观点是这样子,就是说利用大数据利用机器智能来为人类服务,这

22、样一些人,说得不好听的在操控世界,说的好听他是在为我们进一步的造福,那我们就看几个正面的例子,这个攻克癌症这件事情,在过去的大概一个多世纪里,一直是人类的一个梦想,但是人类一直做不到这个事情。我们一直想发明一种万能药,就像发明青霉素来治疗肺结核一样万能药,但是这事没有发现,什么一个原因呢? 这个癌细胞它自己本身是在不断的变化的,这我们知道癌细胞本身是正常细胞这么复制,复制错了一个结果。关于癌症的故事都是差不多这么一个过程,就是说有某一个患者用某一种药物,控制得蛮好的,一直都很稳定,突然有一天他突然开始复发了,然后就一发而不可收拾。什么原因呢?就是这个细胞变了,你原来是针对旧的癌细胞,它变成一个

23、新的了。你这药就不管用了,那么有没有办法能够解决这个问题呢?是有的。 假设对于某一个具体的患者,能够有一个专门的团队,就专门围绕他来研制某一种抗癌药,然后他这癌细胞一变,这个团队就跟着他,而且研制速度要很快哦,就来研制这个抗癌药,这种方法他一定就能把这癌治好,只要我们研药的速度比变化要快,这就可以了。这件事情是能做到的,但是成本是多少呢?差不多每一个患者是十亿美元。当然我一说这个,大家会跟我讲,你说了也白说。 这是不可能有人能够支付得起的,那么如果我们用大数据的方法,把各种各样了病例全部的收集起来,把基因的图谱能够解剖的很清楚,把他们共性找到,然后针对某一个人专门研制一种抗癌药,这种时候,大概

24、我们成本能做到多少呢?每个人5000美元,这样就是已经可以每个人负担得起的,所以可以说用这个机器智能还有这大数据,可以给我们人类带来福祉。刚才我讲了,当数据量足够大的时候,我们能找到很多共性、很多特点。然后我们能找到一个很有用的规律。大数据还有一个特点就是说,可以把我们的世界发生的每一件小事,非常精密的来定位出来,来确定下来。 看到一个真实的一个案例,美国有一个创业者,他就要找一个创业题目,为了找这个创业题目,他走访了120多个酒吧,然后他发现一个现象,这个酒吧里了酒差不多四分之一大概有23%给偷喝掉了,什么意思呢?就是假设我是酒吧的酒保,主持人是我的朋友,然后来了以后,我认识她,我说没关系,今天没人知道,我给你倒一杯酒,不要钱了,她

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论