大数据时代的智能信息处理_第1页
大数据时代的智能信息处理_第2页
大数据时代的智能信息处理_第3页
大数据时代的智能信息处理_第4页
大数据时代的智能信息处理_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据时代的智能信息处理王斌中国科学院信息工程研究所智能信息处理实验室&信息内容安全技术国家工程实验室

自我介绍王斌博士,研究员,博导,主要研究方向为信息检索、自然语言处理与数据挖掘主持973、863、自然科学基金等课题20余项发表学术论文120余篇,引用3000多次,获得授权专利8项,多个实际系统上线应用译著4本:《信息检索导论》、《大数据:互联网大规模数据挖掘与分布式处理》、《机器学习实战》、《Mahout实战》中国中国信息学会理事、信息检索专委会委员中国计算机学会高级会员、中文信息处理专委会委员《中文信息学报》编委、SIGIR/ACL/CIKM等国际顶级会议的程序委员会委员国家科技进步及北京市科技二等奖各1项所授《现代信息检索》课程获得中国科学院大学全国优秀课程(5%)已毕业博士生11名,硕士生20余名联系方式:目录大数据的基本知识大数据时代的智能信息处理小结大数据的发展历史随着计算机和网络的发展,信息不断爆炸1970s:超大规模数据库(VLDB)【GB=109字节】21世纪初:海量数据(massivedata)【TB=1012字节】2008年:Bigdata【PB=1015字节】现在实际的数据量已经达到:ZB=103EB=106PB=1021字节2008年9月4日《自然》(Nature)刊登了一个名为“BigData”的专辑2011年5月,McKinsey发布《大数据:创新、竞争和生产力的下一个前沿》的报告,首次提出了大数据概念,认为数据已经成为经济社会发展的重要推动力。大数据的发展历史2013年3月29日,美国奥巴马政府宣布推出“大数据研究和发展计划”(

BigDataResearchandDevelopmentInitiative),有人将其比之为克林顿政府当年提出的“信息高速公路”计划。该计划涉及美国国家科学基金会、卫生研究院、能源部、国防部等6个联邦政府部门,投资超两亿美元,研发收集、组织和分析大数据的工具及技术。大数据的发展历史2012年7月日本推出“新ICT战略研究计划”,在新一轮IT振兴计划中日本政府把大数据发展作为国家层面战略提出。这是日本新启动的2011年大地震一度搁置的政府ICT战略研究。英国政府也宣称投资6亿英镑科学资金,并计划在未来两年内在大数据和节能计算研究投资1.89亿英镑。政府把大量的资金投入到计算基础设施,用以捕捉并分析通过开放式数据革命获得的数据流,带动企业投入更多的资金。大数据的发展历史2012年3月,我国科技部发布的“十二五国家科技计划信息技术领域2013年度备选项目征集指南”把大数据研究列在首位。2013年3月国家自然基金委在上海举行规模浩大的“大数据双清论坛”。中国分别举办了第一届(2011年)和第二届(2012年)“大数据世界论坛”。IT时代周刊等举办了“大数据2012论坛”,中国计算机学会举办了“CNCC2012大数据论坛”。国家自然科学基金委,2014年立项重点和重大项目“大数据技术和应用中的挑战性科学问题”研究,拟从10个方向中选择资助8个重点项目。国家科技部,863计划信息技术领域2015年备选项目包括超级计算机、大数据、云计算、信息安全、第五代移动通信系统(5G)等。大数据的发展历史大数据的发展历史传统IT巨头(IBM、微软、惠普、Oracle等)通过“硬件+软件+数据”整合平台,向用户提供大数据完备的基础设施和服务,实现“处理-存储-网络设备-软件-应用”,即所谓“大数据一体机”。通过并购大数据分析企业,迅速增强大数据分析实力和扩展市场份额。商务智能厂商(SAS,Teradata等)长期专注行业(银行、电信等)智能数据分析,技术实力强,产品线丰富,行业业务精。在大数据时代,这些厂商在原有结构化数据处理的同时,开始加大在可扩展计算、内存计算、库内分析、实时流处理和非结构化数据处理等方面的投入。这些厂商凭借在以往数据建模和分析方面的长期积累,虽处于行业领导地位,但面临大数据,它们的诸多产品性能仍跟不上大数据的需求。互联网公司(Google、Facebook、阿里巴巴、百度、腾讯等)这些公司基于自身应用平台、庞大的用户群、海量用户信息以及互联网处理平台,可提供精确营销、个性化推介等商务活动。在大数据时代,催生了大数据分布式处理软件框架Hadoop:包括分布式文件系统HDFS,并行编程框架Map-Reduce,数据仓库工具Hive和大数据分析平台Pig等。大数据的特点互联网一分钟,From,July2013Google执行200万次搜索互联网上发送邮件2.04亿有27.8万个“Tweets”诞生亚马逊销售8.3万美元商品Flickr图片浏览2000万次,Instagram分享21.6万张图片…….大数据的四个VVolume(AmountofData):大容量

(主要体现数据存储量大和计算量大)Velocity(SpeedofDatain&out):快速率

(主要指数据更新、增长速度快,数据存储、传输、处理速度快)Variety(RangeofDataTypes&Sources):多样性

(包括结构化的原数据库表格数据和半结构化、非结构化的文本、视频、图像等信息)Value(UsefulnessofData):高价值

(大海捞针,“在大数据困难面前,不被利用就是成本”)大数据的魅力----地震探测日本是个地震高发国家,发生地震后越早探测到地震就能挽救更多的生命和财产。日本也是一个Twitter使用十分流行的国家。每年日本政府都投入巨资部署大量感应器(sensor)来监测地震,JapanMeteorologicalAgency(JMA,日本气象局)会在地震发生后提供警报日本东京大学的几名计算机科学家设计实现了一个基于Twitter的地震探测警报发布系统用户作为感应器(Sensor)Twitter作为信号传输网络TakeshiSakaki,MakotoOkazaki,YutakaMatsuo,EarthquakeShakesTwitterUsers:Real-timeEventDetectionbySocialSensors,inProceedingsofWWW2010大数据的魅力----地震探测实验结果,该系统对地震的探测预警比JMA要早3-8分钟利用Twitter还可以探测孕妇情绪、监测哮喘、预测股市、预测收视率等等Twitter宣称可以开放全部数据为科学家研究所用大数据的魅力----地震探测大数据的魅力----疾病爆发预测2009年出现了一种称为甲型H1N1的新流感病毒,在短短几周内迅速传播开来,全球的公共卫生机构都担心一场致命的流行病即将来袭。传统的做法会使得信息滞后,而滞后两周对一种飞速传播的疾病是致命的,它使得公共卫生机构在疫情爆发的关键时期难以有效发挥作用。这种流感爆发的几周前,Google的工程师在《自然》杂志发表引人注目的论文,令公共卫生官员和计算机科学家感到震惊。因为文章不仅预测了流感在全美的传播,而且具体到特定的地区和州Google是通过观察人们在网上的搜索记录来完成这个预测的,这种方法以前一直是被忽略的Google保存了多年来所有的搜索记录,每天有来自全球30亿条搜索指令(仅Google有这样的数据资源),如此庞大数据资源足以支撑和帮助它完成这项工作JeremyGinsberg,MatthewH.Mohebbi,RajanS.Patel,LynnetteBrammer,MarkS.Smolinski

&LarryBrilliant。Detectinginfluenzaepidemicsusingsearchenginequerydata,Nature

457,1012-1014,2009大数据的魅力----疾病爆发预测原理:现在大家都有上网搜索信息的习惯,连头痛感冒也上网搜索,Google流感趋势项目通过记录搜索有关“流感”词条的地区和频率,并分析其与流感在时间和空间上的传播之间的联系,追踪到流感广泛传播的地区,进而预测流感可能爆发的高危地区。即当某地区在网上搜寻与流感有关信息的人日益增多,很可能意味着该地区有许多人患上流感类疾病因为流感趋势项目能够近乎实时地估计流感活动情况,故它比其他系统能够更早地发现流感疫情大数据的魅力----疾病爆发预测Google把5000万条美国人最频繁检索的词条与疾控中心在2003年到2008年间季节性流感传播期间的数据进行比较,以确定相关检索词条,并总共处理了4.5亿个不同的数学模型在把得出的预测与2007年和2008年美国疾控中心记录的实际流感病例进行对比后,筛选了45条检索词条的组合,并把它们用于一个特定的数学模型后,其预测与官方数据相关性高达97%因此当2009年甲型H1N1流感爆发时,与滞后的官方数据相比,Google成为一个更有效及时的指示者利用Google搜索日志还可以探测热点事件、发现罪犯、购物意图分析等等。大数据的魅力----疾病爆发预测大数据的魅力----小结日本地震的例子:国家安全Google流感预测的例子:社会稳定大数据会在多个行业领域都有重要影响,大数据的魅力无处不在……互联网大数据地理交通大数据社交大数据金融大数据生物大数据医疗大数据2023/5/6数据库研究所25目录大数据的基本知识大数据时代的智能信息处理小结智能信息处理(IIP)数据信息知识:利用自然语言处理、信息检索、数据挖掘、机器学习等技术,从数据中获得有价值的信息和知识典型应用搜索引擎:Google、百度等智能问答:微软小冰、苹果Siri、IBMWatson典型应用机器翻译:Google翻译、百度翻译典型应用情报分析典型应用舆情分析:对事件或产品的态度、看法进行收集和分析典型应用大数据给IIP带来的机遇----机器翻译2000年以前,机器翻译以基于规则的方法为主(If….Then…Else)2000年以后,统计机器翻译开始占据主流近年来,NIST评测中排名靠前的都是统计机器翻译系统大数据是提高统计机器翻译效果的关键统计机器翻译依赖大数据SP(S)P(T|S)TDeepQA2011年2月,IBM开发的DeepQA系统Watson系统参加美国电视智力节目Jeopardy!,大比分战胜了两位最厉害的两位人类选手2011年,苹果推出个人语音助手Siri2014年5月,微软推出小冰机器人这些系统中的核心是大数据分析技术DeepQA的核心是大数据深度学习2011年IJCNN交通标志识别及迁移学习评测获得第一名2012年6月,媒体披露GoogleBrain项目微软基于深度学习的语音识别系统在Switchboard标准数据集识别的错误率比已有的最低错误率降低了33%Google研究院利用深度学习在ImageNet数据集上得到的分类准确率比当前最好的结果提高了70%深度学习离不开大数据2011年,Google研究人员将1000万张静态图像输入由1000台计算机构成的网络,利用深度学习训练3天,可以识别猫大数据使得智能信息处理的很多方向起死回生,大数据使得原来的一些不可能变成可能。那么大数据智能信息处理中的挑战或需要注意的问题是什么?慎用大数据一篇发表在Science上的研究称,自从2011年8月以来,Google流感趋势在108周的时间里有100周出了错。Google从来没有披露过他们是采用哪些搜索关键词来追踪流感信息的。而事实上,以“流感”为关键词进行搜索的用户,实际上并一定代表他们得了流感。去医院看流感的人中,高达80%~90%比例的人实际上并没有得流感,他们在Google上的搜索行为并不能作为可靠的信息来源。Google流感趋势推出已经长达六年,但是他们仍然没有办法替代传统的流感监测模式。不要迷信大数据有困难,找警察Difficulttofindthepolice数据量增加到一定阶段,数据的增长对机器翻译效果的促进作用不再明显需要开发新的算法,有效利用大数据对于机器翻译而言,统计+规则是必然选择规则vs.统计统计方法占了主导地位,目前取得重大进展的统计机器翻译、语音识别等领域以统计方法为主。但是大部分统计方法都是“黑盒子”,另一方面数据的增长不会一直带来性能的高速增长另一个事实,Google搜索引擎是以规则为主的应用!如何获得数据数据分成未加工数据+加工(标注)后的数据如何获得加工后的数据至关重要人工标注:不可扩展,7万网页=¥200万,700万=?万自动标注:精度问题利用隐式标注:搜索中用户的点击、鼠标等行为,精度问题众包法众包的例子----Google图片标注图片的标注是一个难题

2006年,CMU的LuisVon

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论