大数据及信息安全最新技术_第1页
大数据及信息安全最新技术_第2页
大数据及信息安全最新技术_第3页
大数据及信息安全最新技术_第4页
大数据及信息安全最新技术_第5页
已阅读5页,还剩150页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 大数据及信息安全最新技术中国科学技术鬱會焰汇报内容大数据“浪潮汹涌大数据将成为信息时代下一个引爆点人们总是夸张得谈论它时代茧命6更少的人知道应该如何正确去做MPP.MapReduce,GFS,data-mininggrids,cloudbasedinfilearning,sourcing.Learning,。字ure.A/Btesting,associationruleleanaturallangPatternrecogmodelling,regressioni具“大”的数据么“人人都知道,都说好,但究竟是什么J3?有关大数据浪潮的贴切描述大数据的背景意义大数据的背景意义 信息爆炸增长Wha

2、tHappensinanInternetMinute?NewWikipodKjorticlespublishedPandora増5多首歆曲64lHounFmusk厶斗NowTwtHeroccounh20milliioiiPhotovicwi203vk亦/identitytheh$83,000Inqa204millionEmoth“网上一分钟,人间一万年!Facebook:户,雄277,000logins76millionFlickiS?贴30弼纏片XOOOPhotouploodsJJVideoGoogle发生2百万次搜索查18millionScorchquriYouTubre上载32。樽发生1

3、3In202,itwouldtakeyou5yoarsBy2015,thenumberofnetworkeddevicesAndFutureGrowthisStaggeringToday,thenumberofnetworkeddevices.Hoursofvideoupkxxkd反映到数据量上是什么情况?2015年佛用琳时祠才能看完在互联网上一秒内所转的画信息爆炸增长地球上至今总共的数据量:在2006年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据;GB在2011年,这个数字达到了1.8ZBo而有市场研究机构预测:1PB二25。字节1EB二26。字节1ZB二27。字节到20

4、20年,整个世界的数据总量将会增长44倍,达到35.2ZB(1ZB=1O亿TB)!OO如此庞大数据的源头是什么?大数据的背景意义大数据的背景意义普适计算InvisibleComputing感知设备VideoandO-thersensorsStoreInformationUtelationSmartHomeCommunicationsDevicesMobilesDifferentenvironrwfrnts大数据的背景意义物联网体系架构大数据的背景意义物联网体系架构8 8 ServicesStructuralhealthrC=OCF1dlu总monitoringagriculturalcontr

5、olDisasterSurveillanceMilitaryFieldApplications/ServicesU-Healthcare4rracsnrContextmodelinuandmanagementnputingContentsmanantMiddlewarecontentsmanagement酬讪infmanagement通信I營4Internet,Accessetc.-NetworkAccessNetwork、AccessNetworAccessNetworkessGatewayMobileRFID卜Reader/识别感知层fSNGatewaySNGatewaytworksRFI

6、D/SensorNetworksSNiiatewaySource:ETRI大数据的背景意义社交网络承大数据的背景意义社交网络承 大数据的背景意义云计算为支撑大数据的背景意义云计算为支撑 # 大数据大数据的背景:网络互联技术发展、感知设备普及以及物联网架构成熟,并由社交网络承载所引起的信息爆炸。云计算为其提供强大的支撑动力!云计算“蓝蓝的天上白云飘,白云下面数据跑”云计算技术是大数据发展的基础和支撑 大数据的概念和内涵WikipediABigdnta.FromWikipedia,thefreeencyclopediaThisarticleisaboutlargecollectionsofdata

7、.Fortheband,seeBigData(band).Bigdata-1-isthetermforacollectionofdatssetssolargeandcomplexthatitbecomesdifficulttoprocessusingon-handdatabasemanagementtoolsortraditionaldataprocessingapplications.Thechallengesincludecapture,curatiomstorage,工search,sharing,transfer,“大数据:或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到

8、无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。“一一维基百科10TheFreeEncyclopedia大数据的概念和内涵McKinsey&CompanyBox1.Whatdowemeanbybigdata?“Bigdata”referstodatasetswhosesizeisbeyondtheabilityoftypicaldatabasesoftwaretoolstocapture,store,manage,andanalyze.Thisdefinitionisintentionallysubjectiveandincorporatesamovingdefi

9、nitionofhowbigadatasetneedstobeinordertobeconsideredbigdatai.e.,wedonstdefinebigdataintermsofbeinglargerthanacertainnumberofterabytesthousandsofgigabytes).Weassumethat,astechnologyadvancesovertime,thesizeof“大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。尺寸并无主观度量。”麦肯锡 大数据的概念和内涵仅仅是/仆大”:?的是,有时甚至大数据中的小数据如一条微博就具有颠覆

10、性的价值大数据的背景意义矗大数据的特性BigDataisgrowingfast1itructurttdar.dunwrjlIjr*ldutah600厶27zUW5.48。34,000峙WntH.tsvurdrw8zbyM1=1冋维大数据的背景意义大数据的4V特性体量Volume多样性Variety价值密度Value杂大数据的异构和多样性很多不同形式(文本、图像、视频、t无模式或者模式不明显不连贯的语法或句义大量的不相关信息对未来趋势与模式的可预测分析深度复杂分析(机器学习、人工智能(咨询、报告等)智能非结构化数据的超大规模和增长总数据量的8090%比结构化数据增长快10倍到50倍是传统数据仓库

11、的10倍到50倍速度Velocity实时分析而非批量式分析数据输入、处理与丢弃立竿见影而非事后见效大数据的背景意义充满杂质只为粒金海量沙漠大数据研究的科学价值大数据科研属于“数据密集型”的科学发现第四范式Y已故数十年来令天模拟JimGray)数据密集型科学weaexUnaokotxaptc)qjeataanIWvtvZi心33s知gJCtfwtonkvvHar5护”v(bXJM。归肚c2、rt的图灵奖得主吉姆格雷(ScicncoKaradigrru;皿sgiricaJcricA3W0X*5C“PbWV*.RT1u/号尹TdCy42PlWwOSt可亍旬叭#*;CS;心莎5sVKiJY3QanOo

12、rc*).口:.tfFbrikRKWrjwtAtvYr-neEsjaSrtfpys;W5WJ|J*-比007年r曲册耐0:/DvA-(&ntA4-0000-Bo弔鬆0ii;6iiiogHRwWmim*)It临床实验数据分析医疗“大数將”(BigDcdoIB*M24矣怎勢備况TabItUowUUirUhlSiImms)IWlistdrrWIrktdcckkd5lie7nnl(WnleFawwlandRcfM*医疗统筹分析系统AdminImagingEMREmailFileNonClinImeResearch201020112012201320142015*tm*uit:RtB*TlrtUJ3*4

13、nFWH4sifAnn4RMM*mnXi)2WI*7W11280ICL2H11沁*皿l2*RUU*W0X佔ita*9ITJDWWHH祝hMMIMRFR3WIKM3CMI1HJWf-MRMIWajinwa。奶xwnr-i;M第asR4HAMMwElMcIBJi 网络通信与大数据ChinajunicomE国联喲3大运营商加速推进大数据应用的具体举措:2012年底,已经成功将大数据和hadoop技术引入到移动通信用户上网记录集中查询与分析支撑系统。已新增100亿投资重庆大数据计划,显现了其发展大数据,转型自身业务的决心信息成为企业战略资产,基于大数据的商业智能应用将为运营商带来巨大的机遇已提出篁智慧

14、城市“发展战略,其中很重要的技术结合点就是物联网和大数据。“流量经营方面,从“话务经营”向“流量经营转型,结合大数据技术,将深入发掘移动互联的商机网络空间安全与大数据大数据在处理网络空间安全问题上具有先天优势:I:lJ或胁卡巴斯基等大众安全公司核心技术将主机恶意软件作为实体对象,通过对恶意软件行为孑MITRE公百真正可靠的安全保障必须与大数据时代发展同步斯喏登羯露旳校現项曰将“人”作为实体,通过分析人在网络空间中的多跳信息交换行为,聚类分析得到可疑分子v美军正推进X计划项目网络空间所有物理与虚拟实体(包括人、路由器、服务器、终端、业务系统、软件工具)作为研究对象,以网络地图的方式实现网络空间态

15、势感知,服务于网络攻防作战能源与大数据能源与大数据 能源行业数据特征能源行业面临的大数据问题能源勘探开发数据的类型众多,不同类型数据包含的信息各具特点,综合各种数据所包含的信息才能得出地下真实的地质状况。能源行业企业对大数据产品和解决方案的需求集中体现在:可扩展存储、高带宽、可处理不同格式数据的分析方案。 汇报内容大数据关键技术体系结构化半结构化非结构化应用/“PP分布式文件系统、数据库2、存储管理甲计算系统3、计O算模式6、隐私和安全大数据采集方法结构化日志采集非结构化数据采集其他数据采集Ml虹MV.*林m*卜tcI.*vmraiqmiiitt)trtIKH!HlleMtntto.9htni

16、sm很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,如Hadoop的Chukwa,Cloudera的Flume,Facebook的Scribe等均采用分布式架构,能满足每秒数百MB的日志数据采集和传输需求SourceWebsites网络数据采集是指通过网络爬虫或网站公开API等方式从网站上获取数据信息。该方法可将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储对于企业生产经营数据或学科研究数据等保密性要求较高的数据,可以通过与企业或研究机构合作、使用特定系统接口等相关方式采集数据大数据预处理方法数据抽取主要完成对已采集数据的抽取、清洗等操作因采集数

17、据具有多种结构和类型,数据抽取可将这些复杂的数据转化为单一的或者便于处理的构型,以达到快速分析处理的目的一厂f数据清洗对于大数据,并不全是有价值的(无或错误干扰项),需清洗“去噪”从数据。匕!2?处理海量数据时,如纭预处果不酬纯地花速度、为随后的数据管理和分析挖掘提供良好支撑!大数据存储管理关键技术分布式文件系统分布式文件存储系统需满足容错性和高吞吐量。代表技术为.GooHDFSArchitecture应用程片GFS客户#MetadataopsNamenodeMetadata(Name,replicas,):/home/foo/data,3,CiantBlock.opsRe初Datanodes

18、DatanodesReplicationCientRack1WtiteRack2数据信息控制信息Blocks采用三请求委型远仃g,从节点则员贡存储致聒。肖用尸访冋致聒时,与主节点交互的只有指令,并根据主节点返回的数据存储位置,直接与存储节点交互获得数据,避免主节点出现瓶颈。艮据数据规模和吞吐量的增长需求对传统的关系型数据库管理系统在并行处理,事务特性的保证,互联协议的实现,资源管理以及容错等各个方面带来了很多挑战去除关系数据库的关系型特性,采用NoSQL(NotOnlySQL)以及NewSQL数据库,简化了数据昆结构,便于对数据和系统架构进行扩展。0通过放松对事务ACID语义的方法来增加工作原

19、理:先分后合。Map即“分解”,把海量数据分割成若干部分,分给多台处理器并行处理;Reduce即“合并,把各台处理器处理后的结果进行汇总操作以得到最终结果。 入姒価刀羽K雄仅小深度学习(DeepLearningAsimpleneuralnetworkinputhiddenoutputFullyconnectwdlayerlayerlayerConvolutionoooooF6(Output)64x6432x32OL2128x128LI256x256LO(Input)512x512深层神经曙各(2006)简单浅层神经网络(1980)为何沉寂了20多年?最主要原因:计算能力支持(深层)深度学习的概

20、念源于人工神经网络的研究。含多隐层的多一种深度学习结构。通过组合低层特征形成更加抽象的賈别或特征,以发现数据的分布式特征表示。充分利用大量:,有效挖掘数据中的层级特征,具有更强的表征能力,尤像、语音等有大量的非标记数据而又非常抽象的领域。深度学习(DeepLearningGoogleBrain项目HowManyComputerstoIdentifyaCat?16,000-NewYorkTime,Jun,2012处理器:16,000个神经网络:亿个连接训练数据:10M图像方法:深度学习-多层神经网络(NN)-无人监管的数据成功的让机器从大量的图片中学到了猫的感念,且将这种毛茸茸的小动物与单词ca

21、t联系到了一起,可以自行鉴别什么样的事物是cat入姒価刀羽K雄仅小深度学习(DeepLearning2012年6月,纽约时报披露了GoogleBrain项目,吸引了公众的广泛关注。2012年11月,微软在中国天津的一次活动上公开演示了一个全自动的同声传译系统2013年1月,李彦宏高调宣布成立百度研究院,其中第一个就是“深度学习研究所大数据可视化关键技术大数据可视化关键技术主要包括:科学大规模数据的并行可视化,包括数据流线化,任务并行化,管道并行化和数据并行化并行可视化体量可视化充分结合大规模的网络数据的节点之间的相互联系,设计图的排布算法,直观有效体现基于维度压缩、平行坐标等可视化手段,提供一

22、些子空间选择,用户根据分析需要进行交互图形硬件提大数据隐私与安全Cookie时空的定位彳、所在地点通过I啣cookie线索,找到的是存在于虚拟世界口的叽器活动轨迹单一身份I社交链条的艇通过社交和移动应用留下的我索找到的是实实右在的作“0门theInternet,noboyoureadog纽约1993年7月5日刊登的一则由彼彳在大数据施泰纳(PeterSteiner)创作於ws是这样吗大数据时代:手机、社交网络葺我的隐私和安全去哪儿了?大数据来源可两个维度对人i大数据隐私与安全关键技术大数据隐私与安全关键技术 large-scalep/obfemstosolveDatadataandresult

23、privacy,resultintegrity,computationalsavingsResultRobustcomputingpowerK加密保护技术:保证数据的真实性,可逆性和无损性,女口SMC模型,差分隐私等。但是该技术的计算开销很大,对大数据的支持不大适用FileattributesIDUMMY|Iliness:diabetes,fever.Hospital:A,B,CSex:MalerFemaleRace:Asian,Black,White1映忘叩UserdiabetesHospital:A;access;:structure:2、文件访问控制技术:通过文件访问控制来限制呈现对数据

24、的操作,在一定程度解决数据安全问题Torn,pitalshopAlicecmnpilIhdspitalhpspitalI(b)BIOSCRTMmeasure6pm1=32ptn1=26pm1=2OperatingSystemTj1=3护观2pm91=2:8amL1=2JuryTom(fake)Alicci厂shop-Boot-loader3、匿名化保护技术:适用于各类数据和众多应用,算法通用性高,能保证发布数据的真实性,实现简单,如聚类、k-anonymity,1-diversity等,匿名化过程不可逆,本质上是损失数据精度和数据隐私的折中。4、可信计算(Trustedcomputing)技术

25、:通用于各类数据和众多应用,在计算和通信系统中广泛使用基于硬件安全模块(可信根)支持下的可信计算平台,以提高系统整体的安全性。 大数据发展趋势5CCF大数据专家委员会专家调研结果发布,预测也年大数据发展趋势:-r 大数据发展趋势十大趋势预测核心技术方面技术生态方面产业生态方面2013年度预测2014年度预测4.基于大数据的智能的出现5大数据分析的革命性方法2.大数据的隐私问题突出大数据安全数据科学兴起3.大数据安全与隐私9.数据科学的兴起1.数据的资源化3.大姗与却十算等深数据共享联盟大数据新职业x更大的数据2.大数据架构的多样化模式并存4大数据分析与可视化基于大数据的推荐与预测流行.深度学习

26、与大数据智能成为支撑1大数据从“概念走向价值大数据产业成为战略性产业+数据商品化与数据共享联盟化10大数据生态环境逐步完善丁支撑大数据发展趋势1x网络大数据;2、金融大数据;3、健康医疗大数据;4、企业大数据;5、政府管理大数据;6、安全大数据)K大数据学习与挖掘;2、分布式计算架构;3、实时计算;4、大数据分析与可视化汇报内容背景背景 “果园行动”一一以色列轰炸叙利亚核设施2007年以色列导弹袭击叙利亚时,叙利亚的防御雷达系统并没有做出必要的预警,科学家分析其原因是由于叙利亚雷达系统使用的商业芯片在制造过程中被植入了的“木马”或者“后门”这些芯片收到攻击者发送的预设代码,其正常的功能会被破坏

27、或停止,导致雷达失效2014美国国安局“量子”项目一一电脑不联网也可被监控-可以通过数据采集节点-对安装特定芯片的电脑进行数据收集这些芯片的硬件电路中存在木马或者后门,集成电路芯片中的这些恶意电路可以绕过系统软件的安全防御和用户的设防,进行“电子间谍”传统赖以依托的“物理隔离安全”也毫无安全可言攻击方式设计和生产过程中植入木马或后门修改原电路行为或直接添加恶意电路现阶段的问题传统的芯片功能验证、测试方法根本无法检测恶意电路传统的集成电路设计流程和方法学也无相应设计安全的措施和手段保障系统功能出错、失效disableorremoveanynewlyInstalledhaiebiosmemoryo

28、ptionssuchascachlngorshsafeModetoremoveordisablecomponentsfissF8toselectAdvancedstartupoptions,an(1on:DI(0 x0100000090 x00000002,0 x00000000.0 x8A27F-Address8A27FD3Fbaseat8A224000,Datestrcrashdumpforcrashdumpphysicalmemory,memorytodisk:100mpcomplete.泄露秘密使系统安全形同虚设、陷于完全暴露的境地,可造成国家安全和政治安全的巨大损失背景背景 卫星失控

29、背景背景 # 飞机坠毁背景背景通讯网络瘫痪Jfc针对芯片的各种外部攻击手段,如电磁攻击、测试扫描攻击、失效攻击等,会破坏芯片正常功能,造成关键应用的故障和巨大损失 可信芯片可信芯片(TrustedIC)的诞生即不能多也不能少芯片安全保护技术芯片设计和制造的可信保障芯片设计制造整个流程中,原始设计感染恶意电路或者遭到恶意修改的机会非常多,如何保障如此长流程、多参与者的芯片设计生产过程的既不能多也不能少的可信性,同时不能明显改变传统设计流程以保证可用性,是一个极具挑战的全新问题。不能少:功能完备,无缺陷;不能多:杜绝额外冗余,避免木马.后门等芯片安全保护技术可信芯片的身份认证芯片身份认证:通过对芯

30、片唯一标识的查看和追溯,实现对芯片来源、功用和合法性等方面进行检查和确认。在电子系统中芯片的身份合法性和可信性认证,确保了正在使用的芯片不是被仿制和篡改的芯片,是安全信任的基础保障。通常把身份信息存储于芯片的非易失性存储器中,认证时对比芯片的身份信息。另夕卜还有一些其它手段如水印、指纹等技术。芯片知识产权的有效保护经济:设计和制造成本高,经济价值可观。每年因为芯片知识产权侵害造成的经济损失高达2500亿美金,损失75万个工作岗位。家和国防安全的威胁。防护方法主要从两个方面入手,即芯片安全保护技术更重要的是对芯片安全和可信的危害,对以此为基础的信息系统安全的危害,对国1)对芯片逻辑设计和物理版图

31、的保护2)对芯片产品的授权保护对设计和版图的保护主要针对逆向设计和设计资料外泄,通过混淆、加密等方法;对授权保护,主要基于加密认证、水印指纹等方式。国外芯片安全技术现状美国美国自然科学基金委美国国防咅B4N養帀氏*LK主要集中硏究抵抗可信性攻击的方法学、规范匚、丄9000万以及关键技术,提高芯片从生产到流通全过程的安全。积极从传统的软件、通信安全领域由芯片安全领域聚焦/匸开究硬祥安全的各种攻击技术(如旁路侦听、时钟攻击等)和防护技术(物理不可克隆函数、混淆等)。奥大利亚国内芯片安全技术现状自主芯片设计和制造能力相对较弱芯片安全技术硏究更处于基本空白和起步阶段极立/被奉信赖安全金科玉律O仅确保底层的芯片安全,信息安全大厦(信息系统

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论