大数据安全专题研究(38张)课件_第1页
大数据安全专题研究(38张)课件_第2页
大数据安全专题研究(38张)课件_第3页
大数据安全专题研究(38张)课件_第4页
大数据安全专题研究(38张)课件_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大数据安全专题研究第1页,共39页。主要内容一、什么是大数据二、大数据的相关技术三、大数据的应用四、大数据安全问题及保护技术五、机遇与挑战第2页,共39页。一、什么是大数据1、大数据的定义2、大数据的特点3、大数据结构类型4、大数据实例5、大数据发展史第3页,共39页。有多大?-数据度量第4页,共39页。 1 B = 一个字符或一粒沙子1 KB = 一个句子或几撮沙子1 MB = 一个20 页的幻灯片演示文稿、一本小书或一大汤勺沙子1 GB = 书架上9 米长的书或者整整一鞋盒子的沙子1 TB = 300 小时的优质视频、美国国会图书馆存储容量的十分之一或者一个操场沙箱1 PB = 35 万张

2、数字照片或者一片1.6 公里长的海滩1 EB = 1999 年全世界生成的信息的一半或上海到香港之间的海滩1 ZB = 无法想象,或者几乎全世界所有的海滩之和。第5页,共39页。大数据(big data),也称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。1、大数据的定义第6页,共39页。 最早将大数据用于IT环境的是知名咨询公司麦肯锡。麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。” “大数

3、据”在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日,却因为近年来互联网和信息行业的发展而引起人们关注。第7页,共39页。2、大数据的特点(4v) Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。第8页,共39页。3、大数据的结构类型第9页,共39页。4、大数据的实例一分钟我们能干些什么呢?!一分钟能产生多少数据呢?! 电子邮件用户发送204,166,677(2亿) 条信息; Google 收到超过2,000,000(200万) 个搜索查询; Facebook 用户分享684,478(68万) 条内容; Twitter 用户发

4、送超过100,000 (10万)条微博; 苹果公司收到大约47,000 (5万)个应用下载; 571 个新网站诞生。第10页,共39页。5、大数据发展史IT科技浪潮第11页,共39页。我们周围到处都是数字信息。(无线电波、电话电路、计算机电缆)三种主要的模拟/数字转换为数据增长提供了动力:用胶片拍摄影像转换为数字拍摄影像、模拟语音转换成为了数字语音、模拟电视转换成为数字电视。2007年是人类创造的信息量有史以来第一次在理论上超过可用存储空间总量的一年。数字信息的增长是因为网络应用的不断增长。约30年前,大部分数据都是结构化的,如今,多媒体技术的普及后,非结构化数据爆炸式增长。第12页,共39页

5、。可视化是引起数字世界急剧膨胀的原因之一。由 于数码相机、数码监控摄像机和数字电视内容的 加速增多,及信息的大量复制趋势,使得数字世界的容量和速度超过之前。个人日常生活的“数字足迹”也大大刺激了数字宇宙的快速增长。通过互联网、电子邮件、移动电话、数码相机和在线信用卡交易等方式,每个人的日常生活都在数字化。大数据快速增长的部分原因归于智能设备的普及,比如传感器和医疗设备,以及智能建筑。非结构化信息的增长部分归功于宽带数据的增长。第13页,共39页。全球数字信息五年间增长了10倍第14页,共39页。大数据与云计算第15页,共39页。二、大数据的相关技术大数据技术框架1234第16页,共39页。分布

6、式文件系统 特点: 支持PB级的大数据集; 提供高可靠、高吞吐率的顺序数据访问; 存储与计算共享节点(存储节点会同时参与应用程序的执行); 使用廉价的硬件(高可扩展性)。 典型的代表: GFS(Google)、HDFS(Hadoop)0第17页,共39页。HDFS-分布式文件系统 采用典型的主从结构的架构设计,实现文件系统元数据和应用数据分离存放。 名字节点:整个集群的主节点,管理元数据,文件访问的控制。 数据节点:从节点,负责来自客户端的读写请求,完成对文件内容的提取和保存。 文件分块,采用一次写多次读的文件访问模式。第18页,共39页。HDFS-分布式文件系统第19页,共39页。MapRe

7、duce MapReduce 计算模型可以说是大数据处理的核心算法。 MapReduce实现了Map和Reduce两个功能。Map把一个函数应用于集合中的所有成员,然后返回一个基于这个处理的结果集。Reduce对结果集进行分类和归纳。 Map()和 Reduce() 两个函数可能会并行运行,即使不是在同一的系统的同一时刻。第20页,共39页。单词计数 给一个巨大的文本,计算单词的个数?!第21页,共39页。单词计数 使用MapReduce求解该问题 定义Map和Reduce函数第22页,共39页。单词计数 使用MapReduce求解该问题 Step 1: 自动对文本进行分割,形成初始的对。第2

8、3页,共39页。单词计数 使用MapReduce求解该问题 Step 2:在分割之后的每一对进行用户定义的Map进行处理,再生成新的对。第24页,共39页。单词计数 使用MapReduce求解该问题 Step 3:对输出的结果集归拢、排序(系统自动完成)。第25页,共39页。单词计数 使用MapReduce求解该问题 Step 4:通过Reduce操作生成最后结果。第26页,共39页。0第27页,共39页。NOSQL特点: 不需要预定义模式(不需要预定义数据模式,预定义表结构,数据每条记录都可能有不同的属性和格式); 无共享(将数据划分后存储在各个本地服务器上); 弹性可扩展(运行时可动态添加

9、删除节点); 分区;异步复制。 第28页,共39页。NOSQL产品分类数据库名称作者列存数据库HbaseHadoopAzure TablesMicrosoftCassandraApacheHypertable开源SimpleDBAmazon文档数据库MongoDB开源CounchDB开源键值存储Redis开源LevelDB开源Berkeley DB开源图数据库Neo4jNeo TechnologiesInfoGridNetMesh Inc0第29页,共39页。三、大数据的应用大数据驱动新应用,应用于各行各业第30页,共39页。应用实例 1、奥巴马的大数据 奥巴马和他的大数据团队拥有海量数据和相

10、应的处理能力,使他在大选中以332票对206票击败了共和党的米特.罗姆尼。 2、Google通过其大数据产品对用户的习惯和爱好进行分析,帮助广告商评估广告活动效率,预估在未来可能存在高达数千亿的市场规模。 3、Yahoo和Thinkmail等利用大数据分析技术来过滤垃圾邮件。第31页,共39页。 4、通过Google检索信息挖掘可以得到流感的传播情况; 5、通过Twitter信息可以预测股票行情; 6、预测犯罪; 7、智能交通。 第32页,共39页。四、大数据安全问题及保护技术1、大数据中的用户隐私保护 大量事实表明,大数据未能妥善处理会对用户的隐私造成极大地侵害。人们面临的威胁并不仅限于个人

11、隐私泄露,还在于基于大数据对人们状态行为的预测。2、大数据的可信性 伪造或刻意制造的数据,错误的数据往导致错误的结论;数据在传播过程中的逐步失真。 密码学中的数字签名、消息鉴别码等技术可以用第33页,共39页。 于验证数据的完整性,但是应用于大数据的真实 性时面临很大困难,源于数据粒度的差异。 3、如何实现大数据访问控制 大数据访问控制的难点在于:难以预设角色,实 现角色划分;难以预知每个角色的实际权限。 4、保护技术 数据发布匿名保护技术、社交网络匿名保护技术、数字水印技术、数据溯源技术、角色挖掘、风险自适应的访问控制。第34页,共39页。 五、机遇与挑战 大数据对当今企业来说,既是绝佳的商

12、机,也是巨大的挑战。 机遇: 数据规模越大,处理的难度也越大,但对其进行挖掘可能得到的价值更大。首先,大数据反映舆情和民意。其次,企业和政府的信息系统每天源源不断产生大量数据。 挑战: 目前,大数据技术的运用仍存在一些困难与挑战体现在四个环节中。第35页,共39页。(1)数据收集 要对来自收集的数据去伪存真,尽可能收集异源异构的数据,必要时还与历史数据对照,多角度验证数据的全面性和可信性。(2)数据存储。要达到低成本、低能耗、高可靠性目标,通常要用到冗余配置、分布化和云计算技术,在存储时要按照一定规则对数据进行分类,通过过滤和去重,减少存储量,同时加入便于日后检索的标签。(3)数据处理。有些行

13、业的数据涉及上百个参数,其复杂性不仅体现在数据样本本身,更体现在多源第36页,共39页。异构、多实体和多空间之间的交互动态性,难以用传统的方法描述与度量,处理的复杂度很大,需要将高维图像等多媒体数据降维后度量与处理,利用上下文关联进行语义分析,从大量动态而且可能是模棱两可的数据中综合信息,并导出可理解的内容。(4)可视化呈现。使结果更直观以便于洞察。目前,尽管计算机智能化有了很大进步,但还只能针对小规模、有结构或类结构的数据进行分析,谈不上深层次的数据挖掘,现有的数据挖掘算法在不同行业中难以通用。 第37页,共39页。Thanks!第38页,共39页。1、不是井里没有水,而是你挖的不够深。不是

14、成功来得慢,而是你努力的不够多。2、孤单一人的时间使自己变得优秀,给来的人一个惊喜,也给自己一个好的交代。3、命运给你一个比别人低的起点是想告诉你,让你用你的一生去奋斗出一个绝地反击的故事,所以有什么理由不努力!4、心中没有过分的贪求,自然苦就少。口里不说多余的话,自然祸就少。腹内的食物能减少,自然病就少。思绪中没有过分欲,自然忧就少。大悲是无泪的,同样大悟无言。缘来尽量要惜,缘尽就放。人生本来就空,对人家笑笑,对自己笑笑,笑着看天下,看日出日落,花谢花开,岂不自在,哪里来的尘埃!5、心情就像衣服,脏了就拿去洗洗,晒晒,阳光自然就会蔓延开来。阳光那么好,何必自寻烦恼,过好每一个当下,一万个美丽

15、的未来抵不过一个温暖的现在。6、无论你正遭遇着什么,你都要从落魄中站起来重振旗鼓,要继续保持热忱,要继续保持微笑,就像从未受伤过一样。7、生命的美丽,永远展现在她的进取之中;就像大树的美丽,是展现在它负势向上高耸入云的蓬勃生机中;像雄鹰的美丽,是展现在它搏风击雨如苍天之魂的翱翔中;像江河的美丽,是展现在它波涛汹涌一泻千里的奔流中。8、有些事,不可避免地发生,阴晴圆缺皆有规律,我们只能坦然地接受;有些事,只要你愿意努力,矢志不渝地付出,就能慢慢改变它的轨迹。9、与其埋怨世界,不如改变自己。管好自己的心,做好自己的事,比什么都强。人生无完美,曲折亦风景。别把失去看得过重,放弃是另一种拥有;不要经常

16、艳羡他人,人做到了,心悟到了,相信属于你的风景就在下一个拐弯处。10、有些事想开了,你就会明白,在世上,你就是你,你痛痛你自己,你累累你自己,就算有人同情你,那又怎样,最后收拾残局的还是要靠你自己。11、人生的某些障碍,你是逃不掉的。与其费尽周折绕过去,不如勇敢地攀登,或许这会铸就你人生的高点。12、有些压力总是得自己扛过去,说出来就成了充满负能量的抱怨。寻求安慰也无济于事,还徒增了别人的烦恼。13、认识到我们的所见所闻都是假象,认识到此生都是虚幻,我们才能真正认识到佛法的真相。钱多了会压死你,你承受得了吗?带,带不走,放,放不下。时时刻刻发悲心,饶益众生为他人。14、梦想总是跑在我的前面。努力追寻它们,为了那一瞬间的同步,这就是动人的生命奇迹。15、懒惰不会让你一下子跌倒,但会在不知不觉中减少你的收获;勤奋也不会让你一夜成功,但会在不知不觉中积累你的成果。人生需要挑战,更需要坚持和勤奋

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论