大数据(老师复习提到的)_第1页
大数据(老师复习提到的)_第2页
大数据(老师复习提到的)_第3页
大数据(老师复习提到的)_第4页
大数据(老师复习提到的)_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章大数据概论1.大数据的基本概念:大数据(BigData),数量极其庞大的数据资料。通俗地讲大数据就是貌似毫无意义,但存在着的数据,其中包括结构化,半结构化和非结构化的所有数据。经过处理后的大数据就是大数据信息。1ZB=1024EB=1024PB=1024TB=1024GB2.大数据的数据来源:管理信息系统,网络信息系统,物联网络系统,科学实验系统3、生产数据的三个阶段:被动式生成数据(数据库技术),主动式生成数据,感知式生成数据4、大数据的特点传统方式大数据时代数据产生方式被动采集数据主动生成数据数据采集密度采样密度较低,采样数据有限利用大数据平台,可对需要分析的事件的数据进行密集采样,精确获取事件全局数据数据源获取较为孤立,不同数据源之间的数据整合难度较大利用大数据技术,通过分布式技术、分布式文件系统、分布式数据库等技术对多个数据源获取的数据进行整合处理。数据处理方式大多采用离线处理方式,对生成的数据集中分析处理,不对实时产生的数据进行分析。较大的数据源、响应时间要求低的应用可以采取批处理方式集中计算;对于响应时间要求高的实时数据处理采用流处理的方式进行实时计算,并通过对历史数据的分析进行预测分析 5、大数据的特性(四V一O):Volume,Variety,Value,Velocity,On-Line6、大数据时代的数据格式特性:结构化信息(数据库,联机事务处理系统(OLTP0),可排序和查询),半结构化信息(XML、HTML,电子邮件,网络上的信息,数据结构和内容混杂在一起),非结构化信息(文档、图片、视频/音频,映射数据,可感知的形式中,其庞大规模和复杂性需要高级分析工具来创建或利用一种易于人们感知和交互的结构)7、大数据的应用领域:医疗记录,天文学,生物、基因组学,军事侦察,社会网络、数据。。。8、主要的大数据处理系统;数据查询分析计算系统,批处理系统,,流式计算系统,迭代计算系统,图计算系统,内存计算系统9、大数据处理的基本流程:数据抽取与集成,,数据分析(核心),数据解释10、大数据三个重要的技术问题利用信息技术等手段处理非结构化和半结构化数据探索大数据复杂性、不确定性特征描述的方法及大数据的系统建模数据异构性与决策异构性的关系对大数据知识发现与管理决策的影响11、几个典型大数据技术应用平台(典型工具):Hadoop:分布式文件系统(HDFS),实现和分布式计算框架(MapReduce)HPCC:高性能计算与通信Storm:开源软件,分布式的、容错的实时计算系统,处理庞大的数据流实时分析,在线机器学习,不停顿计算,分布式RPC(RemoteProcedureCall,远程过程调用ApacheDrillRapidMiner12、大数据技术构架13、大数据整体技术:数据采集、数据存取、基础架构、数据处理、统计分析、数据挖掘、模型预测和结果呈现等大数据关键技术:大数据采集、大数据预处理、大数据存储及管理、开发大数据安全大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)14、大数据未来发展趋势:数据资源化,数据科学和数据联盟的成立,大数据隐私和安全问题(结合专业知识及翻转课堂过程中的资料论述)第二章大数据的采集与预处理1.2.数据采集DAQ3.数据采集系统:用于数据采集的成套设备(DAS,包括硬件部分和软件部分,硬件部分又分为模拟部分和数字部分流程:采集传感器-模拟信号-数字信号-计算机-显示或打印目标和特点:精度和速度,实现动态测试3.临床试验电子数据采集系统(EDC)通过互联网从试验中心直接远程收集临床试验数据的一种数据采集系统。(在国内应用较少)基本功能:数据录入数据导出,试验设计,编辑检查,操作痕迹,系统安全,在线交流,医学编码,支持多语优点:提高了临床研究的效率,缩短了临床研究周期通过逻辑检验和录入数据检查提高了数据质量对研究质量的监测更加方便对临床研究的影响:改变了传统意义上的数据管理模式,EDC的应用是临床研究的必然趋势,加快新药研发和上市的进度。4.大数据采集的数据来源:结构化数据(数据库);半结构化和非结构化数据(90%)信息数据采集需要考虑:采集量,采集速度,采集范围商业数据:企业ERP互联网数据:社交网络数据,Facebook,Google传感器数据:物联网5.大数据采集的技术方法:系统日志采集方法,.网络数据采集方法(对非结构化,网络爬虫或网站公开API)其他数据采集方法:保密性要求较高的数据,可以通过与企业或研究机构合作,使用特定系统接口等相关方式采集数据。6.大数据处理:抽取(复杂数据转化为单一),清洗(去噪)7.大数据集成:大量不同类型的数据原封不动的保存在原地,而将处理过程适当的分配给这些数据;问题:数据转换、数据的迁移、组织内部的数据移动、从非结构化数据中抽取信息和将数据处理移动到数据端第3章大数据建模(简单了解每种建模原理,能区别实例的理论原理)第三章大数据建模1.数据建模的定义建模就是建立模型,就是为了理解事物而对事物做出的一种抽象,是对事物的一种无歧义的书面描述。如数学建模,统计建模,数据挖掘建模,大数据建模2、数据模型之间的关系:相互联系,相互区别3.经典大数据建模常用的技术方法:分类(医疗诊断、信用卡的信用分级、图像模式识别)、回归分析(预测与控制)、聚类(市场分析)、关联规则(金融行业、企业中以预测客户的需求)、神经网络方法(生物信号的检测与自动分析、医学专家系统)、Web数据挖掘4.大数据分析模式分类:根据实时性:可分为在线分析和离线分析根据数据规模:可分为内存级、BI级和海量级根据算法复杂度的分类:分为时间复杂度和空间复杂度两类5.大数据建模流程:模型建立、模型训练、模型验证和模型预测四个步骤数据建模应遵循的9个定律:目标律,知识律,准备律,试验律,模式律,洞察律,预测律,价值律,变化律6.大数据建模应用案例:百度疾病预测系统,临床决策支持系统第四章数据可视化应用1.数据可视化的目的就是将隐藏在数据背后的、特别重要的信息以讲故事的方式分享给用户。数据可视化主要旨在借助于图形化手段,清晰有效地传达与沟通信息。2.数据可视化技术:交互性,多维性,可视性3.数据可视化流程:4.数据可视化过程:将事物图形化,将事物的数值图形化,将事物的关系图形化,将时间和空间可视化,将数据进行概念转换,让图表“动”起来第5章Hadoop概论1.Hadoop平台以HDFS(HadoopDistributedFileSystem,Hadoop分布式文件系统)、MapReduce(GoogleMapReduce的开源实现)、Common、YARN等模块为核心,为用户提供了细节透明的系统底层分布式基础架构。用户可以利用Hadoop轻松地组织计算机资源,搭建自己的分布式计算平台,并且可以充分利用集群的计算和存储能力,完成海量数据的处理。2.Hadoop优点:可扩展,低成本,高效率,可靠3.Hadoop结构简介:3.1HDFS:,Namenode(主服务器),Datanode(管理存储的数据),Client(获取文件)3.2MapReduce:映射、简化编程:Map-分解,Reduce-结果汇报第6章HDFS、MapReduce和Common概论(老师直接跳过了)第七章NoSQL技术介绍。1.NoSQL管理:包括大数据的一致性策略、大数据的分区与放置策略、大数据的复制与容错技术以及大数据的压缩和缓存技术等。2.分布式系统的CAP理论是构建NoSQL数据管理的基石。CAP,即Consistency(一致性)、Availability(可用性)和PartitionTolerance(分区容错性)3.数据分区:“化整为零”,通过一定的规则将超大型表分割成若干个小块分别处理。4.数据分区技术:范围分区,列表分区,哈希分区5.数据放置策略:1)顺序放置策略:将各个存储节点看成是逻辑有序的,在对数据副本进行分配时先将同一数据的所有副本编号,然后采用一定的映射方式将各个副本放置到对应序号的节点上2)随机放置策略:通常是基于某一哈希函数来实现对数据的放置的,所以这里所谓的“随机”其实也是有规律的,很多时候被称为“伪随机放置策略”6.系统故障类型故障类型故障子类故障语义崩溃故障失忆型崩溃服务器崩溃(停机),但停机前工作正常服务器只能从初始状态,遗忘了崩溃前的状态中顿型崩溃服务器可以从崩溃前的状态启动停机型崩溃服务器完全停机失职故障接收型失职服务器对输入的请求没有响应服务器无法接收信件发送型失职服务器无法发送信件应答故障返回值故障服务器对服务请求做出错误反应返回值出现错误状态变迁故障服务器偏离正确的运行轨迹时序故障服务器反应迟缓,超出规定的时间间隔随意故障服务器在任意时间产生的随意错误7.数据缓存技术:为了在用户和数据库之间建立的一层缓冲机制,把经常访问的数据放在内存缓冲区,利用内存高速读取的特点来提高数据查询效率。建立的这一层缓冲机制,也便于在不同节点之间进行数据交换。分布式缓存可以横跨多个服务器,所以可以灵活的进行扩展。8.分布式数据缓存的特点:高性能,动态扩展性,高可用性,易用性(分布式缓存提供单一的数据与管理视图、动态扩展或失效恢复时无需人工配置、自动选取备份结点且多数缓存系统提供了图形化的管理控制台,便于统一维护)9.NoSQL的种类Key-Value键值存储,Column-Oriented列存储,Document-Oriented面向文档存储Graph-Oriented图形存储10.典型的NoSQL工具(有点印象):Redis,BIgtable,CouchDB,Neo4j第八章云计算1.云计算是一种用于对可配置共享资源池(网络、服务器、存储、应用和服务)通过网络方便的、按需获取的模型,它可以以最少的管理代价或以最少的服务商参与,快速地部署与发布。2.云计算基本特征(楼言强调:分布式存储,虚拟化技术)规模经济性,强大的虚拟化能力,支持快速部署业务,通用性强,价格低廉,高可靠性,高可扩展性3.云计算服务模式云计算基于SOA(Service-OrientedArchitecture,面向服务的体系结构)的理念和技术,将计算资源和应用变成各种服务(XaaS),可以说云服务即一切皆服务:软件即服务(SaaS),平台即服务(PaaS),基础设施服务(IaaS)4.云计算有三种部署模式,即公有云、私有云和混合云。5.云计算与大数据的关键技术:虚拟化技术,数据分布式存储,大数据管理技术,并行编程模式,云计算数据中心,云计算集群,云计算仿真虚拟化技术:服务器,存储,应用,平台,桌面数据分布式存储:云计算的数据存储技术本质上是一种分布式的数据存储技术及与之相关的虚拟化技术。目前云计算的数据存储技术主要有Google的GFS和Hadoop开发团队开发的HDFS。6.云计算安全关键技术:可信访问控制,密文检索与处理,数据存在与可使用性证明,数据隐私保护,虚拟安全技术,云资源访问控制,可信云计算7.生物医学大数据的云解决方案(结合实际简答):解决方案:获取云计算资源、存储和搜索数据,运行和共享系统镜像,配置和执行并行计算流程:生物医学项目规划、生物云的方案选择、方案执行8.区域医疗信息云平台建设:IaaS层,PaaS层,SaaS层,SaaS模式下的主要应用第九章大数据解决方案1大数据解决方案系统架构.2.医学大数据具体应用案例:第十章医学大数据挖掘1.医学大数据的种类:医院医疗大数据,区域卫生信息平台大数据,基于大量人群的医学研究或疾病监测大数据,自我量化大数据,网络大数据,生物信息大数据医院医疗大数据:主要产生于医院常规临床诊治、科研和管理过程。包括各种门急诊记录、住院记录、影像记录、实验室记录、用药记录、手术记录、随访记录和医疗保险记录等。这些医疗数据中的大多数都是用医学专业方式记录下来的,是最

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论