版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
医疗大数据及相关技术介绍翟运开博士/副教授河南省数字医疗工程技术研究中心副主任数字化远程医疗服务河南省工程实验室副主任郑州大学第一附属医院河南省远程医学中心主任中国卫生信息学会远程医疗信息化专业委员会常委/秘书长目录大数据简介大数据相关技术大数据挖掘大数据平台摩尔定律,正在走向终结摩尔定律:集成电路芯片上所集成的电路的数目,每隔18个月就翻一番,同时性能也提升一倍单芯片容纳晶体管的增加,对制造工艺提出要求CPU制造18nm技术,电子泄漏问题CPU主频已达3GHz时代,难以继续提高散热问题(发热太大,且难以驱散)功耗太高并发计算发展成熟大数据时代正在来临…1000+PB24亿网民1天产生的数据63%GAGR非结构化数据增长率数据摩尔定律:Y=C×2XX代表时间,Y代表用户的信息分享量,C代表现在时刻的分享信息量30+TB交易量3000+万笔/天1PB/SCERN:核爆产生数据的速度单位英语标识大小例子位Bit1或0一个二进制数位:0或1字节Byte8Bit一个英文字母:8Bit千字节KB1024Byte一页纸上的文字:5KB兆字节MB1024KB一首普通MP3的歌曲:4MB吉字节GB1024MB一部电影:1GB太字节TB1024GB美国国会图书馆所有登记印刷版书本的消息:15TB2011年底,其网络备份的数据量为280太字节拍字节PB1024TB美国邮政局一年处理的信件大约为5拍谷歌每小时处理的数据为1拍艾字节EB1024EB相当与13亿中国人人手一本500页的书加起来泽字节ZB1024ZB截止2010年,人类拥有的信息总量大概是1.2ZB尧字节YB1024YB超出想象数据量的表达单位当前典型大数据的处理量传统数据vs.大数据传统数据处理技术面临的挑战海量数据的高存储成本数据批量处理性能不足流式数据处理缺失有限的扩展能力单一数据源数据资产对外增值数据扩展性需求和硬件性能之间存在差距传统框架:小型机+磁阵+商用数据仓库——传统的IOE模式已经不能满足PB级海量数据的存储、分析和应用需求小型机+DWH+SAN成本高企、扩容昂贵无法满足海量数据的离线分析和实时分析无法满足对非结构化数据的快速处理要求Scale-Up已到极限,必须支持Scale-Out大数据处于成长阶段,即将广泛商用大数据是对数据更大的掌控和应用能力大数据是淘炼黄金而不是制造更多的石头“大数据”是数据存储、管理、处理和分析的技术和解决方案“大数据”带来数据分析能力的质变性增强,不仅是传统BI领域,也为新商业机会和新商业模式提供了更大的创新空间;“大数据”是“以数据为中心”,这不仅是技术需要,也是管理需要;存储、计算、分析合一的系统成为必然的需求、趋势“大数据”的本质不在于更多(更快)的数据,而在于对数据中蕴含信息价值的巨大掌控和应用能力;使企业更好认识数据中所蕴含的巨大信息价值,影响和改变企业决策依据与过程和生产业务的开展过程“BigDataisnothingwithoutBigAnalysis”大数据要要解决的的问题Volume海量的数数据规模模Variety多样的数数据类型型StreamsRealtimeNeartimeBatchTBPBEBStructuredUnstructuredSemi-structuredAlltheaboveValueVelocity快速的数数据流转转巨大的数数据价值值目录大数据简简介大数据相相关技术术大数据挖挖掘大数据平平台大数据与与云计算算、物联联网、互互联网之之间的关关系云计算来源:《互联网进进化论》物联网移动互联网传统互联网产生海量量数据大数据是是对海量量数据的的高效处处理。云计算是是硬件资资源的虚虚拟化,,是大数数据分析析的支撑撑平台。。处理分析析需求技术描述DataWarehouse数据仓库库ETL,DataQuality信息整合合、元数数据TextAnalyticsEngineVisualDataModeling文本内容容分词与与分析HadoopMapReduce分布式文文件系统统流计算引引擎StreamingData海量非结结构化、、结构化化数据存存储结构化数数据处理理实时数据据处理非结构数数据分析析各类信息息整合数据处理理技术的的变化::满足数数据的多多样化大数据技技术成本可承受((economically)的情况下下通过非常快速(velocity)的采集集、发现现和分析;在大量化(volumes)、多类别(variety)的数据据中提取取价值((value)分析的数据越全面面,分析的结结果就越接近近于真实能够从这些数据中获取新的洞洞察力,并将将其与已知业业务的各个环节相融合计算存储数据库网络单机集群文件存储单机设备间连接设备内连接关系型数据库10GEFCIB分布式数据库非关系型数据库块存储10GESASIB横向扩展块级虚拟化横向扩展分布式文件系统大数据带来哪哪些技术变革革-技术驱动大数据的基本本技术MapReduceHBaseHDFSStreaming分布式文件系统HDFS(hadoopDistributedFileSystem)并行数据处理理MapReduce非结构化数据据表HBase流式数据处理理StreamingMapReduce分布式数据处处理架构分组聚合DATA计算(IOE架构)输入结果输出传统方式X86服务器X86服务器HDFS分布式文件系系统架构Hadoop集群HBaseNoSQL数据库HBase的数据模型分布式的多维维映射,以(row,column,timestamp)索引RowsColumns
timestamps“contents:””“anchor:baidu”“anchor:google”“<html></html>”t1“<html></html>”t2“<html></html>”t3……ColumnFamilyTableletStreaming:流式数据处处理---StormStorm广泛应用于实时分析,在线机器学习,持续计算等领域。分批处理实时处理VSStorm框架大数据的预预处理技术术滥用缩写词数据输入错误误数据中的内嵌嵌控制信息不同的惯用语语重复记录丢失值拼写变化不同的计量单单位过时的编码含有各种噪声声数据污染格式标准化异常数据清除除错误纠正重复数据的清清除数据处理大数据预处理理技术主要完完成对已接收收数据的辨析析、抽取、清清洗等操作目的是将数据据按统一的格格式提取出来来,然后再转转化,集成,,载入数据仓仓库的工具((ETL)抽取:因获取的数数据可能具有有多种结构和和类型,数据据抽取过程可可以帮助我们们将这些复杂杂的数据转化化为单一的或或者便于处理理的构型,以以达到快速分分析处理的目目的。清洗:对于大数据据,并不全是是有价值的,,有些数据并并不是我们所所关心的内容容,而另一些些数据则是完完全错误的干干扰项。因此要对数据据通过过滤““去噪”从而而提取出有效效数据大数据的存存储技术结构化数据:传统的关系数数据模式海量数据的查询、、统计、更新新等操作效率率低非结构化数据图片、视频、、word、pdf、ppt等文件存储不利于检索、、查询和存储半结构化数据转换为结构构化存储按照非结构构化存储存储与分析析融合,提提升处理效效率传统大数据据处理大数据存储储与分析统统一平台拷贝共享存储分析存储拷贝导入存储数据生产数据共享数据分析数据生产数据共享数据分析一份数据3次存储,浪费费空间67%一份数据2次拷贝,浪费费时间2倍一份数据1次存储,节省省空间67%一份数据0次拷贝,提升升效率2倍存储资源池大数据的的其他技技术数据仓库数据仓库是是商务智能能的依托,,是对海量量数据库进进行分析的的核心物理理构架,是是一种格式式一致的多多源数据存存储中心。。数据源可可以来自多多个不同的的系统,如如企业内部部的财务系系统、客户户管理系统统、人力资资源系统,,甚至是企企业外部系系统。数据据仓库的出出现以后,,一系列的的产业链也也逐步形成成联机机分分析析联机机分分析析也也称称多多维维分分析析,,本本意意是是把把分分立立的的数数据据库库““相相联联””,,进进行行多多维维的的分分析析;;““维维””是是联联机机分分析析的的核核心心概概念念,,指指的的是是人人们们观观察察事事物物、、计计算算数数据据的的特特定定角角度度;;可可以以从从任任意意的的维维度度交交叉叉和和细细分分问问题题,,用用户户能能根根据据自自己己的的需需要要,,随随时时创创建建““万万维维””动动态态报报表表数据挖挖掘通过特特定的的计算算机算算法对对大量量的数数据进进行自自动分分析,,从而而揭示示数据据之间间的关关系,,模式式和趋趋势,,为决决策者者提供供新的的知识识。如如果说说联机机分析析是对对数据据的一一种探探测,,数据据挖掘掘则是是对数数据进进行开开采,,发现现数据据之下下的历历史规规律,,对未未来进进行预预测。。大数据据的分分析挖挖掘技技术技术方方法分类根据挖挖掘任任务:分为分分类或或预测测模型型发现现、数数据总总结、、聚类类、关关联规规则发发现、、序列列模式式发现现、依依赖关关系或或依赖赖模型型发现现、异异常和和趋势势发现现等等等根据挖掘掘对象:可分为关关系数据据库、面面向对象象数据库库、空间间数据库库、时态态数据库库、文本本数据源源、多媒媒体数据据库、异异质数据据库、遗遗产数据据库以及及环球网Web根据挖掘掘方法:可分为:机器学习习方法、、统计方方法、神神经网络络方法和和数据库库方法。。重点技术术可视化分分析。数数据可视化可以让让数据自自己说话话,让用用户直观观的感受受到结果果。数据挖掘掘算法。。分割、、集群、、孤立点点分析还还有各种种算法让让我们精精炼数据据,挖掘掘价值。。这些算算法要能能够应付付大数据据的量,,同时还还具有很很高的处处理速度度。预测性分分析。预预测性分分析可以以让分析析师根据据图像化化分析和和数据挖挖掘的结结果做出出一些前前瞻性判判断。语义引擎擎。人工工智能从从数据中中主动地地提取信信息。包包括机器器翻译、、情感分分析、舆舆情分析析、智能能输入、、问答系系统等。。数据质量量和数据据管理。。透过标标准化流流程和机机器对数数据进行行处理可可以确保保获得一一个预设设质量的的分析结结果。目录大数据简简介大数据相相关技术术大数据挖挖掘大数据平平台数据挖掘掘(DM)与知识识发现(KDD)顾名思义义,数据据挖掘就就是从大大量的数数据中挖挖掘出有有用的信信息数据挖掘掘技术投投入商用用的三种种基础技技术已发发展成熟熟(1)海量数数据搜集集(2)强大的的分布式式并行处处理技术术(3)数据挖挖掘算法法知识发现现(KDD):从源源数据中中发掘模模式或联联系的方方法KDD被用来描述整整个数据发掘掘的过程,包包括最开始始的制定业务务目标到最终终的结果分析析,而用数据据挖掘(DM,DataMining)来描述使用用挖掘算法进进行数据挖掘掘的子过程。。数据挖掘所发发现的知识有有以下四类::广义知识:指指类别特征征的概括性描描述知识关联知识:反反应一个事件件和其他时间间之间依赖或或关联的知识识分类知识:反反应同类事物物共同性质的的特征性知识识和不同事物物之间的差异异性特征知识识预测性知识::根据时间序序列型数据,,由历史的和和当前的数据据去推测未来来的数据。数据挖掘流程程及方法模型型确定业务对象象数据准备数据挖掘结果分析知识的同化数据挖掘的技技术技术分类预言(Predication):用历史预预测未来描述(Description):了解数据据中潜在的规规律数据挖掘技术术关联分析序列模式分类(预言)聚集异常检测关联关联规则挖掘掘:在交易数据、、关系数据或或其他信息载载体中,查找找存在于项目目集合或对象象集合之间的的频繁模式、、关联、相关关性、或因果果结构。应用:购物篮分析、、交叉销售、、产品目录设设计、loss-leaderanalysis、聚集、分类类等。买尿布的客户户二者都买的客客户买啤酒的客户户序列序列模式定义义:给定一个由不不同序列组成成的集合,其其中,每个序序列由不同的的元素按顺序序有序排列,,每个元素由由不同项目组组成,同时给给定一个用户户指定的最小小支持度阈值值,序列模式式挖掘就是找找出所有的频频繁子序列,,即该子序列列在序列集中中的出现频率率不低于用户户指定的最小小支持度阈值值应用领域:客户购买行为为模式预测Web访问模式预测测疾病诊断自然灾害预测测DNA序列分析工业控制分类&预测分类:预测分类标号号(或离散值值)根据训练数据据集和类标号号属性,构建建模型来分类类现有数据,,并用来分类类新数据预测:建立连续函数数值模型,比比如预测空缺缺值典型应用信誉证实目标市场医疗诊断性能预测分类是发现质质变预测是发现量量变聚类簇(Cluster):一个数据对象象的集合在同一个类中中,对象之间间具有相似性性不同类的对象象之间是相异异的聚类分析把一个给定的的数据对象集集合分成不同同的簇聚类是一种无无监督分类法法:没有预先指定定的类别典型的应用作为一个独立立的分析工具具,用于了解解数据的分布布作为其它算法法的一个数据据预处理步骤骤聚类(续)将物理或抽象象对象的集合合分组成为由由类似的对象象组成的多个个类聚类在不同的的应用领域,,用作描述数数据,衡量不不同数据源间间的相似性,,以及把数据据源分类到不不同的簇中;;聚类是将数数据分类到不不同的类或者者簇这样的一一个过程,所所以同一个簇簇中的对象有有很大的相似似性,而不同同簇间的对象象有很大的相相异性聚类与分类不不同,聚类所所要求划分的的类是未知的的异常探测异常检测是数数据挖掘中一一个重要方面面,用来发现现”小的模式式”(相对于聚类),即数据集中中间显著不同同于其它数据据的对象。异常探测应用用电信和信用卡卡欺骗贷款审批药物研究气象预报金融领域客户分类网络入侵检测测故障检测与诊诊断等异常的定义::异常是在数数据集中与众众不同的数据据,使人怀疑疑这些数据并并非随机偏差差,而是产生生于完全不同同的机制。目录大数据简介大数据相关技技术大数据挖掘大数据平台揭开Hadoop神秘的面纱Hadoop是Apache基金会的一个个项目总称,,主要由HDFS和MapReduce组成。Hadoop来源于其创始始人DougCutting的儿子给一头头黄色大象取取的名字。Hadoop最初只与网页页索引有关,,迅速发展成成为分析大数数据的领先平平台。Hadoop已成为大数据据事实标准第一阶段(2005~2009年):模仿Google的“三驾马车车”,主导者者是Yahoo!,Facebook等互联网厂商商,相关项目目①②③④第二阶段(2009年~):模仿Google的“新三驾马马车”,主导导者是Cloudera、Hortonworks等Hadoop发行版厂商,,IBM、EMC、Intel、Huawei等传统IT厂商开始集成成Hadoop,Haoop进入企业市场场,相关项目目⑤第三阶段(2012年~):博采众长,吸吸纳AMPLab、流计算等成成果,通过配配套工具构筑筑大数据领域域生态系统,,形成事实标标准;相关项项目⑥。6大Hadoop发行版厂商Cloudera、Hortonworks、MapR、IBM、EMC、Huawei数据处理技术术与架构发展展趋势传统数据仓库SQL、UPFSQL执行引擎行存、磁盘、单机/
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- sink节点课程设计
- 山东力明科技职业学院《机床概论与数控机床》2023-2024学年第一学期期末试卷
- 无线数字话筒课程设计书
- 山东科技大学《秘书实务》2023-2024学年第一学期期末试卷
- 化工原理课程设计苯6
- vb课程设计及代码
- 旋转罐装机课程设计
- 春季大班美育课程设计
- 幼儿课程设计玩教具
- 山东交通学院《U设计》2023-2024学年第一学期期末试卷
- 2025年中考数学备考计划
- 高层建筑用电安全管理制度
- 2024学校安全工作总结
- 2024-2030年中国化工设计市场发展前景调研及投资战略分析报告
- 2024年低压电工复审模拟考试题库及答案(共230题)
- 2024-2025学年语文二年级上册统编版期末测试卷(含答案)
- 教育机构课程顾问咨询流程
- 2024年学校意识形态工作总结模版(5篇)
- 6《记念刘和珍君》《为了忘却的纪念》说课稿 2024-2025学年统编版高中语文选择性必修中册
- 智能化住宅小区施工合同
- 葡萄酒文化与鉴赏学习通超星期末考试答案章节答案2024年
评论
0/150
提交评论