版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据关键技术肖波中央民族大学
2014.10.报告内容一、大数据时代的诞生二、大数据关键技术
三、大数据与高等教育四、我们开展的相关研究一、大数据时代的诞生大数据与云计算大数据是云计算的核心内容大数据改变世界云计算由何而来?HPC:
High-PerformanceComputingHTC:
High-ThroughputComputingP2P:Peer
to
PeerMPP:MassivelyParallelProcessors最早是由天文学和基因学创造出了“大数据”这一概念。——《自然》2008年《大数据专刊》大数据名称的起源一张哈勃望远镜捕捉下来的高清相片,高达数十个G字节大数据的定义大数据是指那些大小已经超出了传统意义上的尺度,一般的软件工具难以捕捉、存储、管理和分析的数据。大数据的定义大数据技术将被设计用于在成本可承受(economically)的条件下,通过非常快速(velocity)的采集、发现和分析,从大体量(volumes)、多类别(variety)的数据中提取价值(value),是IT领域新一代的技术与架构。大数据的4V·
Volumes(GB-TB-PB-EB-ZB-……)·
Variety(
all-structure,
semi-structurnon-
struture
)Velocity
(
speed,
frequency)Value
(information
)二、大数据关键技术大数据采集与预处理大数据存储及管理大数据计算模式与系统大数据分析与挖掘大数据可视化计算大数据隐私与安全大数据应用技术1.大数据采集与预处理大数据采集所说的数据是指通过RFID射频数据、传感器数据、社交网络交互数据及移动互联网数据等方式获得的各种类型的结构化、半结构化(或称之为弱结构化)及非结构化的海量数据,是大数据知识服务模型的根本。Big
Data数据的结构—结构化、非结构化、半结构化数据-
12
-对比项结构化数据非结构化数据半非结构化数据定义有数据结构描述信息 的数据不方便用固定结构来 表现的数据介于完全结构化数据 和完全无结构的数据 之间的数据结构与内容的关系先有结构、再有数据只有数据,没有结构先有数据,再有结构示例各类表格图形、图像、音频、 视频信息HTML文档,它一般是 自描述的,数据的结 构和内容混在一起结构化数据和非结构化数据都是客观存在,大数据技术需要涵盖两者大数据采集的四种来源管理信息系统(结构化数据)Web信息系统(非结构化,半结构化)物理信息系统(传感器,多媒体数据)科学实验系统(仿真数据)大数据预处理技术主要完成对已接收数据的辨析、抽取、清洗等操作。抽取:因获取的数据可能具有多种结构和类型,数据抽取过程可以帮助我们将这些复杂的数据转化为单一的或者便于处理的构型,以达到快速分析处理的目的。清洗:对于大数据,并不全是有价值的,有些数据并不是我们所关心的内容,而另一些数据则是完全错误的干扰项,因此要对数据通过过滤“去噪”从而提取出有效数据。预处理取得进展的技术异构数据集成技术WEB中实体识别技术
DeepWeb技术(Web中不能被传统的搜索引擎索引到的那部分内容)传感器网络融合技术-----数据清洗和质量控制工具:Data
Flux,
Data
Stage,InformaticalPoweCenter.数据质量(缺乏系统研究)精确性(数据符合规定的精度)一致性(数据之间不能存在相互矛盾)完整性(数据的值不能为空)同一性(数据的标识是唯一的)时效性(数据的值反映了实际的状态)真实性(数据不能是虚假的)预处理技术发展趋势数据源的选择和高质量原始数据的采集方法(建立数据源质量评估模型)多源数据的实体识别和解析方法数据清洗和自动修复方法(清除错误,修复信息)高质量数据整合方法(智能模式抽取和匹配)数据演化的溯源管理(追踪数据演化过程)2.大数据存储与管理技术主要解决大数据的可存储、可表示、可处理、可靠性及有效传输等几个关键问题。开发可靠的分布式文件系统(DFS)、能
效优化的存储、计算融入存储、大数据的
去冗余及高效低成本的大数据存储技术;
突破分布式非关系型大数据管理与处理技
术,异构数据的数据融合技术,数据组织
技术,研究大数据建模技术;突破大数据
索引技术;突破大数据移动、备份、复制
等技术;开发大数据可视化技术。大数据给存储系统的挑战存储规模大(PB,EB…)存储管理复杂(多结构)数据服务的种类和要求高(性能,可靠性)大数据主要存储技术分布式文件系统分布式数据库访问接口和查询语言(MapReduce编程接口,Pig
Latin等)大数据下的存储概念数据结构:结构化数据与非结构化数据数据库数据模型:关系型数据库与非关系型数据库数据处理特性:OLTP与OLAP数据一致性:强一致性与最终一致性数据存储方式:行式存储与列式存储数据库存储与处理架构:SMP与MPP数据存储架构:传统分布式文件与新型分布式文件-
21
-分布式MPP数据仓库代表产品特性比较-
22
-产品名称应用场景接口方式扩展能力X86平台LinuxGreenplumOLAP/OLTP标准SQL最大支持达万个节点支持支持TeradataOLAP标准SQL(SQL-92)可达4096节点,最大数据量超过100PB支持支持netezzaOLAP标准SQL1~10台一体机,可管理PB级数据量,新一代产品会更高不支持,仅支持专有一体机硬件支持infobrightOLAP标准SQL具备较强并行扩展能力支持支持ExadataOLAP/OLTP标准SQL支持多机扩展满足大数据量管理需求支持,但性能劣于专有一体机硬件支持3.大数据计算模式与系统大数据计算模式根据大数据的各种不同数据特征,从多样性的大数据计算问题和需求中提炼并建立的各种高层抽象或模型。(MapReduce,RDD,GPA等)大数据处理的特征数据结构(all,semi,non)数据获取处理方式(batch,stream)数据处理类型(analysis,mining)实时性或相应性能(real,non-real)迭代计算(iterative)数据关联性(simple,graph)并行计算体系结构(cluster,memory)计算模式系统大数据查询分析计算HBase,Hive,Cassandra,IImpala,Shark,Hana批处理计算Hadoop,MapReduce,Spark流式计算Scribe,Flume,Storm,S4,Spark
Steaming迭代计算Haloop,iMapReduce,Twister,Spark图计算Pregel,Giraph,Trinity,PowerGraphX内存计算Dreml,Hana,SparkMapReduce的步骤数据分区计算分区决定主从服务器读取输入数据Map函数排序与分组(根据键值)7.Combiner函数(合并本地数据)8.Partitioning函数(相同键值划分到一个区)9.同步与通信(所有服务器同时完成)10.排序与分组Cloud
applications
are
the
key
global
opportunity
for
developers
duringnext
four
years2009:
$8.5
billion2013:
$16.8
billionLogical
Data
Flow
in
5
ProcessingSteps
in
MapReduce
Process(Key,
Value)
Pairs
are
generated
by
the
Map
function
over
multiple
available
MapWorkers
(VM
instances).
These
pairs
are
then
sorted
and
group
based
on
key
ordering.Different
key-groups
are
then
processed
by
multiple
Reduce
Workers
in
parallel.Cloud
applications
are
the
key
global
opportunity
for
developers
duringnext
four
years2009:
$8.5
billion2013:
$16.8
billionA
Word
Counting
Example
on<Key,
Count>
DistributionCloud
applications
are
the
key
global
opportunity
for
developers
duringnext
four
years2009:
$8.5
billion2013:
$16.8
billionLinking
the
Map
Workers
andReduce
Workers
by
Key
Matchingin
Partitioning
FunctionsCloud
applications
are
the
key
global
opportunity
for
developers
duringnext
four
years2009:
$8.5
billion2013:
$16.8
billionFig.6.5DataflowImplementationof
MapReduceCloud
applications
are
the
key
global
opportunity
for
developers
duringnext
four
years2009:
$8.5
billion2013:
$16.8
billionHIVEPig!分布式文件系统海量数据存储大规模计算智能分析算法大数据技术架构-典型开源实现计算模式发展趋势
Hadoop平台改进后将与其他计算模式和平台共存(Hadoop2.0)
混合计算模式将成为满足多样性大数据处理和应用需求的有效手段。(Spark:迭代、批处理、内存计算、流式计算、shark、图计算)
内存计算将成为高实时性大数据处理的重要技术手段和发展方向。(Hana,Spark)4.大数据分析与挖掘技术大数据挖掘面临的挑战
1.数据量膨胀(TB)数据深度分析需求的增长(路径分析,时间序列分析,图分析,What-if分析等)自动化、可视化分析需求的出现(自动查询,自动分析等)数据挖掘技术
机器学习,可细分为:归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。
统计方法,可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参
数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。
神经网络方法,可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。
数据库方法主要是多维数据分析或OLAP方法,另外还有面向属性的归纳方法。大数据分析与挖掘课题
改进已有数据挖掘和机器学习技术(并行,分布);
开发数据网络挖掘、特异群组挖掘、图挖掘等新型数据挖掘技术;
突破基于对象的数据连接、相似性连接等大数据融合技术;
突破用户兴趣分析、网络行为分析、情感语义分析等面向领域的大数据挖掘技术。大数据挖掘当前进展R和Hadoop的深度集成Weka和MapReduce的集成基于Hadoop的数据挖掘开源程序库
(Apache
Mahout项目)大数据挖掘算法的提出(大数据关联、聚类、分类、神经网络算法)
大规模图数据分析方法(基于内存算法,基于集群算法)大数据挖掘未来发展更加复杂、更大规模的分析和挖掘(时间序列分析,大规模图分析,大规模社会计算等)大数据的实时分析和挖掘(几十TB的实时挖掘问题还没有解决)大数据分析和挖掘的基准测试(了解各种大数据分析和挖掘系统的优缺点)大数据挖掘需突破的技术可视化分析数据挖掘算法预测性分析语义引擎数据质量和数据管理可视化分析数据可视化无论对于普通用户或是数据分析专家,都是最基本的功能。数据图像化可以让数据自己说话,让用户直观的感受到结果。数据挖掘算法数据挖掘算法。统计、分类、聚类、孤立点分析还有各种各样五花八门的算法让我们精炼数据,挖掘价值。改进算法使得这些算法一定要能够应付大数据的量,同时还具有很高的处理速度。预测性分析预测性分析可以让分析师根据图像化分析和数据挖掘的结果做出一些前瞻性判断。语义引擎语义引擎需要设计到有足够的人工智能以足以从数据中主动地提取信息。语言处理技术包括机器翻译、情感分析、舆情分析、智能输入、问答系统等。数据质量和数据管理数据质量与管理是管理的最佳实践,透过标准化流程和机器对数据进行处理可以确保获得一个预设质量的分析结果。5.大数据可视化分析在大数据时代,除了直接的统计或者数据挖掘的方式,可视化通过交互式视觉表现的方式来帮助人们探索和解释复杂的数据。可视化流程数据可视化图像感知和认识
知识设置探索数据可视化用户四种基本技术
数据流线化(大数据分为相互独立的子块依次处理SPSD)
任务并行化(一个算法分成多个独立的任务模块平行处理MPSD)
管道并行化(同时处理面向不同数据的任务的多个独立任务模块MPMD)
数据并行化(数据分块后进行平行处理
SPMD)可视化发展趋势原位分析(内存进行分析,而不再硬盘)可视化中的人机交互(提供界面,专家参与)协同与众包可视分析(多用户协调工作)
可扩展性与多级层次问题(在不同层面不同解析度下浏览分析)
不确定分析和敏感性分析(了解数据不确定来源和风险)
可视化与自动数据计算挖掘的结合(直观与计算结合)面向领域和大众的可视化工具库(领域需求不同)6.大数据隐私与安全大数据时代的安全问题更加复杂(集中)使用过程中存在安全问题(黑客)对大数据需求高的团体面临更多安全挑战基于位置的隐私暴露严重缺乏相应的法律法规保证大数据的共享问题(有效性和加密性)真实数据的动态性变化多元数据的融合挑战(来自工作、生活)安全技术当前进展文件访问控制技术基础设备加密匿名化保护技术加密保护技术基于数据失真的技术基于可逆的置换算法安全技术发展趋势NoSQL有待进一步完善开展对APT攻击的研究
对多元数据融合提出新的安全隐私保护技术保护分布式系统所有站点的安全社教网络加强安全隐私保护数据采集、存储、分析安全三权分立APT(Advanced
PersistentThreat)高级持续性威胁。利用先进的攻击手段对特定目标进行长期持续性网络攻击的攻击形式。APT攻击的原理相对于其他攻击形式更为高级和先进,其高级性主要体现在APT在发动攻击之前需要对攻击对象的业务流程和目标系统进行精确的收集。在此收集的过程中,此攻击会主动挖掘被攻击对象受信系统和应用程序的漏洞,利用这些漏洞组建攻击者所需的网络,并利用
0day漏洞进行攻击。7.大数据应用技术大数据将重点应用于以下三大领域:商业智
能、政府决策、公共服务。例如:商业智能技术,政府决策技术,电信数据信息处理与挖掘技术,
电网数据信息处理与挖掘技术,气象信息分析技
术,环境监测技术,警务云应用系统(道路监控、视频监控、网络监控、智能交通、反电信诈骗、
指挥调度等公安信息系统),大规模基因序列分
析比对技术,Web信息挖掘技术,多媒体数据并行化处理技术,影视制作渲染技术,其他各种行业的云计算和海量数据处理应用技术等。大数据与互联网电子商务(消费、团购、支付)网络广告(效果、相应)网络新闻(搜索、爱好、习惯)旅行预订(游客、景
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五版苗木种植与农业综合开发合同样本4篇
- 二零二五年度教育培训股东股权转让与合作办学合同2篇
- 二零二五版婴幼儿奶粉国际市场拓展与出口合同4篇
- 2025版绿色环保型商品房预售买卖合同3篇
- 2025年度校服品牌授权与校园形象塑造合同3篇
- 2025年度事业单位合同工劳动法执行监督评估合同3篇
- 2025年度生鲜配送冷链物流承包合同范本3篇
- 2025年度个人佣金提成与长期激励合同2篇
- 课题申报参考:能源数据要素赋能可再生能源电力生产的机制与对策研究
- 课题申报参考:民族传统体育与体育非物质文化遗产的传承与保护研究
- 2025年N1叉车司机考试试题(附答案)
- 《医院财务分析报告》课件
- 2025老年公寓合同管理制度
- 2024-2025学年人教版数学六年级上册 期末综合卷(含答案)
- 2024中国汽车后市场年度发展报告
- 感染性腹泻的护理查房
- 天津市部分区2023-2024学年高二上学期期末考试 物理 含解析
- 《人工智能基础》全套英语教学课件(共7章)
- GB/T 35613-2024绿色产品评价纸和纸制品
- 2022-2023学年五年级数学春季开学摸底考(四)苏教版
- 【蚂蚁保】2024中国商业医疗险发展研究蓝皮书
评论
0/150
提交评论