




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据分析、发掘与运用数据发掘与智能信息系统实验室
一、大数据分析与发掘大数据的根本概念比较有代表性:1)3V定义,即以为大数据需满足3个特点:规模性(Volume)、多样性(Variety)和高速性(Velocity)。2)4V定义,即尝试在3V的根底上添加一个新的特性。关于第四个V的说法并不一致,IDC以为大数据还该当具有价值性(Value),大数据的价值往往呈现出稀疏性的特点。而IBM以为大数据必然具有真实性(Veracity)。3)维基百科对大数据的定义那么简单明了:大数据是指利用常用软件工具捕获、管理和处置数据所耗时间超越可容忍时间的数据集。二、大数据处置架构大数据处置方式1〕流处置(StreamProcessing),即直接处置流处置的根本理念是数据的价值会随着时间的流逝而不断减少。因此,尽能够快地对最新的数据做出分析并给出结果是一切流数据处置方式的共同目的。2〕批处置(BatchProcessing),即先存储后处置Google公司在2004年提出的MapReduce编程模型是最具代表性的批处置方式。
MAPREDUCE执行流程图
MapReduce模型首先将用户的原始数据源进展分块,然后分别交给不同的Map义务区处置。Map义务从输入中解析出Key/Value对集合,然后对这些集合执行用户自行定义的Map函数得到中间结果,并将该结果写入本地硬盘。Reduce义务从硬盘上读取数据之后,会根据key值进展排序,将具有一样key值的组织在一同。最后用户自定义的Reduce函数会作用于这些排好序的结果并输出最终结果。
MapReduce的中心设计思想:1)将问题分而治之;2)把计算推到数据而不是把数据推到计算,有效的防止数据传输过程中产生的大量通讯开销。MapReduce模型简单,且现实中很多问题都可用MapReduce模型来表示。因此该模型公开后,立刻遭到极大的关注,并在生物信息学、文本发掘等领域得到广泛的运用。大数据处置的根本流程1)数据抽取与集成2)数据分析面临着一些新的挑战:数据量大并不一定意味着数据价值的添加,相反这往往意味着数据噪音的增多;大数据时代的算法需求进展调整,准确率不再是大数据运用的最主要目的;数据结果好坏的衡量。3〕数据解释(可视化技术)三、天体光谱大数据分析与发掘我国已建造一台大天区面积多目的光纤光谱望远镜〔LAMOST〕,是国家艰苦科学工程工程,也是世界上光谱获取率最高的望远镜。估计LAMOST所观测到的光谱数据容量将有能够到达4TB;巡天所覆盖的波段为3700埃至9000埃,即其观测属性可达数千维,是典型的高维数据;数据类型:图像和FITS文件等。科学目的:“星系红移巡天〞、“恒星和银河系的构造特征〞和“多波段认证〞。
天体光谱大数据分析处置主要内容:预处置(去噪、归一化等)、分类与识别、丈量〔红移等参数〕等。一条SEYFERT2光谱数据图(红移为0)
天体光谱是天体电磁辐射按照波长的有序陈列,蕴含着天体的重要物理信息,例如:天体的化学成份、天体的外表温度、直径、质量、光度以及天体的视向运动和自转。天文学家和天体物理学家经过分析天体光谱的信息,不仅可以研讨宇宙中物质的分布特征,还可以研讨天体的构成和随时间的演化等艰苦科学问题。由于天文界对宇宙的认识还比较有限,LAMOST巡天方案的一个重要义务是要发现一些新的、特殊类型的天体,因此,如何利用数据发掘技术从海量天体光谱数据中发现未知的、特殊的天体及天体规律是数据发掘值得研讨和探求的新运用领域。
面向特定义务的数据发掘是当前数据发掘领域开展的趋势之一。以LAMOST工程为背景,对天体光谱数据发掘技术进展了研讨,其研讨成果不仅具有重要的实际价值,而且可直接运用到LAMOST中,为国家艰苦科学工程提供技术支撑。近年来主持承当的部分课题[1]海量高维天体光谱数据发掘及其并行化研讨〔61272263〕,国家自然科学基金,2021.1-2021.12,〔在研〕[2]面向LAMOST天文光谱特征线的数据发掘方法研讨〔61073145〕,国家自然科学基金,2021.1-2021.12,〔在研〕[3]面向天文光谱的数据发掘算法性能分析与并行化研讨〔61111120317〕,国家自然科学基金委国际协作与交流工程,2021.6-2021.12,〔结题〕[4]基于加权和约束概念格的数据发掘方法与天体光谱数据发掘技术〔60773014〕,国家自然科学基金,2021.1-2021.12,〔结题〕[5]基于数据网格的分布式数据发掘方法研讨〔60911120478〕,国家自然科学基金委国际协作与交流工程,2021.9-2021.3,〔结题〕[6]基于背景知识的数据发掘方法及其在LAMOST中的运用〔60573075〕,国家自然科学基金,2006.1-2021.12,〔结题〕[7]海量天体光谱数据发掘算法研讨与实现(2003AA133060),国家“863〞高技术方案子课题,2003.8-2005.8〔结题〕主要成果之一:
基于概念格的天体光谱离群数据发掘系统将概念格中每个概念节点内涵描画为天体光谱数据特征子空间,提出了一种天体光谱离群数据识别方法。首先将概念节点的内涵缩减看作天体光谱特征子空间,并根据稀疏度系数阈值确定稀疏子空间;其次对于稀疏子空间,根据稠密度系数断定祖先概念节点内涵能否为稠密子空间,进而判别出概念节点外延中包含的数据对象能否为天体光谱离群数据;最后以离散化天体光谱数据作为方式背景,实验验证了利用该方法识别出的天体光谱离群数据是准确的、完备的和有效的。典型论文[1]JifuZhang,SulanZhang,KaiH.Chang,andXiaoQin.AnOutlierMiningAlgorithmBasedonConstrainedConceptLattice,InternationalJournalofSystemsScience〔accept〕[2]SulanZhang,PingGuo,JifuZhang,XinxinWang,andWitoldPedrycz.ACompletenessAnalysisofFrequentWeightedConceptLatticesandTheirAlgebraicProperties,Data&KnowledgeEngineering,81–82(2021):104–117[3]JifuZhang,YiyongJiang,KaiH.Changetal.AConceptLatticeBasedOutlierMiningMethodinLowDimensionalSubspaces.PatternRecognitionLetters,2021,30(15):1434-1439[4]张继福;张素兰;蒋义勇.基于约束概念格的天体光谱部分离群数据发掘系统,光谱学与光谱分析,2021,29〔2〕:551-555[5]张继福等.基于概念格的天体光谱离群数据识别方法,自动化学报,2021,34〔9〕:1060-1066[6]JianghuiCai;JifuZhang;ZhaoXujun.AStarSpectrumOutlierMiningSystemBasedonSimulatedAnnealing,InternationalJournalofInnovativeComputing,InformationandControl,2021,4〔9〕:2263-2271主要成果之二:
天体光谱数据相关性分析系统以国家艰苦科学工程LAMOST工程为背景,利用一阶谓词逻辑作为天体光谱知识表示技术,提出了一种约束FP树及其构造算法,从而有效地提高了天体光谱数据相关性分析的针对性和效率,并在此根底上,提出了一种基于约束FP树的天体光谱数据相关性分析方法。实验结果分析阐明,利用该相关性分析方法发掘天体光谱数据特征和物理化学性质之间存在的相关性,是可行的和有价值的。典型论文[1]JifuZhang,XujunZhao,SulanZhang,ShuYin,andXiaoQin.InterrelationAnalysisofCelestialSpectraDatausingConstrainedFrequentPatternTrees,Knowledge-BasedSystems41(2021):77-88.[2]JianghuiCai,XujunZhao,ShiweiSun,JifuZhang,HaifengYang.Stellarspectraassociationruleminingmethodbasedonweightedfrequentpatterntree.ResearchinAstronomyandAstrophysics,2021,13〔3〕:334-342[3]张继福;赵旭俊.一种基于约束FP树的天体光谱数据相关性分析方法,方式识别与人工智能,2021,22(4):639-646[4]赵旭俊;张继福.基于约束FP树的天体光谱数据相关性分析系统研讨,光谱学与光谱分析,2021,28〔12〕:2996-2999[5]张继福;赵旭俊.基于关联规那么的恒星光谱数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 工作与生活两不误的策略
- 工作中的自律性对提高效率的影响
- 工业自动化发展趋势及技术革新
- 工业设计的美学与产品设计实践
- 工作效率提升技巧与策略
- 工业领域物联网环保应用研究
- 工作模式变革下的组织文化创新
- 工作流程优化与持续改进方法
- 工厂安全生产与应急预案制作
- 工程建筑中岩土工程的实践应用
- 福建省福州市(2024年-2025年小学六年级语文)统编版期末考试((上下)学期)试卷及答案
- 网络安全项目授权委托书范本
- (高清版)DB43∕T 2428-2022 水利工程管理与保护范围划定技术规范
- 个人诚信承诺书模板(共4篇)
- 供水公司自来水厂隐患排查和风险分级管控管理制度
- 企业一季一课安全教育内容
- 《乘风破浪扬帆起航》高三主题班会 高中主题班会
- GB/T 44543-2024预制混凝土节段拼装用环氧胶粘剂
- 附着式升降脚手架维护保养管理制度
- 四川凉山历年中考语文现代文之说明文阅读7篇(含答案)(2003-2023)
- 基本公共卫生服务项目糖尿病患者管理考核反馈表
评论
0/150
提交评论