版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
天文学中的数据挖掘张彦霞国家天文台贵阳LAMOST概要必要性概念技巧问题展望文献LAMOST海量数据NVO(IVOA)注册的数据资源有~14,000一些大型的天文数据库包括NASA空间天文工程已经完成或正在进行的大型天文巡天工程,如:MACHO和相关的暗物质巡天:~1TBDPOSS:3TB2MASS:10TBGALEX:30TBSDSS:40TB将来的巨型巡天工程,如:PanSTARRS:每晚10TB,预计最终40PBLSST(LargeSynopticSurveyTelescope):2021开始运行,with3-Gigapixelcamera每30秒10GB每晚30TB,持续十年预计最终的图像数据100PB–所有数据公开!!!预计最终的星表数据30PB实时事件挖掘:每晚事件10,000-100,000个,持续十年每三晚巡全天一次:制作天体的电影LAMOST天文学:数据驱动的科学天文学:是发现驱动的科学
•驱动发现的因素:–新问题–新的思想–新模型–新理论–更重要的是新数据!
天文学:是发现驱动的科学•发现导致:–新的问题–新思想–新模型–新理论–更重要的是...更多的新数据!•因此,需要更有效的挖掘和分析算法或工具天文学家一直在从事数据挖掘
“Thedataaremine,andyoucan’thavethem!〞•严格意义上讲...•天文学家喜欢对事物进行分类...(监督学习.如,分类)•天文学家喜欢对事物归类...(非监督学习.如,聚类)•天文学家更希望发现新的天体或现象...(半监督学习.如,离群探测)天文中的数据挖掘课题压缩(如.图像和光谱)分类
(如.恒星,星系,或伽马射线暴)重建
(如.星系模糊图像的重建,弱引力透镜质量分布的重建)特征抽取(如.恒星、星系和类星体的重要特征)参数估计(如.恒星参数估计,测光红移预测,太阳系外行星的轨道参数,或宇宙参数)模型选择
(如.一颗恒星有几颗行星绕转?)
OferLahav,2006,astro-ph/0610703Summaryonthe4thmeetingon“StatisticalChallengeinModernAstronomy〞heldatPennStateUniversityinJune2006过去:100到1000个独立的分布的异构数据/元数据/信息库.目前:天文数据可以从融合的分布资源中获得,如虚拟天文台.将来:随着大型巡天工程的开展,天文学在未来将越来越成为数据密集型的科学.挑战:越来越难于将数据传输到用户…
算法移植到数据!天文学研究的转变数据驱动到数据密集天文学一直以来就是数据驱动的科学现在成为数据密集型的科学:天文信息学〔Astroinformatics〕!面向数据的天文学研究=“第四范式〞科学知识发现大数据集的优点:很好地统计分析典型或特殊事件自动搜寻稀有事件ScientificKnowledge!第四范式:数据密集型的科学发现定义数据挖掘:从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
巨量价值
EDPMISDSS知识发现的优点产生快速响应发布EDP:电子数据加工MIS:管理信息系统DSS:决策支持系统数据挖掘—知识发现(KDD)过程的核心数据清洁数据融合数据库数据仓库知识特定任务的数据选择数据挖掘模式评估数据挖掘:知识发现的过程数据挖掘数据库系统统计学其它学科信息科学机器学习&人工智能可视化数据挖掘:多学科的交叉学科
KDD:机遇和挑战
数据丰富知识贫乏竞争的压力KDD人工神经网络支持矢量机决策树遗传算法近邻算法规那么推导粗糙集数据总结分类分析聚类分析回归分析关联规那么分析序列模式分析依赖关系分析偏差分析模式分析或统计分析时序数据分析其它数据挖掘的任务分类分析定义按照某种规那么,新的数据被划分到类别中的一类。这个规那么是通过具有标签的数据进行监督学习获得的。应用恒星分成不同的光谱型,星系按哈勃或形态分类,活动星系核进一步细分,等等方法神经网络决策树NaïveBayesianNetworks支持矢量机学习矢量量化遗传算法…….采用何种分类器?分类器可以沿几个正交的轴来训练,探索所有的维数比较困难不同的任务需要不同的分类器来实现.分类算法决策树,OC1神经网络最近邻规那么或其他算法观测参量流量,位置,色参数,变化参量,空间扩展,…X射线,可见光,红外,...训练样本WGACAT,ROSATAllSkySurvey,...分类粗分:恒星vs.河外天体细分:A0vs.B0…,AGNvs.QSOvs.星系聚类分析定义:按照某种规律聚在一起的称为一类。所用的数据是无标签的,通过非监督的学习方式训练数据,类间的差异尽可能地大,而类内的差异尽可能地小。应用:SDSS的双色图恒星聚在一块如香蕉状,类星体那么偏离该区域。方法:K均值聚类Hierarchicalclustering预期最大算法〔ExpectationMaximizationalgorithm〕高斯混合模型〔Gaussianmixturemodeling〕主成分分析……优越性新的概念(Conceptdiscovery)点滴知识(Bootstrappingknowledge)聚类分析1Djorgovski,etal.根本的天文问题–1聚类问题:在数据集中查找聚类的天体统计意义和科学意义上各个类别的重要性是什么?找“朋友的朋友〞或近邻的最优算法?N>1010,如何有效地排序、分类?维数~1000–因此,假设干子空间搜索问题是否存在两点或更高阶的相关性?N>1010,N-point相关怎么做?与N2logN成正比的算法显然不能用根本的天文问题–2离群探测:(未知的未知)找到那些超出我们预期的天体或事件(不属于类别)这些有可能是真正的科学发现或垃圾因此,离群探测可用于:新奇发现–Nobelprize?异常探测–探测系统是否正常工作?数据质量保证–数据流是否正常工作?在1000维空间中或感兴趣的子空间〔低维空间〕中,如何最优化地探测到离群?怎样衡量“兴趣度〞?降维问题:寻找相关性和参数的基平面维数成千上万维灾!参数之间的相关性?线性或非线性混合?本征值或紧致表示是否可以代表整个数据集的性质?根本的天文问题–3根本的天文问题–4叠加和分解问题:在参数空间中重叠的天体找出它们的所属类别假设1010天体在1000维空间中重叠怎么办?如何最优地分解和抽取不同类型的天体?一些约束条件如何应用?最优化问题:在高维参数空间中如何找到复杂的多变量函数的最优解〔最正确拟合、全局最大似然〕根本的天文问题–5为什么需要分布的数据挖掘?由于…
“JustChecking〞…许多重大的科学发现产生于多数据源的交叉证认:--类星体--Gamma-raybursts--极亮红外星系--X射线黑洞双星--射电星系...天文数据的分布性
分布的数据挖掘分布的数据挖掘有两种类型:分布的挖掘数据挖掘分布的数据第一类要求复杂的算法移植到数据第二类多种形式,数据整体存放或分割上集中,
或者数据分布存放在不同的地方实践数据挖掘线性或非线性高斯或非高斯连续或离散是否存在缺值比照特征和样本数按照数据挖据的任务和特征,选择适宜的数据挖掘算法未来天文数据的挑战统计、计算和挖掘方法用于peta-和exa-量级的可扩张性在海量多维数据空间中同时多点拟合的算法优化用于探索PB级数据的紧致表示的多分辨率、多级、分形、分级方法和结构PB量级数据的可视化分析(包括特征探测,模型和有趣事件或天体的发现,相关关系、聚类,新类型天体的发现,降维)高维PB级数据的索引和联合存储技巧〔树、图、网络拓扑〕PB级数据库的快速查询和搜索方法成功的数据挖掘工程〔I〕:///●
测光红移估计●球状星团搜寻●多波段测光暂源分类●天文图像分割:///成功的数据挖掘工程〔II〕VOSTATStatisticalAnalysisfortheVirtualObservatory
VOStat工程通过网页效劳为天文学家提供了一套工具。天文学家可以按照需要调用简单的或复杂的程序来实现自己的任务。这套工具是基于大的开源的统计计算语言和环境R开发的。所有的统计计算在VOStat的效劳器端进行,算完后再传给用户。天文会议或组织ADASS(TheAstronomicalDataAnalysisSoftwareandSystems)ADA〔TheAstronomicalDataAnalysis)SummerSchoolinStatisticsforAstronomersStatisticalChallengesinModernAstronomyAstroinformaticsAstrostatistics数据挖掘的参考文献〔I〕“FromDataMiningToKnowledgeDiscovery:AnOverview.〞Fayyad,U.M.,Piatetsky-Shapiro,G.,andSmyth,P.InAdvancesInKnowledgeDiscoveryAndDataMining,eds.U.M.Fayyad,G.Piatetsky-Shapiro,P.Smyth,andR.Uthurusamy,AAAIPress/TheMITPress,MenloPark,CA.,1996,pp.1-34.“DataMiningandMachineLearninginAstronomy〞,Ball,
Nicholas
M.;Brunner,
Robert
J.InternationalJournalofModernPhysicsD,Volume19,Issue07,pp.1049-1106(2021).■“ScientificDataMininginAstronomy〞
Borne,
Kirk
eprint
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024财务外包服务合同协议书
- 二零二五版电商直播领域主播形象使用权合同3篇
- 2024电影拍摄化妆服务合同3篇
- 2024版中介第三方担保合同
- 2024版劳务用工合同
- 2024水电能源开发协议
- 2024版工程建设合同补充协议范本
- 二零二五年度法律援助居间服务合同范本正规范本2篇
- 2024版知识产权许可使用协议
- 二零二五年度网络游戏开发合作经营合同协议书3篇
- 2024年08月云南省农村信用社秋季校园招考750名工作人员笔试历年参考题库附带答案详解
- 防诈骗安全知识培训课件
- 心肺复苏课件2024
- 2024年股东股权继承转让协议3篇
- 2024年认证行业法律法规及认证基础知识
- 江苏省建筑与装饰工程计价定额(2014)电子表格版
- 铸造工厂设备管理(共21页)
- 农产品收购台账(登记经营单位及个体经营者投售的农产品
- 分红保险精算规定
- Proud-of-you中英文歌词
- 基因的表达与调控.ppt
评论
0/150
提交评论