基础全面天文学中的数据挖掘课件_第1页
基础全面天文学中的数据挖掘课件_第2页
基础全面天文学中的数据挖掘课件_第3页
基础全面天文学中的数据挖掘课件_第4页
基础全面天文学中的数据挖掘课件_第5页
已阅读5页,还剩93页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基础全面天文学中的数据挖掘基础全面天文学中的数据挖掘概要必要性概念技术问题展望概要必要性天文学、天体物理学、天文统计学、天文学信息学天文学是研究宇宙空间天体、宇宙的结构和发展的学科。内容包括天体的构造、性质和运行规律等。主要通过观测天体发射到地球的辐射,发现并测量它们的位置、探索它们的运动规律、研究它们的物理性质、化学组成、内部结构、能量来源及其演化规律。天文学是一门古老的科学,自有人类文明史以来,天文学就有重要的地位。天体物理学是研究宇宙的物理学,这包括星体的物理性质(光度、密度、温度、化学成分等等)和星体与星体彼此之间的相互作用。应用物理理论与方法,天文物理学探讨恒星结构、恒星演化、太阳系的起源和许多跟宇宙学相关的问题。天文统计学是用统计学的知识来解决天文问题.天文信息学是用信息技术来解决天文学所面临的各种大数据问题.天文学、天体物理学、天文统计学、天文学信息学天文学是研究宇Astronomyfacing“dataavalanche”IRAS25m2MASS2mDSSOpticalIRAS100mWENSS92cmNVSS20cmGB6cmROSAT~keVNecessityIstheMotherofInventionDM&KDD大数据-巨信息量-全波段天文时代AstronomyfacingIRAS25m2MASS大型巡天导致天文学步入 一个新的时代

大多数数据大的人们无法看

这就需要存储技术、网络技术、数据库相关技术和标准等许多知识被数据的复杂性所掩盖而难以获得大多(不是所有的)经验关系是建立在3维参数空间基础上的,如椭圆和核球星系的基平面。宇宙就是这么简单还是人类认知的偏见?大部分数据人们是无法直接理解的这就需要数据挖掘、知识发现、数据理解技术、超高维可视化、人工智能/机器帮助的发现数据挖掘是帮助和加速科学发现过程的利器大型巡天导致天文学步入 大多数数据大的人们无法看●大数据●机器学习●可视化●云服务Credit:TonyHey●大数据●机器学习●可视化●云服务Credit:To天文数据的特点空间性多波段性海量性非线性异构性缺值性或坏标记分布性高维性时序性开放性天文数据的特点空间性基础全面天文学中的数据挖掘课件海量数据NVO(IVOA)注册的数据资源有~14,000一些大型的天文数据库包括NASA空间天文项目已经完成或正在进行的大型天文巡天项目,如:

MACHO和相关的暗物质巡天:~1TB

DPOSS:3TB

2MASS:10TB

GALEX:30TBSDSS:40TB将来的巨型巡天项目,如:

PanSTARRS:每晚10TB,,预计最终40PB

SKA:2020年中期运行,每天约0.5-10PBLSST(LargeSynopticSurveyTelescope):

2020开始运行,with3-Gigapixelcamera

每30秒10GB

每晚30TB,持续十年

预计最终的图像数据100PB

预计最终的星表数据30PB

每三晚巡全天一次:制作天体的电影海量数据NVO(IVOA)注册的数据资源有~14,00数据的大小和增长速度都在持续增长人类基因序列由约三十亿个碱基对组成。存储要求:约750兆15亿个传感器每秒传输四千万次数据流:约每秒700MB,约每天15PB来自34个国家的1000名科学家参与该项目成千上万的小型天线阵分布在三千多米范围内数据流:约每秒60GB,一天一百万PBSKA超级计算机约1亿台,每秒要执行1018次操作数据的大小和增长速度都在持续增长人类基因序列由约三十亿1天文数据的常用类型光谱数据图像数据星表数据时序数据模拟数据天文数据的常用类型光谱数据星系的图像和光谱、恒星和气体的光谱

早型星 晚型星 气体气体星系星系的图像和光谱、恒星和气体的光谱气体星系天文学:数据驱动的科学天文学:数据驱动的科学

天文学:是发现驱动的科学•驱动发现的因素:–新问题–新的思想–新模型–新理论–更重要的是新数据! 天文学:是发现驱动的科学–新问题天文学:是发现驱动的科学•发现导致:–新的问题–新思想–新模型–新理论–更重要的是...更多的新数据!•因此,需要更有效的挖掘和分析算法或工具天文学:是发现驱动的科学•发现导致:–新的问题–天文学家一直在从事数据挖掘“Thedataaremine,andyoucan’thavethem!”•严格意义上讲...•天文学家喜欢对事物进行分类...(监督学习.如,分类)•天文学家喜欢对事物归类...(非监督学习.如,聚类)•天文学家更希望发现新的天体或现象...(半监督学习.如,离群探测)天文学家一直在从事数据挖掘“Thedataaremin天文中的数据挖掘课题天文中的数据挖掘课题过去:100到1000个独立的分布的异构数据/元数据/信息库.目前:天文数据可以从融合的分布资源中获得,如虚拟天文台.将来:随着大型巡天项目的发展,天文学在未来将越来越成为数据密集型的科学.挑战:越来越难于将数据传输到用户…算法移植到数据!天文学研究的转变过去:100到1000个独立的分布的异构数据/元数科学研究的四个阶段第一范式 实验或测量第二范式 理论分析第三范式 数值模拟第四范式 数据密集型的科学

DataFusion+DM+ML科学研究的四个阶段第一范式数据驱动到数据密集天文学一直以来就是数据驱动的科学现在成为数据密集型的科学: 天文信息学(Astroinformatics)!

面向数据的天文学研究=“第四范式”

科学知识发现

第四范式:数据密集型的科学发现

ScientificKnowledge!•大数据集的优点:

很好地统计分析典型或特殊事件

•自动搜寻稀有事件数据驱动到数据密集天文学一直以来就是数据驱动的科学 面向数据量科学是数据密集型的大数据五“V”特点:Volume(数据量)Variety(多样性)Value(价值密度低)Velocity(速度快时效高)Veracity(真实性)超大型数据集数据迁移代价高学科标准高效计算的需求超算、HPC、网格如:高能物理、天文学大型数据集学科内标准共享数据中心合作研究如:基因组学、金融中型或小型数据集普通文档、EXEl广泛应用的各类数据、标准少本地服务器或计算机

如:社会科学、人文科学研究人员数目数据量科学是数据密集型的大数据五“V”特点:超大型数数据挖掘:从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。在天文学中,从海量天文数据中发现稀有或未知类型天体或天文现象。数据挖据的定义数据挖掘:从大量的、不完全的、有噪声的、模糊的、随机的实际应数据挖掘:知识发现的过程数据挖掘—知识发现过程的核心

课题定义 数据预处理 特征抽取/选择 数据挖掘模型选择 实验 结果的解释预评估

模式评估数据挖掘整个过程是不断重复和互动的,为的是获得更优的模型和更好的参数组合,…

速度 计算能力 专家知识数据挖掘:知识发现的过程数据挖掘—知识发现 模式评估有效的数据挖掘分解图知识库的语义创建模型和算法星表和元数据知识

数据(存储)透明的计算架构(网格、云、有效的数据挖掘分解图知识库的语义创建模型和算法星表和元数据知人工神经网络支持矢量机决策树遗传算法近邻算法规则推导粗糙集数据挖掘的常用技术人工神经网络数据挖掘的常用技术基础全面天文学中的数据挖掘课件数据总结分类分析聚类分析回归分析关联规则分析序列模式分析依赖关系分析偏差分析模式分析或统计分析时序数据分析其它数据挖掘的任务数据总结数据挖掘的任务分类分析(knownknowns)定义按照某种规则,新的数据被划分到已知类别中的一类。这个规则是通过具有标签的数据进行监督学习获得的。应用恒星分成不同的光谱型,星系按哈勃或形态分类,活动星系核进一步细分,等等方法神经网络决策树NaïveBayesianNetworks支持矢量机学习矢量量化遗传算法…….分类分析(knownknowns)定义按照某种规则,新分类器可以沿几个正交的轴来训练,探索所有的维数比较困难不同的任务需要不同的分类器来实现.采用何种分类器?

分类算法决策树,OC1神经网络最近邻规则或其他算法观测参量流量,位置,色参数,变化参量,空间扩展,…训练样本WGACAT,ROSATAllSkySurvey,...

X射线,

可见光,红外,...分类粗分:恒星vs.河外天体细分:A0vs.B0…,AGNvs.QSOvs.星系分类器可以沿几个正交的轴来采用何种分类器?决策树,OC1观聚类分析(uknownuknowns)定义:按照某种规律聚在一起的称为一类。所用的数据是无标签的,通过非监督的学习方式训练数据,类间的差异尽可能地大,而类内的差异尽可能地小。应用:SDSS的双色图恒星聚在一块如香蕉状,类星体则偏离该区域。方法:K均值聚类Hierarchicalclustering预期最大算法(ExpectationMaximizationalgorithm)高斯混合模型(Gaussianmixturemodeling)主成分分析……优越性新的概念(Conceptdiscovery)点滴知识(Bootstrappingknowledge)聚类分析(uknownuknowns)定义:按照某种规聚类分析聚类分析回归分析(knownuknowns)定义将一个连续应变量建模为一个或多个预测元的函数。这个规则是通过具有标签的数据进行监督学习获得的。应用恒星物理参数(Teff、g、[Fe/H])的测量,星系和类星体的测光红移,等等方法神经网络决策树 kNN支持矢量机核回归…….回归分析(knownuknowns)定义将一个连续应变N>10,如何有效地排序、分类?基本的天文问题–1聚类问题:在数据集中查找聚类的天体统计意义和科学意义上各个类别的重要性是什么?找“朋友的朋友”或近邻的最优算法?

10

维数~1000–因此,若干子空间搜索问题是否存在两点或更高阶的相关性?

N>1010,N-point相关怎么做?

与N2logN成正比的算法显然不能用N>10,如何有效地排序、分类?基本的天文问题基本的天文问题–2离群探测:(未知的未知)找到那些超出我们预期的天体或事件(不属于

已知类别)这些有可能是真正的科学发现或垃圾因此,离群探测可用于:新奇发现–Nobelprize?异常探测–探测系统是否正常工作?数据质量保证–数据流是否正常工作?在1000维空间中或感兴趣的子空间(低维空间)

中,如何最优化地探测到离群?怎样衡量“兴趣度”?基本的天文问题–2离群探测:(未知的未知)找到那些降维问题:寻找相关性和参数的基平面–维数成千上万

•维灾!–参数之间的相关性?线性或 非线性混合?–本征值或紧致表示是否可以 代表整个数据集的性质?基本的天文问题–3降维问题:寻找相关性和参数的基平面–维数成千上万基本的天基本的天文问题–4叠加和分解问题:在参数空间中重叠的天体找出它们的所属类别假设1010天体在1000维空间中重叠怎么办?如何最优地分解和抽取不同类型的天体?一些约束条件如何应用?基本的天文问题–4叠加和分解问题:在参数空间中重叠的最优化问题:在高维参数空间中如何找到复杂的多变量函数的最优解(最佳拟合、全局最大似然)基本的天文问题–5最优化问题:在高维参数空间中如何找到复杂的多变量函数的最“JustChecking”为什么需要分布的数据挖掘?

由于…

…许多重大的科学发现产生 于多数据源的交叉证认: --类星体 --Gamma-raybursts --极亮红外星系 --X射线黑洞双星 --射电星系...“JustChecking”为什么需要分布的数据挖掘?...天文数据的分布性不同的人、研究所、项目、国家、机构,…数据的异构性(如,数据库,图像,星表,文件 系统,网页,文档数据图书馆,二进制,文本, 结构的,非结构的,…)天文学家要查询和挖掘这些数据需要进行 两步操作尽管虚拟天文台驱动数据发现和融合,但是 仍然不能有助于大型数据挖掘的开展天文数据的分布性不同的人、研究所、项目、国家、机构,…分布的数据挖掘分布的数据挖掘有两种类型:1.分布的挖掘数据2.挖掘分布的数据第一类要求复杂的算法移植到数据第二类多种形式,数据整体存放或分割上集中,或者数据分布存放在不同的地方分布的数据挖掘分布的数据挖掘有两种类型:1.分布的挖掘数据实践数据挖掘线性或非线性高斯或非高斯连续或离散是否存在缺值对比特征和样本数按照数据挖据的任务和特征,

选择合适的数据挖掘算法实践数据挖掘线性或非线性高斯或非高斯未来天文数据的挑战统计、计算和挖掘方法用于peta-和exa-量级的可扩张性在海量多维数据空间中同时多点拟合的算法优化用于探索PB级数据的紧致表示的多分辨率、多级、分形、分级方法和结构PB量级数据的可视化分析(包括特征探测,模型和有趣事件或天体的发现,相关关系、聚类,新类型天体的发现,降维)高维PB级数据的索引和联合存储技巧(树、图、网络拓扑)PB级数据库的快速查询和搜索方法未来天文数据的挑战统计、计算和挖掘方法用于peta-和e

主要挑战知识发现工具可用性、可扩展性、互动的数据挖掘+可视化机器学习/人工智能和人机交互的发现社区的认知和职业规划改变科学届/学术届的文化奖励和认可机制超高维数据空间的可视化优化人类感知和理解可视化的数据探索和发现出版和合作的新形式超出论文的范畴;较好的合作工具培养新一代的科学家更好地使用在线的学习工具和方法 主要挑战可用性、可扩展性、互动的数据挖掘+可视化社区的认最为成功的巡天项目SDSS发表SCI论文5600余篇最为成功的巡天项目SDSS发表SCI论文5600余篇SDSS的主要科学发现发现红移高于6的类星体褐矮星引力透镜银河系的子结构小的低表面亮度星系超高速星重子声波振荡小行星家族/view/1424891.htm?fr=aladdinSDSS的主要科学发现发现红移高于6的类星体http://SDSS成功的原因天文学家与微软研究院的合作仪器设备一流产生的数据质量一流数据的获取和应用方便研究社区的巨大投入广泛的探索而非盲目的探索大数据时代,标着着天文学家独自搞科研的时代结束! 分享、合作、共赢是大数据时代的主旋律!SDSS成功的原因天文学家与微软研究院的合作大数据时代,标天文数据挖掘项目(I)http://dame.dsf.unina.it/●测光红移估计●球状星团搜寻●多波段测光暂源分类●天文图像分割/view/6268.htm?fr=aladdin/view/39664.htm?fr=aladdin天文数据挖掘项目(I)http://dame.dsf.un天文数据挖掘项目(II)/vostat/

VOSTAT

StatisticalAnalysisfortheVirtualObservatory

VOStat项目通过网页服务为天文学家提供 了一套工具。天文学家可以按照需要调用 简单的或复杂的程序来实现自己的任务。 这套工具是基于大的开源的统计计算语言 和环境R开发的。所有的统计计算在 VOStat的服务器端进行,算完后再传给用 户。天文数据挖掘项目(II)http://astrostati天文会议或组织ADASSADSSummerSchoolinStatisticsforAstronomersStatisticalChallengesinModernAstronomyAstroinformaticsAstrostatisticsAstrostatisticsandAstroinformaticsPortalASAIP:天文会议或组织ADASS基础全面天文学中的数据挖掘基础全面天文学中的数据挖掘概要必要性概念技术问题展望概要必要性天文学、天体物理学、天文统计学、天文学信息学天文学是研究宇宙空间天体、宇宙的结构和发展的学科。内容包括天体的构造、性质和运行规律等。主要通过观测天体发射到地球的辐射,发现并测量它们的位置、探索它们的运动规律、研究它们的物理性质、化学组成、内部结构、能量来源及其演化规律。天文学是一门古老的科学,自有人类文明史以来,天文学就有重要的地位。天体物理学是研究宇宙的物理学,这包括星体的物理性质(光度、密度、温度、化学成分等等)和星体与星体彼此之间的相互作用。应用物理理论与方法,天文物理学探讨恒星结构、恒星演化、太阳系的起源和许多跟宇宙学相关的问题。天文统计学是用统计学的知识来解决天文问题.天文信息学是用信息技术来解决天文学所面临的各种大数据问题.天文学、天体物理学、天文统计学、天文学信息学天文学是研究宇Astronomyfacing“dataavalanche”IRAS25m2MASS2mDSSOpticalIRAS100mWENSS92cmNVSS20cmGB6cmROSAT~keVNecessityIstheMotherofInventionDM&KDD大数据-巨信息量-全波段天文时代AstronomyfacingIRAS25m2MASS大型巡天导致天文学步入 一个新的时代

大多数数据大的人们无法看

这就需要存储技术、网络技术、数据库相关技术和标准等许多知识被数据的复杂性所掩盖而难以获得大多(不是所有的)经验关系是建立在3维参数空间基础上的,如椭圆和核球星系的基平面。宇宙就是这么简单还是人类认知的偏见?大部分数据人们是无法直接理解的这就需要数据挖掘、知识发现、数据理解技术、超高维可视化、人工智能/机器帮助的发现数据挖掘是帮助和加速科学发现过程的利器大型巡天导致天文学步入 大多数数据大的人们无法看●大数据●机器学习●可视化●云服务Credit:TonyHey●大数据●机器学习●可视化●云服务Credit:To天文数据的特点空间性多波段性海量性非线性异构性缺值性或坏标记分布性高维性时序性开放性天文数据的特点空间性基础全面天文学中的数据挖掘课件海量数据NVO(IVOA)注册的数据资源有~14,000一些大型的天文数据库包括NASA空间天文项目已经完成或正在进行的大型天文巡天项目,如:

MACHO和相关的暗物质巡天:~1TB

DPOSS:3TB

2MASS:10TB

GALEX:30TBSDSS:40TB将来的巨型巡天项目,如:

PanSTARRS:每晚10TB,,预计最终40PB

SKA:2020年中期运行,每天约0.5-10PBLSST(LargeSynopticSurveyTelescope):

2020开始运行,with3-Gigapixelcamera

每30秒10GB

每晚30TB,持续十年

预计最终的图像数据100PB

预计最终的星表数据30PB

每三晚巡全天一次:制作天体的电影海量数据NVO(IVOA)注册的数据资源有~14,00数据的大小和增长速度都在持续增长人类基因序列由约三十亿个碱基对组成。存储要求:约750兆15亿个传感器每秒传输四千万次数据流:约每秒700MB,约每天15PB来自34个国家的1000名科学家参与该项目成千上万的小型天线阵分布在三千多米范围内数据流:约每秒60GB,一天一百万PBSKA超级计算机约1亿台,每秒要执行1018次操作数据的大小和增长速度都在持续增长人类基因序列由约三十亿1天文数据的常用类型光谱数据图像数据星表数据时序数据模拟数据天文数据的常用类型光谱数据星系的图像和光谱、恒星和气体的光谱

早型星 晚型星 气体气体星系星系的图像和光谱、恒星和气体的光谱气体星系天文学:数据驱动的科学天文学:数据驱动的科学

天文学:是发现驱动的科学•驱动发现的因素:–新问题–新的思想–新模型–新理论–更重要的是新数据! 天文学:是发现驱动的科学–新问题天文学:是发现驱动的科学•发现导致:–新的问题–新思想–新模型–新理论–更重要的是...更多的新数据!•因此,需要更有效的挖掘和分析算法或工具天文学:是发现驱动的科学•发现导致:–新的问题–天文学家一直在从事数据挖掘“Thedataaremine,andyoucan’thavethem!”•严格意义上讲...•天文学家喜欢对事物进行分类...(监督学习.如,分类)•天文学家喜欢对事物归类...(非监督学习.如,聚类)•天文学家更希望发现新的天体或现象...(半监督学习.如,离群探测)天文学家一直在从事数据挖掘“Thedataaremin天文中的数据挖掘课题天文中的数据挖掘课题过去:100到1000个独立的分布的异构数据/元数据/信息库.目前:天文数据可以从融合的分布资源中获得,如虚拟天文台.将来:随着大型巡天项目的发展,天文学在未来将越来越成为数据密集型的科学.挑战:越来越难于将数据传输到用户…算法移植到数据!天文学研究的转变过去:100到1000个独立的分布的异构数据/元数科学研究的四个阶段第一范式 实验或测量第二范式 理论分析第三范式 数值模拟第四范式 数据密集型的科学

DataFusion+DM+ML科学研究的四个阶段第一范式数据驱动到数据密集天文学一直以来就是数据驱动的科学现在成为数据密集型的科学: 天文信息学(Astroinformatics)!

面向数据的天文学研究=“第四范式”

科学知识发现

第四范式:数据密集型的科学发现

ScientificKnowledge!•大数据集的优点:

很好地统计分析典型或特殊事件

•自动搜寻稀有事件数据驱动到数据密集天文学一直以来就是数据驱动的科学 面向数据量科学是数据密集型的大数据五“V”特点:Volume(数据量)Variety(多样性)Value(价值密度低)Velocity(速度快时效高)Veracity(真实性)超大型数据集数据迁移代价高学科标准高效计算的需求超算、HPC、网格如:高能物理、天文学大型数据集学科内标准共享数据中心合作研究如:基因组学、金融中型或小型数据集普通文档、EXEl广泛应用的各类数据、标准少本地服务器或计算机

如:社会科学、人文科学研究人员数目数据量科学是数据密集型的大数据五“V”特点:超大型数数据挖掘:从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。在天文学中,从海量天文数据中发现稀有或未知类型天体或天文现象。数据挖据的定义数据挖掘:从大量的、不完全的、有噪声的、模糊的、随机的实际应数据挖掘:知识发现的过程数据挖掘—知识发现过程的核心

课题定义 数据预处理 特征抽取/选择 数据挖掘模型选择 实验 结果的解释预评估

模式评估数据挖掘整个过程是不断重复和互动的,为的是获得更优的模型和更好的参数组合,…

速度 计算能力 专家知识数据挖掘:知识发现的过程数据挖掘—知识发现 模式评估有效的数据挖掘分解图知识库的语义创建模型和算法星表和元数据知识

数据(存储)透明的计算架构(网格、云、有效的数据挖掘分解图知识库的语义创建模型和算法星表和元数据知人工神经网络支持矢量机决策树遗传算法近邻算法规则推导粗糙集数据挖掘的常用技术人工神经网络数据挖掘的常用技术基础全面天文学中的数据挖掘课件数据总结分类分析聚类分析回归分析关联规则分析序列模式分析依赖关系分析偏差分析模式分析或统计分析时序数据分析其它数据挖掘的任务数据总结数据挖掘的任务分类分析(knownknowns)定义按照某种规则,新的数据被划分到已知类别中的一类。这个规则是通过具有标签的数据进行监督学习获得的。应用恒星分成不同的光谱型,星系按哈勃或形态分类,活动星系核进一步细分,等等方法神经网络决策树NaïveBayesianNetworks支持矢量机学习矢量量化遗传算法…….分类分析(knownknowns)定义按照某种规则,新分类器可以沿几个正交的轴来训练,探索所有的维数比较困难不同的任务需要不同的分类器来实现.采用何种分类器?

分类算法决策树,OC1神经网络最近邻规则或其他算法观测参量流量,位置,色参数,变化参量,空间扩展,…训练样本WGACAT,ROSATAllSkySurvey,...

X射线,

可见光,红外,...分类粗分:恒星vs.河外天体细分:A0vs.B0…,AGNvs.QSOvs.星系分类器可以沿几个正交的轴来采用何种分类器?决策树,OC1观聚类分析(uknownuknowns)定义:按照某种规律聚在一起的称为一类。所用的数据是无标签的,通过非监督的学习方式训练数据,类间的差异尽可能地大,而类内的差异尽可能地小。应用:SDSS的双色图恒星聚在一块如香蕉状,类星体则偏离该区域。方法:K均值聚类Hierarchicalclustering预期最大算法(ExpectationMaximizationalgorithm)高斯混合模型(Gaussianmixturemodeling)主成分分析……优越性新的概念(Conceptdiscovery)点滴知识(Bootstrappingknowledge)聚类分析(uknownuknowns)定义:按照某种规聚类分析聚类分析回归分析(knownuknowns)定义将一个连续应变量建模为一个或多个预测元的函数。这个规则是通过具有标签的数据进行监督学习获得的。应用恒星物理参数(Teff、g、[Fe/H])的测量,星系和类星体的测光红移,等等方法神经网络决策树 kNN支持矢量机核回归…….回归分析(knownuknowns)定义将一个连续应变N>10,如何有效地排序、分类?基本的天文问题–1聚类问题:在数据集中查找聚类的天体统计意义和科学意义上各个类别的重要性是什么?找“朋友的朋友”或近邻的最优算法?

10

维数~1000–因此,若干子空间搜索问题是否存在两点或更高阶的相关性?

N>1010,N-point相关怎么做?

与N2logN成正比的算法显然不能用N>10,如何有效地排序、分类?基本的天文问题基本的天文问题–2离群探测:(未知的未知)找到那些超出我们预期的天体或事件(不属于

已知类别)这些有可能是真正的科学发现或垃圾因此,离群探测可用于:新奇发现–Nobelprize?异常探测–探测系统是否正常工作?数据质量保证–数据流是否正常工作?在1000维空间中或感兴趣的子空间(低维空间)

中,如何最优化地探测到离群?怎样衡量“兴趣度”?基本的天文问题–2离群探测:(未知的未知)找到那些降维问题:寻找相关性和参数的基平面–维数成千上万

•维灾!–参数之间的相关性?线性或 非线性混合?–本征值或紧致表示是否可以 代表整个数据集的性质?基本的天文问题–3降维问题:寻找相关性和参数的基平面–维数成千上万基本的天基本的天文问题–4叠加和分解问题:在参数空间中重叠的天体找出它们的所属类别假设1010天体在1000维空间中重叠怎么办?如何最优地分解和抽取不同类型的天体?一些约束条件如何应用?基本的天文问题–4叠加和分解问题:在参数空间中重叠的最优化问题:在高维参数空间中如何找到复杂的多变量函数的最优解(最佳拟合、全局最大似然)基本的天文问题–5最优化问题:在高维参数空间中如何找到复杂的多变量函数的最“JustChecking”为什么需要分布的数据挖掘?

由于…

…许多重大的科学发现产生 于多数据源的交叉证认: --类星体 --Gamma-raybursts --极亮红外星系 --X射线黑洞双星 --射电星系...“JustChecking”为什么需要分布的数据挖掘?...天文数据的分布性不同的人、研究所、项目、国家、机构,…数据的异构性(如,数据库,图像,星表,文件 系统,网页,文档数据图书馆,二进制,文本, 结构的,非结构的,…)天文学家要查询和挖掘这些数据需要进行 两步操作尽管虚拟天文台驱动数据发现和融合,但是 仍然不能有助于大型数据挖掘的开展天文数据的分布性不同的人、研究所、项目、国家、机构,…分布的数据挖掘分布的数据挖掘有两种类型:1.分布的挖掘数据2.挖掘分布的数据第一类要求复杂的算法移植到数据第二类多种形式,数据整体存放或分割上集中,或者数据分布存放在不同的地方分布的数据挖掘分布的数据挖掘有两

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论