天文学中的数据挖掘ppt课件_第1页
天文学中的数据挖掘ppt课件_第2页
天文学中的数据挖掘ppt课件_第3页
天文学中的数据挖掘ppt课件_第4页
天文学中的数据挖掘ppt课件_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、天文学: 数据驱动的科学Ofer Lahav, 2006, astro-ph/0610703Summary on the 4th meeting on “Statistical Challenge in Modern Astronomy held at Penn State University in June 2006 大数据集的优点: 很好地统计分析典型或特殊事件 自动搜索稀有事件Scientific Knowledge !第四范式第四范式: : 数据密集型的科学发现数据密集型的科学发现定义定义数据发掘:从大量的、不完全的、有噪声的、 模糊的、随机的实践运用数据中, 提取隐含在其中的、人们

2、事先不知 道的、但又是潜在有用的信息和知 识的过程。 NoImage巨量价值EDPMISDSS知识发现的优点产生快速呼应发布EDP: 电子数据加工MIS: 管理信息系统DSS: 决策支持系统数据清洁数据清洁数据交融数据交融数据库数据库数据仓库数据仓库特定义务的数据特定义务的数据选择选择数据发掘数据发掘方式评价方式评价数据发掘:知识发现的过程数据发掘:知识发现的过程数据发掘数据库系统统计学其它学科信息科学机器学习&人工智能可视化数据发掘:多学科的交叉学科数据发掘:多学科的交叉学科数据丰富知识贫乏数据丰富知识贫乏驱动技术:驱动技术:(互动的管理信息系统互动的管理信息系统, OLAP, 并行

3、计算并行计算, Web, etc.)竞争的压力竞争的压力数据发掘技术的成数据发掘技术的成熟熟KDD数据发掘的义务数据发掘的义务n支持矢量机n学习矢量量化n遗传算法n.分类器可以沿几个正交的轴来训练,探求一切的维数比较困难不同的义务需求不同的分类器来实现.分类算法决策树, OC1神经网络最近邻规那么或其他算法观测参量流量, 位置, 色参数, 变化参量, 空间扩展, X射线, 可见光, 红外, .训练样本WGACAT, ROSAT All Sky Survey, .分类粗分: 恒星 vs. 河外天体细分: A0 vs. B0, AGN vs. QSO vs. 星系n优越性n新的概念(Concept

4、 discovery)n点滴知识(Bootstrapping knowledge)聚类分析聚类分析1Djorgovski,etal.n怎样衡量怎样衡量“兴趣度兴趣度? 维数成千上万维数成千上万 维灾维灾 ! ! 参数之间的相关性?线性或参数之间的相关性?线性或非线性混合非线性混合? ? 本征值或紧致表示能否可以本征值或紧致表示能否可以代表整个数据集的性质代表整个数据集的性质? ?n为什么需求分布的数据发掘?由于由于 “Just Checking 许多艰苦的科学发现产生许多艰苦的科学发现产生于多数据源的交叉证认于多数据源的交叉证认: :- - 类星体类星体- Gamma-ray bursts- Gamma-ray bursts- - 极亮红外星系极亮红外星系- X- X射线黑洞双星射线黑洞双星- - 射电星系射电星系 . . . . . . 测光红移估计 球状星团搜索多波段测光暂源分类 天文图像分割VOSTATStatistical Analysis for the Virtual Observatory VOStat工程经过网页效力为天文学家提供了一套工具。天文学家可以按照需求调用简单的或

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论