应用AutoClass算法聚类分析SDSS巡天的恒星数据_第1页
应用AutoClass算法聚类分析SDSS巡天的恒星数据_第2页
应用AutoClass算法聚类分析SDSS巡天的恒星数据_第3页
应用AutoClass算法聚类分析SDSS巡天的恒星数据_第4页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、应用AutoClass算法聚类分析SDSS巡天的恒星数据严太生2008年11月于太原提纲 恒星自动分类/聚类的背景 AutoClass算法 SDSS数字巡天及参数选取 AutoClass分类结果及讨论 结论1 恒星自动分类/聚类的背景一个完整详细的恒星样本不仅对于恒星的基本组成,演化历史,而且对于研究星系结构和演化都有很重要的意义。随着从地面和空间观测设备获取大量的数据,构建大的完整的样本成为可能。为了提高分类/聚类的效率,我们需要依靠区别性很好的分类器。 相关的恒星自动分类/聚类工作列举如下:A)Bazarghan (2008) 运用神经网络对从O型星到M型星的5000个光谱分类成158个光

2、谱类型。B)应用GLIMPSE中红外巡天数据,Mercer (2005) 运用自动检测算法在银河系星系盘中发现了一些新星团。C)使用支持矢量机算法,Wozniak (2004) 从北天变星巡天数据中发现8678个慢变星。D)Froebrich (2008) 通过分析恒星密度图和颜色-颜色/星等图,对银河系新的星团进行分类。E)Jaschek (1990) 撰写了一本关于恒星分类的工具,方法和结果等综合小册子。2 AutoClass算法介绍AutoClass是基于Bayesian理论的一种非监督分类算法。它通过结合对实型的或者离散型的数值特性的类别描述,自动发现数据的自然分类。对于实型数据, A

3、utoClass应用高斯分布,而对于离散型数据应用Bernoulli分布。 AutoClass的几个关键特性如下:A)自动确定类别的数目;B)能使用实型的和离散型的混合数据;C)能够处理缺值数据;D)处理需要的时间与数据量成简单的线形关系;E)产生一个报告描述发现的类别,并且通过训练数据构建的分类器预测测试数据的类型。 AutoClass被广泛应用于天文和其他的领域,有助于发现一些未知的令人惊奇的类别。3 SDSS数字巡天及参数选取A)SDSS数字巡天简介 SDSS数字巡天是一个在天文上非常富有野心的重要的巡天。它已经观测了将近2亿个天体,对其中的67万5千个星系,9万个类星体和18万5千多个

4、恒星拍摄了光谱;此外,它得到了超过1/4天区的93万个星系和12万类星体在可见光五个波段的图象数据。B)分类参数选取 我们选取SDSS DR6的恒星具有光谱的测光数据(即已经过光谱证认的测光数据),通过去缺值,得到140865条恒星测光数据。 为了实现在多维空间中的恒星聚类,每条数据记录都包含有5个属性(psf_u-u,psf_g-g,psf_r-r,psf_i-I,psf_z-z),即PSF星等和模型星等在五个波段的各自差值。4 AutoClass分类结果及讨论A)AutoClass分类结果我们将恒星分类限制在两类(stars和non-stars,这里non-stars是指特殊恒星和非恒星天

5、体),并且将AutoClass的模型参数设置为Single_normal(没有缺值的实数特性模型)。通过运行search程序,我们获得分类结果是139874个stars和991个non-stars。Stars和Non-stars分布图i)星等-星等图StarsNon-starsii)颜色-星等图StarsNon-starsB) non-stars的证认我们已经应用AutoClass获得了分类结果并且选出了non-stars。下面的任务就是对这些non-stars进行证认。i)通过SIMBAD证认在SIMBAD中,将non-stars的坐标输入进去,将半径误差范围设置为2角秒,共获得25个non

6、-stars的证认信息。以下是25个证认的non-stars的星等/颜色-星等图ii)通过NED证认在NED中,将non-stars的坐标输入进去,将半径误差范围设置为6角秒,共获得50个non-stars的证认信息。以下是50个证认的non-stars的星等/颜色-星等图iii)通过SDSS image/spectra证认对于不能通过SIMBAD和NED证认的non-stars,通过检测它们的图象和光谱进行证认。随机挑选10个non-stars的数据,将它们的坐标输入进去,下表列出了10个天体的证认信息。(如果图象和光谱证认的信息不一致,以光谱分类为准)C)计算non-stars的分类正确率

7、。下表列举出通过三种证认得到的百分率,得到通过SIMBAD, NED和通过SDSS image/spectra证认的正确率分别为76.0%,98.0%和80.0%,而总的正确率为89.4%。D)讨论存在一些因素影响分类的效率和结果:i)任何算法(包括监督和非监督)都要受到它处理的数据的限制。ii)由于缺少更多有用的信息,我们不能计算stars的分类正确率,也不能详细证认每个non-stars的类型。iii) AutoClass算法本身并不知道每个类型的具体意义。等等但是根据系统差异和任务指标,我们能够建立一个良好的分类器来完成我们的分类,并获得了一些有意义的结论。i)我们在颜色星-等图或星等-

8、星等图中发现stars和non-stars是几乎重叠在一起的, non-stars并不一定分布在边缘区域。所以不能通过直观区分2维空间上的离群数据(即non-stars),这也正是应用AutoClass的原因。ii)我们注意到在通过SIMBAD和NED证认的星等-星等图中, 有趣的是non-stars的分布几乎形成一条斜线,而在颜色-星等图中分布几乎形成一条水平线,或许其中暗含一些证认信息。iii)从NED证认的分布图中,我们可以发现同一类的non-stars基本上是聚集在一个很小的区域。 我们的工作是对恒星的聚类。另外,将来可以通过调整输入参数看是否能提高它的分类效率和性能;也可以进一步研究

9、此算法是否也适用于其他类型的数据处理。5 结论 AutoClass分类不需要先验知识 ,它仅仅根据观察数据本身来获得聚类信息。从我们的结果可以得出它可以用于SDSS 恒星测光数据的聚类分析,从而有助于建立一个纯的恒星样本。从分类的结果更能体现这个结论。通过分析,可以得出如下的结论:i)分析证认的non-stars结果,发现它们大部分是galaxy,HII,late-star等等。ii)由AutoClass构建的分类器可以用于预测没有经过光谱证认的恒星的测光数据的类型iii)至于那些没有能够被证认的non-stars,可以用大望远镜去跟踪观测,或许能发现稀有天体。iv)分类的正确率约高达90%,AutoClass可以有效的在大样本数据中发现特殊天体。v)仔细观察相同类的non-stars的分布结

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论