下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、中国科学 g 辑: 物理学 力学 天文学 2009 年 第 39 卷 第 12 期: 1794 1799 中国科学杂志社science in china press基于自动聚类算法(autoclass)的恒星/星系分类严太生, 张彦霞*, 赵永恒, 李冀* 河北师范大学物理科学与信息工程学院, 石家庄 050016; 中国科学院国家天文台, 北京 100012* e-mail: ; zyxsunny; liji收稿日期: 2009-05-21; 接受日期: 2009-07-13国家自然科学基金(批准号: 10778724, 10778616)和国家高科技研究发展计划(
2、编号: 2006aa01a120)资助项目摘要自动聚类算法(autoclass)是一种非监督的能对复杂数据进行精确的自动聚类的有效分关键词恒星/星系autoclass数据分析类方法, 可以事先设定好类别数目让 autoclass 自动寻找, 在寻找结束后, 能够得到每一条数据分别属于每一类别的几率, 这样可以根据专业知识, 选出比较好的分类效果. 描述了使用 autoclass 对 sdss dr6 的恒星/星系测光数据进行分类, 将 868974 条测光数据进行处理, 通过 去离群数据和自动聚类的方法, 将最终的 812613 条数据分成两类, 其中星系和恒星的数据分别 是 680361 和
3、 126988 条. 对于去掉离群后的数据, 星系和恒星的分类正确率分别达到 99.51%和98.52%, 表明 autoclass 算法对去掉离群数据后的恒星/星系数据分类有很好的效率. 因此, 可 以将该算法应用于天文中的其他分类问题, 另外基于该算法的非监督性, 可以帮助天文学家去 掉离群数据或发现一些特殊天体.条数据得到了可靠的分类结果. mahonen 等人3使用模糊分类(fuzzy cl as si fie r ) 和神经网络算法, 对由 odewahn 等人用 aps 产生的 9245 条复杂的非线性数 据进行分类, 结果表明模糊分类算法在处理复杂数 据类型时显示出优越性. mo
4、ore 等人4运用数学形态 学方法(mathematical morphology), 对 ccd 图像进行 分类, 结果显示对于早型椭圆星系和晚型旋涡星系 能精确分类, 但对恒星的误分率较高.本文描述了对 sdss dr6 经过光谱证认的恒星/ 星系的测光数据的分析处理, 主要目标是对恒星和 星系的测光数据进行分类. 分析处理数据的重要一 步是如何正确处理偏离量的问题. 在此我们采用数 据挖掘技术先对数据进行离群数据的去除, 然后进 行聚类分析. 聚类计算用于发现给定的数据集中的恒星/星系的分类是天文学的基本分类任务之一,主要是根据恒星和星系在不同波段的表现性质的不 同, 应用不同的方法将它
5、们各自区分开来. 这对我们 了解恒星和星系形成与演化历史以及发现特殊天体 都具有重要的研究价值. 尤其对现在日益发展的大 型巡天计划及由此产生的海量数据而言, 如何将天 体自动分类显得尤为重要.目前, 已有许多研究者在这方面进行了研究与 探索工作. 例如: ph ilip 等人1 应用神经网络算法 (neural networks), 对 sdss 早期释放的恒星/星系图 像数据进行分类, 没有明显的误分, 取得了很好的分 类结果. ball 等人2采用决策树算法(decision trees), 对 sdss dr3 的 477068 条数据进行训练, 然后对14300 万条数据测试, 发现
6、对星等 r20 等的 2200 万引用格式: 严太生, 张彦霞, 赵永恒, 等. 基于自动聚类算法(autoclass)的恒星/星系分类. 中国科学 g 辑, 2009, 39(12): 17941799隐藏形式和趋势, 它将具有类似特点的数据聚成一类. 我们选择使用了 autoclass 自动聚类算法工具5. 通过 autoclass 自动聚类得到的分类器, 可以对没有 光谱证认的测光数据进行分类预测, 从而可以提高 分类的效率和正确率.2自动聚类算法(autoclass)autoclass 是一种基于贝叶斯理论的数据聚类算 通过对数据进行处理, 计算出每条数据属于每个法,类别的几率值, 将
7、数据进行聚类, 详细的理论可参考文献 5. 自动聚类 程序 (autoclass program) 是由 cheeseman 和 stutz 在 1995 年开发出来的, 程序可以 从该网站 (/ic/projects/bayes-group/ autoclass/autoclass-c) 上获 得 . 与其他算 法相比 , autoclass 具有以下的优点:( ) 聚类的数据不需要预先给定数据的类别, 但是定义了每个数据成员. 应用 autoclass 聚类后得 到每一组数据分别属于每一类的几率, 根据我们的 专业知识, 决定出比较好的分类结果.(
8、) 可以处理连续型或是离散型数据. 在 auto- class 中, 每一组数据都以一个向量来表示, 其中每 个分量都分别代表不同的属性, 这些属性数据可以是连续型或是离散型.( ) autoclass 要求我们将资料存成 data file(存数据文件)与 header file(描述数据的文件)两 部分 , 如此可 以让 使用者 自由 搭配 data file 和 header file 而节省输入数据的时间.() 可以处理缺值数据. 当一组数据中的某些 属性值有缺漏时, autoclass 仍可将此组数据进行聚 类. 同时, autoclass 也存在以下缺点:() autoclass
9、不是一个完全自动化的聚类算法, 需要主观地决定数据的适当群数范围, 而此问题却 是聚类的一大难题.1sdss 数据简介sdss 是 sloan 数字巡天计划(sloan digital skysurvey)的简称. 该巡天计划将预计覆盖北天球的一半天区(北银级地区), 和少部分南天球天区6. sdss 的 cdd 测光系统利用 6 组 cdd 同时对天体进行 5 个波段(u,g,r,i,z)的测量. 5 个波段相应的中心波长分 别为 3551, 4686, 6165, 7481 和 8931, 其相对应的极 限星等分别为 22.0, 22.2, 22.2, 21.3, 20.5. 最终, sd
10、ss 的测光系统将能获得 1 亿多个天体准确的位置及星 等的测量, 而对其中 100 多万个恒星/星系数据进行 光谱证认.sdss 的天体基本测光参数包括星等、颜色、轮 廓、大小等; 而光谱基本参数包括红移、光谱型等. 在 测光数据中, sdss 采用一种修正过的 petrosian 星等系统7.在 petrosian 星等基础上还给出另外一些重要的参数, 如 psf 星等、petror50、petror90 等, 除了petrosian 星等系统外, 参数还包括模型星等. 模型星 等是通过利用指数轮廓和 de vaucouleurs 轮廓, 对光度轮廓进行拟合, 取两种拟合中较好的一个作为最
11、终的模型星等, 主要的参数见表 1. 关于 sdss 详细 介绍可以参考有关文献 (http//wp-content/uploads/2007/08/sdss.pdf).表 1 sdss 中有关恒星/星系的主要参数的简单介绍参数名称代表符号参数性质模型星等petrosian 星等 psf 星等 petrosian 半径包含 50% petrosian 流量的半径 包含 90% petrosian 流量的半径 devaucouleurs 盘拟合半径 指数盘拟合半径devaucouleurs 盘拟合半长轴与半短轴之比 指数盘拟合半长轴与半短轴之比 deva
12、ucouleurs 盘拟合的概率对数 指数盘拟合的概率对数modelmagpetromag psfmag petrorad petror50petror90 devrad exprad devab expab lnldevinlexpmodel u,g,r,i,zpetro u,g,r,i,z psfmag u,g,r,i,z rpr50r90严太生等: 基于自动聚类算法(autoclass)的恒星/星系分类() 使用 autoclass 处理数据时, 必须不断地重复假设与测试, 并结合专业知识与程序, 才能得到良 好的结果, 因而要花费大量的时间.() 没有提供一个先验标准来预测一组数据是
13、否能够聚类, 因而带有一定的臆断性.() 没有提供一个后验方法来评估分类的结果 是否可以信赖.由于 autoclass 这些优点和缺点, 在聚类时可以 应用我们的专业知识首先对数据进行合理的判断, 克服 autoclass 本身的缺点而发挥它的优点, 这样得到 的聚类结果就比较真实客观、科学合理. autoclass 可 以广泛应用于工程技术8、生物学9、无线网络数据 处理10等方面的数据处理, 具体应用可参考文献11.体进行分类, 结果表明没有明显的误分, 正确率达到98%以上. 虽然这种截断方法得到了很高的正确率, 但它只能实用于低维数据中, 并不能充分利用所给 的信息, 带有很大的偶然性
14、.我们应用 autoclass 将 sdss dr6 的所有经过光 谱证认的 868974 条恒星/星系测光数据分成两类并计 算分类的正确率. 参照 strauss 参数选择标准, 我们使用测光数据中 psf 星等的 psf(u), psf(g), psf(r), psf(i), psf(z)等 5 个星等与模型星等的 model(u), model(g), model(r), model(i), model(z)等 5 个星等的差值, 即psf(u)-model(u), psf(g)-model(g), psf(r)-model(r), psf(i)-model(i), psf(z)-mod
15、el(z)共 5 列数据, 数据的分 布见图 1, 由图 1 可以看出恒星和星系几乎重叠在一 起. 图 2 是 5 个星等差数据密度分布直方图, 从中可 以看出重叠部分的密度差别很大. 在图 1 右上很大区 域内, 恒星离散数据不到 4000 条, 而左下较小区域 内, 星系离散数据也仅 6000 多条, 总的离散数据占 整个数据仅百分之一. 为了使 autoclass 能有更好的 分类效果, 首先要对数据进行预处理, 将其中的离群 数据挑选出来. 我们将星系测光数据共 728109 条同3autoclass 应用于恒星/星系分类根据点源( 恒星) 和展源( 星系) 不同表现来研究psf(po
16、int spread function, 点扩散函数)星等与模型(model)星等的差值分布情况(/dr4/ algorithms/classify.html), 对恒 星 / 星系 进行 分类 . strauss 等人11选择 r*psf r*model0.3 作为分类方法 对 13772 个 petrosian 星等 r 波段 r*p 17.8 星等的天样选择psf(u)- mo del(u ),psf(g)- mo d e l(g) ,psf( r)-图 1 原始的星等数据分布图model(r), psf(i)- model(i), psf(z)- m
17、odel(z)作为输入参数. 对星系数据, 用自动聚类算法将数据聚为两类, 其中一类数据比较少的作为离群数据处理, 这样得 到去掉离群后的星系测光数据为 683712 条. 采取同处理, 得到去掉离群后的数据为 128901 条. 去掉离群后的恒星/星系测光数据的分布如图 3 所示. 由图 3 可以看出图形很光滑, 没有了离群数据, 也几乎没有 重叠部分, 说明去离群效果很好, 同时也可以看出恒样的方法,将 140865 条恒星的测光数据用 autoclass星和星系都各自聚集在一起,所以选择的参数有很图 2原始的 5 个波段 psf 星等与模型星等差数据分布直方图图 3 去离群后的星等差数据
18、分布图严太生等: 基于自动聚类算法(autoclass)的恒星/星系分类好的聚类特性. 然后, 再将去掉离群后的 683712 条星系测光数据和 128901 条恒星数据合在一起, 同样 选择 psf(u)-model(u), psf(g)-model(g), psf(r)-model(r),psf(i)-model(i), psf(z)-model(z) 5 列数据作为数据文件(data file), 用自动聚类算法再分成两类, 结果显示 其中有 680361 条星系测光数据和 126988 条恒星测光 数据能得到正确分类, 分类的结果和正确率见表 2. 由表 2 可以看出, 自动聚类算法对
19、去掉离群后的数据 分类有很高的正确率 , 星系和恒星分别达到了 99.51%和 98.52%, 对于没去离群数据的原始数据分 类的正确率也分别达到了 93.44%和 90.15%. 这两种情况对比, 可以发现去掉离群数据有助于提高正确率. 而且这两种情况下的正确率都在 90%以上, 说明 该聚类算法用于该分类问题时具有很好的效果. 整 个程序 search 运行时间是 222 s, reports 运行时间是15 s, 共用时 237 s. 从分类正确率和运行时间来看,自动聚类算法 autoclass 显示出很好的分类效率.4结论自动聚类算法 autoclass 的研究结果表明它对去掉缺值和离
20、群的 sdss dr6 恒星/星系测光数据分类有很高的正确率, 适合用它对此类数据进行分类, 因 此可以用它去构造分类器, 来对没有进行光谱证认 的测光数据进行类型预测, 从而提高分类的正确率 和效率. 进一步研究发现, 那些去掉离群后的恒星和 星系数据都聚集在很小的范围内, 它们内部之间的 属性非常接近, 分别对应的是正常的恒星/星系; 而 离群数据分布很散漫, 分布范围非常的广泛, 各自之 间的属性差异也很大, 它们对应的可能是特殊的恒 星和不规则星系, 以及其他类别的特殊天体(如: hii, irs 和 radio 等). autoclass 还可以处理几十维高维数 据和缺值数据. 但
21、autoclass 不是一个完全自动化的 分类方法, 需要对被分类的数据属性、数据范围以及 类别数目预先定义, 这就需要有专业知识, 对数据有 比较深的了解. 可以通过调试数据属性和数据范围 来改变分类的正确率, 使结果达到最优效果. 这样根 据自动聚类算法的操作特性, 提供对测光数据进行 有效分类的有用信息. 鉴于自动聚类算法自身的优 越性, 即数据可以根据自己的属性来聚类, 因而有助 于去掉离群数据, 亦或发现一些稀有的或特殊的天 体和天文现象.表 2 自动聚类结果星系恒星原始数据条数原始数据的正确分类数据条数 原始数据分类正确率/% 去离群后的数据条数 去离群后的正确分类数据条数7281
22、0968034593.4468371268036114086512699090.15128901126988 去离群后的分类正确率/% 99.51 98.52 参考文献 1philip n s, wadadekar y, kembhavi a, et al. a difference boosting neural network for automated star-galaxy classification. astronatrophys, 2002, 385: 11191126ball n m, brunner r j, myers a d. robust machine learnin
23、g applied to astronomical data sets. i. star-galaxy classification of the sloan digital sky survey dr3 using decision trees. astrophys j, 2006, 650: 497509mahonen p, frantti t. fuzzy classifier for star-galaxy separation. astrophys j, 2000, 541: 261263moore j a, pimbblet k a, drinkwater m j. mathema
24、tical morphology: star/galaxy differentiation & galaxy morphology classification. publ astron soc austral, 2006, 23: 135146cheeseman p, stutz j. bayesian classification (autoclass): theory and results. in: fayyad u m, piatetsky-shapiro g, smyth p, et al, eds. aaai/mit press: cambridge, menlo park: a
25、aai press, 1996. 153180york d g, adelman j, anderson j e, et al. the sloan digital sky survey: technical summary. astron j, 2000, 120: 15791587petrosian v. surface brightness and evolution of galaxies. astrophys j, 1976, 209: l1l5张蕾, 何小荣, 陈丙珍常减压装置生产数据的聚类分析计算机与应用化学, 2003, 20: 143147 包雷, 李泽, 孙之荣贝叶斯聚类在
26、基因表达谱知识挖掘中的应用生物物理学报, 2002, 1: 6670 谢博文. 自动分类软体在动作电位上的研究. 硕士学位论文. 台北: 中央大学, 20062631strauss m a, weinberg d h, lupton r h, et al. spectroscopic target selection in the sloan digital sky survey: the main galaxy sample. astron j, 2002, 124: 18101824234567891011classification of stars/galaxies based on
27、autoclassyan taisheng1,2, zhang yanxia2*, zhao yongheng2 & li ji1*1 hebei normal university, shijiazhuang 050016, china;2 national astronomical observatories, chinese academy of sciences, beijing 100012, chinaautoclass is an unsupervised valid classification algorithm which can carry on accurately automated clustering on complex data, set the number of classification in advance and perform autoclass to search after, then get a probability of every data belonging to some type, and fi- nally decid
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 质量检测合同模板
- 2024年度平房区环境整治:建筑施工合同范本
- 开发商授权拆迁补偿合同
- 2024年住家保姆工作协议
- 劳务协议书样式
- 简单工程承包协议范例
- 2024标准临时用工合同样本
- 2024年苏州市租房合同范本
- 拼车服务协议示例
- 2024中介的买卖合同书范文
- 初中语文人教七年级上册要拿我当一挺机关枪使用
- 北京颂歌原版五线谱钢琴谱正谱乐谱
- 病史采集和临床检查方法
- PSUR模板仅供参考
- 火力发电企业作业活动风险分级管控清单(参考)
- 民法典合同编之保证合同实务解读PPT
- 全国第四轮学科评估PPT幻灯片课件(PPT 24页)
- 大气污染控制工程课程设计-某厂酸洗硫酸烟雾治理设施设计
- 名牌包包网红主播电商直播带货话术脚本
- 高考语文作文素材人物速递——苏炳添课件18张
- 蛋鸡养殖场管理制度管理办法
评论
0/150
提交评论