




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
高丹中国虚拟天文台研发团队ChineseVirtualObservatory
大数据量交叉证认算法研究大数据量交叉证认算法研究-LAMOST内容星表介绍交叉证认的意义现有的交叉证认工具交叉证认概念交叉证认方法比较B-tree索引HTM索引HTM索引分区+kdtree进一步工作11/29-12/032大数据量交叉证认算法研究-LAMOST星表星表是包含天体信息(如赤经、赤纬、星等、流量)的二维数据表格多波段:光学、红外、射电、X射线等星表的每一行对应一个天体,不同星表的同一天体的共同属性是位置信息赤经:0~360度赤纬:-90~90度11/29-12/033大数据量交叉证认算法研究-LAMOST星表实例11/29-12/034大数据量交叉证认算法研究-LAMOST交叉证认的必要性多波段数据急剧增长革命性步骤:数据融合联系桥梁:位置交叉证认11/29-12/035大数据量交叉证认算法研究-LAMOST交叉证认的意义多波段数据融合,获得天体多波段信息对天体的物理性质、演化规律获得更全面系统的认识为进一步的统计分析、数据挖掘做准备提取天体的参数越多,越有利于天体分类和测光红移的计算增加了发现新天体的概率LAMOST三大核心子课题之一虚拟天文台数据融合必由之路11/29-12/036大数据量交叉证认算法研究-LAMOST现有的交叉证认工具SIMBADALADINNEDMASTTOPCATOpenSkyqueryGVO-cross-match11/29-12/037大数据量交叉证认算法研究-LAMOST现有工具的优缺点 优点:界面友好数据资源丰富缺点:不能进行大样本的交叉证认参数不能自由选择交叉证认结果需要用户进一步加工没有对结果进行分类没给出交叉证认的概率只能与特定的数据交叉证认11/29-12/038大数据量交叉证认算法研究-LAMOST交叉证认的概念将不同星表或数据库中的源按位置属性将它们联系起来,在相同位置的源或一定误差半径范围内的源,被证认为是同一天体。11/29-12/039大数据量交叉证认算法研究-LAMOST证认的判断方法有两个源分别在星表a、b中,它们的误差半径分别为r1,r2,它们的之间的球面距离为d。如果它们的关系满足,则认为它们是同一天体。(1)11/29-12/0310大数据量交叉证认算法研究-LAMOST证认的判断方法(例子)2MASS:r1=0.1ra=357.661036243116,decl=0.434507548194SDSS:r2=0.1ra=357.661059,decl=0.434484d:0.1两个源满足(1)式,被证认为同一个天体11/29-12/0311大数据量交叉证认算法研究-LAMOST索引Indexingmechanismsusedtospeedupaccesstodesireddata.11/29-12/0312大数据量交叉证认算法研究-LAMOSTB-tree索引的交叉证认为星表的ra,decl两列建B-tree索引以小表为中心,在大表中遍历寻找证认源以(1)式为判断算法复杂度O(N*N)11/29-12/0313大数据量交叉证认算法研究-LAMOSTB-tree索引的交叉证认(续)11/29-12/0314大数据量交叉证认算法研究-LAMOSTB-tree索引方法优缺点优点:证认精度高缺点:内存限制,索引不好速度慢,算法复杂度高11/29-12/0315大数据量交叉证认算法研究-LAMOSTHTMTheSpatialIndexisaquadtreeofsphericaltriangles.Thetreeisbuiltinthefollowingway:Startoutwith8trianglesonthesphereusingthe3maincirclestodeterminethem.Then,everytrianglecanbedecomposedinto4newtrianglesbydrawingmaincirclesbetweenmidpointsofitsedges11/29-12/0316大数据量交叉证认算法研究-LAMOSTHTMpcodera=45.0,decl=66.0,level=14N300311/29-12/0317大数据量交叉证认算法研究-LAMOSTHTMlevelLevelArea(arcmin^2)NumLeaves101.77E18,388,608111.43E033,554,432121.11E0134,217,728132.77E-1536,870,912146.92E-22,147,483,648151.73E-28,589,934,592201.69E-58,796,093,022,208251.65E-89,007,199,254,740,92211/29-12/0318大数据量交叉证认算法研究-LAMOSTHTM索引的交叉证认由星表的精度选取一定的HTM级数由星表的ra,decl计算出HTMpcode值两个B-tree索引一个空间索引N*N遍历自然连接省去(1)式判断,要求两个星表级数一样,即精度差不多11/29-12/0319大数据量交叉证认算法研究-LAMOSTHTM索引的交叉证认(续)11/29-12/0320大数据量交叉证认算法研究-LAMOSTHTM索引方法优缺点优点:索引好,空间索引解决了内存限制问题缺点:速度慢,没有解决算法复杂度问题认证精度低漏源概率高大量一对多、多对一混杂要求两个表精度差不多11/29-12/0321大数据量交叉证认算法研究-LAMOSTHTM索引分区+kdtree的交叉证认以小表为中心,把HTM索引当作分区对每个分区的大表,把ra、decl作为参数建kdtree对每个分区内的每个源,在kdtree中找最近邻用(1)式证认判断HTM级数比星表精度低,漏源可能性小11/29-12/0322大数据量交叉证认算法研究-LAMOSTHTM索引分区+kdtree方法优缺点优点:索引好,空间索引解决了内存限制问题分区,算法复杂度降低,速度快证认精度高缺点:HTM级数难确定11/29-12/0323大数据量交叉证认算法研究-LAMOST进一步工作进一步改进和优化算法尝试其他索引算法,如HEALpix优化交叉证认界面实现参数自由选择和加工计算证认的概率提供与上层的数据挖掘和可视化工具的接口集成
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 投影的基本知识及三视图
- 心理健康教育与人格塑造
- 房地产行业培训框架
- 员工个人安全自我教育
- 陕师大附中2025年初三3月质量调研物理试题试卷含解析
- 陕西交通职业技术学院《环境地学制图》2023-2024学年第二学期期末试卷
- 陕西师范大学附中2025届高三4月“圆梦之旅”(九)生物试题含解析
- 陕西机电职业技术学院《汉字文化常识》2023-2024学年第二学期期末试卷
- 陕西省安康市岚皋县2025届六年级下学期模拟数学试题含解析
- 陕西省宝鸡市清姜路中学2025届中考初三化学试题3月模拟考试题含解析
- 高中地理-高三地理复习课件-透过日晷看太阳视运动(共21张PPT)
- 成本收集器-重复制造
- 安全工器具检查表
- 许慎《说文解字》(全文)
- 保健院业务部门绩效考核实施方案(试行)及质量控制指标
- 马鞍山东站站房工程指导性施工组织设计
- 人防工程基本知识(PPT184页)
- 山东中医药大学中医学(专升本)学士学位考试复习题
- 高一班守纪律讲规矩主题班会
- 电力电缆工程施工作业危险点辨识及预控措施手册
- 研究生英语综合教程(下)1-10单元全部答案及解析
评论
0/150
提交评论