



VIP免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 如何处理FAST天文大数据 今天演讲的内容包括三方面:FAST早期科学数据中心、网络传输的问题、我们自主知识产权FAST分布式计算软件架构和具体处理的问题。最后还有一些天文普及。2014年9月中国科学院国家天文台与贵州师范大学共同签署了FAST早期科学数据中心,耗费1年半的时间建立,我们早期科学数据中心是在FAST运行阶段探索FAST数据的创术、存储、计算、安全和管理的最高效、最穩定、最经济的方法。数据的网络传输数据的网络传输非常重要,FAST建好以后,就有大量的数据要来,首先要解决的就是传输的问题。FAST数据传输的通讯结构并不简单,从贵阳到FAST现场一共是300公里,这300公里,要跨
2、省,要跨州、跨县,一共有21个周转节点,当时是2个G的专线直接拉到我们实验室。传输结构主要包括两条线,一旦出现问题,数据保证不会中断,这是我们通讯的结构。FAST脉冲性搜索分布式超算硬件机构,我们走的路还是有借鉴意义的。在FAST计算里面,我们有四种计算节点,A计算节点在每一台服务器里面加8块GPU卡,其中2个CPU,一共有10台,这个计算节点我们的理论峰值可以到664T浮点预算。第二种计算节点B,每一台PC级加2块GPU卡,一个CPU,一共有60台,峰值我们可以达到1.02的浮点计算。第三种计算节点,我们是每一台服务器我们两块GPU再加一个CPU,一共是14台,总的计算结果是235P浮点预算
3、。第四种可以看得更简单,很一般的PC机,每一台PC机只有一块GPU加一个CPU,最高峰值是378的浮点预算。所有144个节点的理论峰值2.16P浮点预算,就是每秒2000万亿次浮点预算。CPU+GPU的计算节点是有自主知识产权设置定制的,从这个角度来说,我们这个还是非常经济和低成本的运转,我们觉得非常非常合适贵州的实际情况。FAST分布式计算软件架构我们数量级的提高了脉冲星的搜索速度,原来一台计算机单线程要用6004秒,但是我们用自主设定的设备计算只需36秒,计算速度提高了200倍。在搜索速度方面,FAST要求我们的计算要求压力越来越大,但是我们只要再增加设备把架构一扩充,还可以上百倍增加这个
4、速度。数据计算出来以后,得到一些侯选题,从这些候选题里就可以找到我们需要的东西。以前用人的眼睛来找,现在利用计算机能不能找出来,这关系到人工智能深度学习的问题。FAST脉冲星搜索计算处理是怎样一个过程呢?从FAST下线以后到现在,我们一共收到的数据是1.436PB,也就是10的15次方。现在大概收到2个PB不到,数据量很大,而且这些数据越往后面会越多。拿到数据,我们第一件事儿就是要消除观测数据中的干扰信号。搜索脉冲星形,必须消除观测数据中的干扰信号。第二就是消色散,脉冲星发出的射电信号在星际介质中会产生色散,就像阳光通过棱镜会散开成彩色光带,这是因为不同的频率的信号在介质中传播速度不同而导致的
5、。从脉冲星发出脉冲信号,经过漫长的时间,再通过复杂而遥远的星际介质,频率高的先到达FAST的接收天线,频率低的后到,整个信号波长就会被拉开了,我要消色散就是要解决这一问题。消色散以后,我们在通过快速傅里叶变换计算消色散信号中包含的周期信号,从而得到一个正确投射。最后就是折叠的问题,为了增加信号,我们需要将消色散后的信号按周期叠加,在这些周期信号里面信号很弱,但是叠加能让它们增强。这其中有很大的工作量,人工去做要花很长的时间,所以现在人工智能很火,深度机器学习很火,我们用深度机器学习来找,效果很不错。目前我们中心的19个波束接收机已经全部投入使用,产生的观测数据量每天至少19TB,搜索计算任务艰
6、巨。FAST找到脉冲星开启了中国重大的科学基础设备系统研创性的脉冲星,这是中国天眼首先发现两颗脉冲星,第一颗脉冲星距我们地球是1.6万光年,我记得周期是1.83秒,第二颗距我们地球是4.1万光年,周期是590毫秒。最近我们协助国家天文台发现90多颗新脉冲星候选体,证实了65个新脉冲星,其中包含了FAST发现的首个毫秒脉冲星,是至今发现的射电流量最弱的高能毫秒脉冲星之一。如果我们能够找到毫秒级以上的脉冲星,那就是诺贝尔成就。FAST的科学普及刚才在休息的时候,我问了欧阳院士,我说你怎么看流浪地球,欧阳院士说那是胡扯。为啥呢?太阳是恒星,它是有寿命的。当太阳已经走到主星系的这个地方,再过50亿年,
7、我们太阳要变成红际星,最后消亡。时间应该是50亿年的嘛,怎么就是70年了呢?太阳最后变成超红际星,有可能变成中继星,还有另一种可能变成黑洞。我们做了脉冲星及候选体数据库平台,我们为关心脉冲星的天文学家和天文爱好者提供脉冲星的候选体等等有关方面的信息。我们建设天文网络社区,非常欢迎天文学家或者同学们来访问,这个社区里面有很多新的东西。天文大数据的挑战及应用根据我们最近的了解,我们使用19个波束接收机接收数据,已是原来单波束的4倍,随着调试顺利进行,观测时间在逐步增多,数据量至少是单波束数据量的19乘4倍,也就是19个波束接收的数据每秒是38G,一年要接收19个PB,经过处理至少要存储10到15个PB,就我们现在的计算处理能力,要满足这么大的数据量,我们理论上的2.16PF的峰值预算还不够,所以我们还在扩大。但是未来发射的数据量可以到多少,如果是1ZB,那么数据量就非常非常惊人了。所以既然这么大的数据量,将来从FAST现场到贵阳,就不是100G光纤解决问题,而是400G光纤。我们要大力支持FAST的科学研究,所以我们早期科学数据中心大力支持天文台做这个工作,我觉得有以下几条意义。第一,它符合全省大数据战略及大数据产业发展规划。第二,天文科学将是展示贵州文化旅游形象的珍贵名片。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 美丽健康产业园基础设施项目(大圆坑整治工程)可行性研究报告
- 电子商务网络安全考点梳理
- 急救护理 应对突发状况的关键技能培训
- 武乡辅警考试题库2024
- 统编版七年级下册语文期中复习:现代文阅读 试题汇编(含答案解析)
- 中原海口市场概况分析
- 雕塑与花卉的融合美学-洞察阐释
- 色彩在物理治疗中的辅助作用-洞察阐释
- 食用菌产业在全球化背景下的市场分析与合作策略-洞察阐释
- 河北省统考卷-2025年全国中考英语模拟试题压轴金卷(解析版)
- 校园食品安全与卫生督导长效机制研究
- 2025年1月浙江省普通高校招生选考科目高考英语真题试卷(浙江卷 含答案)
- 【MOOC】电工电子学-浙江大学 中国大学慕课MOOC答案
- 2024年重庆市初中学业水平考试生物试卷试题真题(含答案详解)
- 防汛物资台账参考模板范本
- 手足口病护理查房ppt
- 建筑工程全套作业指导书模板
- 部编版四年级下册语文第七单元习作指导 课件 (共10张PPT)
- 湖北省普通高等学校招生考生体格检查表
- 英文学术报告范例-文档资料
- 广东省广州市天河区人民法院
评论
0/150
提交评论