天体光谱数据挖掘技术_第1页
天体光谱数据挖掘技术_第2页
天体光谱数据挖掘技术_第3页
天体光谱数据挖掘技术_第4页
天体光谱数据挖掘技术_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、天体光谱数据挖掘技术太原科技大学计算机科学与技术学院张继福 2008年11月一、概 述 1)数据挖掘 2)天体光谱数据挖掘 3)课题的研究意义二、主要研究工作 1)基于约束FP树的天体光谱数据相关性分析 2)基于概念格的天体光谱离群数据挖掘 数据挖掘 定义:数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含的、未知的、潜在的有用信息和知识,为决策支持服务。 主要任务:关联规则、分类、聚类、离群数据等。 常用的方法有:关联规则、决策树、神经网络、遗传算法、粗糙集、模糊集、概念格、统计分析等。天体光谱数据挖掘 我国正在建造一台大天区面积多目标光纤光谱望远镜(LAMOST),是

2、国家重大科学工程项目,也是世界上光谱获取率最高的望远镜。 预计LAMOST所观测到的光谱数据容量将有可能达到4TB。 急需一种新的以计算机为主的数据分析技术, 分析和识别如此庞大的海量光谱数据。 天体光谱数据处理主要内容:预处理(去噪、归一化等)、分类与识别、测量(红移等参数)等。 一条Seyfert 2 光谱数据图(红移为0) 天体光谱是天体电磁辐射按照波长的有序排列,蕴含着天体的重要物理信息,例如:天体的化学成份、天体的表面温度、直径、质量、光度以及天体的视向运动和自转。天文学家和天体物理学家通过分析天体光谱的信息,不仅可以研究宇宙中物质的分布特征,还可以研究天体的形成和随时间的演化等重大

3、科学问题。主要的方法 交叉相关分析与主成分分析(PCA)、人工神经网络、小波变换、贝叶斯统计、SVM等。 典型的成果 1) Autoclass,基于贝叶斯统计的一种光谱分类方法,发现了一些以前未注意的光谱类型和谱线; 2) Gulati等人采用两层BP神经网络方法,用于恒星光谱次型的分类; 3)Ellis等人采用交叉相关分析对光谱进行分类; 4)邱波等人采用基于粗糙集的方法,进行了恒星光谱的分类识别; 5)覃冬梅等人采用基于主分量分析法的二维恒星特征空间的快速光谱识别方法; 6)刘中田等人提出基于小波特征的M型星自动识别方法等。 课题的研究意义 由于天文界对宇宙的认识还比较有限,LAMOST巡

4、天计划的一个重要任务是要发现一些新的、特殊类型的天体,因此,如何利用数据挖掘技术从海量天体光谱数据中发现未知的、特殊的天体及天体规律是数据挖掘值得研究和探索的新应用领域。 面向特定任务的数据挖掘是当前数据挖掘领域发展的趋势之一。以LAMOST项目为背景,对天体光谱数据挖掘技术进行了研究,其研究成果不仅具有重要的理论价值,而且可直接应用到LAMOST中,为国家重大科学工程提供技术支撑。 退回引言关联规则描述了属性之间的关联程度,也就是说有效地描述了数据集属性之间的相关性关系。利用关联规则来描述天体光谱数据特征与其物理化学性质之间存在的、未知的相关性是可行性的,具有重要的应用价值。频繁模式集的生成

5、是提高关联规则挖掘效率的关键。频繁模式生成主要有:Apriori和FP两类算法。Apriori算法 优点: 思路比较清晰,以递归统计为基础,剪枝生成频繁集; 缺点: 在生成频繁模式过程中,需要产生大量的候选项和多次遍历数据库,I/O代价太高,难以适应海量高维数据。FP算法 优点: (l) 通过对FP树的递归访问,产生频繁模式集,仅需要构造FP树和条件FP树,不需要产生候选项集; (2) 对事务数据库仅需两次遍历,第l次遍历产生频繁l-项集,第2次遍历用于构造FP树,从而降低了访问数据库的次数。 缺点: FP树需要占用大量内存。约束FP树及其构造 一阶谓词逻辑与背景知识 数据挖掘是从宏观角度利用

6、积累的巨量数据进行知识抽象的高级阶段,是一项高级的智能活动,因此数据挖掘过程离不开背景知识的支持。 关联规则挖掘过程也离不开背景知识的支持。 面向关联规则挖掘的背景知识实际上是描述数据集中的对象与属性之间、属性与属性之间的约束关系,因此采用一阶谓词逻辑描述关联规则挖掘中的背景知识是可行的。 定义3-1 设r 是交易数据库中的关系表名个体变量,f 是表示关系表到属性的映射的函词,k 是支持度(0k1),则背景知识G可由如下谓词公式,通过逻辑运算符组成合适公式。 (1) Interesting (f(r) (2) support(f(r),k) Interesting (f(r) (3) Inte

7、rested(f(r) Interesting (f(r) (4) P(f(r) Q(f(r) Interesting (f(r) 定义3-3 设D为交易数据库,min为最小支持度,G为背景知识,如果L是一频繁模式,且G(L)=True,则称L为约束频繁模式。 CFP-tree及构造 定义3-4 设G为背景知识,对于任意频繁模式树FP-tree,如果从根节点到叶子节点的路径中,所描述的任一频繁模式P,使得G(P)=True,则称FP-Tree为约束频繁模式树CFP-tree。 构造思想与方法: 只有数据库中的事务T满足G所构造出的FP-Tree,才能包含用户感兴趣的约束频繁模式,可采用两次扫描

8、数据库来完成CFP-tree的构造 。 定理2-1 设D为一个交易数据库、min为最小支持度、G为背景知识,所构造出的约束FP树为CFP-tree,则从CFP-tree提取出的任意频繁模式P,一定是满足G(P)=true(即约束频繁模式)。 定理2-2 设D为一个交易数据库、min为最小支持度、G为背景知识,所构造出的约束FP树为CFP-tree,P为任意频繁模式,若G(P)= true(即约束频繁模式),则P一定是CFP-tree中的频繁模式。 定理2-3 CFP-tree是FP-tree的子集。 定理2-4 设D为一个交易数据库、G1,G2为背景知识,且G1G2、T1,T2分别是基于G1,

9、G2构造的CFP-tree,则T1T2。(约束的单调性) 推论3-1 设D为一个交易数据库、G1,G2为背景知识,T1,T2分别是基于G1,G2构造的CFP-tree,当G1=G2时T1=T2。(约束的唯一性) 推论3-2 设D为一个交易数据库、G1为背景知识,TCFP是基于G1构造的CFP-tree,TFP是数据库D的FP-tree,当G1=时TCFP=TFP。 定理3-5 设D为一个交易数据库、min为一个最小支持度、G为背景知识,构造出的约束FP树为CFP-tree,由G将交易数据库分为两部分,即:D=D1D2,其中:TD1,那么G(T)=True, TD2,G(T)=False, 如果

10、对于D1,采用传统FP-tree构造方法的FP树为FP-Tree1,则CFP-tree与FP-Tree1是同一棵树。约束FP树的构造算法 算法描述及分析(见P23-24) 实验分析 硬件:PentiumIV-2.0G CPU ,512M 内存; 软件:Windows XP 操作系统,DBMS 为ORACLE9i,VC+为编程语言; 数据预处理:(8400 条SDSS恒星光谱数据) 1)选定间隔为20 的200个波长,离散化为十三种值; 2)温度等间隔离散化为三种值,七类恒星温度离散化为二十一种值; 3)光度、化学分度、微湍流等间隔离散化为三种值。 表3-2 约束FP树构造效率比较1(|DB|=

11、6000,单位:秒) 最小支持度(min) 约束条件5%3%2%1%无约束(FP算法)384503640819光度_1化学丰度_2191253298385光度_1162217241320光度_1化学丰度_2130168197259表3-3 约束FP树构造效率比较2(min =3%,单位:秒) 数据集|DB|约束条件2000400060008400无约束(FP算法)104302503797光度_1化学丰度_252154253360光度_142120217299光度_1化学丰度_236103168244表3-4 约束频繁模式(|DB|=8400,min =1%,单位:个) 约束条件无约束光度_1化

12、学丰度_2光度_1光度_1化学丰度_2频繁模式个数5732710408221基于CFP树的天体光谱数据相关性分析系统 天体光谱数据预处理 归一化 离散化(表3-5 恒星光谱数据离散化参数)天体光谱知识表示 给定一个天体光谱数据库DB=I1,I2,Im为DB中m条光谱数据的集合,DB中每一条光谱Ii就是I中的一组项目子集,即Ii I,其中: I = A1,A2,An ,S1,S2 ,Sm , Ai为第i波长处的离散化特征属性,Sj第j个物理化学性质的离散化属性。 定义3-5 设r 是天体光谱数据库中的关系表名个体变量,f 是表示关系表到属性的映射的函词,min 是最小支持度(0min1),则天体

13、光谱知识G可由如下谓词公式,通过逻辑运算符组成合适公式。 (1) Interesting (f(r) (2) support(f(r), min) Interesting (f(r) (3) Interested(f(r) Interesting (f(r) 对于任意天体光谱知识G,G是由定义3-5中的三类谓词公式,通过逻辑运算符组成的合适公式,由文献56可知,G可化简为合取范式,并用子句集S来表示。 定理3-6 设S是表示天体光谱知识G的子句集,任一子句sS是由谓词Interesting (f(r) 、support(f(r), min) 、Interested(f(r)所表达的若干有限文字

14、析取式,且下列公式成立。 Interesting (f1(r1) support(f2(r1), min) Interested(f3(r1) Interesting(f1(r1) f2(r1) f3(r1)) 定理3-7 设S是表示天体光谱知识G的子句集,任一子句sS是感兴趣的天体光谱模式。 推论3-1 设G为天体光谱知识,则G描述了一组感性趣的天体光谱模式,即天体光谱模式集。 天体光谱数据的频繁模式提取与关联规则挖掘 CFP树的遍历: 创建一个项头表,使得每个项通过一个节点链指向它在树中的位置。提取过程从1频繁模式开始,构造它的条件模式基; 然后构造它的条件CFP树,并递归地在该树上进行提

15、取。 关联规则生成: 对于任一频繁模式PL,其中:P=P1P2,P1是天体光谱数据特征的非空子模式,P2是物理化学性质的非空子模式,如果( P1P2/DB)/ ( P1/DB)min,则生成一条关联规则“P1 P2”。 体系结构与功能 主 程 序数据预处理背景知识获取CFP树构造频繁模式提取关联规则挖掘预处理参数输入挖掘结果输出用户接口 规则提取FP树的构造 频繁模式挖掘归一化恒星光谱库恒星光谱数据离散化运行结果及分析 退回引言 离群数据识别的主要方法: 距离的方法、统计的方法、局部密度的方法和基于偏离模型的方法等。 大多数的方法是从全局的观点看待离群数据,很难发现低维子空间中的偏移数据,而且

16、很难应用于高维数据。 C C.Agarwal等人在2005年提出了一种基于子空间的高维离群数据识别算法,该算法采用遗传算法搜索离群数据。 C C.Agarwal,P S.Yu. An effective and efficient algorithm for high-dimensional outlier detection,The International Journal on Very Large Data Bases,2005, 14 ( 2):211 221 存在问题: 仅利用稀疏度系数,在子空间中来考察数据的行为,无法避免由于正常数据的稀疏,导致在子空间中也是稀疏的不足,因此识别

17、结果不是准确的; 不能确保能发现稀疏度系数最小的子空间,进而发现的离群数据也不够准确,该文献中的实验也验证了这一点; 不能确保发现所有满足条件的离群数据,识别结果的完备性得不到保证。 概念格, 由Wille R 提出, 是一种支持数据分析和知识发现的一种有效工具。 每个节点是一个形式概念, 由外延和内涵两部分组成。 通过Hasse 图生动和简洁地体现了这些概念之间的泛化和特化关系。 具有知识表示的完备性、直观性和简洁性等特点。 将概念格中每个概念内涵看作子空间,内涵看作子空间所包含的对象,从而用概念格结点,描述子空间中的离群数据,是可行的。基于概念格的低维子空间离群数据 在稀疏子空间中,稀疏度

18、系数仅反映了子空间中包含的数据对象个数远小于期望值,但数据对象个数远小于期望值,可能是数据对象在更低维子空间上的过度稀疏造成的,稀疏度系数并不能正确反映稀疏子空间上的数据偏离程度。因此仅采用S(D)来判断稀疏子空间的方法,不能保证结果的准确性。 数学期望表示了子空间中对象的平均个数,引入一个用户设置的系数,采用它们的乘积来度量子空间的稠密程度。 定义4-1 对于一个任意的数据集,其属性集为M,对象集为G,且每维均离散化为个区间,DENSE为用户设置的稠密度系数, 由约简属性集P(PM)构成的约简子空间D,且其包含的对象集为A(AG),若|A|DENSE*|G|*(1/)|D|,则称D为稠密子空

19、间。 定义4-2 对于一个任意的数据集,其属性集为M,对象集为G,由约简属性集P(PM)构成的稀疏子空间D,且其包含的对象集为A(AG),若由约简属性集P1(P1P)构成的约简子空间D1,均为稠密子空间,则称D为离群子空间,A中的数据对象为离群数据。 定义4-3 设K=(G,M,I)为任意形式背景,h=(A,B)L(G,M,I),如果属性集合B1满足下述两个条件,则它被称为h的一个内涵缩减。 B1= B = A B2 B1 = A (for any B2 B1) 定义4-4 设K=(G,M,I)为任意形式背景,h=(A,B)L(G,M,I),h的内涵缩减集为RED=Bi| Bi为h的内涵缩减,

20、若 BiRED,满足由属性集Bi构成的子空间S为稀疏子空间,则称h为稀疏概念,若由约简属性集P(PBi)构成的约简子空间S1为稠密子空间,则称概念h为离群概念,A中包含的数据对象为离群数据。 定理4-1 对于一个任意的数据集,其属性集为M,对象集为G,K=(G,M,I)为其对应的形式背景,由约简属性集P(P M)构成的约简子空间D,及包含在D中的对象集O(即O= P),则h=(A,B)L(G,M,I),及h的内涵缩减集RED=Bi| Bi为h的内涵缩减,使得PRED,O= A成立。 定理4-2 对于一个任意的数据集,其属性集为M,对象集为G,K=(G,M,I)为其对应的形式背景,由约简属性集P

21、(PM)构成的离群子空间D,及其包含的离群数据集O(O G),则在概念格L(G,M,I)中,必一个离群概念h=(A,B)L(G,M,I),及h的内涵缩减集RED=Bi|Bi为h的内涵缩减,使得PRED,A=O成立。 定理4-3 设K=(G,M,I)为任意形式背景,h=(A,B)L(G,M,I),P为h的一个内涵缩减,则 约简属性集P1 (P1P),必 h1=(A1, B1) L(G,M,I),使得P1为h1的内涵缩减,且B1B。 定理4-4 设K=(G,M,I)为任意形式背景,h=(A,B)L(G,M,I),若P1为h的一个内涵缩减,且若由P1构成的子空间D1为稀疏子空间,则当稠密度系数DEN

22、SE=0时,A中包含的数据对象是离群数据。 基于概念格的低维子空间离群数据挖掘算法 算法描述CLOM 算法分析 实验分析 硬件:PentiumIV-2.0G CPU ,512M 内存, 软件:Windows XP 操作系统,DBMS 为ORACLE9i,VC+为编程语言 形式背景:(SDSS恒星光谱数据) 1)选定间隔为20的200个波长, 作为属性集; 2)依据每一波长处的流量、峰宽和形状,将其离散化为十三种数值之一,并作为该波长处取值。 表2-2 不同对象的建格与挖掘时间比较(TS=-1,DENSE=1.2) 记录条数建格时间离群挖掘时间离群数据数5000657s174s95500822s

23、213s76000861s234s670001184s435s1983151887s595s19表2-3 不同TS值的挖掘时间和离群数据数 (DENSE=1.2,记录数8315) TS值离群挖掘时间离群数据数-0.3 872s60-0.8 750s31-1.2 591s19-1.7 356s6表2-4 不同DENSE值的挖掘时间和离群数据(TS=-1.7,记录数8315) DENSE值离群挖掘时间离群数据数0.6 394s440.8 376s231 366s121.2 356s61.4 354s4基于概念格的天体光谱离群数据挖掘系统 天体光谱数据与形式背景 在流量离散化处理中,不仅要描述天体光

24、谱波长处的流量强度和峰宽,同时还应描述波的形状,即:吸收线还是发射线,故对于光谱不仅需考虑波长处的强度和峰宽两个因素,而且还需要考虑波的形状。 可以利用三个特征变量I、J、W来描述光谱在某一波长处的特征,I表示光谱波的强度,J表示光谱波峰的宽度,W表示光谱波的形状。从而将天体光谱数据中各个波长处的数据,转变为以特征变量I、J和W表示的特征数据。如果某一条光谱图中包含着的波长为A=Ai,i=1,2,3,n ,其中Ai表示i个波长处的光谱特征,n表示共有n个波长,那么Ai可表示为Ai=Ii,Ji,Wi 。 表4-3 光谱数据离散化 光谱数据按照上述方法及表4-3离散化后,形成了天体光谱数据的形式背景,从而适应于天体光谱数据概念格的构造。 离散化值强度宽度类型离散化值强度宽度类型1弱窄吸收线7一般宽发射线2弱窄发射线8强宽发射线3一般窄发射线9一般窄吸收线4强窄发射线A一般宽吸收线5弱宽吸收线B强窄吸收线6弱宽发射线C强宽吸收线0无无无功能与体系结构 光谱数据离群挖掘系统数据预处理构造概念格离群数据挖掘数据导入光谱数据离散化一般概念格构造查看概念格文件离散表天体光谱归一库用户接口概念格构造离群数据挖掘构造参数输入

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论