版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、神经信息学中的数据挖掘汲业大连理工大学 神经信息学研究所jeeye1引 言一门新兴交叉学科神经信息学(Neuroinformatics)是随着人类脑计划(Human Brain Project, HBP)的实施而迅速发展起来。神经信息学,顾名思义,是由神经科学与信息科学交叉形成的,其中,神经科学方面包括大脑和行为科学的研究;信息科学方面则包括信息学、计算机科学和应用数学以及工程学的研究。神经科学是综合性很强的交叉学科,它综合了多门学科,传统上来源于生理学、生物化学、生物物理学、药理学、解剖学、胚胎学、神经病学和精神病学;近十至二十年里,在神经科学的发展过程中,分子生物学、遗传学、影像学、神经网
2、络、信息学、数学和认知科学等也起了重要的促进作用。神经科学得益于这些学科,又将进一步推动这些学科的发展。1989年,美国科学院医学研究所召集包括脑和行为科学、计算机科学、信息学等在内的各学科的杰出科学家,就利用现代信息学方法研究脑的科学性和可行性进行了论证,两年后,发布了论证的结果和建议8,神经信息学也从此诞生。1992年美国国立精神卫生研究院(NIMH)正式成立了“人类脑计划”联邦协调委员会(FICCHBP),负责组织协调和指导这项工作9。1995年10月该计划的修订版本发表,要求每个课题应包括脑(含行为)和信息学两方面的研究内容10。信息学方面的研究包括:数据库建立、查询方式、数据重获;数
3、据的可视化和可操作性;数据的整合与合成;联网工具;在现有信息工具和资源之间建立桥梁。脑和行为方面的研究,则包括不同水平的结构和功能关系的研究。1997年,人类脑计划在美国正式启动,其核心内容就是神经信息学的研究。国际社会对神经科学极为重视。美国总统和国会把90年代定为“脑的十年”,美国国立卫生研究院1997年度直接与神经科学有关的经费投入为18亿美元,是其在人类基因组计划中所投入经费数量的10倍多。我国也十分重视人类脑计划与神经信息学的研究。继2000年在海口召开了首届中国神经信息学讨论会之后,2001年9月35日又在北京召开了“人类脑计划和神经信息学”168次香山科学会议,随后,中国成为人类
4、脑计划的第20个成员国,这标志着我国科学家已经系统地、规范地步入这一前沿科学领域。从国际科学界看,早在50年代,部分控制论的先驱者就开始关注神经系统。从60年代起,一批分子生物学的开创者,包括诺贝尔奖得主、英国科学家克里克(F.Crick),纷纷转向神经科学的研究。自1997年人类脑计划启动以后,又吸引了许多信息学、数学、物理、工程学的研究工作者,并得到了广泛的资助。人力、物力、财力的不断投入,使“人类脑计划”得以顺利进行。2脑成像技术的应用生命科学领域里,生物学的许多知识是从“死物”身上或者从活的器官组织上得到,但是脑的神秘之处在于活的脑整体所起的作用与死的系统有质的不同。近年来,无创性脑成
5、像技术的成功应用使得神经科学家有机会可以直接观察活体脑的变化情况。这些方法包括单光子发射计算机断层成像技术(SPECT)、正电子发射断层扫描(PET)、功能磁共振成像(fMRI)等。他们的特点是空间分辨率较高。SPECT和PET是早期进行脑功能成像的重要技术,其中SPECT是把发射射线的核素标记的化合物注入人体,它们进入脑部,在体外测量射线而获得这种标记化合物在脑内分布的断层图像;PET是把发射正电子的核素标记的化合物注入人体,它们进入脑部,同时在体外测量正电子湮灭射线而获得这种标记化合物在脑内分布的断层图像。PET多用F标记的葡萄糖获得脑内血流的图像,可以进行人认知活动中脑激活区的定位;近年
6、来在磁共振成像技术的基础上发展起来的脑功能磁共振成像技术(fMRI)是进行脑功能成像的新手段,它所检测的是脑功能区血氧水平(BOLD)的变化,将受试者放入没有危害的磁体中并给某种刺激,处于兴奋状态脑区中的含氧血红蛋白(抗磁性)补充超过氧的正常消耗,去氧血红蛋白(顺磁性)的相对含量减少,这种磁性的变化在相应的MRI像中表现为高信号强度。用这些技术得到脑功能的三维图像,其空间分辨率为数毫米,但时间分辨率较差。于是,通过对所希望研究的脑功能进行特定设计和控制,应用这些无创性脑成像技术,就可获得大量的实验数据,给研究不同功能状态的脑区激活模式带来了希望。但脑成像具有数量大、类型多、维数高和联系紧密的特
7、点10。在采用无创性脑功能成像后,产生的数据是海量的,这是其它学科不能比的。其众多类型既来源于从无脊椎动物到人类的大范围种类的研究,也来源于各种水平的生物机体研究,包括分子、细胞、组织、器官以及各种水平的相互关系;此外,还来源于神经科学对整个生命过程中健康和非健康状态各式各样的理解。数据维数则不仅有二维、三维,还出现了第四维(时间);而数据紧密联系程度更是复杂,至今其信息处理机制还没形成一个统一的框架。如何处理这些神经数据目前已成为科研机构所面临的关键性问题。跟上并整合所有的信息,已经远远的超出了每个研究者能力的范围,并且随着学科专业化程度的提高,每个研究者能力的范围还在相对地缩小,因此需要采
8、用新的方法和工具来储存、整合、分析这些数据,信息学的研究恰好有助于寻找这些问题的解决方法。神经科学与信息科学的结合势在必行,由此形成的神经信息学正是体现了这种必要性。3脑成像数据的数据挖掘方法 对于脑成像数据的挖掘目前多是利用空间范围的统计学方法,例如流行的SPM就是对从fMRI或PET中得到的数据做假设检验的软件2。而把目前先进的数据挖掘的方法应用于脑成像数据在国外尚处于探索阶段。3.1 SPM的数据挖掘方法SPM是由英国Hammersmith医院的K J Friston等人在通用数学软件包Matlab上开发的软件系统。其统计功能非常强大。现在我们能用到的SPM99升级版的功能更是强大参考文
9、献:1Maturing as Science:The New Perspective in fMRI Research Award.John Darrell Van Horn.Journal of Congnitive Neuroscience 14:6,8172 Luo Yaoxing, Tang Yiyuan, Fan Liwei, et al. Brain activation analysis with AFNI and SPM, 8th International Conference on Functional Mapping of the Human Brain, Vol.16,
10、 No.2, (2002).3Chris Stolte et al. Polaris: A System for Query, Analysis, and Visualization of Multidimensional Relational Database. IEEE TRANSACTIONS VISUALIZATION AND COMPUTER GRAPHICS 8, 52-65 (2002)4Dan Lloyd. Functional MRI and the Study of Human Consciousness. Journal of Cognitive Neuroscience
11、 14, 818-831 (2002)5M. A. Tagamets et al. A Parametric Approach to Orthographic Processing in the Brain: An fMRI Study. Journal of Cognitive Neuroscience 12, 281-297(2000).6 Yijun liu et al. Temporal dissociation of parallel processing in the human subcortical outputs. Nature 400, 364-367(1999).7 Yi
12、jun liu et al. The Temporal response of brain after eating revealed by functional MRI. Nature 405, 1058-1062 (2000).8 C.M. Pechura, J.B. Martin Mapping the Brain and Its Functions, Washington,D.C:National Academy Press,1991.9 唐孝威,尹岭,沈公羽,田嘉禾,童勤业.人类脑计划和神经信息学.中国科学基金,2001;2:99-101.10 Koslow S.H., Huerta
13、 M.F. Neuroinformatic-An Overview of the Human Project,New Jersey:Lawrence Erlbaum Asso- ciates,1997.11 范丽伟,唐焕文,唐一源独立成分分析应用于fMRI数据的研究大连理工大学学报12 Xuerui Wang, Rebecca Hutchinson and Tom Mitchell, Training fMRI Classifiers to Discriminate Cognitive States across Multiple Subjects, The 17th Annual Confe
14、rence on Neural Information Processing Systems, 200313 Yiping Chen, Shimin Fu and Susan D. Iversen, Testing for Dual Brain Processing Routes in Reading:A Direct Contrast of Chinese Character and Pinyin Reading Using fMRI,Journal of Cognitive Neuroscience,Volume 14, Number 7.10881098(2002)14 Tom Mitc
15、hell, Rebecca Hutchinson, Marcel Just, Radu Niculescu, Franciso Pereira and Xuerui Wang, Classifying Instantaneous Cognitive States from fMRI data, The American Medical Informatics Association 2003 Annual Symposium, Best Paper Foundational Award.15 Brian Whitman, Gary Flake, Steve Lawrence, Artist D
16、etection in Music with Minnowmatch, Proceedings of the 2001 IEEE Workshop on Neural Networks for Signal Processing, Falmouth,Massachusetts, September 10-12, pp. 559-568, 2001.16 Tom Mitchell, Rebecca Hutchinson, Marcel Just, Sharlene Newman, Radu Stefan Niculescu, Francisco Periera and Xuerui Wang,
17、Machine Learning of fMRI Virtual Sensors of Cognitive States, The 16th Annual Conference on Neural Information Processing Systems, Computational Neuroimaging: Foundations, Concepts & Methods Workshop, 2002.17 Tom Mitchell, Rebecca Hutchinson, Radu Niculescu, Franciso Pereira, Xuerui Wang, Marcel
18、 Just and Sharlene Newman, Learning to Decode Cognitive States from Brain Images, to appear, Machine Learning: Special Issue on Data Mining Lessons Learned, 200418 张学工. 关于统计学习理论与支持向量机.自动化学报,2000,26(1):3243.19 万华林,Morshed U. Chowdhury. 基于支持向量机的图像语义分类. 软件学报, Vol.14, No.11, 200320 JiaWei Han, Michelin
19、Kamber 著. 范明, 孟晓峰 等译. 数据挖掘概念与技术M. 北京: 机械工业出版社, 2001.21 史忠植 著. 知识发现M. 北京: 清华大学出版社, 2002.22 Haken, H 著. 郭治安, 吕翎 译. 大脑工作原理M. 上海: 上海科技教育出版社, 2000.7。SPM对脑功能成像数据处理的过程一般为:首先将动态原始数据三维图相配准,以消除动态扫描过程中的头动(静态则不需要此步骤)。然后将每个人的图像都标准化到Talairach标准脑图上来,这样既可以使每个被试的脑图像在空间上保持一致便于逐像素点统计,又可以用同一的坐标来描述结果。标准化后的图像还要经过平滑处理提高信噪
20、比,从而形成中间数据。 接着,对平滑数据建立模型,进行逐个点的统计检验。在统计方法中我们最常用的是T检验,用来表示象素点的信号在功能性刺激和静息间发生变化的差异。最后选择某一置信水平,得出该置信水平下的统计参数图。由此可见,SPM的参数图像是许多单次扫描图像所包含信息的精简和压缩。这样有利于我们读取和理解。它的主要贡献是解决了不同图像数据间的比较问题,给出了具有统计学意义的结果。同时,SPM给出了一种行之有效的统计方法随机高斯场(Random Gaussian Field),利用这个理论就能对不同的图像数据做统计学上的比较,其具体的应用就是对图像数据做高斯平滑滤波。3.2 ICA的数据挖掘方法
21、脑成像数据能获得脑内各个采样点的信号强度,但是由于实验时间一般较长,单一被试对象在以时间序列进行的采样过程中,不可避免的存在物理头部运动(轻微的左右摆动或点头、眼球的活动、咳嗽或吞咽动作等)和生理活动(心跳、呼吸等),都可能引起信号的变化,因此采得的数据可以看作是各个独立的源数据的混合,而独立源和混合矩阵都是未知的,也就是脑激活的因素及其影响是未知的,这是典型的盲源分离问题,所以就产生了将独立成分分析应用于脑高级功能研究,分析其激活因素,对于脑高级功能的深入研究来说,它还能用于脑功能活动模型未知情况或病人功能活动的研究。 文献11中应用空间独立成分分析(Spatial Independent
22、Component Analysis, 简称SICA)对组块设计的fMRI数据进行分析,既得到了与实验设计一致的成分,还得到了心跳、眼动、头动成分,同时其相应的时间序列则表明了这些成分随时间变化的情况。3.3 人工神经网络的数据挖掘方法2002年,功能磁共振成像数据中心(FMRIDC)公开给出奖励以表彰对于数据挖掘研究做出突出贡献的科学家,希望可以为脑成像数据挖掘建立一个良好的开端。哲学博士Dan Lloyd由于创新性的利用神经网络的方法处理多个任务的脑成像数据来发现意识问题4,而获得了该奖。 Dan Lloyd应用人工神经网络的原理间接表明“过去”和“未来”的信息是对当前信息的一个扩展。对实
23、验的每个标本,都建立一个网络来探测图象容积的时间信息。这样扫描序列按顺序分割成临近对。测试记忆时,网络被训练成可以用每对里的第二幅图象作输入,输出第一幅图象。测试预测时,另外一个网络被训练成可以每对第一幅图象推出第二幅。如果训练成功的话,则说明图象包含的脑先前和结果信息。在这个分析过程中,人工神经网络有两个吸引人的性质。一是,随着时间过去,“散开”和“积聚”脑中的动态的信息。也就是说,在任何时刻,一个特殊的激活点是受到先前激活的许多分布的元素影响的(积聚),同样,一个特定的激活点影响着下一个激活的元素(散开)。神经网络可以构造出这样的模型。第二,神经网络非常适合构造非线形模型,这个性质是非常适
24、合进行脑的研究的。神经网络的这两个特性,使我们对时间的动态序列进行更广阔的探测。总的来说,以上的说明把空间和功能的分析转化成了一个复杂的动态系统。3.4 其它数据挖掘方法卡内基梅隆大学的Tom Mitchell和他的中国学生王学睿(音译)使用贝叶斯分类器 (GNB)、支持向量机(SVM)和 K-最近邻参照分类算法(kNN)对认知状态进行分类12,也取得了一定的成果。另外,牛津大学的Terran Lane和John Burge也正利用贝叶斯网络对可卡因吸毒者的脑成像数据进行挖掘。4 支持向量机的数据挖掘 支持向量机理论是从线性可分情况下的最优分类面发展而来的。基本思想可用图1的两维情况来说明。图
25、1分界面的比较图中实心点和空心点分别代表两类样本,为分类线,1、2分别为过各类中离分类线最近的样本且平行于分类线的直线,它们之间的距离叫做分类间隔(margin)。所谓最优分类线就是要求分类线不但能将两类正确分开(训练错误率为0),而且使分类间隔最大.分类线方程为·+=0,可以对它进行归一化,使得对线性可分的样本集(,),=1,(),+1,-1,满足(·)+-1 > 0,=1, (5)此时分类间隔等于2/,使间隔最大等价于使2/2最小。满足式(5),且使2/2最小的分类面就叫做最优分类面,1、2上的训练样本点就称作支持向量。利用Lagrange优化方法可以把上述最优分
26、类面问题转化为其对偶问题:满足约束 其中,=(1,2,),=(1,1),是×的对称矩阵,各个单元为 =· (8) 为原问题中,与每个约束条件式(7)对应的Lagrange乘子。这是一个不等式约束下,二次函数寻优的问题,存在唯一解。容易证明,解中将只有一部分(通常是少部分)不为零,其对应的样本就是支持向量。解上述问题后得到的最优分类函数是 式中的求和实际上只对支持向量进行.*为的最优解,*是分类阈值,可以用任一个支持向量(满足式(5)中的等号)求得,或通过两类中任意一对支持向量取中值求得。在线性不可分的情况下,引入非负松弛变量集合=(1,2,),这样将式(5)的线性约束条件转
27、化为:(·+)>=1-,=1, (10) 以上都是在线性分界超平面的基础上进行的讨论,在很多问题中需要将其推广到非线性分类超平面中。SVM的非线性特性可以这样来实现,把输入样本映射到高维特征空间(可能是无穷维)中,并在中使用线性分类器来完成分类,即将做变换:():前面的分析同样适用。当在特征空间中构造最优超平面时,训练算法仅使用空间中的点积,即仅仅使用()·(),而没有单独的()出现。因此,如果能够找到一个函数使得(,)=()·()。那么,在高维空间实际上只需进行内积运算,而这种内积运算是可以用原空间中的函数来实现的,甚至没有必要知道的形式,根据泛函的有关理论,只要一种核函数(,)满足Mercer条件,它就对应某一变换空间中的内积。常用的核函数有多项式、径向基函数、Sigmoid函数、样条(spline)函数核和Fourier核等。因此,在最优分类面中,采用适当的内积函数(,)就可以实现
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 配送合同协议书范文模板下载
- 汽车配件包销协议书范文范本
- 交通事故签了互不追究协议书范文
- 离婚协议书范文自定义范本
- 探店培训合作协议书范文范本
- 购买二手车垫款协议书范文模板
- 冬至节气习俗分享-冬至是中国传统节气之一
- 2023-2024学年云南省曲靖市宣武九中高三年级第二学期2月周测试数学试题卷
- 2020年度继续医学教育试题及答案
- 新生军训代表演讲稿(3篇)
- 太原公交公司管理招聘笔试试题
- 椎管内占位病变的护理
- 姨妈巾销售策划方案
- 稻虾混养可行性方案
- 物业工程部日常工作安全知识
- 第一章城市设计导论
- 视听节目制作
- 中医康复技术专业设置论证报告
- 冠心病诊断与治疗指南课件
- JGT366-2012 外墙保温用锚栓
- 小儿灌肠培训课件
评论
0/150
提交评论