




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1化学信息学化学模式识别 (一)数据挖掘(Data Mining,DM)数据挖掘(Data Mining,DM)是从大量的数据中提取隐含的或隐藏的信息,是一种新的信息处理技术,其目的在于找到外在物理、化学、生物或生理表征与内在结构如化学组成、分子构型、构象、形态等之间的相互关系,并从中提取辅助决策的关键信息。2数据挖掘一般包含以下步骤:3图 10-1 数据挖掘全过程数据的标准化模式识别中将需作处理的样本集X一般用如下矩阵形式表示: 4为了消除量纲和变化幅度不同带来的影响,原始数据可作标准化处理,有关计算公式如下:5 (10-2)(10-3)(10-4)其中 为所有样本第j个特征的平均值, 为所
2、有样本第j个特征的方差,xij为经标准化处理后的数据,各变量权重相同,均值为0,方差为1。特征提取与优化主成分分析偏最小二乘法逐步回归分析遗传算法6主成分分析(Principal Component Analysis,PCA)主成分分析也称主分量分析,是多元统计的一部分重要内容。在统计学中,主成分分析是一种简化数据集的技术。主成分分析的一般目的是对变量降维或对主成分解释。 7主成分分析是将数据原来的p个指标作线性组合,作为新的综合指标( )。其中 是“信息最多”的指标,即原指标所有线性组合中使 最大的组合所对应的指标, 称为第一主成分; 为除 外信息最多的指标,即 且 最大,称为第二主成分;依
3、次类推。8主成分分析(Principal Component Analysis,PCA)求主成分的一般步骤如下:1.对样本数据的标准化2.计算相关矩阵3.求特征值和特征向量4.求主成分(取线性组合)5.定义9主成分分析(Principal Component Analysis,PCA)10 图 10-2 主成分的空间投影图(PC1是第一主成分,PC2是第二主成分,PC3是第3主成分)主成分分析(Principal Component Analysis,PCA)偏最小二乘法(Partial Least Squares, PLS)偏最小二乘法是在20世纪60年代末由Wold提出的,80年代开始应用
4、于化学研究,该方法具有简单稳健、计算量小、预测精度高、无需剔除任何解释变量或样本点、所构造的潜变量较确定、易于定性解释等优点。学测量和数据挖掘中得到广泛应用。11偏最小二乘法PLS是对每个X 矩阵的潜变量方向进行修改,使它与Y矩阵间的协方差最大,即在原回归方程中删去那些特征值近似为零的项,其X和Y矩阵分别按式10-16和10-17分解为较小的矩阵:12 (10-16)(10-17)式中:T为X的得分矩阵, 为得分向量,P为X的载荷矩阵, 为相应的载荷向量,E是残差矩阵,是X中无法用 个潜变量t反映的部分。U为Y的得分矩阵,为得分向量,Q为Y的载荷矩阵, 为相应的载荷向量,F是残差矩阵,是Y中无
5、法用 个潜变量u反映的部分。逐步回归分析最佳回归方程:最佳回归方程应该包括所有对因变量作用显著的变量13逐步回归分析法就是从一个预报因子开始,按自变量对因变量作用的显著程度,从大到小地依次逐个地引入回归方程,另一方面是当先引入的自变量由于后面自变量的引入变得不显著时,就将前者从回归方程中剔除。显著性检验F检验法14相关系数检验法显著性检验,以确定自变量X与因变量Y之间确实线性相关。两种常用的回归方程检验方法:F检验法首先将观测值和拟合值差值的平方和(SS)分解为回归平方和(SSE)和残差平方和(SSR),用以下统计量进行检验: (10-18)式中:n为数据组数。当F值大于一定的临界值时,拒绝原
6、假设,认为因变量与自变量之间是相关的。15相关系数检验法相关系数R反映了回归平方和在总平方和中的比例,即反映了X与Y之间线性相关的密切程度,|R|愈接近0,X与Y之间的线性相关程度愈小,反之,|R|愈大,愈接近1,X与Y之间的线性相关程度愈大。16(10-19)对于一个具体问题,只有当|R|大到一定程度时才可以认为X与Y之间有线性相关关系。遗传算法遗传算法(Genetic Algorithms, GA)最早由Holland教授于20世纪70年代创建的。它以达尔文进化论和孟德尔遗传学说为理论基础,通过模拟自然界生物“遗传变异适者生存”的进化过程,对优化空间进行随机搜索,从而得到全局最优解。17遗
7、传算法18图10-3 遗传算法基本流程遗传算法遗传算法的具体实施需要以下步骤:染色体的编码、初始化操作、染色体适应度的计算和遗传操作。19染色体的编码和适应度的确定方法(1)染色体的编码和形成:直接采用二进制编码,用0代表某个变量未被选中,1代表选中。染色体的长度为待选变量的个数。(2)染色体适应度的确定:Hasegawa等人提出了用平方预测相关系数作为染色体适应度,其计算公式为:20其中,yi为实际值,y(-i),pred为用除掉第i个样本的数据建立的模型对yi的预测值, 为yi的平均值,h为公式(10-18)获得最大值时的主元个数。染色体的编码和适应度的确定方法(3)确定最佳的主元个数:交
8、叉有效性验证是最常用的确定主元个数的方法,式(10-21)中的最佳主元个数的确定为:如果PRESSj/RSSj-10.952,则增加一个主元是有益的。21基于GA-PLS算法的变量选择步骤(1)用随机方法来初始化种群,指定最大迭代次数、交叉率和变异率;(2)根据式(10-19)计算种群各个个体的适应度值,再从当前种群中选择出优良的个体,使它们随机两两配对;(3)根据指定的交叉率,对以上各对染色体进行交叉处理;(4)根据指定的变异率,对染色体进行变异处理;(5)如果循环终止条件满足,则算法结束,否则转到第(2)步。22信号处理方法信号处理的目的就是对数字信息进行准确的分析、诊断、编码压缩和量化、
9、快速传递或存储、精确重构(或恢复)。将信号处理的方法结合到蛋白质序列分析中,能发挥其特有的信息提取优势,已成为生物信息学研究领域的一个重要的发展方向。23信号处理方法信号分成两大类确知信号和随机信号。确知信号具有一定的变化规律,因而容易分析,而随机信号无准确的变化规律,需要用统计特性进行分析。在工程技术中,一般采用描述随机过程的主要平均统计特性的几个函数,包括均值、方差、相关函数、频谱及功率谱密度等来描述。24协方差与相关系数若两个随机变量x和y相互独立,则 =0,若上述数学期望不为零,则x和y必不是相互独立的,即它们之间存在着一定的关系。因而定义 称为随机变量x和y的协方差,记作COV(x,
10、y),即:25(10-26)其中E表示数学期望设随机变量x、y的数学期望和方差都存在,则变量x和y之间的相关程度常用相关系数 表示:26其中, 、 ,随机变量x、y的均值; 、 ,随机变量x、y的方差。(10-27)协方差与相关系数自、互相关分析设x(t)是各态历经随机过程的一个样本函数,x(t+)是x(t)时移后的样本如图10-4所示。两个样本的相关程度可以用相关系数来表示。27图10-4 自相关函数自相关函数若用 表示自相关函数,其定义为:28(10-28)自相关函数的性质如下:(1)自相关函数为实偶函数,即 = 。(2)值不同, 不同,当=0时, 值最大,并等于信号的均方值。(3)值的限
11、制范围为: 。(4)当时 ,x(t)和x(t+)之间不存在内在联系,彼此无关。(5)周期函数的自相关函数认为同频率的周期函数。互相关函数对于各态历经随机过程,两个随机信号x(t)和y(t)的互相关函数 定义为:29(10-29)互相关函数30互相关函数的性质如下:(1)互相关函数是可正可负的实函数。(2)互相关函数非偶函数,亦非奇函数,而是 = (3) 的峰值不在=0处,其峰值偏离原点的位置 反映了两信号时移的大小,相关程度最高。(4) 限制范围为: (5)两个统计独立的随机信号,当均值为零时, =0(6)两个不同频率的周期信号,其互相关函数为零。(7)两个同频率正余弦函数不相关。(8)周期信
12、号与随机信号的互相关函数为零。功率谱密度31随机过程的功率谱密度为:随机信号的功率谱密度是随机信号的各个样本在单位频带内的频谱分量统计均值,是从频域描述随机信号的平均统计参量,表示x(t)的平均功率在频域上的分布。它表示功率信号x(t)中以角频率为中心的单位带宽内所具有的功率。(10-30)功率谱密度随机信号的功率谱密度具有以下四个性质:(1)功率谱密度为非负值,即功率谱密度大于等于0。(2)功率谱密度是的实函数。(3)对于实随机信号来说,功率谱密度是的偶函数,即S()= S(-)。(4)功率谱密度可积。功率谱密度曲线下的总面积(即随机信号的全部功率)等于随机信号的均方值。32傅立叶变换傅立叶
13、变换(Fourier Transform, FT)是将分析信号在测量的时域变换到频域,这样分析工作者有可能获得特殊的信息以提高信噪比或可使计算能较为方便地进行。33小波变换小波变换 (Wavelet Transform, WT)是给出时间域和频率域方面信息的另外一种技术,类似于傅立叶变换,小波变换将测量信号分解为一组称之为小波基的基函数,这种小波基函数称为分析小波(analyzing wavelet)。34小波变换35图10-5 常用的小波函数类型小波变换小波函数的定义为:设(t)为一平方可积函数,若其傅立叶变换()满足条件:36(10-33)则称(t)为一个基本小波或小波母函数。上述条件也称
14、为小波函数的可容许条件。将小波母函数(t)进行平移和伸缩,就可以得到一系列小波基函数:a0, bR (10-34)其中a和b分别称为 的伸缩因子和平移因子。小波变换的应用小波变换在蛋白质频谱分析中的应用小波变换在基因组序列分析中的应用小波变换在蛋白质序列分析中的应用小波变换在基因芯片数据分析中的应用37机器学习方法K最近邻法概率神经网络分类回归树助推法人工神经网络支持向量机38数据库挖掘技术聚类算法决策树算法39聚类算法聚类是一种常见的数据分析工具,其目的是把大量数据点的集合分成若干类,使得每个类中的数据之间最大程度的相似,而不同类中的数据最大程度的不同。常见的聚类算法主要包括层次聚类算法(H
15、ierarchical Clustering Method)、分割聚类算法 (Partitioning Clustering Method)、基于密度的方法(Density-Based Methods)、基于网格的方法(Grid-Based Methods)等。40决策树算法常见的决策树算法主要有ID3 算法、C4.5算法、CART算法、SPRINT算法等。41Web数据挖掘技术Web挖掘是从Internet网络资源上挖掘有趣的、潜在的、有用的模式及隐藏信息的过程,它是数据挖掘技术应用于网络资源进行挖掘的一个新兴研究领域。42图10-16 Web挖掘分类Web内容挖掘Web内容挖掘是对Web上大量文档的集合进行总结、分类、聚类与关联分析来获取有用信息,Web页面的内容主要
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 个人自助图书馆借阅服务合同
- 现代服务业服务质量评价标准知识考点
- 互联网产品策划题
- 办公空间能源消耗表格:能耗统计、节能减排
- 金融投资行业市场波动风险免责声明
- 医学知识视频培训课件
- 工作计划完成情况统计表格
- 进出口代理合同
- 季度项目进展与成果汇报会议纪要
- 办公软件产品功能手册与使用说明
- 常见意外伤害的处理课件
- 第八章运动和力单元试卷 (含答案) 2024-2025学年人教版物理八年级下
- 2025年中央一号文件高频重点考试题库150题(含答案解析)
- 风电项目电网接入系统可行性研究报告编制服务方案投标文件(技术方案)
- 2024人教版新教材初中地理七年级下册内容解读课件(深度)
- 2025年辽宁医药职业学院高职单招职业适应性测试近5年常考版参考题库含答案解析
- 2023-2028年中国油画行业市场发展现状及投资规划建议报告
- 100以内加减法练习100题(50套)-可直接打印
- 2024年干式电力电容器项目可行性研究报告
- 河南12系列建筑设计图集一(12YJ1)
- 2025年村三会一课工作计划表
评论
0/150
提交评论