第三节信息处理与数据挖掘技术_第1页
第三节信息处理与数据挖掘技术_第2页
第三节信息处理与数据挖掘技术_第3页
第三节信息处理与数据挖掘技术_第4页
第三节信息处理与数据挖掘技术_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三节信息处理与数据挖掘技术第一页,共二十六页,2022年,8月28日一、化学计量学简介abriefintroductionofchemometrics化学计量学:化学与计算机结合的产物1974年,Kowalski与Wold

提出建立国际化学计量学协会任务:运用数学和统计的方法设计或选择最佳测试过程和实验

通过化学数据分析提供更多化学信息。范畴:纯化学与量子化学之间凡涉及计算和计算机的所有领域。应用举例:大连湾海水污染物与污染源之间的关系;控制

由尿样获取身体健康状况的全部信息;简化

化合物性质数据——结构,结构与性质的关系;新药

产品质量检验——生产中的问题;决策

犯罪现场的烟雾分析:香烟牌号,种类;破案第二页,共二十六页,2022年,8月28日

二、信息评价

informationappraise

分析仪器是分析化学家为获取化学信息所使用的工具,因此可以由信息理论来评价仪器的性能。1.信息量和熵

设有一事件有几种可能性,他们各自的概率为pi,Shannon定义信息熵:

在信息理论中,习惯取“2”作为对数的底,此时单位为bit(e为底,nat)。设有一具有两种可能性的等概率事件:第三页,共二十六页,2022年,8月28日信息量和熵

熵是事件不确定程度的度量,不确定程度越大,熵就越大。对于一个概率密度为p(x)的连续型分布熵的定义为:

信息的概念是与事件发生的概率相联系的,出现小概率事件所包含的信息量大,因此可定义信息量:

I=-lgpi如果事件发生后的概率不等于1,即它是不确定的,则信息量可表示为:

I=lg(qi/pi)式中qi是事件发生后的概率。第四页,共二十六页,2022年,8月28日2.信息量与熵的关系

如果通过某些方法获取信息使原来事件的不确定程度减小,所得到的信息的数量就是信息量,故信息量就是熵减少的量:

I=H0-H式中H0和H分别表示获取“情报”前后,事件不确定程度。在分析化学中则是实验前后的熵。若经过实验后的结果完全确定,即实验后的熵=0,则:

I=H0=Hmax即经过这样一个实验后,可能得到的最大信息量。第五页,共二十六页,2022年,8月28日3.分析化学实验中的信息量与熵

在定性分析实验中,判断某一组分是否存在。实验前:

概率:各为1/2(实验前并无任何信息)

H0=1bit实验后:H=0故信息量:I=H0-H=1bit如果采用仪器分析定性,不能将全部组分检测出,如何确定?例:原子吸收测定含铜、锌试样(组成未知)。

仅测定出Cu2+时的信息量,测定出Cu2+、Zn2+时的信息量分别是多少?(阴离子不能检测)。第六页,共二十六页,2022年,8月28日4.定量分析中有关参数与信息量

在定量分析实验中,如果实验前知道某一组分的大致范围时,即p(x)均匀地分布在(x1,x2)区间内,则:

由于分析中偶然误差的存在,结果不可能是一定值而成正态分布。设其标准偏差为σ,则:第七页,共二十六页,2022年,8月28日于是:σ越小,信息量越大。实验中增大信息量的途径?减少干扰、提高仪器灵敏度、减小噪声、增加测定次数等。第八页,共二十六页,2022年,8月28日5.仪器的最大信息量

分析仪器通常有一测定限cmin,待测试样浓度低于此值时,不能用该仪器测定。该仪器实验前的熵为:Δc为仪器能分辨的最小浓度差,实际的信息量:第九页,共二十六页,2022年,8月28日对于多通道的仪器,可以有n个通道同时测定n种组分,其总的信息量是各通道的信息量之和:

单位时间内信息量的变化称为信息流:

理想的分析仪器应该在很短的时间内获得很大的信息量。第十页,共二十六页,2022年,8月28日6.仪器的效率和剩余度

仪器的效率可用剩余度来衡量。剩余度的定义:

R=Hman—H

剩余度是熵偏离其最大值的度量。熵的一个重要性质是当所有的可能性都是等概率时,熵有最大值。在定量分析中,如果试样中待测组分的含量完全是未知的,则其可能的含量为0~100%,故:第十一页,共二十六页,2022年,8月28日仪器的效率和剩余度

在分析仪器中,剩余度常被定义为:

R=Iman—I

即它是分析过程中被保留,未被利用的信息量的度量。剩余度大表示该仪器的效率低。

分析时,一般样品的大致含量范围总是知道的,设其范围为x1~x2。故:则:第十二页,共二十六页,2022年,8月28日三、信号与噪声

signalandnoise本底信号:

没有试样时,仪器产生的信号;随机噪声;空白信号:

试样中无待测组分时,仪器产生的信号;试样预处理:

空白信号接近本底信号;第十三页,共二十六页,2022年,8月28日1.检出限

样品的信号能被检出的最低限;由于存在随机噪声(正态分布),有误判的可能;如何规定检出限使误判产生的几率符合要求(统计学),1969年,国际原子吸收光谱会议;yB+3B

1975年,IUPAC;yB+2B保险检出限:yB+6B数学期望值yB;标准偏差B定义:以一定的置信度检出待测组分的最低浓度(或量)

yA=yB+kB

k的取值对应于不同置信概率第十四页,共二十六页,2022年,8月28日2.灵敏度

分析仪器的响应值与浓度(或量)改变一个单位时所引起的信号的变化,y/c.(IUPAC给出的定义);单纯灵敏度高不能保证有低的检测限;

检测限与B有关,B来自随机噪声,信号变化可能被噪声淹没。第十五页,共二十六页,2022年,8月28日3.信噪比(S/N)的提高途径:a.改善信号的测量技术;b.信号经过适当处理;

c.优化。(1)信号的平均:噪声信号(2)滤波和调制第十六页,共二十六页,2022年,8月28日四、信号处理技术

technologyofsignalprocess

对分析信号进行处理是为了提高信息量,改善信噪比。信号处理通常采用以下几种方法和技术:1.曲线拟合

用数学方法将获取的数据作曲线拟合。方法:(1)根据实际获得的曲线找出与此曲线适应的数学模型;(2)以实验得到的数据对(Xi,Yi),代入数学模型(关系式),用最小二乘法求出模型中的待定参数。关键点:选择正确的数学模型例:非正态色谱曲线,可采用r函数与指数衰减曲线相结合的数学模型。第十七页,共二十六页,2022年,8月28日2.曲线的平滑处理

曲线平滑处理可以去除数据集合中的随机噪声,保留有用信息,提高信噪比。小波动:随机噪声大波动:包含有用信息方法:

boxcar平均化;移动窗口均化;最小二乘多项式平滑(Savitzky-Golay卷积法),最常用的方法。注意点:不正确的进行平滑处理可能会将微弱信号当作噪声处理掉。第十八页,共二十六页,2022年,8月28日3.信号求导

消除背景和重叠峰的干扰,提高分辨率和灵敏度。方法:模拟微分电路或求导程序软件。微分谱比原谱对谱特征的细微变化反应要灵敏的多,被隐藏的谱的特征可以通过对原谱图的微分而得到加强。应用:(1)光谱图、色谱图:重叠峰、弱肩峰的区分;(2)电位滴定曲线的导数曲线容易确定滴定钟点。注意点:微分时,原谱的噪声也被加强,高阶导数谱的噪声增大的更明显,解决方法:对原谱进行平滑处理。第十九页,共二十六页,2022年,8月28日五、多元分析方法

polybasisanalysismethods

如何在大批实验数据中总结出有用的规律或者挖掘出有用的信息;多元分析是一类计算机信息处理、信息挖掘技术,特别适合用于从多种因素影响的大量实验数据中总结规律;多元分析应用领域:处理卫星照片;指纹鉴别;文字和语音识别;多参数、多变量问题的处理;

分析化学中的应用:(1)多种微量元素的分布与健康(或疾病)的关系(2)物质中复杂成分的含量分析(3)各种谱的特征与性质关系(4)分子结构与谱特征的关系第二十页,共二十六页,2022年,8月28日1.多元分析方法的特点

在多元分析中,对每个研究对象(每个观察样本都有M个变量或参数)取值,考察N个观察对象的集合就作成一张N*M的数据表。观察对象的集合可以是全部样本,也可是较大集合中的一个子集;变量可以是连续的也可以是离散的;在多元分析中,通常采用以下技术:(1)简化结构用简单方法来表示所研究的复杂问题;(2)分类将观察对象分成若干个不同的组或类;(3)变量分组将变量按其性质分组;(4)相关分析研究变量之间的相互关系、观察对象之间的相互关系。第二十一页,共二十六页,2022年,8月28日2.多元分析中的主要方法简介

多元分析中所采用的方法:(1)回归分析:多元线形回归分析;偏最小二乘回归分析;逐步回归分析。(2)相关分析(3)因子分析(4)降维与映射(5)聚类分析(6)分类与判别(7)人工神经网络(8)优化技术第二十二页,共二十六页,2022年,8月28日3.化学因子分析法简介

因子分析:通过对一数据矩阵进行特征分析、旋转变换等操作以获取有关信息的数学方法。

化学因子分析:将因子分析技术用于解决化学中的问题,形成了带有浓厚化学特色的因子分析方法。

化学因子分析特点:(1)解决复杂问题同时处理多因素相互影响的复杂体系(2)快速处理大量数据采用标准因子分析程序(3)数据的有序解释与预测在获得规律指导下进行预测第二十三页,共二十六页,2022年,8月28日因子分析基本步骤第二十四页,共二十六页,2022年,8月28日常见的因子分析方法(1)主成分分析(principlecomponentanalysis)(2)目标因子分析(targetfactoranalysis)(3)迭代目标因子分析(iterativetargetfactoranalysis

)(4)秩消因子分析(rankannihilationfactoranalysis)(5)渐进因子分析(evolvingfactoranalysis)(6)窗口因子分析(windowfactoranalysis)(7)启发渐进式特征投影(heuristicevolvinglatentprojection)第二十五页,共二十六页,2022年,8月28日内容选择:第一节计算机与仪器分析

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论