医学信息获取及利用课件_第1页
医学信息获取及利用课件_第2页
医学信息获取及利用课件_第3页
医学信息获取及利用课件_第4页
医学信息获取及利用课件_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、医学信息获取及利用医学信息获取及利用医学信息获取及利用医学信息获取及利用医学信息获取及利用医学信息获取及利用2.1 医学信息获取的基本概念医学信息获取的含义?医学信息获取的理解(1)医学信息获取的传统理解借助某种换能器将医学实体的非电信号转换成医学模拟电信号,再由A/D转换器将模拟电信号转换成医学数字信号的过程定义为医学信息获取。(2)医学信息获取的广义理解凡能够采用某种方法得到所需医学信息的过程都称为医学信息获取22.1 医学信息获取的基本概念医学信息获取的含义?22.1 医学信息获取的基本概念(续)医学信息表示的含义各种类型的医学信息,由于获取的方法不同,计算机直接识别的数字信息、须经过某

2、种变换或某种编码才能为计算机所识别的信息。数字变换或编码就是信息的一种表示形式32.1 医学信息获取的基本概念(续)医学信息表示的含义32.1 医学信息获取的基本概念(续)医学信息获取的基本前提信息感知是对医学实体信息的认识和感悟信息感知主要由人体的感觉器官实现声波振动耳鼓膜和听骨耳蜗管内淋巴液纤毛细胞发生弯曲变形神经生理电信号听觉器官感知声音信息感知总是具有局限性视觉器官只能感知16Hz20KHz的可见光听觉器官只能感知20Hz20KHz的声波获取人体无法直接感知的信息,必须借助人工感知系统(医学传感器),扩展和延伸人体感知器官功能。42.1 医学信息获取的基本概念(续)医学信息获取的基本前

3、提2.1 医学信息获取的基本概念(续)医学信息获取的信息来源信息源:组织或个人为满足其信息需要而获得信息的来源,称为信息源。实体型、文献型、电子型、网络型信息源医学信息获取的基本途径52.1 医学信息获取的基本概念(续)医学信息获取的信息来源2.2 医学常规数据信息的获取及利用医学常规数据信息的界定什么是医学常规数据信息?指在进行医学临床、医学实验、医学教学、医学预防和医学管理等一般性的医学实践和科学实验中,所得到的各种常见的医学数据。特点是:多以数据形式直观表现,具有明显的可测性;信息多种多样;分为计量指标数据和计数指标数据两类。计量指标数据:各种物理和化学指标的数据信息计数指标数据,则是指

4、那些不能用数量描述的文本数据信息62.2 医学常规数据信息的获取及利用医学常规数据信息的界定2.2 医学常规数据信息的获取及利用(续)医学常规数据信息的获取方法传统方法:文档查阅法、实验研究法、现场调查法网上搜索方法:从光盘数据库系统、门户网站、搜索引擎、网络搜索软件医学常规数据信息获取的基本原则数据信息的正确性、完整性、统一性、可操作性统一性:数据信息的形式和名称统一;遵循一定的标准。遵循标准的原则是:国内标准优先国际标准,国家标准优先行业标准。倘若既无国际、国家标准,又无行业标准,也可以在一定约定下自己拟订一个临时性标准文本。72.2 医学常规数据信息的获取及利用(续)医学常规数据信息2.

5、2 医学常规数据信息的获取及利用(续)医学常规数据信息获取的利用途径统计处理、数据库构建、科学计算、大数据利用大数据:指那些规模巨大到无法利用目前常用的数据处理技术和主流软件工具,在合理的时空中实现获取、存储、处理的海量数据及其技术。4 V特征:Volume(巨量)、Variety(多样)、Velocity(高速)和Value(价值)核心:海量数据进行存储和分析处理82.2 医学常规数据信息的获取及利用(续)医学常规数据信息2.3 医学生理信息的获取及利用医学生理信息的含义生命体在其生命活动过程中,无论是器官组织还是细微细胞都可能成为生理信息产生的信息源人体生理信号的类型:表2.1电信号:内源

6、性信号、外源性信号非电信号:机械性质信号、化学性质信号生理信号特点?幅值小,频率低信噪比低,随机性强,易受干扰而不易被识别一般需要换能器才能获取92.3 医学生理信息的获取及利用医学生理信息的含义92.3 医学生理信息的获取及利用(续)医学生理信息获取的基本原理医学生理信息获取的基本过程图2.2102.3 医学生理信息的获取及利用(续)医学生理信息获取的基医学生理信息获取的基本原理(续)医学生理信息获取的基本技术(1)人体生理信号的表征。是一个时间的函数对于具有连续重复特征的生理信号,通常采用准周期函数(如心电图信号)或瞬时函数(如眼动图信号、受刺激的细胞信号)进行描述。例如心电图中的P-QR

7、S-T复合波就是以准周期或近似周期形式产生的波形信号来构建的波形图。对于具有随机特性的生理信号,多数情况只能用统计学的方法进行描述 11医学生理信息获取的基本原理(续)医学生理信息获取的基本技术1医学生理信息获取的基本原理(续)(2)医学传感器拾取信号的原理 医学传感器概念:传感器又称换能器,是医学检测仪器及人体直接耦合的一种设备,其作用是对人体生理信号进行感知和拾取,并转换成模拟电信号。医学传感器分类(表2.3)工作原理分:物理型、化学型和生物型输入信息分:有位移型、压力型、速度型、流量型、温度型和电位型用途分:脉搏传感器、脑电传感器、胃电传感器传感器组成:感受器:完成对人体温度、压力和流量

8、等物理量的识别和拾取换能器:将拾取的物理量转换成大小不同的电信号形式12医学生理信息获取的基本原理(续)(2)医学传感器拾取信号的原医学生理信息获取的基本原理(续)(3)生理信号的ADC转换概念:人体生理信号经传感器拾取后得到是模拟电信号,通过模/数转换即A/D转换或称ADC(Analog to Digital Converter)转换技术,使其数字化。ADC转换器组成:模拟多路选择电路、采样保持电路、A/D转换及控制电路A/D转换器有8位、12位、16位、24位或更高位的多种分辨形式ADC转换的工作过程分两步:一是采样,二是量化。如图2.313医学生理信息获取的基本原理(续)(3)生理信号的

9、ADC转换1ADC转换的工作过程采样频率的选择采样,就是将模拟信号的幅值被等分地间隔开来,即将一个连续时间函数的信号变成具有一定时间间隔T,使在每一个时间ti i=1,2,n时才有函数值的离散信号过程。香农-奈奎斯特(Shannon-Nyquist)采样定理:采样频率f至少应是原始信号x(t)中最高频率的2倍量化阶数的确定量化,就是在采样所确定的时间间隔位置对信号进行量化处理即以有限的数字精度进行数字表示的过程。量化阶数m,指幅值范围对量化阶值的比值,用2的乘幂形式表示,即m=2n,这里的n为二进制数的位数14ADC转换的工作过程采样频率的选择14 医学生理信息获取的方法及利用分析心电信号的数

10、字化获取方法及其分析常见心电信号的数字化采集和分析系统检测心律失常的心电信号采集和分析系统动态心电信号采集和分析系统心电信号采集和分析系统心电图机、心电生理检则仪、运动平板心电检测机、动态心电图检测仪、心电监护仪系统构成测量程序:实现心电信号的数字化准确获取分析程序:不同类型的心电系统差别较大15 医学生理信息获取的方法及利用分析心电信号的数字化获取方法及医学生理信息获取的方法及利用分析(续)脑电信号的数字化获取方法及其分析脑电图EEG(Echoencephalography)是大脑神经活动在头皮上产生的电位分布数字化脑电图设备:脑电功率谱分析设备动态脑电图机脑电地形图BEAM(Brain E

11、lectrical Activity Mapping)仪脑电信号分析和检测系统测量程序:头皮电极拾取脑电信号,ADC转换数字信号分析程序:不同的脑电系统区别很大16医学生理信息获取的方法及利用分析(续)脑电信号的数字化获取方2.4 医学图像信息的获取及利用医学图像信息概述医学图像信息的含义:一种用图像表达医学信息的信息源,是医学诊断的重要依据。医学图像种类:X射线图像、超声图像、磁共振图像、同位素图像和显微图像医学图像信息的基本特征维数多、信息量大(表2.4)、生命性172.4 医学图像信息的获取及利用医学图像信息概述17表2.4 一些常见医学图像信息文件的大小图像类型一幅图像(位)图像数/检

12、查文件/检查核医学图像1281281230-601-2M磁共振图像25625612608M超声图像512512820-2305-60M数字减影血管造影图像5125121215-404-10M计算机断层扫描图像512512124020M计算机放射图像2048204812216M数字化X线摄影图像2048204812216M数字化X线乳腺摄影图像40964096124128M18表2.4 一些常见医学图像信息文医学图像信息获取的基本原理医学图像信息获取的过程(两个阶段)光电转化:将反映不同光强度的医学图像信息转化成模拟电信号,光电转换设备:电荷藕荷器CCD(Charged Coupled Devi

13、ce)和互补型金属氧化物半导体CMOS(Complementary Metal Oxide Semiconductor)模数转化:把模拟图像信号转化为数字图像信号,即实现图像的采样和量化。图像采样,是将空域或时域上的连续模拟图像拾取和变换成离散的采样点(像素)集合的过程。图像的量化,就是将采样得到的像素点上表示明亮程度的信息的连续量离散化后,用数值(一般用整数)阵列表示的过程19医学图像信息获取的基本原理医学图像信息获取的过程(两个阶段)医学图像信息获取的基本原理(续)图像信息的表示形式采用直观的矩阵形式表示。将图像离散化,离散后即可得到一个mn阶矩阵形式。P40 (2.1)阵列中每个点(xi

14、 , yi)的函数值表示采样点的灰度值,x和y分别表示在x, y方向的变化距离即采样周期。为方便起见,通常取x=y=0,x=y=1。20医学图像信息获取的基本原理(续)图像信息的表示形式20医学图像信息获取的基本原理(续)象素点的灰度级别一幅图像的清晰度和保真度除了及象素点的采样周期有关,还及表示该象素点的灰度级别有关灰度级别越高,效果越好,反之就越差。人眼对黑白程度只能分辨出20多个级别,常用1个字节256等级;用2个字节表示,灰度级别高了,有64k个等级,但存储空间却增加了1倍21医学图像信息获取的基本原理(续)象素点的灰度级别21医学图像信息获取的基本原理(续)黑白图像,亦称二值图像,其

15、像素值只有0和1灰度图像,每个像素的信息由一个量化的灰度级来描述彩色图像:每个像素的信息是由RGB三种原色构成,而RGB又由不同的灰度级来描述,因此彩色图像是用三个矩阵共同来描述22医学图像信息获取的基本原理(续)黑白图像,亦称二值图像,其像医学图像信息获取的基本原理(续)医学图像信息的编码方法什么是图像信息的编码?如何使图像信息在计算机中占用较少的存储空间,“数据压缩”。图像信息的编码方法:无损压缩,可逆压缩。压缩比2:1。有损压缩,不可逆压缩。高压缩比,图像质量降低。23医学图像信息获取的基本原理(续)医学图像信息的编码方法23哈夫曼编码算法基本思想和特点依据数据出现频率来编码,达到压缩特

16、点:是一棵加权二进制树;频繁元素在树顶部;左分支分配1(或0),右分支分配0(或1)。算法过程P41 构造唯一的数据元素概率集合,各元素是节点;概率集合列表中数据元素以值递增排序。最小的两个概率值相加 形成二叉树父节点,这两个值为叶节点,并将值小的(左侧)赋1,并从列表中移除这两个值,将新节点插入列表中,列表仍保持递增。重复 直到列表中留下 1个元素 ,即为 整个 二叉树的父节点 。从二叉树树根节点开始找到 每个叶节点 ,把沿途经过的“1”和“0”串起来,即可得到每个叶节点的编码24哈夫曼编码算法基本思想和特点24哈夫曼编码算法(续 )案例2.1 设一幅医学图像中出现有8种灰度级别s0,s1,

17、s2,s7,且已知在该幅图像的象素序列中,s0, s1, s2,s7分别出现的次数是:4,5,6,7,10,10,18,40,试用哈夫曼编码方法对其进行编码。先计算每种灰度级别出现的概率p(si)(i=0,1,2,7)并按从小到大进行排序,即:0.04,0.05,0.06,0.07,0.10,0.10,0.18,0.40再将最小的两个概率节点值相加得到新的概率节点值,并构建二叉树和赋值“0”和“1”,之后再重新排序,即:0.06,0.07,0.09,0.10,0.10,0.18,0.40按算法构造 二叉树 25哈夫曼编码算法(续 )案例2.1 设一幅医学图像中出现有哈夫曼编码算法(续 )哈夫曼

18、编码二叉树10.40.60.230.370.180.190.090.100.040.050.100.130.060.07S4S1S0S6S3S2S5S711101110000001最后从根节点开始沿着树枝到叶节点将所有赋值串起来,得到了s0到s7的编码结果依次是:00011,00010,0101,0100,0000,011,001,1。26哈夫曼编码算法(续 )哈夫曼编码二叉树10.40.60.23教材P42 图2.7纠错 0.230.370.1327教材P42 图2.7纠错 0.230.370.1327案例分析假设有一个字符列表“abcdefg”,它们在一个文件中出现的频率依次分别是17、7

19、、22、13、77、90、45。试用霍夫曼编码算法为每个字母编码。28案例分析假设有一个字符列表“abcdefg”,它们在一个文件哈夫曼编码算法(续 )编码效率分析哈夫曼编码:用 可变长码子编码,对出现概率大的符号赋短码子,出现概率小的符号赋长码子。信息编码的效率由信源熵H(S)及信源符号的平均码长L的比值决定。本例: =0.977其中, p(si)为第i个级别灰度出现的概率值,li为信源第i个状态si编码长度的平均码长。本例:29哈夫曼编码算法(续 )编码效率分析29医学图像信息获取的基本方法及利用从X射线成像系统中获取图像信息利用人体器官和组织对X线的衰减不同,透射的X线的强度也不同这一性

20、质,检测出相应的二维能量分布,并进行可视化转换,从而可获取人体内部结构的图像。常规X线数字成像系统计算机X线摄影系统CR(Computed Radiography)数字化X线摄影系统 DR数字减影血管造影系统DSA(Digital Subtraction Angiography)30医学图像信息获取的基本方法及利用从X射线成像系统中获取图像信计算机X线摄影(CR) CR系统是使用可记录并由激光读出X线成像信息的成像板(imaging plate ,IP)作为载体,先将X射线模拟影像保存下来,再对存储在IP板上的模拟信息通过激光扫描器和光电转换器将潜影转换为光电信号,进而通过ADC转换器转换成数

21、字X线的影像信息。31计算机X线摄影(CR)31数字X线摄影(DR)是在X线影像增强器电视系统的基础上,采用模/数转换器将模拟视频信号转换成数字化X图像信号后送入计算机系统中进行存储。32数字X线摄影(DR)32数字减影血管造影(Digital Subtraction Angiography,DSA)解决传统的X射线血管造影中血管及骨骼和软组织的影像重叠、血管显示不清原理:是利用数字图像处理技术中的图像几何运算功能,将造影剂注入前后的数字化X线图像进行相减操作,获得两帧图像的差异部分被造影剂充盈的血管图像。DSA获取影像的过程是一个动态过程33数字减影血管造影(Digital Subtract

22、ion AX线断层扫描成像系统X线CT(Computerized Tomography,CT)是以测定X射线在人体内的衰减系数为物理基础,采用投影图像重建的数学原理,经过计算机高速运算,求解出衰减系数数值在人体某断面上的二维分布矩阵,然后应用图像处理及显示技术将该二维分布矩阵转变为真实图像的灰度分布,从而实现建立断层图像的现代医学成像技术。34X线断层扫描成像系统X线CT(Computerized To影像成像图35影像成像图35螺旋CT 螺旋CT机是目前世界上最先进的CT设备之一,其扫描速度快,分辨率高,图像质量优。用快速螺旋扫描能在15秒左右检查完一个部位,能发现小于几毫米的病变,如小肝癌

23、、垂体微腺瘤及小动脉瘤等。通过网络信息,了解什么是螺旋CT,它有那些特点? 36螺旋CT 螺旋CT机是目前世界上最先进的CT设备之一,其扫从超声成像系统中获取图像信息超声波:是指高于人的听觉范围即频率在20kHz的机械波,医学应用中的超声波是一种纵向压力波,其频率一般在1MHz到几十MHz之间。临床超声系统:超声诊断系统即B超(B-scan or B-mode)超声彩色多普勒血流成像系统(彩超)超声谐波成像系统超声计算机体层成像系统37从超声成像系统中获取图像信息超声波:是指高于人的听觉范围即频超声成像基本原理利用超声波良好的指向性和他的反射、折射、衰减规律及多普勒效应等物理特性,借助超声波换

24、能器和各种数字声束技术,将设定工作频率的超声波导入被检测的人体内,由于超声波遇到不同组织或器官的界面时,将发生不同程度的反射和透射,当接受设备接受到携带有相关信息的回波信号,经数字扫描变换等处理最终形成一幅超声图像。38超声成像基本原理利用超声波良好的指向性和他的反射、折射、衰减从磁共振成像系统中获取图像信息磁共振成像系统MRI(Magnetic Resonance Imaging):是利用人体内氢原子核质子(1H)在磁场内共振的特性,通过不同的扫描脉冲序列形成横断面、冠状面和任意切面的扫描成像。利用人体不同器官的正常组织及病理组织之间在驰豫时间上存在的差异.驰豫过程及驰豫时间:系统通过对处在

25、静磁场中的人体施加某种特定频率的射频脉冲,使人体组织中的氢原子受到激励而发生磁共振,当中止后,氢原子核把吸收的能量逐步释放,其相位和能级都恢复到激发前的状态,称驰豫过程;而恢复到原来平衡状态所需的时间称驰豫时间,经过必要的前置放大,再由ADC转换成数字信号。39从磁共振成像系统中获取图像信息磁共振成像系统MRI(Magn从核医学成像系统中获取图像信息核医学(NM: Nuclein Medicine)即原子核医学成像, 又称放射性核素成像RNI(Radioisotope Nuclein Imaging)是通过人体内注入能够发射伽马()射线放射性示踪剂来成像,使带有放射性核的示踪原子进入要成像的组

26、织,然后测量放射性核素在人体内的分布来成像的一种技术。放射性核素成像技术可观察放射性在人体内的状况及运动变化,反映人体内的生理生化过程,能够反映器官和组织的功能状态,可显示动态图像。构成:由探测器、扫描床和计算机系统组成,在功能上都是通过探测器对光子的获取,并经光电和模数转换实现对人体图像的处理。40从核医学成像系统中获取图像信息核医学(NM: Nuclein从核医学成像系统中获取图像信息(续)分类 :单光子发射成像(Single Photon Emission Tomography,SPECT),早期诊断恶性肿瘤骨转移的骨骼显像、诊断心肌缺血的心脏灌注显像和诊断异位甲状腺的甲状腺显像。正电子

27、发射成像(Positron Emission Tomography,PET)。对肿瘤的早期诊断、恶性肿瘤的分期和分级、原发病灶的寻找、放疗生物靶区的定位因为SPECT和PET都是对从病人体内发射的射线成像,所以统称为ECT。41从核医学成像系统中获取图像信息(续)分类 :412.5 医学知识信息的获取和利用医学知识信息获取的概念医学知识信息的含义韦伯斯特(Webster)词典:“知识是通过实践、研究、联系或调查获得的关于事物的事实和状态的认识,是对科学、艺术或技术的理解,是人类获得的关于真理和原理的认识的总和。”知识工程的观点,知识是人们在生活和工作实践中所使用的事实、规则和方法,以及对他们的

28、解释、转换和使用过程。医学知识信息,就是人们对医学科学和医学实践规律性认识的一种医学知识的信息表达。422.5 医学知识信息的获取和利用医学知识信息获取的概念42医学知识信息的类型按照知识信息的基本形式划分描述医学对象及其属性的知识、描述医学对象之间关系的知识、描述医学对象因果关系的知识、描述医学对象行为、状态和过程的知识等按照知识信息的基本功能划分一阶知识,指最基础的知识,如医学事实;二阶知识,指关于事实利用的知识,如医学概念;三阶知识是指关于对二阶知识使用的知识。43医学知识信息的类型按照知识信息的基本形式划分43医学知识信息获取的基本任务医学知识信息的获取是构造医学知识系统的前提和重要步

29、骤。医学知识系统就是专门研究医学知识的获取、存储、表示、转换、分类和利用等问题的应用系统1.知识信息的收集:从知识源中把各种经过识别、理解、筛选、归纳、能为所用的信息抽取出来的过程。2.知识信息的表示:知识表示就是知识的机器表示;是一种自然语言的机器表示。知识表示是一种特殊的编码形式,是将获取的知识用一种方法构造成一个知识模型的过程。44医学知识信息获取的基本任务医学知识信息的获取是构造医学知识系医学知识信息获取的基本任务(续)产生式规则法ifthen;ifthen(可信度)。案例2.2 由美国斯坦福大学研制的医学传染病辅助诊断MYCIN系统,其知识模型就是主要采用了产生式规则法。下面就是MY

30、CIN系统中的一条规则:前提:(1)细菌革氏染色阴性,(2)形态杆状,(3)生长需氧结论:该细菌是肠杆菌属,CF=0.845医学知识信息获取的基本任务(续)产生式规则法45医学知识信息获取的基本任务(续)案例2.3 下面是某个智能分析诊断系统中的规则形式,其编码方法更是一目了然。规则的一般形式是: 如果:条件(X1)的可信度为(Y1),且 条件(X2)的可信度为(Y2),且 条件(Xn)的可信度为(Yn), 则有:结论(X),其可信度为(Y)。3. 医学知识信息的存储医学知识信息输入到专门用于存放知识信息的知识库中保存起来,以便在知识系统的运行推理中使用46医学知识信息获取的基本任务(续)案例

31、2.3 下面是某个智医学知识信息获取的方法1知识信息的人工获取常规医学知识的获取医学领域专家知识的获取2.知识信息的自动获取自动获取医学知识信息是指利用专门的计算机系统获取相关知识的方法通过编辑器自动获取知识通过机器学习方法自动获取知识机器学习(Machine Learning)就是要构建一个知识系统,使该系统能够模拟人类学习的过程和行为,自动地通过学习、归纳,以获取相关知识信息并不断完善自身的性能47医学知识信息获取的方法1知识信息的人工获取47决策树(Decision Tree)决策树(Decision Tree)系统是通过对训练示例的学习和训练最后得到的一个离散新知识的信息系统。ID3算

32、法,悉尼大学J.R.Quinlan1979年提出ID3算法核心思想:通过对给定的训练示例进行学习,从根节点开始,自顶向下对每个树节点进行划分成分支节点,并使其信息熵值不断减少直至熵为0,即到达叶节点而生成决策树。48决策树(Decision Tree)决策树(Decision复习信息熵(P10)香农信息熵:计算离散型随机事件信息量,P10条件熵和联合熵:对于信源是两个离散型随机事件X和Y,则它们的联合信息熵H(X,Y)和条件信息熵H(X|Y)可分别由式(1.3)和(1.4)平均互信息量:表示信号Y所能提供的关于X的信息量大小 I(X,Y)=H(X)-H(X/Y)49复习信息熵(P10)香农信息

33、熵:计算离散型随机事件信息量,PID3学习算法算法步骤:1)把训练示例看成是一个集合,并按照示例的某个属性或划分目标构造一棵树。如果其信息熵等于0,表明训练示例不存在不确定性,决策树就此生成;否则下一步。2)按照划分目标将集合划分成若干子集以形成一棵由父节点和子节点形成的划分树,并标记指向父节点的指针。3)分别计算各子节点(树枝节点)的信息熵值,若为0,则无需再划分新的子节点;若否,则对该节点继续划分新子节点。4)重复2)和3)两步,直到所有树枝节点所形成的子集划分成新的子节点的信息熵值等于0为止。5)从根节点开始,沿着指针将决策树每条树枝节点连接起来,最终得到通过学习而形成的新的知识规则。5

34、0ID3学习算法算法步骤:50ID3学习算法(续)案例2.4 设某医院眼科医生在决策患者佩戴隐形眼镜时已有一定经验,并总结出了如表2.5所示的决策表。如果将这个决策表作为一个训练示例集合交给计算机系统用决策树的方法去学习,那么系统将会获取什么样的知识?首先把24个训练示例当作一个集合S,如果上述决策表完全正确,每个训练示例都能得到正确和唯一的诊断,这时集合S就没有不确定性,这就说明了描述S的决策树和规则集也就没有不确定性,其熵值均等于0。本案每种决策的概率分别是:p(1)=4/24,p(2)=5/24,p(3)=15/24诊断集合S的信息熵为:H(S)=1.326bit存在一定的冗余信息, I

35、D3的目的正是要尽量减少这种冗余信息。其方法是采用不断减少熵值的方法将训练集合划分成较小的子集,直至信息熵等于0为止。51ID3学习算法(续)案例2.4 设某医院眼科医生在决策患ID3学习算法(续)子集划分: 划分的原则是通过选择某个及训练集合S具有最大互信息的属性来划分子集的,因为每一个决策总是及相关,就是说每一个属性值必然会包含关于的某些信息。其中互信息I是由(式2.3)决定:只需计算计算属性A、B、C、D的条件熵即可52ID3学习算法(续)子集划分: 划分的原则是通过选择某个及训ID3学习算法(续)属性A的决策的条件熵为决策属性A的频率如表2.6对于属性B、C、D的决策的条件熵分别是:H

36、(S|B)= 1.2867(bit),H(S|C)= 0.9491(bit),H(S|D) =0.7773(bit)属性A、B、C、D及训练集合S的互信息分别是:0.0394、0.0394、0.3770、 0.5488个比特53ID3学习算法(续)属性A的决策的条件熵为决策属性A的频率ID3学习算法(续)根据决策属性D的属性值将集合S划分成两个子集D1和D2。仍需计算两个子集的信息熵,如果某个子集的信息熵等于0,则该子集无须再进行划分;否则,则要进一步进行计算所有属性及该子集的互信息,然后再按选取互信息最大的属性进行新的子集的划分。这里的H(D1)=0,说明D1这个子集不需再划分成新的子集了。但H(D2)为:54ID3学习算法(续)根据决策属性D的属性值将集合S划分成两个ID3学习算法(续)55ID3学习算法(续)553数据库中的知识发现什么是数据库中知识发现知识发现KDD(Knowledge Discovery in Dadabase):是从数据集中识别出有效的、新颖的、潜在有用的以及最终可理解的模式的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论