基于最大熵模型的中文名实体识别的研究_第1页
基于最大熵模型的中文名实体识别的研究_第2页
基于最大熵模型的中文名实体识别的研究_第3页
基于最大熵模型的中文名实体识别的研究_第4页
基于最大熵模型的中文名实体识别的研究_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于最大熵模型的中文名实体识别的研究赵 健最大熵模型原理思想:系统在满足约束的条件下,熵会趋向于最大,即系统趋向于更均匀。体现了“知之为知之,不知为不知”的思想数学描述:最大熵模型原理思想:系统在满足约束的条件下,熵会趋向于最大,即系统趋向于更均匀。体现了“知之为知之,不知为不知”的思想数学描述:bajjpbajjpjpjpbyxaPpbafbapfEbafabpapfEkjfEfEpPbapabpappHpHp,1 ,0,),(),(),()|()(1,|),(log)|()()()(maxarg4. 最大熵的使用:在进行有关最大熵的实验时,唯一要告知模型的是:哪些信息可以使用。至于如何使用

2、这些信息,最大熵模型会自动的处置。 5. 模型的训练:GIS 算法GIS算法要求所有的特征之和等于一个常数,即然后进行迭代CjpjpnjnjjfEfEn1)()1()0()(1kjjCbaf1),(其中说明:最大熵模型中的特征f( a, b )大都是采用二值函数。而且一般来说,并不是上下文a 和类别b直接进行对应,而是a的函数和b的对应,所以可以写为:f( g(a), b).bajnjpbafabpapfEn,)(),()|()()(ljbafnjnjbZabp1),()()()()(1)|(中文名实体识别v任务:对文档中的人名(name)、地名(place)、机构名(org)、时间(time

3、)、日期(date)、货币(money)、数量(number)、比例(rate)进行识别,他可以作为分词的后处理过程;vNE recognition 是一个有指导的分类过程,即类别集合是确定的。本系统采用的自己定义的标记集,共有33种类别v采用有导师的学习方法,训练集是一些带有标记的汉语块,例如:从 nt 国家专利局 o 聘请 nt 的 nt 科技 nt 副 nt 县长 nt 李 nf 芝 nc 生 ne 开 始 训 练o r 测 试 R e a d sa m p le s 由 样 本 获 取 特 征 集 合 G e tF e a tu re s() te st 筛 选 特 征 S e le

4、c tF e a tu re s() 收 集 系 统 中 所 有 的 预 测 信 息 C o lle c tP re d ic a te () 把 样 本 拆 分 为 事 件 sa m p le 2 e v e n t() 统 计 全 体 事 件 的 预 测 信 息 S t a t T h e P r e d i c a t e ( ) n o y e s 是 否 达 到 系 统 精 度 或 到 达 迭 代 次 数 退 出 G IS () 装 载 模 型 库 全 局 o r 局 部 最 优 计 算 概 率 分 布 V ite rb i 搜 索 输 出 结 果 结 束 模块功能介绍v训练模型1.

5、特征模板Predication function g(x)Class labeltypevalueCurrent wordwD cCPreceding wordwDcCSucceeding wordwDcCPreceding class labelcCcCCurrent word Be Numberb0,1cCCurrent word Be Chinese surnameb0,1cCBe contain Special symbolb0,1cCSucceeding word Be Numberb0,1cC2.上下文窗口3.由样本收集特征,并且进行特征选择:1.简单特征选择;2.根据预测能力或者

6、信息熵进行特征选择,得到特征如下0杜082.07944001。0543.98898004102805.63479004.对第二种特征选择的说明:如上所知,特征是由两部分组成的:上下文函数预测函数g(x) 和 类别标记c组成的。对于那些二值类型的预测函数,当g(x)=1时,对某些类别的预测能力很强;当g(x)=0时,预测能力就很弱,如果把这种类型的特征加到系统当中,就违背了最大熵的基本原理:在外界信息不确定的条件下,系统应该是均匀分布的。Wi-1 Wi Wi+1 ti-1 ti5.特征空间的大小:3DC+CC+42C 6.收集所有的预测信息,其数据结构如下:typedef struct s_pr

7、edicateint PredType;string PredData;int outcome33; predicate;7.分拆样本为事件:事件的数据结构如下:typedef struct s_eventint count;int outcome;vector env_pred; event;例如:。nt 杜 nf 玉 nc 林 ne,对训练样本:杜 nf ,分拆后的事件为:0 1 0 杜 2 玉 4 1v统计每个事件中特征类型的个数,取最大的特征数为GIS算法中的约束每个事件的特征类型的个数为常数(注意:是类别的个数,而不是特征的个数)v迭代求解模型参数 for( 从0到100 )na =

8、 Gis();delta = na-b;b = na;if( delta=0 ) 离开 else 继续v 迭代训练后得到的特征参数,即特征权值,如下2 杜 32 8 2.07944 0.8304480 杜 0 8 2.07944 1.939464 1 0 280 5.63479 1.569545 1 20 139 4.93447 1.85064v模型测试可以使用viterbi算法求全局最优解,或者求局部最优解可以创新之处v 特征选择:对每一个不同的类型,如何求得最优的一个阀值;v 正向和逆向相结合的模型训练和测试,以及如何综合这两种结果,使其最终结果达到最优;v 关注训练集对模型的影响,训练集的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论