双语语料库段落重组对齐方法研究_第1页
双语语料库段落重组对齐方法研究_第2页
双语语料库段落重组对齐方法研究_第3页
双语语料库段落重组对齐方法研究_第4页
双语语料库段落重组对齐方法研究_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

双语语料库段落

重组对齐方法研究李维刚刘挺王震李生哈工大信息检索研究室2003-8-11主要内容引言方法结果讨论2InformationRetrievalLabHIT构建双语语料库机器翻译和跨语言检索解决人类的不同语言之间的障碍双语资源给机器翻译和跨语言检索提供了有力的支持,尤其是双语语料库构建双语语料库(英汉双语语料库)是一项十分有意义的工作3InformationRetrievalLabHIT真实双语文本的特征网络资源丰富篇章级对齐内容分散格式复杂风格各异4InformationRetrievalLabHIT目前的问题不同的对齐精度段落、句子、词和短语的对齐上一级的对齐是下一级对齐的基础经过统计发现90%以上的电子文本中的段落并不对应或者没有明显的段落标记5InformationRetrievalLabHIT段落对齐和段落重组对齐段落对齐是进行对齐加工的第一步对段落对齐研究的很少段落对齐的目的是句子对齐段落重组对齐是打破原有的段落标记,对篇章进行重新分段,仅仅在形式上对篇章进行对齐6InformationRetrievalLabHIT句子对齐基于长度的句子对齐长句对应的译文长,短句对应译文短根据长度的不同单词个数-Brownetal.(1991c)字符的个数-GaleandChurch(1993)基于词典的句子对齐7InformationRetrievalLabHIT段落重组对齐(1)自动分段对齐研究(中科院计算所)将原有的段落合并通过汉英词汇对之间的特征比较,包括词的出现频率、字节偏移量、出现间隔向量找到可以用于分段的锚点词汇对通过锚点词所在句子的匹配获得锚点句子进行分段8InformationRetrievalLabHIT段落重组对齐(2)适合含有较多高频固定词的双语文本适合于术语提取数据稀疏(较少高频固定词)需要分词等预处理9InformationRetrievalLabHIT主要内容引言方法结果讨论10InformationRetrievalLabHIT几个概念锚点句珠二分图(完全二分图)匹配最优对齐匹配11InformationRetrievalLabHIT锚点和句珠锚点(anchor)Brown在对Hansard语料库进行对齐时,引入了锚点的概念,认为锚点的作用就是将整个语料库分成一些小的对齐片断句珠(Sentencebead)每一对相对应的句子称作句珠12InformationRetrievalLabHIT二分图设G为无向图,G=<V,E>,结点集V有两个子集V1,V2满足V1∪V2=V,V1∩V2=ф,使G的每一条边e∈E时,e={vi,vj},vi∈V1,vj∈V2,即同一子集Vi(i=l,2)中的任何两个结点都不邻接,称这样的图为二分图。13InformationRetrievalLabHIT完全二分图G记为G=<V1,E,V2>。对于二分图G=<V1,E,V2>中,若V1的每个结点与V2的每个结点相邻接,反之亦然。则称G为完全二分图,若|V1|=m,|V2|=n,则简记为Km,n,如图所示14InformationRetrievalLabHIT匹配(Matching)设G=<V1,E,V2>是二分图,如E的一个子集M中的边无公共端点,即任两边均不邻接,则M为G的一个匹配。最优对齐匹配15InformationRetrievalLabHIT最优对齐匹配M为完全二分图G=<S,E,T>的一个最优对齐匹配,满足以下条件:二分图中所有的节点是有序的若|S|=m,|T|=n则首先默认{sm,tn}∈E;M中若存在一条边e={si,tj}满足d(si,tj)<D(D为特定的阈值);此时,M中不存在边{sk,tr}使得k<i且r>j或k>i且r<j成立;采用贪心算法依次在完全二分图G中选取权值最小的边,直到M中边数达到饱和。16InformationRetrievalLabHIT最优对齐匹配(图示)S1,S2,S3,S4,S5,S6,S7…Sm-2,Sm-1,SmT1,T2,T3,T4,T5,T6,T7…Tn-2,Tn-1,Tn

17InformationRetrievalLabHIT段落对齐问题和模型的关系S(s1,s2,s3,…si,…sj,…sm)--V1T(t1,t2,t3,…ti,…tj,…tn)--V2(1:1)型句珠(si,tj)的集合--Km,n默认文本中最后一句对齐-{sm,tn}∈E

双语段落重组对齐-寻找最优对齐匹配18InformationRetrievalLabHIT段落重组对齐的锚点选择(1:1)型正确对齐句珠在文本中的分布情况

(1:1)的句对在全篇的比例均超过85%,并且有着良好的分布规律19InformationRetrievalLabHIT段落重组对齐总体思想篇章定位句长搭配词典校对20InformationRetrievalLabHIT形式对齐评价函数P[i,j]=a(Pu[i,j]-P0)²+(Pl[i,j]-P0)²+a(Pd[i,j]-P0)²P0为对应文本长度之比;Pu[i,j]为对应上文部分长度之比;Pl[i,j]为对应句长度之比;Pd[i,j]对应下文部分长度之比;a为加权系数21InformationRetrievalLabHIT第150句第50句第12句英语文本第120句第40句第10句

汉语文本重组段落对齐思想P0锚点句对Pu[i,j]Pl[i,j]Pd[i,j]22InformationRetrievalLabHIT锚点句对的校验词典检验L||表示全部元素的字符长度和;Match(S)表示译文出现在汉语句中英语单词;Match(T)表示成为英文单词译文的汉语单词;23InformationRetrievalLabHIT主要内容引言方法结果讨论24InformationRetrievalLabHIT试验结果(1)召回率=(返回段落总数–错误段落总数)/双语文本中(1:1)型正确句珠总数;准确率=(返回段落总数–错误段落总数)/返回段落总数;25InformationRetrievalLabHIT试验结果(2)文本1文本2(1:1)型句珠总数158169提取锚点总数108121准确率99.07%100%召回率68.35%71.60%重组分段的结果一般每一段落的句子数在10句以内。26InformationRetrievalLabHIT重组分段的实例(1)--originalAround30peoplehavestagedanakedprotestagainstGMfood.Theprotestersspelledout"noGM"withtheirbodiesinameadowatForestRow,EastSussex.

OrganiserMikeGrenvillesaidhehopeditwouldsendamessagetotheGovernmentofpeople'sconcern,particularlyovercommercialplantingofGMcrops.

Mr

Grenville,51,aself-employedbusinessconsultantfromForestRow,said:"Ithinkpeoplewereverypleasedtohavetheopportunitytoexpresshowwefeel,howfrustratedweareaboutwhatseemstobetheforegoneconclusion,andthequestionmanypeoplearesayingis'Whatdowedonext?'."Wehopeotherswillfollowourleadandfindotherwaystoexpresshowwefeel."WedonotwantGMcropsplantedinthecountryatall."约30名人士在英国苏塞克斯郡东部的福利斯劳的一处牧场裸体组成“反对基因改良作物”的字样。组织者迈克-格伦威利,希望通过这次行动向政府传达人们反对商业化种植基因改良作物的意愿。

51岁的格伦威利是福利斯劳一名自雇的商业顾问,他说:“当人们得知种植基因改良作物似乎不可避免时,他们感到十分沮丧。许多人都提出这样的问题,‘接下来我们该做什么?’。令人欣慰的是,人们有机会表达内心的感受。希望其他人加入我们,跟我们一起找到其他表达内心感受的方法。我们根本不希望在这个国家里种植基因改良作物。27InformationRetrievalLabHIT重组分段的实例(2)--MergedAround30peoplehavestagedanakedprotestagainstGMfood.Theprotestersspelledout"noGM"withtheirbodiesinameadowatForestRow,EastSussex.OrganiserMikeGrenvillesaidhehopeditwouldsendamessagetotheGovernmentofpeople'sconcern,particularlyovercommercialplantingofGMcrops.

Mr

Grenville,51,aself-employedbusinessconsultantfromForestRow,said:"Ithinkpeoplewereverypleasedtohavetheopportunitytoexpresshowwefeel,howfrustratedweareaboutwhatseemstobetheforegoneconclusion,andthequestionmanypeoplearesayingis'Whatdowedonext?'."Wehopeotherswillfollowourleadandfindotherwaystoexpresshowwefeel."WedonotwantGMcropsplantedinthecountryatall."约30名人士在英国苏塞克斯郡东部的福利斯劳的一处牧场裸体组成“反对基因改良作物”的字样。组织者迈克-格伦威利,希望通过这次行动向政府传达人们反对商业化种植基因改良作物的意愿。51岁的格伦威利是福利斯劳一名自雇的商业顾问,他说:“当人们得知种植基因改良作物似乎不可避免时,他们感到十分沮丧。许多人都提出这样的问题,‘接下来我们该做什么?’。令人欣慰的是,人们有机会表达内心的感受。希望其他人加入我们,跟我们一起找到其他表达内心感受的方法。我们根本不希望在这个国家里种植基因改良作物。28InformationRetrievalLabHIT重组分段的实例(3)--ReAlignAround30peoplehavestagedanakedprotestagainstGMfood.Theprotestersspelledout“noGM”withtheirbodiesinameadowatForestRow,EastSussex.OrganiserMikeGrenvillesaidhehopeditwouldsendamessagetotheGovernmentofpeople‘sconcern,particularlyovercommercialplantingofGMcrops.

Mr

Grenville,51,aself-employedbusinessconsultantfromForestRow,said:"Ithinkpeoplewereverypleasedtohavetheopportunitytoexpresshowwefeel,howfrustratedweareaboutwhatseemstobetheforegoneconclusion,andthequ

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论