GIZA++实验报告分析_第1页
GIZA++实验报告分析_第2页
GIZA++实验报告分析_第3页
GIZA++实验报告分析_第4页
GIZA++实验报告分析_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、GIZA+ 实验报告发表于2011-10-061目标1.1 下载并编译 GIZA+ 和 mkcls,获得所需的可执行文件。1.2 利用平行双语语料库,通过 mkcls 构建 word classes。1.3 利用平行双语语料库,通过 GIZA+ 进行 IBM Model 的训练。2实验准备2.1 GIZA+      GIZA+ 是由 Franz Och 开发的 GIZA 的一个扩展,并包含了许多其他的特点。2.2 mkclsmkcls 是由 Franz Och 开发的一个训练词语聚类的工具。2.3 平行双语语料库汉英平行语料库,汉语

2、语料需要切分,英语语料需要 tokenize2.4 实验环境Ubuntu 10.10 x86g) gcc 4.4.53实验步骤3.1 编译 GIZA+从 GIZA+,此处使用是giza-pp-v1.0.7.tar.gz ,并解压到本地文件夹(默认为giza-pp)老版本段 GIZA+ 不能被 gcc 4.3 或更高版本编译,属于一个 bug,而 Ubutu 10.10 默认安装的 gcc 4.4,有两种方法可以成功编译。新版本的已经没有这个问题来,可以直接编译(一)安装 g+-4.1: sudo apt-get install g+-4.1,修改 GIZA+-v2 里的 Makefi

3、le,将第5行 CXX=g+,替换为 CXX=g+-4.1(二)修改 GIZA+-v2 中的 file_spec.h 的 37-49 行(仅针对1.0.4版本)struct tm *local;time_t t;char *user;char time_stmp19;/修正char *file_spec = 0;t = time(NULL);local = localtime(&t);sprintf(time_stmp, “%04d-%02d-%02d.%02d%02d%02d.”, 1900 + local->tm_year,  (local->tm_mon +

4、 1), local->tm_mday, local->tm_hour, local->tm_min, local->tm_sec); /修正user = getenv(“USER”);进入 giza-pp,运行命令 make,编译成功。make 正常结束后,在 GIZA+-v2 和 mkcls-v2 目录下各生成了一些可执行文件。3.2 构建 GIZA+ 所需的文件a) 运行命令 ./plain2snt.out chinese english,将普通文本转化为 GIZA+ 格式 生成的文件chinese.vcb(english.vcb) 单词编号 汉语句子中的单词 单

5、词的出现次数  chinese_english.snt(english_chinese.snt) 每个句子对出现的次数 汉语句子中的单词编号 英语句子中的token编号注: 0是保留给特殊的“空”token。b) 运行命令./snt2cooc.out chinese.vcb english.vcb chinese_english.snt > chn_eng.cooc./snt2cooc.out english.vcb chinese.vcb english_chinese.snt > eng_chn.cooc获得共线文件3.3 构建GIZA+所需的mkcls文件a) 运行

6、命令./mkcls -pchinese -Vchinese.vcb.classes opt./mkcls -penglish -Venglish.vcb.classes opt 参数设置 -n:表示训练迭代次数,默认1次 -p:需要聚类的已分词文本 -V:输出信息 opt:优化运行 生成的文件 chinese.vcb.classes(english.vcb.classes) 按字母表序的单词 单词词类 chinese.vcb.classes.cats(english.vcb.classes.cats, ) 单词词类 对应词类的一组单词3.4运行GIZA+a) 运行命令 ./GIZA+ -S c

7、hinese.vcb -T english.vcb -C chinese_english.snt -CoocurrenceFile chn_eng.cooc -outputpath c2e./GIZA+ -S english.vcb -T chinese.vcb -C english_chinese.snt -CoocurrenceFile eng_chn.cooc -outputpath e2c 生成文件(以汉-英为例) Decoder.config 用于ISI Rewrite Decoder解码器  trn.src.vcb,trn.trg.vcb 类似于chinese.vcb和e

8、nglish.vcb文件  tst.src.vcb,tst.trg.vcb 空文件 ti.final 从英文到中文的词语对齐 词语对齐通过token编号表示,并在每组数字后给出相应的对齐概率 例如:3 0 0.23788211 0 0.900132 actual.ti.final 从英文到中文的词语对齐 词语对齐通过实际 token 表示,并在每组 token 后给出相应的对齐概率 例如:polished 闪闪 1pain 割 0.0173626注意:如果需要生成该文件,需要删除GIZA+v2/Makefile中的-DBINARY_SEARCH_FOR_TTABLE选项,再重新编译即

9、可,否则默认使用id的方式进行加载,不会生成该文件 A3.final 记录了在 IBM Model 3迭代训练后,每个句对的一个最佳对齐 (Viterbi Alignment)。 第一行是一个可用于作为对齐可视化工具的标题的一个标签,包含训练的语料库中的有关该句编号的信息在训练语料,句子长度和对齐概率。 第二行是目标语言,第三行是源语言,源语言中的每个记号之后是一个零或多个数字的集合,这些数字代表的与源语言记号连接的目标语言记号位置。 perp 在训练的最后生成,提出了每次训练迭代的困惑度值的列表 a3.final 包含的形式如下的表 i j l m p ( i / j, l, m) j =

10、position of target sentence i = position of source sentence l = length of the source sentence m = length of the target sentence p( i | j, l, m) = is the probability that a source word in position i is moved to position j in a pair of sentences of length l and m    d3.final 类似于a3.final

11、文件,只是 交换了i 和 j 的位置 n3.final 源语言 token 的 fertility 分别为 0,1,n 时的概率表,形式如下:source_id p0 p1 p2 . pn,p0 是fertility为0时的概率 例如:1 0.475861 0.282418 0.133455 0.0653083 0.0329326 0.00844979 0.001400810 0.249747 0.000107778 0.307767 0.192208 0.0641439 0.15016 0.035888611 0.397111 0.390421 0.19925 0.013382 2.21286e-05 0 012 0.0163432 0.560621 0.374745 0.00231588 0 0 0  t3.final IBM Model

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论