版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、GIZA+ 实验报告发表于2011-10-061目标1.1 下载并编译 GIZA+ 和 mkcls,获得所需的可执行文件。1.2 利用平行双语语料库,通过 mkcls 构建 word classes。1.3 利用平行双语语料库,通过 GIZA+ 进行 IBM Model 的训练。2实验准备2.1 GIZA+ GIZA+ 是由 Franz Och 开发的 GIZA 的一个扩展,并包含了许多其他的特点。2.2 mkclsmkcls 是由 Franz Och 开发的一个训练词语聚类的工具。2.3 平行双语语料库汉英平行语料库,汉语
2、语料需要切分,英语语料需要 tokenize2.4 实验环境Ubuntu 10.10 x86g) gcc 4.4.53实验步骤3.1 编译 GIZA+从 GIZA+,此处使用是giza-pp-v1.0.7.tar.gz ,并解压到本地文件夹(默认为giza-pp)老版本段 GIZA+ 不能被 gcc 4.3 或更高版本编译,属于一个 bug,而 Ubutu 10.10 默认安装的 gcc 4.4,有两种方法可以成功编译。新版本的已经没有这个问题来,可以直接编译(一)安装 g+-4.1: sudo apt-get install g+-4.1,修改 GIZA+-v2 里的 Makefi
3、le,将第5行 CXX=g+,替换为 CXX=g+-4.1(二)修改 GIZA+-v2 中的 file_spec.h 的 37-49 行(仅针对1.0.4版本)struct tm *local;time_t t;char *user;char time_stmp19;/修正char *file_spec = 0;t = time(NULL);local = localtime(&t);sprintf(time_stmp, “%04d-%02d-%02d.%02d%02d%02d.”, 1900 + local->tm_year, (local->tm_mon +
4、 1), local->tm_mday, local->tm_hour, local->tm_min, local->tm_sec); /修正user = getenv(“USER”);进入 giza-pp,运行命令 make,编译成功。make 正常结束后,在 GIZA+-v2 和 mkcls-v2 目录下各生成了一些可执行文件。3.2 构建 GIZA+ 所需的文件a) 运行命令 ./plain2snt.out chinese english,将普通文本转化为 GIZA+ 格式 生成的文件chinese.vcb(english.vcb) 单词编号 汉语句子中的单词 单
5、词的出现次数 chinese_english.snt(english_chinese.snt) 每个句子对出现的次数 汉语句子中的单词编号 英语句子中的token编号注: 0是保留给特殊的“空”token。b) 运行命令./snt2cooc.out chinese.vcb english.vcb chinese_english.snt > chn_eng.cooc./snt2cooc.out english.vcb chinese.vcb english_chinese.snt > eng_chn.cooc获得共线文件3.3 构建GIZA+所需的mkcls文件a) 运行
6、命令./mkcls -pchinese -Vchinese.vcb.classes opt./mkcls -penglish -Venglish.vcb.classes opt 参数设置 -n:表示训练迭代次数,默认1次 -p:需要聚类的已分词文本 -V:输出信息 opt:优化运行 生成的文件 chinese.vcb.classes(english.vcb.classes) 按字母表序的单词 单词词类 chinese.vcb.classes.cats(english.vcb.classes.cats, ) 单词词类 对应词类的一组单词3.4运行GIZA+a) 运行命令 ./GIZA+ -S c
7、hinese.vcb -T english.vcb -C chinese_english.snt -CoocurrenceFile chn_eng.cooc -outputpath c2e./GIZA+ -S english.vcb -T chinese.vcb -C english_chinese.snt -CoocurrenceFile eng_chn.cooc -outputpath e2c 生成文件(以汉-英为例) Decoder.config 用于ISI Rewrite Decoder解码器 trn.src.vcb,trn.trg.vcb 类似于chinese.vcb和e
8、nglish.vcb文件 tst.src.vcb,tst.trg.vcb 空文件 ti.final 从英文到中文的词语对齐 词语对齐通过token编号表示,并在每组数字后给出相应的对齐概率 例如:3 0 0.23788211 0 0.900132 actual.ti.final 从英文到中文的词语对齐 词语对齐通过实际 token 表示,并在每组 token 后给出相应的对齐概率 例如:polished 闪闪 1pain 割 0.0173626注意:如果需要生成该文件,需要删除GIZA+v2/Makefile中的-DBINARY_SEARCH_FOR_TTABLE选项,再重新编译即
9、可,否则默认使用id的方式进行加载,不会生成该文件 A3.final 记录了在 IBM Model 3迭代训练后,每个句对的一个最佳对齐 (Viterbi Alignment)。 第一行是一个可用于作为对齐可视化工具的标题的一个标签,包含训练的语料库中的有关该句编号的信息在训练语料,句子长度和对齐概率。 第二行是目标语言,第三行是源语言,源语言中的每个记号之后是一个零或多个数字的集合,这些数字代表的与源语言记号连接的目标语言记号位置。 perp 在训练的最后生成,提出了每次训练迭代的困惑度值的列表 a3.final 包含的形式如下的表 i j l m p ( i / j, l, m) j =
10、position of target sentence i = position of source sentence l = length of the source sentence m = length of the target sentence p( i | j, l, m) = is the probability that a source word in position i is moved to position j in a pair of sentences of length l and m d3.final 类似于a3.final
11、文件,只是 交换了i 和 j 的位置 n3.final 源语言 token 的 fertility 分别为 0,1,n 时的概率表,形式如下:source_id p0 p1 p2 . pn,p0 是fertility为0时的概率 例如:1 0.475861 0.282418 0.133455 0.0653083 0.0329326 0.00844979 0.001400810 0.249747 0.000107778 0.307767 0.192208 0.0641439 0.15016 0.035888611 0.397111 0.390421 0.19925 0.013382 2.21286e-05 0 012 0.0163432 0.560621 0.374745 0.00231588 0 0 0 t3.final IBM Model
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度养老院护理服务与设施租赁合同3篇
- 2025年度土地流转与农业废弃物综合利用合同3篇
- 2025年度绿色能源补贴合同范本2篇
- 2025年度汽车4S店店面租赁及品牌运营合同3篇
- 二零二四医院护士劳动合同样本:医院护理团队人员劳动合同3篇
- 2025年度债务重组与财产分配税务筹划合同3篇
- 二零二五版高端别墅租赁管理服务合同2篇
- 2024知名品牌授权使用及销售代理合同
- 2024食堂人员安全生产责任与聘用合同3篇
- 2024贴砖劳务分包合同施工质量监督协议3篇
- 2025年湖北武汉工程大学招聘6人历年高频重点提升(共500题)附带答案详解
- 【数 学】2024-2025学年北师大版数学七年级上册期末能力提升卷
- GB/T 26846-2024电动自行车用电动机和控制器的引出线及接插件
- 辽宁省沈阳市皇姑区2024-2025学年九年级上学期期末考试语文试题(含答案)
- 2024年国家工作人员学法用法考试题库及参考答案
- 妊娠咳嗽的临床特征
- 国家公务员考试(面试)试题及解答参考(2024年)
- 《阻燃材料与技术》课件 第6讲 阻燃纤维及织物
- 2024年金融理财-担保公司考试近5年真题附答案
- 泰山产业领军人才申报书
- 高中语文古代文学课件:先秦文学
评论
0/150
提交评论