辞典数据结构英汉汉英_第1页
辞典数据结构英汉汉英_第2页
辞典数据结构英汉汉英_第3页
辞典数据结构英汉汉英_第4页
辞典数据结构英汉汉英_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

[???nn字母组合.对于任何单词都有词头,但是不一定任何单词都有词尾和高频字母组合.且在每个词中词头与词尾只有一个,高频字母组合可能有多个.对一个单词来讲先取词头,从剩余部分取词尾,再从1>.从dict.txt中提取所有单词,每个单词一行all.eng.条词头实际数据在文件中的偏移地址.实际数据的结束字符最为1.单词词头ID单词首字母(主要是压缩单词时用)ID(ID=-1ID1ID/0/-11/0/-11234sign=10data=IDID<31ID_LEN=5Bits,ID>31ID_LEN=6Bits)sign=11时:sign=00时:sign=01$字母组合$为前缀和后缀标志,即:当说明该字母组合用于前缀时的音标,在字母组合前加字符$此TOKEN表有两种一种为音标,另一种为国际音标1>DJ音标串1音标串1音标在dict.binsign1bitdatadata格式为:data格式为:ph_id1(Nbits000: 001:一 010:一 011:两 100:一 101:两 110:00110:01110:10110:11111:00(sign=0:'off(3bits)...;sign=1:, ';''''/'为分隔符).

统计词频.词频*词长*60%-词频*14/8-词长>060%以上者为高频词.生成文件格式:词频词组.去掉重复的词组(大包含小):出现频率相同则删除长度小(必须完全包含)的词组.根据取词组的原则,检查词组的包含关系时需要进行从词组头开始匹配和从词组为向前匹配两次匹配检9.产生的词组表按照词组长度排序后作为压缩用的高频词组表,同时根据此表对解释正根据高频词组表生成高频词组表索引表,格式:按照词组长度分段,即每种长度的词组在一个段内(共用一个索引.索引内容为:段内词组长度;段首词组ID;段首起始偏移.生成的高频词序.根据无匹配汉字表生成无匹配汉字的数据文件.格式:各个汉字顺序(按照出现频率由 词性数目 无,此时词性ID为系统内词性的最大个数否则为零至最大个数减一=1...一个1为一 1111...0(编码原理数值大的编码也较长)nbitsn2bitssign=01时:sign=10时:data=1 =0 sents.bin(onepage512bytessents_idsents_data_lenhost_word_idword_numword_id...sents_expl 压缩动词过去式,过去分词生成verb.bin(onepage256bytes)格式:data_lenhost_word_iddid_numdid_word_iddone_numdone_word_id8 17 压缩形容词,(onepage256bytes)格式(onepage256bytes (onepage512bytes)diff.bin格式diff_idword_id16 pageIDword_numword_id16bits8 hostfirstsentence(英文+中文)English...?(styleneed)secondsentence(英文+中文)nexthostsents.formatsents.txt经处理生成,与diff/diff.format合并生成sents.all.sents.format格式为:hostword/word_num/word1/.../wordn/hostword/word_num/word1/.../wordn/hostwordID/IDID(ifwordID>=130000)格分隔)例句中文部分每个记录之后存一个换行符.(对于单复数,过去式,过去分词,,,现在时,现在分词,"'s"等重新编码从最大单词数开始压缩时存放单词ID变换方式码)..116283ID47句子单词 句子解释的压缩数 不sents.txtsents.format取得例句原始数据文件(sa)中的单词,在字典数据文件中检索该单词的单词号(ID)写入新文件sdc(对于单复数,过去式,过去分词,,,现在时,现在分词,"'sID产生sents.tabhostword1/hostword2/hostword1IDword1word2IDword2的解释word3IDdiff.bin512Bytes字段 字段含 字段长度该易混词组 公共解释压缩数 不 单词 1 1(有易混)2 1 0 1 处理diff.txt:diff.format(易混词例句文件),其格式为:hostword1/公共解释/hostword1解释/hostword1例句hostword2/公共解释/hostword2hostword2hostword3/公共解释/hostword3hostword3diff.formatjunksents.format~~~~~尾去掉sents.d中的/~~~~~产生文件处理diff.formatdiff.formatdiff.tab处理diff.docdiff.bin(需要处理完解释).hosthostwordID0nextword nextwordID即:firstwordsecondwordsecondwordthree wordfirsthostword/1,2.../1,2hostword/sign/1,.../sign/1,...hostwordID/sign/1ID,.../sign/1ID... ..adj.bin256data_len(8bits)hostwordID(17bits)+sign(2bit)+ID(17bit)+sign(2bits)+ID(17bit)注:signhostword/复数形式hostwordID复数word..hostwordID(17bitsword256byte整字节输出hostword/sing/word,../sing/word,..sign:同形容词hostwordID/sign/过去式,.../sign/(17bits)+sign(2bits)+过去分词1ID(17bits)+过去分词2ID(17b)256byte**情态动词无过去分词的,ID处理步骤:同形容词hostwordID/wordhostwordIDword hostwordID1IDN1IDN注:phras.txtdict.txtantonym.txtsynonym.txt动词标 反义词标 同义词标 无词数 词无词数 词 voc0.txtdict.txt出处N单词数目(2bytes)文件头大小汉语词组[>>/$(全角)]英语词性/英语词性(可省)1}英语单词;英语单词...2}英语单词;英语单词...N}英语单词;英语单词...@英语词性/英语词性(可省) >>/$是繁体/简体标志(两者不

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论