英语信源汉语信源信息熵的研究_第1页
英语信源汉语信源信息熵的研究_第2页
英语信源汉语信源信息熵的研究_第3页
英语信源汉语信源信息熵的研究_第4页
英语信源汉语信源信息熵的研究_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、英语信源、汉语信源及其信息爛的研究摘要 英语信源和汉语信源是两种不同的口然语信源,而信息爛反映 了信源的记忆长度,信源的记忆长度越长,爛就越小。只有当记忆长 度为0,即信源符号间彼此没有任何依赖关系且等概率分布时,涪源 爛达到最大值。也就是说,信源符号相关性越强,所提供的平均信息 量就越小。所以,研究这两种信源的信息爛,就可以得出每种信源中 符号的相关性,和提供的平均信息量,量化的来比较两种语言。 关键词 英语信源 汉语信源 信息爛正文1、英语信源及其信息爛英语字母有26个,加上空格,共27个符号。根据爛的性质,信 源的最大爛h° = log2 27 = 4.76(加/7 symbo

2、l)但实际上,英语中的字母并非等概率出现,字母之间还有严格的 依赖关系。如果我们对英语书中27个符号出现的概率加以统计,可 得:27个英语字符出现的概率符号概率符号概率符号概率空格0.2s0. 052y,m0.012e0. 105h0. 047g0.011t0. 072d0. 035b0.010500. 0654l0. 029v0. 008a0. 063c0. 023k0. 003n0. 059f,u0. 0225x0. 002i0. 055m0. 021j,q0. 001r0. 054p0.0175z0. 001如果不考虑上述符号之间的依赖关系,即近似地认为信源是离散 无记忆信源,根据离散上

3、的定义可得27h- 一工(再)log。p(aj = 403(加/ / symbol)i=l按上述表格中的概率分布,随机选择英语字母排列起来,得到一 个信源输出序列:ai_ngae_ite_nnr_asaev_ote_baintha_hyroo_poer_se trygaietrwco-可见,这些字母完全是随机排列,毫无相关性,却不是英语单词, 所以我们应该考虑字母的依赖性。为了进一步逼近实际情况,可把婴语信源近似地看作1阶,2 阶,oo阶马尔可夫信源,求得相应的爛h2 = 3.32(bit / symbol)h3 = 3.1(bit / symbol)异推出,马尔可夫信源阶数越高,输岀的序列越

4、接近实际情况。 当依赖关系延伸到无穷远吋,信源输出就是真正的英语。所以我们求 马尔可夫信源的极限爛hg - a(bit / symbol二、汉语信源及其信息爛对于英语,字符数少,可轻松的计算出英语信源的信息爛,但是 对于汉语这个中文字符极其庞大的信源,科学家们做出了大量的统计与计算。方法同上面的英语信源信息炳的计算,不过计算量增加了非常多。下面是截取的一些统计资料。ccl语料库-现代汉语总字频数: 总字种数:9711字频表:307,317,06011523375 4140344 是329150828277262733842264575820293951968713194087517018351

5、61512816079421456483144528513533591259098124044212188371133029111412710920241015211996530991991906313891269880855839902833435824453802863801878801821792017780713779801742961741817735032723495718945产713207708052705141事685890680848677790你677378了有和年们说对行学民下开现理动那3059837 在2507415 中1872750 大1529238 地135066

6、4 岀1186888 时1074655 业988420860176821583797775747231730526712150683263676119成于过可新同法本实2933070 2182025 1832977 1464121 1262480 1137791 1018180 944114 844000 810433 796081 746180 727742 709521 681058 670861中国科学家冯志伟等人的对中文字符信息爛计算的结果是:汉字容量:1 1052 1830 4912 5104 5211 12370信息爛值:0 7. 53 9. 52 9. 61 9. 63 9. 6

7、4 9. 65随着汉字容量增大,信息炳的增加趋缓;汉字增加到12370以后, 不再使信息爛有明显的增加。通过数理语言学中著名的齐普夫定律 (zipf'slaw)核算,汉字的容量极限是12366个汉字,汉字的平均 信息量是9. 65比特三、英语信源和汉语信源的比较显而易见,汉语信源的信源爛远远人于英语信源的信息爛,说明 英语信源的记忆长度比汉语的长,相关性比汉语信源强,非常简洁。 很多人认为信源的信息爛小就一定好,但并不是这样,并不是信息炳 小就好,信息爛大也有他的好处。汉语是“表意文字”,英语是“表音文字”。表意文字要求汉字拥 有了一个数量庞大的字符集,但现代汉语已经不用增加字符来表达

8、 新的概念,而是创造新词,加上对汉字汉语的规范化,这已经基本上 达到了减少了使用字数的目的,大大减少了汉字的冗余度。汉字对拼 音文字的这种信息爛优势是什么概念?简单的比喻就是十进制数与 二进制数的差别。十进制数字系统需要人记忆0-9, 10个符号,二进 制只需要记忆0和1两个符号。十进制乘除要记忆9x9表,二进制 只需要学会与、或、非的简单逻辑。但是,人类在日常生活中为什么 不使用二进制数字系统呢?因为那样很浪费,一个数字“7”表示成 二进制就成了 “111”,记个大数不把人累死?反过来,人类为什么不 用十六进制,或更高的进制呢? 一方面是人脑智力的限制,另一方 面,十六进制也未必能大幅度提高信息爛。这种信息爛反映在文字上, 就是联合国文件中,中文版本一定是最薄的。信息爛高是不是就不利 于计算机处理呢?这方面恐怕还很难下结论。简单的比较汉与英文 的输入速度是不能说明问题的,因为“字”与“word”是不同的概念。 要比较只能比较同一内容的中英文两个不同文 本,计算击键数的差 值。在“词”的单位基础上,现代汉语与英语是可以进行比较的。现 代英语为了应付不断涌现的新事物、新思想、新科技、新概念,也在 不断地 造词。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论