中英双语语料库毕业设计论文_第1页
中英双语语料库毕业设计论文_第2页
中英双语语料库毕业设计论文_第3页
中英双语语料库毕业设计论文_第4页
中英双语语料库毕业设计论文_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、摘要I摘要摘要语料库是语言事实的采样,由大量收集的书面语或口语构成,并通过计算机储存和处理,用于语言学研究的文本库。它为语言教学和研究提供了自然出现的真实语料和科学的研究方法,在这些领域正发挥越来越大的作用。近年来,无论是在语言信息处理领域还是语言学研究领域,语料库的重要作用均已经得到充分的认可,国际国内在语料库的建设和研究方面均做了大量的工作。世界上已经出现了为数不少的大型单语语料库,尤其是英语语料库,汉语语料库的建设虽然起步较晚,但也取得了可观的进展,然而我们的国粹中医,在其汉英语料库的建设才刚刚起步,目前国内中医英语缺乏统一标准,中医术语的翻译存在许多的不足,这对于将我国传统医学推向世界

2、产生了一定的阻碍。在这种背景下并且得到中国外语教育基金、江西省教育科学“十一五”规划课题、江西师范大学青年成长基金、江西师范大学实验室开放专项基金等单位的大力支持和资助,我们得以顺利构建一个专用于中医领域的中医英语语料库翻译平台。本文介绍了在.Net 环境下采用“分层思想:表示层、业务逻辑层和数据访问层”,借助于 AJAX 技术、JavaScript、C#语言、SQL Server2000 数据库管理系统构建了一个层次清晰、界面友好的 B/S 版“中医中英双语平行语料库”。该系统实现了自动分词、语料正确性检查、分词搜索等核心技术。本系统虽然只是对中医中英双语平台语料库的一种尝试和实现,但是为中

3、医教学和中医翻译者提供一个基于 Internet 的语料搜索平台,为中医语料库的建设献出一份力。【关键字关键字】中英双语语料库、中医专业英语、AJAX 应用。AbstractII【Abstract】Corpus is the language fact sampling, which is made up of the massive collections written language or the spoken language constitution, and uses in the linguistics research text storehouse through the

4、computer storage and processing. It has provided the real language material and the science research technique for the language teaching and the research for which naturally appears, and is playing the more and more major role in these domains. In recent years, in regardless of the language informat

5、ion processing domain or the linguistics research area, the corpus vital role already obtains the full approval, and domestic has done the massive work in the corpus construction and the research aspect. In the world many large-scale single corpus already appeared, in particular English corpus, Chin

6、ese corpus construction although starts late, but has made the considerable progress. However, our national essence Chinese medicine, only then just started in its Chinese English corpus construction. At present domestic Chinese medicine English lacks the unification standard, and Chinese medicine t

7、erminology translation has many insufficiencies, which has produced the certain hindrance to pushing our country tradition medicine to the world. And having obtained the support of Chinese foreign language education fund, the Jiangxi Province education science project of “Eleven and five plan”, the

8、Jiangxi Normal University youth growth fund, and the Jiangxi Normal University laboratory open fund, we can smoothly construct a Chinese medicine China and Britain bilingual corpus teaching platform.This article introduced how to construct a level-clear and interface-friendly Chinese medicine China

9、and Britain bilingual corpus teaching platform based on web using the lamination thought under Net the environment: Expressed the level, the service logic level and the data accessing level , and with the aid of to the AJAX technology, JavaScript, the C# language, SQL Server2000 database management

10、system. This system has realized the following technology: the automatic participle, language material accuracy inspection, participle search, and so on.Although this system is only one kind of attempt and realization to the Chinese medicine China and Britain bilingual corpus, but provides a searchi

11、ng platform based on the Internet corpus for the Chinese medicine teaching and the Chinese medicine translator, and offers up strength for the Chinese medicine corpus construction. Keywords The Chinese and British bilingual language materials storehouse, The Chinese medicine specialized English, AJA

12、X application.目录III目目 录录第 1 章 绪论.11.1 引言 .11.2 论文的组织 .11.3 本人所做的工作 .2第 2 章 系统相关技术及开发工具介绍.32.1 采取 B/S 操作模式.32.2 三层 Browser/Server 结构 .32.3 .Net 平台 .42.3.1 什么是.Net.42.3.2 什么是 ASP.Net .52.3.3 什么是 C#.72.3.4 什么是 ADO.Net.72.3.5 什么是 AJAX.82.3.6 什么是 XML .8第 3 章 系统的分析与设计.93.1 可行性分析.93.2 术语定义.93.3 系统定义 .103.4

13、 运行环境和开发工具.113.5 数据库设计.113.5.1 数据库关系模型 .113.5.2 数据库主要表结构说明 .123.6 语料库切片标准 .16第 4 章 系统设计与具体功能的实现.184.1 系统功能概述.184.1.1 主要功能 .18目录IV4.2 前台检索功能设计与实现.184.2.1 Web 语料库的在线检索功能 .184.2.2 检索功能的实现.194.3 后台数据更新维护功能的设计与实现.214.3.1 后台管理登录.214.3.2 语料数据的入库功能.22第 5 章 关键技术的实现.245.1 分层设计思想 .245.1.1 数据模型 .245.1.2 数据访问层 .

14、255.1.3 业务逻辑层.265.1.4 表示层.265.2 自动标识关键词及删除关键词标签技术.275.3 使用 JavaScript 插入标签和检查语料的正确性.305.3.1 插入标签功能 .305.3.2 关键词标签合法性检查 .315.3.3 中文和英文语料中的标签匹配检查 .335.3.4 调用远程函数实现自动分词 .34第 6 章 结束语.366.1 系统总结 .366.2 个人总结 .366.3 下一步工作 .36参考文献.37致谢.38第 1 章 绪论1第第 1 1 章章 绪论绪论1.1 引言12320 世纪 70 年代以来,语料库语言学迅猛发展,单语语料库建设展露出勃勃生

15、机。至 90 年代,双语平行语料库开始受到语言学界和自然语言处理学界的青睐。近年来,双语平行语料库在机器翻译和机器辅助翻译中的应用已经得到越来越多的认可,基于双语平行语料库的各种方法不仅能够改进机器自动翻译的质量,还可以加强机器辅助翻译中的人机交互。它在两种语言对比研究、翻译和机器翻译、翻译教学、双语词典编撰等方面都具有极大的应用价值。然而,在语言学的各个领域都积极利用语料库这个强有力的工具时,中医中英双语平行语料库的建设和开发却在国内刚刚起步还没有统一的标准。因此,在中医英语研究的领域内,是否有必要建立中英双语平行语料库,建立平行语料库是否切实可行,以及如何建立平行语料库,这一系列问题是中医

16、中英双语研究者必须直面的重大课题。作为一门新兴的语言学分支学科,语料库语言学对语言研究的许多领域产生越来越大的影响,在语言教学中也得到广泛的应用。就对外中医汉英教学而言,语料库以中医英语词典电子文本为生语料,实现了词语索引、词语入库关键字提取、词语搭配分析和分类主题词提取等功能,为编写中医教学和研究提供真实的语料和相关的语言信息。基于语料库的研究有助于考察中医领域的汉语和英语在实际使用中的意义和用法,有助于从中医汉英翻译的实际使用情况中发现和修正语言规律,促进世界各国对中医的研究和发展。随着因特网的普及和网络技术、语言技术的飞快发展,建设基于 WEB 的对外中医汉英双语平行教学语料库并开发在线

17、检索程序,是语料库建设的一个发展方向,可满足更大范围的语料检索需求,实现语料库的资源共享,为全国乃至全世界对中医的研究提供语言支持,因此具有较大的现实意义和实用价值。1.2 论文的组织本论文简要介绍了中医语料库的领域知识以及平台的功能设计分析,主要阐述了对中医汉英双语平行翻译教学平台的功能实现和一些核心技术。第一章简述了系统开发背景、特点以及本人所做的主要工作。第二章简述了系统开发的相关技术和运行平台。第 1 章 绪论2第三章简单说明了系统的总体分析和设计等。第四章描述了系统具体功能的实现。第五章详细阐述了系统开发过程中所使用的关键技术的实现。1.3 本人所做的工作在该平台的过程中,我参与前期

18、系统分析设计、数据库设计和语料预加工,并完成了基于 Web 的语料库后台维护管理功能、前台数据搜索功能的开发等最终实现的一系列工作。我在中医中英双语平行语料库翻译教学平台这个项目中是负责开发 B/S 模式的版本,在实现功能中涉及到许多算法和 AJAX 等一些较新的技术。第 2 章 系统相关技术开发工具介绍3第第 2 2 章章 系统相关技术及开发工具介绍系统相关技术及开发工具介绍在确定系统的开发前景、意义、目标后,就是选择相关的技术及工具来开发系统。在模式上,我们选择 B/S 的操作模式,这样可以方便用户的查询和管理员的管理,无须安装客户端,只要打开浏览器即可使用。2.1 采取 B/S 操作模式

19、B/S(Browser/Server)结构即浏览器和服务器结构。它是随着 Internet 技术的兴起,对 C/S 结构的一种变化或者改进的结构。在这种结构下,用户工作界面是通过 WWW 浏览器来实现,极少部分事务逻辑在前端(Browser)实现,但是主要事务逻辑在服务器端(Server)实现,形成所谓三层 3-tier 结构。这样就大大简化了客户端电脑载荷,减轻了系统维护与升级的成本和工作量,降低了用户的总体成本(TCO) 。以目前的技术看,局域网建立 B/S 结构的网络应用,并通过 Internet/Intranet 模式下数据库应用,相对易于把握、成本也是较低的。它是一次性到位的开发,能

20、实现不同的人员,从不同的地点,以不同的接入方式(比如 LAN, WAN, Internet/Intranet 等)访问和操作共同的数据库;它能有效地保护数据平台和管理访问权限,服务器数据库也很安全 。特别是在.Net 这样的预编译语言和 AJAX 技术出现之后,B/S 架构 Web 软件更是方便、快捷、高效。2.2 三层 Browser/Server 结构B/S 结构是真正的三层结构,它以访问 Web 数据库为中心,HTTP 为传输协议,客户端通过浏览器(Browser)访问 Web 服务器和与其相连的后台数据库,我们称之为 B/S(Browser/Server)模式。其三级结构组成如图 2.

21、1 所示。图 2.1 三层结构图图中从左到右,分为三个层次:客户端Web 服务器后台数据库客户端第 2 章 系统相关技术开发工具介绍4第一层是客户端即浏览器,主要完成客户和后台的交互及最终查询结果的输出功能。在客户端向指定的 Web 服务器提出服务器请求,Web 服务器用 HTTP 协议把所需文件资料传给用户,客户端接受并显示在 WWW 浏览器上;第二层 Web 服务器是功能层,完成客户的应用功能,即 Web 服务器接受客户请求,并与后台数据库连接,进行申请处理,然后将处理结果返回Web 服务器,再传至客户端;第三层数据库服务器是数据层。数据库服务器应客户请求独立地进行各种处理。与传统的 C/

22、S 模式相比,B/S 结构把处理功能全部移植到了服务器端,用户的请求通过浏览器发出,无论是使用和数据库维护上都比传统模式更加经济方便。而且使维护任务层次化:管理员负责服务器硬件日常管理和维护,系统维护人员负责后台数据库数据更新维护。由以上的比较分析可知,三层结构也可以理解为增加了 Web 服务器的C/S 模式。2.3 .Net 平台892.3.1 什么是.Net微软的.Net 平台堪称为新一代的互联网平台。对于技术开发人员来说,.Net 平台的两大特性是非常卓越的,首先是其所提供的公共语言运行时,也就是公用语言运行平台,另一方面就是庞大而全面的统一编程类。其架构下图 2.2 所示。第 2 章

23、系统相关技术开发工具介绍5图 2.2 .Net 技术架构C#语言是微软公司针对.Net 平台才推出来的一门新语言,作为.Net 平台的第一语言,它几乎集中了所有关于软件开发和软件工程研究的最新成果。其不但继承了 C+、Java 等面向对象的强大功能特性,同时还是继承了VB、Delphi 等编程语言的可视化快速开发功能,其是当前第一个完全面向组件的语言。.Net 平台中的程序设计主要分为以下四个方面:Web Forms、Windows Forms、Web Service 及 Windows Service,该平台主要使用 Web Service 中的 ASP.Net 技术设计实现。.Net 应用

24、体系结构如图 2.3 所示。图 2.3 .Net 应用体系结构2.3.2 什么是 ASP.NetASP.net 是一种建立在通用语言上的程序构架,能被用于一台 Web 服务器来建立强大的 Web 应用程序。ASP.net 提供许多比现在的 Web 开发模式强大的的优势。(1)执行效率的大幅提高 ASP.net 是把基于通用语言的程序在服务器上运行。不像以前的 ASP 即时解释程序,而是将程序在服务器端首次运行时进行编译,这样的执行效果,当然比一条一条的解释强很多。ASP.Net 动态编译过程如图 2.4 所示。(2)世界级的工具支持 ASP.net 构架是可以用 Microsoft(R)公司最

25、新的产品 Visual S开发环境进行开发,WYSIWYG(What You See Is What You Get 所见即为所第 2 章 系统相关技术开发工具介绍6得)的编辑。这些仅是 ASP.net 强大化软件支持的一小部分。 (3)强大性和适应性 因为 ASP.net 是基于通用语言的编译运行的程序,所以它的强大性和适应性,可以使它运行在 Web 应用软件开发者的几乎全部的平台上。通用语言的基本库,消息机制,数据接口的处理都能无缝的整合到 ASP.net 的 Web 应用中。ASP.net 同时也是 language-independent 语言独立化的,所以,你可以选择一种最适合你的语

26、言来编写你的程序,或者把你的程序用很多种语言来写,现在已经支持的有 C#(C+和 Java 的结合体) ,VB.net,Jscript。将来,这样的多种程序语言协同工作的能力保护您现在的基于 COM+开发的程序,能够完整的移植向 ASP.net。图 2.4 ASP.NET 动态编译(4)简单性和易学性 ASP.net 是运行一些很平常的任务如表单的提交客户端的身份验证、分布系统和网站配置变得非常简单。例如 ASP.net 页面构架允许你建立你自己的用户分界面,使其不同于常见的 VB-Like 界面。另外,通用语言简化开发使把代码结合成软件简单的就像装配电脑。 (5)安全性 基于 Windows

27、 认证技术和每应用程序配置,你可以确性你的原程序时绝对安全的。ASPXASPXASPX文件文件文件文件请求请求请求请求ASPXASPXASPXEngineEngineEngine解析解析解析解析GendPageClass生成生成生成生成回应回应回应回应请求请求请求请求InstantiateInstantiateInstantiate回应回应回应回应Code-Code-Code-behindbehindbehindclassclassclassPagePagePageClassClassClassInstantiate,Instantiate,Instantiate, ProcessProces

28、sProcess & & & RenderRenderRender编译编译编译编译第 2 章 系统相关技术开发工具介绍72.3.3 什么是 C#C# (C sharp) 是微软对这一问题的解决方案。C#是一种最新的、面向对象的编程语言。它使得程序员可以快速地编写各种基于 Microsoft .NET 平台的应用程序,Microsoft .NET 提供了一系列的工具和服务来最大程度地开发利用计算与通讯领域。 正是由于 C#面向对象的卓越设计,使它成为构建各类组件的理想之选无论是高级的商业对象还是系统级的应用程序。使用简单的 C#语言结构,这些组件可以方便的转化为 XML 网络服务,从而使它们可以

29、由任何语言在任何操作系统上通过 Internet 进行调用。 最重要的是,C#使得 C+程序员可以高效的开发程序,而绝不损失 C/C+原有的强大的功能。因为这种继承关系,C#与 C/C+具有极大的相似性,熟悉类似语言的开发者可以很快的转向 C#。2.3.4 什么是 ADO.NetADO.NET 是由.NET framework 为与数据库中的数据进行交互而提供的一组对象类的名称。我们知道,面向对象编程的有关主要优点是可以把各种复杂的功能封装在一个自包含的单元中,接着要处理的就是个定义好的接口中,它由一些方法和属性组成。ADO.NET 可以与许多类型的对象交互,不仅有存储在数据库中的数据,还有存

30、储在电子邮件服务器、文本文件、应用程序文档(例如 Excel 电子表格)和 XML 中的数掂。下面是可以连接的数据源列表:企业级的 RDBMS,例如 Oracle,Microsoft SQL Server,IBM DB2桌面数据库,例如 Access文件和目录系统,例如 Windows FAT32用逗号分隔开的文本文件,或长度固定的文本文件非数据库文件,例如 Excel 电子表格基于 XML 的数据其优点是上面的列表不是固定的。ADO.NET 连接的结构是可以为目前还没有想像出来的数据源格式编写供应程序、驱动程序和适配器。ADO.NET 允许从源中选择相当抽象的数据。数据库管理员只需授予使用数

31、据的一个视图的权限接口。即使没有访问数据源其它内容的权限,也可以使用 ADO.NET 把数据放在 ASP.NET 页面上。第 2 章 系统相关技术开发工具介绍82.3.5 什么是 AJAX AJAX 的全称是 Asynchronous JavaScript and XML,即异步 JavaScript和 XML。这是一种多项成熟技术的组合,其目的是让 Web 应用获得与用户快速、即时交互的能力。AJAX 所组合的技术,包括: JavaScript,Java 脚本语言(注意,此 Java 非 Sun 公司的 Java) DHTML,Dynamic HTML,动态 HTML XML,Extensi

32、ble Markup Language,可扩展标记语言 CSS,Cascading Style Sheets,层叠样式表单 DOM,Document Object Model,文档对象模型 微软的称为 XMLHttpRequest 的对象 在 AJAX 技术下,用户会感觉到网页与普通桌面应用一样,响应迅速,而不是像传统网页那样,任何操作都需要等待页面的刷新。AJAX 是如何做到这一点的呢?有两个秘密:第一,其实 AJAX 也会刷新页面,只不过,AJAX 可以只刷新部分页面,而不是整个页面;第二,AJAX 的页面刷新是异步的,就是说,用户可以继续他的其他操作,而不必等候刷新完成。 当用户浏览一个

33、基于 AJAX 的 Web 应用时,用户的请求被提交给一个称为AJAX 引擎(AJAX Engine)的代理,这个 AJAX 引擎负责接收用户请求,从Web 服务器上获取响应,并更新浏览器内容。形象地说,传统的 Web 应用中,浏览器是直接和 Web 服务器打交道的,而在 AJAX 应用中,浏览器和 Web 服务器之间出现了一个来回跑腿的“中介” ,而且这个 “中介”相当的勤快,所以,能够给浏览器提供更好的服务,从而使用户获得更满意的应用体验。2.3.6 什么是 XMLXML 的全称是“可扩展标记语言”提供一种描述结构化数据的方法。与主要用于控制数据的显示和外观的 HTML 标记不同,XML

34、标记用于定义数据本身的结构和数据类型。XML 使用一组标记来描绘数据元素。每个元素封装可能十分简单也可能十分复杂的数据。您可以定义一组无限制的 XML 标记。XML 是一种简单、与平台无关并被广泛采用的标准。XML 相对于 HTML 的优点是它将用户界面与结构化数据分隔开来。这种数据与显示的分离使得集成来自不同源的数据成为可能。第 3 章 系统的分析与设计9第第 3 3 章章 系统的分析与设计系统的分析与设计3.1 可行性分析1516可行性分析(Feasibility Analysis)也称为可行性研究,是指在允许的成本、性能要求下,分析每项需求实施的可行性,提出需求实现的相关风险,包括与其它

35、需求的冲突,对外界因素的依赖和技术障碍。可行性分析包括操作可行性、技术可行性、经济可行性和进度可行性。下面是对中医汉英双语平行翻译教学平台 Web 版的可行性分析。(1)操作可行性:鉴于 Web 系统的特点,采用 AJAX 增加用户界面的友好性,可以使系统操作员很好的掌握使用方法。在开发过程中,我们还尽量给操作员以方便,考虑到操作员的实际情况,对句子语料和段落语料的录入提供自动分词和分句功能。这样就大大提高工作效率。而且该系统简单易操作,易维护,减少了不必要的麻烦。(2)技术可行性:从目前比较流行的数据库开发、管理软件来看;该平台的语料数据可能比较庞大,所以考虑使用 SQL Server200

36、0 作为后台数据存储管理,ASP.Net 和 SQL Server2000 的结合无疑是在实际应用中较为成功的一种解决方案。(3)经济可行性:本项目得到中国外语教育基金、江西省教育科学“十一五”规划课题、江西师范大学青年成长基金、江西师范大学实验室开放专项基金的资助,开发经费没有问题。(4)进度可行性:鉴于本系统的目标要求和特点,能够保证在预期的时间内完成该系统的研究和设计。综上所述,此系统开发目标已明确,在技术和经济等方面都可行,并且投入少、见效快。因此系统的开发是完全可行的。3.2 术语定义第三代语料库:信息领域术语动态更新是我们提出的基于第三代语料库语言知识动态更新体系中的一个领域中词汇

37、层次的动态更新,它不同于此前的人工词典编撰及修订,这主要体现在以下几个方面:(1) 术语的发现与更新是基于领域内大规模真实文本的。(2) 更新是以流通为基础的,更新的主要内容包括:新术语的出现、被淘汰术第 3 章 系统的分析与设计10语的消亡、术语流通度(circulation) 的变化等;(3) 术语的更新可以由机器辅助人工标注到机器自动标注后人工进行校对最后走向全自动化。这些都必须有一个动态语料库来支持,这个语料库就是我们所说的第三代语料库。KWIC:关键词居中检索局部性原理:由 P.Denning 在 1968 年提出的,起初是对计算机程序执行情况的研究得出的结论。零客户端:B/S 设计

38、模式是在三层 C/S 模式上的改进,采用 B/S 模式的软件,客户端只需要安装一个通用的 IE 浏览器即可运行,而不需要如何系统自身的任何应用程序3.3 系统定义1.系统来源:教育部基金课题2.系统目标: 通过对本项目的研究,我们项目组将采用比较先进的软件开发技术,推出的软件将有以下的特点:适于重要专业的双语教学和翻译工作在十万级记录上能有响应比有比较好的性能,C/S 版的响应时间基本处于零等待的状态,B/S 的等待时间处于用户可等待的范围内。提供简单友好的系统界面,使用户能在稍加摸索就能很方便得使用系统。提供段段对齐,句句对齐等多种对齐等方式。能有很好的扩充性能,能在系统上稍加修改,即可成为

39、一个通用的英语双语预料库翻译教学平台,适用于英语双语教学和辅助翻译。 市场推广:本项目拟实现 C/S 和 B/S 两种模式版本的产品,不仅可以提供中医英语进行课堂双语教学,还可为中医英语学习或翻译者提供一个自学平台,为中医英语翻译教学创新奠定基础,培养学生研究性学习的能力。本项目产品稍加修改,便可成为一个通用的英语语料库翻译教学平台,可适用于我校各学科的双语教学,具有很好的应用前景和推广价值。第 3 章 系统的分析与设计11 系统整体结构如图 3.1 所示图 3.1 系统整体结构图3.4 运行环境和开发工具1、运行环境 Windows2000 Server、Windows XP、Windows

40、 Server 2003 SQL Server2000 数据库管理系统 IIS6.0 Microsoft Internet Explorer 5.5 以上2、开发工具 Microsoft Visual Studio .Net 2005 Dreamweaver MX 20043.5 数据库设计11203.5.1 数据库关系模型按照关系名属性名称解释,格式编写。中中 医医 英英 语语 语语 料料 库库 翻翻 译译 教教 学学 平平 台台前前 台台 检检 索索 显显 示示后后 台台 维维 护护 更更 新新语料检索语料生成语料统计分析语料显示语句结构导入语料更改语料删除语料单独载入第 3 章 系统的分

41、析与设计121、英文词语编号,英语文本,词性,词语长度2、中文词语编号,中文文本,词性,词语长度3、词语翻译对照编号,中文词语编号,英文词语编号,翻译来源,翻译频率统计4、英文句子句子编号,句子内容,句长5、英文关键字编号,英文句子编号,词语编号6、中文句子句子编号,句子内容,句长7、中文关键字编号,中文句子编号,词语编号8、中英句子翻译对照翻译编号,中文句子编号,英文句子编号,翻译来源,翻译频率统计9、中文段落段落编号,段落内容,段落长度10、中文段落关键字编号,中文段落编号,词语编号11、 英文段落段落编号,段落内容,段落长度12、 英文段落关键字编号,英文段落编号,词语编号13、 中英文

42、翻译对照编号,英文段落,中文段落,对齐方式,翻译来源14、 语料来源表来源编号,来源名称,来源描述,备注15、 语料主题表主题编号,主题名称,主题父结点,主题描述,备注3.5.2 数据库主要表结构说明、语料来源表(MOLMaterial Of Language语言原材料) 该表用于存储语料来源信息,表结构如图 3.1 所示。表 3.1 语料来源表字段名称字段说明数据类型可否为空主外键说明描述MOL_ID语料来源序号intNP唯一标识该来源记录,种子自增 1MOL_mane来源名称Char(50)YNMOL_Desc来源描述Varchar(200)YNMOL_Dom备注Varchar(100)Y

43、N2 、语料主题表 TOL(Title of Language )语言主题该表用于存储语料来源信息,表结构如图 3.2 所示。第 3 章 系统的分析与设计13表 3.2 语料主题表字段标识字段名称数据类型可否为空主外键说明描述TOL_ID主题编号intNP唯一标识该主题记录,种子自增 1TOL_name主题名称Char(20)YNTOL_farther主题父结点Varchar(20)YN建立结点分类不同的语料属于不同的主题 TOL_desc主题描述Varchar(100)YNDom备注Varchar(100)YN3、英文词语表E_Word(English Word)英语词语该表用于存储英文词语

44、信息,表结构如表 3.3 所示。表 3.3 英文词语表字段标识字段名称数据类型可否为空主外键说明描述EW_ID编号longintNN唯一标识该主题记录,种子自增1EW_content英语文本varChar(200)YN集聚索引EW_nature词性Varchar(20)YNEW_long词语长度intYNdemo备注Varchar(100)YN4、中文词语表C_Word(Chinese Word)中文词语该表用于存储中文词语信息,表结构如表 3.4 所示。表 3.4 中文词语表字段标识字段名称数据类型可否为空主外键说明描述EW_ID编号longintNN唯一标识该主题记录,种子自增1EW_co

45、ntent中文语文本varChar(200)YN集聚索引EW_nature词性Varchar(20)YNEW_long词语长度IntYN第 3 章 系统的分析与设计14demo备注Varchar(100)YN5、中英词语翻译对照Word_EC(Word of Chinese to English)该表用于存储中英词翻译对照信息,使中文词语表和英文词语表关联起来,表结构如表 3.5 所示。表 3.5 中英词语翻译对照表字段标识字段名称数据类型可否为空主外键说明描述WEC_ID编号 longintNP唯一标识该主题记录,种子自增 1WEC_ew中文词语编号longintYF(C_Word(CW_I

46、D)WEC_cw英文词语编号loongintYF(E_Word(EW_ID)WEC_form翻译来源intYF(MOL(MOL_ID)WEC_fre翻译频率统计Varchar(100)YNWEC_ TOL主题编号YF(TOL (TOL_ID)demo备注Varchar(100)N6、英文句子E_Sentence(English Sentences)该表用于存储英文句子信息,表结构如表 3.6 所示。表 3.6 英文句子表字段标识字段名称数据类型可否为空主外键说明描述ES_ID句子编号longintNP唯一标识该来源记录,种子自增 1ES_content句子文本Varchar(1500)YNES

47、_nature句子来源intYF(MOL(MOL_ID)ES_long句子长度inYN7、英文关键字表 E_SKey (English Sentence Key Word )该表用于存储英文关键字信息,表结构如表 3.7 所示。表 3.7 英文关键字表字段标识字段名称数据类型可否为空主外键说明描述第 3 章 系统的分析与设计15ESK _ID关键字编号longintNP唯一标识该来源记录,种子自增 1续表 3.7 英文关键字表字段标识字段名称数据类型可否为空主外键说明描述ESK_ESID英文句子编号longintYF(C_Sentence(ES_ID))ESK_EWID词语编号longintY

48、F(E_Word(EW_ID)8、中文句子C_Sentence(Chinese Sentence)该表用于存储中文句子信息,表结构如表 3.8 所示。表 3.8 中文词语表字段标识字段名称数据类型可否为空主外键说明描述CS_ID句子编号longintNP唯一标识该来源记录,种子自增 1CS_content句子文本Varchar(1500)YNCS_nature句子来源intYF(MOL(MOL_ID)CS_long句子长度inYN9、中文关键字表 C_SKey (Chinese Sentence Key Word )该表用于存储中文关键字信息,表结构如表 3.9 所示。表 3.9 中文关键字表

49、字段标识字段名称数据类型可否为空主外键说明描述CSK _ID关键字编号longintNP唯一标识该来源记录,种子自增 1CSK_ESID英文句子编号longintYF(C_Sentence(ES_ID))CSK_EWID词语编号longintYF(E_Word(EW_ID)10、中英句子翻译对照 Sentence_EC 该表用于存储中英句子翻译对照信息,使中文句子表和英文句子表关联起来,如表 3.10 所示。表 3.10 中英句子翻译对照表字段标识字段名称数据类型可否为空主外键说明描述第 3 章 系统的分析与设计16SEC_ID翻译编号longintNP唯一标识该来源记录,种子自增1SEC_c

50、s中文句子编号LongintYF(C_Sentence(ES_ID))续表 3.10 中英句子翻译对照表字段标识字段名称数据类型可否为空主外键说明描述SEC_es英文句子编号LongintYF(E_Word(EW_ID)CS_nature翻译来源IntYF(MOL(MOL_ID)SEC_ TOL主题编号YF(TOL (TOL_ID)CS_long翻译频率统计intYN3.6 语料库切片标准212191.句子切片标准:关键字标记:第一个关键字文本,第二个关键字文本,第三个关键字文本,第 N 个关键字文本,其中“”中的字符均为英语输入法键盘输入的字符标准,且中英文的关键字标记完全相同方案简述:单句

51、子翻译不考虑对齐显示;但是要求在后期的版本提供语料结构复用,自主生成语料的功能,其中的机器处理后的标记正好能标记出相应的中英文位置的准确地点,方便提供专业关键字/词替换功能,为结构的复用预留了接口。2.段落切片标准:(1)关键字标记:第一个关键字文本,第二个关键字文本,第三个关键字文本,第 3 章 系统的分析与设计17第 N 个关键字文本,(2)句子割分标记:第一个关键字文本,第二个关键字文本,第三个关键字文本,第 N 个关键字文本,机器处理后标记关键字位,方便出库时对齐显示。其中“”中的字符均为英语输入法键盘输入的字符标准,且中英文的关键字标记完全相同。方案简述:没有必要在系统中提供段落结构

52、复用的功能,其对比起对齐显示来说,对齐显示才是关键。同时采用根据相应的像素宽度(即字符在屏幕显示的宽度) ,能够很好的解决英文字符的宽度不一致的问题,对齐显示将显得更合理。第 4 章 系统设计与具体功能的实现18第第 4 4 章章 系统设计与具体功能的实现系统设计与具体功能的实现4.1 系统功能概述314164.1.1 主要功能1、 语料检索:主要是出于对用户方便性的考虑,需要提供一种能够简便的用户检索接口。2、 数据信息提取:在用户正常的检索请求情况下能够遍历相关主题整个库文件,把相关的信息检索出来,而且要保证在系统允许的最低准确率之上和时间可以允许范围内。可以采用相应的算法来提高效率。3、

53、 信息文本长度统计:这是文本对齐的必要准备,只有在长度统计准确的前提下才能准确无误的显示在用户的应用界面。4、 对齐显示;这是本系统在最终用户层的最重要的功能之一,必须提供篇章段落级对齐,句句对齐的要求,初步拟订采用对语料进行切片的方式,把成段的语句切成不同的语句,然后按照语句的顺序,分成左右两边显示区域,每个区域显示一种语言的句子,这样就实现了句子的简单对齐。这些功能总体可以分成“前台检索功能”和“后台数据更新维护功能”两大块,其设计思想与实现过程在 4.2 与 4.3 节中详述。4.2 前台检索功能设计与实现34.2.1 Web 语料库的在线检索功能在设计基于WEB的语料库在线检索功能时,

54、我们不但要考虑语料库的用途和检索需求,而且要考虑网络带宽和传输速度的限制。从语料库的用途看,不同目的的语料库对检索功能有不同的特定需求,不必将上述所有的检索功能集中于一个检索系统当中。从网络环境来看,检索系统的功能越多,对网络带宽的要求越高,在多用户同时检索的情况下,检索速度就越慢。因此,有必要根据基于WEB的对外汉语教学语料库的用途和检索需求,对其在线检索功能进行限定。我们参考了现有几个语料库的在线检索程序,对基于WEB的对中医汉英双语教学语料库的主要检索功能进行了如下的设计:第 4 章 系统设计与具体功能的实现191、可按语料类别选择所要检索的语料库子库。2、可进行“关键词居中”(KWIC

55、)检索。关键词为中文和英文任意字符串,用户可选择采用简体汉字键入检索词。3、通过检索字符串表达式或者下拉菜单等方式对多个关键词进行检索。比如,搭配词语检索。4、对所检索的关键词的命中频率进行统计。5、采用AJAX技术实现关键词的实时提示和自动完成功能。6、采用二次检索方式对检索结果进行更加精确的检索。7、允许管理员凭密码权限对语料库文本的内容进行在线更新(增删或修改)。这些检索功能基本上能满足最常见的检索需求,利用检索结果可进行语料提取、词频统计、词性等涉及语法、语义、语用的研究。前台检索功能流程如图4.1所示。图4.1 前台语料检索功能第 4 章 系统设计与具体功能的实现204.2.2 检索

56、功能的实现面向最终用户,只能通过搜索对语料文件信息进行查询操作。1功能描述:从文本框中输入中文词语或英文词语而查询出相匹配的翻译语料。2设计思想:获取文本框输入的词汇和词语数据库中的数据查询,在查询之前先将输入的文本关键词进入拆分,如果输入的文本关键词中含有关键词分隔符,则拆分成多个关键词进行匹配查询。这样设计提高了关键词查询的多样化和查询结果的准确度。检索可分为词语检索、句子检索、段落检索模块,它们的实现都是类似的。其中词语检索处理流程如图 4.2 所示。图 4.2 语料检索流程图3关键词提示:为了增加平台对用户的友好性,提高关键词输入和检索的效率,利用AJAX技术实现关键词的实时提示,帮助

57、用户快速输入关键词。关键词提示如图4.3所示输入查询关键字提取查询关键字拆分关键字返回查询数据信息数据降噪(去除标记等)显 示第 4 章 系统设计与具体功能的实现21图4.3 前台界面及关键词提示4关键词高亮显示:在查询结果页面中将语料中用户输入检索的关键词进行高亮显示,便于和语料中的其他词语区分。如图4.4所示。图4.4 前台检索句子语料时显示的结果界面4.3 后台数据更新维护功能的设计与实现在后台操作中语料库的入库、删除、修改功能,其中语料库的入库功能是主要功能,以下图4.5是处理流程图。图4.5 语料加工流程图4.3.1 后台管理登录进入后台管理,需要使用管理员用户名和密码登录验证后才可

58、以更新维护数据。后台登录界面图 4.6。数据结构保存库文件人工修正语料切分标注人工处理生语料熟语料第 4 章 系统设计与具体功能的实现22图 4.6 后台管理登录界面4.3.2 语料数据的入库功能1功能描述:对输入的生语料进行入库操作。3执行效果:(1)添加基础语料:在左边菜单中展开“基础语料”菜单选择“语料添加”将中文词语和英文词语输入到相应的文本框中,然后点击“提交”按钮完成基础语料的添加操作。操作界面和结果如图4.7所示。图4.7 基础语料的添加第 4 章 系统设计与具体功能的实现23 (2)标注词汇或句子:设计思想:句子和段落都是增加关键字标记,根据关键字标记提取关键字,入到关键字库中

59、。设计步骤:选择标记:选中编辑界面或修改界面左边的标签列表。添加标记:选好标签后在编辑框中用鼠标划选关键词,使其高亮显示,程序将自动为该选中的关键词加上标签;如关键字“中医学”添加好标签后为“中医学” 。注意标签特性:在同一个编辑框中,标签的第一个括号与第二个括号必须是成对出现(不可分) ,如中医学、中医学、中医学都是不允许的;标签的两个括号是不能颠倒顺序(不可逆) ,如中医学是不允许的;标签在中英文编辑框中必须能找到相同的标签(必成双) ,如中文中有,英文编辑框中必须有;在标签前后部分之间不能存在“空对不空” ,如在中文编辑框中含有中医学,英文框中含有,这是系统不支持的。句子入库执行效果图如

60、图 4.8 所示。图 4.8 句子语料的添加(3)段落语料入库:段落因为是由句子组成,实现起来的效果和句子一样,但是由于英文和中文句子在翻译时的位置有所变化,程序不能很好的自动标识句子,所以该功能暂时只能人工完成,在此就不详细阐述。第 5 章 关键技术的实现24第第 5 5 章章 关键技术的实现关键技术的实现5.1 分层设计思想89该系统使用分层思想进行设计,将系统分为表示层、业务逻辑层、数据访问层,实现“高内聚、低耦合” 。采用“分而治之”的思想,把问题划分开来各个解决,易于控制,易于延展,易于分配资源。分层设计思想有以下优点:1. 通过将整个系统分为不同的逻辑块,大大降低了应用系统开发和维

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论