大数据时代的汉语研究应对_张平pdf(共8页)_第1页
大数据时代的汉语研究应对_张平pdf(共8页)_第2页
大数据时代的汉语研究应对_张平pdf(共8页)_第3页
大数据时代的汉语研究应对_张平pdf(共8页)_第4页
大数据时代的汉语研究应对_张平pdf(共8页)_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大数据时代的汉语(Hny)研究应对张平彭海燕(hi yn)摘要: 大数据时代对汉语研究提出(t ch)了新的要求,语言是人类最为重要的交流思想、传递信息的工具,研究好自然语言这一工具是我们打开大数据宝藏必备的钥匙。从语言大数据的机器自动提取与分析来看,汉语研究应该从汉语的实际使用出发,面向语言大数据的处理,进行更为全面地观察,揭示更为精细的使用规则,描写更为细致的语义特征和语义关系,探索新的汉语语义知识表述理论体系。关 键 词: 语言大数据; 汉语研究; 汉语使用规则; 汉语语义知识表述理论体系DOI:10.16059/43-1008/c.2015.03.029大数据正以前所未有的广度和深度影

2、响着这想象仅凭人力能够完成有史以来如此浩瀚的大数个时代,诸多基于大数据分析的系统让我们的生活据提取和分析工作。为大数据服务的语言研究,一变得更加便利。价格预测系统帮助我们购买到便定是面向机器的。面向机器的语言研究,发端于机宜的商品,异常交易报警系统保护信用卡的安全,器翻译系统研发的需要。上个世纪七八十年代,概流行病监测系统及时预报疾病感染的区域等等,大念依存理论、扩展转移网络、广义短语结构语法、中数据为我们开启了一扇扇从纷繁复杂的现象中寻心词短语结构语法等在小规模的语言实例训练中求事物相关性的大门。从顾客网络购物的海量记表现突出,给机器在理解自然语言的基础上进行翻录里,商家可以通过统计分析,了

3、解不同人群的喜译带来了希望。但是,这些基于有限规则的系统好,为他们定制个性化的服务。大数据背后蕴藏并不能很好地处理各种纷繁复杂的真实语料。随着价值惊人的信息,这些信息的载体,有数字、有图着互联网的迅猛发展,大规模的语言数据成为了重片,更有自然语言。语言是人类最为重要的交流思要的研究资源。一部分机器翻译研究者抛开对语想、传递信息的工具,研究好自然语言这一工具是言结构的分析和归纳,声称不需要特定语言学家的我们打开大数据宝藏必备的钥匙。翻译系统通过对海量数据的统计,构建起统计机器一 面向机器的语言研究背景翻译模型,并为社会用户提供了切实的网络翻译服务。尽管基于统计的翻译系统在工程上以更易于大数据的力

4、量必须借助于机器才能实现,无法开发的优势领先于基于规则的系统,但每一个用过作者简介: 张平,博士,湖南大学中国语言文学学院副教授 / 彭海燕,湖南大学中国语言文学学院硕士研究生。( 湖南 长沙,410082)基金项目: 教育部人文社科规划青年基金项目( 12YJC740139)维克托迈尔舍恩伯格、肯尼思库克耶: 大数据时代: 生活、工作与思维的大变革,杭州: 浙江人民出版社,2013 年。冯志伟: 自然语言处理的形式模型,北京: 中国科学技术出版社,2010 年。139google 和有道翻译的用户(yngh)都不会对其翻译效果表示十分(shfn)的满意。不少研究者仍希望通过(tnggu)对自

5、然语言进行面向机器的深入探索,从根本上突破机器翻译的难题。伴随着大数据时代的来临,语言数据的机器提取与分析对语言研究提出了更多的要求。詹卫东从计算语言学的发展过程中得到启发,认为大数据时代的汉语研究,首先应该更加注重语言工程的研究和开发,以提高汉语大规模语言资源的数量、类型及易获得性,因此,汉语语言资源建设应努力实现语言范畴形式化、语言数据专项化和语言知识可视化; 其次,汉语语言学的研究应更加开放、更具多元化视角、更加注重多学科的交叉和融合。除了詹文指出的两大宏观方向外,从语言大数据的机器自动提取与分析本身来看,汉语研究还应该关注汉语的计量单位和汉语的结构化这两个方面的问题。获取语言大数据的根

6、本目的,在于挖掘具有统计学意义的语言大数据背后有价值的信息。对超大规模语言材料进行计量统计是语言大数据处理的前提,而汉语的结构化,尤其是语义知识的结构化是训练机器自动理解语言大数据所承载的语义信息的基础。二 对超大规模语言材料进行计量统计的汉 语研究应对语言是一套音义结合的符号系统,语言信息主要以语义知识的形式存在。这一特点决定了服务于语言大数据提取与分析的汉语研究首先要从作为音义结合体的各语言单位计量统计入手。要进行语言单位的计量,最为基础的语言研究任务是对它们进行划分和定性。以往谈语言单位,主要是语素、词、短语、句子、语段、语篇等。在汉语中,句子、语段和语篇由于形式上有明显的分隔标记,句子

7、可 以依靠句号、问号和叹号等句末的点号来分隔,语 段可以依靠段前段后的空格来分隔,语篇可以依靠 标题等来分隔,确定起来并不困难。汉语的语素、 词和短语这三级单位的分界没有形式上的标志。 语言学上的区分所依据的是入句的语法功能和内 在的意义,概括起来即是能否独立运用和是否具有 意义上的凝固性。语素不具有独立运用的能力,短 语不具有意义上的凝固性,其意义等于组成成分意 义的加合,词则是能够独立运用的最小的音义结合体。这一特点使得词在语言的理解中作用特殊,是最小的意义理解(lji)单元。要将这三级单位(dnwi)区分开来,语言研究者常用(chn yn)的方式是替换法和扩展法。可替换的是多个语素组成的

8、合成词,不可替换的是一个语素组成的单纯词,例如: “新娘”是一个由两个语素组合而成的词,可以进行替换操作: 用“姑”替换“新”,可以组合成“姑娘”; 用“人”替换“娘”可以组合成“新人”。但“蜻蜓”中的“蜻”或者“蜓”就不能用别的语言单位来替换,只能是一个语素组合而成的词。另一方面,“新娘”不能像“新书”那样进行扩展操作,其意义不等于组成成分意义的加合,即“新书”的意义等同于“新的书”,而“新娘”在意义上并不是“新的娘”,所以,“新娘”不是短语,“新书”是短语。这两种划分操作是人运用其所掌 握的语言学知识,包括语法和语义知识,以及其他 百科知识才得以实现的。在超大规模的语言数据 面前,人工去一

9、一分辨绝不可能,必须求助于机器 的自动操作。目前,国内外的不少研究机构都开发 了汉语的自动分词和词性标注系统,但这些系统中 没有一个是既便于操作又能将词毫无争议地切分 出来,并对其进行准确定性的。这一现状已经成为 了汉语信息处理的基本障碍。要解决这个困难,除了继续探索基于统计的计 算模型外,汉语研究的精细化势在必行。汉语自动 分词的困难当前集中在歧义字段和未登录词这两 大方面。无论是歧义字段的分词和标注,还是未 登录词的识别,都需要汉语研究者去发现更为细致 的形式上的特点,以便于写出好的规则存入电脑的 规则库中。例如: “了”什么时候该分成一个独立 的词,什么时候只是一个构词的语素? 汉语本体

10、研 究的成果表明: “了”独立成词,若是动态助词,其 前必定是一个谓词性成分,若为语气助词,则位于 句末,其后有句末标点符号,若作动词,表示完结的 意思时,后面可以带名词宾语,表示可能与不可能 时,以“V + 不 / 得了”的形式出现; “了”若是一个构 词语素,只存在于有限的“了得”、“了不得”、“了不起”、“了结”、“了解”、“了却”“了事”、“罢了”、“除了”、“大不了”、“得了”、“明了”、“末了”、“私了”、“为了”“终了”等词中。将这些细化的、具有形式上的标记的条件写成规则,对提高“了”自动分词和词性标注的精确性会有直接的帮助。由此推及一般,面向机器的汉语本体研究,应该更多地詹卫东

11、: 大数据时代的汉语语言学研究,山西大学学报( 哲学社会科学版) 2013 年第 5 期。孙铁利、刘延吉: 中文分词技术的研究现状与困难,信息技术2009 年第 7 期。140关注语言的实际使用(shyng)情况,在词、语、句、篇等语言(yyn)单位的使用特点(tdin)上下更多的功夫,揭示更多的、更为细致的用法及其语境条件。三机器自动理解语言大数据的汉语研究应对大数据时代汉语研究要解决的第二个问题是 汉语的结构化,既包括语表形式的结构化,也包括 语里意义的结构化。在这个问题上,句子处于枢纽位置。句子是言语交际的基本单位,自然语言理解的关键是句子。无论是口语,还是书面语,句子都以线性的方式呈现

12、,但句法构造和语义构造并非如此。“爸爸很喜欢听女儿唱歌”,并非以线性方式,先“爸爸”和“很”直接组合成“爸爸很”,而后以“爸爸很喜欢”“爸爸很喜欢听”“爸爸很喜欢 听女儿”“爸爸很喜欢听女儿唱歌”的方式一步 一步组合而成。相反,和“爸爸”以主谓关系直接组合的是“很喜欢听女儿唱歌”这个短语,在这个短语中,“很”与“喜欢听女儿唱歌”以状中的关系直接组合,“喜欢”与“听女儿唱歌”以述宾关系直接组合,“听”与“女儿唱歌”以述宾关系直接组合,“女儿”与“唱歌”又以主谓关系直接组合。其语义结构是,“喜欢”的主体是“爸爸”,客体是“听女儿唱歌”,程度是“很”,“听”的主体是“爸爸”,客体是“女儿唱歌”,而“

13、唱歌”的主体又是“女儿”。理解句子的意义,必须清楚其结构层次和语义关系。机器理解句子的根本,即是对句子进行结构预测,包括句法结构的预测和语义结构的预测。汉语机器理解的困难在于,汉语是一种重意合的语言,缺少明确的词类标记和句法标记,语义成分、句法成分的省略比比皆是,语序也具有很大的灵活性,这样就造成了不少的歧义结构、紧缩句、流水句和变式句等,大大增加了汉语结构化的难度。如“动词 + 名词”结构,“指导老师”是修饰关系的定中短语,“指导学生”却是支配关系的述宾短语。“喜欢 + 漂亮 + 名词”结构,既可能是“漂亮”与其后的名词直接组合为结构体,再跟“喜欢”组合,构成述宾结构,如“喜欢漂亮的衣服”,

14、又可能是“喜欢”和“漂亮”直接组合的结构体,再和后面的名词组合,构成定中结构,如“喜欢漂亮的老人”,还可能是二者皆可,如“喜欢漂亮的姑娘”既可以是述宾短语,又可以是定中短语。再如“名词+ 名词 + 名词”结构,“老王的儿子的同学”,先是“老王”和“儿子(r zi)”直接(zhji)组合,再和“同学(tng xu)”组合,而“老王的中学的同学”则是“老王”和“中学同学”直接组合,“中学”和“同学”直接组合。面向机器的汉语研究,应该积极探索这些结构中的决定性因素。如“指导老师”和“指导学生”的不同在于“老师”和“学生”的语义特征不一样,“老师”的词义中包含了作为指导者的身份,“学生”则是被指导者的

15、身份。“喜欢漂亮的衣服”、“喜欢漂亮的老人”和“喜欢漂亮的姑娘”的差别在于,“衣服”是无生名词,一般情况下是不可能产生“喜欢”的情绪的,只能作受事,“老人”和“姑娘”都是有生的名词,可以是“喜欢”的施事,也可以是喜欢的受事,但“漂亮”这个形容词对人的语义选择倾向主要是年青的女性或年幼的孩子,所以不会有“漂亮的老人”的组合。把这些语义特征教给机器,必然会提高对这两个结构的预测能力。汉语的这些结构,尽管已经有了一些可应用于机器处理的成果,但就广度和深度而言,现有的研究还远远不能满足语言大数据处理的需要。要在这个问题上有所突破,汉语语义框架、语义网络的构建势在必行。这里的语义框架和语义网络,既包括像

16、董振东先生开发的知网( HowNet) ,也包括每个词由多个典型语义特征与辐射语义特征链接而成的概念框架,如“老师”一词的语义框架,其典型语义特征是“人”、“具有一定学识和技能”、“传授知识”、“指导学生”,并由这些典型特征激活对相关背景知识的联想,辐射出“智慧”、“权威”、“奉献”、“爱心”、“值得尊敬”等含义,由此构 成一个有结构的概念网络:语义网络还包括句子乃至语篇的语义联想网 络,如句子“上课铃声响了”,会激活如下相关场景: “老师走进了教室,同学们都安静了下来,打开刘宓庆: 汉英对比研究的理论问题( 下) ,外国语1991 年第 5 期。程琪龙: 语义框架和认知操作,外语教学2007

17、 年第 1 期。141划、国家自然科学基金和社会科学基金的资助下开 展了多个(du )汉语框架语义网络的建构,但不论(bln)其规模 还是效果,都不能很好地满足(mnz)实际应用的需要。这其中一个重要原因,是对汉语词、句、篇的语义本体 研究还十分地不充分。在这些本体研究当中,汉语 研究者既需要对具体的词、句、篇进行细致地语义 特征描写和语义关系刻画,进而建构大规模的语义 资源库,更需要对汉语语义知识的表述理论进行根 本性的创新,因为它是语义知识库构建的基础。要在汉语语义知识表述理论上有所创新,我们有必要 思考语义知识在我们头脑中存储的方式和结构,有 必要思考我们究竟是如何组词造句谋篇以完成我

18、们的交际意图,又是如何对接收到的语言符号序列 进行结构的分析、如何调动存贮于我们大脑中的相 关知识达到意义的理解等问题。汉语结构化的研 究,除了我们已有的研究方法和研究模式之外,十不细致。国内的汉语信息处理学界在国家 863 计如美国加州大学的 FrameNet。这些成果的对象主算语言学界的研究者建立起了互联网在线框架网,了较深入的理论和个例的探讨,其研究成果启发计书本,做好听课的准备,值日生喊起立,老师请同学分有必要引入认知学科的理论和方法,以促进汉语们坐下,开始讲课”,等等,它们共同构成一个有关语义知识表述理论的创新。开始上课的语义框架。后两个方面的内容,国外的认知语义学已经有大数据时代给汉语带来了新的研究课题,不仅需要汉语研究者在思想观念上重视语言工程的研 发,在知识结构上进行语言学、统计学、计算机科学 等多学科的交融调整,也需要从事汉语本体研究

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论