下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、PHP简易中文分词系统对闽菜名的分词试验与结果分析摘要:菜名作为专知名词的一局部,在计算机分词中,常属于“未登录词”局部。本文选取 600 个闽菜名为调查材料测试 PHP 分词系统在对材料进展切分时的效率分析该分词系统在菜名切分时存在的问题及问题的主要类别,试图解释造成分词结果错误的原 因,提出解决思路。一、闽菜名特点及对其进展正确的识别、切分的必要性作为中国八大菜系之一的闽菜以福州菜为代表,另外包括闽南菜、闽西菜等。闽菜所选用的食材种类较为丰富,盛产海鲜的东南沿海地区擅于使用海鳗、蛏子、鱿鱼等海鲜为原料烹制各式菜肴,内陆山区则多用笋、香菇、鸡鸭等山珍野味。闽菜的烹调方式多样而又不失自身特色擅
2、长“炒熘煎煨”等,“糟”是闽菜的一大特色在命名活动中符号化的“事物”需要得到社会的、心理的、文化的认同。只有经“文化世界的折光”,抽象的所指才能和事物之间建立比较确定的联系,符号才能名称化,成为真正能够指代事物的名称。闽菜名作为标记具体菜肴的符号,或反映菜品的原料,如“萝卜鲫鱼”“鲟肉豆苗”,或表现该菜的烹调方式如“炝糟鸡丝或运用比方借代等修辞手法呈现该菜的特点如“龙须燕丸”,或反映菜式的来源如“福州鱼丸”,具有较为深厚的文化内涵。有关是否应当对菜名切分的问题,存在不同的观点现代汉语语料库加工标准词语切分与词性标注中认为,食谱上的菜名等通常也是短语型的,假设拆开了,意思差异甚远,则不切分,否则
3、切分。即使不切分,也不看作专知名词,例如木犀肉/n,芝麻/n 饼/n。本文认为,菜名应”的范畴:首先,一个菜名往往与一个具体的、确定的菜品相互对应;其次,假设以拆开后意义与原意的差异程度作为是否切分的标准在实际运用时难以落实。对于计算机分词系统来说相当大一局部菜名属于未登录词即词典中没有收录的词而未登录词”对于分词精度的影响是不容无视的因此对菜名进展相对准确的识别与切分是必要词精度的影响超过了歧义切分。未登录词处理在有用型分词系统中占的份量举足轻重。通名中包含“煎、炸、炒”等在实际语用中可作动词的烹饪方式,而自动分词系统在对菜名进展如“肉烧白菜”这个菜名,假设分词系统将“烧”判定为动词,本为名
4、词性短语的菜名就被切分为“主语+谓语+宾语”的成分。又如福建名菜“佛跳墙”,假设分词系统未能识别这是一个菜名错误切分。例如:“他爱吃西红柿炒鸡蛋。”假设分词系统不能正确识别“西红柿炒鸡蛋”这个菜名,就可能导致“他|爱|吃西红柿|炒鸡蛋”这样错误的切分结果。 二、本文调查语料的来源及根本状况 语料来源 本文共收集了 600 个闽菜名称,主要来自闽菜菜谱及网络: 样 省略/Topic/CaiXi/MinCai/二语料根本状况本文所收集的菜名包含福建境内不同地区的各式菜肴涵盖了福州菜闽南菜闽西菜三大局部所使用的食材包括海产品、河鲜、山珍等,烹调方式则包括蒸、烧、炒、熘、炸等。菜名音节数从二到七个不等
5、,音节具体状况。三PHP简易中文分词系统简介本菜名试验时选用了PHP 简易中文分词SCWS第四版在线分词系统,其链接为: :/ 省略/scws/demo/v4.php。相关资料显示这是一套基于词频词典的机械中文分词引擎,能将一整段的汉字根本正确地切分成词。它承受自行采集的词频词典,并辅以肯定程度上的专知名称、人名、地名、数字年月等规章集,经小范围测试或许准确率在90%95%之间,已能根本满足一些中小型搜寻引擎、关键字提取等场合运用。SCWS 承受纯C 代码开发以Unix-Like OS为主要平台环境供给共享函数库便利植入各种现有软件系统。此外它支持GBK,UTF-8,BIG5等汉字编码,切词效
6、率高。三、PHP简易中文分词系统第四版对闽菜名的切分状况“分词单位”也可称作“切分单位”,是指信息处理中使用的、具有确定的语义和语法功能的根本单位信息处理用现代汉语分词标准中指出,分词单位包括了语言学中“词”的全部,如“火车”“学习”“更加”;以及满足某些条件的“词组”的一局部,如“牛肉”“一个”“越来越”。北京大学计算语言学争辩所的2022 3 月版中指出,切分单位主要“词”的定义是:具有肯定语音形式的、能独立运用的、最小的语言单位。只有少数菜名是直接由语言学上的“词”构成的,更多的菜名是由两个或者以上语言学上的“词”组合构成的名词性短语。所谓“名词性短语”,也叫体词性短语。性质上是名词性的
7、,功能上跟名词相当, 经常充当主语、宾语。本文在使用 PHP 简易中文分词系统第四版对 600 个中文简体的闽菜名进展切分试验时所选择的编码类型是GB并在复合分词选项下选择了标注词性”的功能。在推断分词效率时,主要考察两个方面:1.一个菜名被切分后分词单位的数量;2.对于被切分后分词单位的数量为两个及以上的菜名则考虑系统对各局部的词性标注是否恰当。菜名作为一个整体,应当属于名词性成分,表示烹饪方式的那局部动词进入菜名作为其构成局部时,词性应当与原本的动词有所差异。一不同音节闽菜名的切分状况1.双音节闽菜名的切分状况本文的分词试验材料中共有双音节闽菜名 6 个,被分词系统判定为一个分词单位的有三
8、个,占总数的 50%,其中,词性被判定为名词的只有 2 个,分别是肉松和素鸡,“姜鸡”被识别为一个分词单位,但词性被标注为人名n,其缘由可能姜除了表示一种食物以外,还可以作为姓氏使用。其余双音节菜局部,并在词性标注上存在问题“糟鸭”中的“糟”被判定为形容词,然而,“糟”字的词性一般状况下是形容词,意义与“好”相对,但在闽菜中,“糟”是一种特别的烹饪方式。2.三音节闽菜名的切分状况在对 104 个三音节闽菜名进展切分时,分词单位个数为 1 且词性标注正确的闽菜名仅有“锅边糊”。另有“金鲤虾”“白片羊”等 4 个闽菜名被判定为一个分词单位,但词性被标注为人名。“糖/n 什锦/n”“荔枝/n 肉/n
9、”“砂锅/n 鸡”38酿/v青椒醉/v排骨酒/n蒸/v鸡42 个菜名中包含的烹饪方式被标记为动词; “扁肉燕”“红糟鸡”10 个菜名因包含“扁”“糟”等可作为形容词使用的成分,分词系统未能对其进展正确识别。除此之外,未能被正确识别的闽菜名还有“佛跳墙”“五柳居”等来源于相关故事典故的菜名。 3.四音节闽菜名的切分状况 285 47.5%,是不同音节分词单位的只有“游龙戏凤”“梅开二度”等 4 个借用成语的菜名。包括“白糖/n 锅巴/n”“太极/nz 明虾/n”“汤酱/nr 草头/n”“包心菜/n 卷/q”“甜/a 山药/n 桃/n”“葱/n 烧鸭/n 块/q”在内的 181个四音节闽菜名被切分
10、成几个名词性的分词单位。“红焖/v 猪蹄/n”“生/v 蒸/v 龙虾/n”“炸/v核桃/n 鱼/n”24 个四音节闽菜名被切分为动宾构造的动词性短语。“葱/n 烤/v 草鱼/n”“香神仙/n 整/v鸡/n”等32个四音节闽菜名被切分为“名词+动词+名词”的构造。另有“酥/a 猪肝/n 排/v”“鸡/n 茸/ 蛎/ 糊/v”等菜名在切分之后为“名词+动词”构造。4.五音节闽菜名切分状况中共有187 个五音节闽菜名,占总数的31.2%,其数量于四音节闽菜名。“白炒/nr 龙虾/n 片/q”“偏口鱼/n 炖肉/n”“八宝/n 书包/n 鱼/n”等 113 个五音节闽菜名被切分为几个名词性的分词单位“
11、肉片/n烧/v茄子/n”“三/m 丝/n拌/v 糟/a 鱼/n”等37 个五音节闽菜名被切分为“名词+动词+名词”的形式“和合 /n 鲳鱼/n”21 个五音节闽菜名切分后表现为动宾短语。“金黄/z /n 糊/v”4 个五音节闽菜名被切分为“名词+动词”“肉片/n 焖/扁豆/n”“鸡汤/n 汆/海/n 蚌/n”“大枣/n 煨/兔肉/n”12 个五音节闽菜名含有“焖”“汆”“煨”等系统不能正确识别的字词。 5.六音节闽菜名的切分状况 材料中的15 个六音节闽菜名称都被切分成为假设干局部,主要类型知名词性成分的组合,如“什锦/n蜂窝/n豆腐/n”;述宾构造,如“红焖/v通心/nz河鳗/n”;主谓构造
12、,如“陵/ng岛/n生/v蒸/v龙虾/n”等。此外,”松脆”“酥”等对口感的描述性成分也被单独切分成一个单位。七音节闽菜名的切分状况 由于音节数过多不便利使用和记忆,不利于人们快捷地提3 个七音节闽菜名,分词结果分别为:“双/m冬/nr肉丝/n豆腐/n汤/n”“江东/nr鲈鱼/n炖/姜丝/n”“莲蓬/n菠菜/n 豆腐/n汤/n”。二闽菜名切分结果的主要类型通过对不同音节数闽菜名切分后结果的综合分析,可以归纳出以下 6 种主要类型:1.假设干个名词的组合这类菜名主要构成局部是做菜的原材料,例如“酸梅/n 藕/n”“白糖/n 锅巴/n”“豆腐/n 鱼尾/n 汤/n”“什锦/n 蜂窝/n 豆腐/n”
13、“蓬莱/n 菠菜/n 豆腐/n 汤/n”等。2.“动词+名词”式这类菜名主要构造为“烹饪方式+原料”,例如“熏/v河鳗/n”“烧/v白鸽/n罐/q”“炒/v菠萝/n鸭/n 片/q”“红焖/v通心/nz 河鳗/n”等。3.“名词+动词+名词”式这种形式的菜名构造一般配料烹饪方式+主料例如酒/n蒸/v鸡枇杷/n拌/v鸡海米/n拌/v莴笋”等。 4.“名词+动词”式被切分为这种形式的菜名,一般是由于以“冻”“煎”“排”“松”“扣”“糊” 例如“土/n 笋/n 冻/v”“蚝/子/k 煎/v”“香油/n 虾n/排/v”“五彩/n虾/n松/v”“五彩/n 珍宝/ns 扣/v”“百合/n花生/n糊/v”等。
14、 5.直接借用成语或其他固定短语作为菜名 如“梅开二度/l”“吉利如意/l”“百花争艳/i”等。 6.来源于典故、故事的菜名 系统往往未能正确识别这些菜名背后的典故,仅凭字面上的语法关系对其进行切分,造成了错误,例如“佛/n 跳/v 墙/n”“五/m 柳居/nr”等。材料中不同音节数闽菜名在以上六种主要类型中的分布状况。依据上图可知,仅有极少数的闽菜名能够被分词系统识别为一个分词单位不考虑词性标注正确性。被切分为名词与名词相互组合构造的菜名数量最多,动宾构造的次之,另外, “名词+动词+名词”的形式也较为普遍。四、分词结果可能带来的问题一即便是由名词组成的菜名,其整体意义并不等于各局部名词意义
15、的简洁相加,因此对这类菜名进展切分时不合理的。依据试验结果,结合具体材料,可觉察在被切分为名词的组合的那局部菜名里,存在一局部菜名切分后的意面线/n”,但由于该词组存在交集型歧义,分词系统将其处理为“炒面”“线”这两个名词的组合,不符合该词组原来的意义。另一个例子“福州/ns肉/n燕/nr”中,“肉燕”本是福州地区一种类似馄饨的小吃名称,被切分开后意义发生了极大的转变。材料中的其他很多闽菜名,“虾仁/n芙蓉/n蛋/n”“雪/n 中鱼/nz”等,在被切分后意义都发生了不同程度的转变。 二对于被切分为“动或是“名词+动词+名词”的菜名在进入句子后,分词系统对它们的判定仍旧是动宾构造,可能导致这个句
16、子其他局部的分词错误。在机器翻译过程中,这样的分词结果可能“扒/v烧/v全/a鸡/n”这个菜名进入句子后的分词结果为“扒/v 烧/v 全/a 鸡/n 是/v 道菜/n。/un”这个菜名在入句前后的标记结果未见差异,而实际上,这个菜名在进入句子后,应视作一个名词性成分。又如“粉丝/n 烩/v 鸡/n”这个菜名进入句子后的分词结果为“他/r 宠爱/v 粉丝/n 烩/v 鸡/n”,切分结果并不能很好地表达句子层次及语义内容,给机器翻译带来困难。 三“五彩/n虾/n松/v”“五彩/n珍宝/ns扣/v”等被切分为“名词+动词”切分这类菜名时,分词系统存在明显的缺陷,对单个菜名的切分已经产生严峻失误。四分
17、词结果为一个分词单位的那局部菜名中也存在问题。“梅开二度”“吉利如意”等以固定词组为菜名,这些词组作为菜名使用时的意义与其原本的意义并不一样。假设不能区分它们在句中消灭时是使用原义还是菜名,就会给整体句意的理解带来影响。包含了可兼为食材名和姓氏的成分的菜名,例如“姜”“汤”“黄”等往往被判定为人名,如“姜鸡/nr”“汤酱/nr 草头/n”“荷包/n 黄翅鱼/nr”等。这样的分词结果明显不符合菜名的本义。遇到一些较为生僻的烹饪方法用字或是食材用字时,分词系统也产生切分失误。例如“鸡汤/n 汆/海/n 蚌/n”“大葱/n 焖/羊肉/n”“/豆腐/n 蛎/”等。五、分词系统可能进展的一些改进依据PH
18、P 简易中文分词系统对600 个闽菜名的分词结果,本文认为该系统可能通过一些改进,提高对菜名的识别和切分力量,以提高分词效率。汶主编计算语言学概论一书中指出解决未登录词识别问题的策略主要有三种:一是尽可能多地收入词汇,以降低遇到未登录词的时机;二是通过构词规章和上下文特征规章来识别;三是通过统计的方法来猜测经过一般的分词过程后剩下的“连续单字词碎片” 是人名、地名等的可能性,从而识别出未登录词。有关未登录词的识别问题,目前些工作涉及到中国人名的识别外国译名的识别中国地名的识别及机构名的识别,提出了基于模式匹配的中文专知名词识别、基于统计的中文专知名词识别等不同方式。菜名的识别,可以借鉴这些专知
19、名词识别争辩工作上已经取得的成果。另有一些识别未登录词的解决方案可供参考。陈小荷2022指出,在识别未登录词时,现有两种解决方案:个别解决方案和一揽子解决方案。其中,个别解决方案主要针对专名未登录词,有建立专名资料库、利用上下文启发信息等方法。一揽子解决方案则包括有穷多层列举法、语料库统计、局部统计、结合词性标注等方法。除此之外,他还提出了自己的一揽子解决方案:先用最或许率法进展第一趟分词,识别已登录的多字词;再运用概率计算的方法在“分词碎片”中查找未登录词。参考在未登录词识别争辩上已有的成果本文认为分词系统在识别菜名时可实行不同方式以相互补充协作以下是可承受的方法:1.适当扩大词表利用语料库人工筛选相结合的方法选取一局部相对稳定常用的菜名将其收入到词表中。2.分析菜名构词规章上的特点,归纳总结菜名构词规律,提高分词系统对菜名的识别力量。3.利用语料库,考察与菜名相匹配的前后成分的状况,分析其上下文特征,为识别菜名供给帮助。4.对于未收录到词表中的,依据其自身
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年武汉东湖高新技术开发区技术开发合同
- 2024年度挖机设备租赁合同3篇
- 2024年度腻子行业供应链管理服务合同2篇
- 2024年标准服务采购协议
- 2024年度学校校园标识系统设计与实施合同2篇
- 2024年度餐饮服务业劳务输出与用工合同规范文本3篇
- 2024年度光伏农业应用项目合作合同3篇
- 2024年度林地光纤铺设租用合同3篇
- 2024年企业实习生培训与就业服务合同3篇
- 2024年版权许可协议:游戏软件知识产权授权
- NGS与感染性疾病医学课件
- 2024版《大学生职业生涯规划与就业指导》 课程教案
- 人民日报出版社有限责任公司招聘笔试题库2024
- 2024年煤矿事故汇编
- Unit 7单元教案 2024-2025学年人教版(2024)七年级英语上册
- Unit 6 My sweet home(教学设计)-2024-2025学年外研版(三起)(2024)小学英语三年级上册
- 北师大版教案正比例函数案例分析
- 行政文秘笔试题
- 人教版(2024)七年级地理上册跨学科主题学习《探索外来食料作物传播史》精美课件
- 2024-2025学年七年级数学上册第一学期 期末模拟测试卷(湘教版)
- 职业素质养成(吉林交通职业技术学院)智慧树知到答案2024年吉林交通职业技术学院
评论
0/150
提交评论