搜索引擎应用中文分词算法的难点和策略,搜索引擎论文_第1页
搜索引擎应用中文分词算法的难点和策略,搜索引擎论文_第2页
搜索引擎应用中文分词算法的难点和策略,搜索引擎论文_第3页
搜索引擎应用中文分词算法的难点和策略,搜索引擎论文_第4页
搜索引擎应用中文分词算法的难点和策略,搜索引擎论文_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

搜索引擎应用中文分词算法的难点和策略,搜索引擎论文摘要:中文分词算法在搜索引擎应用中有着广泛的应用空间,且能够增加信息检索的准确性,故而值得予以推广。在这里之上,本文扼要分析了中文分词算法的作用与中文分词算法在搜索引擎中的难点,并分别从基于字符串匹配分词、基于N元语法分词、基于搜索统计技术等方面,阐述了中文分词算法在搜索引擎应用中的运用策略,以此提高群众对中文分词算法的认知水平。本文关键词语:中文分词算法;搜索引擎;字符串;中文分词算法是通过将中文重划为词序列的形式,以此展现文本含义。若将其运用于搜索引擎应用中,可进一步增加搜索结果的准确性与搜索速度,进而知足群众对信息的迫切需求。同时,还需结合中文分词算法的不同类别为其创造合适的运用条件,以便在搜索引擎应用中发挥出重大效用,便于快速精准的查找本文关键词语,并给出可靠的搜索结果,最终促使中文资源实现最大化利用。1、中文分词算法的作用在大数据时代,网络信息的丰富性造成群众在信息挑选中极易遭到一定阻力。而中文分词算法作为一种分词技术,它能够快速帮助用户查找到关键信息,以便在搜索时间上起到促进作用。好比在百度网站中,它的搜索引擎模块中可借助中文分词算法依靠词汇的形式予以搜索,进而增加信息检索准确性与时效性。华而不实详细指的中文分词是以词汇重新切分的方式为计算机搜索引擎提供可用信息,以便快速给出有效数据。相比英文分词形式中的空格分词,中文分词仅在段落、语句中适用,并在搜索引擎无法准确辨别词汇含义时,依靠中文分词算法将其转化为词序列,由此确保词序列在后期能够经过科学分析匹配合适的信息,最终为群众带来有用信息,准确完成信息检索任务。2、中文分词算法在搜索引擎应用中的难点中文分词算法在实际应用环节,还存在一些待突破的难点,由此造成中文分词算法无法在搜索引擎应用中展现出最优化特征。通常情况下,结合中文分词算法的详细作用可将其难点归纳为下述三点:其一,高精度与高速度。由于现今数据量较为庞大,如若在搜索引擎应用中没有能准确辨别词义,并给出错误或准确性较低的信息,很容易影响用户的搜索体验。因而,在研究中文分词算法时需要进一步提升其精度与速度,使其能够在分词上展现出显着优势,以此知足大数据时代的信息检索需求。从当下实际研发结果来看,中文分词技术在其发展阶段仍然获得了些许成就,但随着词汇句意的多样性,在分词速度与准确度上仍有待提高,进而借助中文分词算法增加搜索引擎应用的实用性,使其为更多用户提供优质信息检索服务,最终确保每一次搜索都能获得理想化结果。其二,歧义词义,日常群众沟通时,也会因词义出现歧义现象而影响表示出效果。而在搜索引擎应用中也会受歧义词义的干扰降低搜索精度,造成检索后的结果与最初要求不匹配。因而,在研究中文分词算法时最为重要的是还应当采取有效措施适当杜绝歧义问题。华而不实歧义是指计算机设备中的搜索引擎无法准确词义。一般而言,歧义可包含穿插歧义与组合歧义两种类型。华而不实前者相比之下易于处理。好比在他可爱吃蛋糕了中,可将可爱作为一个组合词予以搜索,造成检索结果与句意不符,而在搜索时,用户的检索要求是根据他-可-爱-吃蛋糕的分词形式进行搜索。由于计算机搜索引擎未具备人体思维,故而只能利用词汇的联合性加以切分。后者是在词句中出现名词、动词错误认知等现象引起词义,好比在她把手弄坏了中,把实则为动词,然而在详细分词时,由于把手又可当成名词,故而在检索时会根据名词的形式进行查找,最终降低检索准确性。其三,新词辨别,随着很多新词的出现,如键盘侠导姐等,造成计算机在语义辨别时对尚未登录在搜索引擎词典中的词汇出现错误辨别现象,尤其是很多网络热词、新增人名、地名的出现,若没有能及时更新词典,也会引起搜索错误。同时,在词汇判定时也会产生操作难度[1]。好比在杨虎诚心诚意卖菜中,对于杨虎诚能否可将其当成人名进行搜索,这些都对搜索引擎带来难度。尤其在新词增速不断提高的情况下,针对新词辨别准确度的判定是搜索引擎应用效果的关键评价要素。因而,在搜索引擎应用中运用中文分词算法时应结合详细难点提出可行性整改建议,以此扩大搜索引擎的应用范围,促使中文分词算法展现出真正优势。3、中文分词算法在搜索引擎应用中的运用策略3.1、基于字符串匹配分词在搜索引擎应用中运用中文分词算法时,华而不实最为重要的方式是基于字符串匹配分词,进而根据字符串的匹配程度提取本文关键词语,进而搜索有效信息。华而不实字符串匹配分词是通过与词库中存储的数据进行比照,之后秉承着一定匹配原则给出辨别结果,并将其作为搜索引擎的检索根据查找相关信息。固然此种方式方法操作简单,但其准确度与识别歧义语义的能力有限。为了进一步强化字符串匹配分词方式方法的实用性,还可在华而不实增添一些匹配标准,以便增加字符串匹配的准确性,也能促使搜索引擎具有较为广泛的应用空间。常见的改良方式方法包括最长匹配最小匹配逆向匹配正向匹配双向匹配等。本文主要以后三种匹配形式加以讨论。华而不实逆向匹配与最长匹配有着类似之处,即提取词句最长连词,且处理方向由句尾出发,将其转化为有效字符串予以匹配,此种方式照比其他字符串匹配方式方法准确性更高层次一些。而正向匹配是从句头进行匹配,先行将其拆解为多个汉字串,并结合词库中的分词标准将语句进行断句处理,若存在匹配词汇可将其提取出来用于计算机信息辨别渠道,若不存在匹配词汇,则将其剔除出去,将剩余汉字串进行逻辑整合,以此作为检索根据查找信息。双向匹配属于一种联合匹配形式,它能有效消除歧义语义影响,增加字符串匹配结果的准确性。因而,应尽量推广双向匹配算法作为搜索引擎分词根据[2]。除此之外,在借助基于字符串分词阶段,为了避免歧义的出现还可采用下述方式方法对搜索引擎应用中可能存在的歧义进行处理,确保过滤后的词义与用户搜索目的相一致。比方在人民的生活水平提高中,总体上具有下述多种匹配形式:人民的-生活水平-提高、人民-的-生活-水平-提高等,在分词时可借助计算平均词长的方式确定匹配结果。平均词长详细以词组总字数与总词汇量的商值作为根据。比方在人民的-生活水平-提高中,其平均词长为9/3,而人民-的-生活-水平-提高为9/5,以最大值为分词结果,进而将其纳入搜索引擎系统中查找相关信息。固然从上述内容中发现此种算法确实有着一定优势,但对于新词的辨别率仍有待改良,并且还需要其他分词算法予以辅助,最终可增加中文分词算法的实用性,使其在搜索引擎应用中展现价值。3.2、基于N元语法分词在搜索引擎应用中运用中文分词算法时,还可采用基于N元语法的分词形式实现中文字符的有效划分。它主要以一种模型思维,对检索词汇进行延展,进而在搜索引擎中实现精准辨别。在这里种方式方法下,同与上述分词算法同样具有词典,并根据一定的匹配原则对搜索词汇进行匹配,并设计N元分词图,之后借助动态设计的理念针对中文词汇进行分解,其整个分词流程如〔图1〕所示。同时,还可依靠二元模型的形式,对词句中牵涉的分子进行整合处理,然后得出可靠的本文关键词语,将其用于计算机系统辨别。从多种中文分词算法切分准确率结果中可发现,在不同领域中,其准确率不一致,如〔表1〕所示,N元语法统计在各个学科信息检索中普遍具有较高的准确率,故而值得在中文搜索引擎中予以推广,促使中文分词算法发挥出真正的分词效用,避免歧义的产生。除此之外,还可利用一元语法针对中文词汇进行切分,为了确保此种分词方式方法适用于搜索引擎应用经过中,还应适当重调最短途径与N元语法分词图中的节点数值,以便在合适的节点中合理确定候选词汇,以便在分词期间增加词汇统计的准确度。从以往研究经历体验中,还可采用词性标注法对语句中固有词性进行标注,包括上文中提到的把手中把为动词,在标注过词性后,也能提高搜索引擎中关于中文信息检索的可靠性[3]。表1各种分词算法的切分准确率图1基于N元语法分词算法的图解3.3、基于搜索统计技术1〕频率统计中文分词算法是指将语句中的词汇切分出来,进而将其转化为本文关键词语用于搜索引擎中,进而获取有效信息。华而不实基于搜索统计技术实现中文分词,是以无词库形式针对中文语句进行词汇划分。由于中文句意较为丰富,故而在统计词汇时,还可运用词汇出现频率作为划分基准。所谓词汇频率是指字与字之间结合次数,在其频率越高时,则代表词汇结合的可能性更大。比方在对中国人中国心等词汇进行划分时,若此词汇出如今语句中,可根据它的出现频率判定能否将其作为关联词汇用于信息检索中。相比之下,运用频率统计的形式实现中文分词可适当提高词汇检索的速度与准确率。好比在中国万岁中,由于与中华人民出现频率略高,可将其作为初次检索目的用于搜索引擎中,之后再对共和国万岁词汇的常规频率进行确定,以便在频率统计经过中有针对性地为搜索引擎提供重要检索根据[4]。2〕智能统计在搜索引擎应用中运用中文分词算法时,还可依靠智能技术施行智能统计,它是以一种模拟人体思维的方式实现中文句意的深层次理解。与以往分词方式方法相比更具智能化,并且可有效避免歧义问题。我们国家汉字文化博大精深,尤其在现代背景下,很多新词的出现造成搜索引擎在实践操作中面临着较大挑战,需随时根据信息变化予以更新。然而,此种智能统计的方式可对中文复杂性与综合性特征起到协调作用,以便在搜索引擎应用中为用户提供优质检索服务,使其快速从检索结果中找到相关信息。在人工智能技术日益发展阶段,智能统计已成为当下中文分词算法的主流发展趋势。但由于它需要以中文理解的视角开展中文分词工作。因而,无论从成熟度还是可操作性上都有待改良。比方在大哥大是团队领导者中,以往常出现的词汇为大哥,而对于大哥大词汇相比之下出现频率较少。对此,若能依靠智能统计形式,可结合句子的含义判定出大哥大属于单独的词汇,由此增加检索精度。4、结论综上所述,中文分词算法在搜索引擎应用中有着重要作用,故而应结合详细要求拓宽其运用渠道,以此为我们国家搜索引擎研究工作给予指引。同时,还应从基于字符串匹配分词、基于N元语法分词、基于搜索统计技术等方面着手,以便中文分词算法展现出显着优势,使其在提高搜索速度基础上增加信息检索准确性,以便群众在中文分词算法协助下快速获取信息。以下为参考文献[

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论