版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
13.4中文分词原理2【目录】什么是中文
分词查询处理分词技术分析应用举证分词技术概
述
12345为什么要分词英文Knowledgeispower单词之间有空格,很容易进行词语的匹配。中文的语义与字词的搭配相关后人又有人写:1、下雨天留客,天留,我不留。2、下雨天留客,天留我不留。3、下雨天,留客,天留,我不留。4、下雨天,留客,天留我,不留。5、下雨天留客,天留我不?留!6、下雨天,留客天,留我不留?7、下雨天,留客天,留我?不留!8、下雨天留客,天!留我不?留!9、下雨天,留客!天!留我不留?唐朝时,一个穷人到他朋友家去玩,这个穷人非常的聪明。又一天,下起了雨,这个朋友想让他快点回去,不好意思说,于是,写了一封信,但没加标点。这个朋友的意思是:下雨天留客,天留人不留。没想到,这位聪明的穷人在信中夹了标点,意思全变了:下雨天,留客天,留人不?留。6什么是中文分词中文分词定义上海/武警/总队/医院/地址分词就是将一句话切分成一个个单词的过程.分词的目的是更加有效、准确的关键词索引。中文分词概述什么是分词?比如句子“内塔尼亚胡说的确实在理”基于关键词的口碑分析客户:某知名全国连锁餐饮品牌需求:自身及竞争对手在互联网上的口碑变化2023/2/62023/2/611Part2【接受用户查询后做了哪些事情】『查询处理』
13查询处理小于等于3个字符串皮肤病用户查询方式皮肤病14查询处理用户查询方式小于等于3个中文汉字,将直接调取数据库中索引的词汇注15查询处理用户提交了不止一个查询串多于3个字串符上海皮肤病医院用户查询方式上海/皮肤病/医院上海皮肤病/医院上海/皮肤病医院上海皮肤病医院17查询处理提交的中文查询包含英文单词用户查询方式Iphone手机Iphone/手机Iphone手机18查询处理用户查询方式当提交的中文查询包含英文单词时,查询结果会将英文单词优先完整展现,即使查询的单词不存在,也会当做一个字符处理,不会进行拆分注中文分词概述(Cont.)分词难点歧义无处不在交叉歧义(多种切分交织在一起)内塔内亚胡说的/确实/在理组合歧义(不同情况下切分不同)这个人/手上有痣我们公司人手真歧义(几种切分都可以)乒乓球拍/卖/完了乒乓球/拍卖/完了中文分词概述(Cont.)分词难点普通词与新词互用高明表演真好(演员)/他的表演很高明汪洋到深圳检查工作/洞庭湖一片汪洋普通词与新词交织在一起克林顿对内塔尼亚胡说胡锦涛听取龚学平等同志的汇报中文分词概述(Cont.)分词难点(需要重新处理)需求多种多样切分速度:搜索引擎VS单机版语音合成结果呈现:切分粒度要求不同:机器翻译VS搜索引擎分词重点要求不同:语音合成VS搜索引擎唯一结果VS多结果:语音合成VS搜索引擎新词敏感度不同:语音合成VS搜索引擎处理对象:书面文本(规范/非规范)VS口语文本硬件平台:嵌入式VS单机版VS服务器版23Part3【都有哪些分词技术】『分词技术概述』
25Part3基于字典的分词方法按照一定的策略将待分析的汉字串与一个充分大的词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功概念26Part3基于字典的分词方法第一页最后一页29反向最大匹配法中医治白癜风中/医治/白癜风基于字典的分词方法反向最大匹配法30最短路径分词法中医治白癜风中医/治白癜风基于字典的分词方法最短路径分词法31基于字典的分词方法常用方法采用最短路径分词方法,因词典中没有“治白癜风”这个词组,所以从用户体验考虑,调取了字典中意思相近、用户搜索量大的词“治疗白癜风”、“治愈白癜风”注32基于统计的分词方法相邻的字同时出现的次数越多,就越有可能构成一个词优点用于系统自动识别新词缺点对常用词的识别精度差例如:你的、我的、许多的、最好的、之一常用方法统计分词生成式统计分词判别式统计分词生成式分词原理首先建立学习样本的生成模型,再利用模型对预测结果进行间接推理两个假设前提马尔可夫假设当前状态出现的概率仅同过去有限的历史状态有关,而与其他状态无关。具体到分词任务,就是文本中第i个词出现的概率仅仅依赖于它前面的i-1个词,而与其他词无关。输出独立性假设当前状态的输出仅仅取决于当前状态本身,而与其他状态无关。生成式分词(Cont.)学习素材句子切分结果分词知识库产生式学习算法产生式切分算法分词词典生成式分词(Cont.)分词过程实例第一步:全切分生成式分词(Cont.)第二步:Viterbi动态规划,找到贯穿句子的路径并计算每条路径的概率P1=P(说|他)*P(的|说)*P(确实|的)*P(在理|确实)*P($End|在理)P2=P(说|他)*P(的确|说)*P(实在|的确)*P(理|实在)*P($End|理)第三步:选择概率最大的路径为切分结果生成式分词(Cont.)优点在训练语料规模足够大和覆盖领域足够多的情况下,可以获得较高的切分正确率(>=95%)不足需要很大的训练语料新词识别能力弱解码速度相对较慢统计分词生成式统计分词判别式统计分词判别式分词原理在有限样本条件下建立对于预测结果的判别函数,直接对预测结果进行判别,建模无需任何假设。由字构词的分词理念,将分词问题转化为判别式分类问题典型算法Maxent SVM CRF Perceptron优势能充分利用各种来源的知识需要较少的训练语料解码速度更快新词识别性能好判别式分词(Cont.)由字构词把分词问题转化为确定句中每个字在词中位置问题每个字在词中可能的位置可以分为以下三种词首B(日本占领了东三省)词中M(游泳比赛菲尔普斯独占鳌头)词尾E(中国队抢占了风头)分词结果形式化分词结果:毛/B新/M年/E2/B0/M0/M0/M年/E毕/B业/E/于/B东/B北/M大/M学/E还原:毛新年/2000年/毕业/于/东北大学判别式分词(Cont.)学习素材句子切分结果分词知识库判别式学习算法判别式学习算法判别式分词(Cont.)特征所涉及的语言学知识列表字的上下文知识形态词知识:处理重叠词、离合词、前后缀仿词知识:2000年成语/惯用语知识普通词词典知识歧义知识新词知识/用户词典新词的全局化知识判别式分词(Cont.)优点理论基础扎实解码速度快分词精度高新词识别能力强所需学习素材少弱点训练速度慢需要高配置的机器训练我们即将以昂扬的斗志迎来新的一年。2023/2/6依存句法分析标注关系(共15种)及含义2023/2/6在家禽摊位中,有一个摊位专卖乌骨鸡。2023/2/649概念尚不成熟,试验阶段通过让计算机模拟人对句子的理解,达到识别词的效果基于理解的分词方法常用方法50Part4【实例举证】『分词技术分析』
51分词技术分析百度匹配结果:皮肤/医院52分词技术分析正向最大匹配:解小东/北京/华/烟云反向最大匹配:解/小/东北/京华烟云百度实际匹配结果:解小东/北/京华烟云解小东/北京53分词技术分析正向最大匹配:相同/仁/医院/墙正向最大匹配:反向最大匹配:相/同仁/医/院墙百度实际匹配结果:相/同仁医院/墙54结论分词技术分析百度分词采取了至少两个词典,一个是普通词典,一个是专用词典(人名、书名、地名、影视剧名等)。而且是专用词典先切分,然后将剩余的片断交由普通词典来切分。古巴比伦常正向最大匹配:古巴比伦/常反向最大匹配:古巴/比/伦常百度输出结果:古巴比伦/常如果正向和反向结果不一致百度采取最短路径方法55分词技术分析首先查询专用词典(人名,部分地名等),将专有名称切出,剩下的部分采取双向分词策略,如果两者切分结果相同,说明没有歧义,直接输出分词结果。如果不一致,则输出最短路径的那个结果,如果最短路径长度相同,则选择单字词少的那一组切分结果。如果单字也相同,则选择正向分词结果56分词技术分析用专用词典切出专有名词剩下部分进行双向分词如果单字也相同取正向匹配结果如果最短路径相同取单字词少的那一组切分结果如果不同,取最短路径结果如果相同,说明没有歧义输出结果57Part5【常见切词效果】『应用举证』
58应用举证【常见切词效果】白癜风
上海白癜风治疗中心
治疗白癜风最好的医院-上海武警总队医院A、白癜风B、上海白癜风C、上海白癜风治疗D、上海白癜风治疗中心E、治疗白癜风最好的医院F、上海治疗白癜风最好的医院G、上海白癜风治疗医院H、上海白癜风医院59上海皮肤病医院_长宁区白癜风_闵行牛皮癣_皮肤科医院武夷路_闸北保德路黄埔徐汇静安奉贤宝山嘉定杨浦虹口松江金山普陀浦东新区青浦区最好的皮肤病专科医院A、上海皮肤病医院B、上海皮肤科医院C、上海皮肤病医院武夷路D、上海皮肤病专科医院E、上海皮肤病医院保德路F、长宁区白癜风医院G、长宁区皮肤科医院H、………….应用举证【常见切词效果】60网页的Title长度根据关键词匹配的数量和热度而定,好比一个页面只做两三个竞争度强的词,那么Title就应该尽量控制在30字以内,因为关键词拆分得越多,就意味着需要匹配得越多,而匹配的越多,对排名值的贡献会减弱。而第二个例子中,之所以Title标题会高于70字,也是根据情况而定,因为70字中所匹配的关键词除了第一个出现的完全匹配的关键词“上海皮肤病医院”词以外,其他词相对而言竞争度都非常小,所以切词匹配后能排名的几率仍然非常高为什么要完全匹配?应用举证【常见切词效果】61网站首页Title根据网站定位可以参考此类写法,但文章内页一般一篇文章只做1-2个长尾词,所以切不可将标题写的和例2中一样太过于冗长而影响用户体验,同时网站内页也没有如此高的权重能带起那么多长尾词的排名。文章内页Title一般一句话能匹配出2个长尾词就足够了,常见的是一句话匹配一个词注:应用举证【常见切词效果】62注:脸上长白斑怎么办小腿有白点搜索词:应用举证【常见切词效果】63标题中的关键词不一定非得完全匹配,但关键词汇一定要在标题中有关联的出现应用举证64完全匹配包含主要关键词“皮肤”、“过敏”的相关匹配同样能展现应用举证65主要关键词要放在标题和描述的最前面,关键词越靠前切词时获得的权重越高,排名越好应用举证66通过梯形图很容易看出,关键词出现位置越靠前排名越好应用举证67关键词出现的频率同样是排名的关键,关键词出现密度高的网页将会获得好的排名应用举证68A网站比B网站关键词出现密度显然要高,所以略占优势完全匹配AB提示:如果是在完全匹配的情况下,关键词密度应该要严格控制。标题中关键词精确匹配一次,短语匹配一次为佳,描述中关键词精确匹配和短语匹配可以和标题一样穿插使用出现1-3次。如果完全匹配的关键词如果放到标题或内容的最后面,其排名未必见得会高于那些短语匹配出现密度高的关键词的排名应用举证69总结为什么用户搜索一个词,搜索引擎会罗列出和他相关的结果?因为用户搜索的词或是词中某个字符串和搜索引擎词典中的某个字符串匹配成功,那么包含这些字符串的网页将会被罗列出来基于字典的分词方法为什么用户搜索一个词,搜索引擎会罗列出和他相关的结果?为什么用户搜索一个词,搜索引擎会罗列出和他相关的结果??70总结为什么一再强调文章的标题要和文章主旨相符?除用户体验外因素外,另一个因素是因为通过搜索引擎对标题以及内容的了解,在标题语义和句法的分析上能够更准确,从而避免分词时增加歧义错误率的发生基于词义的分词方法71总结为什么一再强调文章中关键词的出现密度?能加强搜索引擎对新词的识别能力,更好的识别文章中的主要关键词是什么,同时也降低了将主要关键词进行错误切词的概率基于统计的分词方法内容提要分词概述分词技术发展国际分词评测分词技术总结分词系统ICTCLAS这可是最早的中文开源分词项目之一,ICTCLAS在国内973专家组组织的评测中活动获得了第一名,在第一届国际中文处理研究机构SigHan组织的评测中都获得了多项第一名。ICTCLAS3.0分词速度单机996KB/s,分词精度98.45%,API不超过200KB,各种词典数据压缩后不到3M.ICTCLAS全部采用C/C++编写,支持Linux、FreeBSD及Windows系列操作系统,支持C/C++、C#、Delphi、Java等主流的开发语言。分词系统CC-CEDICT一个中文词典开源项目,提供一份以汉语拼音为中文辅助的汉英辞典,其词典可以用于中文分词使用,而且不存在版权问题。Chrome中文版就是使用的这个词典进行中文分词的。
IK
IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。
Paoding
Paoding(庖丁解牛分词)基于Java的开源中文分词组件,提供lucene和solr接口,具有极高效率和高扩展性。引入隐喻,采用完全的面向对象设计,构思先进。高效率:在PIII1G内存个人机器上,1秒可准确分词100万汉字。采用基于不限制个数的词典文件对文章进行有效切分,使能够将对词汇分类定义。能够对未知的词汇进行合理解析。仅支持Java语言。分词系统MMSEG4J
MMSEG4J基于Java的开源中文分词组件,提供lucene和solr接口:
1.mmseg4j
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024丁方物业管理与维护合同
- 雇佣合同案例宝库
- 住宿管理承包合同范本
- 2024建设工程设计合同(专业建设工程设计合同)新版
- 旧物品买卖合同格式
- 化妆品店转让合同样本
- 2024年采购管理程序
- 建材加盟合同范本大全
- 全面合伙合同模板集合
- 就业协议书填写指南与示例
- 2024-2025学年浙教版八年级上册科学期中模拟卷
- (正式版)HGT 6313-2024 化工园区智慧化评价导则
- 智能制造工程生涯发展报告
- 二级公立医院绩效考核三级手术目录(2020版)
- 《个人防护用品PPE》ppt课件
- 国际贸易SimTrade外贸实习报告
- 导师带徒实施办法6、30
- 《Fishing with Grandpa》RAZ分级阅读绘本pdf资源
- 水稳施工方案(完整版)
- 跨海大桥施工方案
- MATLAB语言课程论文 基于MATLAB的电磁场数值图像分析
评论
0/150
提交评论