版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2.2实战案例——中文分词工具包jieba的使用2.2.1案例目标2.2.1案例目标2.2掌握jieba工具包的基本使用方法。掌握jibea分词的分词模式及对应函数的写法。2.2.2案例分析2.2掌握jieba工具包的基本使用方法。掌握jibea分词的分词模式及对应函数的写法。2.2.2案例分析近年来,随着NLP技术的日益成熟,开源的分词工具越来越多。在本单元中,选用jiebe工具包来进行介绍和案例展示。jiebe工具包的优点在于:社区活跃。在实际生产实践中遇到的问题能够在社区反馈并得到解决,适合长期使用。功能丰富。jiebe工具包是一个开源框架,不仅仅可以实现分词,还提供了很多其他算法,例如关键词提取、词性标注等。多种编程语言实现。jieba官方提供了多平台多语言支持,而且还提供了很多热门社区项目的扩展插件。在实际项目中,可以进行扩展。操作简单。jieba工具包的API不多,需要进行的配置简单,方便上手。2.2.2案例分析2.2jieba工具包的分词结合了基于规则和基于统计这两种方法。首先基于前缀词典构建包含全部可能分词结果的有向无环图,然后使用动态规划的方法找到最大概率路径,并将其作为最终的分词结果。对于未登录词,使用了基于汉字成词的HMM模型,采用了Viterbi算法进行推导。2.2.2案例分析2.22.2.1案例分析jieba工具包提供了三种分词模式:精确模式:将句子最精确地切开,适合文本分析。全模式:把句子中所有的可以成词的词语都扫描出来,速度非常快,但不能解决歧义。搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词,同时也支持自定义字典。2.22.2.3案例实施jieba工具包目前使用较为广泛的一种中文分词开源工具包中文名:“结巴”jieba的安装:pipinstalljieba导入模块:importjieba三种分词模式2.22.2.3案例实施(一)jieba工具包介绍jieba工具包的使用代码:
words=jieba.cut("国基北盛与浙江大学联合举办了人工智能大赛")print(list(words))输出:
['国基','北盛','与','浙江大学','联合','举办','了','人工智能','大赛']精确模式(默认)精确模式:试图将句子最精确地切开,适合文本分析2.2.3案例实施(一)jieba工具包介绍2.22.2.3案例实施2.2jieba工具包的使用全模式代码:
words=jieba.cut("国基北盛与浙江大学联合举办了人工智能大赛",cut_all=True)
print(list(words))输出:
['国基','国基北盛','与','浙江','浙江大学','大学','学联','联合','联合举办','举办','了','人工','人工智能','智能','大赛']全模式:把句子中所有的可以成词的词语都扫描出来,速度非常快,但不能解决歧义(一)jieba工具包介绍2.2.3案例实施2.2jieba工具包的使用全模式代码:
words=jieba.cut("国基北盛与浙江大学联合举办了人工智能大赛",cut_all=True)
print(list(words))输出:
['国基','国基北盛','与','浙江','浙江大学','大学','学联','联合','联合举办','举办','了','人工','人工智能','智能','大赛']全模式:把句子中所有的可以成词的词语都扫描出来,速度非常快,但不能解决歧义(一)jieba工具包介绍2.2.3案例实施2.2jieba工具包的使用全模式代码:
words=jieba.cut("国基北盛与浙江大学联合举办了人工智能大赛",cut_all=True)
print(list(words))输出:
['国基','国基北盛','与','浙江','浙江大学','大学','学联','联合','联合举办','举办','了','人工','人工智能','智能','大赛']全模式:把句子中所有的可以成词的词语都扫描出来,速度非常快,但不能解决歧义(一)jieba工具包介绍2.2.3案例实施2.2jieba工具包的使用使用自定义词典进行分词(一)代码:
jieba.add_word("国基北盛")
jieba.add_word("联合举办") words=jieba.lcut("国基北盛与浙江大学联合举办了人工智能大赛")
print(words)
输出:
['国基北盛','与','浙江大学','联合举办','了','人工智能','大赛']jieba.add_word(w):向分词词典中添加新词w(一)jieba工具包介绍2.2.3案例实施2.2jieba工具包的使用使用自定义词典进行分词(二)代码:
jieba.load_userdict('jiebatxt.txt')
words=jieba.lcut("国基北盛与浙江大学联合举办了人工智能大赛")print(words)
输出:
['国基北盛','与','浙江大学','联合举办','了','人工智能','大赛']jieba.load_userdict('文件名'):加载自定义词典词典格式:词词频词性(后两个可以不写)(一)jieba工具包介绍2.2.3案例实施2.2jieba工具包的使用使用自定义词典进行分词(三)代码:
word1=jieba.lcut("国基北盛与浙江大学联合举办了人工智能大赛")jieba.del_word("人工智能")word2=jieba.lcut("国基北盛与浙江大学联合举办了人工智能大赛")
输出:
word1:['国基','北盛','与','浙江大学','联合
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年广州卫生职业技术学院单招职业适应性测试模拟试题及答案解析
- 2026年海口经济学院单招职业适应性测试模拟试题及答案解析
- 产科助产士技能培训课程
- 医院内部管理效率与优化策略
- 医学博物馆主任藏品管理
- 医学教育创新与实践经验
- 胶质瘤放化疗护理
- 2025黑龙江省水利水电集团有限公司竞争性选聘权属单位高级管理人员岗位1人考试参考题库及答案解析
- 2026福建南平市医疗类储备人才引进10人参考笔试题库及答案解析
- 2025浙江台州市温岭市第五人民医院招聘1人笔试备考题库及答案解析
- 炼焦机械与设备试题题库(300) 与答案
- 实施指南(2025)《DL-T 1034-2016 135MW级循环流化床锅炉运行导则》
- 员工培训法律法规知识课件
- 2025年全国《征兵入伍》应知应会知识试题与答案
- 2025AICon全球人工智能开发与应用大会-深圳站:具身智能技术在工程机械智能化中的应用实践
- 文旅景区2025年运营风险评估与安全风险防控方案分析
- 蜂蛰伤护理试题及答案
- 2025年陕西省专业技术人员继续教育公需课试题及答案
- 肾内科科室简介
- 消防清包工劳务合同范本
- 毕业设计(论文)-轿车盘式制动器设计
评论
0/150
提交评论