版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2.2实战案例——中文分词工具包jieba的使用2.2.1案例目标2.2.1案例目标2.2掌握jieba工具包的基本使用方法。掌握jibea分词的分词模式及对应函数的写法。2.2.2案例分析2.2掌握jieba工具包的基本使用方法。掌握jibea分词的分词模式及对应函数的写法。2.2.2案例分析近年来,随着NLP技术的日益成熟,开源的分词工具越来越多。在本单元中,选用jiebe工具包来进行介绍和案例展示。jiebe工具包的优点在于:社区活跃。在实际生产实践中遇到的问题能够在社区反馈并得到解决,适合长期使用。功能丰富。jiebe工具包是一个开源框架,不仅仅可以实现分词,还提供了很多其他算法,例如关键词提取、词性标注等。多种编程语言实现。jieba官方提供了多平台多语言支持,而且还提供了很多热门社区项目的扩展插件。在实际项目中,可以进行扩展。操作简单。jieba工具包的API不多,需要进行的配置简单,方便上手。2.2.2案例分析2.2jieba工具包的分词结合了基于规则和基于统计这两种方法。首先基于前缀词典构建包含全部可能分词结果的有向无环图,然后使用动态规划的方法找到最大概率路径,并将其作为最终的分词结果。对于未登录词,使用了基于汉字成词的HMM模型,采用了Viterbi算法进行推导。2.2.2案例分析2.22.2.1案例分析jieba工具包提供了三种分词模式:精确模式:将句子最精确地切开,适合文本分析。全模式:把句子中所有的可以成词的词语都扫描出来,速度非常快,但不能解决歧义。搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词,同时也支持自定义字典。2.22.2.3案例实施jieba工具包目前使用较为广泛的一种中文分词开源工具包中文名:“结巴”jieba的安装:pipinstalljieba导入模块:importjieba三种分词模式2.22.2.3案例实施(一)jieba工具包介绍jieba工具包的使用代码:
words=jieba.cut("国基北盛与浙江大学联合举办了人工智能大赛")print(list(words))输出:
['国基','北盛','与','浙江大学','联合','举办','了','人工智能','大赛']精确模式(默认)精确模式:试图将句子最精确地切开,适合文本分析2.2.3案例实施(一)jieba工具包介绍2.22.2.3案例实施2.2jieba工具包的使用全模式代码:
words=jieba.cut("国基北盛与浙江大学联合举办了人工智能大赛",cut_all=True)
print(list(words))输出:
['国基','国基北盛','与','浙江','浙江大学','大学','学联','联合','联合举办','举办','了','人工','人工智能','智能','大赛']全模式:把句子中所有的可以成词的词语都扫描出来,速度非常快,但不能解决歧义(一)jieba工具包介绍2.2.3案例实施2.2jieba工具包的使用全模式代码:
words=jieba.cut("国基北盛与浙江大学联合举办了人工智能大赛",cut_all=True)
print(list(words))输出:
['国基','国基北盛','与','浙江','浙江大学','大学','学联','联合','联合举办','举办','了','人工','人工智能','智能','大赛']全模式:把句子中所有的可以成词的词语都扫描出来,速度非常快,但不能解决歧义(一)jieba工具包介绍2.2.3案例实施2.2jieba工具包的使用全模式代码:
words=jieba.cut("国基北盛与浙江大学联合举办了人工智能大赛",cut_all=True)
print(list(words))输出:
['国基','国基北盛','与','浙江','浙江大学','大学','学联','联合','联合举办','举办','了','人工','人工智能','智能','大赛']全模式:把句子中所有的可以成词的词语都扫描出来,速度非常快,但不能解决歧义(一)jieba工具包介绍2.2.3案例实施2.2jieba工具包的使用使用自定义词典进行分词(一)代码:
jieba.add_word("国基北盛")
jieba.add_word("联合举办") words=jieba.lcut("国基北盛与浙江大学联合举办了人工智能大赛")
print(words)
输出:
['国基北盛','与','浙江大学','联合举办','了','人工智能','大赛']jieba.add_word(w):向分词词典中添加新词w(一)jieba工具包介绍2.2.3案例实施2.2jieba工具包的使用使用自定义词典进行分词(二)代码:
jieba.load_userdict('jiebatxt.txt')
words=jieba.lcut("国基北盛与浙江大学联合举办了人工智能大赛")print(words)
输出:
['国基北盛','与','浙江大学','联合举办','了','人工智能','大赛']jieba.load_userdict('文件名'):加载自定义词典词典格式:词词频词性(后两个可以不写)(一)jieba工具包介绍2.2.3案例实施2.2jieba工具包的使用使用自定义词典进行分词(三)代码:
word1=jieba.lcut("国基北盛与浙江大学联合举办了人工智能大赛")jieba.del_word("人工智能")word2=jieba.lcut("国基北盛与浙江大学联合举办了人工智能大赛")
输出:
word1:['国基','北盛','与','浙江大学','联合
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 法律伦理的跨文化适应性研究
- 2024ESSKA共识:首次髌骨脱位管理(第2部分)
- 金融合规性检测
- 数字化转型下的风险管理挑战
- 乙肝临床诊疗知识培训测试题
- 蔬菜种植技术指导与管理方案
- 民宿运营管理策略及案例分析
- 广东执信中学2026届生物高一上期末经典模拟试题含解析
- 2026届福建省仙游金石中学生物高二上期末预测试题含解析
- 安徽省肥东圣泉中学2026届高二数学第一学期期末质量检测试题含解析
- 2026年海南职业技术学院单招职业技能测试题库及参考答案详解1套
- 浙江省强基联盟2025-2026学年高三上学期二模英语试题(解析版)
- 2026春译林版新版八年级下册英语单词默写表
- 2025至2030中国网球行业市场发展分析与发展趋势及投资风险报告
- 袜业生产质量管理工作规范
- 安全生产三管三必须培训课件
- 2025秋人教版(新教材)小学信息科技五年级全一册(上册)期末测试卷附答案(三套)
- 鼓号队小镲训练
- DB-T29-317-2024 雪道施工技术规程
- GB/T 9870.3-2025硫化橡胶或热塑性橡胶动态性能的测定第3部分:玻璃化转变温度(Tg)
- 【MOOC】《刑法学总论以案说法》(暨南大学)期末考试慕课答案
评论
0/150
提交评论