版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2.2实战案例——中文分词工具包jieba的使用2.2.1案例目标2.2.1案例目标2.2掌握jieba工具包的基本使用方法。掌握jibea分词的分词模式及对应函数的写法。2.2.2案例分析2.2掌握jieba工具包的基本使用方法。掌握jibea分词的分词模式及对应函数的写法。2.2.2案例分析近年来,随着NLP技术的日益成熟,开源的分词工具越来越多。在本单元中,选用jiebe工具包来进行介绍和案例展示。jiebe工具包的优点在于:社区活跃。在实际生产实践中遇到的问题能够在社区反馈并得到解决,适合长期使用。功能丰富。jiebe工具包是一个开源框架,不仅仅可以实现分词,还提供了很多其他算法,例如关键词提取、词性标注等。多种编程语言实现。jieba官方提供了多平台多语言支持,而且还提供了很多热门社区项目的扩展插件。在实际项目中,可以进行扩展。操作简单。jieba工具包的API不多,需要进行的配置简单,方便上手。2.2.2案例分析2.2jieba工具包的分词结合了基于规则和基于统计这两种方法。首先基于前缀词典构建包含全部可能分词结果的有向无环图,然后使用动态规划的方法找到最大概率路径,并将其作为最终的分词结果。对于未登录词,使用了基于汉字成词的HMM模型,采用了Viterbi算法进行推导。2.2.2案例分析2.22.2.1案例分析jieba工具包提供了三种分词模式:精确模式:将句子最精确地切开,适合文本分析。全模式:把句子中所有的可以成词的词语都扫描出来,速度非常快,但不能解决歧义。搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词,同时也支持自定义字典。2.22.2.3案例实施jieba工具包目前使用较为广泛的一种中文分词开源工具包中文名:“结巴”jieba的安装:pipinstalljieba导入模块:importjieba三种分词模式2.22.2.3案例实施(一)jieba工具包介绍jieba工具包的使用代码:
words=jieba.cut("国基北盛与浙江大学联合举办了人工智能大赛")print(list(words))输出:
['国基','北盛','与','浙江大学','联合','举办','了','人工智能','大赛']精确模式(默认)精确模式:试图将句子最精确地切开,适合文本分析2.2.3案例实施(一)jieba工具包介绍2.22.2.3案例实施2.2jieba工具包的使用全模式代码:
words=jieba.cut("国基北盛与浙江大学联合举办了人工智能大赛",cut_all=True)
print(list(words))输出:
['国基','国基北盛','与','浙江','浙江大学','大学','学联','联合','联合举办','举办','了','人工','人工智能','智能','大赛']全模式:把句子中所有的可以成词的词语都扫描出来,速度非常快,但不能解决歧义(一)jieba工具包介绍2.2.3案例实施2.2jieba工具包的使用全模式代码:
words=jieba.cut("国基北盛与浙江大学联合举办了人工智能大赛",cut_all=True)
print(list(words))输出:
['国基','国基北盛','与','浙江','浙江大学','大学','学联','联合','联合举办','举办','了','人工','人工智能','智能','大赛']全模式:把句子中所有的可以成词的词语都扫描出来,速度非常快,但不能解决歧义(一)jieba工具包介绍2.2.3案例实施2.2jieba工具包的使用全模式代码:
words=jieba.cut("国基北盛与浙江大学联合举办了人工智能大赛",cut_all=True)
print(list(words))输出:
['国基','国基北盛','与','浙江','浙江大学','大学','学联','联合','联合举办','举办','了','人工','人工智能','智能','大赛']全模式:把句子中所有的可以成词的词语都扫描出来,速度非常快,但不能解决歧义(一)jieba工具包介绍2.2.3案例实施2.2jieba工具包的使用使用自定义词典进行分词(一)代码:
jieba.add_word("国基北盛")
jieba.add_word("联合举办") words=jieba.lcut("国基北盛与浙江大学联合举办了人工智能大赛")
print(words)
输出:
['国基北盛','与','浙江大学','联合举办','了','人工智能','大赛']jieba.add_word(w):向分词词典中添加新词w(一)jieba工具包介绍2.2.3案例实施2.2jieba工具包的使用使用自定义词典进行分词(二)代码:
jieba.load_userdict('jiebatxt.txt')
words=jieba.lcut("国基北盛与浙江大学联合举办了人工智能大赛")print(words)
输出:
['国基北盛','与','浙江大学','联合举办','了','人工智能','大赛']jieba.load_userdict('文件名'):加载自定义词典词典格式:词词频词性(后两个可以不写)(一)jieba工具包介绍2.2.3案例实施2.2jieba工具包的使用使用自定义词典进行分词(三)代码:
word1=jieba.lcut("国基北盛与浙江大学联合举办了人工智能大赛")jieba.del_word("人工智能")word2=jieba.lcut("国基北盛与浙江大学联合举办了人工智能大赛")
输出:
word1:['国基','北盛','与','浙江大学','联合
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 武汉民政职业学院《电工技术与电气控制》2023-2024学年第一学期期末试卷
- 个性化高端导购服务2024协议
- 2024版在线教育平台合作协议3篇
- 2024版反担保协议二
- 二零二五版临时用工岗位合同范本6篇
- 二零二五年度金融科技股票投资委托合同模板3篇
- 二零二五年度食品饮料个人物资采购合同参考文本6篇
- 四川职业技术学院《税收理论与实务》2023-2024学年第一学期期末试卷
- 二零二五版城市改造房屋拆迁挂靠管理合同3篇
- 2024美团商家入驻平台数据共享及隐私保护协议3篇
- 公务员考试工信部面试真题及解析
- GB/T 15593-2020输血(液)器具用聚氯乙烯塑料
- 2023年上海英语高考卷及答案完整版
- 西北农林科技大学高等数学期末考试试卷(含答案)
- 金红叶纸业简介-2 -纸品及产品知识
- 《连锁经营管理》课程教学大纲
- 《毕淑敏文集》电子书
- 颈椎JOA评分 表格
- 员工岗位能力评价标准
- 定量分析方法-课件
- 朱曦编著设计形态知识点
评论
0/150
提交评论