




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2.2实战案例——中文分词工具包jieba的使用2.2.1案例目标2.2.1案例目标2.2掌握jieba工具包的基本使用方法。掌握jibea分词的分词模式及对应函数的写法。2.2.2案例分析2.2掌握jieba工具包的基本使用方法。掌握jibea分词的分词模式及对应函数的写法。2.2.2案例分析近年来,随着NLP技术的日益成熟,开源的分词工具越来越多。在本单元中,选用jiebe工具包来进行介绍和案例展示。jiebe工具包的优点在于:社区活跃。在实际生产实践中遇到的问题能够在社区反馈并得到解决,适合长期使用。功能丰富。jiebe工具包是一个开源框架,不仅仅可以实现分词,还提供了很多其他算法,例如关键词提取、词性标注等。多种编程语言实现。jieba官方提供了多平台多语言支持,而且还提供了很多热门社区项目的扩展插件。在实际项目中,可以进行扩展。操作简单。jieba工具包的API不多,需要进行的配置简单,方便上手。2.2.2案例分析2.2jieba工具包的分词结合了基于规则和基于统计这两种方法。首先基于前缀词典构建包含全部可能分词结果的有向无环图,然后使用动态规划的方法找到最大概率路径,并将其作为最终的分词结果。对于未登录词,使用了基于汉字成词的HMM模型,采用了Viterbi算法进行推导。2.2.2案例分析2.22.2.1案例分析jieba工具包提供了三种分词模式:精确模式:将句子最精确地切开,适合文本分析。全模式:把句子中所有的可以成词的词语都扫描出来,速度非常快,但不能解决歧义。搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词,同时也支持自定义字典。2.22.2.3案例实施jieba工具包目前使用较为广泛的一种中文分词开源工具包中文名:“结巴”jieba的安装:pipinstalljieba导入模块:importjieba三种分词模式2.22.2.3案例实施(一)jieba工具包介绍jieba工具包的使用代码:
words=jieba.cut("国基北盛与浙江大学联合举办了人工智能大赛")print(list(words))输出:
['国基','北盛','与','浙江大学','联合','举办','了','人工智能','大赛']精确模式(默认)精确模式:试图将句子最精确地切开,适合文本分析2.2.3案例实施(一)jieba工具包介绍2.22.2.3案例实施2.2jieba工具包的使用全模式代码:
words=jieba.cut("国基北盛与浙江大学联合举办了人工智能大赛",cut_all=True)
print(list(words))输出:
['国基','国基北盛','与','浙江','浙江大学','大学','学联','联合','联合举办','举办','了','人工','人工智能','智能','大赛']全模式:把句子中所有的可以成词的词语都扫描出来,速度非常快,但不能解决歧义(一)jieba工具包介绍2.2.3案例实施2.2jieba工具包的使用全模式代码:
words=jieba.cut("国基北盛与浙江大学联合举办了人工智能大赛",cut_all=True)
print(list(words))输出:
['国基','国基北盛','与','浙江','浙江大学','大学','学联','联合','联合举办','举办','了','人工','人工智能','智能','大赛']全模式:把句子中所有的可以成词的词语都扫描出来,速度非常快,但不能解决歧义(一)jieba工具包介绍2.2.3案例实施2.2jieba工具包的使用全模式代码:
words=jieba.cut("国基北盛与浙江大学联合举办了人工智能大赛",cut_all=True)
print(list(words))输出:
['国基','国基北盛','与','浙江','浙江大学','大学','学联','联合','联合举办','举办','了','人工','人工智能','智能','大赛']全模式:把句子中所有的可以成词的词语都扫描出来,速度非常快,但不能解决歧义(一)jieba工具包介绍2.2.3案例实施2.2jieba工具包的使用使用自定义词典进行分词(一)代码:
jieba.add_word("国基北盛")
jieba.add_word("联合举办") words=jieba.lcut("国基北盛与浙江大学联合举办了人工智能大赛")
print(words)
输出:
['国基北盛','与','浙江大学','联合举办','了','人工智能','大赛']jieba.add_word(w):向分词词典中添加新词w(一)jieba工具包介绍2.2.3案例实施2.2jieba工具包的使用使用自定义词典进行分词(二)代码:
jieba.load_userdict('jiebatxt.txt')
words=jieba.lcut("国基北盛与浙江大学联合举办了人工智能大赛")print(words)
输出:
['国基北盛','与','浙江大学','联合举办','了','人工智能','大赛']jieba.load_userdict('文件名'):加载自定义词典词典格式:词词频词性(后两个可以不写)(一)jieba工具包介绍2.2.3案例实施2.2jieba工具包的使用使用自定义词典进行分词(三)代码:
word1=jieba.lcut("国基北盛与浙江大学联合举办了人工智能大赛")jieba.del_word("人工智能")word2=jieba.lcut("国基北盛与浙江大学联合举办了人工智能大赛")
输出:
word1:['国基','北盛','与','浙江大学','联合
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 房地产公司购房者身份识别与合同查对措施
- 2025年人教版七年级上册历史多媒体教学计划
- 2025年矿业公司安全环保工作总结与计划
- 企业数字化转型2024年工作计划
- 2025部编版六年级语文学习习惯培养计划
- 绿化工程施工安全责任费用计划
- 2025年小学教师教学评估培训计划
- 幼儿园心理游戏活动计划
- 医疗贷款服务合同范文
- 征收补偿安置拆迁房屋购买与社区安全防范合同
- 太阳能发电指数保险-条款
- 文字学概要完整版本
- 2022年幼儿识字:生字卡片-幼儿识字卡片大全
- 标准风机样本参数表(多种型号)
- JY-T 0466-2015 小学体育器材设施配备标准
- 2023分布式光伏电站安装作业指导书
- 成人呼吸支持治疗器械相关压力性损伤的预防
- 蛛网膜下腔出血病人护理查房
- 石英砂过滤器出厂检验报告
- 北师大版数学五年级下册期末整理与复习课件
- 2023年上海市闵行区数学五年级第二学期期末教学质量检测模拟试题含解析
评论
0/150
提交评论