




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
(1)分句SentenceSplitter:分句模型将一个段落通过”。”、”?”、”!”等形式分开代码:
frompyltpimportSentenceSplitter
sents=SentenceSplitter.split('由于父亲此后前往哈佛大学求学。奥巴马从小由母亲抚养。')
forsentinsents:
print(sent)输出:
由于父亲此后前往哈佛大学求学。
奥巴马从小由母亲抚养。3.3.2案例分析(二)依存句法分析3.3将一个文档通过”。”、”?”、”!”等形式分开代码:
frompyltpimportSentenceSplitter#导入模块
defsentence_splitter(file_name):#定义函数,输入:file_name文件名
out_sent=[]
file=open(file_name,"r",encoding='UTF-8')#以只读的方式打开文件
sents=file.readlines()#读取文件
forsentinsents:
sent=sent.rstrip('\n')#去掉换行符
single_sentence=SentenceSplitter.split(sent)
#分句
forsentenceinsingle_sentence:
out_sent.append(sentence)
print(out_sent)
returnout_sent#输出:句子的列表(1)分句SentenceSplitter:分句模型3.3.2案例分析(二)依存句法分析3.3(2)分词Segmentor:分词模型代码:
frompyltpimportSegmentor
segmentor=Segmentor()#初始化实例
segmentor.load('cws.model')#加载模型
words=segmentor.segment('由于父亲此后前往哈佛大学求学,奥巴马从小由母亲抚养。')
forwordinwords:
print(word)
segmentor.release()#释放模型输出:
由于父亲此后前往哈佛大学求学,奥巴马从小由母亲抚养。3.33.3.2案例分析(二)依存句法分析使用自定义字典
自定义字典:
哈佛大学代码:
frompyltpimportSegmentor
segmentor=Segmentor()#初始化实例
segmentor.load_with_lexicon('cws.model','dic_path.txt')#dic_path是自定义字典
words=segmentor.segment('由于父亲此后前往哈佛大学求学,奥巴马从小由母亲抚养。')
forwordinwords:
print(word)
segmentor.release()#释放模型3.3(2)分词Segmentor:分词模型3.3.2案例分析(二)依存句法分析输出:
由于父亲此后前往哈佛大学求学,奥巴马从小由母亲抚养。注意:没有自定义词典:segmentor.load('cws.model')有自定义字典:segmentor.load_with_lexicon('cws.model',自定义字典名)3.3(2)分词Segmentor:分词模型3.3.2案例分析(二)依存句法分析(3)词性标注Postagger:词性标注模型代码: frompyltpimportPostagger
postagger=Postagger()#初始化实例 postagger.load('pos.model')#加载模型 postags=postagger.postag(words)#词性标注 forword,postaginzip(words,postags): print(word,postag) postagger.release()#释放模型输出:
由于p父亲n此后nt前往v哈佛大学ni求学v,wp 奥巴马nh从小d由p母亲n抚养v。wp3.33.3.2案例分析(二)依存句法分析(4)实体命名识别NamedEntityRecognizer:实体命名模型Nh——人名,NS——地名,Ni——机构名B——实体开始词,I——实体中间词,E——实体结束词,S——单独成实体,O——不构成实体代码:
frompyltpimportNamedEntityRecognizer
recognizer=NamedEntityRecognizer()#初始化实例 recognizer.load(ner_model_path)#加载模型 netags=recognizer.recognize(words,postags)#命名实体识别,用到了词性标注的结果 forword,netaginzip(words,netags): print(word,netag)输出:
由于O父亲O此后O前往O哈佛大学S-Ni求学O,O
奥巴马S-Nh从小O由O母亲O抚养O3.3.2案例分析(二)依存句法分析3.3(5)依存句法分析Parser:语法分析模型依存关系字典:Tag关系类型Tag关系类型SBV主谓关系CMP动补结构VOB动宾关系COO并列关系IOB间宾关系POB介宾关系FOB前置宾语LAD左附加关系DBL兼语RAD右附加关系ATT定中关系IS独立结构ADV状中结构HED核心关系3.33.3.2案例分析(二)依存句法分析代码: frompyltpimportParser parser=Parser()#初始化实例 parser.load('parser.model')#加载模型 arcs=parser.parse(words,postags)#句法分析,用到词性标注的结果 print('\t'.join('%d:%s'%(arc.head,arc.relation)forarcinarcs))输出:
12:ADV4:SBV 4:ADV 1:POB 4:VOB 4:COO 1:WP 12:SBV 12:ADV 12:ADV 10:POB0:HED 12:WP3.3(5)依存句法分析Parser:语法分析模型3.3.2案例分析(二)依存句法分析词性分析结果:由于p父亲n此后nt前往v哈佛大学ni求学v,wp奥巴马nh从小d由p母亲n抚养v。wp依存句法分析结果:12:ADV4:SBV4:ADV1:POB4:VOB4:COO1:WP12:SBV12:ADV12:ADV10:POB0:HED12:WP排序:0ROOT
1由于2父亲3此后4前往5哈佛大学6求学7,8奥巴马9从小10由11母亲12抚养13。结果:ADV(由于,抚养)SBV(父亲,前往)ADV(此后,前往)POB(前往,由于)VOB(哈佛大学,前往)...(5)依存句法分析Parser:语法分析模型3.3.2案例分析(二)依存句法分析3.3代码: rely_id=[arc.headforarcinarcs]#提取依存父节点 relation=[arc.relationforarcinarcs]#提取依存关系 heads=["root"ifid==0elsewords[id-1]foridinrely_id]#匹配依存父节点词语 foriinrange(len(words)): print(relation[i]+'('+words[i]+','+heads[i]+')') parser.release()输出:
ADV(由于,抚养)SBV(父亲,前往)
ADV(此后,前往)
POB(前往,由于)
VOB(哈佛大学,前往)
COO(求学,前往)
WP(,,由于)
SBV(奥巴马,抚养)
ADV(从小,抚养)
ADV(由,抚养)
POB(母亲,由)
HED(抚养,root)
WP(。,抚养)(5)依存句法分析Parser:语法分析模型3.3.2案例分析(二)依存句法分析3
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 传统食品工业2025年智能化生产线节能改造案例分析报告
- 浙江省杭州市育才中学2024年八上物理期末综合测试试题含解析
- 贵州护理职业技术学院《生物与生物医学基础》2023-2024学年第一学期期末试卷
- 江苏省无锡市积余中学2025届七年级数学第一学期期末学业水平测试模拟试题含解析
- 宁夏工业职业学院《酶工程与蛋白质工程》2023-2024学年第一学期期末试卷
- 常州幼儿师范高等专科学校《检体诊断E》2023-2024学年第一学期期末试卷
- 六年级语文下册口语教学计划
- 艾滋病防治法律支持2025年工作总结及2025年工作计划
- 知识产权话语权-洞察及研究
- 小学五年级数学培优补差教学工作计划
- 林木育种学复习试题及答案解析
- GB/T 532-2008硫化橡胶或热塑性橡胶与织物粘合强度的测定
- GB/T 32891.2-2019旋转电机效率分级(IE代码)第2部分:变速交流电动机
- GB/T 18068.1-2012非金属矿物制品业卫生防护距离第1部分:水泥制造业
- 2023年黄冈市融资担保集团有限公司招聘笔试题库及答案解析
- 电梯维护保养规则
- (新版)心理倾听师资格考试备考题库(精简250题)
- 宋龙渊道德经讲义
- 受限空间安全作业票填写模板(2022年更新)
- [计算机]力克工艺单软件kaledo_style案例
- 山东大学生物化学课件绪论
评论
0/150
提交评论