2021自然语言处理汇报大纲_第1页
2021自然语言处理汇报大纲_第2页
2021自然语言处理汇报大纲_第3页
2021自然语言处理汇报大纲_第4页
免费预览已结束,剩余22页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

自然语言处理•统计自然语言处理〇か司"最大长度分词«双向最大长度分词・细粒度分词搜索引擎分词输出一句话中所有的词"嵌套分词'有词典的jieba词典•hanlp«输入法的词典〇数据结构"字符匹配树•trie,ac自动机〇特征・字"词・短语,ngram两个连续的信息n个连续的信息算法〇tfidfotextrank〇垂直领域词典〇通用领域词典〇卡方算法,skipgramwordpiece〇统计翻译模型nmt〇词性识别,pos数据集•人民日报数据集〇命名实体识别・模型hmmerf〇crf+•标注模式BIOBIOSBIOES任务形式«单粒度命名实体识Sリ»嵌套实体识别nestner〇关键词抽取tfidftextrank〇文本摘要textrank〇文本分类朴素贝叶斯文本分类支持向量机文本分类•深度学习自然语言处理〇深度学习模型,cnn•textcnn文本分类・cnnerfattention轻量级文本深度学习命名实体识别模型•Istm«字词混合编码语言模型elm。seq2seq常用encode方案命名实体识别bilstmerf文本匹配模型dssm,gru»更新门和重置门〇深度学习中文本编码•tfidftf〇词频idf〇逆文档词频,bow词袋模型,nnlmNerualNetworkLanguageModel通过一个神经网络结构对n元条件概率进行评估onehot缺点矩阵特别的大■fasttext"word2vec・2013年•模式〇skipgram-衍生任务•graphembedding〇deepwalk〇node2vec〇cbow・变种〇glove-共现概率矩阵■elmo«字词混合Istm编码〇深度学习中自然语言处理イ王务-文本分类・类别〇多分类〇多标签分类〇层次分类・命名实体识别•任务类型〇单粒度非重叠命名实体识别〇多粒度重叠命名实体识别•模型ocnnerfobilstmerf〇bigruerf〇在一段话中找到我们所需要的实体•标注过程〇BIO〇BIOS"单独ー个字是ー个实体的场景比较多的情况下我们会采用此方法作为标注手段■关系抽取•〇找到一段文本中存在的实体与实体之间的关系•数据集〇duie-dataset•模型〇指针半指针模型-事理图谱任务〇寻找事件与事件之间的关系处理模式〇事理图谱的上下为推理数据效果〇事理图谱•阅读理解«是否类型阅读理解〇数据集,squad"dureader«答案在原文连续序列形阅读理解〇抽取式阅读理解■webqa,sougouqa〇多文档阅读理解・数据集dureadersquad«答案在原文多段式阅读理解〇基于滑动窗口预测ー对多问答关系能力•生成式阅读理解〇司法考试«阅读理解的应用〇文档问答〇命名实体识5リ〇关系抽取,文本翻译«有监督文本翻译•无监督文本翻译«小语种翻译〇地区语言迁移学习•文本纠错seq2seqskipgram〇错误信息的概率■文本转编程语言missionotext2cypherotext2sql•实现方案〇宽表〇预测文本那一列•model〇IGSQL〇RAT-SQL・问答对话状态跟踪〇dm〇基于关键词的对话跟踪模型〇基于任务的对话跟踪模型生成式问答能力«词槽式问答能力〇ner〇特征skipgram知识图谱问答〇文本分类〇nl2cypher・预训练语言模型自然语言处理〇transformEncoder-Decoder的结构〇attentionMultiHeadselfAttention•ScaledDotProductAttention〇公式MultiHeadAttention〇MultiHeadAttention是使用多组Attention得到相应的结果并拼接〇head■PositionalHead・这个Head在90%的情况下都会把最大的权值分配给左边或者右边的ー个词。•计算的权值通常指向临近的词■SyntacticHead将词语之间的关系联系起来case〇名词和动词的指向关系,RareHead大的权值分配给稀有词ConvolutionAttentionCrossAttentionQuery和SupportSet里面的每一张图像都经过ー个网络提取特征,得到相应的的特征,然后互相Attend得到重组的特征,再计算相似度进行MetaTrainCrossAttention示意图■Globalvs.LocalAttentionGlobalAttention〇全局的Attention〇globalattention模型示意图LocalAttention〇介于Soft和HardAttention的一种机制〇localattention示意图■CompositionalAttentionPairwiseAffinityoPairwiseAffinity公式DistanceDissimilarity〇DistanceDissimilarity公式最终attention计算oCompositionalAttention合并E和N的权重-总结•Attention的本质就是加权,权值可以反应模型关注的点〇bert■pretrainmissionmlm(MaskedLanguageModeling)〇inputsequence中的每个token有15%的概率masked,并且用最后ー层hiddenstates映射到词表上逬行预测。由于fine-tune阶段并没有mask符号,在预训练阶段,被masked的token只有80%的情况被替换为[mask]符号,10%的情况下呗替换为词表中其他任意符号,10%的情况下不做替换。wwm〇连续tokennsp(NextSentencePrediction)〇句子级别二分类任务〇补充建模句子之间的关系。inputsequence包括两个句子,50%的概率两个句子有前后顺序关系,50%的概率是随机挑选的两个句子。用句首对应的hiddenstates映射到而分类任务上进行预测。〇训练的前几轮表现就会非常的好"输入embeddingbpetokenembedding〇分词〇特征转到idpositionembeddingsegmentembedding■pretaketokenBPE〇前缀分词〇后缀分词subword〇词元词根-构造[CLS]Sentence.A[SEP]Sentence.B[SEP]的形式,然后截断到512token长度,使用BPE分词,每个token有15%的概率进行mask操作。■Fine-tunemissionsentencepaircissinglesentencecisquestionanswertasksinglesentencetaggingtaskobert家族■bertwwm•实体maskxlnetalbert•2019electrarobertawordbert•wordbertosubword-词元词根•t5ngramberternie•ernietiny〇gpt■gpt•用Transformer的Decoder来做单向语言模型的预训练。•fine-tune〇task"specificinputadaptations,gpt2«预训练阶段〇BPE:直接在byte序列上逬行bpe,减小basevocab。为了避免陷入局部最优解,除空格之外,禁止将不同类别的字节逬行合并。〇LayerNormalization:将!ayernormalization放至リ每个subblock之前,并在最后一个Self-attention后再增加一个layernormalization.・gpt3■GenerativePre-Training•对比学习〇基础概念•对比学习在做特征表示相似性计算时,要先对表示向量做L2正则,之后再做点积计算,或者直接采用Cosine相似性〇计算机视觉・基于负例的对比学习MocoVI•SimCLR〇子主题•自然语言处理的应用。法律-法律文书解析・实体〇文字类型实体"法律法规法条〇数字类型实体,处罚金额涉案金额关系。线索链接事件〇围绕论元展开关系。时间为事件重要因素相似度〇文本相似度〇事件相似度-时序图表示学习相イ以度〇医疗"电子病历解析•合理用药推理。用药潜在风险推理・药品说明书解析・药物知识图谱・公网医疗信息解析医疗文章信息医疗问答信息〇导诊〇在线〇TA药品症状热词〇地区流行病预测药物热词〇药物市场预估〇药物销量周期性预测〇教育・文科«改写〇分级阅读«纠错•作文生成式推荐〇金融舆情量化风控・轻量化预训练语言模型〇方法模型蒸储»常见方案teacher-student模型模型剪枝模型量化〇模型〇更浅(12层->3层transformerblock)〇更短(字粒度。subword粒度缩短输入长度)〇加大宽度(768->1024hiddensize)«优势〇4倍提速的同时模型效果只有少量下降,alberttiny・特征〇sop句子顺序预测〇减少参数矩阵分解参数共享■Electratiny•特征〇生成式决策架构•实验细节〇参数共享〇更小的生成器〇训练策略"摒弃掉了dropout■autotinybert«结合了自动参数学习的预训练语言模型•openvin。基于cpu部署轻量化语言模型及下游任务〇自然语言处理在边缘计算中的应用〇例如12层的bert算カ要求很高,但是我们用三层的就可以在边缘部

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论