《第2课 自然语言描述算法》参考课件6_第1页
《第2课 自然语言描述算法》参考课件6_第2页
《第2课 自然语言描述算法》参考课件6_第3页
《第2课 自然语言描述算法》参考课件6_第4页
《第2课 自然语言描述算法》参考课件6_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第2课 自然语言描述算法 浙教版五年级上册01.描述算法的常用方法。02.用自然语言描述算法。目录第一节1.描述算法的常用方法。

算法的描述方法把求解问题的方法及其步骤用一种规范、可读性强的方式描述出来称为算法的描述,常用的描述方法有自然语言描述、流程图描述、伪代码描述等第一种:流程图流程图是描述代码的一种很好的工具,利用流程图,可以很好的表现出秩序执行过程中的三种基本结构组成一顺序结构、选择结构、循环结构等。需要注意的是,在使用流程图时,规定需要使用一些基本图形。流程图(N-S图)还有一种流程图,叫做N-S图,是在以前的流程图的基础上重新进行了改变,去掉了流程线,并且算法的每一步都用一个框进行描述,最终的执行是将所有的矩形框按照顺序连接起来。第二种:伪代码伪代码是一种介于我们编写的由机器执行的语言,但是又不受语法约束的代码。这种语言时无法被机器执行的,但是和流程图一样,也是一种常用的描述算法的方法。伪代码主要是用来表示代码之间的逻辑关系,并不能交由计算机执行。因此,主要使用对象是设计师和程序员,是用来表达在编码前对算法执行过程中的一些想法的工具。第三种:自然语言算法的第三种表述,就是使用自然语言进行描述。自然语言比较符合我们的阅读习惯,是一种我们都能够理解的方式。不过,这种方式的缺点是无法很准确的描述循环、选择等结构。1、理解问题。2、分析问题。 3、确定适当数据结构和流程控制结构。4、用伪代码表述算法。5、思考算法正确性与效率。如何写好算法第二节2.用自然语言描述算法。

用自然语言描述算法

1.收集数据:文本信息的常见来源包括-商品评价、用户产出的内容(推文、帖子、提问等)、问题解决方案等2.清洗数据:去除一切不相关的字符-比如任何非数字字母的字符(针对英文);标记文本,并拆分为独立的单词;去除不相关的词语;所有字母转换为小写;将拼错的单词或者多种拼法的单词与某个特定的表达绑定;考虑词形还原

3.找到好的数据表达方式(one-hotrepresentation):例如可以为数据集中的所有单词制作一张词表,将每个单词和一个唯一的索引关联。每个句子都是由一串数字组成(词表中独立单词对应的个数)。通过列表的索引,可以统计出句子中某个单词出现的次数(即词袋模型),完全忽略句子中单词的顺序4.分类

5.检验

6.解释词语结构:在词袋模型的基础上进行TF-IDF评分.

7.利用语义:

模型部署之后很有可能遇到在训练集中没有出现过的单词,那么模型可能就无法准确的为这些推文分类。需要获取到词语的语义来解决这个问题(比如:Word2Vec词向量-用来为单词寻找连续嵌入的技术),也就是说我们需要理解“good”和“positive”比“apricot”和“continent”更接近。8.Word2Vec通过读取大量文本并记忆出现在相似上下文中的单词进行学习,在经过足够的训练后,它会为词表中的每个单词生成生成一个100-300维的向量,具有相似含义的单词会靠的更近

NLP关键的实际应用

1.识别不同使用者/用户的客户群(预测用户流失、生命周期价值、产品偏好)

2.精准检测和提取反馈分类(正负面的评论观点、对衣服尺寸或舒适度等一些特别属性的提及)

3.根据意图进行文本分类(请求普通帮助、紧急问题处理)

NLP关键的实际应用

4.对微博信息进行分析,通过社交舆情看关注点

5.对邮件分析,结合贝叶斯算法判断哪些是垃圾邮

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论