信息技术课件人工智能识文断字理解文本_第1页
信息技术课件人工智能识文断字理解文本_第2页
信息技术课件人工智能识文断字理解文本_第3页
信息技术课件人工智能识文断字理解文本_第4页
信息技术课件人工智能识文断字理解文本_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

识文断字:理解文本《人工智能基础》(高中版)第七章人工智能中学2019年6月6日文本数据建立传统图书信息服务的三大要素图书、报刊(知识的重要化身)图书馆(知识的殿堂)图书管理员(知识的保护者与传播的代理人)网络的世界是一个虚拟化的电子图书馆书有了新的形式(网页、应用)图书馆有了新的平台(网络服务器)图书管理员有了新的竞争者(搜索引擎)导言我们每天都会遇到各种各样的文本数据,但大部分是非结构化的,并不是全部都是有价值的。潜在语义分析(LSA)计算机从海量的文本数据中心自动发掘出潜在的主题,进而完成对文本内容的概括与提炼。借助导言01任务的特点02文本的特征03高屋建瓴:发掘文本中潜在的主题04投其所好:给予主题的文本搜索与推荐目录01任务的特点无监督学习算法语料库文档主题日常获得的文本数据(无任何主题标记)消息本体人工标注(海量规模,代价高昂)K均值算法(对文本数据进行聚类,但类别单一)潜在语义分析技术(可分析出多个潜在的主题)/一整年的报纸//报纸上的一篇文章//政治、经济、教育、科技、民生等/例如教育主题政治主题02文本的特征词袋模型BoW(bag-of-wordsmodel)文档装有若干词语的袋子(二元组)铭铭:1铭铭喜欢打篮球,也喜欢打乒乓球。喜欢:2打:2篮球:1也:1乒乓球:1词语:出现次数词典1(所有词汇均出现)序号123456词语铭铭喜欢打篮球也乒乓球特征向量次计数向量n=(1,2,2,1,1,1)词频向量f=(1/8,1/4,1/4,1/8,1/8,1/8)词典2(只包含部分词汇)序号1234词语铭铭喜欢篮球乒乓球次计数向量n=(1,2,1,1)词频向量f=(1/5,2/5,1/5,1/5)例102文本的特征铭铭喜欢打篮球,也喜欢打乒乓球。例2文档1铭铭去公园放风筝。文档2铭铭的学校开设了人工智能课程。文档3语料库词典序号1234词语铭铭喜欢打篮球序号5678词语也乒乓球去公园序号9101112词语放风筝的学校序号13141516词语开设了人工智能课程统计文档中出现各词语的次数特征向量(次计数向量)铭铭喜欢打篮球也……课程文档112211……0文档210000……0文档310000……1n1=(1,2,1,1,…,0)n2=(1,0,0,0,…,0)n3=(1,0,0,0,…,1)02文本的特征词袋模型应用的基本流程中文分词文档词袋删除停止词与低频词词典统计词频率计算词频率—逆文档频率词频特征词频率—逆文档频率特征英文:以空格和标点符号为依据中文:需借助额外的分词技术(基于匹配与统计学方法)停止词:不携带任何主体信息的高频词(如:的、也、了)低频词:不常用的专有名词词频率—逆文档频率反映一个词语对于一篇文档的重要性逆文档频率:文档频率的负对数修正每个词语在每篇文档中的重要性(仅词频率高,该词的重要性不一定高)03高屋建瓴:发掘文本中潜在的主题一篇文档通常饱含若干个主题,每个主题对应一个词频向量。比重不同潜在主题:T个每个主题对应一个词频向量:tj=(xj1,xj2,…,xjV)1≤j≤T词典大小:V各主题的比重:w1,w2,…,wT文档的词频向量:d=(y1,y2,…,yT

)d=w1t1+w2t2+…+wTtV03高屋建瓴:发掘文本中潜在的主题d=w1t1+w2t2+…+wTtVd=wTD=WT语料库中有D篇文档文档词频:D主题比重:W主题词频:T矩阵简化矩阵简化矩阵乘法示意图03高屋建瓴:发掘文本中潜在的主题D=WT文档词频(已知:通过统计语料库得到)语料库中所有潜在的主题每一篇文档中各个主题的比重主题模型仅仅通过加权平均建立语料库要簮之间的关系需通过非负矩阵分解法,使公式左右两边尽量接近,得解04投其所好:给予主题的文本搜索与推荐传统搜索引擎一词多义问题近义词问题主题模型+潜在语义分析在搜索过程中对文档的主题加以考察,克服关键词的局限例如:使用关键词“水分”进行搜索,指定“科学”这以主题,过滤和“虚假”相关的文章

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论