融合属性抽取的多粒度专利文本聚类研究的开题报告_第1页
融合属性抽取的多粒度专利文本聚类研究的开题报告_第2页
融合属性抽取的多粒度专利文本聚类研究的开题报告_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

融合属性抽取的多粒度专利文本聚类研究的开题报告一、研究背景及意义随着互联网的发展,海量的专利文本数据被不断产生。其中,包括了大量的融合属性的专利文本数据,如:标题、摘要、权利要求书、说明书等,这些都是技术信息的重要来源。如何高效、准确地挖掘出专利文本中蕴含的知识信息,已成为该领域研究的热点问题之一。传统的专利文本聚类算法通常只考虑了单一粒度的文本数据,例如:只针对专利标题、摘要等单一属性进行聚类。而这种方法会忽略专利文本中的多粒度属性特征,造成大量的信息损失。因此,如何实现融合属性抽取的多粒度专利文本聚类,成为专利文本数据分析研究领域的一个重要研究方向。本研究通过融合属性抽取的多粒度专利文本聚类,旨在实现以下一些目标:1.提高专利文本聚类的效率及准确性;2.发掘出专利文本中更多的知识信息,并为专利技术的研究提供重要的参考依据;3.在实际应用中为专利数据挖掘提供更有力的支持。二、研究内容和方法2.1研究内容:(1)分析与比较融合属性抽取的多粒度专利文本聚类方法;(2)构建专利文本数据集,包含多粒度的特征属性,例如:标题、摘要、权利要求书、说明书等,并进行数据清洗、预处理;(3)采用经验模态分解(EMD)算法对多粒度专利文本数据进行特征提取;(4)研究基于谱聚类算法的多粒度专利文本聚类模型,并分析其优缺点;(5)运用该算法对专利文本数据进行聚类实验,并评估实验结果。2.2研究方法:(1)文献阅读与资料收集:阅读学术期刊、会议论文、书籍等相关文献资料,了解研究现状及发展趋势;(2)数据集构建:筛选与构建合适的专利文本数据集,并进行数据清洗、预处理;(3)EMD特征提取:采用EMD算法从多粒度专利文本数据中提取出主要特征信息;(4)谱聚类算法模型构建:构建基于谱聚类算法的多粒度专利文本聚类模型,并分析与比较其优缺点;(5)聚类实验及结果评估:运用该算法对专利文本数据进行聚类实验,并评估实验结果。三、主要研究步骤及计划进度3.1主要研究步骤:(1)文献调研及资料收集调研现有的多粒度专利文本聚类方法,阅读相关文献,搜集与整理数据集。(2)多粒度数据集构建构建包含多粒度属性特征的专利文本数据集,并进行数据清洗、预处理。(3)EMD特征提取采用EMD算法从多粒度专利文本数据中提取出主要特征信息。(4)谱聚类算法模型构建构建基于谱聚类算法的多粒度专利文本聚类模型,并进行优缺点分析。(5)聚类实验及结果评估运用构建好的算法模型对专利文本数据进行聚类实验,并评估实验结果。3.2计划进度:第一年:(1)完成文献调研及资料收集;(2)完成多粒度数据集构建及数据预处理;(3)实现EMD特征提取算法;(4)建立并实现基于谱聚类算法的多粒度专利文本聚类模型;(5)进行聚类实验及结果评估。第二年:(1)完成实验结果分析;(2)优化算法模型并重复实验;(3)完成论文撰写及论文答辩;四、预期成果及意义本研究将针对专利文本数据中的融合属性特征,通过多粒度处理来进行聚类,提高了聚类效率和准确性。预计能够得到一种基于谱聚类算法的多粒度专利文

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论